2024年5月の振り返り 見出しへのリンク
概要 見出しへのリンク
- IMCコンペに参加していた
- LT会を開催して、最近のpythonについて発表した
振り返り 見出しへのリンク
やったこと 見出しへのリンク
IMC2024コンペ
- Cuda OOMのデバッグ
- 方針の転換
- 高速化
社内でLT会を開催した
- python3.9 ~ 3.12までの機能について調べた
- 開発環境周りのツールについて調べた
- python3.9 ~ 3.12までの機能や開発環境周りのツールについてまとめたものは別postにした
社内の勉強会の4,5回目を開催した
- 4回目: ソフトウェアアーキテクチャの基礎 第3章 p49 ~ 第4章 p66
- 5回目: ソフトウェアアーキテクチャの基礎 第5章 アーキテクチャ特性を明らかにする, p67 ~ p78
本を読んだ
- 推薦システム 統計的機械学習の理論と実践
- 第8章まで
- 推薦システム実践入門 仕事で使える導入ガイド
- 一通り一周
- MACHINE LEARNING SYSTEM DESIGN INTERVIEW
- 一通り一周
- 例題で学ぶグラフ理論
- 第5章、第6章
- 採用基準
- 一通り読み返した
- 推薦システム 統計的機械学習の理論と実践
わかったこと 見出しへのリンク
IMC2024
- サブした時は、Cuda OOMはNotebook Threw Exceptionに丸められる
- 他には、CPU側のOOMはそのまま、Timeoutもそのまま出力される
- サブしてエラーが起きる時は、学習データを使ってNotebook上で走らせてデバッグする
- 実験はベースラインから1要素ずつ確かめていく(n回目)
- cv/public両方確かめる
- cvだけ信じてある程度作ってから相関しなかった時辛い(辛い)
- ソロでも、逐一ログに残してやるとちょっとした改善が可視化できてモチベが続きやすい
粗い粒度での論理のチェックか細かい粒度での実装の中身のチェックかを分けるといい
- 粗い粒度でのチェックにはロジックツリーとか作って可視化するといい
- 実装のチェックは事前にどういうことを実装したかったのか意図を可視化してからする
- 実装のチェックを漫然と始めるとバグに気づきにくくなる
新しい実装する前には、既存実装についてよく整理する
人を巻き込む時は、背景や目的をドキュメントにちゃんと残す
ちょっとしつこいくらいに告知する
参加するハードルを下げる
モヤモヤすることも言語化して文章に残すとコトかできるので課題として整理できる
MACHINE LEARNING SYSTEM DESIGN INTERVIEWは推薦の事例が多いけどいい本だった
推薦システム実践入門 仕事で使える導入ガイドは全体感を把握するのにかなりわかりやすくてよかった
来月にやること 見出しへのリンク
- 勉強会の6回目,7回目の運営
- LT会2回目の運営
- IMC2024の復習
- 次のコンペに参加する
- 本を読む
- INSPIERED
- Lean Analytics
- 達人に学ぶSQL徹底指南書第2版
- Human-in-the-Loop 機械学習
Input 見出しへのリンク
競技としてのKaggle、役に立つKaggle, yu4u, speakerdeck
- 必ず1つの仮説のみを検証 <- はい
- 画像とOCRテキストをencodeして画像にdecodeして学習する?pretrainの手法
DETRs Beat YOLOs on Real-time Object Detection, Yian Zhao. et al., arxiv
- DETRを拡張して、リアルタイムODを可能にした
An Empirical Study of Scaling Law for OCR, Miao Rang. et al., arxiv
- OCRのスケーリング則を調査
- データセットとしてREBU-Synを作った
- 6Mの実際の画像と18Mの合成画像
Mathematical Optimization in 60 minutes, Shunji Umetani, speakerdeck
- 数理最適化の概観or概観
- 代表的な最適化問題とアルゴリズムの関係がわかる
- 各問題とアルゴリズの概要を紹介してる
1on1 meeting guide, 1on1guide.org, https://guide.1on1guide.org
- 1on1について目的や前提、価値基準を定義してパターンを紹介してる
- 時々1on1わけわからん時期がくるので見返すと良さげ
XFeat: Accelerated Features for Lightweight Image Matching, Guilherme Potje. et al., arxiv
- 精度と計算効率のトレードオフを気にしながらデザインされたlocal特徴抽出CNNモデル
- 早い
なぜ最高データAI責任者は失敗するのか 企業がすぐに着手できる5つの対策, ランディ・ビーン. アリソン・サグレイブス 翻訳 片桐 嘉人, diamond
- AWSのTerraformのベストプラクティス集
- セキュリテイややIaCの開発として足回り、レポジトリの構造やモジュール性といった実際のTerraformのコードのプラクティスを紹介してる
- 詳解Terraform読んだ後に一通り目を通しておくと良さそう
Transformer, Yoshitaka Ushiku, speakerdeck
- transformerの構造や基礎的な内容を解説している
- tokenを混ぜるMixerとtokenを変換するMLPでいい感じにベクトルを受け取っていい感じのベクトルを吐くモデル(細かい部分を除くと。細かい部分が大事)
- 個別に調べると大変なことがわかりやすくまとまってて良かった
LightGlue: Local Feature Matching at Light Speed, Philipp Lindenberger. et al. arxiv
- 画像の特徴点マッチングを高速化する手法
- 簡単な画像のペアは早めにマッチングに、難しいペアはどんどん次の層に投げていく
- SAとCAで類似度のマトリックスを計算していく
- 表データのDNNによる解析は学習時のアノテーションコストがかなりかかる
- ラベルがついてないデータも活用するためにEncoderのVQ-VAEのSelf-Supervised Pretrainingを行った
- その後タスクごとのdecoderの学習をsuperivisedで行うことで性能が向上したよ