テキスト→画像AI学習、こうすればFIDが30%下がる

核心3行:200Kステップの秘密、Muonオプティマイザー、トークンルーティング

  • REPAアライメントは初期アクセラレーターに過ぎず、200Kステップ以降は必ず除去する必要がある
  • Muonオプティマイザー1つでFID 18.2 → 15.55達成(15%改善)
  • 1024×1024高解像度でTREADトークンルーティングはFID 14.10まで引き下げる

何が起こったのか?

Photoroomチームがテキスト-画像生成モデルPRXの学習最適化ガイドPart 2を公開した。[Hugging Face] Part 1がアーキテクチャを扱ったとすれば、今回は実際に学習する際、何をどうすればいいのか具体的なアブレーション結果を公開した。

正直、このような類の技術文書はほとんど「うちのモデルは素晴らしい」で終わるが、これは違う。失敗した実験も公開し、各手法のトレードオフを数値で示している。

なぜ重要なのか?

テキスト-画像モデルを最初から学習するのはコストが莫大だ。誤った設定一つでGPU数千時間が無駄になる。Photoroomが公開したデータはこの試行錯誤を減らしてくれる。

個人的に最も目を引く発見はREPA(表現アライメント)に関するものだ。REPA-DINOv3を使うとFIDが18.2から14.64に下がる。しかし問題がある。処理量が13%減少し、200Kステップ以降はむしろ学習を妨げる。簡単に言うと、序盤のブースターに過ぎないということだ。

もう一つ、BF16重み保存バグ。これを知らずにFP32の代わりにBF16で保存するとFIDが18.2から21.87に跳ね上がる。3.67も上がる。意外と多くのチームがこの罠に陥る。

実践ガイド:解像度別戦略

手法 256×256 FID 1024×1024 FID 処理量
Baseline 18.20 3.95 b/s
REPA-E-VAE 12.08 3.39 b/s
TREAD 21.61 ↑ 14.10 ↓ 1.64 b/s
Muon Optimizer 15.55

256×256でTREADはむしろ品質を低下させる。しかし1024×1024では全く異なる結果が出る。解像度が高いほどトークンルーティング効果が最大化されるということだ。

今後どうなるか?

PhotoroomはPart 3で全体の学習コードを公開し、24時間「スピードラン」を実施する予定だ。どれだけ早くまともなモデルを作れるか見せるということだ。

個人的にはこの公開がオープンソース画像生成モデル生態系に相当な影響を与えると思う。Stable Diffusion以降、学習ノウハウがこれほど具体的に公開されたのは初めてだ。

よくある質問(FAQ)

Q: REPAはいつ除去すべきか?

A: 約200Kステップ以降だ。初期には学習を加速させるが、その後はむしろ収束を妨げる。Photoroomの実験で明確に明らかになった。タイミングを逃すと最終モデルの品質が低下する。

Q: 合成データと実際の画像、どちらを使うべきか?

A: 両方使う。初期には合成画像でグローバル構造を学習し、後期には実際の画像で高周波ディテールを捉える。合成だけ使うとFIDは良くても写真のような感じが出ない。

Q: MuonオプティマイザーはAdamWよりどれくらい優れているか?

A: FID基準で約15%改善だ。18.2から15.55に下がった。計算コストは似ているので、使わない理由はない。ただし、ハイパーパラメータチューニングが少し難しい。


この記事が役に立ったならAI Digesterを購読してください。

参考資料

コメントする