テキスト→画像AI学習、こうすればFIDが30%下がる

核心3行：200Kステップの秘密、Muonオプティマイザー、トークンルーティング

Photoroomチームがテキスト-画像生成モデルPRXの学習最適化ガイドPart 2を公開した。^{[Hugging Face]} Part 1がアーキテクチャを扱ったとすれば、今回は実際に学習する際、何をどうすればいいのか具体的なアブレーション結果を公開した。

正直、このような類の技術文書はほとんど「うちのモデルは素晴らしい」で終わるが、これは違う。失敗した実験も公開し、各手法のトレードオフを数値で示している。

テキスト-画像モデルを最初から学習するのはコストが莫大だ。誤った設定一つでGPU数千時間が無駄になる。Photoroomが公開したデータはこの試行錯誤を減らしてくれる。

個人的に最も目を引く発見はREPA（表現アライメント）に関するものだ。REPA-DINOv3を使うとFIDが18.2から14.64に下がる。しかし問題がある。処理量が13%減少し、200Kステップ以降はむしろ学習を妨げる。簡単に言うと、序盤のブースターに過ぎないということだ。

もう一つ、BF16重み保存バグ。これを知らずにFP32の代わりにBF16で保存するとFIDが18.2から21.87に跳ね上がる。3.67も上がる。意外と多くのチームがこの罠に陥る。

手法	256×256 FID	1024×1024 FID	処理量
Baseline	18.20	–	3.95 b/s
REPA-E-VAE	12.08	–	3.39 b/s
TREAD	21.61 ↑	14.10 ↓	1.64 b/s
Muon Optimizer	15.55	–	–

256×256でTREADはむしろ品質を低下させる。しかし1024×1024では全く異なる結果が出る。解像度が高いほどトークンルーティング効果が最大化されるということだ。

PhotoroomはPart 3で全体の学習コードを公開し、24時間「スピードラン」を実施する予定だ。どれだけ早くまともなモデルを作れるか見せるということだ。

個人的にはこの公開がオープンソース画像生成モデル生態系に相当な影響を与えると思う。Stable Diffusion以降、学習ノウハウがこれほど具体的に公開されたのは初めてだ。

Q: REPAはいつ除去すべきか？

A: 約200Kステップ以降だ。初期には学習を加速させるが、その後はむしろ収束を妨げる。Photoroomの実験で明確に明らかになった。タイミングを逃すと最終モデルの品質が低下する。

Q: 合成データと実際の画像、どちらを使うべきか？

A: 両方使う。初期には合成画像でグローバル構造を学習し、後期には実際の画像で高周波ディテールを捉える。合成だけ使うとFIDは良くても写真のような感じが出ない。

Q: MuonオプティマイザーはAdamWよりどれくらい優れているか？

A: FID基準で約15%改善だ。18.2から15.55に下がった。計算コストは似ているので、使わない理由はない。ただし、ハイパーパラメータチューニングが少し難しい。

この記事が役に立ったならAI Digesterを購読してください。