核心3行:200Kステップの秘密、Muonオプティマイザー、トークンルーティング
- REPAアライメントは初期アクセラレーターに過ぎず、200Kステップ以降は必ず除去する必要がある
- Muonオプティマイザー1つでFID 18.2 → 15.55達成(15%改善)
- 1024×1024高解像度でTREADトークンルーティングはFID 14.10まで引き下げる
何が起こったのか?
Photoroomチームがテキスト-画像生成モデルPRXの学習最適化ガイドPart 2を公開した。[Hugging Face] Part 1がアーキテクチャを扱ったとすれば、今回は実際に学習する際、何をどうすればいいのか具体的なアブレーション結果を公開した。
正直、このような類の技術文書はほとんど「うちのモデルは素晴らしい」で終わるが、これは違う。失敗した実験も公開し、各手法のトレードオフを数値で示している。
なぜ重要なのか?
テキスト-画像モデルを最初から学習するのはコストが莫大だ。誤った設定一つでGPU数千時間が無駄になる。Photoroomが公開したデータはこの試行錯誤を減らしてくれる。
個人的に最も目を引く発見はREPA(表現アライメント)に関するものだ。REPA-DINOv3を使うとFIDが18.2から14.64に下がる。しかし問題がある。処理量が13%減少し、200Kステップ以降はむしろ学習を妨げる。簡単に言うと、序盤のブースターに過ぎないということだ。
もう一つ、BF16重み保存バグ。これを知らずにFP32の代わりにBF16で保存するとFIDが18.2から21.87に跳ね上がる。3.67も上がる。意外と多くのチームがこの罠に陥る。
実践ガイド:解像度別戦略
| 手法 | 256×256 FID | 1024×1024 FID | 処理量 |
|---|---|---|---|
| Baseline | 18.20 | – | 3.95 b/s |
| REPA-E-VAE | 12.08 | – | 3.39 b/s |
| TREAD | 21.61 ↑ | 14.10 ↓ | 1.64 b/s |
| Muon Optimizer | 15.55 | – | – |
256×256でTREADはむしろ品質を低下させる。しかし1024×1024では全く異なる結果が出る。解像度が高いほどトークンルーティング効果が最大化されるということだ。
今後どうなるか?
PhotoroomはPart 3で全体の学習コードを公開し、24時間「スピードラン」を実施する予定だ。どれだけ早くまともなモデルを作れるか見せるということだ。
個人的にはこの公開がオープンソース画像生成モデル生態系に相当な影響を与えると思う。Stable Diffusion以降、学習ノウハウがこれほど具体的に公開されたのは初めてだ。
よくある質問(FAQ)
Q: REPAはいつ除去すべきか?
A: 約200Kステップ以降だ。初期には学習を加速させるが、その後はむしろ収束を妨げる。Photoroomの実験で明確に明らかになった。タイミングを逃すと最終モデルの品質が低下する。
Q: 合成データと実際の画像、どちらを使うべきか?
A: 両方使う。初期には合成画像でグローバル構造を学習し、後期には実際の画像で高周波ディテールを捉える。合成だけ使うとFIDは良くても写真のような感じが出ない。
Q: MuonオプティマイザーはAdamWよりどれくらい優れているか?
A: FID基準で約15%改善だ。18.2から15.55に下がった。計算コストは似ているので、使わない理由はない。ただし、ハイパーパラメータチューニングが少し難しい。
この記事が役に立ったならAI Digesterを購読してください。
参考資料
- Training Design for Text-to-Image Models: Lessons from Ablations – Hugging Face (2026-02-03)