Core Line 3: 200K step secret, Muon optimizer, token routing
- REPA sortは初期アクセラレータに過ぎず、200K steps以降は削除すべき
- Muon optimizerだけでFID 18.2 → 15.55を達成(15%向上)
- 1024×1024高解像度ではTREAD token routingがFIDを14.10まで削減
What happened?
Photoroomチームがtext-to-image generationモデルPRX Part 2の最適化ガイドを公開した。[Hugging Face] Part 1がアーキテクチャに関する内容だったのに対し、今回は実際の学習時に何をすべきかについての具体的なablation結果を共有した。
正直、この種の技術文書はほとんど「我々のモデルが最高だ」で終わるが、これは違う。失敗した実験も公開し、各技術のtrade-offを数値で示した。
Why is it important?
text-imageモデルをゼロから学習するコストは膨大だ。たった一つの誤った設定で数千GPU時間を無駄にすることがある。Photoroomが公開したデータはこのような試行錯誤を減らす。
個人的に最も注目すべき発見はREPA(Representation Alignment)に関するものだ。REPA-DINOv3を使用するとFIDが18.2から14.64に下がる。しかし問題がある。throughputが13%減少し、200K steps以降は学習が実際に低下する。簡単に言えば、初期ブースターに過ぎない。
BF16 weight storageのもう一つのバグ。これを知らずにFP32の代わりにBF16で保存するとFIDが18.2から21.87に急増する。3.67も上がる。驚くべきことに、多くのチームがこの罠に陥る。
Practical Guide: Strategies by Resolution
| Technique | 256×256 FID | 1024×1024 FID | Throughput |
|---|---|---|---|
| Baseline | 18.20 | – | 3.95 b/s |
| REPA-E-VAE | 12.08 | – | 3.39 b/s |
| TREAD | 21.61 ↑ | 14.10 ↓ | 1.64 b/s |
| Muon Optimizer | 15.55 | – | – |
256×256ではTREADが実際に品質を低下させる。しかし1024×1024では完全に異なる結果が得られる。解像度が高いほどtoken routing効果が大きい。
What will happen in the future?
PhotoroomはPart 3で完全な学習コードを提供する。これを公開し、24時間「speed run」を実施する計画だ。良いモデルをどれだけ速く作れるかを示すことが目標だ。
個人的に、この公開はオープンソース画像生成モデルエコシステムに大きな影響を与えると思う。Stable Diffusion以来、これほど詳細に学習ノウハウが公開されたのは初めてだ。
Frequently Asked Questions (FAQ)
Q: REPAはいつ削除すべきか?
A: 約200K steps以降。最初は学習を加速するが、その後は実際に収束を妨げる。これはPhotoroom実験で明確に示されている。タイミングを逃すと最終モデルの品質が低下する。
Q: synthetic dataとreal imagesのどちらを使うべきか?
A: 両方使うべき。最初はsynthetic imagesを使ってglobal structureを学習し、後半段階ではreal imagesを使ってhigh-frequency detailsをキャプチャする。compositingだけを使うとFIDは良いが、写真のようには見えない。
Q: Muon optimizerはAdamWよりどれくらい優れているか?
A: FID基準で約15%向上。18.2から15.55に下がる。computational costが同様なので、使わない理由がない。ただし、hyperparameter tuningは少し難しい。
この記事が役に立ったなら、AI Digesterを購読してほしい。
References
- Training Design for Text-to-Image Models: Lessons from Ablations – Hugging Face (2026-02-03)