Core Line 3: 200K step secret, Muon optimizer, token routing
- REPAソートは初期の加速器に過ぎず、200K steps以降は除去する必要がある
- Muon optimizer一つでFID 18.2 → 15.55達成 (15%向上)
- 1024×1024高解像度でTREAD token routingはFID 14.10まで減少
What happened?
Photoroomチームがtext-to-image generation model PRX Part 2最適化ガイドを公開。 [Hugging Face] Part 1がアーキテクチャに関する内容だったとすれば、今回は実際の学習時に何をすべきかについての具体的なablation結果を公開。
正直、この種の技術文書はほとんど「うちのモデルが最高だ」で終わるが、これは違う。失敗した実験も公開し、各技術のtrade-offを数値で示している。
Why is it important?
text-image modelを最初から学習するのにかかる費用は莫大。たった一つの誤った設定でも数千GPU時間を浪費する可能性がある。Photoroomが公開したデータは、このような試行錯誤を減らしてくれる。
個人的に最も注目すべき発見は、REPA (Representation Alignment)に関するもの。REPA-DINOv3を使用するとFIDが18.2から14.64に低下する。しかし問題がある。throughputが13%減少し、200K steps以降は学習が実際に阻害される。簡単に言うと、初期ブースターに過ぎない。
BF16 weight storageのもう一つのバグ。これを知らずにFP32の代わりにBF16で保存するとFIDが18.2から21.87に急増する。3.67も上がる。驚くべきことに、多くのチームがこの罠に陥る。
Practical Guide: Strategies by Resolution
| Technique | 256×256 FID | 1024×1024 FID | Throughput |
|---|---|---|---|
| Baseline | 18.20 | – | 3.95 b/s |
| REPA-E-VAE | 12.08 | – | 3.39 b/s |
| TREAD | 21.61 ↑ | 14.10 ↓ | 1.64 b/s |
| Muon Optimizer | 15.55 | – | – |
256×256ではTREADが実際に品質を低下させる。しかし1024×1024では全く異なる結果が得られる。解像度が高いほどtoken routing効果が大きい。
What will happen in the future?
PhotoroomはPart 3で全体の学習コードを提供する。これを公開し、24時間「speed run」を行う計画。良いモデルをどれだけ早く作れるかを示すのが目標。
個人的には、この公開がオープンソースイメージ生成モデル生態系に大きな影響を与えると思う。Stable Diffusion以降、これほど詳細に学習ノウハウが公開されたのは初めて。
Frequently Asked Questions (FAQ)
Q: REPAはいつ除去すべきか? One?
A: 約200K steps以降。最初は学習を加速化するが、その後は実際に収束を妨げる。これはPhotoroom実験で明確に明らかにされている。時期を逃すと最終モデルの品質が低下する。
Q: synthetic dataまたはreal imagesのどちらを使用すべきか?
A: 両方使用。最初はsynthetic imagesを使用してglobal structureを学習し、後半段階ではreal imagesを使用してhigh-frequency detailsをキャプチャする。compositingだけを使用するとFIDが良くても写真のように見えない。
Q: Muon optimizerがAdamWよりどれだけ優れているか?
A: FID基準で約15%向上する。18.2から15.55に低下する。computational costが似ているので使用しない理由がない。ただし、hyperparameter tuningが少し難しい。
この記事が役に立ったらAI Digesterを購読してほしい。
References
- Training Design for Text-to-Image Models: Lessons from Ablations – Hugging Face (2026-02-03)