Text→Image AI学習、これによりFIDが30%削減される

Core Line 3: 200K step secret, Muon optimizer, token routing

REPA sortは初期アクセラレータに過ぎず、200K steps以降は削除すべき
Muon optimizerだけでFID 18.2 → 15.55を達成（15%向上）
1024×1024高解像度ではTREAD token routingがFIDを14.10まで削減

What happened?

Photoroomチームがtext-to-image generationモデルPRX Part 2の最適化ガイドを公開した。^{[Hugging Face]} Part 1がアーキテクチャに関する内容だったのに対し、今回は実際の学習時に何をすべきかについての具体的なablation結果を共有した。

正直、この種の技術文書はほとんど「我々のモデルが最高だ」で終わるが、これは違う。失敗した実験も公開し、各技術のtrade-offを数値で示した。

Why is it important?

text-imageモデルをゼロから学習するコストは膨大だ。たった一つの誤った設定で数千GPU時間を無駄にすることがある。Photoroomが公開したデータはこのような試行錯誤を減らす。

個人的に最も注目すべき発見はREPA（Representation Alignment）に関するものだ。REPA-DINOv3を使用するとFIDが18.2から14.64に下がる。しかし問題がある。throughputが13%減少し、200K steps以降は学習が実際に低下する。簡単に言えば、初期ブースターに過ぎない。

BF16 weight storageのもう一つのバグ。これを知らずにFP32の代わりにBF16で保存するとFIDが18.2から21.87に急増する。3.67も上がる。驚くべきことに、多くのチームがこの罠に陥る。

Practical Guide: Strategies by Resolution

Technique	256×256 FID	1024×1024 FID	Throughput
Baseline	18.20	–	3.95 b/s
REPA-E-VAE	12.08	–	3.39 b/s
TREAD	21.61 ↑	14.10 ↓	1.64 b/s
Muon Optimizer	15.55	–	–

256×256ではTREADが実際に品質を低下させる。しかし1024×1024では完全に異なる結果が得られる。解像度が高いほどtoken routing効果が大きい。

What will happen in the future?

PhotoroomはPart 3で完全な学習コードを提供する。これを公開し、24時間「speed run」を実施する計画だ。良いモデルをどれだけ速く作れるかを示すことが目標だ。

個人的に、この公開はオープンソース画像生成モデルエコシステムに大きな影響を与えると思う。Stable Diffusion以来、これほど詳細に学習ノウハウが公開されたのは初めてだ。

Frequently Asked Questions (FAQ)

Q: REPAはいつ削除すべきか？

A: 約200K steps以降。最初は学習を加速するが、その後は実際に収束を妨げる。これはPhotoroom実験で明確に示されている。タイミングを逃すと最終モデルの品質が低下する。

Q: synthetic dataとreal imagesのどちらを使うべきか？

A: 両方使うべき。最初はsynthetic imagesを使ってglobal structureを学習し、後半段階ではreal imagesを使ってhigh-frequency detailsをキャプチャする。compositingだけを使うとFIDは良いが、写真のようには見えない。

Q: Muon optimizerはAdamWよりどれくらい優れているか？

A: FID基準で約15%向上。18.2から15.55に下がる。computational costが同様なので、使わない理由がない。ただし、hyperparameter tuningは少し難しい。

この記事が役に立ったなら、AI Digesterを購読してほしい。

References

Training Design for Text-to-Image Models: Lessons from Ablations – Hugging Face (2026-02-03)