テキストから画像AI学習、これによりFIDが30%減少するだろう。

Core Line 3: 200K step secret, Muon optimizer, token routing

REPAソートは初期の加速器に過ぎず、200K steps以降は除去する必要がある
Muon optimizer一つでFID 18.2 → 15.55達成 (15%向上)
1024×1024高解像度でTREAD token routingはFID 14.10まで減少

What happened?

Photoroomチームがtext-to-image generation model PRX Part 2最適化ガイドを公開。 ^{[Hugging Face]} Part 1がアーキテクチャに関する内容だったとすれば、今回は実際の学習時に何をすべきかについての具体的なablation結果を公開。

正直、この種の技術文書はほとんど「うちのモデルが最高だ」で終わるが、これは違う。失敗した実験も公開し、各技術のtrade-offを数値で示している。

Why is it important?

text-image modelを最初から学習するのにかかる費用は莫大。たった一つの誤った設定でも数千GPU時間を浪費する可能性がある。Photoroomが公開したデータは、このような試行錯誤を減らしてくれる。

個人的に最も注目すべき発見は、REPA (Representation Alignment)に関するもの。REPA-DINOv3を使用するとFIDが18.2から14.64に低下する。しかし問題がある。throughputが13%減少し、200K steps以降は学習が実際に阻害される。簡単に言うと、初期ブースターに過ぎない。

BF16 weight storageのもう一つのバグ。これを知らずにFP32の代わりにBF16で保存するとFIDが18.2から21.87に急増する。3.67も上がる。驚くべきことに、多くのチームがこの罠に陥る。

Practical Guide: Strategies by Resolution

Technique	256×256 FID	1024×1024 FID	Throughput
Baseline	18.20	–	3.95 b/s
REPA-E-VAE	12.08	–	3.39 b/s
TREAD	21.61 ↑	14.10 ↓	1.64 b/s
Muon Optimizer	15.55	–	–

256×256ではTREADが実際に品質を低下させる。しかし1024×1024では全く異なる結果が得られる。解像度が高いほどtoken routing効果が大きい。

What will happen in the future?

PhotoroomはPart 3で全体の学習コードを提供する。これを公開し、24時間「speed run」を行う計画。良いモデルをどれだけ早く作れるかを示すのが目標。

個人的には、この公開がオープンソースイメージ生成モデル生態系に大きな影響を与えると思う。Stable Diffusion以降、これほど詳細に学習ノウハウが公開されたのは初めて。

Frequently Asked Questions (FAQ)

Q: REPAはいつ除去すべきか？ One?

A: 約200K steps以降。最初は学習を加速化するが、その後は実際に収束を妨げる。これはPhotoroom実験で明確に明らかにされている。時期を逃すと最終モデルの品質が低下する。

Q: synthetic dataまたはreal imagesのどちらを使用すべきか？

A: 両方使用。最初はsynthetic imagesを使用してglobal structureを学習し、後半段階ではreal imagesを使用してhigh-frequency detailsをキャプチャする。compositingだけを使用するとFIDが良くても写真のように見えない。

Q: Muon optimizerがAdamWよりどれだけ優れているか？

A: FID基準で約15%向上する。18.2から15.55に低下する。computational costが似ているので使用しない理由がない。ただし、hyperparameter tuningが少し難しい。

この記事が役に立ったらAI Digesterを購読してほしい。

References

Training Design for Text-to-Image Models: Lessons from Ablations – Hugging Face (2026-02-03)