Text→Image AI训练，通过此方法FID降低30%

Core Line 3: 200K step secret, Muon optimizer, token routing

Photoroom团队发布了text-to-image generation模型PRX Part 2的优化指南。^{[Hugging Face]} Part 1讨论的是架构，这次分享了实际训练时应该做什么的具体ablation结果。

说实话，这类技术文档大多以我们的模型是最好的结束，但这次不同。他们也公开了失败的实验，并用数字展示了每种技术的trade-off。

从头训练text-image模型的成本是巨大的。仅仅一个错误的设置就可能浪费数千GPU小时。Photoroom公开的数据减少了这种试错。

个人认为最值得注意的发现是关于REPA（Representation Alignment）。使用REPA-DINOv3可以将FID从18.2降到14.64。但有个问题。throughput下降13%，200K steps之后训练实际上会退化。简单来说，它只是一个早期助推器。

BF16 weight storage的另一个bug。如果不知道这一点，用BF16而不是FP32保存，FID会从18.2飙升到21.87。上升了3.67。令人惊讶的是，很多团队都掉进了这个陷阱。

Technique	256×256 FID	1024×1024 FID	Throughput
Baseline	18.20	–	3.95 b/s
REPA-E-VAE	12.08	–	3.39 b/s
TREAD	21.61 ↑	14.10 ↓	1.64 b/s
Muon Optimizer	15.55	–	–

在256×256下，TREAD实际上会降低质量。但在1024×1024下，会得到完全不同的结果。分辨率越高，token routing效果越大。

Photoroom将在Part 3提供完整的训练代码。他们计划发布后进行24小时speed run。目标是展示能多快构建一个好模型。

个人认为，这次发布将对开源图像生成模型生态系统产生重大影响。自Stable Diffusion以来，这是第一次如此详细地公开训练经验。

Q: REPA应该什么时候删除？

A: 大约200K steps之后。一开始会加速学习，但之后实际上会阻碍收敛。这在Photoroom实验中清楚地显示出来。错过时机会降低最终模型的质量。

Q: 应该使用synthetic data还是real images？

A: 两者都用。首先使用synthetic images学习global structure，然后在后期阶段使用real images捕捉high-frequency details。只使用compositing的话FID很好，但看起来不像真实照片。

Q: Muon optimizer比AdamW好多少？

A: FID标准约15%提升。从18.2降到15.55。由于computational cost相似，没有理由不使用。但是，hyperparameter tuning稍微有点麻烦。

如果这篇文章对你有帮助，请订阅AI Digester。