Core Line 3: 200K step secret, Muon optimizer, token routing
- REPA sort只是早期加速器,200K steps之后应该删除
- 仅Muon optimizer就实现了FID 18.2 → 15.55(15%提升)
- 在1024×1024高分辨率下,TREAD token routing将FID降低到14.10
What happened?
Photoroom团队发布了text-to-image generation模型PRX Part 2的优化指南。[Hugging Face] Part 1讨论的是架构,这次分享了实际训练时应该做什么的具体ablation结果。
说实话,这类技术文档大多以我们的模型是最好的结束,但这次不同。他们也公开了失败的实验,并用数字展示了每种技术的trade-off。
Why is it important?
从头训练text-image模型的成本是巨大的。仅仅一个错误的设置就可能浪费数千GPU小时。Photoroom公开的数据减少了这种试错。
个人认为最值得注意的发现是关于REPA(Representation Alignment)。使用REPA-DINOv3可以将FID从18.2降到14.64。但有个问题。throughput下降13%,200K steps之后训练实际上会退化。简单来说,它只是一个早期助推器。
BF16 weight storage的另一个bug。如果不知道这一点,用BF16而不是FP32保存,FID会从18.2飙升到21.87。上升了3.67。令人惊讶的是,很多团队都掉进了这个陷阱。
Practical Guide: Strategies by Resolution
| Technique | 256×256 FID | 1024×1024 FID | Throughput |
|---|---|---|---|
| Baseline | 18.20 | – | 3.95 b/s |
| REPA-E-VAE | 12.08 | – | 3.39 b/s |
| TREAD | 21.61 ↑ | 14.10 ↓ | 1.64 b/s |
| Muon Optimizer | 15.55 | – | – |
在256×256下,TREAD实际上会降低质量。但在1024×1024下,会得到完全不同的结果。分辨率越高,token routing效果越大。
What will happen in the future?
Photoroom将在Part 3提供完整的训练代码。他们计划发布后进行24小时speed run。目标是展示能多快构建一个好模型。
个人认为,这次发布将对开源图像生成模型生态系统产生重大影响。自Stable Diffusion以来,这是第一次如此详细地公开训练经验。
Frequently Asked Questions (FAQ)
Q: REPA应该什么时候删除?
A: 大约200K steps之后。一开始会加速学习,但之后实际上会阻碍收敛。这在Photoroom实验中清楚地显示出来。错过时机会降低最终模型的质量。
Q: 应该使用synthetic data还是real images?
A: 两者都用。首先使用synthetic images学习global structure,然后在后期阶段使用real images捕捉high-frequency details。只使用compositing的话FID很好,但看起来不像真实照片。
Q: Muon optimizer比AdamW好多少?
A: FID标准约15%提升。从18.2降到15.55。由于computational cost相似,没有理由不使用。但是,hyperparameter tuning稍微有点麻烦。
如果这篇文章对你有帮助,请订阅AI Digester。
References
- Training Design for Text-to-Image Models: Lessons from Ablations – Hugging Face (2026-02-03)