核心要点 3:20 万步的秘密,Muon 优化器,Token 路由
- REPA 排序只是初始加速器,20 万步后应移除
- 仅使用 Muon 优化器,FID 从 18.2 降至 15.55(提升 15%)
- 在 1024×1024 高分辨率下,TREAD Token 路由使 FID 降低至 14.10
发生了什么?
Photoroom 团队发布了文本到图像生成模型 PRX Part 2 优化指南。 [Hugging Face] 如果 Part 1 是关于架构的内容,那么这次则详细介绍了实际学习时应该做什么的具体消融实验结果。
坦率地说,大多数这类技术文档都以“我们的模型是最好的”结尾,但这次不同。它公开了失败的实验,并以数字形式展示了每项技术的权衡。
为什么这很重要?
从头开始训练文本到图像模型的成本非常高昂。即使是单个错误的设置也可能浪费数千 GPU 小时。Photoroom 公开的数据减少了这些试错。
我个人认为最值得关注的发现是关于 REPA(Representation Alignment)的。使用 REPA-DINOv3 可以将 FID 从 18.2 降至 14.64。但问题是:吞吐量降低 13%,并且在 20 万步之后,学习实际上会受到阻碍。简而言之,它只是一个初始助推器。
BF16 权重存储的另一个错误。如果不知道这一点,而使用 BF16 而不是 FP32 进行存储,FID 将从 18.2 飙升至 21.87,上升了 3.67。令人惊讶的是,许多团队都陷入了这个陷阱。
实用指南:按分辨率划分的策略
| 技术 | 256×256 FID | 1024×1024 FID | 吞吐量 |
|---|---|---|---|
| 基线 | 18.20 | – | 3.95 b/s |
| REPA-E-VAE | 12.08 | – | 3.39 b/s |
| TREAD | 21.61 ↑ | 14.10 ↓ | 1.64 b/s |
| Muon 优化器 | 15.55 | – | – |
在 256×256 分辨率下,TREAD 实际上降低了质量。但在 1024×1024 分辨率下,获得了完全不同的结果。分辨率越高,Token 路由的效果越大。
未来会发生什么?
Photoroom 将在 Part 3 中提供完整的学习代码。他们计划公开这些代码并进行 24 小时的“速通”活动。目标是展示如何快速创建一个好的模型。
我个人认为,这次公开将对开源图像生成模型生态系统产生重大影响。这是 Stable Diffusion 之后,首次如此详细地公开学习诀窍。
常见问题解答 (FAQ)
Q: 应该何时移除 REPA? One?
A: 大约 20 万步之后。最初它可以加速学习,但之后实际上会阻碍收敛。这在 Photoroom 的实验中得到了明确的证实。错过时机将会降低最终模型的质量。
Q: 应该使用合成数据还是真实图像?
A: 两者都使用。最初使用合成图像来学习全局结构,在后期阶段使用真实图像来捕获高频细节。如果仅使用合成,即使 FID 很好,看起来也不像照片。
Q: Muon 优化器比 AdamW 好多少?
A: 以 FID 为标准,大约提升 15%。从 18.2 降至 15.55。计算成本相似,因此没有理由不使用它。但超参数调整稍微复杂。
如果这篇文章对您有帮助,请订阅 AI Digester。
参考资料
- Training Design for Text-to-Image Models: Lessons from Ablations – Hugging Face (2026-02-03)