文本到图像 AI 学习，通过它可以使 FID 降低 30%。

核心要点 3：20 万步的秘密，Muon 优化器，Token 路由

Photoroom 团队发布了文本到图像生成模型 PRX Part 2 优化指南。 ^{[Hugging Face]} 如果 Part 1 是关于架构的内容，那么这次则详细介绍了实际学习时应该做什么的具体消融实验结果。

坦率地说，大多数这类技术文档都以“我们的模型是最好的”结尾，但这次不同。它公开了失败的实验，并以数字形式展示了每项技术的权衡。

从头开始训练文本到图像模型的成本非常高昂。即使是单个错误的设置也可能浪费数千 GPU 小时。Photoroom 公开的数据减少了这些试错。

我个人认为最值得关注的发现是关于 REPA（Representation Alignment）的。使用 REPA-DINOv3 可以将 FID 从 18.2 降至 14.64。但问题是：吞吐量降低 13%，并且在 20 万步之后，学习实际上会受到阻碍。简而言之，它只是一个初始助推器。

BF16 权重存储的另一个错误。如果不知道这一点，而使用 BF16 而不是 FP32 进行存储，FID 将从 18.2 飙升至 21.87，上升了 3.67。令人惊讶的是，许多团队都陷入了这个陷阱。

技术	256×256 FID	1024×1024 FID	吞吐量
基线	18.20	–	3.95 b/s
REPA-E-VAE	12.08	–	3.39 b/s
TREAD	21.61 ↑	14.10 ↓	1.64 b/s
Muon 优化器	15.55	–	–

在 256×256 分辨率下，TREAD 实际上降低了质量。但在 1024×1024 分辨率下，获得了完全不同的结果。分辨率越高，Token 路由的效果越大。

Photoroom 将在 Part 3 中提供完整的学习代码。他们计划公开这些代码并进行 24 小时的“速通”活动。目标是展示如何快速创建一个好的模型。

我个人认为，这次公开将对开源图像生成模型生态系统产生重大影响。这是 Stable Diffusion 之后，首次如此详细地公开学习诀窍。

Q: 应该何时移除 REPA？ One?

A: 大约 20 万步之后。最初它可以加速学习，但之后实际上会阻碍收敛。这在 Photoroom 的实验中得到了明确的证实。错过时机将会降低最终模型的质量。

Q: 应该使用合成数据还是真实图像？

A: 两者都使用。最初使用合成图像来学习全局结构，在后期阶段使用真实图像来捕获高频细节。如果仅使用合成，即使 FID 很好，看起来也不像照片。

Q: Muon 优化器比 AdamW 好多少？

A: 以 FID 为标准，大约提升 15%。从 18.2 降至 15.55。计算成本相似，因此没有理由不使用它。但超参数调整稍微复杂。

如果这篇文章对您有帮助，请订阅 AI Digester。