文本到图像 AI 学习，这样做 FID 降低 30%

核心 3 行：200K 步秘密、Muon 优化器、令牌路由

Photoroom 团队公开了文本-图像生成模型 PRX 的学习优化指南 Part 2。^{[Hugging Face]} 如果说 Part 1 涉及架构，那么这次则具体地倾泻了实际学习时应该如何操作的 ablation 结果。

说实话，这种类型的技术文档大多以“我们的模型很好”结尾，但这次不同。它公开了失败的实验，并以数字形式展示了每种技术的权衡。

从头开始学习文本-图像模型成本非常高。一个错误的设置就会浪费数千小时的 GPU 时间。Photoroom 公开的数据减少了这种试错。

就我个人而言，最引人注目的发现是关于 REPA（表示对齐）的。使用 REPA-DINOv3 会使 FID 从 18.2 降至 14.64。但存在一个问题。吞吐量减少 13%，并且在 200K 步之后反而会妨碍学习。简单来说，它只是一个早期的助推器。

还有，BF16 权重保存错误。如果不知道这一点，用 BF16 代替 FP32 保存，FID 会从 18.2 跳到 21.87。上升了 3.67。出乎意料的是，许多团队都陷入了这个陷阱。

技术	256×256 FID	1024×1024 FID	吞吐量
Baseline	18.20	–	3.95 b/s
REPA-E-VAE	12.08	–	3.39 b/s
TREAD	21.61 ↑	14.10 ↓	1.64 b/s
Muon Optimizer	15.55	–	–

在 256×256 下，TREAD 反而会降低质量。但在 1024×1024 下，结果完全不同。分辨率越高，令牌路由效果就越明显。

Photoroom 将在 Part 3 中公开整个学习代码，并进行 24 小时“速通”。它将展示如何快速创建一个不错的模型。

我个人认为，这次公开将对开源图像生成模型生态系统产生重大影响。这是自 Stable Diffusion 以来，学习诀窍首次如此具体地公开。

Q: 应该何时移除 REPA？

A: 大约 200K 步之后。初期会加速学习，但之后反而会妨碍收敛。Photoroom 的实验清楚地表明了这一点。错过时机将降低最终模型质量。

Q: 应该使用合成数据还是真实图像？

A: 两者都使用。初期使用合成图像学习全局结构，后期使用真实图像捕捉高频细节。仅使用合成图像，即使 FID 很好，也没有照片的感觉。

Q: Muon 优化器比 AdamW 好多少？

A: 以 FID 为基准，大约改进 15%。从 18.2 降至 15.55。计算成本相似，因此没有理由不使用。但超参数调整有点棘手。

如果这篇文章对您有帮助，请订阅 AI Digester。