核心 3 行:200K 步秘密、Muon 优化器、令牌路由
- REPA 对齐只是初始加速器,200K 步后必须移除
- 仅用 Muon 优化器就实现了 FID 18.2 → 15.55 (15% 改进)
- 在 1024×1024 高分辨率下,TREAD 令牌路由将 FID 降低至 14.10
发生了什么?
Photoroom 团队公开了文本-图像生成模型 PRX 的学习优化指南 Part 2。[Hugging Face] 如果说 Part 1 涉及架构,那么这次则具体地倾泻了实际学习时应该如何操作的 ablation 结果。
说实话,这种类型的技术文档大多以“我们的模型很好”结尾,但这次不同。它公开了失败的实验,并以数字形式展示了每种技术的权衡。
为什么重要?
从头开始学习文本-图像模型成本非常高。一个错误的设置就会浪费数千小时的 GPU 时间。Photoroom 公开的数据减少了这种试错。
就我个人而言,最引人注目的发现是关于 REPA(表示对齐)的。使用 REPA-DINOv3 会使 FID 从 18.2 降至 14.64。但存在一个问题。吞吐量减少 13%,并且在 200K 步之后反而会妨碍学习。简单来说,它只是一个早期的助推器。
还有,BF16 权重保存错误。如果不知道这一点,用 BF16 代替 FP32 保存,FID 会从 18.2 跳到 21.87。上升了 3.67。出乎意料的是,许多团队都陷入了这个陷阱。
实战指南:按分辨率划分的策略
| 技术 | 256×256 FID | 1024×1024 FID | 吞吐量 |
|---|---|---|---|
| Baseline | 18.20 | – | 3.95 b/s |
| REPA-E-VAE | 12.08 | – | 3.39 b/s |
| TREAD | 21.61 ↑ | 14.10 ↓ | 1.64 b/s |
| Muon Optimizer | 15.55 | – | – |
在 256×256 下,TREAD 反而会降低质量。但在 1024×1024 下,结果完全不同。分辨率越高,令牌路由效果就越明显。
未来会怎样?
Photoroom 将在 Part 3 中公开整个学习代码,并进行 24 小时“速通”。它将展示如何快速创建一个不错的模型。
我个人认为,这次公开将对开源图像生成模型生态系统产生重大影响。这是自 Stable Diffusion 以来,学习诀窍首次如此具体地公开。
常见问题 (FAQ)
Q: 应该何时移除 REPA?
A: 大约 200K 步之后。初期会加速学习,但之后反而会妨碍收敛。Photoroom 的实验清楚地表明了这一点。错过时机将降低最终模型质量。
Q: 应该使用合成数据还是真实图像?
A: 两者都使用。初期使用合成图像学习全局结构,后期使用真实图像捕捉高频细节。仅使用合成图像,即使 FID 很好,也没有照片的感觉。
Q: Muon 优化器比 AdamW 好多少?
A: 以 FID 为基准,大约改进 15%。从 18.2 降至 15.55。计算成本相似,因此没有理由不使用。但超参数调整有点棘手。
如果这篇文章对您有帮助,请订阅 AI Digester。
参考资料
- Training Design for Text-to-Image Models: Lessons from Ablations – Hugging Face (2026-02-03)