文本到图像 AI 学习,这样做 FID 降低 30%

核心 3 行:200K 步秘密、Muon 优化器、令牌路由

  • REPA 对齐只是初始加速器,200K 步后必须移除
  • 仅用 Muon 优化器就实现了 FID 18.2 → 15.55 (15% 改进)
  • 在 1024×1024 高分辨率下,TREAD 令牌路由将 FID 降低至 14.10

发生了什么?

Photoroom 团队公开了文本-图像生成模型 PRX 的学习优化指南 Part 2。[Hugging Face] 如果说 Part 1 涉及架构,那么这次则具体地倾泻了实际学习时应该如何操作的 ablation 结果。

说实话,这种类型的技术文档大多以“我们的模型很好”结尾,但这次不同。它公开了失败的实验,并以数字形式展示了每种技术的权衡。

为什么重要?

从头开始学习文本-图像模型成本非常高。一个错误的设置就会浪费数千小时的 GPU 时间。Photoroom 公开的数据减少了这种试错。

就我个人而言,最引人注目的发现是关于 REPA(表示对齐)的。使用 REPA-DINOv3 会使 FID 从 18.2 降至 14.64。但存在一个问题。吞吐量减少 13%,并且在 200K 步之后反而会妨碍学习。简单来说,它只是一个早期的助推器。

还有,BF16 权重保存错误。如果不知道这一点,用 BF16 代替 FP32 保存,FID 会从 18.2 跳到 21.87。上升了 3.67。出乎意料的是,许多团队都陷入了这个陷阱。

实战指南:按分辨率划分的策略

技术 256×256 FID 1024×1024 FID 吞吐量
Baseline 18.20 3.95 b/s
REPA-E-VAE 12.08 3.39 b/s
TREAD 21.61 ↑ 14.10 ↓ 1.64 b/s
Muon Optimizer 15.55

在 256×256 下,TREAD 反而会降低质量。但在 1024×1024 下,结果完全不同。分辨率越高,令牌路由效果就越明显。

未来会怎样?

Photoroom 将在 Part 3 中公开整个学习代码,并进行 24 小时“速通”。它将展示如何快速创建一个不错的模型。

我个人认为,这次公开将对开源图像生成模型生态系统产生重大影响。这是自 Stable Diffusion 以来,学习诀窍首次如此具体地公开。

常见问题 (FAQ)

Q: 应该何时移除 REPA?

A: 大约 200K 步之后。初期会加速学习,但之后反而会妨碍收敛。Photoroom 的实验清楚地表明了这一点。错过时机将降低最终模型质量。

Q: 应该使用合成数据还是真实图像?

A: 两者都使用。初期使用合成图像学习全局结构,后期使用真实图像捕捉高频细节。仅使用合成图像,即使 FID 很好,也没有照片的感觉。

Q: Muon 优化器比 AdamW 好多少?

A: 以 FID 为基准,大约改进 15%。从 18.2 降至 15.55。计算成本相似,因此没有理由不使用。但超参数调整有点棘手。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

发表评论