文本到图像 AI 学习,通过它可以使 FID 降低 30%。

核心要点 3:20 万步的秘密,Muon 优化器,Token 路由

  • REPA 排序只是初始加速器,20 万步后应移除
  • 仅使用 Muon 优化器,FID 从 18.2 降至 15.55(提升 15%)
  • 在 1024×1024 高分辨率下,TREAD Token 路由使 FID 降低至 14.10

发生了什么?

Photoroom 团队发布了文本到图像生成模型 PRX Part 2 优化指南。 [Hugging Face] 如果 Part 1 是关于架构的内容,那么这次则详细介绍了实际学习时应该做什么的具体消融实验结果。

坦率地说,大多数这类技术文档都以“我们的模型是最好的”结尾,但这次不同。它公开了失败的实验,并以数字形式展示了每项技术的权衡。

为什么这很重要?

从头开始训练文本到图像模型的成本非常高昂。即使是单个错误的设置也可能浪费数千 GPU 小时。Photoroom 公开的数据减少了这些试错。

我个人认为最值得关注的发现是关于 REPA(Representation Alignment)的。使用 REPA-DINOv3 可以将 FID 从 18.2 降至 14.64。但问题是:吞吐量降低 13%,并且在 20 万步之后,学习实际上会受到阻碍。简而言之,它只是一个初始助推器。

BF16 权重存储的另一个错误。如果不知道这一点,而使用 BF16 而不是 FP32 进行存储,FID 将从 18.2 飙升至 21.87,上升了 3.67。令人惊讶的是,许多团队都陷入了这个陷阱。

实用指南:按分辨率划分的策略

技术 256×256 FID 1024×1024 FID 吞吐量
基线 18.20 3.95 b/s
REPA-E-VAE 12.08 3.39 b/s
TREAD 21.61 ↑ 14.10 ↓ 1.64 b/s
Muon 优化器 15.55

在 256×256 分辨率下,TREAD 实际上降低了质量。但在 1024×1024 分辨率下,获得了完全不同的结果。分辨率越高,Token 路由的效果越大。

未来会发生什么?

Photoroom 将在 Part 3 中提供完整的学习代码。他们计划公开这些代码并进行 24 小时的“速通”活动。目标是展示如何快速创建一个好的模型。

我个人认为,这次公开将对开源图像生成模型生态系统产生重大影响。这是 Stable Diffusion 之后,首次如此详细地公开学习诀窍。

常见问题解答 (FAQ)

Q: 应该何时移除 REPA? One?

A: 大约 20 万步之后。最初它可以加速学习,但之后实际上会阻碍收敛。这在 Photoroom 的实验中得到了明确的证实。错过时机将会降低最终模型的质量。

Q: 应该使用合成数据还是真实图像?

A: 两者都使用。最初使用合成图像来学习全局结构,在后期阶段使用真实图像来捕获高频细节。如果仅使用合成,即使 FID 很好,看起来也不像照片。

Q: Muon 优化器比 AdamW 好多少?

A: 以 FID 为标准,大约提升 15%。从 18.2 降至 15.55。计算成本相似,因此没有理由不使用它。但超参数调整稍微复杂。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

发表评论