Text→Image AI训练,通过此方法FID降低30%

Core Line 3: 200K step secret, Muon optimizer, token routing

  • REPA sort只是早期加速器,200K steps之后应该删除
  • 仅Muon optimizer就实现了FID 18.2 → 15.55(15%提升)
  • 在1024×1024高分辨率下,TREAD token routing将FID降低到14.10

What happened?

Photoroom团队发布了text-to-image generation模型PRX Part 2的优化指南。[Hugging Face] Part 1讨论的是架构,这次分享了实际训练时应该做什么的具体ablation结果。

说实话,这类技术文档大多以我们的模型是最好的结束,但这次不同。他们也公开了失败的实验,并用数字展示了每种技术的trade-off。

Why is it important?

从头训练text-image模型的成本是巨大的。仅仅一个错误的设置就可能浪费数千GPU小时。Photoroom公开的数据减少了这种试错。

个人认为最值得注意的发现是关于REPA(Representation Alignment)。使用REPA-DINOv3可以将FID从18.2降到14.64。但有个问题。throughput下降13%,200K steps之后训练实际上会退化。简单来说,它只是一个早期助推器。

BF16 weight storage的另一个bug。如果不知道这一点,用BF16而不是FP32保存,FID会从18.2飙升到21.87。上升了3.67。令人惊讶的是,很多团队都掉进了这个陷阱。

Practical Guide: Strategies by Resolution

Technique 256×256 FID 1024×1024 FID Throughput
Baseline 18.20 3.95 b/s
REPA-E-VAE 12.08 3.39 b/s
TREAD 21.61 ↑ 14.10 ↓ 1.64 b/s
Muon Optimizer 15.55

在256×256下,TREAD实际上会降低质量。但在1024×1024下,会得到完全不同的结果。分辨率越高,token routing效果越大。

What will happen in the future?

Photoroom将在Part 3提供完整的训练代码。他们计划发布后进行24小时speed run。目标是展示能多快构建一个好模型。

个人认为,这次发布将对开源图像生成模型生态系统产生重大影响。自Stable Diffusion以来,这是第一次如此详细地公开训练经验。

Frequently Asked Questions (FAQ)

Q: REPA应该什么时候删除?

A: 大约200K steps之后。一开始会加速学习,但之后实际上会阻碍收敛。这在Photoroom实验中清楚地显示出来。错过时机会降低最终模型的质量。

Q: 应该使用synthetic data还是real images?

A: 两者都用。首先使用synthetic images学习global structure,然后在后期阶段使用real images捕捉high-frequency details。只使用compositing的话FID很好,但看起来不像真实照片。

Q: Muon optimizer比AdamW好多少?

A: FID标准约15%提升。从18.2降到15.55。由于computational cost相似,没有理由不使用。但是,hyperparameter tuning稍微有点麻烦。


如果这篇文章对你有帮助,请订阅AI Digester。

References

发表评论