将 LLM 强化学习成本降低 80% 的 Jackpot 技术 [论文]

Jackpot:用小模型训练大模型的3个关键

  • LLM强化学习 rollout 成本占总成本的 80%
  • Jackpot 即使使用小模型 rollout 也能维持训练稳定性
  • 在 Qwen3-8B 上实现了与 on-policy RL 相当的性能

Rollout 成本问题和 OBRS

在 LLM 强化学习中,rollout 生成占总成本的 80%[Jackpot 论文]。用小模型代替生成 rollout 可以降低成本,但两个模型之间的分布差异(actor-policy mismatch)会使训练不稳定。

Jackpot 通过 OBRS(Optimal Budgeted Rejection Sampling,最优预算拒绝采样)解决了这个问题[Jackpot 论文]。只选择小模型生成的 token 中与大模型分布接近的 token 用于训练。不追求完美分布匹配,而是寻找接受预算内的最佳策略。

Qwen3-8B 实验结果

使用 Qwen3-1.7B 生成 rollout 并训练 Qwen3-8B 的结果显示,GSM8K 达到 93.57%,MATH-500 达到 82.65%[Jackpot 论文]。与 on-policy 基准(93.29%,79.50%)相当或更高。

现有的 TIS 在 MATH-500 中仅达到 76.45%,并且在后半部分显示出不稳定性。 Jackpot 保持了 300 步的稳定学习。

工作原理

使用接受概率 a(x) = min(1, p_target / (lambda * p_inf)) 过滤 token。通过 top-k 近似减少计算量,并且在现有轨迹上运行,因此额外开销较小[PPO 论文]

常见问题 (FAQ)

Q: Jackpot 在什么情况下有用?

A: 在 LLM 强化学习中,当您想降低 rollout 成本时,它非常有效。在训练目标较大且可以使用小模型进行 rollout 的环境中,它是有利的。模型尺寸差异越大,与现有方法相比,稳定性优势就越大。

Q: Actor-policy mismatch 为什么是个问题?

A: 如果 rollout 模型和训练模型的分布不同,则似然比会在稀有 token 中急剧上升。梯度变得不稳定,训练可能会发散。KL 散度比异步训练大一个数量级以上。

Q: 与现有的 importance sampling 有什么不同?

A: TIS 通过剪切似然比来减少方差,但不校正分布本身。 OBRS 选择性地接受或拒绝样本,使 rollout 分布本身更接近目标。这种差异导致了训练稳定性的差距。


如果这篇文章对您有帮助,请订阅 AI Digester。

参考资料

发表评论