将 LLM 强化学习成本降低 80% 的 Jackpot 技术 [论文]

Jackpot：用小模型训练大模型的3个关键

在 LLM 强化学习中，rollout 生成占总成本的 80%^{[Jackpot 论文]}。用小模型代替生成 rollout 可以降低成本，但两个模型之间的分布差异（actor-policy mismatch）会使训练不稳定。

Jackpot 通过 OBRS（Optimal Budgeted Rejection Sampling，最优预算拒绝采样）解决了这个问题^{[Jackpot 论文]}。只选择小模型生成的 token 中与大模型分布接近的 token 用于训练。不追求完美分布匹配，而是寻找接受预算内的最佳策略。

使用 Qwen3-1.7B 生成 rollout 并训练 Qwen3-8B 的结果显示，GSM8K 达到 93.57%，MATH-500 达到 82.65%^{[Jackpot 论文]}。与 on-policy 基准（93.29%，79.50%）相当或更高。

现有的 TIS 在 MATH-500 中仅达到 76.45%，并且在后半部分显示出不稳定性。 Jackpot 保持了 300 步的稳定学习。

使用接受概率 a(x) = min(1, p_target / (lambda * p_inf)) 过滤 token。通过 top-k 近似减少计算量，并且在现有轨迹上运行，因此额外开销较小^{[PPO 论文]}。

Q: Jackpot 在什么情况下有用？

A: 在 LLM 强化学习中，当您想降低 rollout 成本时，它非常有效。在训练目标较大且可以使用小模型进行 rollout 的环境中，它是有利的。模型尺寸差异越大，与现有方法相比，稳定性优势就越大。

Q: Actor-policy mismatch 为什么是个问题？

A: 如果 rollout 模型和训练模型的分布不同，则似然比会在稀有 token 中急剧上升。梯度变得不稳定，训练可能会发散。KL 散度比异步训练大一个数量级以上。

Q: 与现有的 importance sampling 有什么不同？

A: TIS 通过剪切似然比来减少方差，但不校正分布本身。 OBRS 选择性地接受或拒绝样本，使 rollout 分布本身更接近目标。这种差异导致了训练稳定性的差距。

如果这篇文章对您有帮助，请订阅 AI Digester。