Jackpot:用小模型训练大模型的3个关键
- LLM强化学习 rollout 成本占总成本的 80%
- Jackpot 即使使用小模型 rollout 也能维持训练稳定性
- 在 Qwen3-8B 上实现了与 on-policy RL 相当的性能
Rollout 成本问题和 OBRS
在 LLM 强化学习中,rollout 生成占总成本的 80%[Jackpot 论文]。用小模型代替生成 rollout 可以降低成本,但两个模型之间的分布差异(actor-policy mismatch)会使训练不稳定。
Jackpot 通过 OBRS(Optimal Budgeted Rejection Sampling,最优预算拒绝采样)解决了这个问题[Jackpot 论文]。只选择小模型生成的 token 中与大模型分布接近的 token 用于训练。不追求完美分布匹配,而是寻找接受预算内的最佳策略。
Qwen3-8B 实验结果
使用 Qwen3-1.7B 生成 rollout 并训练 Qwen3-8B 的结果显示,GSM8K 达到 93.57%,MATH-500 达到 82.65%[Jackpot 论文]。与 on-policy 基准(93.29%,79.50%)相当或更高。
现有的 TIS 在 MATH-500 中仅达到 76.45%,并且在后半部分显示出不稳定性。 Jackpot 保持了 300 步的稳定学习。
工作原理
使用接受概率 a(x) = min(1, p_target / (lambda * p_inf)) 过滤 token。通过 top-k 近似减少计算量,并且在现有轨迹上运行,因此额外开销较小[PPO 论文]。
常见问题 (FAQ)
Q: Jackpot 在什么情况下有用?
A: 在 LLM 强化学习中,当您想降低 rollout 成本时,它非常有效。在训练目标较大且可以使用小模型进行 rollout 的环境中,它是有利的。模型尺寸差异越大,与现有方法相比,稳定性优势就越大。
Q: Actor-policy mismatch 为什么是个问题?
A: 如果 rollout 模型和训练模型的分布不同,则似然比会在稀有 token 中急剧上升。梯度变得不稳定,训练可能会发散。KL 散度比异步训练大一个数量级以上。
Q: 与现有的 importance sampling 有什么不同?
A: TIS 通过剪切似然比来减少方差,但不校正分布本身。 OBRS 选择性地接受或拒绝样本,使 rollout 分布本身更接近目标。这种差异导致了训练稳定性的差距。
如果这篇文章对您有帮助,请订阅 AI Digester。
参考资料
- Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch RL – arXiv (2026-02-05)
- Qwen3 模型系列 – GitHub (2026)
- Proximal Policy Optimization Algorithms – arXiv (2017-07-20)