Jackpot: 작은 모델로 큰 모델을 훈련시키는 3가지 핵심
- LLM 강화학습 롤아웃 비용이 전체의 80%를 차지한다
- Jackpot은 작은 모델 롤아웃으로도 훈련 안정성을 유지한다
- Qwen3-8B에서 on-policy RL과 동등한 성능을 달성했다
롤아웃 비용 문제와 OBRS
LLM 강화학습에서 롤아웃 생성이 전체 비용의 80%를 차지한다[Jackpot 논문]. 작은 모델로 롤아웃을 대신 만들면 비용이 줄지만, 두 모델 간 분포 차이(actor-policy mismatch)가 훈련을 불안정하게 만든다.
Jackpot은 OBRS(Optimal Budgeted Rejection Sampling)로 해결했다[Jackpot 논문]. 작은 모델이 생성한 토큰 중 큰 모델 분포에 가까운 것만 골라 훈련에 쓴다. 완벽한 분포 일치 대신, 수용 예산 내 최적 전략을 찾는다.
Qwen3-8B 실험 결과
Qwen3-1.7B로 롤아웃을 생성하고 Qwen3-8B를 훈련한 결과, GSM8K 93.57%, MATH-500 82.65%를 기록했다[Jackpot 논문]. on-policy 기준(93.29%, 79.50%)과 동등하거나 높다.
기존 TIS는 MATH-500에서 76.45%에 그쳤고 후반부 불안정성도 보였다. Jackpot은 300 스텝까지 안정적 학습을 유지했다.
작동 원리
수용 확률 a(x) = min(1, p_target / (lambda * p_inf))로 토큰을 필터링한다. top-k 근사로 연산량을 줄이고, 기존 궤적에서 작동해 추가 오버헤드가 적다[PPO 논문].
자주 묻는 질문 (FAQ)
Q: Jackpot은 어떤 상황에서 유용한가?
A: LLM 강화학습에서 롤아웃 비용을 줄이고 싶을 때 효과적이다. 훈련 대상이 크고 작은 모델을 롤아웃에 활용할 수 있는 환경에서 유리하다. 모델 크기 차이가 클수록 기존 방법 대비 안정성 이점이 커진다.
Q: Actor-policy mismatch가 왜 문제인가?
A: 롤아웃 모델과 훈련 모델의 분포가 다르면 우도비가 희귀 토큰에서 급격히 치솟는다. 그래디언트가 불안정해지고 훈련이 발산할 수 있다. 비동기 훈련보다 KL 발산이 한 자릿수 이상 크다.
Q: 기존 importance sampling과 무엇이 다른가?
A: TIS는 우도비를 잘라 분산을 줄이지만 분포 자체를 교정하지 않는다. OBRS는 샘플을 선택적으로 수용하거나 거부해 롤아웃 분포 자체를 목표에 가깝게 만든다. 이 차이가 훈련 안정성 격차로 나타났다.
이 글이 유용했다면 AI Digester를 구독해주세요.
참고 자료
- Jackpot: Optimal Budgeted Rejection Sampling for Extreme Actor-Policy Mismatch RL – arXiv (2026-02-05)
- Qwen3 모델 시리즈 – GitHub (2026)
- Proximal Policy Optimization Algorithms – arXiv (2017-07-20)