Muon 옵티마이저 3.4배 빠르게: UNSO가 바꾸는 AI 학습

Newton-Schulz 직교화, FLOPs 3.4배 절감

  • Newton-Schulz 직교화를 단일 연산으로 통합, FLOPs 3.4배 절감
  • 직교화 오차 96배 감소 (3.838 → 0.040)
  • 학습 가능한 계수로 수렴 안정성 확보

무슨 일이 일어났나?

중국 연구팀이 Newton-Schulz 직교화의 새로운 통합 프레임워크 UNSO를 발표했다.[arXiv] 기존 NS 반복을 단일 다항식 연산으로 대체했다. 핵심은 “의미 없는 항을 제거하고 학습 가능한 계수를 도입”하는 것이다.

128×512 행렬 기준으로 FLOPs가 2.533×10^8에서 8.831×10^7로 떨어졌다.[arXiv]

왜 중요한가?

Muon은 AdamW를 대체할 옵티마이저로 주목받는다. GPT-2 XL을 $175로 학습시켰고, Kimi K2에도 쓰인다.[Keller Jordan] 근데 Newton-Schulz 반복이 병목이다.

UNSO가 이 병목을 깼다. 반복을 줄이는 게 아니라 아예 없앤다. 직교화 오차도 96배 줄었다. 오차 누적이 학습 불안정의 원인인데, 이걸 해결했다.

앞으로 어떻게 될까?

PyTorch 2.10에 Muon이 공식 포함됐다.[PyTorch] NVIDIA NeMo도 지원한다.[NVIDIA] UNSO가 빠르게 흡수될 가능성이 높다.

자주 묻는 질문 (FAQ)

Q: UNSO를 지금 쓸 수 있나?

A: 그렇다. 저자들이 GitHub에 코드를 공개했다. PyTorch 환경에서 기존 Muon을 대체하는 형태로 사용 가능하다. 다만 프로덕션 적용 전 자체 벤치마크가 권장된다.

Q: AdamW 대신 Muon을 써야 하나?

A: 상황에 따라 다르다. Muon은 hidden layer에만 적용한다. 임베딩이나 출력층에는 AdamW가 필요하다. 두 옵티마이저를 조합하는 게 표준이다.

Q: 실제 학습 시간이 얼마나 줄어드나?

A: 직교화 단계에서 3.4배 빠르다. 전체 학습 시간은 모델 크기에 따라 다르다. 직교화 비중이 클수록 UNSO 이점이 커진다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

댓글 남기기