Muon 옵티마이저 3.4배 빠르게: UNSO가 바꾸는 AI 학습

Newton-Schulz 직교화, FLOPs 3.4배 절감

중국 연구팀이 Newton-Schulz 직교화의 새로운 통합 프레임워크 UNSO를 발표했다.^[arXiv] 기존 NS 반복을 단일 다항식 연산으로 대체했다. 핵심은 “의미 없는 항을 제거하고 학습 가능한 계수를 도입”하는 것이다.

128×512 행렬 기준으로 FLOPs가 2.533×10^8에서 8.831×10^7로 떨어졌다.^[arXiv]

Muon은 AdamW를 대체할 옵티마이저로 주목받는다. GPT-2 XL을 $175로 학습시켰고, Kimi K2에도 쓰인다.^{[Keller Jordan]} 근데 Newton-Schulz 반복이 병목이다.

UNSO가 이 병목을 깼다. 반복을 줄이는 게 아니라 아예 없앤다. 직교화 오차도 96배 줄었다. 오차 누적이 학습 불안정의 원인인데, 이걸 해결했다.

PyTorch 2.10에 Muon이 공식 포함됐다.^[PyTorch] NVIDIA NeMo도 지원한다.^[NVIDIA] UNSO가 빠르게 흡수될 가능성이 높다.

Q: UNSO를 지금 쓸 수 있나?

A: 그렇다. 저자들이 GitHub에 코드를 공개했다. PyTorch 환경에서 기존 Muon을 대체하는 형태로 사용 가능하다. 다만 프로덕션 적용 전 자체 벤치마크가 권장된다.

Q: AdamW 대신 Muon을 써야 하나?

A: 상황에 따라 다르다. Muon은 hidden layer에만 적용한다. 임베딩이나 출력층에는 AdamW가 필요하다. 두 옵티마이저를 조합하는 게 표준이다.

Q: 실제 학습 시간이 얼마나 줄어드나?

A: 직교화 단계에서 3.4배 빠르다. 전체 학습 시간은 모델 크기에 따라 다르다. 직교화 비중이 클수록 UNSO 이점이 커진다.

이 글이 유용했다면 AI Digester를 구독해주세요.