Newton-Schulz 직교화, FLOPs 3.4배 절감
- Newton-Schulz 직교화를 단일 연산으로 통합, FLOPs 3.4배 절감
- 직교화 오차 96배 감소 (3.838 → 0.040)
- 학습 가능한 계수로 수렴 안정성 확보
무슨 일이 일어났나?
중국 연구팀이 Newton-Schulz 직교화의 새로운 통합 프레임워크 UNSO를 발표했다.[arXiv] 기존 NS 반복을 단일 다항식 연산으로 대체했다. 핵심은 “의미 없는 항을 제거하고 학습 가능한 계수를 도입”하는 것이다.
128×512 행렬 기준으로 FLOPs가 2.533×10^8에서 8.831×10^7로 떨어졌다.[arXiv]
왜 중요한가?
Muon은 AdamW를 대체할 옵티마이저로 주목받는다. GPT-2 XL을 $175로 학습시켰고, Kimi K2에도 쓰인다.[Keller Jordan] 근데 Newton-Schulz 반복이 병목이다.
UNSO가 이 병목을 깼다. 반복을 줄이는 게 아니라 아예 없앤다. 직교화 오차도 96배 줄었다. 오차 누적이 학습 불안정의 원인인데, 이걸 해결했다.
앞으로 어떻게 될까?
PyTorch 2.10에 Muon이 공식 포함됐다.[PyTorch] NVIDIA NeMo도 지원한다.[NVIDIA] UNSO가 빠르게 흡수될 가능성이 높다.
자주 묻는 질문 (FAQ)
Q: UNSO를 지금 쓸 수 있나?
A: 그렇다. 저자들이 GitHub에 코드를 공개했다. PyTorch 환경에서 기존 Muon을 대체하는 형태로 사용 가능하다. 다만 프로덕션 적용 전 자체 벤치마크가 권장된다.
Q: AdamW 대신 Muon을 써야 하나?
A: 상황에 따라 다르다. Muon은 hidden layer에만 적용한다. 임베딩이나 출력층에는 AdamW가 필요하다. 두 옵티마이저를 조합하는 게 표준이다.
Q: 실제 학습 시간이 얼마나 줄어드나?
A: 직교화 단계에서 3.4배 빠르다. 전체 학습 시간은 모델 크기에 따라 다르다. 직교화 비중이 클수록 UNSO 이점이 커진다.
이 글이 유용했다면 AI Digester를 구독해주세요.
참고 자료
- UNSO: Unified Newton Schulz Orthogonalization – arXiv (2026-02-04)
- Muon: An optimizer for hidden layers – Keller Jordan Blog (2025-01-15)
- Muon Optimizer – PyTorch Documentation (2026-01-20)