200달러로 GPT-5 이긴 Cadmus — 3가지 시사점

200달러로 GPT-5 이긴 소규모 AI, 3가지 시사점

Cadmus는 200달러 미만으로 훈련 가능한 소규모 프로그램 합성 시스템이다
정수 연산에서 100% 정확도로 GPT-5(95%)를 넘었다
대형 모델 없이도 통제된 AI 연구가 가능함을 입증했다

Cadmus가 보여준 소규모 AI의 가능성

arXiv에 2월 9일 공개된 논문이 흥미롭다. 200달러 미만으로 훈련한 AI가 특정 태스크에서 GPT-5를 이겼다.^[arXiv] Russ Webb과 Jason Ramapuram이 발표한 Cadmus라는 시스템이다.

Cadmus는 세 가지로 구성된다. 정수 기반 가상 머신, 실제 프로그램 데이터셋, 트랜스포머 모델이다. 이 모든 것을 200달러 이하의 컴퓨팅 자원으로 훈련할 수 있다.^{[Cadmus 논문]}

GPT-5를 넘은 정확도, 그 맥락

Cadmus는 정수 연산 태스크에서 100% 정확도를 기록했다. 같은 태스크에서 GPT-5는 95%에 그쳤다.^{[arXiv 논문]} 오해하면 안 된다. Cadmus가 GPT-5보다 전반적으로 뛰어나다는 뜻은 아니다.

특정 목적에 맞게 설계된 소규모 모델이 범용 대형 모델을 이길 수 있다는 것이다. 연구진은 GPT-5가 추론 과정에서 알 수 없는 사전 지식을 끌어들인다고 지적했다. 훈련 데이터와 성능의 관계를 투명하게 분석할 수 없다는 한계다.

AI 연구 진입장벽이 낮아지고 있다

이 연구의 시사점은 명확하다. AI 연구에 수백만 달러의 인프라가 반드시 필요한 건 아니다. Cadmus처럼 소규모 시스템으로도 프로그램 완성, 분포 외 행동, 추론 능력 같은 핵심 주제를 연구할 수 있다.

훈련 데이터를 완전히 통제하고, 모델 내부를 투명하게 볼 수 있다. 대형 모델에서는 불가능한 일이다. 대학 연구실이나 개인 연구자에게도 길이 열린 셈이다. 참고가 되길 바란다.

자주 묻는 질문 (FAQ)

Q: Cadmus가 GPT-5보다 전반적으로 우수한 건가?

A: 아니다. Cadmus는 정수 연산이라는 특정 태스크에서만 GPT-5를 넘었다. 범용 언어 모델과 직접 비교하는 건 적절하지 않다. 목적에 맞게 설계된 소규모 모델이 특정 영역에서 대형 모델을 이길 수 있다는 점이 핵심이다. Cadmus의 강점은 성능보다 연구 투명성에 있다.

Q: 프로그램 합성이 정확히 뭔가?

A: 프로그램 합성은 AI가 주어진 조건이나 예시를 보고 자동으로 코드를 생성하는 기술이다. 코드 자동 완성이나 코드 생성 도구의 기반 기술이라고 보면 된다. Cadmus는 이 과정을 소규모로 재현해서 연구자가 내부 동작을 투명하게 분석할 수 있게 만든 시스템이다.

Q: 200달러면 누구나 이 실험을 재현할 수 있나?

A: 논문에 따르면 Cadmus의 트랜스포머 모델 훈련에 200달러 이하의 컴퓨팅 자원이 필요하다. 클라우드 GPU를 쓰면 대학원생이나 개인 연구자도 충분히 재현할 수 있다. 다만 가상 머신 설계와 데이터셋 구성 등 시스템 전체를 이해하려면 관련 지식이 필요하다.

이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

A Small-Scale System for Autoregressive Program Synthesis Enabling Controlled Experimentation – arXiv (2026-02-09)
GPT-5 Model Overview – OpenAI (2025)
Program Synthesis – Wikipedia (2026)