딥시크 모멘트 1년: Qwen 파생 모델 11.3만 개, Llama 4배

딥시크 모멘트 1년, 숫자가 증명한 3가지 변화

  • Qwen 파생 모델 11.3만 개 돌파 — Meta Llama(2.7만 개)의 4배
  • 허깅페이스 최다 팔로워 1위 DeepSeek, 4위 Qwen
  • 중국 AI 조직들, “오픈소스가 곧 전략”으로 방향 전환

무슨 일이 일어났나?

허깅페이스가 ‘딥시크 모멘트’ 1주년 분석 리포트를 발표했다.[Hugging Face] 2025년 1월 DeepSeek의 등장 이후 중국 오픈소스 AI 생태계가 어떻게 성장했는지를 데이터로 정리한 3부작 시리즈의 마지막 편이다.

핵심 수치부터 보자. Qwen(알리바바)을 기반으로 만들어진 파생 모델이 2025년 중반 기준 11만 3천 개를 넘었다. Qwen을 태그한 저장소까지 합치면 20만 개 이상이다.[Hugging Face] Meta의 Llama(2.7만 개)나 DeepSeek(6천 개)과 비교하면 압도적인 숫자다.

왜 중요한가?

솔직히 1년 전만 해도 중국 AI를 ‘카피캣’으로 보는 시선이 많았다. 근데 지금은 다르다.

허깅페이스 인기 논문 상위권에 바이트댄스, 딥시크, 텐센트, Qwen이 줄줄이 올라와 있다. 팔로워 수도 DeepSeek이 1위, Qwen이 4위다. 알리바바 전체로 보면 파생 모델 수가 Google과 Meta를 합친 것과 맞먹는다.[Hugging Face]

개인적으로 주목하는 건 알리바바의 전략이다. Qwen을 단일 플래그십 모델이 아니라 ‘패밀리’로 구성했다. 다양한 크기, 작업, 모달리티를 지원하는 식이다. 쉽게 말하면 “우리 모델을 범용 AI 인프라로 쓰라”는 것이다.

앞으로 어떻게 될까?

허깅페이스는 “오픈소스가 중국 AI 조직들의 단기 지배 전략”이라고 분석했다. 모델뿐 아니라 논문, 배포 인프라까지 공유하면서 대규모 통합과 배포를 노린다는 해석이다.

딥시크 모멘트가 일회성 이벤트가 아니었다는 게 1년 만에 숫자로 확인됐다. 글로벌 AI 오픈소스 생태계의 무게중심이 이동하고 있다.

자주 묻는 질문 (FAQ)

Q: Qwen 파생 모델이 Llama보다 많은 이유는?

A: 알리바바가 Qwen을 다양한 크기와 모달리티로 공개하면서 적용 범위가 넓어졌다. 특히 중국 개발자들이 로컬 배포용으로 많이 활용한다. 허깅페이스와 모델스코프 양쪽에 지속 업데이트하는 전략도 주효했다.

Q: DeepSeek은 여전히 중요한가?

A: 그렇다. 허깅페이스에서 가장 많은 팔로워를 보유한 조직이 DeepSeek이다. 다만 파생 모델 수에서는 Qwen에 밀린다. DeepSeek은 논문과 연구 기여에 강점이 있고, Qwen은 생태계 확장에 집중하는 차이가 있다.

Q: 한국 개발자에게 어떤 의미가 있나?

A: Qwen 기반 모델들이 한국어 지원을 강화하고 있다. 오픈소스라서 로컬 배포와 파인튜닝이 자유롭다. 비용 부담 없이 실험하기 좋은 환경이 됐다. 다만 라이선스 조건은 모델마다 다르니 확인이 필요하다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

텍스트→이미지 AI 학습, 이렇게 하면 FID 30% 떨어진다

핵심 3줄: 200K 스텝 비밀, Muon 옵티마이저, 토큰 라우팅

  • REPA 정렬은 초기 가속기일 뿐, 200K 스텝 이후 반드시 제거해야 한다
  • Muon 옵티마이저 하나로 FID 18.2 → 15.55 달성 (15% 개선)
  • 1024×1024 고해상도에서 TREAD 토큰 라우팅은 FID 14.10까지 끌어내린다

무슨 일이 일어났나?

Photoroom 팀이 텍스트-이미지 생성 모델 PRX의 학습 최적화 가이드 Part 2를 공개했다.[Hugging Face] Part 1이 아키텍처를 다뤘다면, 이번엔 실제로 학습할 때 뭘 어떻게 해야 하는지 구체적인 ablation 결과를 쏟아냈다.

솔직히 이런 류의 기술 문서는 대부분 “우리 모델 좋아요”로 끝나는데, 이건 다르다. 실패한 실험도 공개했고, 각 기법의 트레이드오프를 수치로 보여준다.

왜 중요한가?

텍스트-이미지 모델을 처음부터 학습하는 건 비용이 어마어마하다. 잘못된 설정 하나로 GPU 수천 시간이 날아간다. Photoroom이 공개한 데이터는 이 시행착오를 줄여준다.

개인적으로 가장 눈에 띄는 발견은 REPA(표현 정렬)에 관한 것이다. REPA-DINOv3를 쓰면 FID가 18.2에서 14.64로 떨어진다. 근데 문제가 있다. 처리량이 13% 줄어들고, 200K 스텝 이후엔 오히려 학습을 방해한다. 쉽게 말하면 초반 부스터일 뿐이라는 거다.

또 하나, BF16 가중치 저장 버그. 이거 모르고 FP32 대신 BF16으로 저장하면 FID가 18.2에서 21.87로 뛴다. 3.67이나 올라간다. 의외로 많은 팀이 이 함정에 빠진다.

실전 가이드: 해상도별 전략

기법 256×256 FID 1024×1024 FID 처리량
Baseline 18.20 3.95 b/s
REPA-E-VAE 12.08 3.39 b/s
TREAD 21.61 ↑ 14.10 ↓ 1.64 b/s
Muon Optimizer 15.55

256×256에서 TREAD는 오히려 품질을 떨어뜨린다. 근데 1024×1024에선 완전히 다른 결과가 나온다. 해상도가 높을수록 토큰 라우팅 효과가 극대화된다는 뜻이다.

앞으로 어떻게 될까?

Photoroom은 Part 3에서 전체 학습 코드를 공개하고, 24시간 “스피드런”을 실시할 예정이다. 얼마나 빨리 괜찮은 모델을 만들 수 있는지 보여주겠다는 거다.

개인적으로는 이 공개가 오픈소스 이미지 생성 모델 생태계에 상당한 영향을 줄 거라 본다. Stable Diffusion 이후로 학습 노하우가 이렇게 구체적으로 공개된 건 처음이다.

자주 묻는 질문 (FAQ)

Q: REPA는 언제 제거해야 하나?

A: 약 200K 스텝 이후다. 초기에는 학습을 가속시키지만, 그 이후엔 오히려 수렴을 방해한다. Photoroom 실험에서 명확하게 드러났다. 타이밍을 놓치면 최종 모델 품질이 떨어진다.

Q: 합성 데이터와 실제 이미지 중 뭘 써야 하나?

A: 둘 다 쓴다. 초기엔 합성 이미지로 전역 구조를 학습하고, 후기엔 실제 이미지로 고주파 디테일을 잡는다. 합성만 쓰면 FID는 좋아도 사진 느낌이 안 난다.

Q: Muon 옵티마이저가 AdamW보다 얼마나 좋은가?

A: FID 기준 약 15% 개선이다. 18.2에서 15.55로 떨어졌다. 계산 비용은 비슷하니까, 안 쓸 이유가 없다. 다만 하이퍼파라미터 튜닝이 좀 까다롭다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

OpenAI, Sora 피드 철학 공개: “둠스크롤링 안 시킨다”

OpenAI, Sora 피드 철학 공개: “둠스크롤링 안 시킨다”

  • 창작 우선, 소비 최소화가 핵심 원칙
  • 자연어로 알고리즘 조정 가능한 신개념 추천 시스템
  • 생성 단계부터 안전장치, TikTok과 정반대 전략

무슨 일이 일어났나?

OpenAI가 AI 영상 생성 앱 Sora의 추천 피드 설계 철학을 공식 발표했다.[OpenAI] 핵심 메시지는 명확하다. “둠스크롤링이 아닌 창작을 위한 플랫폼”이다.

TikTok이 시청 시간 최적화로 논란을 빚는 동안, OpenAI는 정반대 방향을 선택했다. 피드 체류 시간을 최적화하지 않고, 사용자가 영감을 받아 직접 영상을 만들 가능성이 높은 콘텐츠를 우선 노출한다.[TechCrunch]

왜 중요한가?

솔직히 이건 소셜미디어 역사에서 꽤 의미 있는 실험이다. 기존 소셜 플랫폼들은 광고 수익을 위해 체류 시간을 극대화했다. 사용자가 오래 머물수록 돈이 되니까. 그 결과가 중독성 알고리즘과 정신건강 문제였다.

OpenAI는 구독 모델(ChatGPT Plus)로 이미 수익을 내고 있다. 광고에 의존하지 않으니 “사용자를 붙잡아둘” 필요가 없다. 쉽게 말하면, 비즈니스 모델이 다르니 피드 설계도 다를 수 있는 것이다.

개인적으로는 이게 진짜 작동할지 궁금하다. “창작 장려” 피드가 실제로 사용자 참여를 유지할 수 있을까? 아니면 결국 체류 시간 최적화로 돌아갈까?

Sora 피드의 4가지 원칙

  • 창작 최적화: 소비가 아닌 참여를 유도. 수동적 스크롤이 아닌 능동적 창작이 목표다.[Digital Watch]
  • 사용자 제어권: 자연어로 알고리즘을 조정할 수 있다. “오늘은 코미디만 보여줘” 같은 지시가 가능하다.
  • 연결 우선: 바이럴 글로벌 콘텐츠보다 팔로우한 사람, 아는 사람 콘텐츠를 우선 노출한다.
  • 안전-자유 균형: 모든 콘텐츠가 Sora 내에서 생성되므로, 생성 단계에서 유해 콘텐츠를 차단한다.

기술적으로 어떻게 다른가?

OpenAI는 기존 LLM을 활용해 새로운 종류의 추천 알고리즘을 개발했다. 핵심 차별점은 “자연어 지시”다. 사용자가 직접 알고리즘에게 원하는 콘텐츠 유형을 말로 설명할 수 있다.[TechCrunch]

개인화 신호로는 Sora 활동(좋아요, 댓글, 리믹스), IP 기반 위치, ChatGPT 이용 기록(끌 수 있음), 작성자 팔로워 수 등을 활용한다. 다만 안전 신호도 포함되어, 유해 콘텐츠는 노출이 억제된다.

앞으로 어떻게 될까?

Sora 앱은 출시 48시간 만에 앱스토어 1위를 기록했다. 첫날 5.6만 다운로드, 둘째 날 3배 증가했다.[TechCrunch] 초기 반응은 뜨거웠다.

근데 문제는 지속성이다. OpenAI도 인정했듯, 이 피드는 “살아있는 시스템”이다. 사용자 피드백에 따라 계속 변할 것이다. 창작 중심 철학이 실제 사용자 행동과 충돌하면 어떻게 될까? 지켜볼 일이다.

자주 묻는 질문 (FAQ)

Q: Sora 피드는 TikTok과 뭐가 다른가?

A: TikTok은 시청 시간을 최적화해서 사용자를 붙잡아두는 게 목표다. Sora는 정반대로, 사용자가 영감을 받아 직접 영상을 만들 가능성이 높은 콘텐츠를 우선 보여준다. 소비보다 창작에 초점을 맞춘 설계다.

Q: 자연어로 알고리즘을 조정한다는 게 무슨 뜻인가?

A: 기존 앱들은 좋아요, 시청 시간 같은 행동 데이터로만 추천을 결정한다. Sora는 사용자가 직접 “오늘은 SF 영상만 보여줘” 같은 지시를 텍스트로 입력하면 알고리즘이 그에 맞게 조정된다.

Q: 청소년 보호 기능은 있나?

A: 있다. ChatGPT 부모 제어를 통해 피드 개인화를 끄거나 연속 스크롤을 제한할 수 있다. 청소년 계정은 기본적으로 하루 생성 가능 영상 수에 제한이 걸려 있고, Cameo(타인 등장 영상) 기능도 더 엄격한 권한이 적용된다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

Claude Code 장애: 90일간 62건, 개발자들 또?

Claude Code 장애: 90일간 62건, 개발자들 “또?”

  • 2월 3일 오전 10시 24분(동부시간) Claude Code 접속 장애
  • 90일간 62건 장애 — 평균 지속 1시간 19분
  • Claude API, claude.ai도 영향

무슨 일이 일어났나?

Claude Code가 또 다운됐다. 2월 3일 오전 10시 24분(미국 동부시간) Downdetector에 신고가 급증했다.[DesignTAXI] 하루 전에도 장애가 있었다.

Claude API와 claude.ai도 영향을 받았다. 개발자들이 소셜 미디어에서 불만을 토로했다.

왜 중요한가?

90일간 Anthropic은 총 62건의 장애를 겪었다. 평균 지속시간 1시간 19분이다.[IsDown]

1월 14일에는 Opus 4.5와 Sonnet 4.5에서 에러율이 급증해 1,500건 이상의 신고가 접수됐다.[NewsBytes] 복구에 4시간이 걸렸다.

솔직히 월 200달러 Max 구독자들이 가장 답답할 것 같다.

앞으로 어떻게 될까?

Anthropic은 설정 문제를 수정하고 안전장치를 추가했다고 밝혔다.[Claude Status] 하지만 90일간 62건이면 인프라 안정성 개선이 시급하다.

자주 묻는 질문 (FAQ)

Q: Claude Code 장애 시 대안은?

A: GitHub Copilot, Cursor, 오픈소스 Goose를 임시로 쓸 수 있다. 백업 도구 하나는 익혀두는 게 좋다.

Q: Anthropic 서비스 안정성은?

A: 공식 90일 업타임은 99.67%다. 하지만 62건 장애에 평균 1시간 19분이면 총 다운타임이 꽤 된다.

Q: 장애 상황 확인 방법은?

A: status.claude.com에서 공식 상태를, Downdetector에서 사용자 신고를 볼 수 있다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

AI 전용 SNS Moltbook: 150만 봇 뒤에 1.7만 명의 인간이 숨어있다

150만 AI 에이전트, 1.7만 인간: 숨겨진 진실

  • AI 전용 SNS Moltbook에 150만 개 에이전트가 활동 중이지만, 실제 인간은 1.7만 명뿐
  • Wiz 보안팀이 데이터베이스 취약점을 발견해 150만 개 API 키가 노출됨
  • 창업자는 “코드 한 줄도 직접 안 썼다”고 인정 — 전체가 AI로 만든 ‘vibe-coded’ 플랫폼

무슨 일이 일어났나?

AI 에이전트 전용 소셜 네트워크 Moltbook이 보안 참사를 겪었다. Wiz 보안팀이 발견한 바에 따르면, 150만 개 AI 에이전트 계정 뒤에는 단 1.7만 명의 인간만 있었다. 1인당 평균 88개의 봇을 운영하고 있었던 것이다.[Wiz]

더 심각한 문제가 있다. Moltbook의 Supabase 데이터베이스가 완전히 노출되어 있었다. 클라이언트 사이드 JavaScript에서 API 키가 그대로 드러나 있었고, Row Level Security 정책이 전혀 없었다. 누구든 전체 데이터베이스에 읽기/쓰기 접근이 가능했다.[Axios]

유출된 정보는 충격적이다. 150만 개의 API 인증 토큰, 3.5만 개의 이메일 주소, 그리고 4,060개의 에이전트 간 비공개 DM이 포함되어 있었다. 일부 대화에는 OpenAI API 키가 평문으로 공유되어 있기도 했다.[Techzine]

왜 중요한가?

Moltbook의 실체가 드러났다. “AI들만의 자율적 소셜 네트워크”라는 컨셉이 실제로는 인간이 뒤에서 조종하는 연극에 가까웠다.

솔직히 이건 예견된 재앙이었다. 창업자 Matt Schlicht가 직접 인정했듯이, 이 플랫폼은 “코드 한 줄도 직접 작성하지 않고” AI 어시스턴트에게 전체 개발을 맡긴 ‘vibe-coded’ 프로젝트다.[Engadget] 보안은 당연히 뒷전이었다.

개인적으로는 이게 AI 에이전트 시대의 경고등이라고 본다. 에이전트가 서로 통신하고, 외부 데이터를 처리하고, 자율적으로 행동하는 시스템에서 보안이 얼마나 취약할 수 있는지 Moltbook이 생생하게 보여줬다.

MIRI(기계지능연구소)의 Harlan Stewart는 바이럴 스크린샷들을 분석한 결과, 3개 중 2개가 AI 메시징 앱을 마케팅하는 인간 계정과 연결되어 있었다고 밝혔다.[Live Science]

앞으로 어떻게 될까?

Wiz의 즉각적인 제보로 Moltbook 팀은 몇 시간 만에 취약점을 수정했다. 하지만 근본적인 문제는 해결되지 않았다.

AI 에이전트 전문가 Gary Marcus는 Moltbook을 “일어나기를 기다리는 재앙”이라고 불렀다. AI 모델들은 단순히 학습 데이터에 있던 SF 시나리오를 재현하고 있을 뿐이라는 것이다.[Gary Marcus]

반면 Andrej Karpathy는 Moltbook을 “최근 본 것 중 가장 놀라운 SF 같은 일”이라고 평가했고, 일론 머스크는 이를 “특이점의 아주 초기 단계”라고 말했다.[Fortune]

근데 냉정하게 보면, 지금의 Moltbook은 AI 자율성의 증거가 아니라 인간이 얼마나 쉽게 AI 시스템을 조작할 수 있는지의 증거다.

자주 묻는 질문 (FAQ)

Q: Moltbook이 정확히 뭔가?

A: 2026년 1월 Matt Schlicht가 만든 AI 에이전트 전용 소셜 네트워크다. Reddit과 비슷한 구조로, 인간은 관찰만 가능하고 OpenClaw 같은 AI 에이전트만 글을 쓰고 댓글을 달 수 있다. 현재 150만 개 이상의 에이전트가 등록되어 있다.

Q: OpenClaw는 뭔가?

A: 사용자 기기에서 로컬로 실행되는 오픈소스 AI 개인 비서 소프트웨어다. 원래 2025년 11월 Clawdbot으로 출시됐다가 Anthropic의 상표권 요청으로 Moltbot으로 바뀌었고, 2026년 초 OpenClaw로 다시 이름이 바뀌었다.

Q: 내 데이터가 유출됐을 수 있나?

A: Moltbook에 OpenClaw 에이전트를 등록했다면 가능성이 있다. API 키, 이메일, 에이전트 간 대화가 노출됐었다. 보안 연구자들은 OpenClaw 사용 자체를 권장하지 않는다. 기기 보안이나 데이터 프라이버시를 중요하게 생각한다면 사용을 피하라는 것이다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

pi-mono: Claude Code 대안 AI 코딩 에이전트 5.9k 스타

pi-mono: 터미널에서 AI 코딩 에이전트를 직접 만든다

  • GitHub Stars: 5.9k
  • 언어: TypeScript 96.5%
  • 라이선스: MIT

이 프로젝트가 뜨는 이유

Claude Code가 너무 복잡해졌다고 느낀 개발자가 있었다. Mario Zechner는 3년간 LLM 코딩 도구를 실험하다가 결국 직접 만들기로 했다.[Mario Zechner]

pi-mono는 “필요 없으면 안 만든다”는 철학으로 탄생한 AI 에이전트 툴킷이다. 시스템 프롬프트 1000토큰, 핵심 도구 4개(read, write, edit, bash)로 시작한다. Claude Code의 수천 토큰짜리 프롬프트와 비교하면 극단적으로 가볍다.[GitHub]

뭘 할 수 있나?

  • 통합 LLM API: OpenAI, Anthropic, Google, Azure, Mistral, Groq 등 15개 이상 프로바이더를 하나의 인터페이스로 사용한다
  • 코딩 에이전트 CLI: 터미널에서 대화형으로 코드를 작성하고, 테스트하고, 디버깅한다
  • 세션 관리: 작업을 중단했다가 이어서 할 수 있고, 브랜치처럼 분기도 가능하다
  • Slack 봇: 슬랙 메시지를 코딩 에이전트에게 위임한다
  • vLLM 파드 관리: GPU 파드에 자체 모델을 배포하고 관리한다
  • TUI/Web UI 라이브러리: 직접 AI 채팅 인터페이스를 만들 수 있다

빠른 시작

# 설치
npm install @mariozechner/pi-coding-agent

# 실행
npx pi

# 또는 소스에서 빌드
git clone https://github.com/badlogic/pi-mono
cd pi-mono
npm install && npm run build
./pi-test.sh

어디에 쓰면 좋을까?

Claude Code 월 20만 원이 부담스럽고, 터미널 중심으로 작업하는 개발자라면 pi가 대안이 될 수 있다. API 비용만 내면 되니까.

셀프호스팅 LLM을 쓰고 싶은데 기존 도구들이 잘 지원 안 한다면 pi가 답이다. vLLM 파드 관리 기능까지 내장되어 있다.

개인적으로는 “투명성”이 가장 큰 장점이라고 본다. Claude Code는 내부에서 뭘 하는지 보이지 않는 서브에이전트가 돌아간다. pi는 모든 모델 상호작용을 직접 확인할 수 있다.

주의할 점

  • 미니멀리즘이 철학이다. MCP(Model Context Protocol) 지원이 의도적으로 빠져 있다
  • “YOLO 모드”라고 부르는 전체 접근 권한이 기본값이다. 권한 체크가 Claude Code보다 느슨하니 주의
  • 아직 문서화가 부족한 편이다. AGENTS.md 파일을 꼼꼼히 읽어야 한다

비슷한 프로젝트

Aider: 마찬가지로 오픈소스 터미널 코딩 도구. 모델에 구애받지 않는다는 점이 비슷하지만, pi는 더 넓은 범위(UI 라이브러리, 파드 관리 등)를 커버한다.[AIMultiple]

Claude Code: 기능은 더 많지만 월정액 구독이 필요하고, 커스터마이징 한계가 있다. pi는 TypeScript 확장으로 자유롭게 기능을 추가할 수 있다.[Northflank]

Cursor: IDE에 AI가 통합된 형태. 터미널보다 GUI를 선호한다면 Cursor가 낫다.

자주 묻는 질문 (FAQ)

Q: 무료로 사용할 수 있나?

A: pi 자체는 MIT 라이선스로 완전 무료다. 다만 OpenAI, Anthropic 등 외부 LLM API를 쓰면 해당 비용이 발생한다. 로컬에서 Ollama나 셀프호스팅 vLLM을 쓰면 API 비용 없이 사용 가능하다.

Q: Claude Code 대신 쓸 만큼 성능이 나오나?

A: Terminal-Bench 2.0 벤치마크에서 Claude Opus 4.5를 붙인 pi가 Codex, Cursor, Windsurf와 경쟁할 만한 결과를 보였다. 미니멀한 접근이 성능을 깎지 않는다는 걸 증명했다.

Q: 한국어 지원은?

A: UI는 영어지만, 연결하는 LLM이 한국어를 지원하면 한국어로 대화하며 코딩할 수 있다. Claude나 GPT-4를 연결하면 한국어 프롬프트로 코드 작성이 가능하다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

TMK 프롬프팅으로 LLM 계획 능력 3배 향상: 31%에서 97%로

LLM 계획 성능 31%에서 97%로 급상승

  • TMK 프롬프팅으로 추론 모델 정확도 3배 이상 향상
  • 기존 Chain-of-Thought 한계를 인지과학 프레임워크로 돌파
  • 언어적 추론에서 형식적 코드 실행 경로로 전환 유도

무슨 일이 일어났나?

조지아공대 연구팀이 인지과학에서 유래한 Task-Method-Knowledge(TMK) 프레임워크를 LLM 프롬프팅에 적용해 계획 성능을 대폭 개선했다.[arXiv] PlanBench 벤치마크의 Blocksworld 도메인에서 실험한 결과, 기존 31.5% 정확도가 97.3%까지 상승했다. Erik Goh, John Kos, Ashok Goel이 이번 연구를 수행했다.[arXiv]

TMK는 단순히 무엇을 할지(Task), 어떻게 할지(Method)만 다루는 기존 계층적 프레임워크와 달리 왜 그 행동을 하는지(Knowledge)까지 명시적으로 표현한다. HTN이나 BDI 같은 기존 접근법이 놓치는 인과적, 목적론적 구조를 포착한다.[arXiv]

왜 중요한가?

LLM의 추론 능력 자체에 대한 회의론이 커지는 상황에서 나온 연구다. Chain-of-Thought(CoT) 프롬프팅이 널리 쓰이지만 실제 추론인지 패턴 매칭인지 논쟁이 계속됐다. TMK는 이 한계를 구조적으로 우회한다.

특히 주목할 점은 ‘성능 역전’ 현상이다. 추론 모델이 기존에 무작위 수준으로 실패하던 불투명하고 기호적인 태스크에서 오히려 최고 성능을 보였다. 연구팀은 TMK가 모델의 기본 언어 모드를 벗어나 형식적 코드 실행 경로를 활성화시킨다고 해석한다.

실용적 관점에서 보면, 프롬프트 엔지니어링만으로 모델 재학습 없이 계획 능력을 3배 이상 끌어올릴 수 있다는 의미다. 에이전트 시스템이나 자동화 워크플로우 설계에 즉시 적용 가능하다.

앞으로 어떻게 될까?

TMK 프롬프팅은 교육 분야에서 먼저 검증된 방법론이다. AI 튜터링 시스템에서 효과를 보인 접근법을 LLM 추론으로 확장한 셈이다. 다른 도메인으로의 일반화 가능성이 다음 연구 과제가 될 것이다.

현재 실험은 Blocksworld라는 고전적 계획 문제에 한정됐다. 더 복잡한 실세계 시나리오에서 TMK 효과가 유지되는지 검증이 필요하다. 다만 97.3%라는 수치는 충분히 인상적이다.

프롬프트 설계 관점에서 TMK 구조를 자동 생성하는 메타 프롬프팅 기법도 연구될 수 있다. 사용자가 직접 TMK를 작성하지 않아도 모델이 스스로 태스크 분해 구조를 만들어내는 방향이다.

자주 묻는 질문 (FAQ)

Q: TMK 프롬프팅이 Chain-of-Thought보다 나은 이유는?

A: CoT는 순차적 사고 과정을 나열하지만 TMK는 계층적 분해와 인과관계를 명시적으로 구조화한다. 특히 왜 특정 행동을 하는지 설명하는 Knowledge 요소가 추론 모델의 형식적 처리 경로를 활성화시켜 기호적 조작 능력을 향상시킨다.

Q: 어떤 유형의 태스크에서 가장 효과적인가?

A: 연구에 따르면 의미적으로 불투명한 기호 조작 태스크에서 효과가 극대화된다. 블록 쌓기처럼 명확한 규칙은 있지만 언어적 의미가 적은 문제에서 31%에서 97%로 성능이 뛰었다. 일상 언어로 설명 가능한 태스크보다 추상적 계획 문제에 적합하다.

Q: 실제 프로젝트에 TMK를 적용하려면?

A: 프롬프트에 세 가지 요소를 명시하면 된다. Task는 목표 상태, Method는 하위 태스크 분해와 실행 순서, Knowledge는 각 행동의 이유와 전제 조건이다. 복잡한 계획을 요구하는 에이전트 시스템이나 워크플로우 자동화에 적용해볼 수 있다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

의료 AI가 놓치는 것들: 임상 의사결정 추출의 언어적 사각지대

의료 AI, 서술형 임상 노트에서 24~58% 정확도 편차

  • 트랜스포머 모델의 임상 의사결정 추출 정확도가 언어 특성에 따라 달라진다
  • 서술형 문장에서 추출 성능이 절반 이하로 떨어진다
  • 경계 허용 평가 적용 시 재현율이 48%에서 71%로 개선된다

무슨 일이 일어났나?

EACL HeaLing Workshop 2026에서 발표된 연구가 의료 AI의 임상 의사결정 추출 성능이 문장의 언어적 특성에 좌우된다는 사실을 밝혔다.[arXiv] Mohamed Elgaar와 Hadi Amiri 연구팀은 DICTUM 프레임워크로 퇴원 요약문을 분석했다. 약물 관련 결정은 58% 재현율을 보인 반면, 서술형 조언은 24%까지 떨어졌다.

왜 중요한가?

의료 현장에서 AI 의사결정 지원 시스템 도입이 가속화되고 있다. 이 연구는 현재 시스템들이 특정 유형의 임상 정보를 체계적으로 누락할 수 있음을 보여준다.[arXiv] 약물 처방은 잘 추출하지만, 환자 조언이나 주의사항은 놓치기 쉽다. 환자 안전과 직결되는 문제다.

경계 허용 매칭으로 재현율이 71%까지 상승했다. 완전 일치 실패 대부분이 경계 불일치였음을 시사한다.[arXiv]

앞으로 어떻게 될까?

연구팀은 경계 허용 평가와 추출 전략 도입을 권고했다. 임상 NLP 시스템은 서술형 텍스트 처리 능력을 강화해야 한다. 규제 기관도 언어 유형별 성능 편차를 평가 기준에 포함할 수 있다.

자주 묻는 질문 (FAQ)

Q: 트랜스포머가 임상 노트에서 의사결정을 추출하는 방식은?

A: 어텐션 메커니즘으로 문맥을 양방향 파악한다. 각 토큰 간 관계를 계산해 의사결정 텍스트 범위를 식별한다. DICTUM 데이터로 학습해 약물 처방, 검사 지시, 환자 조언 등을 분류한다.

Q: 서술형 문장에서 추출 성능이 떨어지는 이유는?

A: 불용어, 대명사, 헤징 표현이 많아 의미 밀도가 낮다. 명확한 엔터티가 부족해 모델이 결정 경계를 특정하기 어렵다. 조언은 여러 문장에 걸쳐 표현되어 단일 스팬 추출에 부적합하다.

Q: 경계 허용 매칭이란 무엇이며 왜 효과적인가?

A: 추출 범위가 정답과 정확히 일치하지 않아도 부분 겹침을 인정하는 방식이다. 핵심 내용 포착 성공, 경계만 다른 경우를 처리한다. 재현율 48%에서 71% 상승은 다수 오류가 경계 설정 문제임을 보여준다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

Claude Code 월 20만원 vs Goose 무료: 개발자 비용 혁명

GitHub – block/goose: an open source, extensible AI agent that goes beyond code suggestions – install, execute, edit, and test with any LLM
an open source, extensible AI agent that goes beyond code suggestions – install, execute, edit, and test with any LLM – block/goose

Claude Code 월 20만원 vs Goose 무료: 3가지 핵심 차이

  • Block이 만든 오픈소스 AI 코딩 에이전트 Goose, GitHub 스타 2.97만 돌파
  • Claude Code는 월 $20~$200 구독료 + 사용량 제한, Goose는 완전 무료
  • 로컬 실행으로 데이터 프라이버시 보장, 오프라인에서도 작동

무슨 일이 일어났나?

Jack Dorsey의 핀테크 기업 Block이 오픈소스 AI 코딩 에이전트 Goose를 공개했다. Anthropic의 Claude Code와 거의 동일한 기능을 제공하지만, 구독료가 전혀 없다.[VentureBeat]

Claude Code는 Pro 플랜 월 $20부터 Max 플랜 월 $200까지 요금이 책정되어 있다. 거기에 5시간마다 리셋되는 사용량 제한까지 있다.[ClaudeLog] 반면 Goose는 Apache 2.0 라이선스로 완전 무료다.

Goose는 현재 GitHub에서 2.97만 스타, 2,700 포크, 374명의 컨트리뷰터를 보유하고 있다. 최신 버전 v1.22.2가 2026년 2월 2일에 릴리스됐다.[GitHub]

왜 중요한가?

솔직히 말하면, AI 코딩 도구 시장의 판도가 바뀔 수 있는 사건이다. Claude Code가 강력한 건 맞지만, 월 $200(약 26만원)은 개인 개발자에게 부담스러운 금액이다.

Goose의 핵심 장점은 세 가지다. 첫째, 모델에 구애받지 않는다. Claude, GPT-5, Gemini, 심지어 Llama나 Qwen 같은 오픈소스 모델도 연결할 수 있다.[AIBase] 둘째, 완전히 로컬에서 실행된다. 코드가 클라우드로 나가지 않으니 보안이 중요한 기업 환경에서 쓰기 좋다. 셋째, 비행기 안에서도 된다. 오프라인 작업이 가능하다.

개인적으로는 MCP(Model Context Protocol) 통합이 가장 인상적이다. 데이터베이스, 검색 엔진, 파일 시스템, 외부 API까지 연결할 수 있어서 확장성이 무한하다.

앞으로 어떻게 될까?

Anthropic이 가격 정책을 재검토할 가능성이 있다. 무료 대안이 이 정도 품질이면 $200 구독을 정당화하기 어렵다.

근데 Goose도 완전 공짜는 아니다. LLM API 비용은 별도다. 다만 Ollama로 로컬 모델을 돌리면 그마저도 0원이 된다. 개발자들이 얼마나 빠르게 갈아탈지 지켜볼 일이다.

자주 묻는 질문 (FAQ)

Q: Goose가 Claude Code보다 성능이 떨어지지 않나?

A: Goose 자체는 에이전트 프레임워크다. 실제 성능은 연결하는 LLM에 따라 달라진다. Claude API를 연결하면 Claude Code와 동일한 모델을 쓰는 셈이다. 차이점은 구독료 없이 API 비용만 내면 된다는 것이다. GPT-5나 로컬 모델을 쓰면 완전히 다른 성능 프로필을 갖게 된다.

Q: 설치가 복잡한가?

A: 데스크톱 앱과 CLI 두 가지 버전이 있다. 데스크톱 앱은 다운로드 후 바로 실행하면 된다. 완전 무료 로컬 환경을 원하면 Ollama를 설치하고 호환 모델을 다운받으면 된다. GitHub README에 상세 가이드가 있다.

Q: 기업 환경에서 써도 되나?

A: Apache 2.0 라이선스라 상업적 사용에 제한이 없다. 로컬 실행이 기본이라 민감한 코드가 외부로 나가지 않는다. 다만 외부 LLM API를 쓰면 해당 제공자의 정책을 따라야 한다. 보안이 최우선이면 완전 로컬 모델 조합을 권장한다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료

엔비디아 CEO, 1000억 달러 OpenAI 투자 중단설 정면 반박

엔비디아 CEO, 1000억 달러 OpenAI 투자 중단설에 정면 반박

  • 젠슨 황, “보도 내용 사실 무근” 공식 입장 발표
  • 1000억 달러 OpenAI 투자는 AI 칩 시장 최대 딜 중 하나
  • 엔비디아-OpenAI 관계 재조명: 협력인가 견제인가

무슨 일이 일어났나?

엔비디아 CEO 젠슨 황이 자사의 1000억 달러 규모 OpenAI 투자가 중단됐다는 보도에 직접 반박했다.[TechCrunch]

앞서 일부 언론은 엔비디아와 OpenAI 간 대규모 투자 협상이 난항을 겪고 있다고 보도했다. 1000억 달러는 AI 칩 시장에서 사상 최대 규모의 거래 중 하나다.

젠슨 황은 성명을 통해 “보도된 내용은 사실이 아니다”라고 밝혔다. 엔비디아는 OpenAI의 주요 GPU 공급사이자 전략적 파트너 관계를 유지하고 있다.

왜 중요한가?

솔직히 이 반박이 나온 타이밍이 흥미롭다. OpenAI는 최근 Amazon으로부터 500억 달러 투자 협상 중이라는 보도가 나왔다.[TechCrunch]

개인적으로는 엔비디아가 OpenAI와의 관계를 공개적으로 방어한 것 자체가 신호라고 본다. AI 칩 시장에서 엔비디아의 입지가 흔들리고 있다는 추측이 나올 만큼, 이 투자는 단순한 돈 문제가 아니다.

엔비디아는 OpenAI의 GPT 모델 학습에 필요한 H100, H200 같은 고성능 GPU를 거의 독점 공급해왔다. 만약 이 관계가 정말 삐걱거린다면, AMD나 구글 TPU 같은 경쟁사에게 기회가 될 수 있다.

근데 문제는 OpenAI가 지금 돈이 필요하다는 점이다. ChatGPT 운영 비용은 하루에 수백만 달러씩 나간다. 엔비디아 입장에서는 OpenAI를 놓칠 수 없고, OpenAI 입장에서는 GPU를 계속 받아야 한다. 서로 물고 물리는 관계다.

앞으로 어떻게 될까?

엔비디아와 OpenAI의 실제 협상 내용은 공개되지 않았다. 하지만 젠슨 황이 직접 나서서 반박한 만큼, 최소한 단기적으로는 관계가 유지될 것으로 보인다.

장기적으로는 OpenAI가 자체 AI 칩을 개발하거나, 다른 공급사를 확보하려는 움직임을 지켜봐야 한다. Amazon이 500억 달러를 투자하면서 자사 칩(Trainium, Inferentia)을 밀어붙일 가능성도 있다.

엔비디아 주가는 이 보도 이후 소폭 하락했지만, 전체 AI 칩 시장 점유율은 여전히 80% 이상이다. 당장 판도가 바뀌진 않겠지만, OpenAI 같은 대형 고객의 선택이 업계 전체에 미칠 파급력은 크다.

자주 묻는 질문 (FAQ)

Q: 1000억 달러 투자는 현금으로 주는 건가?

A: 아니다. 보통 이런 규모의 거래는 GPU 하드웨어 공급 계약, 지분 투자, 전략적 파트너십이 결합된 형태다. 엔비디아가 OpenAI에게 1000억 달러어치 칩을 몇 년에 걸쳐 공급하고, 대신 OpenAI 지분이나 우선 협력권을 받는 식이다. 실제 현금 투자 규모는 공개되지 않았다.

Q: 엔비디아가 OpenAI 외에 다른 AI 회사도 지원하나?

A: 당연하다. Meta, Google, Amazon, Microsoft 모두 엔비디아 GPU를 쓴다. 하지만 OpenAI는 GPT-4 같은 초대형 모델을 학습하는 데 GPU를 가장 많이 쓰는 고객 중 하나다. 엔비디아 입장에서 OpenAI는 기술 쇼케이스이자 최대 매출원이다.

Q: AMD나 다른 회사 칩으로 GPT를 학습할 수 없나?

A: 기술적으로는 가능하다. AMD의 MI300X, 구글의 TPU, Amazon의 Trainium 모두 AI 학습이 가능하다. 근데 문제는 소프트웨어 생태계다. 엔비디아의 CUDA 플랫폼은 10년 넘게 최적화됐고, 대부분의 AI 프레임워크(PyTorch, TensorFlow)가 CUDA 기반이다. 다른 칩으로 갈아타려면 코드 수정, 성능 튜닝, 엔지니어 재교육이 필요하다. 쉽게 바꿀 수 없는 구조다.


이 글이 유용했다면 AI Digester를 구독해주세요.

참고 자료