Opus 4.6, 법률 벤치마크에서 3가지 기록을 세우다
- Anthropic Opus 4.6이 법률 벤치마크에서 18.4%에서 29.8%로 급등
- 다중 시도 시 평균 45% 도달, 기존 모델 대비 압도적 성과
- AI 에이전트의 법률 실무 진입 가능성이 본격 논의 시작
Anthropic Opus 4.6과 APEX-Agents 벤치마크
Anthropic이 2월 5일 공개한 Opus 4.6이 법률 분야에서 주목할 성과를 냈다. Mercor가 만든 APEX-Agents 리더보드 기준으로, 기존 AI 모델들의 법률 업무 정확도는 25% 미만이었다[TechCrunch].
Opus 4.6은 단일 시도에서 약 30%, 다중 시도에서 45%를 기록했다. Mercor CEO 브렌든 푸디는 이를 “미친 수준의 도약”이라고 평가했다[TechCrunch].
에이전트 스웜이 만드는 차이
Opus 4.6의 핵심은 “에이전트 스웜” 기능이다. 여러 AI 에이전트가 역할을 나눠 법률 문서 분석과 판례 검토를 처리한다. 단일 모델 방식보다 복합 업무에서 정확도가 높다[TechCrunch].
45%는 아직 실무 수준은 아니다. 하지만 몇 달 전 18.4%에서 이 수치까지 올라온 속도가 핵심이다. 법률 문서 초안이나 판례 검색 같은 보조 업무에는 이미 쓸 수 있는 수준이다.
법률 AI 시장의 향방
이 추세가 유지되면 2026년 내 60~70%를 넘기는 모델이 나올 수 있다. AI 법률 서비스가 본격화되면 중소기업이나 개인의 법률 자문 접근성이 크게 개선될 전망이다. 규제와 윤리 논의가 기술 속도를 따라잡아야 할 시점이다. 참고가 되길 바란다.
자주 묻는 질문 (FAQ)
Q: Opus 4.6의 법률 벤치마크 점수는 얼마인가?
A: 단일 시도에서 약 29.8%, 다중 시도 평균 45%를 기록했다. 이전 최고 기록이 25% 미만이었던 것에 비해 큰 폭의 상승이다. Mercor의 APEX-Agents 리더보드 기준이며 법률 문서 분석과 판례 검토 등 실무 태스크를 포함한다.
Q: 에이전트 스웜이란 무엇인가?
A: 여러 AI 에이전트가 역할을 나눠 협업하는 방식이다. 한 에이전트가 문서를 읽고 다른 에이전트가 판례를 검색하는 식으로 복잡한 법률 업무를 분담한다. 단일 모델보다 복합 작업에서 더 높은 정확도를 보인다.
Q: AI가 실제로 변호사를 대체할 수 있는가?
A: 당장은 어렵다. 45%의 정확도는 실무 투입에 부족하다. 하지만 문서 초안 작성, 판례 검색, 계약서 검토 같은 보조 업무에서는 활용 가능한 수준이다. 완전한 대체보다 보조 도구로서의 역할이 먼저 확대될 전망이다.
이 글이 유용했다면 AI Digester를 구독해주세요.
참고 자료
- Maybe AI agents can be lawyers after all – TechCrunch (2026-02-06)
- Anthropic 공식 사이트 – Anthropic (2026-02-05)
- Mercor APEX-Agents Leaderboard – Mercor (2026-01)