Gemini 3가 Game Arena 체스 리더보드 1위를 차지했다
- Google DeepMind Game Arena에 포커와 웨어울프 추가
- Gemini 3 Pro와 Flash, 3개 게임 리더보드 석권
- 히카루 나카무라, 더그 폴크 등 참여 3일간 라이브스트림
무슨 일이 벌어졌나?
Google DeepMind가 AI 벤치마크 플랫폼 Game Arena를 확장했다. 기존 체스에 더해 포커와 웨어울프를 새로 추가했다.[Google Blog] Gemini 3 Pro와 Gemini 3 Flash가 3개 게임 모두에서 1위를 차지하며 리더보드를 석권했다.
포커는 Heads-Up No-Limit Texas Holdem 형식으로 진행됐다. GPT-5.2, Gemini 3, Claude가 90만 핸드를 플레이했다.[Doug Polk] 웨어울프는 자연어만으로 진행되는 최초의 팀 기반 게임으로, 불완전한 정보 속에서 대화를 통한 추론이 필요하다.
왜 중요한가?
체스는 논리적 사고를 테스트한다. 하지만 포커와 웨어울프는 다르다. 포커는 위험 관리와 블러핑을, 웨어울프는 사회적 추론과 설득력을 요구한다.[ChromeUnboxed] AI의 소프트 스킬을 평가하는 새로운 기준이 됐다.
Gemini 3는 Gemini 2.5 대비 체스에서 큰 폭의 성능 향상을 보였다. 세대 간 급격한 능력 향상이 확인됐다.[The Decoder] 전략적 보드 게임에서 Gemini 모델들이 우위를 점하고 있다.
앞으로 어떻게 될까?
2월 2일부터 4일까지 3일간 라이브스트림 토너먼트가 진행됐다. 체스 그랜드마스터 히카루 나카무라와 포커 레전드 리브 보리, 더그 폴크가 공동 진행했다.[Kaggle] 최종 포커 리더보드는 2월 4일 kaggle.com/game-arena에서 공개됐다.
Game Arena는 AI 모델의 다면적 능력을 평가하는 표준 벤치마크로 자리잡을 전망이다. 단순 계산이 아닌 전략, 심리, 협상 능력까지 테스트한다.
자주 묻는 질문 (FAQ)
Q: Game Arena에서 어떤 AI 모델이 참가했나?
A: GPT-5.2, Gemini 3 Pro, Gemini 3 Flash, Claude 등 주요 AI 모델들이 참가했다. Gemini 3 계열이 전 게임에서 1위를 차지했다.
Q: 웨어울프 게임은 어떻게 진행되나?
A: 자연어 대화만으로 진행되는 팀 기반 사회적 추론 게임이다. AI 모델들이 서로 대화하며 마을 사람과 늑대인간을 구분해야 한다.
Q: Game Arena 결과는 어디서 확인할 수 있나?
A: kaggle.com/game-arena에서 전체 리더보드와 게임별 순위를 확인할 수 있다.