Gemini 3がGame Arenaチェスリーダーボードでトップに
- Google DeepMind Game Arenaにポーカーと人狼を追加
- Gemini 3 ProとFlashが3つのゲームリーダーボードを制覇
- ヒカル・ナカムラ、ダグ・ポークらが参加する3日間のライブストリーム
何が起きたのか?
Google DeepMindがAIベンチマークプラットフォームGame Arenaを拡張した。既存のチェスに加えて、ポーカーと人狼を新たに追加した。[Google Blog] Gemini 3 ProとGemini 3 Flashが3つのゲームすべてで1位を獲得し、リーダーボードを席巻した。
ポーカーはHeads-Up No-Limit Texas Holdem形式で行われた。GPT-5.2、Gemini 3、Claudeが90万ハンドをプレイした。[Doug Polk] 人狼は自然言語のみで進行される初のチームベースゲームで、不完全な情報の中で対話を通じた推論が必要となる。
なぜ重要なのか?
チェスは論理的思考をテストする。しかしポーカーと人狼は異なる。ポーカーはリスク管理とブラフを、人狼は社会的推論と説得力を要求する。[ChromeUnboxed] AIのソフトスキルを評価する新しい基準となった。
Gemini 3はGemini 2.5と比較してチェスで大幅なパフォーマンス向上を示した。世代間の急速な能力向上が確認された。[The Decoder] 戦略的ボードゲームでGeminiモデルが優位を占めている。
今後どうなるのか?
2月2日から4日まで3日間のライブストリームトーナメントが開催された。チェスグランドマスターのヒカル・ナカムラとポーカーレジェンドのリブ・ボリー、ダグ・ポークが共同司会を務めた。[Kaggle] 最終ポーカーリーダーボードは2月4日にkaggle.com/game-arenaで公開された。
Game ArenaはAIモデルの多面的な能力を評価する標準ベンチマークとして定着すると見られる。単純な計算だけでなく、戦略、心理、交渉能力までテストする。
よくある質問(FAQ)
Q: Game Arenaにはどのようなモデルが参加したのか?
A: GPT-5.2、Gemini 3 Pro、Gemini 3 Flash、Claudeなど主要AIモデルが参加した。Gemini 3シリーズが全ゲームで1位を獲得した。
Q: 人狼ゲームはどのように進行されるのか?
A: 自然言語対話のみで進行されるチームベースの社会的推論ゲームである。AIモデルは対話を通じて村人と人狼を区別しなければならない。
Q: Game Arenaの結果はどこで確認できるのか?
A: kaggle.com/game-arenaで全体のリーダーボードとゲーム別ランキングを確認できる。