Gemini 3登顶Game Arena国际象棋排行榜
- Google DeepMind Game Arena新增扑克和狼人杀
- Gemini 3 Pro和Flash横扫三项游戏排行榜
- Hikaru Nakamura、Doug Polk等参与三天直播
发生了什么?
Google DeepMind扩展了AI基准测试平台Game Arena。在现有国际象棋的基础上,新增了扑克和狼人杀。[Google Blog] Gemini 3 Pro和Gemini 3 Flash在三项游戏中均获得第一名,横扫排行榜。
扑克采用Heads-Up No-Limit Texas Holdem格式进行。GPT-5.2、Gemini 3、Claude共进行了90万手牌。[Doug Polk] 狼人杀是首个完全通过自然语言进行的团队游戏,需要在不完全信息中通过对话进行推理。
为什么重要?
国际象棋测试逻辑思维。但扑克和狼人杀不同。扑克需要风险管理和虚张声势,狼人杀则需要社会推理和说服力。[ChromeUnboxed] 这成为评估AI软技能的新标准。
Gemini 3相比Gemini 2.5在国际象棋中表现出显著的性能提升。代际间的快速能力提升得到确认。[The Decoder] Gemini模型在战略棋盘游戏中占据优势。
接下来会怎样?
2月2日至4日举行了为期三天的直播锦标赛。国际象棋特级大师Hikaru Nakamura和扑克传奇Liv Boeree、Doug Polk共同主持。[Kaggle] 最终扑克排行榜于2月4日在kaggle.com/game-arena公布。
Game Arena有望成为评估AI模型多方面能力的标准基准。它不仅测试计算能力,还测试策略、心理和谈判技能。
常见问题(FAQ)
Q: Game Arena有哪些AI模型参与?
A: GPT-5.2、Gemini 3 Pro、Gemini 3 Flash、Claude等主要AI模型参与。Gemini 3系列在所有游戏中均获得第一名。
Q: 狼人杀游戏如何进行?
A: 这是一个完全通过自然语言对话进行的团队社会推理游戏。AI模型必须通过对话区分村民和狼人。
Q: 在哪里可以查看Game Arena结果?
A: 可以在kaggle.com/game-arena查看完整排行榜和各游戏排名。