Gemini 3,AI国际象棋冠军:游戏竞技场扩展至扑克和狼人杀

Gemini 3登顶Game Arena国际象棋排行榜

  • Google DeepMind Game Arena新增扑克和狼人杀
  • Gemini 3 Pro和Flash横扫三项游戏排行榜
  • Hikaru Nakamura、Doug Polk等参与三天直播

发生了什么?

Google DeepMind扩展了AI基准测试平台Game Arena。在现有国际象棋的基础上,新增了扑克和狼人杀。[Google Blog] Gemini 3 Pro和Gemini 3 Flash在三项游戏中均获得第一名,横扫排行榜。

扑克采用Heads-Up No-Limit Texas Holdem格式进行。GPT-5.2、Gemini 3、Claude共进行了90万手牌。[Doug Polk] 狼人杀是首个完全通过自然语言进行的团队游戏,需要在不完全信息中通过对话进行推理。

为什么重要?

国际象棋测试逻辑思维。但扑克和狼人杀不同。扑克需要风险管理和虚张声势,狼人杀则需要社会推理和说服力。[ChromeUnboxed] 这成为评估AI软技能的新标准。

Gemini 3相比Gemini 2.5在国际象棋中表现出显著的性能提升。代际间的快速能力提升得到确认。[The Decoder] Gemini模型在战略棋盘游戏中占据优势。

接下来会怎样?

2月2日至4日举行了为期三天的直播锦标赛。国际象棋特级大师Hikaru Nakamura和扑克传奇Liv Boeree、Doug Polk共同主持。[Kaggle] 最终扑克排行榜于2月4日在kaggle.com/game-arena公布。

Game Arena有望成为评估AI模型多方面能力的标准基准。它不仅测试计算能力,还测试策略、心理和谈判技能。

常见问题(FAQ)

Q: Game Arena有哪些AI模型参与?

A: GPT-5.2、Gemini 3 Pro、Gemini 3 Flash、Claude等主要AI模型参与。Gemini 3系列在所有游戏中均获得第一名。

Q: 狼人杀游戏如何进行?

A: 这是一个完全通过自然语言对话进行的团队社会推理游戏。AI模型必须通过对话区分村民和狼人。

Q: 在哪里可以查看Game Arena结果?

A: 可以在kaggle.com/game-arena查看完整排行榜和各游戏排名。

发表评论