人工智能企业为争夺行业主导权激战正酣,但它们的较量有时竟会发生在宝可梦(Pokémon)道馆里。当谷歌(Google)与Anthropic同时研究各自最新AI模型如何通关早期宝可梦游戏时,得出的结论既令人捧腹又发人深省——最新战报显示,谷歌DeepMind在报告中指出,当Gemini 2.5 Pro操控的宝可梦濒临死亡时,这个AI会陷入恐慌状态

Cover Image

AI基准测试(即对比不同模型性能的过程)向来是门充满争议的“玄学”,往往难以真实反映模型能力。但有研究者认为,观察AI玩电子游戏的表现或许更具参考价值(至少相当有趣)。过去几个月里,两位与谷歌和Anthropic无关的开发者分别开设了“Gemini玩宝可梦”和“Claude玩宝可梦”的直播,让观众实时围观AI如何挑战这款25年前的儿童游戏。

这些直播会展示AI的“推理”过程——即用自然语言呈现AI如何分析问题并作出决策,为我们打开了窥探模型运作机制的天窗。虽然AI的进步令人惊叹,但它们的宝可梦对战水平实在不敢恭维:Gemini需要数百小时才能通关的游戏,普通儿童所需时间可能呈几何级数缩短。

观察AI玩宝可梦的趣味性并不在于通关时长,而在于其行为模式。报告指出:“在游戏过程中,Gemini 2.5 Pro会因各种突发状况进入模拟‘恐慌’状态。”这种恐慌会导致模型性能显著下降,表现为AI会突然停止使用某些本可调用的游戏工具。虽然AI并不具备真实情感,但其反应模式却奇妙地复现了人类在压力下仓促决策的缺陷——这种既迷人又令人不安的相似性值得玩味。

Claude在关都地区的冒险中也展现出诡异行为。当在月见山(Mt. Moon)洞穴迷路时,它错误地总结出“让所有宝可梦濒死就能瞬移到下个城镇的宝可梦中心”的荒谬策略。观众们毛骨悚然地看着这个AI在游戏里反复实施自杀计划——实际上游戏机制只会让玩家返回最后使用过的治疗中心。

不过AI在某些方面确实超越人类玩家。Gemini 2.5 Pro能以惊人准确率解开游戏中的推石谜题。在少量人类提示下,它甚至能自主创建“代理工具”(专用于特定任务的子模型)来规划最优路线。报告强调:“仅需给出岩石物理规则和路径验证方法的提示,Gemini 2.5 Pro就能一次性解决冠军之路(Victory Road)的复杂推石谜题。”

由于Gemini 2.5 Pro在工具创建过程中展现出高度自主性,谷歌推测现有模型或许已具备无监督开发能力。说不定哪天,这个AI会给自己开发个“防恐慌”模块呢。


文章标签: #人工智能 #谷歌 #游戏测试 #行为模式 #自主开发

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。