这虽然像是某家PC游戏网站为唤醒情怀而刻意为之的怀旧企划,但请回想你初次在《精灵宝可梦》(Pokémon)游戏中陷入苦战的场景,我敢打赌,当捕获的伙伴生命值即将归零时那急促的警报声,至今仍会让你掌心冒汗。有趣的是,当谷歌旗下DeepMind团队的人工智能Gemini在《精灵宝可梦》中面临团灭危机时,竟也会做出匪夷所思的决策。

Cover Image

在最新报告中大力推介Gemini 2.X模型家族时,谷歌DeepMind特别提及了一个出人意料的案例研究——Twitch频道“Gemini_Plays_Pokémon”。该项目由与谷歌无隶属关系的工程师Joel Zhang发起。当这个AI两次通关《精灵宝可梦·蓝》(每次都以杰尼龟作为初始宝可梦)的过程中,DeepMind团队观察到了一个被他们写入附录、命名为“智能体恐慌”的奇特现象。

简而言之,当战况陷入不利时,这个AI智能体会立即试图逃离战场。研究团队发现:“当Gemini 2.5 Pro的队伍生命值或技能点(PP值)偏低时,模型表现会出现与推理能力明显下降相关的行为,比如在持续处于劣势期间,会完全忘记使用寻路工具。”

由于这种机制(再加上对重制版中存在而原版没有的虚构道具“茶”的执着),该AI首次通关《精灵宝可梦·蓝》耗时超过813小时。经Zhang调试后,第二次通关时间缩短至406.5小时,虽然根据How Long to Beat网站数据,这款游戏主线流程仅需约26小时即可完成。显然,Gemini并不擅长玩这款已有四分之一世纪历史的儿童向游戏。

尽管报告中记录AI挑战四大天王历程的散点图颇具趣味,但这项实验的诸多方面令人深思。首先,用电子游戏来测试AI能力的做法本身就充满存在主义式的荒诞,当机器人能轻易消化并复现人类创作时,创造的意义何在?更不用说这类“AI基准测试”实际能提供的有效信息多么有限。

所谓“智能体恐慌”的命名,本质是通过观察AI在儿童游戏中“挣扎”来赋予其人性化特质的营销话术。必须强调:AI根本不会体验“恐慌”这类情绪,那些看似仓促的决策,很可能只是Gemini在模仿训练数据中的行为模式。

观看AI笨拙地玩经典游戏确实颇具娱乐性,但这并不意味着DeepMind之外的人需要为Gemini那根本不存在的“进步”而欢欣鼓舞。


文章标签: #人工智能 #游戏测试 #谷歌 #DeepMind #宝可梦

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。