谷歌AI玩宝可梦陷恐慌，研究揭示智能体决策缺陷

谷歌（Google）旗下AI聊天模型“双子座”（Gemini）在Twitch平台直播游玩《精灵宝可梦》（Pokémon）的实况引发热议。虽然该直播是由非谷歌官方用户发起，但谷歌深度思维（Google DeepMind）随后发布详细分析报告，使这一实验获得广泛关注。

Cover Image

作为基于大语言模型（LLM）的AI聊天系统，Gemini具备高级推理能力，其原生多模态特性可同步处理文本、图像、音频等多种数据。最新版Gemini 2.5 Pro引入思维链机制，显著提升了逻辑推理等核心能力。

针对Twitch频道“Gemini玩宝可梦”（Gemini_Plays_Pokemon）的实验，谷歌AI旗下研究机构深度思维发布专题报告。据科技媒体TechCrunch报道，该实验通过让Gemini游玩初代作品《宝可梦蓝》（Pokémon Blue），展现出AI在复杂游戏环境中的决策能力。

AI的“角色扮演”机制

该频道由独立软件工程师张乔尔（Joel Zhang）运营。今年3月谷歌发布Gemini 2.5 Pro实验版后，张氏立即启动该项目。系统通过截取游戏画面，结合玩家位置、精灵队伍及地图等数据，由Gemini分析决策后发送操作指令。独特之处在于采用“分角色协作”模式：面对火箭队基地的移动地板或冠军之路的推石谜题等特殊场景，系统会启用专门训练的Gemini实例作为“解谜专家”。主控AI通过征询这些“分身”的意见来解决问题，是否采纳建议也由主控AI自主判断。

两次通关里程碑

首次通关耗时813小时，期间开发者进行了轻微干预。据深度思维报告披露，这些干预仅限于规避程序错误，不涉及攻略提示。第二次采用强化版Gemini 2.5 Pro Preview 05-06模型后，在零人工干预情况下仅用406.5小时即完成通关，效率提升50%。

技术突破与现存挑战

报告高度评价了AI在长期任务中保持目标一致性的能力，如同时完成秘传技能获取与冠军挑战等复合目标。但也指出两大技术瓶颈：其一是对Game Boy点阵图像的识别精度不足，系统需先将画面信息转为文本再处理；其二是长上下文处理时易陷入行动循环，倾向于重复历史操作而非创新决策。

拟人化的行为缺陷

观察发现，当精灵HP或技能PP值低下时，Gemini会陷入类似人类玩家的“恐慌状态”——反复强调“必须立即治疗”或“逃离迷宫”，甚至频繁使用“挖洞”和“脱洞绳”道具。这种状态会导致推理能力骤降，出现遗忘咨询专家建议等“非理性”行为。直播观众能清晰识别这些异常状态，研究者将其列为待解决的核心问题。

值得玩味的是，此前Anthropic公司的Claude模型也进行过类似实验（项目名“Claude玩宝可梦”）。张乔尔强调本次实验并非模型性能比拼，而是探索Gemini框架的潜力边界。尽管当前AI的游戏表现仍显笨拙，但这项由民间发起、获官方认证的研究，为多智能体协作系统的演进提供了宝贵样本。

搜索结果如下

阅读全文

谷歌AI玩宝可梦陷恐慌，研究揭示智能体决策缺陷

AI的“角色扮演”机制

两次通关里程碑

技术突破与现存挑战

拟人化的行为缺陷

也可以看看

Ring智能门铃升级，AI精准描述门前动态

阅读全文

刺客信条暗影大更新，关键角色成员惊喜加盟

阅读全文

英伟达股价创新高，黄仁勋8亿美元股票出售计划时机精准

阅读全文