谷歌(Google)旗下AI聊天模型“双子座”(Gemini)在Twitch平台直播游玩《精灵宝可梦》(Pokémon)的实况引发热议。虽然该直播是由非谷歌官方用户发起,但谷歌深度思维(Google DeepMind)随后发布详细分析报告,使这一实验获得广泛关注。

Cover Image

作为基于大语言模型(LLM)的AI聊天系统,Gemini具备高级推理能力,其原生多模态特性可同步处理文本、图像、音频等多种数据。最新版Gemini 2.5 Pro引入思维链机制,显著提升了逻辑推理等核心能力。

针对Twitch频道“Gemini玩宝可梦”(Gemini_Plays_Pokemon)的实验,谷歌AI旗下研究机构深度思维发布专题报告。据科技媒体TechCrunch报道,该实验通过让Gemini游玩初代作品《宝可梦蓝》(Pokémon Blue),展现出AI在复杂游戏环境中的决策能力。

AI的“角色扮演”机制

该频道由独立软件工程师张乔尔(Joel Zhang)运营。今年3月谷歌发布Gemini 2.5 Pro实验版后,张氏立即启动该项目。系统通过截取游戏画面,结合玩家位置、精灵队伍及地图等数据,由Gemini分析决策后发送操作指令。独特之处在于采用“分角色协作”模式:面对火箭队基地的移动地板或冠军之路的推石谜题等特殊场景,系统会启用专门训练的Gemini实例作为“解谜专家”。主控AI通过征询这些“分身”的意见来解决问题,是否采纳建议也由主控AI自主判断。

两次通关里程碑

首次通关耗时813小时,期间开发者进行了轻微干预。据深度思维报告披露,这些干预仅限于规避程序错误,不涉及攻略提示。第二次采用强化版Gemini 2.5 Pro Preview 05-06模型后,在零人工干预情况下仅用406.5小时即完成通关,效率提升50%

技术突破与现存挑战

报告高度评价了AI在长期任务中保持目标一致性的能力,如同时完成秘传技能获取与冠军挑战等复合目标。但也指出两大技术瓶颈:其一是对Game Boy点阵图像的识别精度不足,系统需先将画面信息转为文本再处理;其二是长上下文处理时易陷入行动循环,倾向于重复历史操作而非创新决策。

拟人化的行为缺陷

观察发现,当精灵HP或技能PP值低下时,Gemini会陷入类似人类玩家的“恐慌状态”——反复强调“必须立即治疗”或“逃离迷宫”,甚至频繁使用“挖洞”和“脱洞绳”道具。这种状态会导致推理能力骤降,出现遗忘咨询专家建议等“非理性”行为。直播观众能清晰识别这些异常状态,研究者将其列为待解决的核心问题。

值得玩味的是,此前Anthropic公司的Claude模型也进行过类似实验(项目名“Claude玩宝可梦”)。张乔尔强调本次实验并非模型性能比拼,而是探索Gemini框架的潜力边界。尽管当前AI的游戏表现仍显笨拙,但这项由民间发起、获官方认证的研究,为多智能体协作系统的演进提供了宝贵样本。


文章标签: #AI #谷歌 #宝可梦 #多智能体 #游戏AI

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。