沉迷育儿的奥特曼,用ChatGPT破解婴儿哭闹难题
阅读全文

锤刻创思寰宇网
人工智能企业为争夺行业主导权激战正酣,但它们的较量有时竟会发生在宝可梦(Pokémon)道馆里。当谷歌(Google)与Anthropic同时研究各自最新AI模型如何通关早期宝可梦游戏时,得出的结论既令人捧腹又发人深省——最新战报显示,谷歌DeepMind在报告中指出,当Gemini 2.5 Pro操控的宝可梦濒临死亡时,这个AI会陷入恐慌状态。
AI基准测试(即对比不同模型性能的过程)向来是门充满争议的“玄学”,往往难以真实反映模型能力。但有研究者认为,观察AI玩电子游戏的表现或许更具参考价值(至少相当有趣)。过去几个月里,两位与谷歌和Anthropic无关的开发者分别开设了“Gemini玩宝可梦”和“Claude玩宝可梦”的直播,让观众实时围观AI如何挑战这款25年前的儿童游戏。
这些直播会展示AI的“推理”过程——即用自然语言呈现AI如何分析问题并作出决策,为我们打开了窥探模型运作机制的天窗。虽然AI的进步令人惊叹,但它们的宝可梦对战水平实在不敢恭维:Gemini需要数百小时才能通关的游戏,普通儿童所需时间可能呈几何级数缩短。
观察AI玩宝可梦的趣味性并不在于通关时长,而在于其行为模式。报告指出:“在游戏过程中,Gemini 2.5 Pro会因各种突发状况进入模拟‘恐慌’状态。”这种恐慌会导致模型性能显著下降,表现为AI会突然停止使用某些本可调用的游戏工具。虽然AI并不具备真实情感,但其反应模式却奇妙地复现了人类在压力下仓促决策的缺陷——这种既迷人又令人不安的相似性值得玩味。
Claude在关都地区的冒险中也展现出诡异行为。当在月见山(Mt. Moon)洞穴迷路时,它错误地总结出“让所有宝可梦濒死就能瞬移到下个城镇的宝可梦中心”的荒谬策略。观众们毛骨悚然地看着这个AI在游戏里反复实施自杀计划——实际上游戏机制只会让玩家返回最后使用过的治疗中心。
不过AI在某些方面确实超越人类玩家。Gemini 2.5 Pro能以惊人准确率解开游戏中的推石谜题。在少量人类提示下,它甚至能自主创建“代理工具”(专用于特定任务的子模型)来规划最优路线。报告强调:“仅需给出岩石物理规则和路径验证方法的提示,Gemini 2.5 Pro就能一次性解决冠军之路(Victory Road)的复杂推石谜题。”
由于Gemini 2.5 Pro在工具创建过程中展现出高度自主性,谷歌推测现有模型或许已具备无监督开发能力。说不定哪天,这个AI会给自己开发个“防恐慌”模块呢。