你是不是觉得宝可梦是人工智能难以攻克的难关?然而,一群研究人员却认为,《超级马里奥兄弟》才是人工智能面临的更大挑战。

Cover Image

3月1日,加州大学圣地亚哥分校的郝人工智能实验室(Hao AI Lab)将人工智能引入了实时的《超级马里奥兄弟》游戏。在这场测试中,Anthropic的Claude 3.7表现最为出色,紧随其后的是Claude 3.5。相比之下,谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则显得有些力不从心。

需要说明的是,这次测试所用的并非1985年最初发布的《超级马里奥兄弟》版本。游戏运行在一个模拟器中,并通过一个名为GamingAgent的框架与人工智能相连,从而让人工智能能够控制马里奥。

GamingAgent是郝实验室自行开发的框架。它向人工智能提供基本指令,例如“如果附近有障碍物或敌人,向左移动或跳跃以躲避”,同时还会提供游戏内的截图。随后,人工智能通过生成Python代码的形式来控制马里奥的动作。

尽管如此,郝实验室表示,这款游戏迫使每个模型“学习”如何规划复杂的动作并制定游戏策略。有趣的是,实验室发现像OpenAI的o1这样的推理模型——这些模型通过逐步思考问题来得出解决方案——表现不如“非推理”模型,尽管它们在大多数基准测试中通常表现更强。

研究人员指出,推理模型在玩这种实时游戏时遇到困难的主要原因之一是,它们通常需要花费数秒时间才能决定行动。而在《超级马里奥兄弟》中,时机至关重要。一秒钟的犹豫可能意味着跳跃成功和坠落身亡的差别。

数十年来,游戏一直被用来衡量人工智能的水平。但一些专家质疑将人工智能在游戏中的技能与技术进步联系起来的合理性。与现实世界不同,游戏往往是抽象且相对简单的,并且能够为人工智能训练提供理论上无限的数据量。

最近一些引人注目的游戏基准测试指向了OpenAI研究科学家、创始成员安德烈·卡帕西(Andrej Karpathy)所称的“评估危机”。他在X平台上的一篇帖子中写道:“我现在真的不知道该关注哪些人工智能指标。长话短说,我的反应是我现在真的不知道这些模型到底有多好。”

至少,我们还可以观看人工智能玩马里奥,这也算是一种别样的乐趣。


文章标签: #人工智能 #游戏测试 #实时游戏 #技术瓶颈 #策略规划

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。