美国加州大学的研究机构Hao AI Lab于3月1日公布了其让AI玩《超级马里奥兄弟》的实验结果。近年来,AI在游戏领域的应用发展迅速,但其中的挑战也逐渐显现。
说到AI玩游戏,最近的“Claude Plays Pokemon”令人印象深刻。日前,美国Anthropic公司发布了其开发的AI聊天模型“Claude 3.7 Sonnet”。这款被称为“混合推理模型”的产品,具有在“普通模式”和“扩展思考模式”之间自由切换的特点。它既能快速准确地回答简单任务,又能花费更多时间以得出更精确的答案来应对复杂问题,展现出高度的灵活性。为了展示其高性能,该公司在Twitch上直播了Claude玩《宝可梦红》(以下简称《宝可梦红》)的实况(相关报道)。值得一提的是,截至本文撰写时,它仍在进行游戏。
作为对Anthropic的《宝可梦红》的回应,Hao AI Lab此次进行了让AI玩《超级马里奥兄弟》的实验。该公司决定展示AI在比《宝可梦红》更具实时性的游戏中能发挥怎样的作用。不过,该公司开发的并非AI模型,而是一个名为“GamingAgent”的工具,用于在模拟器上控制游戏。
GamingAgent的工作原理是,当输入“靠近障碍物或敌人时跳跃避开”等基本指令和游戏画面时,它会输出用于控制游戏角色的Python代码。此外,GamingAgent可以利用OpenAI、Anthropic和Google等公司开发的AI模型的API,其中也包括上述的“Claude 3.7 Sonnet”。通过比较不同模型的结果,进行了性能测试。
在此次实验中,表现最为出色的是具有高度灵活性的“Claude 3.7 Sonnet”。它似乎能够进行复杂的操作。紧随其后的是“Claude 3.5 Sonnet”,该模型展现了稳定的奔跑和跳跃能力。总体来看,Anthropic的模型取得了优异的成绩。Claude在软件开发等领域获得了高度的信任,其通过Python代码进行控制的GamingAgent结构可能与之契合度较高。
另一方面,OpenAI的“o1”等推理模型表现欠佳。推理模型是一种与传统学习模型不同的新型AI,它能够清晰地输出思考过程,并据此得出更准确的答案。通常情况下,推理模型被认为比传统模型具有更高的精度,但由于其特性,得出答案所需的时间更长。有分析认为,这种模型可能不适合对实时性要求较高的游戏,如《超级马里奥兄弟》。因为在《超级马里奥兄弟》中,如果缺乏迅速跳过敌人或陷阱的敏捷性,游戏就会立即结束。为了开发出能够熟练玩实时性游戏的AI,需要在精度和速度之间实现平衡。
值得一提的是,表现出色的“Claude 3.7 Sonnet”是一种混合推理模型。查看GamingAgent的源代码可以发现,在此次实验中,并未指定用于切换到“扩展思考模式”的“thinking”参数。也就是说,此次实验是在能够快速输出的“普通模式”下进行的,这可能是其取得优异成绩的原因。
然而,“Claude 3.7 Sonnet”中的“普通模式”和“扩展思考模式”之间的切换需要由操作人员手动完成。在“扩展思考模式”下,可以通过设定“思考预算”来指示AI思考的深度,但目前AI尚未能够根据情况自主控制这一点。如果未来出现能够自主切换思考方式的“真正混合型”推理模型,那么它将带来怎样的游戏体验呢?当能够自由切换思考模式的推理模型出现时,它可能会比“Claude 3.7 Sonnet”更快地、更熟练地玩各种游戏。
此外,与仍在发展的AI在动作游戏中的应用相比,AI在围棋等领域已经取得了显著的进展。例如,谷歌DeepMind公司开发的“AlphaGo”在2016年击败了当时的顶尖棋手,给业界带来了巨大冲击。尽管围棋也有实时消耗的时间限制,但与《超级马里奥兄弟》等游戏所要求的实时性略有不同。在动作游戏中,尤其是在需要快速判断的场景中,即使牺牲一些准确性,也需要更迅速的决策。如果AI能够根据情况灵活切换,那么在游戏应用领域可能会实现重大突破。
此次介绍的GamingAgent已在GitHub上以MIT许可证公开。