来自英伟达(Nvidia)、斯坦福大学(Stanford)、加州理工学院(Caltech)等机构的多元化研究团队近日推出了NitroGen。英伟达人工智能总监兼杰出科学家范麟熙(Jim Fan)在上周五的领英(LinkedIn)帖子中,将NitroGen誉为“一个经过训练、可游玩1000多款游戏的开源基础模型”。然而,其影响远不止于游戏世界,已延伸至现实世界,为仿真模拟和机器人技术带来了可观的益处。

可以说,这项研究旨在提炼出一种“用于行动的GPT”。因此,这属于一种大型语言模型(LLM)的突破,将这种经过验证的大规模训练技术应用到了语言和计算机视觉之外的领域。此外,研究论文的引言中强调:“长期以来,构建能够在未知环境中运行的‘通用具身智能体’一直被认为是人工智能研究的圣杯。”
有趣的是,NitroGen的基础是GROOT N1.5架构,该架构最初是为机器人技术设计的。而它在游戏世界中的应用,也显示出其潜力可以回馈并惠及在多样化或不可预测环境中工作的机器人。
NitroGen被调整用于游玩机制和物理规则截然不同的游戏——这正是电子游戏的本质和乐趣所在。研究人员利用了超过4万小时由游戏主播分享的公开游戏视频。其中,那些主播在直播画面上叠加了实时手柄操作信息的视频尤其有帮助。
在测试中,NitroGen在“角色扮演游戏、平台游戏、大逃杀游戏、赛车游戏、2D、3D游戏,应有尽有!”的各类游戏中都取得了成功,范麟熙对此充满热情。尽管结果令人鼓舞,但这位英伟达科学家表示,这只是开始,仍有很长的路要走。
范麟熙称,NitroGen的第一个版本有意专注于快速运动控制,或他所说的“玩家本能”。根据分享的研究内容,这个新的大型语言模型还具备“跨领域的强大能力”,并且该模型在程序生成的世界以及未见过的游戏中都能工作,其任务成功率相比从头开始训练的模型有“52%的相对提升”。
迄今为止,所有关于NitroGen的研究都已开源,鼓励对游戏、机器人技术和大型语言模型感兴趣的人士进行探索和修改。预训练模型权重、完整的动作数据集以及代码都已开放,供大家发挥奇思妙想和动手尝试。



