微软近日推出实时游戏生成式AI模型WHAMM(World and Human Action MaskGIT Model),通过在经典游戏《雷神之锤II》(Quake II)演示版中的应用展示其技术突破。该交互演示支持手柄与键盘操作,虽然帧率仅维持在15帧水平,但微软明确指出本次展示旨在验证模型特性,而非提供完整游戏体验。
作为WHAM-1.6B模型的升级版本,WHAMM显著提升了视觉响应速度。原版模型采用类似大型语言模型的自回归逐帧预测架构,而新版则转向MaskGIT并行生成技术,实现画面元素同步生成,大幅降低运算复杂度与传递次数。
技术突破体现在两个方面:首先是训练效率飞跃——WHAMM仅用7天便完成《雷神之锤II》数据学习,相较前代模型7年的训练周期呈现指数级提升;其次是输出分辨率从300×180像素提升至640×360像素。目前该技术演示已登陆Copilot Labs平台。
实际测试中,模型展现的环境动态跟踪与操作响应能力令人惊叹,用户可完成射击、移动、跳跃等完整操作。但微软坦言其本质仍为技术验证,存在输入延迟、敌人互动反馈模糊、生命值数据存储错误等技术缺陷,且仅支持单一关卡运行。
值得关注的是,此次发布恰逢OpenAI“吉卜力风”AI动画引发伦理争议之际。尽管当前AI尚无法复现艺术创作的人文内核,但以WHAMM为代表的技术进展表明——完全由AI生成的游戏电影或将在未来数年内突破想象边界。
行业共识认为AI应定位为创作辅助工具,正如英伟达ACE技术打造的拟真NPC已应用于生活模拟游戏《inZOI》。相较于早期常出现混乱与幻觉现象的AI模型,WHAMM展现的技术成熟度标志着游戏AI开发进入新纪元。