由自动驾驶领域先驱奥利弗·卡梅隆(Oliver Cameron)与杰夫·霍克(Jeff Hawke)创立的初创公司Odyssey,近日开发出一款能让用户与流媒体视频“互动”的AI模型。该模型以“早期演示版”登陆网页端,每40毫秒生成并传输视频帧。通过基础控制键,观众可以像玩3D渲染视频游戏般探索视频中的场景。

Cover Image

“基于当前世界状态、即将发生的动作及历史状态与行为记录,该模型试图预测世界的下一状态。”Odyssey在博文中解释道,“支撑这一功能的是新型世界模型,它展现出多项能力:生成逼真像素、保持空间一致性、从视频中学习动作,以及输出持续5分钟以上的连贯视频流。”

包括DeepMind、著名AI学者李飞飞(Fei-Fei Li)创立的World Labs微软Decart在内的多家科技企业正竞相研发世界模型技术。业界认为这类模型未来可应用于游戏电影等互动媒体创作,以及机器人训练等拟真模拟场景。

但创意从业者对此技术态度复杂。《连线》杂志近期调查显示,动视暴雪(Activision Blizzard)等裁撤大量员工的游戏公司正利用AI缩减成本应对人才流失。代表好莱坞动画师的工会“动画协会”2024年研究报告预估,未来数月美国将有超10万个影视动画岗位受到AI冲击。

Odyssey强调将与创意工作者协作而非取代:“互动视频……开启了全新娱乐形式,故事可按需生成探索,摆脱传统制作的成本束缚。我们相信现有视频内容——娱乐、广告、教育、培训、旅游等——终将全部进化为Odyssey驱动的互动视频。”

该公司坦言当前演示版本尚不完善:生成的环境存在模糊变形,场景布局稳定性不足,行进或转身时周围景物可能突变。不过其承诺快速改进模型,目前借助英伟达H100 GPU集群可实现每秒30帧的视频流传输,每“用户小时”成本7.27至14.54元人民币(1至2美元)。

“我们正在研究能更精准捕捉动态的丰富世界表征系统,同时提升时间稳定性和状态持久性。”Odyssey表示,“同步拓展从运动到世界交互的动作空间,通过海量视频学习开放动作。”

与世界模型领域多数AI实验室不同,Odyssey设计了一套360度背包式摄像系统采集真实景观,认为这比仅用公开数据训练的模型质量更高。迄今公司已获EQT VenturesGVAir Street Capital等机构2700万美元融资,皮克斯联合创始人、前迪士尼动画工作室总裁艾德·卡特姆(Ed Catmull)担任董事。

去年12月,Odyssey透露正研发配套软件,允许创作者将其模型生成的场景导入虚幻引擎(Unreal Engine)BlenderAdobe After Effects等工具进行人工修饰。


文章标签: #AI #互动视频 #世界模型 #自动驾驶 #娱乐科技

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。