英伟达(NVIDIA)正在举行的GTC台北(GTC Taipei)上正式发布了其Cosmos 3世界模型,让我们得以一窥这款号称全球首个“完全开放的全能模型”的风采。该模型能够进行基于视觉的推理,同时支持文本、图像、视频和环境音等多模态输出。

nvidia-cosmos-3.jpeg

英伟达Cosmos 3“将推理变换器与专家生成变换器配对”,使模型能够在生成视频和动作内容之前掌握物理交互,从而利用这些交互。

其核心在于,Cosmos 3应对了在训练数据有限且模拟堆栈仍显零散的环境下,让机器人、自动驾驶汽车(AV)和视觉智能体理解周围环境的挑战。

英伟达Cosmos 3是一个开放的全能模型,这意味着它能够“原生理解和生成文本、图像、视频、环境音和动作,并具有领先的物理精度。”

其独特优势在于其架构,它将推理变换器与面向生成的变换器配对,“使Cosmos 3能够在生成视频和动作轨迹之前理解物体交互、运动和时空关系。”

为便于不了解的读者理解,AI变换器本质上是一种深度学习神经网络,用于追踪序列数据(如句子中的单词)中的关系和上下文。这些网络通过并行处理,同时分析给定数据序列而非逐段分析,从而大幅加速输出生成。

回到正题,据英伟达介绍,你可以将Cosmos 3用作:

  • 视觉语言模型

  • 模拟物理环境并预测未来世界状态的世界模型

  • 其他世界模型的基础

最后,请注意,Cosmos 3 Super(具有最高保真度响应)和Cosmos 3 Nano现已可用,Cosmos 3 Edge即将推出,用于实时推理,并且也面向边缘设备。


文章标签: #英伟达 #世界模型 #自动驾驶 #机器人 #多模态

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。