英伟达(NVIDIA)正在举行的GTC台北(GTC Taipei)上正式发布了其Cosmos 3世界模型,让我们得以一窥这款号称全球首个“完全开放的全能模型”的风采。该模型能够进行基于视觉的推理,同时支持文本、图像、视频和环境音等多模态输出。

英伟达的Cosmos 3“将推理变换器与专家生成变换器配对”,使模型能够在生成视频和动作内容之前掌握物理交互,从而利用这些交互。
其核心在于,Cosmos 3应对了在训练数据有限且模拟堆栈仍显零散的环境下,让机器人、自动驾驶汽车(AV)和视觉智能体理解周围环境的挑战。
英伟达的Cosmos 3是一个开放的全能模型,这意味着它能够“原生理解和生成文本、图像、视频、环境音和动作,并具有领先的物理精度。”
其独特优势在于其架构,它将推理变换器与面向生成的变换器配对,“使Cosmos 3能够在生成视频和动作轨迹之前理解物体交互、运动和时空关系。”
为便于不了解的读者理解,AI变换器本质上是一种深度学习神经网络,用于追踪序列数据(如句子中的单词)中的关系和上下文。这些网络通过并行处理,同时分析给定数据序列而非逐段分析,从而大幅加速输出生成。
回到正题,据英伟达介绍,你可以将Cosmos 3用作:
视觉语言模型
模拟物理环境并预测未来世界状态的世界模型
其他世界模型的基础
最后,请注意,Cosmos 3 Super(具有最高保真度响应)和Cosmos 3 Nano现已可用,Cosmos 3 Edge即将推出,用于实时推理,并且也面向边缘设备。



