英伟达(NVIDIA)推出了其最新的开放AI模型——Nemotron 3 Nano Omni,该模型可提供高达9倍的智能体AI吞吐量。
随着Nemotron 3 Nano Omni的发布,英伟达(NVIDIA)进一步扩展了其开放AI模型阵容,带来9倍性能提升。

新闻稿:今日亮相的NVIDIA Nemotron 3 Nano Omni是一款开放多模态模型,它将多种能力整合到一个系统中,使智能体能够在视频、音频、图像和文本之间进行高级推理,从而提供更快、更智能的响应。这款业界领先的模型为企业和开发者提供了一条高效准确的多模态AI智能体生产路径,兼具完全的部署灵活性与控制力。
Nemotron 3 Nano Omni为开放多模态模型树立了新的效率标杆,在保持领先准确率和低成本的同时,登顶了六大基准排行榜,覆盖复杂文档智能、视频及音频理解领域。
已开始采用Nemotron 3 Nano Omni的AI及软件公司包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康(Foxconn)、H Company、帕兰提尔(Palantir)和Pyler;而戴尔科技(Dell Technologies)、DocuSign、Infosys、K-Dense、Lila、甲骨文(Oracle)和Zefr则正在评估该模型。
Nemotron 3 Nano Omni助力打造更快、更精简的多模态智能体
通过在其30B-A3B混合专家架构中集成视觉和音频编码器,Nemotron 3 Nano Omni消除了对独立感知模型的需求,从而大幅提升推理效率。它将这种高效性与强大的多模态感知精度相结合,使AI系统能够实现比其他同等交互性的开放全向模型高出9倍的吞吐量。最终,在无需牺牲响应速度或质量的前提下,实现了更低成本和更好的可扩展性。
在智能体系统中,Nemotron 3 Nano Omni可与专有云模型或其他NVIDIA Nemotron开放模型(如用于高频执行的Nemotron 3 Super、用于复杂规划的Nemotron 3 Ultra)以及来自其他供应商的专有模型协同工作,为智能体工作流(如电脑使用、文档智能及音视频推理)中的子智能体提供支持。
电脑使用智能体
Nemotron 3 Nano Omni为智能体提供感知循环能力,使其能导航图形用户界面、推理屏幕内容并持续理解界面状态。H Company最新推出的电脑使用智能体基于Nemotron 3 Nano Omni,利用1920×1080像素的原生输入分辨率实现了高保真视觉推理。在OSWorld基准的初步评估中,这一集成方案在导航复杂图形界面方面展现出显著飞跃,并充分发挥了Nemotron 3 Nano Omni处理超高分辨率图像的能力。
文档智能
Nemotron 3 Nano Omni能够理解文档、图表、表格、截图及混合媒体输入,使智能体能够在视觉结构与文本内容之间进行连贯推理。这对企业分析和合规工作流至关重要。
音频与视频理解
在客户服务、研究和监控工作流中,Nemotron 3 Nano Omni能够保持音视频上下文关联,将所说、所展示和所记录的内容整合成单一推理流,而非碎片化的独立概要。



