2026年国际消费电子展(CES 2026)上,人工智能无处不在,而英伟达(Nvidia)的GPU正位于这个不断扩张的AI宇宙的中心。今天,在公司首席执行官黄仁勋(Jensen Huang)于CES发表的主题演讲中,他分享了该公司将如何在AI技术超越聊天机器人、深入机器人、自动驾驶汽车及更广泛物理世界的过程中,继续保持AI革命最前沿地位的规划。

Cover Image

首先,黄仁勋正式发布了Vera Rubin——英伟达的新一代AI数据中心机柜级架构。Rubin英伟达所称“极端协同设计”跨越六种芯片类型的成果:Vera CPURubin GPUNVLink 6交换芯片ConnectX-9 SuperNICBlueField-4数据处理单元(DPU)以及Spectrum-6以太网交换芯片。所有这些构建模块汇聚在一起,构成了Vera Rubin NVL72机柜

市场对AI算力的需求永无止境,而每一颗Rubin GPU为这一代产品都承诺了多得多的算力:其NVFP4数据类型的推理性能达50 PFLOPS,是Blackwell GB200的5倍;其NVFP4训练性能达35 PFLOPS,是Blackwell的3.5倍。为喂饱这些计算资源,每个Rubin GPU封装集成了八组HBM4内存堆栈,提供288GB的容量和高达22 TB/s的带宽。

单个GPU的计算能力只是AI数据中心的一个组成部分。随着领先的大型语言模型从激活全部参数以生成给定输出令牌的稠密架构,转向仅针对每个令牌激活一部分可用参数的专家混合模型(MoE)架构,相对高效地扩展这些模型已成为可能。然而,模型内这些“专家”之间的通信需要海量的节点间带宽。Vera Rubin引入了用于横向扩展网络连接的NVLink 6,它将每个GPU的互连结构带宽提升至3.6 TB/s(双向)。每个NVLink 6交换芯片拥有高达28 TB/s的带宽,而每个Vera Rubin NVL72机柜配备了九个这样的交换芯片,总横向扩展带宽达260 TB/s

英伟达 Vera CPU集成了88个定制的Olympus Arm内核,并采用了英伟达所称的“空间多线程”技术,最多可支持176个并发线程。用于将Vera CPURubin GPU以一致性方式互连的NVLink C2C互联技术,其带宽翻倍至1.8 TB/s。每个Vera CPU可寻址高达1.5 TBSO-CAMM LPDDR5X内存,内存带宽高达1.2 TB/s

为了将Vera Rubin NVL72机柜扩展为由八个机柜组成的DGX SuperPod超级计算机集群英伟达推出了一对采用芯片级封装光学的Spectrum-X以太网交换机,两者皆由其Spectrum-6芯片构建而成。每个Spectrum-6芯片提供102.4 Tb/s的带宽,英伟达提供了两种交换机配置。SN688交换机提供409.6 Tb/s带宽,支持512个800G以太网端口或2048个200G端口。SN6810交换机提供102.4 Tb/s带宽,可配置为128个800G端口或512个200G以太网端口。这两款交换机均采用液冷,英伟达宣称其比缺乏硅光子技术的硬件更节能、更可靠、并能提供更佳的正常运行时间。

随着上下文窗口扩展到数百万令牌,英伟达表示,存储与AI模型交互历史的关键值缓存上的操作,已成为推理性能的瓶颈。为了突破这个瓶颈,英伟达正利用其下一代BlueField 4 DPU来创建一个新的存储层级:推理上下文内存存储平台。公司表示,这个存储层级的目的是实现AI基础设施间关键值缓存数据的高效共享和复用,从而带来更好的响应能力和吞吐量,并能以可预测且节能的方式扩展智能体AI架构。

首次,Vera Rubin还将英伟达的可信执行环境扩展到了整个机柜范围,通过对芯片、互连结构和网络层级进行安全加固。英伟达表示,这对于确保前沿AI实验室珍贵的尖端模型的机密性与安全性至关重要。

综上所述,每个Vera Rubin NVL72机柜提供高达3.6 ExaFLOPS的NVFP4推理性能、2.5 ExaFLOPS的NVFP4训练性能、连接Vera CPU54 TBLPDDR5X内存,以及提供1.6 PB/s带宽的20.7 TBHBM4内存

为了保障这些机柜的高效运行,英伟达强调了在机柜级别的多项可靠性、可用性与可维护性(RAS)改进。例如,采用无电缆模块化托盘设计,相比以前的NVL72机柜能实现更快组件更换;改进的NVLink弹性,允许执行零停机维护;以及第二代RAS引擎,支持零停机健康检查。

所有这些原始算力和带宽本身令人印象深刻,但对于英伟达的合作伙伴而言,在考虑对未来产能进行大规模投资时,总体拥有成本情况很可能最为重要。凭借Vera Rubin英伟达声称训练MoE模型所需的GPU数量仅为使用Blackwell时的四分之一,并且Rubin能够在广泛的模型中,将MoE推理的每令牌成本降低多达10倍。如果转换这些数字,也意味着Rubin在相同的机柜空间内也能提升训练吞吐量,并交付多得多的令牌。

英伟达表示,其构建Vera Rubin NVL72系统所需的全部六种芯片均已从晶圆厂返回,并且公司对其上运行工作负载的性能感到满意。该公司预计将于2026年下半年开始量产Vera Rubin NVL72系统,这与之前关于Rubin产品供应时间的预测保持一致。


文章标签: #人工智能 #英伟达 #超算 #GPU #CES

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。