英伟达(NVIDIA)于今日正式发布其鲁宾(Rubin)AI平台,该平台将成为下一代数据中心的 核心,性能相比布莱克韦尔(Blackwell)架构提升五倍。

Cover Image

尽管公司先前已宣布将在其GTC大会上发布更新,英伟达(NVIDIA)于今日官方发布鲁宾(Rubin)平台还是令人意外。鉴于AI领域的迅猛发展和消费电子展(CES)上众多关于人工智能的讨论,英伟达(NVIDIA)决定稍微提前揭开其宏伟AI平台的面纱。

鲁宾(Rubin)平台将由总计六款芯片构成,所有芯片均已从代工厂流片返回至英伟达(NVIDIA)实验室进行测试。这些芯片包括:

  • 鲁宾(Rubin) GPU(内含3360亿个晶体管)

  • 维拉(Vera) CPU(内含2270亿个晶体管)

  • 用于互连的NVLink 6 交换机

  • 用于网络传输的ConnectX-9 和 BlueField-4

  • 用于硅光子的Spectrum-X 102.4T 共封装光引擎

所有这些芯片的结合将使鲁宾(Rubin)平台在一系列DGXHGXMGX系统中实现其价值。每个数据中心的核心是英伟达维拉·鲁宾超级芯片(NVIDIA Vera Rubin Superchip),它包含两个鲁宾(Rubin) GPU、一个维拉(Vera) CPU以及配置了HBM4LPDDR5X的海量内存。英伟达(NVIDIA)鲁宾(Rubin)技术的亮点包括:

  • 第六代 NVLink(3.6 TB/s 纵向扩展带宽)

  • 维拉(Vera) CPU(定制奥林匹斯核心)

  • 鲁宾(Rubin) GPU(50 PF NVFP4 Transformer 引擎)

  • 第三代机密计算(首个机柜规模可信执行环境)

  • 第二代可靠性、可用性与可维护性引擎(零停机健康检查)

首先来看鲁宾(Rubin) GPU。这款芯片包含两个掩模版尺寸大小的裸片,每个都集成了大量计算核心和张量核心。芯片本身专为密集型AI工作负载设计,提供50 PFLOPsNVFP4推理性能和35 PFLOPsNVFP4训练性能,分别比布莱克韦尔(Blackwell)提升5倍3.5倍。芯片同样配备了HBM4内存,每个芯片提供高达22 TB/s的带宽,是布莱克韦尔(Blackwell)2.8倍,同时每个CPU的NVLink带宽达到3.6 TB/s,是布莱克韦尔(Blackwell)2倍

对于维拉(Vera) CPU英伟达(NVIDIA)设计了其下一代内部代号为奥林匹斯(Olympus)的定制Arm架构。该芯片集成了88个核心176个线程(支持英伟达(NVIDIA)空间多线程技术)、1.8 TB/sNVLink-C2C一致性内存互连、1.5 TB的系统内存(是格蕾斯(Grace)的3倍),以及使用SOCAMM LPDDR5X实现的1.2 TB/s内存带宽,并支持机柜级机密计算。这些特性共同使其在数据处理、压缩和CI/CD性能方面,比格蕾斯(Grace)提升2倍

NVLink 6 交换机鲁宾(Rubin)平台提供了网络结构,具备400G串行解耦收发器、每个CPU3.6 TB/s的全对全带宽、总计28.8 TB/s的带宽、14.4 TFLOPS网络内 FP8 计算能力,以及100%液冷设计

网络部分由最新的ConnectX-9BlueField-4模块驱动。ConnectX-9 SuperNIC具备1.6 TB/s的带宽,采用200G PAM4串行解耦收发器、可编程的远程直接内存访问和数据路径加速器,提供顶级安全性,并为大规模AI应用进行了优化。

BlueField-4是一款适用于智能网卡和存储处理器的800G数据处理器。它将64核的格蕾斯(Grace) CPUConnectX-9集成在一起,相比BlueField-3,网络能力提升2倍,计算能力提升6倍,内存带宽提升3倍

所有这些组件被整合进英伟达维拉·鲁宾 NVL72 机柜(NVIDIA Vera Rubin NVL72),与布莱克韦尔(Blackwell)相比,其带来了显著提升,具体指标如下:

  • NVFP4推理性能:5倍提升(3.6 EFLOPS)

  • NVFP4训练性能:3.5倍提升(2.5 EFLOPS)

  • LPDDR5X容量:2.5倍提升(54 TB)

  • HBM4容量:1.5倍提升(20.7 TB)

  • HBM4带宽:2.8倍提升(1.6 PB/s)

  • 纵向扩展带宽:2倍提升(260 TB/s)

英伟达(NVIDIA)同时发布了其Spectrum-X 以太网共封装光学方案(Spectrum-X Ethernet Co-Packaged Optics)。该方案提供了一个102.4 Tb/s的横向扩展交换机基础架构,集成了200G硅光子技术,并在大规模扩展时能提供95%的有效带宽。该系统效率提升5倍,可靠性提升10倍,应用程序运行时性能提升5倍

针对其鲁宾超级吊舱(Rubin SuperPOD)英伟达(NVIDIA)还揭晓了推理上下文内存存储平台(Inference Context Memory Storage)。该平台专为千亿级规模推理而构建,并完全集成了英伟达(NVIDIA)的软件解决方案,如DynamoNIXLDOCA

总而言之,英伟达(NVIDIA)将把鲁宾(Rubin)平台部署在其最前沿的、配有8个维拉·鲁宾 NVL72 机柜DGX SuperPOD中。但这并非全部,针对主流数据中心,还有英伟达 DGX 鲁宾 NVL8解决方案。

凭借所有这些进步,相比布莱克韦尔 GB200英伟达(NVIDIA)鲁宾(Rubin)平台能将推理令牌成本降低10倍,训练专家混合模型所需的GPU数量减少4倍鲁宾(Rubin)生态得到了众多合作伙伴的支持,目前已进入全面量产阶段,首批芯片将交付给客户。


文章标签: #人工智能 #数据中心 #芯片 #处理器 #英伟达

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。