英伟达鲁宾AI平台震撼发布，性能五倍于布莱克韦尔架构

英伟达（NVIDIA）于今日正式发布其鲁宾（Rubin）AI平台，该平台将成为下一代数据中心的核心，性能相比布莱克韦尔（Blackwell）架构提升五倍。

Cover Image

尽管公司先前已宣布将在其GTC大会上发布更新，英伟达（NVIDIA）于今日官方发布鲁宾（Rubin）平台还是令人意外。鉴于AI领域的迅猛发展和消费电子展（CES）上众多关于人工智能的讨论，英伟达（NVIDIA）决定稍微提前揭开其宏伟AI平台的面纱。

鲁宾（Rubin）平台将由总计六款芯片构成，所有芯片均已从代工厂流片返回至英伟达（NVIDIA）实验室进行测试。这些芯片包括：

鲁宾（Rubin） GPU（内含3360亿个晶体管）
维拉（Vera） CPU（内含2270亿个晶体管）
用于互连的NVLink 6 交换机
用于网络传输的ConnectX-9 和 BlueField-4
用于硅光子的Spectrum-X 102.4T 共封装光引擎

所有这些芯片的结合将使鲁宾（Rubin）平台在一系列DGX、HGX和MGX系统中实现其价值。每个数据中心的核心是英伟达维拉·鲁宾超级芯片（NVIDIA Vera Rubin Superchip），它包含两个鲁宾（Rubin） GPU、一个维拉（Vera） CPU以及配置了HBM4和LPDDR5X的海量内存。英伟达（NVIDIA）鲁宾（Rubin）技术的亮点包括：

第六代 NVLink（3.6 TB/s 纵向扩展带宽）
维拉（Vera） CPU（定制奥林匹斯核心）
鲁宾（Rubin） GPU（50 PF NVFP4 Transformer 引擎）
第三代机密计算（首个机柜规模可信执行环境）
第二代可靠性、可用性与可维护性引擎（零停机健康检查）

首先来看鲁宾（Rubin） GPU。这款芯片包含两个掩模版尺寸大小的裸片，每个都集成了大量计算核心和张量核心。芯片本身专为密集型AI工作负载设计，提供50 PFLOPs的NVFP4推理性能和35 PFLOPs的NVFP4训练性能，分别比布莱克韦尔（Blackwell）提升5倍和3.5倍。芯片同样配备了HBM4内存，每个芯片提供高达22 TB/s的带宽，是布莱克韦尔（Blackwell）的2.8倍，同时每个CPU的NVLink带宽达到3.6 TB/s，是布莱克韦尔（Blackwell）的2倍。

对于维拉（Vera） CPU，英伟达（NVIDIA）设计了其下一代内部代号为奥林匹斯（Olympus）的定制Arm架构。该芯片集成了88个核心、176个线程（支持英伟达（NVIDIA）空间多线程技术）、1.8 TB/s的NVLink-C2C一致性内存互连、1.5 TB的系统内存（是格蕾斯（Grace）的3倍），以及使用SOCAMM LPDDR5X实现的1.2 TB/s内存带宽，并支持机柜级机密计算。这些特性共同使其在数据处理、压缩和CI/CD性能方面，比格蕾斯（Grace）提升2倍。

NVLink 6 交换机为鲁宾（Rubin）平台提供了网络结构，具备400G串行解耦收发器、每个CPU3.6 TB/s的全对全带宽、总计28.8 TB/s的带宽、14.4 TFLOPS的网络内 FP8 计算能力，以及100%液冷设计。

网络部分由最新的ConnectX-9和BlueField-4模块驱动。ConnectX-9 SuperNIC具备1.6 TB/s的带宽，采用200G PAM4串行解耦收发器、可编程的远程直接内存访问和数据路径加速器，提供顶级安全性，并为大规模AI应用进行了优化。

BlueField-4是一款适用于智能网卡和存储处理器的800G数据处理器。它将64核的格蕾斯（Grace） CPU与ConnectX-9集成在一起，相比BlueField-3，网络能力提升2倍，计算能力提升6倍，内存带宽提升3倍。

所有这些组件被整合进英伟达维拉·鲁宾 NVL72 机柜（NVIDIA Vera Rubin NVL72），与布莱克韦尔（Blackwell）相比，其带来了显著提升，具体指标如下：

NVFP4推理性能：5倍提升（3.6 EFLOPS）
NVFP4训练性能：3.5倍提升（2.5 EFLOPS）
LPDDR5X容量：2.5倍提升（54 TB）
HBM4容量：1.5倍提升（20.7 TB）
HBM4带宽：2.8倍提升（1.6 PB/s）
纵向扩展带宽：2倍提升（260 TB/s）

英伟达（NVIDIA）同时发布了其Spectrum-X 以太网共封装光学方案（Spectrum-X Ethernet Co-Packaged Optics）。该方案提供了一个102.4 Tb/s的横向扩展交换机基础架构，集成了200G硅光子技术，并在大规模扩展时能提供95%的有效带宽。该系统效率提升5倍，可靠性提升10倍，应用程序运行时性能提升5倍。

针对其鲁宾超级吊舱（Rubin SuperPOD），英伟达（NVIDIA）还揭晓了推理上下文内存存储平台（Inference Context Memory Storage）。该平台专为千亿级规模推理而构建，并完全集成了英伟达（NVIDIA）的软件解决方案，如Dynamo、NIXL和DOCA。

总而言之，英伟达（NVIDIA）将把鲁宾（Rubin）平台部署在其最前沿的、配有8个维拉·鲁宾 NVL72 机柜的DGX SuperPOD中。但这并非全部，针对主流数据中心，还有英伟达 DGX 鲁宾 NVL8解决方案。

凭借所有这些进步，相比布莱克韦尔 GB200，英伟达（NVIDIA）鲁宾（Rubin）平台能将推理令牌成本降低10倍，训练专家混合模型所需的GPU数量减少4倍。鲁宾（Rubin）生态得到了众多合作伙伴的支持，目前已进入全面量产阶段，首批芯片将交付给客户。

搜索结果如下

阅读全文

英伟达鲁宾AI平台震撼发布，性能五倍于布莱克韦尔架构

也可以看看

恐怖打字游戏《Dyping Escape》体验版发布，输入即实现的诡异冒险

阅读全文

34年后，犯罪惊悚杰作《哭泣的游戏》，传奇反转结局登陆免费流媒体

阅读全文

Windows 11新增多设备蓝牙音频共享，但兼容性受限

阅读全文