全球最强大的代理式人工智能平台——英伟达(NVIDIA)Vera Rubin现已全面投产,随时可部署至人工智能工厂。
不到两周前,英伟达已开始其Vera CPU的全面量产,这些CPU将为开拓2000亿美元的可寻址市场铺平道路。凭借Vera,英伟达信心十足,声称今年将成为最大的CPU供应商。如今,整个平台——代号Vera Rubin NVL72——也已进入全面量产,并准备就绪,为全球数十亿瓦级及多千兆瓦级人工智能工厂提供动力。

顶尖系统构建商、基础架构软件及存储合作伙伴已开始全面量产Vera Rubin。其中包括戴尔科技(Dell Technologies)、HPE、联想(Lenovo)和超微(Supermicro),以及AIC、Aivres、华擎机架(ASRock Rack)、华硕(ASUS)、Cloudian、Compal、DDN、Everpure、富士康(Foxconn)、技嘉(GIGABYTE)、Hitachi Vantara、Hyve Solutions、IBM、Inventec、MinIO、MiTAC Computing、微星(MSI)、NetApp、Nutanix、和硕(Pegatron)、Quanta Cloud Technology(QCT)、VAST Data、WEKA、纬创(Wistron)和Wiwynn。
英伟达的Rubin平台将由总共六款芯片组成,这些芯片均已从晶圆厂返回,正在英伟达的实验室进行测试。这些芯片包括:
Rubin GPU(拥有3360亿晶体管)
Vera CPU(拥有2270亿晶体管)
NVLINK 6 Switch(用于互连)
CX9和BF4(用于网络)
Spectrum-X 102.4T CPO(用于硅光子学)
所有这些芯片共同让Rubin平台在DGX、HGX和MGX系列系统中运行。每个数据中心的核心是英伟达Vera Rubin Superchip,它配备两个Rubin GPU、一个Vera CPU,以及大量HBM4和LPDDR5x配置的内存。英伟达Rubin技术的亮点包括:
第六代NVLink(3.6 TB/s扩展带宽)
Vera CPU(定制Olympus核心)
Rubin CPU(50 PF NVFP4 Transformer Engine)
第三代机密计算(首个机架级TEE)
第二代RAS引擎(零宕机健康检查)
首先从Rubin GPU开始,该芯片采用两个光罩拼接芯片,每个都拥有大量的计算核心和张量核心。该芯片专为人工智能密集型工作负载而设计,提供50 FLOPS的NVFP4推理性能、35 PFLOPS的NVFP4训练性能,分别比Blackwell提升5倍和3.5倍。该芯片还配备HBM4内存,每芯片带宽高达22 TB/s,比Blackwell提升2.8倍;每CPU的NVLink带宽为3.6 TB/s,比Blackwell提升2倍。
对于Vera CPU,英伟达设计了其下一代定制Arm架构,代号Olympus,该芯片拥有88个核心、176个线程(采用英伟达空间多线程(Spatial Multi-Threading))、1.8 TB/s的NVLink-C2C一致性内存互连、1.5 TB系统内存(是Grace的3倍)、搭配SOCAMM LPDDR5X的1.2 TB/s内存带宽,以及机架级机密计算。这些特性组合起来,数据处理、压缩及持续集成/持续部署(CI/CD)性能相比Grace提升2倍。
NVLink 6交换机为Rubin平台提供网络结构,采用400G SerDes、每CPU 3.6 TB/s的全对全带宽、总带宽28.8 TB/s、网络中FP8计算能力14.4 TFLOPS,并采用100%液冷设计。
网络由最新的ConnectX-9和BlueField-4模块提供支持。ConnectX-9 SuperNIC提供1.6 TB/s带宽,采用200G PAM4 SerDes,可编程RDMA和数据路径加速器,顶级安全性,并针对大规模人工智能进行了优化。
BlueField-4是一款用于智能网卡和存储处理器的800G DPU。它集成了64核心的Grace CPU和ConnectX-9,相比BlueField-3提供2倍网络能力、6倍计算能力和3倍内存带宽。
所有这些汇聚于英伟达Vera Rubin NVL72机架中,与Blackwell相比带来令人瞩目的提升,详情如下:
5倍NVFP4推理性能(3.6 EFLOPS)
3.5倍NVFP4训练性能(2.5 EFLOPS)
2.5倍LPDDR5x容量(54 TB)
1.5倍HBM4容量(20.7 TB)
2.8倍HBM4带宽(1.6 PB/s)
2倍纵向扩展带宽(260 TB/s)
英伟达还发布了其Spectrum-X以太网共封装光学解决方案,提供102.4 Tb/s的横向扩展交换机基础设施、共封装200G硅光子学技术,并能在规模化部署中实现95%的有效带宽。该系统的效率提高5倍,可靠性提高10倍,应用运行时间提高5倍。
针对其Rubin SuperPOD,英伟达还推出了推理上下文内存存储(Inference Context Memory Storage)平台,该平台专为千兆规模推理而构建,并与Dynamo、NIXL和DOCA等英伟达软件解决方案完全集成。
总而言之,英伟达将把其Rubin平台部署在配备8个Vera Rubin NVL72机架的尖端DGX SuperPOD中。但这还不是全部,还有面向主流数据中心的英伟达DGX Rubin NVL8。
凭借所有这些进步,英伟达Rubin相比Blackwell GB200,推理词元成本降低10倍,训练混合专家模型(MoE)所需的GPU数量减少4倍。Rubin生态系统得到众多合作伙伴的支持,现已全面量产,客户将于今年晚些时候获得首批芯片。



