全球最强大的代理式人工智能平台——英伟达(NVIDIA)Vera Rubin现已全面投产,随时可部署至人工智能工厂。

不到两周前,英伟达已开始其Vera CPU的全面量产,这些CPU将为开拓2000亿美元的可寻址市场铺平道路。凭借Vera英伟达信心十足,声称今年将成为最大的CPU供应商。如今,整个平台——代号Vera Rubin NVL72——也已进入全面量产,并准备就绪,为全球数十亿瓦级及多千兆瓦级人工智能工厂提供动力。

nvidia-ceo-jensen-huang-spotlights-vera-rubin.jpeg

顶尖系统构建商、基础架构软件及存储合作伙伴已开始全面量产Vera Rubin。其中包括戴尔科技(Dell Technologies)HPE联想(Lenovo)超微(Supermicro),以及AICAivres华擎机架(ASRock Rack)华硕(ASUS)CloudianCompalDDNEverpure富士康(Foxconn)技嘉(GIGABYTE)Hitachi VantaraHyve SolutionsIBMInventecMinIOMiTAC Computing微星(MSI)NetAppNutanix和硕(Pegatron)Quanta Cloud Technology(QCT)VAST DataWEKA纬创(Wistron)Wiwynn

英伟达Rubin平台将由总共六款芯片组成,这些芯片均已从晶圆厂返回,正在英伟达的实验室进行测试。这些芯片包括:

  • Rubin GPU(拥有3360亿晶体管)

  • Vera CPU(拥有2270亿晶体管)

  • NVLINK 6 Switch(用于互连)

  • CX9BF4(用于网络)

  • Spectrum-X 102.4T CPO(用于硅光子学)

所有这些芯片共同让Rubin平台在DGXHGXMGX系列系统中运行。每个数据中心的核心是英伟达Vera Rubin Superchip,它配备两个Rubin GPU、一个Vera CPU,以及大量HBM4LPDDR5x配置的内存。英伟达Rubin技术的亮点包括:

  • 第六代NVLink(3.6 TB/s扩展带宽)

  • Vera CPU(定制Olympus核心)

  • Rubin CPU(50 PF NVFP4 Transformer Engine)

  • 第三代机密计算(首个机架级TEE)

  • 第二代RAS引擎(零宕机健康检查)

首先从Rubin GPU开始,该芯片采用两个光罩拼接芯片,每个都拥有大量的计算核心和张量核心。该芯片专为人工智能密集型工作负载而设计,提供50 FLOPS的NVFP4推理性能、35 PFLOPS的NVFP4训练性能,分别比Blackwell提升5倍3.5倍。该芯片还配备HBM4内存,每芯片带宽高达22 TB/s,比Blackwell提升2.8倍;每CPU的NVLink带宽为3.6 TB/s,比Blackwell提升2倍。

对于Vera CPU英伟达设计了其下一代定制Arm架构,代号Olympus,该芯片拥有88个核心、176个线程(采用英伟达空间多线程(Spatial Multi-Threading))、1.8 TB/s的NVLink-C2C一致性内存互连、1.5 TB系统内存(是Grace的3倍)、搭配SOCAMM LPDDR5X的1.2 TB/s内存带宽,以及机架级机密计算。这些特性组合起来,数据处理、压缩及持续集成/持续部署(CI/CD)性能相比Grace提升2倍。

NVLink 6交换机为Rubin平台提供网络结构,采用400G SerDes、每CPU 3.6 TB/s的全对全带宽、总带宽28.8 TB/s、网络中FP8计算能力14.4 TFLOPS,并采用100%液冷设计。

网络由最新的ConnectX-9BlueField-4模块提供支持。ConnectX-9 SuperNIC提供1.6 TB/s带宽,采用200G PAM4 SerDes,可编程RDMA和数据路径加速器,顶级安全性,并针对大规模人工智能进行了优化。

BlueField-4是一款用于智能网卡和存储处理器的800G DPU。它集成了64核心的Grace CPUConnectX-9,相比BlueField-3提供2倍网络能力、6倍计算能力和3倍内存带宽。

所有这些汇聚于英伟达Vera Rubin NVL72机架中,与Blackwell相比带来令人瞩目的提升,详情如下:

  • 5倍NVFP4推理性能(3.6 EFLOPS)

  • 3.5倍NVFP4训练性能(2.5 EFLOPS)

  • 2.5倍LPDDR5x容量(54 TB)

  • 1.5倍HBM4容量(20.7 TB)

  • 2.8倍HBM4带宽(1.6 PB/s)

  • 2倍纵向扩展带宽(260 TB/s)

英伟达还发布了其Spectrum-X以太网共封装光学解决方案,提供102.4 Tb/s的横向扩展交换机基础设施、共封装200G硅光子学技术,并能在规模化部署中实现95%的有效带宽。该系统的效率提高5倍,可靠性提高10倍,应用运行时间提高5倍

针对其Rubin SuperPOD英伟达还推出了推理上下文内存存储(Inference Context Memory Storage)平台,该平台专为千兆规模推理而构建,并与DynamoNIXLDOCA等英伟达软件解决方案完全集成。

总而言之,英伟达将把其Rubin平台部署在配备8个Vera Rubin NVL72机架的尖端DGX SuperPOD中。但这还不是全部,还有面向主流数据中心的英伟达DGX Rubin NVL8

凭借所有这些进步,英伟达Rubin相比Blackwell GB200,推理词元成本降低10倍,训练混合专家模型(MoE)所需的GPU数量减少4倍Rubin生态系统得到众多合作伙伴的支持,现已全面量产,客户将于今年晚些时候获得首批芯片。


文章标签: #人工智能 #英伟达 #数据中心 #芯片 #AI工厂

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。