Vera Rubin的时代已经到来——不仅是英伟达(NVIDIA),也是全球最快的AI平台现已交付给顶级云服务商。CoreWeave和甲骨文(Oracle)率先收到全球首批英伟达Vera Rubin NVL72系统进行验证,为智能体AI带来巨大飞跃。

英伟达Vera Rubin已进入量产阶段,但顶级AI云服务商已率先拿到首批系统进行测试和验证。上月,英伟达还将首批Vera CPU发送给了主要AI公司。甲骨文云基础设施执行副总裁马赫什·蒂亚加拉詹(Mahesh Thiagarajan)率先分享了巨大的NVL72机柜图片,该机柜配备72颗Rubin GPU和36颗Vera CPU。这些是用于AI的世界级硬件组件,旨在成为英伟达继Grace Blackwell之后的又一大成功故事——正如昨日MLPerf 6.0结果所示,后者仍在打破所有AI纪录。
蒂亚加拉詹在推文中表示:“OCI持续推动AI基础设施前沿。我们是首批搭建并验证@nvidia Vera Rubin NVL72机柜的云服务商之一,与英伟达紧密合作,以云规模为客户提供下一代加速计算。”正如黄仁勋(Jensen Huang)所言,AI是一个五层蛋糕,而Vera Rubin系统只是其中一层。该系统由精密制造的基础设施支撑,为其提供电力、冷却、互连、网络等支持。此外,还有英伟达多年来构建的软件栈,其采用程度和成功尚无其他公司能够复制——那就是CUDA,而针对AI,则称为CUDA-X。
第二套系统安装于CoreWeave,由计算架构高级总监雅各布·扬特(Jacob Yundt)展示。CoreWeave发布了完整视频,展示系统如何从卡车卸货,需要3-4人才能将设备运入设施。由此可见单个机柜的庞大,而AI数据中心内还有成千上万个这样的机柜。CoreWeave在推文中表示:“我们是首家搭建并验证@nvidia Vera Rubin NVL72的云服务商。不仅是硬件,而是全套栈:软件定义液冷(Valvey)、统一机柜控制(Racky)、跨集群的CoreWeave Mission Control。”
CoreWeave为其软件定义液冷栈和统一机柜控制分别命名为Valvey和Racky,颇具趣味。据该云服务商称,他们是首家搭建并验证英伟达Vera Rubin NVL72平台的厂商。如前所述,Vera Rubin平台已迎来盛大开局,使用仅四分之一的GPU即可达到MoE训练速度,推理成本每词元仅为Blackwell的十分之一。全面量产现已展开,第三季度将标志着这一智能体AI巨兽首批运营流程的开始。



