AMD在其“推进AI”活动上透露,甲骨文云基础设施(Oracle Cloud Infrastructure)将成为首批部署AMD最新Instinct MI350X系列GPU及Pensando Pollara 400GbE网卡的超大规模云服务商。这款网卡是业界首款符合超以太网标准(Ultra Ethernet)的网络接口设备。此项发布恰逢超以太网联盟(Ultra Ethernet Consortium)本周公布专为AI超算及高性能计算数据中心设计的超以太网技术1.0版规范。

Cover Image

据AMD表示,搭载Instinct MI350X系列GPU和Pensando Pollara 400GbE网卡的系统将于今年下半年在甲骨文云平台全面上线,其他云服务商也可能跟进部署。这款400GbE网卡对甲骨文具有特殊价值,该公司计划大规模部署AMD最新AI GPU,构建由多达131,072块Instinct MI355X组成的泽它级(zettascale)AI集群,为客户提供超大规模AI模型训练与推理能力。

AMD的Pensando Pollara 400GbE网卡与其他符合超以太网标准的网络硬件一样,专为包含百万级AI处理器/GPU的超大规模横向扩展环境设计,可提升AI工作负载性能高达6倍。AMD宣称其Pollara 400GbE网卡的RDMA性能较英伟达(Nvidia)CX7高出10%,比博通(Broadcom)Thor2解决方案快20%。此外,UEC 1.0标准的高效负载均衡、选择性重传和路径感知拥塞控制等功能,可使RDMA性能较传统RoCEv2再提升25%

Pensando Pollara 400GbE网卡采用自主设计的专用处理器,配备可定制硬件架构,支持RDMA、可调传输协议及通信库卸载。该网卡能智能分割多路径数据流以避免瓶颈,并动态调整过载网络路径的流量,确保大规模GPU部署中的吞吐稳定性。此外还配备故障切换技术,可快速检测并绕过故障连接,维持GPU间高速互联。这些特性对维持数万级互联加速器集群的利用率、降低延迟至关重要。

虽然甲骨文将成为首个部署AMD Pollara 400GbE网卡的大型超算服务商(其基于Instinct MI355X的集群规模可能居首),但其他计划大规模部署AMD Instinct产品的企业也将快速跟进,推动超以太网设备的普及。目前该网卡已开始向意向客户供货。


文章标签: #AMD #甲骨文 #AI集群 #超以太网 #GPU

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。