在台北国际电脑展上,和硕(Pegatron)展示了一套基于128颗AMD次世代Instinct MI350X加速器的独特机架级解决方案,专为高性能AI推理与训练应用设计。该系统的研发进度比AMD自主设计的机架级方案领先一代,因此对和硕而言,这套系统将成为研发训练平台,为约一年后推出的基于AMD Instinct MI450X的IF64和IF128机架级解决方案奠定基础。

Cover Image

和硕AS501-4A1/AS500-4A1机架系统采用八组5U计算托盘,每组配置一颗AMD EPYC 9005系列处理器和四颗AMD Instinct MI350X AI/HPC加速器。CPU与加速器均采用液冷设计,确保高负载下性能的极致稳定输出。整机采用51OU ORV3规格,完美适配采用开放计算项目(OCP)标准的云数据中心(例如Meta)。

该系统通过400千兆以太网连接不同机箱内的GPU——由于AMD尚未推出专用于Infinity Fabric互联的交换机(目前AMD Instinct最大扩展规模为八颗处理器),这与英伟达(Nvidia)GB200/GB300 NVL72平台形成鲜明对比,后者通过超高速NVLink连接72颗GPU。因此在扩展性方面,Instinct MI350X系统将难以匹敌GB200/GB300 NVL72。

这套新系统将被OCP采用者用于即时工作负载,并从硬件与软件角度学习如何优化构建多GPU的AMD Instinct系统。和硕该系统的重大意义难以估量,其核心价值在于为挑战英伟达在AI机架解决方案领域的统治地位铺平道路。

根据现有信息,和硕这套128-GPU机架系统在理论上可实现1,177 PFLOPS的FP4推理算力(假设接近线性扩展)。每颗MI350X支持最高288GB HBM3E内存,使得系统总内存高达36.8TB,可支持超越英伟达当前Blackwell架构GPU容量极限的超大规模AI模型。

但依赖以太网进行GPU间通信的设计限制了系统扩展性。由于最大扩展域仅为八颗GPU,该系统可能更适合推理工作负载或多实例训练,而非需要紧密同步的大语言模型训练——这正是英伟达NVL72系统的优势领域。尽管如此,它仍是当前兼具高性能与大内存的解决方案,更是AMD下一代Instinct MI400系列产品的先导之作。


文章标签: #AI #AMD #GPU #算力 #液冷

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。