AMD在加州圣何塞举办的“Advancing AI 2025”活动上发布了面向AI工作负载的新款MI350X与MI355X GPU。据报道,这两款加速器性能较前代MI300X提升3倍,进一步增强了与市场领导者英伟达(Nvidia)的竞争实力。AMD宣称在同类推理测试中最高领先英伟达1.3倍,在特定训练任务中保持1.13倍优势。得益于转向CDNA 4架构并采用更先进的制程节点,新一代产品AI计算性能提升4倍,推理性能更实现35倍飞跃。MI350系列平台已于上月投产交付。

Cover Image

这两款MI300系列AI GPU将为AMD的机架级解决方案提供算力支持直至2026年,为后续MI400系列的推出铺路。MI350X与MI355X采用相同底层设计,均配备最高288GB HBM3E显存、8TB/s内存带宽,并新增支持FP4与FP6数据类型。区别在于MI350X面向风冷方案设计(整板功耗较低),而MI355X则为追求极致性能的液冷系统优化,功耗更高。

值得注意的是,AMD此次未延续上代MI300A的APU设计(CPU+GPU集成封装),全线采用纯GPU方案。MI355X的HBM3E显存容量达到英伟达竞品GB200/B200的1.6倍,内存带宽持平8TB/s。在FP64/FP32峰值性能上,AMD宣称具有2倍优势——考虑到英伟达重点优化更适合AI的低精度格式,这一结果并不意外。不过MI350的FP64矩阵性能较MI300X减半,矢量性能则同比下降约4%。在FP16/FP8/FP4等低精度格式中,AMD基本达到或小幅超越英伟达竞品,其中FP6性能表现尤为突出(运行速率与FP4相当)。

与英伟达新品类似,性能跃升伴随着功耗增长:液冷版MI355X整板功耗高达1400W,较MI300X(750W)和MI325X(1000W)显著提升。AMD表示更高的性能密度可帮助客户在单机架内集成更强算力,从而优化总体拥有成本(TCO)指标。

芯片设计方面,3D与2.5D封装技术融合的核心思路未变:前者用于加速器计算芯片(XCD)与I/O芯片(IOD)的堆叠,后者则连接IOD与12层堆叠的HBM3E显存。每个芯片集成8个XCD小芯片(每个启用32个计算单元),总计256CU(每个XCD保留4个CU用于提升良率)。XCD制程从5nm升级至台积电N3P节点,晶体管总数达1850亿个(前代1530亿个)。IOD虽仍采用N6工艺,但从4个模块精简为2个,通过加宽Infinity Fabric总线(双向带宽达5.5TB/s)并降低频率/电压来优化能效。

处理器通过PCIe 5.0 x16接口连接主机,并借助7条Infinity Fabric链路(总吞吐量1075GB/s)实现多芯片互联。两款产品均采用OAM封装规格,兼容标准UBB服务器(OCP规范),可快速部署。每个计算节点包含8个加速器,通过153.6GB/s双向Infinity Fabric互连,由两颗第五代EPYC“都灵”处理器驱动。

网络支持方面,AMD全新Pollara网卡(支持超以太网联盟UEC标准)主打横向扩展方案,而超加速器链路(UAL)则用于纵向扩展网络。散热方案提供直接液冷(DLC)与风冷(AC)两种选择:DLC机架凭借液冷子系统的高密度优势可集成128块MI355X GPU(36TB HBM3E),AC方案则最多支持64块GPU(18TB HBM3E)。

针对长期弱项——机架级架构开发,AMD通过一系列收购与合作显著强化了布局。官方测试数据显示:8GPU MI355X配置在Llama 3.1 405B(FP4)中比4块DGX GB200快1.3倍,在DeepSeek R1推理任务中较8GPU B200 HGX快1.2倍;训练任务中与英伟达B200/GB200基本持平,部分Llama模型测试最高领先1.13倍。相比MI300X,MI355X在AI代理/聊天机器人场景性能提升达4.2倍,内容生成/摘要/对话式AI任务也有2.6-3.8倍增益,DeepSeek R1与Llama 4 Maverick分别实现3倍和3.3倍代际提升


文章标签: #AMD #AI芯片 #GPU #HBM3E #英伟达

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。