在CES展会上,AMD展示了其最新的Instinct MI325X加速器,这款加速器主要用于AI和高性能计算(HPC)工作负载。它还有一个特别之处,就是它是全球唯一一款配备256GB HBM3E内存的处理器,而且有望成为推理效率最高的GPU之一。

PeKeCZq96CeqYjJbKTeoxR-1200-80

CES主要是展示面向消费者的电子产品,但半导体公司一直会利用这个平台来展示他们认为适合展示的技术。英伟达在其主题演讲中大部分时间都在谈论AI,而AMD则推出了一系列面向客户端PC的处理器。不过,这并不意味着AMD没有其他展示的东西,比如这款全新的Instinct MI325X。

AMD的Instinct MI325X采用了和Instinct MI300X相同的双芯片GPU,配备了19456个流处理器,也就是304个计算单元,频率最高可达2.10GHz。不过,这款新加速器配备了256GB HBM3E内存,带宽达到了6TB/s。相比之下,MI300X配备的是192GB HBM3内存,带宽为5.3TB/s。英伟达的H200配备的HBM3E内存只有141GB,带宽为4.8TB/s,所以在板载HBM3E内存容量方面,AMD的Instinct MI325X是行业领先的。有意思的是,AMD之前曾宣布MI325X会配备288GB HBM3E,但后来不知为何又将可用容量减少到了256GB。

XtLeJ3fuAfXgKofiW7kdeT-1200-80

对于AI加速器来说,拥有更多的板载内存是非常重要的,无论是用于训练还是推理,至少从理论上来说是这样。现代的AI模型通常有数十亿个参数,训练这些模型需要数千个GPU。要存储这些参数,以及中间数据和梯度,就需要大量的内存。由于没有哪个模型能够完全装进GPU的板载内存,开发者们就不得不采用一些技术,比如模型并行或者张量切片,但这会增加计算和通信的开销。如果GPU的内存更多,那么由于开销降低,训练时所需的GPU数量就会减少。

此外,AI加速器是按批处理数据的。如果板载内存容量更大,那么就可以处理更大的批数据,这样就能提高吞吐量,让训练和推理的速度更快、效率更高。如果内存小,那么模型就只能处理小批量的数据,效率就会降低。

不过,在实际应用中,情况就不太一样了。根据AMD和英伟达截至8月底提交的数据,在MLPerf 4.1的生成式AI基准测试中,使用Llama 2 70B模型时,配备八个英伟达H100 80GB GPU的系统每秒生成的token数量和配备八个AMD Instinct MI300X 192GB GPU的机器差不多。

aR5DzWGPEGZmCvKHFvHXWU-1200-80

但是,配备八个H200 141GB GPU的8路服务器每秒生成的token数量却比配备八个MI300X 192GB机器的8路服务器多出30%以上。

目前看来,至少在8月份的时候,Instinct MI300X似乎还没有完全发挥出它的硬件能力,这可能是因为软件堆栈存在一些限制。至于Instinct MI325X能否克服这些软件堆栈的限制,成功超越它的竞争对手,还有待观察。


文章标签: #AMD #Instinct MI325X #HBM3E内存 #AI加速器 #高性能计算

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。