AMD Instinct MI325X加速器亮相CES：256GB HBM3E内存成焦点

在CES展会上，AMD展示了其最新的Instinct MI325X加速器，这款加速器主要用于AI和高性能计算（HPC）工作负载。它还有一个特别之处，就是它是全球唯一一款配备256GB HBM3E内存的处理器，而且有望成为推理效率最高的GPU之一。

PeKeCZq96CeqYjJbKTeoxR-1200-80

CES主要是展示面向消费者的电子产品，但半导体公司一直会利用这个平台来展示他们认为适合展示的技术。英伟达在其主题演讲中大部分时间都在谈论AI，而AMD则推出了一系列面向客户端PC的处理器。不过，这并不意味着AMD没有其他展示的东西，比如这款全新的Instinct MI325X。

AMD的Instinct MI325X采用了和Instinct MI300X相同的双芯片GPU，配备了19456个流处理器，也就是304个计算单元，频率最高可达2.10GHz。不过，这款新加速器配备了256GB HBM3E内存，带宽达到了6TB/s。相比之下，MI300X配备的是192GB HBM3内存，带宽为5.3TB/s。英伟达的H200配备的HBM3E内存只有141GB，带宽为4.8TB/s，所以在板载HBM3E内存容量方面，AMD的Instinct MI325X是行业领先的。有意思的是，AMD之前曾宣布MI325X会配备288GB HBM3E，但后来不知为何又将可用容量减少到了256GB。

XtLeJ3fuAfXgKofiW7kdeT-1200-80

对于AI加速器来说，拥有更多的板载内存是非常重要的，无论是用于训练还是推理，至少从理论上来说是这样。现代的AI模型通常有数十亿个参数，训练这些模型需要数千个GPU。要存储这些参数，以及中间数据和梯度，就需要大量的内存。由于没有哪个模型能够完全装进GPU的板载内存，开发者们就不得不采用一些技术，比如模型并行或者张量切片，但这会增加计算和通信的开销。如果GPU的内存更多，那么由于开销降低，训练时所需的GPU数量就会减少。

此外，AI加速器是按批处理数据的。如果板载内存容量更大，那么就可以处理更大的批数据，这样就能提高吞吐量，让训练和推理的速度更快、效率更高。如果内存小，那么模型就只能处理小批量的数据，效率就会降低。

不过，在实际应用中，情况就不太一样了。根据AMD和英伟达截至8月底提交的数据，在MLPerf 4.1的生成式AI基准测试中，使用Llama 2 70B模型时，配备八个英伟达H100 80GB GPU的系统每秒生成的token数量和配备八个AMD Instinct MI300X 192GB GPU的机器差不多。

aR5DzWGPEGZmCvKHFvHXWU-1200-80