英伟达(NVIDIA)与超微半导体(AMD)近日提交了旗下最新GPU在MLPerf推理基准测试中的性能数据,包括布莱克威尔架构B200和Instinct MI325X加速卡。在这份MLPerf推理v5.0基准测试报告中,两大GPU巨头展示了其最新芯片的实力——正如历史测试所示,胜负关键不仅在于硬件算力,更取决于软件优化及对新型AI生态系统的支持程度。

Cover Image

采用72颗布莱克威尔GPU构建的GB200 NVL72系统,在Llama 3.1 405B基准测试中较上一代H200 NVL8系统实现了30倍的吞吐量提升。这一突破源于单GPU性能三倍以上的跃升,以及九倍扩展的NVLink互联技术领域。值得注意的是,本次仅有英伟达及其合作伙伴提交了Llama 3.1 405B基准测试结果。

实际推理部署需要关注两大关键延迟指标:首词元响应时间(TTFT)反映用户从大型语言模型获取初始响应所需时长;输出词元间隔时间(TPOT)则体现持续输出效率。在新推出的Llama 2 70B交互式基准测试中,布莱克威尔平台将TPOT缩短至五分之一,TTFT降低至四点四分之一,显著提升了用户体验响应速度。搭载八颗B200芯片的DGX B200系统,其性能达到八颗H200系统的三倍,为这项高难度测试树立了新标杆。

超微半导体方面,其最新Instinct MI325X 256GB加速卡以八卡配置参测。测试成绩显示该平台性能与H200系统相当,大显存容量对大型语言模型确有助益,但仍大幅落后于布莱克威尔B200。随着采用Ultra架构的B300芯片将于年内问世,超微需在硬件与软件层面持续加码——其Instinct MI350系列或成关键筹码。

霍珀H200系列亦通过持续优化展现出50%的推理性能提升,这对仍在使用该平台的企业而言意义重大。布莱克威尔架构与其优化软件栈的协同,正推动AI推理性能进入新纪元,为智能工厂实现更高智能密度、更大吞吐量和更快响应速度铺平道路。


文章标签: #英伟达 #AMD #GPU #AI #性能

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。