英伟达(NVIDIA)已成为首批提交“全面”MLPerf Inference v6.0基准测试结果的厂商之一,其性能表现相对于“所有竞争对手”的总和而言也是最高的。

在基准测试提交和展示其计算平台“实力”方面,英伟达一直处于前沿地位,尤其是在MLPerf测试中,该公司是为数不多能完成严格一轮基准测试的实体之一。根据其最新的博客文章,英伟达此次讨论了其向MLPerf v6.0提交的最新成果,指出凭借Blackwell Ultra架构和极致的协同设计法则,公司实现了“最高的人工智能工厂吞吐量和最低的令牌成本”。绿队的MLPerf推理训练成绩比最接近的竞争对手高出九倍,这彰显了该公司在基础设施方面的领先地位。
随着新的Inference v6.0发布,MLCommons团队新增了对更新的推理模型和混合专家模型的支持,包括DeepSeek-R1、GPT-OSS-120B和Mixtral 8x7B。同时,该版本也聚焦于密集型大语言模型、生成式推荐系统和视觉语言模型,表明基准测试瞄准了更广泛符合当今企业需求的常见工作负载。这也是为什么黄仁勋(Jensen Huang)称MLPerf为最“严苛”的基准测试套件之一,而有趣的是,英伟达在其中占据主导地位。以下是英伟达取得的成果,其中有一个有趣的方面。
这些结果不仅表明在令牌/秒/GPU数据上拥有巨大领先优势,还显示英伟达的优势也得益于一系列软件优化。这就是为什么自几个月前首次提交DeepSeek-R1基准测试以来,英伟达在未做任何硬件改动的情况下,令牌吞吐量提升了2.7倍。在硬件层面,与GB200 NVL72相比,英伟达在v6.0上实现了高达2.77倍的加速比,这意味着代际升级在如MLPerf v6.0这般严苛的基准测试中也是一致且显著的。
英伟达声称,他们是去年唯一向MLPerf Inference提交DeepSeek-R1结果的厂商,而在对硬件审查更为严格的新版本中,凭借Blackwell Ultra架构,其领先地位得以保持。
实现卓越的推理吞吐量需要跨越多芯片、系统架构、数据中心设计和软件进行极致的协同设计。最新的MLPerf Inference v6.0结果显示,在行业标准基准测试中,英伟达在从海量大语言模型到先进的视觉语言模型,再到生成式推荐系统等最广泛的工作负载范围内,提供了无与伦比的推理吞吐量。
英伟达对其硬件成果保持透明的做法,也是其在开发者社区备受推崇的原因之一。总体而言,MLPerf是一套严苛的测试套件,这也是为什么一些专用集成电路制造商,甚至AMD,都没有像英伟达那样广泛参与基准测试过程。同时,Inference v6.0测试也支持了英伟达为其客户提供最佳硬件的说法,令牌/美元数据和大型部署的总拥有成本都证明了这一点。



