英伟达凭借其基于Blackwell Ultra架构的GB300 NVL72平台在全部MLPerf训练测试中获胜,宣称该平台可提供领先的人工智能训练性能。

在实现顶尖人工智能性能方面,英伟达图形处理器始终处于前沿地位。基于Blackwell架构的数据中心图形处理器已多次展现其惊人潜力,最新的GB300 NVL72平台也不例外。
今日,英伟达自豪地宣布,其搭载Blackwell Ultra的人工智能图形处理器在每项MLPerf训练基准测试中均夺得榜首,证明GB300 NVL72机架级系统仍是处理密集型人工智能工作负载的最佳选择。
在其博客文章中,英伟达声称是唯一提交了所有MLPerf测试结果的公司,并进一步拉大了与竞争对手的性能差距。其分享的图表显示,英伟达的GB200和GB300平台今年在MLPerf训练和推理测试中取得了多项优胜。最近的成绩包括:
基准测试结果表明,在与基于Hopper架构的图形处理器数量相同的机架系统中,英伟达使用Blackwell Ultra图形处理器取得了显著更优的结果。在Llama 3.1 405B预训练中,GB300图形处理器的性能是H100的4倍多,是Blackwell GB200的近2倍。同样,在Llama 2 70B微调中,8个GB300图形处理器的性能是H100的5倍。
英伟达还夸耀其CUDA生态系统,这使其相比竞争对手拥有巨大优势。CUDA软件栈表现出色,而机架系统本身,加上800 GB/s网络速度的Quantum-X800 InfiniBand,也是无与伦比的。GB300 NVL72为每个图形处理器带来279 GB的HBM3e内存,图形处理器和中央处理器内存合计总容量达到惊人的40 TB。如此庞大的内存配置加速了人工智能工作负载,而使用FP4精度进行训练也是实现卓越性能的关键。
英伟达表示,其已确保在大语言模型训练的每一层都采用FP4精度,使计算速度相比FP8提升一倍。Blackwell Ultra进一步将此提升至3倍,这就是英伟达能够在未增加图形处理器数量的情况下击败竞争对手并提供大幅领先性能的原因。与其6月份提交的结果相比,新结果是使用5,120个Blackwell GB200图形处理器实现的,仅用10分钟就完成了Llama 3.1 405B参数的训练。
更新:Llama 3.1 405B基准测试是使用GB200 NVL72而非GB300 NVL72进行的。



