英伟达Blackwell Ultra为超大规模数据中心提供了现代化的计算选择,在最新的基准测试中,GB300 NVL72在低延迟和长上下文工作负载方面展现出巨大的性能优势。

Cover Image

英伟达Blackwell Ultra AI机架如今凭借NVLink的升级,具备了顶级的智能体性能。

2022年最初的繁荣以来,人工智能产业已在多个层面演进。目前,我们正看到一场由基于前沿模型构建的应用/封装器驱动的、向智能体计算的重大转变。与此同时,对于像英伟达这样的基础设施提供商而言,拥有充足的板载内存带宽和性能以满足智能体框架的延迟要求变得日益重要。而通过Blackwell Ultra英伟达团队做到了这一点。在一篇新的博客文章中,英伟达SemiAnalysisInferenceMAX上测试了Blackwell Ultra,结果令人震惊。

英伟达的第一张信息图强调了一个名为“每瓦特令牌数”的指标,这可能是当前超大规模数据中心建设中最值得关注的重要数字之一。该公司同时关注原始性能和吞吐量优化,这就是为什么与Hopper GPU相比,GB300 NVL72实现了每兆瓦吞吐量50倍的提升。下面的对比显示了每种架构可能的最佳“部署状态”。

如果您好奇每兆瓦吞吐量的提升为何如此惊人,那么,英伟达以其NVLink技术为傲。Blackwell Ultra已扩展至72个GPU的规模,通过130 TB/s的连接带宽将它们整合到一个统一的NVLink架构中。与局限于8芯片NVLink设计的Hopper相比,英伟达引入了更优越的架构、机架设计,更重要的是引入了NVFP4精度格式,这就是GB300在吞吐量上占据主导地位的原因。

鉴于“智能体人工智能”的浪潮,英伟达GB300 NVL72的测试也侧重于令牌成本和上述升级。英伟达团队实现了每百万令牌成本大幅降低35倍,使其成为前沿实验室和超大规模数据中心的首选推理方案。规模定律再次保持有效,并以超乎想象的速度演进,而这些性能升级的主要催化剂正是英伟达所建立的“极致协同设计”结构,当然,还有我们所说的黄氏定律。

当考虑到计算节点和架构的增量差异时,与Hopper的比较变得有些不公平,因此英伟达也在长上下文工作负载中比较了GB200GB300。上下文长度确实是智能体的主要制约因素,因为维护整个代码库的状态需要大量的令牌使用。凭借Blackwell Ultra英伟达实现了每个令牌成本降低高达1.5倍,注意力处理速度提升2倍,使其非常适合智能体工作负载。

鉴于Blackwell Ultra目前正处于超大规模数据中心集成过程中,这些是该架构的首批基准测试之一。从结果来看,英伟达成功地保持了性能的线性扩展,并与现代人工智能应用场景保持一致。并且,随着Vera Rubin的推出,人们可以期待Blackwell系列带来更卓越的性能,这也是英伟达当前主导基础设施竞赛的众多原因之一。


文章标签: #英伟达 #Blackwell #AI芯片 #智能体 #数据中心

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。