英伟达GB300 NVL72人工智能机柜已在深度求索最新的开源模型上完成测试,经过微调和优化的推理过程,结果确实令人期待。

Cover Image

在延迟敏感型工作负载方面,英伟达Blackwell Ultra相比GB200 NVL72取得了最高达1.5倍的领先优势。

对于GB300英伟达的主要关注点一直是提供最优的长上下文性能,以抓住智能体人工智能浪潮的机遇。在近期的一篇文章中,我们讨论了Blackwell Ultra如何通过其极致的协同设计方法,实现了相比Hopper GPU每兆瓦吞吐量50倍的提升。如今,大型模型系统组织(LMSYS)已对GB300 NVL72进行了长上下文推理测试,结果看起来极具前景。该测试确实包含了基础设施层面的软件路由,我们接下来会讨论这一点。

考虑到长上下文工作负载的压力往往更多地转移到GPU VRAM上,LMSYS团队集成了PD(预填充-解码)解耦,这是一种广泛用于维持大规模令牌上下文的机制。简而言之,通过PD解耦,可以将工作拆分到不同的硬件“节点”上以避免瓶颈。预填充阶段(简单来说就是提示词处理)和解码阶段(即令牌生成)在解耦后往往能得到更好的优化,从而在大规模场景下提升吞吐量。

LMSYS团队还采用了其他几种优化技术,包括用于在长上下文窗口下优化提示响应的动态分块,以及有效的KV容量转换。在代际改进方面,该团队指出了以下主要基准:吞吐量分析、容量和延迟比。

英伟达GB300 NVL72对比GB200 NVL72

  • 1.53倍峰值吞吐量:226.2 TPS/GPU(每秒令牌数)

  • 1.87倍用户速度:通过MTP(多令牌预测)实现的TPS/用户巨大飞跃。

  • 1.58倍延迟优势

根据LMSYS团队的说法,GB300平均比GB200取得了1.4倍至1.5倍的领先优势,尤其是在延迟敏感的场景下。鉴于对智能体工作负载的关注,Blackwell Ultra最能抓住这些机遇。虽然Blackwell Ultra在延迟和吞吐量方面显然占据主导地位,但我们尚未在业界看到关于总拥有成本的讨论,特别是考虑到GB300的部署成本也同步上升了。

英伟达每一代产品的策略似乎不仅关注架构进步,也致力于解决行业特定的限制。就Blackwell Ultra而言,延迟数据已得到显著改善。这也是为什么在智能体环境中,GB300正成为超大规模云服务商和新云服务商的首选之一。


文章标签: #英伟达 #GB300 #长上下文 #AI推理 #性能测试

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。