英伟达Blackwell Ultra GB300称霸长上下文推理，深度求索测试显优势

英伟达的GB300 NVL72人工智能机柜已在深度求索最新的开源模型上完成测试，经过微调和优化的推理过程，结果确实令人期待。

Cover Image

在延迟敏感型工作负载方面，英伟达的Blackwell Ultra相比GB200 NVL72取得了最高达1.5倍的领先优势。

对于GB300，英伟达的主要关注点一直是提供最优的长上下文性能，以抓住智能体人工智能浪潮的机遇。在近期的一篇文章中，我们讨论了Blackwell Ultra如何通过其极致的协同设计方法，实现了相比Hopper GPU每兆瓦吞吐量50倍的提升。如今，大型模型系统组织（LMSYS）已对GB300 NVL72进行了长上下文推理测试，结果看起来极具前景。该测试确实包含了基础设施层面的软件路由，我们接下来会讨论这一点。

考虑到长上下文工作负载的压力往往更多地转移到GPU VRAM上，LMSYS团队集成了PD（预填充-解码）解耦，这是一种广泛用于维持大规模令牌上下文的机制。简而言之，通过PD解耦，可以将工作拆分到不同的硬件“节点”上以避免瓶颈。预填充阶段（简单来说就是提示词处理）和解码阶段（即令牌生成）在解耦后往往能得到更好的优化，从而在大规模场景下提升吞吐量。

LMSYS团队还采用了其他几种优化技术，包括用于在长上下文窗口下优化提示响应的动态分块，以及有效的KV容量转换。在代际改进方面，该团队指出了以下主要基准：吞吐量分析、容量和延迟比。

英伟达GB300 NVL72对比GB200 NVL72：

1.53倍峰值吞吐量：226.2 TPS/GPU（每秒令牌数）
1.87倍用户速度：通过MTP（多令牌预测）实现的TPS/用户巨大飞跃。
1.58倍延迟优势

根据LMSYS团队的说法，GB300平均比GB200取得了1.4倍至1.5倍的领先优势，尤其是在延迟敏感的场景下。鉴于对智能体工作负载的关注，Blackwell Ultra最能抓住这些机遇。虽然Blackwell Ultra在延迟和吞吐量方面显然占据主导地位，但我们尚未在业界看到关于总拥有成本的讨论，特别是考虑到GB300的部署成本也同步上升了。

英伟达每一代产品的策略似乎不仅关注架构进步，也致力于解决行业特定的限制。就Blackwell Ultra而言，延迟数据已得到显著改善。这也是为什么在智能体环境中，GB300正成为超大规模云服务商和新云服务商的首选之一。

搜索结果如下

阅读全文

英伟达Blackwell Ultra GB300称霸长上下文推理，深度求索测试显优势

也可以看看

《太空堡垒卡拉狄加》四季完美，科幻史诗始终如一

阅读全文

主创解释改编差异，《七王国的骑士》中伊耿谎言如何影响第二季走向

阅读全文

悉尼·斯威尼主演R级惊悚片《女佣》，打破其个人七年票房纪录

阅读全文