英伟达(NVIDIA)Blackwell GB300AA-AgentPerf这项衡量智能体AI工作流的新基准测试中创下了纪录。人工智能分析机构(Artificial Analysis)推出了名为AA-AgentPerf的新基准,用于衡量推理部署在真实工作负载下能支持多少个活跃代理。

NVIDIA-Blackwell-GB300.jpeg

这些工作负载包括:

  • 真实的智能体轨迹——多轮编码会话,交织推理、工具调用和可变上下文长度(非合成统一提示)。

  • 持续的并发负载——模拟代理保持连续的在途请求,考验KV缓存重用、推测解码和调度器行为。

  • 市场衍生SLO层级——基于人工智能分析机构的无服务器API基准数据设定的性能阈值,反映了各提供商的服务质量水平。

  • 持续更新——随着新硬件、软件栈和模型版本的推出,结果会持续更新。

  • 生产就绪——模型在启用实际优化和生产级部署拓扑的条件下进行测试。

AA-AgentPerf基准用于衡量三个关键指标,它们是现代AI部署的基础:

  • 首令牌延迟(TTFT):从发送请求到收到第一个输出令牌的每请求延迟。

  • 输出速度:收到第一个令牌后,每请求每秒输出令牌数。

  • 系统输出吞吐量:所有并发代理的合计每秒输出令牌数。

英伟达(NVIDIA)首次在AgentPerf基准中发布结果,使用DeepSeek V4 Pro运行在GB300 NVL72平台之上。该模型代表了当前驱动智能体的前沿模型,并被广泛用于AI领域。

在第一轮基准测试中,英伟达GB300硬件录得最快性能,相比其上一代HGX H200平台实现了每兆瓦20倍的领先。英伟达GB300每兆瓦可支持高达6万个并发代理,相较于Hopper架构实现了飞跃。

  • 每兆瓦并发代理数(能效:系统在给定功耗预算下可支持的活跃代理数):英伟达GB300 NVL7261.4K英伟达H2002.6K

  • 每GPU并发代理数(硬件效率:每颗GPU实现的服务容量):英伟达GB300 NVL7257.5英伟达H2001.4

英伟达表示,这些成绩凸显了其GB300 NVL72Blackwell架构能够运行大规模智能体编码工作负载,同时让GPU在多个并发代理会话中保持高利用率。

展望未来,英伟达Rubin架构即将到来,预计将通过超强AI架构进一步扩大这一领先优势。该架构将提供来自NVFP450 PFLOPs算力,配合Vera CPULLM工具调用和端到端性能将实现重大提升和能效增长。


文章标签: #英伟达 #智能体 #基准测试 #Blackwell #Rubin

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。