英伟达(NVIDIA)的Blackwell GB300在AA-AgentPerf这项衡量智能体AI工作流的新基准测试中创下了纪录。人工智能分析机构(Artificial Analysis)推出了名为AA-AgentPerf的新基准,用于衡量推理部署在真实工作负载下能支持多少个活跃代理。

这些工作负载包括:
真实的智能体轨迹——多轮编码会话,交织推理、工具调用和可变上下文长度(非合成统一提示)。
持续的并发负载——模拟代理保持连续的在途请求,考验KV缓存重用、推测解码和调度器行为。
市场衍生SLO层级——基于人工智能分析机构的无服务器API基准数据设定的性能阈值,反映了各提供商的服务质量水平。
持续更新——随着新硬件、软件栈和模型版本的推出,结果会持续更新。
生产就绪——模型在启用实际优化和生产级部署拓扑的条件下进行测试。
AA-AgentPerf基准用于衡量三个关键指标,它们是现代AI部署的基础:
首令牌延迟(TTFT):从发送请求到收到第一个输出令牌的每请求延迟。
输出速度:收到第一个令牌后,每请求每秒输出令牌数。
系统输出吞吐量:所有并发代理的合计每秒输出令牌数。
英伟达(NVIDIA)首次在AgentPerf基准中发布结果,使用DeepSeek V4 Pro运行在GB300 NVL72平台之上。该模型代表了当前驱动智能体的前沿模型,并被广泛用于AI领域。
在第一轮基准测试中,英伟达的GB300硬件录得最快性能,相比其上一代HGX H200平台实现了每兆瓦20倍的领先。英伟达的GB300每兆瓦可支持高达6万个并发代理,相较于Hopper架构实现了飞跃。
每兆瓦并发代理数(能效:系统在给定功耗预算下可支持的活跃代理数):英伟达GB300 NVL72为61.4K,英伟达H200为2.6K
每GPU并发代理数(硬件效率:每颗GPU实现的服务容量):英伟达GB300 NVL72为57.5,英伟达H200为1.4
英伟达表示,这些成绩凸显了其GB300 NVL72和Blackwell架构能够运行大规模智能体编码工作负载,同时让GPU在多个并发代理会话中保持高利用率。
展望未来,英伟达的Rubin架构即将到来,预计将通过超强AI架构进一步扩大这一领先优势。该架构将提供来自NVFP4的50 PFLOPs算力,配合Vera CPU,LLM工具调用和端到端性能将实现重大提升和能效增长。



