英伟达GB300领跑智能体AI工作负载，性能较Hopper提升20倍，Rubin架构即将推出

英伟达（NVIDIA）的Blackwell GB300在AA-AgentPerf这项衡量智能体AI工作流的新基准测试中创下了纪录。人工智能分析机构（Artificial Analysis）推出了名为AA-AgentPerf的新基准，用于衡量推理部署在真实工作负载下能支持多少个活跃代理。

这些工作负载包括：

真实的智能体轨迹——多轮编码会话，交织推理、工具调用和可变上下文长度（非合成统一提示）。
持续的并发负载——模拟代理保持连续的在途请求，考验KV缓存重用、推测解码和调度器行为。
市场衍生SLO层级——基于人工智能分析机构的无服务器API基准数据设定的性能阈值，反映了各提供商的服务质量水平。
持续更新——随着新硬件、软件栈和模型版本的推出，结果会持续更新。
生产就绪——模型在启用实际优化和生产级部署拓扑的条件下进行测试。

AA-AgentPerf基准用于衡量三个关键指标，它们是现代AI部署的基础：

首令牌延迟（TTFT）：从发送请求到收到第一个输出令牌的每请求延迟。
输出速度：收到第一个令牌后，每请求每秒输出令牌数。
系统输出吞吐量：所有并发代理的合计每秒输出令牌数。

英伟达（NVIDIA）首次在AgentPerf基准中发布结果，使用DeepSeek V4 Pro运行在GB300 NVL72平台之上。该模型代表了当前驱动智能体的前沿模型，并被广泛用于AI领域。

在第一轮基准测试中，英伟达的GB300硬件录得最快性能，相比其上一代HGX H200平台实现了每兆瓦20倍的领先。英伟达的GB300每兆瓦可支持高达6万个并发代理，相较于Hopper架构实现了飞跃。

每兆瓦并发代理数（能效：系统在给定功耗预算下可支持的活跃代理数）：英伟达GB300 NVL72为61.4K，英伟达H200为2.6K
每GPU并发代理数（硬件效率：每颗GPU实现的服务容量）：英伟达GB300 NVL72为57.5，英伟达H200为1.4

英伟达表示，这些成绩凸显了其GB300 NVL72和Blackwell架构能够运行大规模智能体编码工作负载，同时让GPU在多个并发代理会话中保持高利用率。

展望未来，英伟达的Rubin架构即将到来，预计将通过超强AI架构进一步扩大这一领先优势。该架构将提供来自NVFP4的50 PFLOPs算力，配合Vera CPU，LLM工具调用和端到端性能将实现重大提升和能效增长。

搜索结果如下

阅读全文

英伟达GB300领跑智能体AI工作负载，性能较Hopper提升20倍，Rubin架构即将推出

也可以看看

网飞《邪恶律师》泰国犯罪惊悚剧，开局即掀起全球收视狂潮

阅读全文

《探险活宝》播出16年后正式改变格式，衍生剧《支线任务》转战迪士尼+

阅读全文

《鬼玩人7：怒火》揭示1972年前传时间线，血浆更少暴力更多

阅读全文