英伟达(NVIDIA)布莱克韦尔(Blackwell)平台为人工智能推理工作负载带来了前所未有的Token优化水平,该公司在Token经济学领域揭示了一个巨大的里程碑。

Cover Image

英伟达的GB200 NVL72实现了比霍珀(Hopper)架构好10倍的Token经济学,归功于“专家级”并行处理

尽管英伟达一直在竞相构建人工智能世界的新基础设施,但该公司最大的关注点之一始终是提高其部署硬件的效率。随着基于布莱克韦尔训练的尖端人工智能模型在业界涌现,我们已经看到了英伟达Token输出和成本方面的进展。如今,在一篇新的博客文章中,该公司透露,他们一直在与企业合作,以提升布莱克韦尔的性能,显示出相比霍珀一代高达十倍的显著改进。

这就是为什么包括BasetenDeepInfraFireworks AITogether AI在内的领先推理服务提供商都在采用英伟达布莱克韦尔平台。与英伟达霍珀平台相比,该平台帮助他们将每个Token的成本降低了高达10倍。这些提供商托管着先进的开源模型,这些模型现已达到尖端智能水平。

通过结合开源尖端智能、英伟达布莱克韦尔极致的软硬件协同设计以及他们自身优化的推理堆栈,这些提供商正在为各行各业的企业实现Token成本的戏剧性降低。

在讨论布莱克韦尔Token经济学时,英伟达提到了诸如BasetenSully.ai,以及专注于游戏的DeepInfraLatitude等组织。对于每家公司而言,布莱克韦尔架构都使他们能够实现更低的延迟、最优的推理成本和可靠的响应,这也是为什么该技术堆栈成为当今主流人工智能公司的首选。即使在多智能体工作流和部署专用人工智能智能体方面,一家名为Sentient Labs的公司也实现了相对于霍珀架构“25-50%更好的成本效益”。

英伟达布莱克韦尔人工智能架构上的进步,得益于其“极致协同设计”方法,这种方法非常适合当今的混合专家(MoE)架构。通过GB200 NVL72英伟达采用了72芯片配置,结合30TB的快速共享内存,将专家并行处理提升到了一个全新的水平,确保Token批次不断在GPU之间分割和分散,并且通信量以非线性速率增长。这也是为什么Token经济学将成为布莱克韦尔迄今为止最高效指标的原因之一。

展望未来的维拉·鲁宾(Vera Rubin)架构,英伟达计划将基础设施效率提升到一个全新的水平,这由架构进步、用于预填充的CPX等专用机制等驱动。人工智能世界正在以惊人的速度发展,这就是为什么我们需要认识到,优化硬件与开发新硬件同等重要。


文章标签: #英伟达 #布莱克韦尔 #Token成本 #AI推理 #协同设计

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。