在专注于“专家混合”(Mixture of Experts,MoE)人工智能模型的性能扩展方面,英伟达(NVIDIA)似乎已经取得了突破性进展,这要归功于其协同设计的性能扩展法则。

Cover Image

英伟达GB200 NVL72 AI集群在专注于MoE的Kimi K2思维大语言模型上实现了高达10倍的性能提升。人工智能领域一直在竞相扩展基础大语言模型的规模,通过增加令牌参数并确保其模型在性能和应用上表现出色。然而,这种方法使得公司在为其人工智能模型投入的计算资源方面存在极限。此时,“专家混合”前沿人工智能模型便应运而生,因为对于一次查询,它们不会激活每个令牌的全部参数,而是根据服务请求的类型,仅激活其中的一部分。尽管MoE模型在大语言模型中已占据主导地位,但扩展其规模会带来巨大的计算瓶颈,而英伟达已成功克服了这一挑战。

英伟达发布的一份新闻稿中,公司披露,借助搭载的GB200“布莱克维尔”NVL72配置,与Hopper HGX 200相比,其性能实质上提升了10倍。该公司在Kimi K2思维MoE模型上测试了其计算能力,该模型是一个开源大语言模型,每次前向传播激活320亿个参数,被认为是该细分领域的杰出选择。英伟达声称,“布莱克维尔”架构已“蓄势待发”,准备把握前沿MoE模型兴起的机遇。

为了解决扩展MoE人工智能模型所涉及的性能瓶颈,英伟达采用了“协同设计”方法。这意味着,通过利用72芯片配置的GB200,并结合30TB的高速共享内存,英伟达将专家并行性提升到了一个全新的水平,确保令牌批次持续在多个GPU之间拆分和分散,并且通信量以非线性速率增长。其他优化措施还包括:

其他全栈优化也在解锁MoE模型的高推理性能方面发挥着关键作用。英伟达Dynamo框架通过将预填充和解码任务分配给不同的GPU来协调分解式服务,允许解码以大规模的专家并行性运行,而预填充则使用更适合其工作负载的并行技术。NVFP4格式有助于在进一步提高性能和效率的同时保持精度。

这一成就对于英伟达及其合作伙伴而言是一个重大的发展,尤其是考虑到GB200 NVL72配置目前已处于供应链阶段,许多前沿模型正利用AI服务器来增强其能力。MoE模型以其计算高效性而闻名,这也是它们在各种环境中的部署日益突出的原因,而英伟达似乎正处在把握这一趋势的中心位置。


文章标签: #英伟达 #MoE模型 #GB200 #性能突破 #人工智能

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。