英伟达(NVIDIA)对于Groq公司LPU(语言处理单元)的规划在业界引发了广泛讨论。在2026年第四季度的财报电话会议上,当被问及此事时,首席执行官黄仁勋(Jensen Huang)的暗示颇为耐人寻味。

Cover Image

英伟达今年在收购方面攻势凌厉,而与Groq达成的非授权合作协议,价值高达200亿美元,是其最大的一笔投资。这项声明在圣诞节前夕悄然公布,但英伟达此后并未透露具体计划。有趣的是,在财报电话会议上,黄仁勋被问及公司将如何利用Groq时,他给出了一段具有背景设定意义的陈述,暗示了LPU将在英伟达未来的人工智能产品中扮演何种角色。

黄仁勋表示:“关于我们如何看待Groq及其低延迟解码器,我有一些很棒的想法,希望在GTC大会上与大家分享。我们与Groq的合作,你们将在GTC上看到。具体而言,我们将把Groq作为加速器来扩展我们的架构,其方式与我们当年通过迈络思(Mellanox)扩展英伟达架构非常相似。”

收购Groq背后的理念很简单。英伟达希望瞄准对延迟敏感的工作负载,而在当今时代,推理阶段已成为关键。应用于智能体环境的应用需要超快速响应,因此延迟已开始成为计算提供商的主要瓶颈。对于英伟达而言,公司已凭借HopperBlackwell架构在训练领域占据主导,但在推理领域,尽管有Vera Rubin架构,其领先地位尚未巩固,而GroqLPU单元将在设定新标准方面发挥巨大作用。

黄仁勋Groq的角色类比于当年收购迈络思。对于不了解迈络思贡献的人来说,它解决了“网络”问题。迈络思InfiniBand奠定了基础,这后来催生了英伟达所谓的“极致协同设计”,可以说这项收购极大地推动了英伟达的数据中心战略。Groq将扮演类似的角色。正如黄仁勋所言,英伟达将借助Groq“扩展其架构”,这意味着我们将看到某种形式的LPU机架级集成方案。

解码和预填充是已知的推理主要阶段,而在智能体人工智能场景中,前者尤为重要。因为在多智能体工作负载中,解码功能使得智能体能够在短短“数秒”内执行复杂的推理步骤,这对于世界正迈向相互依赖的人工智能智能体集群而言是必要的。通过Rubin CPX架构,英伟达已凭借其注意力加速引擎和庞大的NVFP4计算能力,基本覆盖了预填充阶段的需求。

至于解码,正如黄仁勋所提及,英伟达将借助GroqLPU利用片上SRAM(静态随机存取存储器)提供每秒数太字节的内部带宽,我们已经看到Cerebras公司的WSE-3微软(Microsoft)Maia 300等产品广泛采用了SRAM。关于LPU可能以何种形式集成,目前有两种主流推测。第一种是,英伟达可能会在其机架级产品中设计混合计算节点,通过统一的互连技术连接多个LPU

广发证券(GF Securities)认为(经由Jukan),英伟达可能在今年的GTC大会上发布一款“LPX机架”,单个机架内集成256个LPU单元。基于此信息,我们推测,对于LPU之间的连接,英伟达将利用其原生的准同步芯片到芯片协议。而对于LPUGPU的连接,可能会引入NVLink Fusion技术,以处理预填充阶段从GPU卸载的大量KV缓存。另一种正在探索的方案是通过混合键合技术,将LPU作为片上单元集成到Feynman GPU内部,但目前看来,机架级方案的可能性更大。

核心理念是,GroqLPU单元将在网络中扮演类似迈络思的角色,而这种混合架构将使英伟达在对延迟敏感的工作负载领域获得先发优势。在此次财报电话会议上,黄仁勋已经透露,受人工智能“应用层”更迅猛发展的推动,公司计算能力与营收正以1:1的比例同步增长。我们预计英伟达将在今年的GTC大会上正式公布其关于LPU的规划。


文章标签: #英伟达 #Groq #LPU #人工智能 #芯片

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。