英伟达(NVIDIA)计划凭借下一代费曼(Feynman)芯片主导推理计算栈,该公司可能在该架构中集成语言处理单元(LPU)。

虽然英伟达与Groq公司就LPU达成的知识产权许可协议,就其收购范围和涉及的营收数字来看,可能像是一个中等规模的发展,但实际上,英伟达意在通过LPU在推理领域取得领先地位。关于英伟达计划如何集成LPU,已有多种提议浮出水面;然而,根据GPU专家AGF的观点,LPU单元可能通过台积电(TSMC)的混合键合技术堆叠在下一代费曼 GPU上。
这位专家认为,其实现方式可能类似于超威半导体(AMD)在X3D CPU上的做法,即利用台积电的SoIC混合键合技术将3D V-Cache芯片集成到主计算芯片上。AGF认为,对于费曼 GPU而言,将SRAM作为单片集成可能并非正确之举,因为考虑到SRAM的微缩能力有限,在先进制程节点上构建它会浪费高端硅片,并急剧增加单位晶圆面积的使用成本。相反,AGF相信英伟达会将LPU单元堆叠在费曼计算芯片上。
考虑到这一点,这种方法听起来是合理的。如此一来,像A16(1.6纳米)这样的芯片将用于主费曼芯片,其中包含计算模块(张量单元、控制逻辑等),而独立的LPU芯片将包含大型SRAM存储体。此外,为了将这些芯片连接在一起,台积电的混合键合技术将被证明至关重要,因为它能够实现更宽的接口,并且与封装外存储器相比,每比特能耗更低。最重要的是,由于A16具备背面供电功能,其正面将可用于垂直SRAM连接,从而确保低延迟的解码响应。
然而,采用这种技术也存在一些担忧,即英伟达将如何管理热限制,因为在以高计算密度运行的制程上堆叠芯片本身就是一个挑战。而且,专注于持续吞吐量的LPU可能会造成瓶颈。更重要的是,采用这种方法,执行层面的影响也将急剧增大,因为LPU专注于固定的执行顺序,这当然会在确定性和灵活性之间产生冲突。
即使英伟达能够解决硬件层面的限制,主要担忧也来自于CUDA在LPU式执行环境中的行为方式,因为它需要显式的内存布局,而CUDA内核是为硬件抽象而设计的。将SRAM集成到AI架构中对英伟达来说并非易事,因为这需要一个工程奇迹来确保LPU-GPU环境得到良好优化。然而,如果英伟达想要引领推理领域,这可能是其愿意付出的代价。



