FuriosaAI博通(Broadcom)合作,共同打造一款采用下一代HBM4/E内存的高性能AI加速器芯片。FuriosaAI的下一代AI加速器采用2nm小芯片(chiplet)架构并支持HBM4/E内存,专为大规模AI计算集群而设计。

Furiosa-x-Broadcom-Gen3-Image.jpeg

FuriosaAI发布了其第三代AI加速器。该产品基于其第二代RNGD平台,后者目前已在台积电(TSMC)5nm工艺上投入量产。第二代RNGD AI平台采用180W、基于PCIe的板卡设计,主要面向大语言模型(LLM)和Agentic AI工作负载。随着Agentic AI需求持续旺盛,下一代设计将全力聚焦AI推理领域。

FuriosaAI的第三代AI加速器亮点如下:

该平台将2nm计算技术与HBM4/4E内存相结合,旨在为大规模AI计算集群提供高带宽、机架级的网络互联能力。

其架构针对高要求的推理工作负载进行了优化,专注于高带宽数据移动,能在每瓦性能和词元(token)密度方面超越最高效的GPU。

该平台建立在FuriosaAI当前一代已进入量产阶段的RNGD芯片基础之上。其客户包括三星SDS(Samsung SDS)LG AI研究院(LG AI Research)

FuriosaAI分享的一些细节来看,该芯片平台将采用先进的2nm计算芯片和HBM4/E内存标准。该公司正与博通(Broadcom)合作,利用先进的封装能力,将多个硅芯片整合到一个高性能的AI芯片(片上系统)中。

在预告图中,该公司展示了第三代AI芯片,它拥有12个HBM4/E内存位点、两个大型2nm计算小芯片以及两个IO控制器。如果使用12层堆叠、每堆栈36GB的内存模块,总容量将达到432GB

除了计算架构,FuriosaAI还将利用博通(Broadcom)的以太网(Ethernet)和PCIe IP,从而在大规模AI计算集群中实现更高带宽的机架级网络互联。该AI芯片针对训练后采样等要求严苛的真实世界AI工作负载进行了优化,高带宽是关键重点,因此公司选择了最新的HBM4/E标准。

该公司声称,其专注于带宽而非GPU所需的线程管理,将使其比现代GPU设计提供更高的效率和更高的词元吞吐量。此外,该公司表示,其软件栈能让开发者快速部署新的AI模型,同时满足吞吐量和延迟要求。

FuriosaAI的SDK利用一个通用编译器,自动将高层级的PyTorch代码映射到芯片硬件上。对于需要更细粒度控制的开发者,FuriosaAI的虚拟ISA提供了一种声明式编程模型,能在没有传统GPU编程非确定性复杂性的情况下实现硬件控制。

“将博通(Broadcom)的基础设施能力与FuriosaAI的张量收缩处理器(Tensor Contraction Processor)架构及其行业定义的软件栈相结合,使我们能够超越芯片级别,为‘词元工厂’时代提供一个全面的解决方案,”FuriosaAI联合创始人兼首席执行官June Paik表示。

在供货方面,第三代FuriosaAI加速器预计将在2028年上半年开始送样,并有望满足下一代AI数据中心的计算需求。


文章标签: #AI加速器 #nm芯片 #HBME #推理优化 #博通合作

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。