FuriosaAI与博通(Broadcom)合作,共同打造一款采用下一代HBM4/E内存的高性能AI加速器芯片。FuriosaAI的下一代AI加速器采用2nm小芯片(chiplet)架构并支持HBM4/E内存,专为大规模AI计算集群而设计。

FuriosaAI发布了其第三代AI加速器。该产品基于其第二代RNGD平台,后者目前已在台积电(TSMC)的5nm工艺上投入量产。第二代RNGD AI平台采用180W、基于PCIe的板卡设计,主要面向大语言模型(LLM)和Agentic AI工作负载。随着Agentic AI需求持续旺盛,下一代设计将全力聚焦AI推理领域。
FuriosaAI的第三代AI加速器亮点如下:
该平台将2nm计算技术与HBM4/4E内存相结合,旨在为大规模AI计算集群提供高带宽、机架级的网络互联能力。
其架构针对高要求的推理工作负载进行了优化,专注于高带宽数据移动,能在每瓦性能和词元(token)密度方面超越最高效的GPU。
该平台建立在FuriosaAI当前一代已进入量产阶段的RNGD芯片基础之上。其客户包括三星SDS(Samsung SDS)和LG AI研究院(LG AI Research)。
从FuriosaAI分享的一些细节来看,该芯片平台将采用先进的2nm计算芯片和HBM4/E内存标准。该公司正与博通(Broadcom)合作,利用先进的封装能力,将多个硅芯片整合到一个高性能的AI芯片(片上系统)中。
在预告图中,该公司展示了第三代AI芯片,它拥有12个HBM4/E内存位点、两个大型2nm计算小芯片以及两个IO控制器。如果使用12层堆叠、每堆栈36GB的内存模块,总容量将达到432GB。
除了计算架构,FuriosaAI还将利用博通(Broadcom)的以太网(Ethernet)和PCIe IP,从而在大规模AI计算集群中实现更高带宽的机架级网络互联。该AI芯片针对训练后采样等要求严苛的真实世界AI工作负载进行了优化,高带宽是关键重点,因此公司选择了最新的HBM4/E标准。
该公司声称,其专注于带宽而非GPU所需的线程管理,将使其比现代GPU设计提供更高的效率和更高的词元吞吐量。此外,该公司表示,其软件栈能让开发者快速部署新的AI模型,同时满足吞吐量和延迟要求。
FuriosaAI的SDK利用一个通用编译器,自动将高层级的PyTorch代码映射到芯片硬件上。对于需要更细粒度控制的开发者,FuriosaAI的虚拟ISA提供了一种声明式编程模型,能在没有传统GPU编程非确定性复杂性的情况下实现硬件控制。
“将博通(Broadcom)的基础设施能力与FuriosaAI的张量收缩处理器(Tensor Contraction Processor)架构及其行业定义的软件栈相结合,使我们能够超越芯片级别,为‘词元工厂’时代提供一个全面的解决方案,”FuriosaAI联合创始人兼首席执行官June Paik表示。
在供货方面,第三代FuriosaAI加速器预计将在2028年上半年开始送样,并有望满足下一代AI数据中心的计算需求。



