FuriosaAI携手博通打造2nm AI加速器，HBM4/E内存超越高效GPU

FuriosaAI与博通（Broadcom）合作，共同打造一款采用下一代HBM4/E内存的高性能AI加速器芯片。FuriosaAI的下一代AI加速器采用2nm小芯片（chiplet）架构并支持HBM4/E内存，专为大规模AI计算集群而设计。

FuriosaAI发布了其第三代AI加速器。该产品基于其第二代RNGD平台，后者目前已在台积电（TSMC）的5nm工艺上投入量产。第二代RNGD AI平台采用180W、基于PCIe的板卡设计，主要面向大语言模型（LLM）和Agentic AI工作负载。随着Agentic AI需求持续旺盛，下一代设计将全力聚焦AI推理领域。

FuriosaAI的第三代AI加速器亮点如下：

该平台将2nm计算技术与HBM4/4E内存相结合，旨在为大规模AI计算集群提供高带宽、机架级的网络互联能力。

其架构针对高要求的推理工作负载进行了优化，专注于高带宽数据移动，能在每瓦性能和词元（token）密度方面超越最高效的GPU。

该平台建立在FuriosaAI当前一代已进入量产阶段的RNGD芯片基础之上。其客户包括三星SDS（Samsung SDS）和LG AI研究院（LG AI Research）。

从FuriosaAI分享的一些细节来看，该芯片平台将采用先进的2nm计算芯片和HBM4/E内存标准。该公司正与博通（Broadcom）合作，利用先进的封装能力，将多个硅芯片整合到一个高性能的AI芯片（片上系统）中。

在预告图中，该公司展示了第三代AI芯片，它拥有12个HBM4/E内存位点、两个大型2nm计算小芯片以及两个IO控制器。如果使用12层堆叠、每堆栈36GB的内存模块，总容量将达到432GB。

除了计算架构，FuriosaAI还将利用博通（Broadcom）的以太网（Ethernet）和PCIe IP，从而在大规模AI计算集群中实现更高带宽的机架级网络互联。该AI芯片针对训练后采样等要求严苛的真实世界AI工作负载进行了优化，高带宽是关键重点，因此公司选择了最新的HBM4/E标准。

该公司声称，其专注于带宽而非GPU所需的线程管理，将使其比现代GPU设计提供更高的效率和更高的词元吞吐量。此外，该公司表示，其软件栈能让开发者快速部署新的AI模型，同时满足吞吐量和延迟要求。

FuriosaAI的SDK利用一个通用编译器，自动将高层级的PyTorch代码映射到芯片硬件上。对于需要更细粒度控制的开发者，FuriosaAI的虚拟ISA提供了一种声明式编程模型，能在没有传统GPU编程非确定性复杂性的情况下实现硬件控制。

“将博通（Broadcom）的基础设施能力与FuriosaAI的张量收缩处理器（Tensor Contraction Processor）架构及其行业定义的软件栈相结合，使我们能够超越芯片级别，为‘词元工厂’时代提供一个全面的解决方案，”FuriosaAI联合创始人兼首席执行官June Paik表示。

在供货方面，第三代FuriosaAI加速器预计将在2028年上半年开始送样，并有望满足下一代AI数据中心的计算需求。

搜索结果如下

阅读全文

FuriosaAI携手博通打造2nm AI加速器，HBM4/E内存超越高效GPU

也可以看看

DRAM短缺延续，DDR4内存从PC到服务器全面回春

阅读全文

泰特斯·韦利弗新剧《西区帮派》上演反英雄，与《博斯》截然不同

阅读全文

《终极名单》第二季重磅回归，演员阵容更胜《侠探杰克》

阅读全文