美国人工智能公司Tensordyne宣布,其Napier芯片已成功流片,该公司声称,该芯片在词元吞吐量和能效方面将彻底击败英伟达(NVIDIA)的Blackwell和Rubin芯片。

Tensordyne的新款Napier AI芯片横空出世,肩负一个明确的使命:让英伟达的Blackwell和Rubin芯片黯然失色。Napier芯片将是Tensordyne Napier TDN系统的核心组件,该系统是与博通(Broadcom)和慧与(HPE)及瞻博网络(Juniper Networks)合作设计的。Napier平台只有一个目标:通过新颖的对数AI数学运算、紧密集成的内存架构以及高性能的纵向扩展互连,在低功耗下实现更高的词元吞吐量,从而统一AI领域。
Napier采用台积电(TSMC)的3nm工艺制造,随着流片成功,该芯片现已投入生产。在达成这一关键里程碑后,Tensordyne正朝着测试部署和更广泛的基础设施规划迈进,该规划代表着超过2亿美元的预计Napier系统需求,而核心关注领域便是AI推理。
该芯片拥有1380亿个晶体管,配备144 GB的HBM3E内存、256 MB的SRAM,并使用密集FP8格式,提供高达2.1 PFLOPs的峰值AI算力。其热设计功耗为300W。
我们刚谈到当前AI基础设施如何受到功耗的限制,但要解决这些限制,像800V直流这样的方案会产生巨大的部署成本。仅电力和冷却等基础设施就占据了大型AI部署成本的50%。为了解决这些问题,Tensordyne在数学运算、计算、内存和网络方面提出了一套全新的推理技术栈:
TDN数学运算(Logarithmic Mathematics):TDN用简化的加法运算取代了大规摸乘法运算,在前沿AI模型上显著提升了每瓦性能效率。
TDN人工智能处理器(Artificial Intelligence Processor):每个TDN处理器将大容量快速SRAM与HBM内存紧密结合,最大限度地减少计算周期的空闲,支持高效运行业界最大的模型。
TDN链接(Any-to-Any Scale-Up Interconnect):Tensordyne专有的纵向扩展架构提供了处理器间亚微秒级的通信延迟,最大限度地提高了计算利用率,并减少了互连瓶颈。
所有这些技术都集成在Tensordyne的TDN72推理吊舱和机架系统中。每个吊舱配备了72块Napier AI芯片,类似于英伟达的NVL72机架(每个配备72块Blackwell或Rubin GPU)。它所需的基础设施容量要小得多,而一个Napier机架组合了多个TDN72吊舱,可提供:
每瓦词元数比英伟达Blackwell高出17倍
每秒词元数比英伟达Blackwell高出13倍
每个机架每年最多可增加3300万美元的营收
72芯片Napier服务器将提供10 TB的HBM容量,并能在FP4精度下维持高达10万亿参数的模型。完全采用风冷散热的机架将总共包含288块芯片(每个服务器72块),提供608 PFLOPs的FP8算力、74 GB的SRAM、42 TB的HBM3e内存,额定功率为120kW。
Tensordyne的对比不止于此;他们还将Napier方案与英伟达即将推出的Rubin平台进行了比较。该公司声称,其平台在单机架配置下,每个用户可支持数万亿参数模型,并达到1000 词元/秒的吞吐量。要实现同样的性能,英伟达需要九个Rubin加Groq的LPX机架。
Tensordyne的Napier平台代表了AI推理领域一次大胆的飞跃。通过提供比英伟达Blackwell高出17倍的每瓦词元数和13倍的吞吐量,同时在单个紧凑的占地面积内匹敌九个Rubin机架的性能,它打破了传统速度与成本、功耗与性能之间的权衡取舍。凭借大幅降低的基础设施需求、每个机架每年高达3300万美元的额外营收,以及为数万亿参数模型提供的高效扩展能力,Napier不仅与英伟达的Blackwell和Rubin竞争;它重新定义了下代AI部署的可能性。



