Tensordyne Napier芯片挑战英伟达，3nm工艺带来17倍能效提升

美国人工智能公司Tensordyne宣布，其Napier芯片已成功流片，该公司声称，该芯片在词元吞吐量和能效方面将彻底击败英伟达（NVIDIA）的Blackwell和Rubin芯片。

tensordyne-3nm-napier-ai-chip-claims-13x-token-throughput-over-blackwell.jpeg

Tensordyne的新款Napier AI芯片横空出世，肩负一个明确的使命：让英伟达的Blackwell和Rubin芯片黯然失色。Napier芯片将是Tensordyne Napier TDN系统的核心组件，该系统是与博通（Broadcom）和慧与（HPE）及瞻博网络（Juniper Networks）合作设计的。Napier平台只有一个目标：通过新颖的对数AI数学运算、紧密集成的内存架构以及高性能的纵向扩展互连，在低功耗下实现更高的词元吞吐量，从而统一AI领域。

Napier采用台积电（TSMC）的3nm工艺制造，随着流片成功，该芯片现已投入生产。在达成这一关键里程碑后，Tensordyne正朝着测试部署和更广泛的基础设施规划迈进，该规划代表着超过2亿美元的预计Napier系统需求，而核心关注领域便是AI推理。

该芯片拥有1380亿个晶体管，配备144 GB的HBM3E内存、256 MB的SRAM，并使用密集FP8格式，提供高达2.1 PFLOPs的峰值AI算力。其热设计功耗为300W。

我们刚谈到当前AI基础设施如何受到功耗的限制，但要解决这些限制，像800V直流这样的方案会产生巨大的部署成本。仅电力和冷却等基础设施就占据了大型AI部署成本的50%。为了解决这些问题，Tensordyne在数学运算、计算、内存和网络方面提出了一套全新的推理技术栈：

TDN数学运算（Logarithmic Mathematics）：TDN用简化的加法运算取代了大规摸乘法运算，在前沿AI模型上显著提升了每瓦性能效率。
TDN人工智能处理器（Artificial Intelligence Processor）：每个TDN处理器将大容量快速SRAM与HBM内存紧密结合，最大限度地减少计算周期的空闲，支持高效运行业界最大的模型。
TDN链接（Any-to-Any Scale-Up Interconnect）：Tensordyne专有的纵向扩展架构提供了处理器间亚微秒级的通信延迟，最大限度地提高了计算利用率，并减少了互连瓶颈。

所有这些技术都集成在Tensordyne的TDN72推理吊舱和机架系统中。每个吊舱配备了72块Napier AI芯片，类似于英伟达的NVL72机架（每个配备72块Blackwell或Rubin GPU）。它所需的基础设施容量要小得多，而一个Napier机架组合了多个TDN72吊舱，可提供：

每瓦词元数比英伟达Blackwell高出17倍
每秒词元数比英伟达Blackwell高出13倍
每个机架每年最多可增加3300万美元的营收

72芯片Napier服务器将提供10 TB的HBM容量，并能在FP4精度下维持高达10万亿参数的模型。完全采用风冷散热的机架将总共包含288块芯片（每个服务器72块），提供608 PFLOPs的FP8算力、74 GB的SRAM、42 TB的HBM3e内存，额定功率为120kW。

Tensordyne的对比不止于此；他们还将Napier方案与英伟达即将推出的Rubin平台进行了比较。该公司声称，其平台在单机架配置下，每个用户可支持数万亿参数模型，并达到1000 词元/秒的吞吐量。要实现同样的性能，英伟达需要九个Rubin加Groq的LPX机架。

Tensordyne的Napier平台代表了AI推理领域一次大胆的飞跃。通过提供比英伟达Blackwell高出17倍的每瓦词元数和13倍的吞吐量，同时在单个紧凑的占地面积内匹敌九个Rubin机架的性能，它打破了传统速度与成本、功耗与性能之间的权衡取舍。凭借大幅降低的基础设施需求、每个机架每年高达3300万美元的额外营收，以及为数万亿参数模型提供的高效扩展能力，Napier不仅与英伟达的Blackwell和Rubin竞争；它重新定义了下代AI部署的可能性。

搜索结果如下

阅读全文

Tensordyne Napier芯片挑战英伟达，3nm工艺带来17倍能效提升

也可以看看

《爱达荷州一夜》第二季回归，深入探索大学谋杀案凶手动机

阅读全文

杰森·斯坦森《银行劫案》免费上线Plex，这部2008年犯罪经典不容错过

阅读全文

克里斯·埃文斯确认回归《复仇者联盟6》，美国队长或将在秘密战争中牺牲

阅读全文