Tenstorrent 在 TT-Deploy 直播中放出豪言,称其 Galaxy 服务器将在包括人工智能在内的所有领域击败所有对手。
Tenstorrent 的 Galaxy 超级集群在生成式 AI 视频方面速度提升 10 倍,并通过“Blitz 模式”碾压当前一代 GPU,在 DeepSeek R1 上实现超过 350 词元/秒的吞吐量。

吉姆·凯勒(Jim Keller)和他的 Tenstorrent 正致力于用其基于 RISC-V 的平台挑战现有 AI 格局。为此,该公司发布了最新的 Galaxy Blackhole 服务器,用于大规模 AI 计算。借助 Galaxy Blackhole,Tenstorrent 提供了完全网络化的原生 AI 解决方案,集计算、内存和网络于一体,统一为针对最新 AI 工作负载优化的单一系统。
Galaxy 服务器内部的芯片名为 Blackhole,基于 RISC-V 架构,与 ARM 和 x86 竞争。在活动中,吉姆·凯勒(Jim Keller)表示 A0 芯片已出货,但他们正在解决一些软件漏洞。为了展示 Galaxy Blackhole 超级集群的性能,Tenstorrent 在 TT-Deploy 直播中进行了多项演示。
首先来看 Tenstorrent 设定的规格。驱动 Blackhole 芯片的张量核心名为 Tensix,包含五个 RISC 处理器,配备矩阵乘法单元、矢量单元和本地 SRAM。每个 RISC 处理器完全可编程,每个核心连接到高带宽 NOC。多个这样的 Tensix 张量核心组合在一起构成芯片。
Tenstorrent 解释称,虽然竞品 GPU 如 英伟达(NVIDIA) 的 GB300 通过降低用户数来实现更高的词元吞吐量,但 Tenstorrent 的 Galaxy 服务器并非如此,它能保持更低的词元成本(6 美元 vs 约 30 美元),并为使用这些服务器的企业实现更低的总体拥有成本。
我们上周也提到过,Tenstorrent 已正式展示其 Galaxy 超级集群在视频生成式 AI 性能上最高提升 10 倍。该系统能够在 2.4 秒内生成一段 81 帧(720p)的视频,即 2.4 秒生成 5 秒视频,速度快于实时。
除了生成式 AI 演示,Tenstorrent 还展示了 Galaxy Blackhole 服务器的“Blitz 模式”。Galaxy 上的 Blitz 模式针对高价值、延迟敏感的 AI 工作负载进行了优化。在此模式下,Galaxy 服务器在 DeepSeek R1-0528 671B 上可实现高达 350 词元/秒的吞吐量,远超 GPU 竞品。演示的两项基准测试如下:
解码(Decode):DeepSeek-R1-0528 671B 每用户每秒最高 350 以上词元,在性能和容量上均超越 Groq 和 Cerebras 最快的推理系统,支持批大小 8 至 64 以及最高 128K 上下文(运行在 16 台 Galaxy 服务器上)。
预填充(Prefill):DeepSeek-R1-0528 671B 在 10 万上下文条件下首次词元生成时间低于 4 秒,运行在相同的通用 AI Tenstorrent Galaxy 超级集群上。
在定价和供货方面,Tenstorrent Galaxy Blackhole 服务器将以风冷机架配置提供,配备下一代 Blackhole 芯片和完全开源软件栈,起价为 110,000 美元。该系统通过 32 颗 Blackhole 芯片提供 23 PFLOPs 的 FP8 算力,6.2 GB 片上 SRAM(带宽 2.9 PB/s),1 TB DRAM(带宽 16 TB/s),以及 56 个 800G 以太网端口,扩展带宽最高达 11.2 GB/s。
客户还可以购买由 4 至 36 台 Galaxy 服务器组成的超级集群配置。其中,基本配置含 4 台 Galaxy 服务器,起价为 440,000 美元。



