一家台湾公司宣布推出新型PCIe AI加速卡,仅需240W功耗即可在本地运行7000亿参数的大语言模型,终结了对大型GPU集群的需求。

Skymizer(斯凯迈泽)是一家专注于AI软件与硬件的台湾公司,现已发布全新解决方案HTX301HTX301专为本地化AI部署设计,采用PCIe扩展卡形态,在低于250W热设计功耗下提供大规模AI性能。

Skymizer-HTX301-PCIe-AI-Accelerator-Card-1.jpeg

该加速卡的部分亮点包括:

  • 在单张PCIe卡上运行7000亿参数模型推理

  • 专为解码加速而构建,配合统一的预填充/解码编排

  • 本地化AI,具备数据主权、确定性延迟和固定基础设施成本

该公司表示,HTX301 PCIe AI加速器是其首款基于HyperThought(超思维)平台的推理芯片,采用了下一代LPU(语言处理单元)IP。该平台专为大语言模型优化,兼顾性能与能效。

HTX301外观类似标准PCIe卡,采用单芯片设计,内存分布在芯片周围。公司解释称,每张卡将搭载六颗HTX301芯片,尽管基于较老的28纳米制程,但依然能实现出色性能——例如在0.5 TOPS算力、100 GB/s带宽下即可达到30 tokens/秒。LPU还具备高度可扩展性,衍生出多种设计选项。

八核LPULlama2 7B(羊驼2 70亿参数版)预填充阶段可实现240 tokens/秒,公司可将多颗芯片互联,在同一大语言模型上达到1200 tokens/秒,并额外支持高达7000亿参数的模型。

该PCIe卡还配备最高384 GB内存,采用标准LPDDR4LPDDR5 DRAM,而非高端的LP5X、HBM或GDDR6/7。该设计针对较低参数数量和较低DRAM带宽需求进行优化。SkymizerHTX301架构还采用了高效的压缩技术,例如:

  • 权重(长期记忆)压缩性能优于开源llama.cpp(羊驼CPP)9%到17.8%

  • KV缓存(短期记忆)压缩的困惑度损失极小(0.06%到3.52%以下)

功耗表现同样亮眼:芯片功耗仅为240W,不到主流PCIe AI加速器(如NVIDIA RTX PRO 6000 Blackwell(英伟达RTX PRO 6000布莱克韦尔)和AMD Instinct MI350P(AMD instinct MI350P)的600W)的一半。

Skymizer宣称的数字相当惊人,并将在今年台北国际电脑展上预展HTX301,届时我们一定会前往展台验证这些说法是否属实。整体而言,这听起来是一款令人印象深刻的AI解决方案(至少在纸面上如此),应能促使入门级企业坚持使用本地服务器,而非为AI需求投资云服务。


文章标签: #AI加速器 #PCIe #大语言模型 #低功耗 #台湾科技

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。