为了解决人工智能推理系统的高功耗问题,超大规模云服务提供商Cloudflare正在测试多款非AMD英伟达GPU架构的AI加速器。据《华尔街日报》报道,该公司近期开始测试Positron AIAtlas解决方案,该方案宣称在功耗仅为英伟达H20033%的情况下实现性能超越。

Cover Image

Positron是一家2023年成立的美国企业,专注于开发纯推理型AI加速器。与兼顾训练、推理、技术计算等多元负载的通用GPU不同,该公司的硬件从底层设计就专注于高效低耗的推理任务。其首代面向大语言模型的解决方案Atlas集成八颗Archer加速器,在显著降低功耗的同时瞄准超越英伟达Hopper架构系统的性能目标。

根据Positron AI提供的对比数据,其Atlas系统在2000瓦功耗下运行Llama 3.1 8B模型时可实现每用户每秒约280个token(BF16精度),而八路英伟达DGX H200服务器在相同场景下虽耗电高达5900瓦,却仅能输出180 token/秒/用户。若该数据属实,Atlas的能效比与性价比将达到DGX H200的三倍——当然这一结论仍需第三方验证。

值得注意的是,Positron AI台积电亚利桑那州Fab 21工厂(采用N4/N5制程)生产其ASIC芯片,并在美国本土完成板卡组装。不过由于需要集成32GB HBM显存,其封装环节可能仍需在台湾地区完成。

Atlas系统及其Archer加速器兼容Hugging Face等主流AI工具,并通过OpenAI API兼容接口提供服务,用户无需大幅修改现有工作流即可部署。该公司已累计获得7500万美元融资,其中最近一轮5160万美元由Valor Equity PartnersAtreides ManagementDFJ Growth等机构领投。

Positron AI正在研发第二代推理加速器Asimov,其八路配置的Titan系统预计2026年面世,届时将挑战基于英伟达Vera Rubin平台的推理系统。据披露,Asimov每个ASIC将配备2TB内存(放弃HBM改用新型存储技术),并具备16Tb/s外部网络带宽。八颗Asimov(共16GB内存)组成的Titan可在单机运行高达16万亿参数的模型,突破大规模生成式AI的上下文限制,同时支持多模型并行执行,打破“单GPU单模型”的传统约束。

随着AI模型规模膨胀与使用频率激增,用于推理的数据中心功耗正呈指数级增长——部分AI训练集群的耗电量已堪比中小型城市。在谷歌Meta微软等巨头纷纷自研推理加速器控制能耗的背景下,Cloudflare成为首批测试Positron AI硬件的早期采用者之一。


文章标签: #AI加速器 #推理芯片 #能效比 #Positron #Cloudflare

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。