微软推出了其最新的AI加速器——微软Azure Maia 200。这款全新的自研AI芯片是微软Maia GPU系列的新一代产品,是一款专为AI模型推理设计的服务器芯片,旨在以惊人的速度和吞吐量超越超大规模竞争对手亚马逊(Amazon)和谷歌(Google)的定制产品。

Maia 200被誉为微软有史以来部署的“最高效推理系统”,其所有新闻稿都在两方面花费笔墨:一是赞扬其出色的性能数据,二是强调微软对环境问题的口头承诺。微软声称,Maia 200的每美元性能比初代Maia 100高出30%,考虑到新芯片的技术规格上标称热设计功耗(TDP)比前代高出50%,这一成就令人印象深刻。
Maia 200基于台积电(TSMC)的3纳米工艺节点制造,内含1400亿个晶体管。微软宣称,该芯片的FP4计算性能最高可达10 PetaFLOPS,是亚马逊Trainium3竞品的三倍。Maia 200还搭载了216 GB的HBM3e内存,HBM带宽为7 TB/s,并辅以272 MB的片上SRAM。
与亚马逊的自研竞品相比,Maia 200在原始计算能力上具有明显优势,并且在与英伟达(Nvidia)的顶级GPU对比时也引发了有趣的讨论。显然,直接比较两者是徒劳的:外部客户无法直接购买Maia 200;Blackwell B300 Ultra针对的是比微软芯片功率高得多的使用场景;而英伟达的软件栈使其遥遥领先于任何同期产品。
然而,Maia 200确实在能效上击败了B300,这在公众对AI环境影响日益担忧的当下是一个重大胜利。Maia 200的TDP几乎只有B300的一半(750W对比1400W),而且如果它像Maia 100一样,其实际运行功耗将低于理论最大TDP;Maia 100原本设计为700W芯片,但微软声称其运行功耗被限制在500W。
Maia 200针对FP4和FP8性能进行了优化,专注于服务那些对FP4性能有高需求的AI模型推理客户,而非更复杂的操作。微软似乎将大量研发预算投入到了其272 MB高效SRAM存储区内的内存层次结构中,该结构被划分为“多层集群级SRAM(CSRAM)和瓦片级SRAM(TSRAM)”,旨在提高运行效率,并贯彻了智能、均匀地将工作负载分配到所有HBM和SRAM芯片上的设计理念。
很难衡量Maia 200相比其前代Maia 100的改进,因为微软官方提供的两款芯片规格表几乎没有重叠或共享的测量指标。目前我们只能说,Maia 200的运行温度会比Maia 100更高,并且其每美元性能指标显然提升了30%。
Maia 200已经部署在微软的美国中部Azure数据中心,未来还计划部署在亚利桑那州凤凰城的美国西部3区,随着微软收到更多芯片,部署范围将进一步扩大。该芯片将成为微软异构部署的一部分,与其他不同的AI加速器协同工作。
Maia 200,最初代号为Braga,因其严重延迟的开发和发布而引起了轰动。该芯片原计划于2025年发布和部署,甚至可能早于B300面世,但事与愿违。微软的下一个硬件发布尚不确定,但根据10月的报告,它很可能采用英特尔代工(Intel Foundry)的18A工艺制造。
微软围绕Maia 200强调效率优先的宣传,延续了其近期强调公司关注数据中心附近社区的趋势,旨在极力平息对AI热潮的反对声浪。微软首席执行官萨提亚·纳德拉(Satya Nadella)最近在世界经济论坛上表示,如果公司不能让公众看到AI发展和数据中心建设所谓的益处,他们可能会失去“社会许可”,并制造出令人担忧的AI泡沫。


