Meta的定制芯片计划并未止步,根据公司的最新公告,他们似乎已“加倍投入”专用集成电路(ASIC)的研发,专注于推理级性能。Meta的芯粒模块化设计使其能在短短两年内推出四代新产品。

对算力的需求已变得如此巨大,以至于超大规模服务商最终“被迫”寻求多元化,不再局限于像英伟达(NVIDIA)这样的GPU制造商提供的传统方案,而开发定制芯片便是途径之一。谷歌(Google)和亚马逊(Amazon)是两个较为突出的例子,展示了为内部工作负载优化的ASIC努力能带来多么“丰硕”的成果,而Meta似乎正在追随他们的脚步。在最新的博客文章中,Meta透露其MTIA路线图正按计划推进,有趣的是,其更新节奏堪称业内最激进之一。
Meta声称,计划在未来两年内在MTIA系列下部署“四款”新芯片,每款芯片针对特定工作负载,从训练到生成式人工智能推理。从MTIA 300开始,这款芯片主要面向排序和推荐工作负载,因此其横向扩展网络带宽为200 GB/s。该芯片本身包含一个计算芯粒和两个网络芯粒,以及多个总容量为216 GB、带宽达6.12 TB/s的高带宽内存堆栈。这家超大规模服务商声称,MTIA 300为更先进的MTIA 400奠定了基础,后者的竞争力要强得多。
在MTIA 400上,其FP8浮点运算性能比上一代高出400%,高带宽内存带宽高出51%,因为Meta在此的重点是原始性能。MTIA 400拥有一个通过交换背板连接的72芯片纵向扩展配置。这一代芯片已接近部署阶段,表明该超大规模服务商对其“具有竞争力”的性能感到满意。更有趣的选择是MTIA 450和MTIA 500,它们通过专注于高带宽内存容量和带宽,直接瞄准推理需求。
Meta表示,计划通过保持高速的产品更新节奏来与“市售”方案竞争,以跟上不断演进的算力需求。这种快节奏周期之所以可能,是因为Meta通过每代产品更换单个芯粒来管理芯粒模块化,确保无需彻底改造整个基础设施。同时,通过MTIA 450和500,这家超大规模服务商采用了推理优先的方法,使其自身产品与标准GPU所提供的功能区分开来。
Meta近期与英伟达(NVIDIA)的最新交易以及相关报道曾暗示其可能放弃定制芯片努力,但看来该公司对其工程能力充满信心,因此采取了相当“激进”的策略。上述讨论的所有世代芯片都将在2026年或2027年前部署,以帮助该超大规模服务商克服算力瓶颈。



