今日,谷歌云推出了由其自研Axion CPUIronwood TPU驱动的新型AI优化实例。这些新实例旨在支持大规模AI模型的训练及低延迟推理,其核心特性在于能够高效扩展AI模型,这得益于基于Ironwood的系统所支持的极大规模纵向扩展能力。

Cover Image

用于训练和推理的Ironwood TPU数量可达数百万之巨。Ironwood谷歌的第七代张量处理单元,可提供4,614 FP8 TFLOPS的性能,并配备了192 GBHBM3E内存,带宽高达7.37 TB/sIronwood计算pod可纵向扩展至9,216个AI加速器,为训练和推理提供总计42.5 FP8 ExaFLOPS的算力,这远超英伟达GB300 NVL72系统所提供的0.36 ExaFLOPS的FP8性能。该计算pod通过专有的9.6 Tb/s芯片间互联网络连接,总计搭载约1.77 PBHBM3E内存,再次超越了英伟达竞争平台所能提供的水平。

基于Axion CPUIronwood TPUIronwood计算pod可以组成包含数十万个TPU的集群,这些集群构成了谷歌恰如其分地命名为“AI超算”的一部分。这是一个集成的超级计算平台,将计算、存储和网络统一在一个管理层之下。为了提升超大规模计算pod和AI超算的可靠性,谷歌采用了其名为“光路交换”的可重构架构,该技术可即时绕过任何硬件中断,确保持续运行。

IDC数据表明,AI超算模型能为企业客户带来平均353%的三年投资回报率,同时降低28%的IT支出,并提升55%的运营效率。

已有数家公司开始采用谷歌基于Ironwood的平台。Anthropic公司计划使用多达一百万TPU来运营和扩展其Claude模型家族,理由是获得了显著的性价比提升。Lightricks公司也已开始部署Ironwood,用于训练和运行其LTX-2多模态系统。

Axion CPU:谷歌终部署自研处理器

尽管在AI计算时代,像谷歌Ironwood这样的AI加速器往往抢尽风头,但CPU对于应用逻辑、服务托管以及运行部分AI工作负载(如数据摄取)仍然至关重要。因此,与其第七代TPU一同,谷歌也部署了其首款基于Armv9架构的通用处理器,命名为Axion

谷歌尚未公布其Axion CPU完整的芯片规格:没有确认每个芯片的核心数量(除了为C4A Metal实例提供最多96个vCPU和最多768 GB的DDR5内存外),没有披露时钟频率,也没有公开该部件的工艺节点细节。我们所知道的是,Axion基于Arm Neoverse v2平台构建,旨在提供比现代x86 CPU高出50%的性能和60%的能效提升,同时性能也比“当今云上可用的最快的基于Arm的通用实例”高出30%。有报告称,该CPU每个核心提供2 MB的专用二级缓存,80 MB的三级缓存,支持DDR5-5600 MT/s内存,并为节点提供统一内存访问。

运行谷歌 Axion CPUIronwood CPU的服务器配备了该公司定制的Titanium品牌控制器,这些控制器负责处理网络、安全和I/O存储,减轻了主CPU的负担,从而实现更优的管理和更高的性能。

总体而言,Axion CPU既可以服务于AI服务器,也可以服务于处理各种任务的通用服务器。目前,谷歌提供三种Axion配置:C4AN4AC4A Metal

C4A谷歌 Axion驱动实例家族中的首个也是主要的型号,也是目前唯一正式可用的型号。它提供最多72个vCPU576 GB的DDR5内存和100 Gbps网络,并搭配高达6 TB本地容量的Titanium SSD存储。该实例针对各种应用的持续高性能进行了优化。

接下来是N4A实例,它也面向通用工作负载,如数据处理、网络服务和开发环境,但可扩展至64个vCPU512 GB的DDR5内存和50 Gbps网络,使其成为更经济实惠的选择。

另一个预览型号是C4A Metal,这是一个裸金属配置,据称可将完整的Axion硬件堆栈直接提供给客户:最多96个vCPU768 GB的DDR5内存和100 Gbps网络。该实例适用于专业化或受许可限制的应用,或Arm原生开发。

完整的自研芯片组合

这些新产品的发布建立在谷歌长达十年的自研芯片开发基础之上,该历程始于最初的TPU,并延续至YouTube的视频编码单元、Tensor移动处理器和Titanium基础设施。Axion CPU——谷歌首款基于Arm的通用服务器处理器——完善了该公司的自研芯片组合,而Ironwood TPU则为与市场上顶尖的AI加速器竞争奠定了基础。


文章标签: #谷歌云 #AxionCPU #IronwoodTPU #AI算力 #自研芯片

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。