在2025年Hot Chips大会上,谷歌进一步揭示了其代号为Ironwood的下一代TPU平台的细节及其在机架级别的扩展方式。

Cover Image

今年4月第七代TPU架构(代号Ironwood)首次亮相,据称其性能可达当今最强超级计算机的24倍。谷歌以回顾其现有TPU系统及其多年发展历程作为本次大会的开场。

回顾2022年,谷歌发布了TPU v4,单个Pod可容纳4096个芯片,配备32GB1.2TB/s带宽的HBM内存,每个芯片提供275 TFLOPs的计算能力。一年后,他们推出了TPU v5p,拥有8960个芯片95GB2.8TB/sHBM内存,以及459 TFLOPs的计算输出。而今年的Ironwood TPU Superpod将在每个Pod中集成9216个芯片,配备192GB7.4TB/sHBM内存,每个芯片的峰值算力高达4614 TFLOPs。这比TPU v4提升了超过16倍

谷歌随后深入介绍了Ironwood Superpod和最大规模集群。该系统的核心构建块是Ironwood SoC芯片。四颗这样的芯片被集成在Ironwood PCBA主板上,然后部署在一个Ironwood TPU机架内。一个Ironwood TPU机架像托盘一样总共堆叠了16块这样的PCBA主板,从而构成一个64芯片的解决方案。

接下来是互联解决方案。谷歌采用了其芯片间互联技术(ICI),这是一种纵向扩展网络。该网络使他们能够将43个(每个块包含64个芯片)Superpod块通过一个1.8 PB的网络连接起来。内部通信则通过一系列网卡NICs)处理。

基于此,谷歌在一个超级Pod中提供了一套机架解决方案。首先是Ironwood Superpod,包含144个机架;其次是光交换机架,用于实现跨多个块的纵向扩展ICI;最后是CBU(冷却液分配单元)机架,用于分配冷却液。

就机架本身而言,谷歌在其TPU中采用3D Torus布局已至少三代。每个逻辑构建块由一个4x4x43D网络组成,即64个芯片或节点,它们被打包进一个单独的机架中。

互联采用了更混合的方法,结合了PCB走线、连接到电缆的铜无源链路,以及通过垫板面板连接到光交换系统OCS)的光链路或光纤。这使得单元非常灵活。

在机架顶部是一个上层滴漏盘,用于检测任何液体壁歧管泄漏器正下方是供电系统,它包括两个电源域,接收416伏交流电并通过整流器将其转换为直流电。整个单元采用液冷设计,满载系统单次运行可支持超过100kW的功耗。以上就是有关Ironwood TPU讨论的主要内容。


文章标签: #谷歌 #Ironwood #TPU #超级计算机 #AI芯片

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。