谷歌即将推出的Ironwood TPU v7现已崭露头角,成为首款有望与英伟达(NVIDIA)的Blackwell GPU一较高下的专用集成电路。这一重大事件自然引发了业界对谷歌TPU设计流程及其合作伙伴的广泛关注,其中就包括中国台湾的联发科(MediaTek)。联发科有望将其在此次合作中获得的经验,转化为其定制芯片的实际能效提升,首款受益产品便是即将推出的天玑9600系统级芯片。

在聚焦联发科的天玑9600之前,我们不妨先探讨一下谷歌Ironwood TPU v7为何引起如此大的轰动。以下是我们目前掌握的关于这款新TPU架构的全部信息:
它采用双芯粒设计,每个芯粒包含:
1个采用脉动阵列架构的张量核心,用于高效执行矩阵乘法运算——这是人工智能工作负载(包括神经网络的训练和推理)的核心——通过大幅减少对高带宽内存的读写操作次数来实现。
向量处理单元负责处理人工智能模型所必需的通用、逐元素运算,例如激活函数和归一化。
矩阵乘法单元处理矩阵乘法运算。
2个稀疏核心,能高效处理需要不规则、数据依赖性内存访问的用例,包括处理被称为“嵌入”的超大型数学结构——这是将大型分类特征值转换为更小、更密集的向量表示的关键步骤,在许多人工智能操作中至关重要。
96 GB的高带宽内存。
两个芯粒通过芯片到芯片互连技术连接,其速度比一维片间互连链路快6倍。一个TPU机架包含64个通过片间互连技术连接的芯片,为每个芯片提供1.2 TB/s的双向片间互连带宽。这个基本的64芯片配置被称为一个“立方体”。多个立方体通过光路交换网络连接,形成一个“超级池”,包含9,216个芯片和144个立方体。
至于谷歌新款TPU的性能表现,只需查看上面的性能数据即可。正如我们最近在一篇专门文章中指出的,在推理任务方面,TPU v7 Ironwood与英伟达的GPU相比极具竞争力,而随着行业从大型基础人工智能模型转向,推理任务正变得越来越重要。事实上,即将推出的TPU拥有更低的总体拥有成本,同时提供与英伟达最新GPU近乎持平的性能。
联发科在谷歌TPU v7 Ironwood的设计中扮演了重要角色,如今正致力于提炼这些经验,以使其即将推出的天玑9600芯片能效大幅提升。
根据2025年3月流出的报告,谷歌委托联发科设计Ironwood的输入/输出模块,以促进处理器与外围设备之间的通信。这标志着谷歌近年来战略的转变,此前其新一代TPU的设计是与博通(Broadcom)紧密合作完成的。
根据瑞银(UBS)近期的估算,联发科有望从与谷歌在下一代TPU上的合作中获得40亿美元的收益。
需要注意的是,专用集成电路与天玑9600这类移动应用处理器在本质上有所不同。这意味着联发科无法将其所有经验都转化为适用于天玑9600的格式。尽管如此,该公司仍可通过以下方式进行多项迭代改进:
为天玑9600芯片制定更高效的电源门控策略,使应用处理器能在特定I/O模块不使用时更积极地将其关闭。
改进天玑9600的电压调节,使应用处理器能消耗最有效的电压量,从而改善芯片的功耗指标。
调整其现有的时钟门控策略,以提升下一代芯片的电池续航,并争取更激进的功耗预算。
当然,据报道联发科也在开发自家的人工智能芯片,其TPU经验在那里将更具相关性。尽管如此,通过实施上述调整,其移动应用处理器也能受益。这一点至关重要,因为联发科已经在其移动应用处理器架构中取消了能效核心。



