谷歌即将推出的Ironwood TPU v7现已崭露头角,成为首款有望与英伟达(NVIDIA)Blackwell GPU一较高下的专用集成电路。这一重大事件自然引发了业界对谷歌TPU设计流程及其合作伙伴的广泛关注,其中就包括中国台湾的联发科(MediaTek)。联发科有望将其在此次合作中获得的经验,转化为其定制芯片的实际能效提升,首款受益产品便是即将推出的天玑9600系统级芯片。

Cover Image

在聚焦联发科的天玑9600之前,我们不妨先探讨一下谷歌Ironwood TPU v7为何引起如此大的轰动。以下是我们目前掌握的关于这款新TPU架构的全部信息:

它采用双芯粒设计,每个芯粒包含:

  • 1个采用脉动阵列架构的张量核心,用于高效执行矩阵乘法运算——这是人工智能工作负载(包括神经网络的训练和推理)的核心——通过大幅减少对高带宽内存的读写操作次数来实现。

  • 向量处理单元负责处理人工智能模型所必需的通用、逐元素运算,例如激活函数和归一化。

  • 矩阵乘法单元处理矩阵乘法运算。

  • 2个稀疏核心,能高效处理需要不规则、数据依赖性内存访问的用例,包括处理被称为“嵌入”的超大型数学结构——这是将大型分类特征值转换为更小、更密集的向量表示的关键步骤,在许多人工智能操作中至关重要。

  • 96 GB的高带宽内存。

两个芯粒通过芯片到芯片互连技术连接,其速度比一维片间互连链路快6倍。一个TPU机架包含64个通过片间互连技术连接的芯片,为每个芯片提供1.2 TB/s的双向片间互连带宽。这个基本的64芯片配置被称为一个“立方体”。多个立方体通过光路交换网络连接,形成一个“超级池”,包含9,216个芯片和144个立方体。

至于谷歌新款TPU的性能表现,只需查看上面的性能数据即可。正如我们最近在一篇专门文章中指出的,在推理任务方面,TPU v7 Ironwood与英伟达的GPU相比极具竞争力,而随着行业从大型基础人工智能模型转向,推理任务正变得越来越重要。事实上,即将推出的TPU拥有更低的总体拥有成本,同时提供与英伟达最新GPU近乎持平的性能。

联发科在谷歌TPU v7 Ironwood的设计中扮演了重要角色,如今正致力于提炼这些经验,以使其即将推出的天玑9600芯片能效大幅提升。

根据2025年3月流出的报告,谷歌委托联发科设计Ironwood的输入/输出模块,以促进处理器与外围设备之间的通信。这标志着谷歌近年来战略的转变,此前其新一代TPU的设计是与博通(Broadcom)紧密合作完成的。

根据瑞银(UBS)近期的估算,联发科有望从与谷歌在下一代TPU上的合作中获得40亿美元的收益。

需要注意的是,专用集成电路与天玑9600这类移动应用处理器在本质上有所不同。这意味着联发科无法将其所有经验都转化为适用于天玑9600的格式。尽管如此,该公司仍可通过以下方式进行多项迭代改进:

  • 天玑9600芯片制定更高效的电源门控策略,使应用处理器能在特定I/O模块不使用时更积极地将其关闭。

  • 改进天玑9600的电压调节,使应用处理器能消耗最有效的电压量,从而改善芯片的功耗指标。

  • 调整其现有的时钟门控策略,以提升下一代芯片的电池续航,并争取更激进的功耗预算。

当然,据报道联发科也在开发自家的人工智能芯片,其TPU经验在那里将更具相关性。尽管如此,通过实施上述调整,其移动应用处理器也能受益。这一点至关重要,因为联发科已经在其移动应用处理器架构中取消了能效核心。


文章标签: #谷歌TPU #联发科 #天玑9600 #芯片能效 #人工智能芯片

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。