华为Hot Chips 2025大会上推出了UB-Mesh技术,旨在通过单一协议统一人工智能数据中心内外的所有互联——无论是节点内部还是节点之间。该公司还表示,将在下个月的活动中宣布向所有用户免费开放该协议。这项技术意图用单一协议取代PCIe、CXL、NVLinkTCP/IP协议,以降低吉瓦级数据中心的延迟、控制成本并提高可靠性。为推进这一计划,华为计划将技术规范开源。但它能获得业界支持吗?

Cover Image

“下个月我们将举行会议,宣布UB-Mesh协议将像免费许可证一样向所有人公开披露,”华为旗下处理器公司海思的首席科学家廖恒表示。“这是一项非常新的技术;我们看到不同阵营都在推进竞争性的标准化工作。……根据实际系统部署的成功程度以及合作伙伴和客户的需求,我们可以探讨将其转化为某种标准。”

从集群到超级节点

虽然用于训练和推理的人工智能数据中心应该像一个大型固有并行处理器那样运行,但它们由独立的机架、服务器、CPU、GPU、内存、SSD、网卡和交换机等组件组成,这些组件使用不同的总线和协议相互连接,例如UPI、PCIe、CXL、RoCE、NVLink、UALink、TCP/IP以及即将推出的超以太网等。协议转换需要消耗电力,增加延迟和成本,并引入潜在的故障点,所有这些因素在拥有数百万处理器的吉瓦级数据中心中可能造成灾难性影响。

与其应对大量链路和协议,华为提出了名为UB-Mesh的统一框架,使任何端口无需转换即可与其他端口通信。这种简洁性消除了转换延迟,简化了设计,并在需要时保留了通过以太网操作的空间,实质上将整个数据中心转换为由UB-Mesh连接的连贯超级节点。

华为将超级节点定义为数据中心规模的人工智能架构,将多达100万个处理器(无论是CPU、GPU还是NPU)、池化内存、SSD、网卡和交换机统一为一个系统,每芯片带宽从100 Gbps提升至10 Tbps(1.25 TB/s,甚至超过PCIe 8.0的预期提供能力),跳跃延迟从微秒级降低至约150纳秒,整体设计从异步DMA转向同步加载/存储语义。

这种结构旨在降低延迟,允许所有高速SERDES连接被灵活重用,甚至支持通过以太网操作以保持向后兼容性。

新的技术挑战

然而,华为承认在数据中心范围内扩展这一概念带来了新的挑战,特别是从铜缆(仍在机架内部使用)转向可插拔光链路。光纤对于长距离传输是不可避免的,但误码率远高于电气连接。为管理这一问题,华为提出了链路级重试机制、光模块内的备份通道以及将控制器连接到多个模块的交叉设计。这些措施旨在确保即使单个链路或模块发生故障也能持续运行,尽管这显然会增加成本。

UB-Mesh中的网络拓扑是混合式的。在顶层,CLOS结构将大厅中的机架连接在一起。在此之下,多维网格将每个机架内的数十个节点连接起来。这种混合模型旨在避免系统扩展到数万或数十万个节点时传统设计带来的失控成本。

此外,必须在单个链路之外实现可靠性。华为概述了一种系统模型,其中热备份机架在另一个机架发生故障时自动接管。然后故障机架被修复并轮换回系统以保持可用性。据华为称,这种设计将平均故障间隔时间提高了数个数量级,这是百万芯片系统所需的改进规模。

降低成本

根据华为的数据,从成本角度来看差异显著。传统互连的成本随着节点数量的增加呈线性增长,这意味着它们最终可能超过人工智能加速器(如英伟达H100B200)本身的价格。相比之下,UB-Mesh以次线性方式扩展,增加容量而不会成比例增加成本。华为甚至指出了一个结合CLOS二维网格元素的实用8192节点系统作为可行性的证明。

战略意义

通过UB-Mesh和超级节点,华为提供了一种系统级架构,旨在支持国内外大规模人工智能集群。如果这些技术取得成功,华为将减少(或更确切地说停止)在其下一代数据中心内部对PCIe、NVLink、UALink甚至TCP/IP等西方标准的依赖。华为并非在CPU、GPU甚至机架级解决方案上与AMD、英特尔英伟达竞争,而是试图构建数据中心级的产品。

但问题在于,除了华为之外,这项倡议是否会被其他公司采纳,因为该公司的客户是否会有兴趣从单一供应商获取数据中心基础设施还有待观察。为此,华为正在向世界开放UB-Mesh链路协议以供评估。如果华为自身的部署取得成功并且第三方有足够的兴趣,那么它可以将UB-Mesh转化为标准,甚至可能将超级节点架构本身标准化。

然而,业界是否感兴趣仍有待观察。英伟达在机架内部依赖自家的NVLink连接,在数据中心范围内使用以太网或InfiniBand。其他公司如AMD、博通英特尔正在推动UALink用于机柜间通信,以及超以太网用于数据中心范围的连接。这两种技术都已标准化并得到众多公司的支持,从而实现了灵活性并降低了成本。


文章标签: #华为 #数据中心 #互联技术 #开源 #人工智能

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。