英伟达(NVIDIA)率先推出基于硅光子学共封装光学的解决方案,并将其交付给Lambda AI。随着人工智能公司Lambda AI为其中一台首批英伟达(NVIDIA)Quantum-X InfiniBand平台完成拆箱,硅光子学与共封装光学(Co-Packaged Optics, CPO)的时代已经到来。网络已成为AI工厂的重要组成部分,能够以前所未有的速度实现互连。这些解决方案确保数据在庞大的GPU集群之间以光速传输,同时有助于降低交换机功耗、减少故障点,并带来更高的词元吞吐效率。

lambda_blog-image_first-look-CPO_1600x860.jpeg

2026年6月10日英伟达Lambda AI等人工智能公司开始交付其全新的Quantum-X Infiniband解决方案。Lambda AI已将该平台拆箱并在其AI生态系统中部署。这款Quantum-X AI网络解决方案充分利用了硅光子学共封装光学技术,在GB300 NVL72规模机架中提供了800G的能力,增强了AI计算性能。Lambda AI表示,在三层集群中,后端网络现在占其网络功耗的86%

Lambda AI是首批收到英伟达最新款由Q3450-LD交换机驱动的共封装光学解决方案的公司之一。通过这些交换机,交换层的功耗大幅降低,使得GPU在AI工厂中获得更多功耗空间。标准交换机方案的功耗约为7.0kW,而英伟达的硅光子学解决方案功耗为3.95kW,在GB300“Blackwell Ultra”平台上节省了约3.05kW。

  • GB300 NVL72集群规模为576个GPU时,采用共封装光学交换机可释放1237kW的网络功耗,相当于额外增加26个GPU

  • GB300 NVL72集群规模为4,608个GPU时,采用共封装光学交换机可释放100305kW的网络功耗,相当于额外增加217个GPU

  • GB300 NVL72集群规模为10,368个GPU时,采用共封装光学交换机可释放216658kW的网络功耗,相当于额外增加470个GPU

  • GB300 NVL72集群规模为41,472个GPU时,采用共封装光学交换机可释放1,4404392kW的网络功耗,相当于额外增加3137个GPU

共封装光学(CPO)还能减少故障点。Lambda AI指出,一个拥有128,000个GPU的数据中心在其交换架构中使用了655,000个分立收发器模块,每个模块都是一个潜在的故障点。采用共封装光学技术后,架构中的光学组件大幅减少,从而降低了故障率。

那么,英伟达Quantum-X Infiniband“Q3450-LD”长什么样呢?交付给Lambda AI的工程样品由18个可拆卸光源模块组成,这些模块为144个MPO端口提供馈入。与传统的OSFP笼不同,英伟达Quantum-X解决方案采用光纤阵列连接,直接馈入硅光子引擎。

在设备后部,英伟达配置了48V DC电源,并带有兼容DGX的母线连接器。CPO的冷却通过四个UDQ4液冷连接实现,内部有双循环回路。对于已经部署了GB300 NVL72机架的用户来说,很多设计选择都相当熟悉。

  • 规格:外形尺寸为4U

  • ASIC:NVIDIA Quantum-X800

  • 端口:144 x 800G InfiniBand

  • 光学连接:144个MPO连接器

  • 交换容量:115.2 Tb/s无阻塞

  • 电源输入:48V DC母线

  • 散热:液冷,双循环

  • 光源:18个可拆卸外部模块(每八个端口一个)

随着代理式AI推动AI数据中心提供更高的词元吞吐量和高效计算能力,对弹性且稳健的数据移动的需求变得至关重要。这正是共封装光学(硅光子学)的用武之地,它能在相同的数据中心占地面积内实现更多计算。在这一竞赛中,英伟达处于领先地位,而其他公司正试图追赶这家AI巨头。


文章标签: #英伟达 #共封装光学 #AI网络 #交换机 #LambdaAI

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。