英伟达(Nvidia)于周四详细介绍了其GPU集群监控软件。此前有报道称,英伟达已开发出一款能够追踪其GPU物理位置的数据集群管理软件。该软件确实能让数据中心运营商监控AI GPU集群的各个方面,其中包括检测这些处理器的物理位置,这或许能对芯片走私起到威慑作用。然而,有一个关键限制:该软件是自愿加入而非强制性的,这可能会削弱其作为打击走私工具(无论是国家行为体还是其他实体)的有效性。

该软件收集广泛的遥测数据,然后汇总到英伟达NGC平台托管的中央仪表板中。该界面让客户能够可视化其整个集群的GPU状态,可以按全球范围,也可以按代表特定物理或云位置的计算区域查看,这意味着该软件能够检测英伟达硬件的物理位置。运营商可以查看集群范围的摘要,深入查看单个集群,并生成包含库存数据和全系统健康信息的结构化报告。
英伟达强调,该软件纯粹是观察性的:它提供对GPU行为的洞察,但不能充当后门或远程关闭开关。因此,即使英伟达通过NGC平台发现其部分GPU被走私至中国,也无法将其关闭。不过,该公司或许可以利用这些数据来查明GPU是如何到达该位置的。英伟达表示,该软件是一个客户安装的、开源客户端代理,具有透明性和可审计性。
英伟达新的集群管理软件让数据中心运营商能够详细、实时地了解其GPU基础设施在负载下的运行状况。它持续收集电源行为(包括短时尖峰)的遥测数据,使运营商能够保持在功率限制内。除了电源数据,该系统还监控集群的利用率、内存带宽使用情况和互连健康状况,使运营商能够最大化每瓦特利用率和性能。这些指标有助于暴露负载不平衡、带宽饱和以及链路级问题,这些问题可能会在大型AI集群中悄无声息地降低性能。
该软件的另一个重点是热管理和气流状况,以避免热节流和组件过早老化。通过及早发现热点和气流不足,运营商可以避免通常伴随高密度计算环境而来的性能下降,并在许多情况下防止AI加速器过早老化。
该系统还验证节点是否共享一致的软件栈和运行参数,这对于可复现的数据集和可预测的训练行为至关重要。任何配置差异,例如不匹配的驱动程序或设置,都会在平台中显现。
值得注意的是,英伟达新的集群管理服务并非该公司远程诊断和控制GPU行为的唯一工具,尽管它是最先进的。例如,DCGM是一个本地诊断和监控工具包,可提供原始的GPU健康数据,但要求运营商自行构建仪表板和聚合管道,这大大降低了其易用性,但也让运营商能够自行构建所需工具。还有Base Command,这是一个为AI开发、作业调度、数据集管理和协作而设计的工作流和编排环境,并非用于深度硬件监控。
与此同时,所有这三种工具都为数据中心运营商提供了一套强大的控制手段。DCGM提供节点级探测,Base Command处理工作负载,而新服务则将它们整合到一个集群范围的可视化平台中,该平台可扩展至地理分布的GPU部署。



