英伟达发布新软件，可追踪AI GPU物理位置，但属自愿加入

英伟达（Nvidia）于周四详细介绍了其GPU集群监控软件。此前有报道称，英伟达已开发出一款能够追踪其GPU物理位置的数据集群管理软件。该软件确实能让数据中心运营商监控AI GPU集群的各个方面，其中包括检测这些处理器的物理位置，这或许能对芯片走私起到威慑作用。然而，有一个关键限制：该软件是自愿加入而非强制性的，这可能会削弱其作为打击走私工具（无论是国家行为体还是其他实体）的有效性。

Cover Image

该软件收集广泛的遥测数据，然后汇总到英伟达NGC平台托管的中央仪表板中。该界面让客户能够可视化其整个集群的GPU状态，可以按全球范围，也可以按代表特定物理或云位置的计算区域查看，这意味着该软件能够检测英伟达硬件的物理位置。运营商可以查看集群范围的摘要，深入查看单个集群，并生成包含库存数据和全系统健康信息的结构化报告。

英伟达强调，该软件纯粹是观察性的：它提供对GPU行为的洞察，但不能充当后门或远程关闭开关。因此，即使英伟达通过NGC平台发现其部分GPU被走私至中国，也无法将其关闭。不过，该公司或许可以利用这些数据来查明GPU是如何到达该位置的。英伟达表示，该软件是一个客户安装的、开源客户端代理，具有透明性和可审计性。

英伟达新的集群管理软件让数据中心运营商能够详细、实时地了解其GPU基础设施在负载下的运行状况。它持续收集电源行为（包括短时尖峰）的遥测数据，使运营商能够保持在功率限制内。除了电源数据，该系统还监控集群的利用率、内存带宽使用情况和互连健康状况，使运营商能够最大化每瓦特利用率和性能。这些指标有助于暴露负载不平衡、带宽饱和以及链路级问题，这些问题可能会在大型AI集群中悄无声息地降低性能。

该软件的另一个重点是热管理和气流状况，以避免热节流和组件过早老化。通过及早发现热点和气流不足，运营商可以避免通常伴随高密度计算环境而来的性能下降，并在许多情况下防止AI加速器过早老化。

该系统还验证节点是否共享一致的软件栈和运行参数，这对于可复现的数据集和可预测的训练行为至关重要。任何配置差异，例如不匹配的驱动程序或设置，都会在平台中显现。

值得注意的是，英伟达新的集群管理服务并非该公司远程诊断和控制GPU行为的唯一工具，尽管它是最先进的。例如，DCGM是一个本地诊断和监控工具包，可提供原始的GPU健康数据，但要求运营商自行构建仪表板和聚合管道，这大大降低了其易用性，但也让运营商能够自行构建所需工具。还有Base Command，这是一个为AI开发、作业调度、数据集管理和协作而设计的工作流和编排环境，并非用于深度硬件监控。

与此同时，所有这三种工具都为数据中心运营商提供了一套强大的控制手段。DCGM提供节点级探测，Base Command处理工作负载，而新服务则将它们整合到一个集群范围的可视化平台中，该平台可扩展至地理分布的GPU部署。

搜索结果如下

阅读全文

英伟达发布新软件，可追踪AI GPU物理位置，但属自愿加入

也可以看看

Hulu浪漫剧《正常人》拯救BBC三台，成经典佳作

阅读全文

HBO八集动作惊悚剧《企鹅人》打破《新蝙蝠侠》电影宇宙常规，树立衍生剧新标杆

阅读全文

Xbox Game Pass会员限时福利，额外免费游戏仅剩24小时

阅读全文