据开发者GPU云服务商CloudRift报告,英伟达(NVIDIA)旗舰级Blackwell架构GPU——包括GeForce RTX 5090RTX PRO 6000——在虚拟机环境中长时间运行后出现无响应故障。该问题在持续数日的虚拟机负载后触发,会导致GPU完全失去响应,唯有重启节点系统才能恢复访问。目前受影响的仅限上述两款型号,RTX 4090Hopper H100Blackwell B200系列暂未出现类似情况。

Cover Image

故障发生于通过VFIO设备驱动将GPU分配至虚拟机环境时:在执行功能级重置(FLR)后,GPU会完全停止响应,进而引发内核软锁死(soft lock),导致主机与客户端陷入死锁状态。唯一的解决方式是重启主机,这对拥有大量客户机的云服务商而言操作成本极高。

该问题并非个例。Proxmox论坛亦有用户反馈类似故障,其在关闭Windows客户端后遭遇了整个主机的崩溃。据悉英伟达已确认该问题并表示正在开发修复补丁。目前CloudRift已悬赏1000美元征集解决方案,鉴于该故障严重影响AI工作负载,业界预计英伟达将尽快发布官方修复程序。


文章标签: #英伟达 #GPU故障 #虚拟化 #AI负载 #系统重启

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。