据开发者GPU云服务商CloudRift报告,英伟达(NVIDIA)旗舰级Blackwell架构GPU——包括GeForce RTX 5090和RTX PRO 6000——在虚拟机环境中长时间运行后出现无响应故障。该问题在持续数日的虚拟机负载后触发,会导致GPU完全失去响应,唯有重启节点系统才能恢复访问。目前受影响的仅限上述两款型号,RTX 4090、Hopper H100及Blackwell B200系列暂未出现类似情况。

故障发生于通过VFIO设备驱动将GPU分配至虚拟机环境时:在执行功能级重置(FLR)后,GPU会完全停止响应,进而引发内核软锁死(soft lock),导致主机与客户端陷入死锁状态。唯一的解决方式是重启主机,这对拥有大量客户机的云服务商而言操作成本极高。
该问题并非个例。Proxmox论坛亦有用户反馈类似故障,其在关闭Windows客户端后遭遇了整个主机的崩溃。据悉英伟达已确认该问题并表示正在开发修复补丁。目前CloudRift已悬赏1000美元征集解决方案,鉴于该故障严重影响AI工作负载,业界预计英伟达将尽快发布官方修复程序。



