瑞安·雷诺兹终坦白,死侍测试片段泄露真相
阅读全文

锤刻创思寰宇网
据报道,英伟达(Nvidia)全新RTX 5090和RTX PRO 6000GPU存在可复现的虚拟化重置故障,该问题可能导致显卡完全无响应,必须物理重启主机系统才能恢复。
GPU云服务提供商CloudRift在多台搭载布莱克威尔(Blackwell)架构显卡的生产系统中遭遇此问题后,发布了详细的技术分析。该公司甚至设立了1000美元的公开悬赏,征集能够确定解决方案或根本原因的专家。
根据CloudRift的日志记录,该故障发生于GPU通过KVM和VFIO技术透传给虚拟机后。当客户机停机或GPU重新分配时,主机会触发PCIe功能级重置(FLR)——这是清理透传设备的标准流程。但GPU并未返回已知良好状态,而是停止响应:内核日志显示“FLR执行65535毫秒后设备仍未就绪,放弃操作”。
此时lspci命令也无法读取显卡信息,并抛出“未知标头类型7f”错误。CloudRift强调,唯一能恢复正常运行的方法就是彻底断电重启整台机器。
人工智能初创企业Tiny Corp(知名开源框架tinygrad的开发者)通过转发CloudRift的发现引发行业关注,并在推文中直言不讳地提问:“5090和RTX PRO 6000是否存在硬件缺陷?我们已深入调查但找不到解决方案。”
Proxmox论坛和Level1Techs技术社区的讨论线索显示,家用用户和其他RTX 5090早期使用者同样遭遇了类似问题。其中一例用户报告称,在Windows客户机关机后出现整个主机死机,即便操作系统层级重启也无法重新初始化GPU。另一用户表示:“发现主机无响应,深入调试显示在Linux虚拟机停机后,主机CPU因FLR超时出现软锁定。此前使用的4080显卡从未出现此问题。”
多名用户确认,调整PCIe ASPM或ACS设置均无法缓解该故障。目前尚未在RTX 4090等旧款显卡上发现同类问题,表明该故障可能仅存在于英伟达的布莱克威尔架构产品线中。
FLR是GPU透传配置中的核心功能,它允许设备在客户机之间安全重置并重新分配。若FLR可靠性存疑,那么多租户人工智能工作负载和采用虚拟化的家庭实验室设置都将面临风险——尤其是当单张显卡故障会导致整个主机瘫痪时。
截至发稿时,英伟达尚未正式承认此问题,业内也没有已知的缓解方案。