过去几年,消费者游戏显卡和专业用户显卡上已记录了大量16针电源接口烧毁案例——如今,这场设计糟糕的接口风波也(某种程度上)波及到了数据中心GPU。常驻维修技师northwestrepair最近发布了一段YouTube视频,展示了他修复一块因12VHPWR接口损坏而无法工作的、价值3万美元的H200 Hopper数据中心GPU的过程。

与大多数16针接口灾难故事不同,这块H200 GPU上的接口损坏是由于用户操作不当,而非设计缺陷。northwestrepair发现大部分针脚都已弯曲损坏,这表明操作者在将电源线插入电源接口时可能用力过猛。
幸运的是,维修技师成功解决了问题:他取了一个备用的16针电源接口,将备用接口中的四个检测针脚与H200的16针接口中损坏的针脚进行了替换。这需要一些功夫——northwestrepair必须将新针脚切割修剪成与旧针脚相同的形状,然后将针脚焊接到H200的电源接口上。
维修过程并非一帆风顺:中途,northwestrepair不小心将检测针脚焊错了顺序。为了解决这个问题,他调换了插头上的检测线缆——将检测针脚连接到PCB上,以匹配(此时)错位的检测针脚。
尽管如此,显卡仍无法通电,原因是PCB上某处与检测针脚相关的短路。因此,northwestrepair没有修复短路,而是选择完全绕过这些针脚,断开了连接检测针脚与显卡的电阻。这使显卡恢复了供电,随后显卡在没有进一步测试的情况下被返还给了客户(H200不支持消费级桌面主板)——不过northwestrepair在评论中指出,客户确认GPU可以工作,但并未支付维修费用。
H200是一款基于Hopper架构的较老GPU。英伟达(NVIDIA)推出了多个变体,但本文修复的是PCIe版本,其拥有16,896个CUDA核心、132个SM、50MB的L2缓存、600W的TDP、141GB的HBM3e内存以及PCIe 5.0 x16接口。无论其年代如何,一块英伟达 H200 GPU的零售价仍在3万美元左右。



