你是否曾梦想在家运行2350亿参数的大型语言模型,却因仅有的1万美元预算,只能屈就于“勉强处理700亿参数模型的消费级显卡”?这正是开发者大卫·诺埃尔·吴(David Noel Ng)曾经的困境,直到他在Reddit论坛上偶然发现了一个“明显是假货”的Nvidia Grace-Hopper平台在出售。吴决定赌一把,而根据他的博客文章,这次豪赌获得了丰厚的回报。经过一番调试和修复,他成功以约十分之一的价格,获得了一套通常价值约8万美元的企业级系统。仅系统包含的960GB LPDDR5X内存,现在的价值就已超过他为整套系统支付的金额。更有趣的是,他甚至还向卖家压了价——他注意到Reddit上的原标价为1万欧元,而他只出价7000欧元

Cover Image

吴为何会对这个“明显是假货”的列表出价?正如我们在开头提到的,吴发现的这笔交易好得令人难以置信。然而,他调查了卖家,对方似乎是一家合法的服务器设备经销商,距离他仅两小时车程,因此他迅速出价以抢占先机。

这套出售的Grace Hopper系统存在一些根本性的、但并非无法克服的问题,这导致它在消费级市场上不会广受欢迎。具体来说,它是一次“从液冷改装为风冷的弗兰肯系统”操作。它看起来也有些杂乱,无法上机架,并且使用48V电源供电。

另一方面,即使这只是一堆零部件,这个报价也似乎令人无法抗拒。出售时系统的规格如下:

  • 2个Nvidia Grace-Hopper超级芯片

  • 2个72核的Nvidia Grace CPU

  • 2个Nvidia Hopper H100 Tensor Core GPU

  • 2个480GB带纠错码的LPDDR5X内存

  • 2个96GB HBM3内存

  • 总计1152GB高速访问内存

  • NVLink-C2C900 GB/s带宽

  • 可编程TDP1000W2000W(CPU + GPU + 内存)

  • 1个高效3000W PSU230V48V

  • 板载2个PCIe Gen4 M.2 22110/2280插槽

  • 4个FHFL PCIe Gen5 x16插槽

自然,这套设备8万美元的估值可能还是一个相当保守的估计。吴指出,仅两个H100芯片就“每个价值约3万至4万欧元”。

让弗兰肯系统运转起来

吴的博客文章用了很大篇幅来描述接收、清洁以及为这套弗兰肯系统构建新的有效冷却系统的过程,读起来引人入胜。简而言之,这台拥有惊人潜力的Nvidia Hopper系统,在吴带回家时是一台布满灰尘、噪音极大、运行温度极高的机器。在吴接手之前,它就是以这样的状态被演示的。

凭借细心和耐心、五升异丙醇、四个改造过的廉价Arctic一体式水冷散热器、一对定制CNC铣削铜件、大约一公斤3D打印部件、在显微镜辅助下的焊接、一条LED灯带以及一些专业知识,吴最终取得了成功。你可以在文章顶部看到完成重组装的Grace Hopper系统图片。

内存金矿

吴似乎对完成的系统及其AI性能感到非常满意。他说他现在可以“以低于单个H100的成本,在家运行2350亿参数的模型”。然而,锦上添花的是,自从购买该系统后,内存价格“已经变得疯狂”,这意味着该系统中960GBDDR5X内存现在的价值超过了吴为整套设备支付的总费用。


文章标签: #硬件 #AI #捡漏 #改装 #Reddit

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。