传统观念认为,要运行最新AI模型必须配备单价约36.35万元人民币(5万美元)的英伟达(Nvidia)显卡堆。但显然并非如此——EXO实验室宣称,他们成功在1997年产的Windows 98电脑上运行了Llama 2大语言模型,这台古董机仅搭载了奔腾II(Pentium II)处理器。但代价是什么呢?其运行速度比现代显卡慢了约两万倍

Cover Image

据悉,EXO实验室在eBay上以不到872.4元人民币(120美元)购得这台机器,随后最棘手的或许是让外设正常运行——这台老古董只有传统的PS2接口和单个USB输入端口。事实上,将所需文件传输到机器上就令人抓狂,更别提还要将文件编译成兼容奔腾II古老指令集的格式。

经过代码和硬件的调试,团队终于运行起Llama 2。据报道,26万参数的模型版本在奔腾II上达到每秒39.31个token,而1500万参数的大型版本仅实现每秒1.03个token。他们甚至尝试运行10亿参数的Llama 3.2部分数据模型,结果每秒仅能处理0.0093个token——作为对比,同款10亿参数3.2模型在Arm处理器上可达每秒40个token,在显卡上更能达到每秒200个token。简言之,奔腾II的运算速度慢了约两万倍。但无论如何,它确实跑起来了。

虽然变量设置会影响具体对比数据,但这个两万倍的差距大致体现了性能代差的数量级。在古董CPU上运行现代大语言模型固然惊艳,但这种性能鸿沟也提醒着我们速度的重要性。这情景恰似3D游戏——理论上经过正确编译,你当然能让《赛博朋克2077》以全路径追踪模式在奔腾II上实现4K画质,但帧率恐怕会与处理器0.0093token/秒的表现“相得益彰”。这种时候,一切探讨都成了纸上谈兵。

或许观赏像素逐点渲染会很有趣?不过完成一次基准测试可能要耗费数年光阴。


文章标签: #AI #古董电脑 #性能对比 #大模型 #奔腾II

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。