忘掉天价显卡，1997年奔腾II成功运行大模型

传统观念认为，要运行最新AI模型必须配备单价约36.35万元人民币（5万美元）的英伟达（Nvidia）显卡堆。但显然并非如此——EXO实验室宣称，他们成功在1997年产的Windows 98电脑上运行了Llama 2大语言模型，这台古董机仅搭载了奔腾II（Pentium II）处理器。但代价是什么呢？其运行速度比现代显卡慢了约两万倍。

Cover Image

据悉，EXO实验室在eBay上以不到872.4元人民币（120美元）购得这台机器，随后最棘手的或许是让外设正常运行——这台老古董只有传统的PS2接口和单个USB输入端口。事实上，将所需文件传输到机器上就令人抓狂，更别提还要将文件编译成兼容奔腾II古老指令集的格式。

经过代码和硬件的调试，团队终于运行起Llama 2。据报道，26万参数的模型版本在奔腾II上达到每秒39.31个token，而1500万参数的大型版本仅实现每秒1.03个token。他们甚至尝试运行10亿参数的Llama 3.2部分数据模型，结果每秒仅能处理0.0093个token——作为对比，同款10亿参数3.2模型在Arm处理器上可达每秒40个token，在显卡上更能达到每秒200个token。简言之，奔腾II的运算速度慢了约两万倍。但无论如何，它确实跑起来了。

虽然变量设置会影响具体对比数据，但这个两万倍的差距大致体现了性能代差的数量级。在古董CPU上运行现代大语言模型固然惊艳，但这种性能鸿沟也提醒着我们速度的重要性。这情景恰似3D游戏——理论上经过正确编译，你当然能让《赛博朋克2077》以全路径追踪模式在奔腾II上实现4K画质，但帧率恐怕会与处理器0.0093token/秒的表现“相得益彰”。这种时候，一切探讨都成了纸上谈兵。

或许观赏像素逐点渲染会很有趣？不过完成一次基准测试可能要耗费数年光阴。

搜索结果如下

阅读全文

忘掉天价显卡，1997年奔腾II成功运行大模型

也可以看看

Take-Two总裁称GTA6延期至2026年很重要，追求完美是关键

阅读全文

《蓝色传说：星痕共鸣》海外发布，继承MMORPG新作

阅读全文

天国拯救2首部DLC死亡擦肩上线，新增赛马玩法

阅读全文