iPhone 17 Pro成功运行4000亿参数大模型，内存需求仅200GB

拥有4000亿参数的大型语言模型通常只能在配备海量内存的强大硬件上运行，因为即便是量化或压缩版本也至少需要200GB的内存。面对如此苛刻的要求，iPhone 17 Pro 似乎绝不可能是运行4000亿参数大模型的首选。然而，一段视频证据却颠覆了这一认知，有人展示了苹果这款最新旗舰如何完成了这项“不可能的任务”。当然，需要指出的是，这一壮举离不开一些巧妙的技巧，让我们来一探究竟。

Cover Image

正如预料的那样，iPhone 17 Pro 每秒只能生成0.6个词元，但即便是克服这一艰巨挑战本身也已足够令人惊叹。

一个名为 Flash-MoE 的开源项目在 iPhone 17 Pro 上成功运行。用户 @anemll 的演示表明，虽然这款旗舰手机能够运行这个对算力要求极高的模型，但也存在明显短板。首先，从下方视频中不难发现，其词元生成速度极其缓慢，仅为0.6 t/s，这意味着大约每1.5到2秒才能生成一个词。

假设你有足够的耐心，或者能在 iPhone 17 Pro 为你生成回答时忙些别的事情，那么这种龟速或许尚可忍受。但我们认为，许多用户目睹如此迟缓的性能时，恐怕会抓狂。话虽如此，无论速度如何，一个4000亿参数的大模型能在智能手机上运行这一事实本身就意义重大。这表明，经过更多优化，在移动设备上运行本地化的大型语言模型是完全可能的。

那么，这是如何实现的呢？由于 iPhone 17 Pro 仅配备12GB的LPDDR5X内存，将整个大模型加载到内存中是不可能的。Flash-MoE 的诀窍在于，它利用了设备的SSD，将数据直接流式传输到GPU进行处理。此外，“MoE”代表混合专家模型，这意味着它在生成每个词时，实际上只动用了那4000亿参数中的一小部分。

另一个好处是，使用本地化的大模型能获得100%的隐私保障，并且无需活跃的网络连接即可获得响应，尽管这对 iPhone 17 Pro 的电池将是严峻考验。开发者们通常也会求助于这些大型语言模型的压缩版或“量化”版本，但一个4000亿参数的模型即便量化后也至少需要200GB的内存，这仍然超出了 iPhone 17 Pro 的能力范围。

简而言之，最新的演示表明，如果你愿意忍受每秒0.6个词元的缓慢生成过程，那么你确实可以在智能手机上运行一个4000亿参数的大模型。然而，让一个大模型“跑起来”和以“可用的方式”流畅运行，两者之间存在着天壤之别。

搜索结果如下

阅读全文

iPhone 17 Pro成功运行4000亿参数大模型，内存需求仅200GB

也可以看看

《塞尔达传说：黄昏公主》4K预告惊艳亮相，玩家期待重制版

阅读全文

克里斯·普拉特科幻新片票房失利，却在流媒体平台意外翻红

阅读全文

本斯蒂勒新作《天生保龄》成黑马，HBO Max保龄球纪录片热播

阅读全文