拥有4000亿参数的大型语言模型通常只能在配备海量内存的强大硬件上运行,因为即便是量化或压缩版本也至少需要200GB的内存。面对如此苛刻的要求,iPhone 17 Pro 似乎绝不可能是运行4000亿参数大模型的首选。然而,一段视频证据却颠覆了这一认知,有人展示了苹果这款最新旗舰如何完成了这项“不可能的任务”。当然,需要指出的是,这一壮举离不开一些巧妙的技巧,让我们来一探究竟。

Cover Image

正如预料的那样,iPhone 17 Pro 每秒只能生成0.6个词元,但即便是克服这一艰巨挑战本身也已足够令人惊叹。

一个名为 Flash-MoE 的开源项目在 iPhone 17 Pro 上成功运行。用户 @anemll 的演示表明,虽然这款旗舰手机能够运行这个对算力要求极高的模型,但也存在明显短板。首先,从下方视频中不难发现,其词元生成速度极其缓慢,仅为0.6 t/s,这意味着大约每1.5到2秒才能生成一个词。

假设你有足够的耐心,或者能在 iPhone 17 Pro 为你生成回答时忙些别的事情,那么这种龟速或许尚可忍受。但我们认为,许多用户目睹如此迟缓的性能时,恐怕会抓狂。话虽如此,无论速度如何,一个4000亿参数的大模型能在智能手机上运行这一事实本身就意义重大。这表明,经过更多优化,在移动设备上运行本地化的大型语言模型是完全可能的。

那么,这是如何实现的呢?由于 iPhone 17 Pro 仅配备12GBLPDDR5X内存,将整个大模型加载到内存中是不可能的。Flash-MoE 的诀窍在于,它利用了设备的SSD,将数据直接流式传输到GPU进行处理。此外,“MoE”代表混合专家模型,这意味着它在生成每个词时,实际上只动用了那4000亿参数中的一小部分。

另一个好处是,使用本地化的大模型能获得100%的隐私保障,并且无需活跃的网络连接即可获得响应,尽管这对 iPhone 17 Pro 的电池将是严峻考验。开发者们通常也会求助于这些大型语言模型的压缩版或“量化”版本,但一个4000亿参数的模型即便量化后也至少需要200GB的内存,这仍然超出了 iPhone 17 Pro 的能力范围。

简而言之,最新的演示表明,如果你愿意忍受每秒0.6个词元的缓慢生成过程,那么你确实可以在智能手机上运行一个4000亿参数的大模型。然而,让一个大模型“跑起来”和以“可用的方式”流畅运行,两者之间存在着天壤之别。


文章标签: #大模型 #iPhone #本地部署 #混合专家 #隐私安全

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。