谷歌新推出的TurboQuant算法,能以无损方式大幅压缩KV缓存,近日在AI领域引起了轰动。与此同时,关于内存需求即将崩溃的末日预言也甚嚣尘上。尽管其基础论文早在2025年4月就已发布!

Cover Image

即便如此,我们认为当前市场的悲观情绪,与2025年初深度求索(DeepSeek)发布R1模型后的情形惊人地相似,而杰文斯悖论(Jevons paradox)将再次占据上风。

谷歌TurboQuant将极大地增强杰文斯悖论效应,在可预见的未来,对内存资源的需求将持续高涨。在深入探讨之前,我们先来了解一下TurboQuant的实际作用。设想一个场景:你正在写一个故事,但短期记忆力极差。每写一个新词,你都必须重读之前写过的所有内容,才能记住已经写了什么。显然,随着文本长度的增加,这个繁琐的过程也会加剧。

关键值(KV)缓存类似于在另一张纸上做笔记,以便随时掌握已写内容。这能将整个过程的速度提升数个数量级。谷歌TurboQuant能将特定AI模型的KV缓存压缩高达6倍,从而使基础模型的速度提升高达8倍。更重要的是,TurboQuant能做到这一点且毫无精度损失。

既然我们已经讨论了TurboQuant的实际功能,现在来看看围绕这一突破的所有近期悲观论调。简而言之,当主要厂商开始进行产能扩张时,那些投资于高歌猛进的内存股的投资者现在担心,这种算法会抑制即将到来的内存资源需求。

许多人未能理解的事实是,TurboQuant实际上并不压缩模型权重,而在大规模部署中,模型权重往往远大于KV缓存。这意味着模型大小保持不变。该算法通过允许增加特定模型的上下文窗口(令牌数量),或者使更少数量的GPU能够处理相同数量的用户,从而极大地改善了数据中心与推理相关的经济性。

这一发展非但不会减少对内存资源的需求,反而会引发杰文斯悖论。该悖论认为,一项技术的使用量会随着其运营成本的降低而增加。因此,认为当前的内存紧缺局面会很快结束的想法是肤浅的。

最后,与杰文斯悖论的相互作用也意味着,我们不应期待当前消费电子领域,尤其是由内存芯片通胀驱动的智能手机价格上涨,会在短期内得到缓和。


文章标签: #谷歌 #TurboQuant #杰文斯悖论 #内存需求 #AI算法

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。