中国人工智能实验室DeepSeek(DeepSeek)在其新版发布说明中声称,其最新的V4模型能够显著减少用于令牌推理和内存资源的计算资源。DeepSeek表示,V4 AI模型与上一代V3.2模型相比,仅需27%的单令牌推理FLOPs和10%的关键值(KV)缓存。这种缓存需求的降低解决了内存需求问题,更低的要求可以节省内存,并为模型创建者提供更大的上下文空间来构建他们的模型。

Cover Image

DeepSeek在其V4的发布说明中指出,新模型在处理一百万令牌的上下文窗口时,仅需使用27%的单令牌推理FLOPs和10%的关键值(KV)缓存。上下文窗口是指人工智能大语言模型在需要释放内存资源之前能够处理的文本量。

这种内存利用率的提升在AI计算的解码阶段尤为重要。AI计算大致分为两个阶段:预填充和解码。由于AI模型在解码阶段生成输出,它必须存储来自预填充阶段的对话或提示的上下文。因此,解码阶段比预填充阶段需要更多的内存,尤其是在关键值(KV)缓存方面。

权衡:激进压缩带来的“大海捞针”失败

随着上下文中的令牌数量增加,对KV缓存的需求也随之增长。这意味着在一百万个令牌的情况下,使用更少缓存的模型能够处理更多请求,或者需要更少的内存资源。

DeepSeek关于V4模型仅需27%单推理令牌FLOPs的另一项声明,只有在GPU有足够内存进行计算时才能提升性能。此外,使用显著更少的缓存内存需要模型依赖权衡,这可能会导致其遗漏细节。这被称为“大海捞针”失败,并可能导致不精确的输出。

硬件影响:缓解AI驱动的DRAM压力

这一进展之所以至关重要,是因为对KV缓存占用空间的激进削减不仅仅是某个抽象的软件里程碑;它对实际的内存供应链有着巨大的影响。当前行业正深陷一个由对HBM(高带宽内存)的旺盛需求驱动的DRAM超级周期。这种动态造成了“供应紧张”,这种压力直接波及到你为PC购买的消费级DIMM(内存条)和SSD(固态硬盘)。像DeepSeekV4中的软件级压缩技术,以及谷歌(Google)的TurboQuant等并行算法转变,最终可能会开始缓解给消费PC市场带来的极端硬件压力。简而言之:如果模型构建者能够从每GB HBM中提取更多输出,那么最终被卸下的重担将落在一直承担AI内存需求成本的消费者肩上。

幕后机制:多头潜在注意力(MLA)架构

实现这些性能增益的机制是DeepSeek的多头潜在注意力(MLA)架构,该公司在早期模型中就已首次引入该架构。这是一种从一开始就围绕内存限制进行设计的设计。它并非为每个令牌存储完整的键张量和值张量,而是将键和值投影到一个共享的低秩潜在表示中,并在计算时再将其展开。正是这种“先压缩后扩展”的方法完成了KV缓存占用空间的重头工作,让模型能够高效运行,而无需支付标准注意力机制实现所要求的全部内存代价。


文章标签: #DeepSeek #AI模型 #内存压缩 #MLA架构 #效率竞赛

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。