DeepSeek的研究人员于周一发布了一款名为V3.2-exp的实验性新模型,该模型专为长上下文操作设计,能显著降低推理成本。DeepSeekHugging Face平台发帖公布了这一模型,并在GitHub上发布了相关的学术论文。

Cover Image

新模型最重要的特性是名为DeepSeek稀疏注意力的系统。该系统通过名为“闪电索引器”的模块优先处理上下文窗口中的特定片段,随后由“细粒度令牌选择系统”从这些片段中筛选具体令牌,载入模块有限的注意力窗口。这两大组件共同作用,使得稀疏注意力模型能够在承受相对较小服务器负载的情况下处理长上下文内容。

在长上下文操作中,该系统的优势尤为显著。DeepSeek的初步测试表明,在长上下文场景下,简单API调用的成本最高可降低一半。虽然仍需进一步测试以建立更可靠的评估体系,但由于该模型采用开放权重架构并在Hugging Face平台免费开放,第三方测试机构很快就能对论文中的主张进行验证。

DeepSeek的新模型是近期攻克推理成本难题的一系列突破之一。推理成本特指运行预训练AI模型产生的服务器开销,与训练成本有本质区别。该团队致力于提升基础Transformer架构的运行效率,并发现其中存在巨大的优化空间。

作为中国的人工智能企业,DeepSeek在本轮AI热潮中展现出独特姿态——特别是对于那些将AI研究视为中美两国竞争的人们而言。今年初其R1模型曾引发轰动,该模型主要采用强化学习训练,成本远低于美国竞争对手。但该模型并未如某些预测引发AI训练领域的全面革命,数月来公司也逐渐淡出公众视野。

尽管新的“稀疏注意力”技术可能不会像R1那样引起轰动,但它仍能为美国供应商提供亟需的技术思路,帮助其有效控制推理成本。


文章标签: #人工智能 #深度学习 #模型优化 #推理成本 #长上下文

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。