深度求索(DeepSeek)最新发布的R1推理AI模型或许是本周AI社区的关注焦点。不过,这家中国AI实验室还同步推出了新R1的“蒸馏”精简版本——DeepSeek-R1-0528-Qwen3-8B,官方宣称该模型在特定基准测试中超越了同尺寸竞品

Cover Image

这款基于阿里巴巴五月发布的Qwen3-8B模型构建的精简版R1,在包含高难度数学题的AIME 2025测试集上表现优于谷歌Gemini 2.5 Flash。在另一项数学能力测试HMMT中,其表现也几乎与微软最新发布的Phi 4推理增强版模型持平

虽然像DeepSeek-R1-0528-Qwen3-8B这类蒸馏模型通常性能不及完整版,但其显著优势在于计算资源需求大幅降低。云平台NodeShift数据显示,运行Qwen3-8B需要配备40GB-80GB显存的GPU(例如英伟达H100),而完整版新R1则需要约12块80GB显存的GPU。

深度求索通过提取新版R1生成的文本数据对Qwen3-8B进行微调训练,最终得到该模型。在AI开发平台Hugging Face的专属页面中,官方将其定位为“既适用于推理模型的学术研究,也适合小规模模型的工业开发。”

该模型采用宽松的MIT许可协议,允许不受限制的商业使用。目前,LM Studio等多家平台已通过API接口提供该模型服务。


文章标签: #AI模型 #数学推理 #计算优化 #商业许可 #竞品对比

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。