深度求索(DeepSeek)最新发布的R1推理AI模型或许是本周AI社区的关注焦点。不过,这家中国AI实验室还同步推出了新R1的“蒸馏”精简版本——DeepSeek-R1-0528-Qwen3-8B,官方宣称该模型在特定基准测试中超越了同尺寸竞品。
这款基于阿里巴巴五月发布的Qwen3-8B模型构建的精简版R1,在包含高难度数学题的AIME 2025测试集上表现优于谷歌Gemini 2.5 Flash。在另一项数学能力测试HMMT中,其表现也几乎与微软最新发布的Phi 4推理增强版模型持平。
虽然像DeepSeek-R1-0528-Qwen3-8B这类蒸馏模型通常性能不及完整版,但其显著优势在于计算资源需求大幅降低。云平台NodeShift数据显示,运行Qwen3-8B需要配备40GB-80GB显存的GPU(例如英伟达H100),而完整版新R1则需要约12块80GB显存的GPU。
深度求索通过提取新版R1生成的文本数据对Qwen3-8B进行微调训练,最终得到该模型。在AI开发平台Hugging Face的专属页面中,官方将其定位为“既适用于推理模型的学术研究,也适合小规模模型的工业开发。”
该模型采用宽松的MIT许可协议,允许不受限制的商业使用。目前,LM Studio等多家平台已通过API接口提供该模型服务。