微软研究人员近日发布开源大语言模型BitNet b1.58 2B4T,这款采用1比特量化技术的模型具有20亿参数规模,并基于4万亿token进行训练。其轻量化设计使得CPU即可高效运行——据TechCrunch报道,该模型甚至可以在苹果M2芯片上流畅运行。目前该模型已在Hugging Face平台开放测试。
作为“1.58比特模型”(因其权重仅支持-1、0、+1三种取值),BitNet相比主流32/16位浮点模型节省约80%内存占用。尽管精简架构会降低精度,但相当于3300万本图书的训练数据量有效弥补了这一缺陷。对比测试显示,在与Meta的LLaMa 3.2 1B、谷歌Gemma 3 1B、阿里Qwen 2.5 1.5B等模型的较量中,BitNet在多项基准评估中表现优异:在内存占用方面仅需0.4GB,不足第二名Gemma 3 1B(1.4GB)的30%;响应延迟29毫秒,比Qwen 2.5快两倍有余;知识推理得分49.91分,显著优于其他竞品。
要实现最佳运行效率必须使用bitnet.cpp推理框架。研发团队特别指出,即便使用必要分支版本,标准transformer库也无法获得同等性能优势。目前该框架已在GitHub开源,其说明文档显示这套优化内核支持在CPU上实现1.58比特模型的无损快速推理(即将支持NPU/GPU)。虽然暂未适配AI专用硬件,但普通电脑用户已可通过该框架无需昂贵设备体验AI技术。
面对AI模型能耗过高的行业痛点,BitNet的轻量化方案为本地化部署开辟了新路径。这不仅可能降低对大型数据中心的依赖,更能让缺乏NPU处理器或顶级GPU的用户享受到人工智能技术的便利。