微软(Microsoft)研究人员宣称,他们研发出了迄今为止规模最大的1比特人工智能模型(亦称“比特网”)。这款名为BitNet b1.58 2B4T的模型已在MIT许可协议下开源,可在包括苹果(Apple)M2芯片在内的CPU上运行。

Cover Image

比特网本质上是专为轻量级硬件设计的压缩模型。在标准模型中,决定模型内部结构的权重值通常会被量化处理,以确保模型在各种机器上都能良好运行。量化过程通过减少表示权重所需的比特数(计算机能处理的最小单位),使得模型能在内存更小、速度更快的芯片上运行。

与传统模型不同,比特网将权重量化为仅三个数值:-1、0和1。从理论上讲,这使其内存占用和计算效率远超当前大多数模型。

微软团队表示,BitNet b1.58 2B4T是首个拥有20亿参数的比特网(“参数”基本等同于“权重”)。该模型在4万亿token(据估算相当于约3300万本书籍)的数据集上训练完成,其表现优于同类规模的传统模型。

需要说明的是,BitNet b1.58 2B4T虽未全面碾压其他20亿参数模型,但表现堪称亮眼。研究人员的测试数据显示,该模型在GSM8K(小学难度数学题集)和PIQA(物理常识推理测试)等基准测试中,表现优于Meta的Llama 3.2 1B、谷歌(Google)的Gemma 3 1B以及阿里巴巴(Alibaba)的Qwen 2.5 1.5B。

更令人印象深刻的是,BitNet b1.58 2B4T在内存占用大幅降低的同时,运行速度达到同类模型的1-2倍。

但这项技术存在局限性:要发挥其性能优势,必须使用微软定制框架bitnet.cpp,而该框架目前仅支持特定硬件。在已支持的芯片列表中,占据AI基础设施主流的GPU尚未包含在内。

由此可见,比特网技术确实展现出巨大潜力,尤其适用于资源受限的设备。但兼容性问题目前仍是——且很可能长期都是——其推广过程中的主要障碍。


文章标签: #微软 #AI模型 #开源 #比特网 #CPUs

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。