推理型人工智能模型的开发正变得越来越容易且成本更低。上周五,加州大学伯克利分校Sky Computing Lab的研究团队NovaSky,发布了一个名为Sky-T1-32B-Preview的推理模型。这个模型在多个关键的性能测试中,与OpenAI早期版本的o1模型不相上下。Sky-T1可以说是第一个真正意义上的开源推理模型,因为它可以从头开始复制,该团队不仅公开了他们用于训练模型的数据集,还提供了必要的训练代码。
该团队在博客文章中提到,“令人惊讶的是,Sky-T1-32B-Preview的训练成本不到450美元,这表明以经济实惠且高效的方式复制高级推理能力是完全可能的。”虽然450美元对于很多人来说可能不算便宜,但与过去相比,训练一个性能相当的模型成本曾高达数百万美元,如今成本大幅降低。合成训练数据,也就是由其他模型生成的数据,是推动成本下降的关键因素。比如AI公司Writer最近发布的Palmyra X 004模型,几乎全部使用合成数据进行训练,其开发成本据报道仅为70万美元。
与大多数人工智能模型不同,推理模型能够有效地自我核查事实,这有助于它们避免一些常见的错误。不过,推理模型得出结果的时间相对较长,通常比普通非推理模型多出几秒到几分钟。但好处在于,在物理学、科学和数学等领域,推理模型往往更加可靠。
NovaSky团队表示,他们使用阿里巴巴的QwQ-32B-Preview模型来生成Sky-T1的初始训练数据,然后对数据进行筛选和整理,并借助OpenAI的GPT-4o-mini模型将数据转换成更易于处理的格式。训练拥有320亿参数的Sky-T1模型,大约用了19个小时,使用了8个英伟达H100 GPU。参数数量大致可以理解为模型解决问题的能力。
据NovaSky团队介绍,Sky-T1在MATH500上的表现超过了o1的早期预览版,MATH500是一系列竞赛级别的数学挑战。此外,Sky-T1还在LiveCodeBench的一组难题上胜过了o1的预览版,LiveCodeBench是一个用于编程评估的平台。
然而,Sky-T1在GPQA-Diamond上的表现不如o1的预览版,GPQA-Diamond包含物理、生物和化学相关的问题,这些问题是一个博士毕业生应该掌握的知识。
值得注意的是,OpenAI的o1正式版比预览版性能更强,而且预计OpenAI将在未来几周推出性能更优的推理模型o3。
不过,NovaSky团队表示,Sky-T1只是他们开发具有高级推理能力的开源模型的起点。他们在博客文章中写道,“未来,我们将致力于开发更高效的模型,同时保持强大的推理性能,并探索先进的技术,以进一步提升模型在测试时的效率和准确性。请大家继续关注我们在这些令人兴奋的项目上取得的进展。”