人工智能研究组织EleutherAI近日发布了号称规模最大的授权及公共领域文本数据集,用于训练AI模型。这个名为Common Pile v0.1的数据集由EleutherAIPoolsideHugging Face等AI初创公司及多所学术机构耗时两年共同完成,数据量达8TB。该数据集已被用于训练EleutherAI推出的两款新模型Comma v0.1-1TComma v0.1-2T,其性能据称可与使用未授权版权数据训练的模型媲美。

Cover Image

当前包括OpenAI在内的多家AI公司正面临诉讼,这些公司通过爬取网络数据(含受版权保护的书籍和研究期刊)构建训练数据集。尽管部分AI公司与内容提供商达成了授权协议,但多数公司仍以美国“合理使用”原则为由,主张无需为使用未经授权的版权内容承担责任。

EleutherAI指出,此类诉讼已“显著降低”AI公司的透明度,使得研究人员更难理解模型运作机制及潜在缺陷,对整个AI研究领域造成负面影响。该组织执行董事斯特拉·比德曼(Stella Biderman)在Hugging Face平台发文称:“诉讼并未实质性改变(模型)训练的数据获取方式,但极大削弱了企业的透明度。某些公司的研究人员明确表示,诉讼导致他们无法发布以数据为核心领域的研究成果。”

Common Pile v0.1数据集可通过Hugging Face开发平台和GitHub获取,其构建过程咨询了法律专家,数据来源包括美国国会图书馆和互联网档案馆数字化的30万本公共领域书籍。EleutherAI还使用OpenAI开源语音转文本模型Whisper处理音频内容。

据称,基于Common Pile v0.1部分数据训练的70亿参数模型Comma v0.1-1TComma v0.1-2T,在编程、图像理解和数学等基准测试中表现可媲美Meta的首代Llama模型。比德曼强调:“普遍认为未经授权的文本能提升模型性能的观点缺乏依据。随着可公开获取的授权及公共领域数据量增长,基于此类内容训练的模型质量将不断提高。”

Common Pile v0.1的发布部分旨在修正EleutherAI过往过失——该组织多年前发布的The Pile训练文本集曾因包含版权内容引发争议。EleutherAI承诺未来将与研究及基础设施合作伙伴更频繁地发布开源数据集。


文章标签: #人工智能 #数据集 #版权合规 #开源模型 #AI训练

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。