Eleuther AI发布最大授权文本数据集，推动AI合规训练

人工智能研究组织EleutherAI近日发布了号称规模最大的授权及公共领域文本数据集，用于训练AI模型。这个名为Common Pile v0.1的数据集由EleutherAI与Poolside、Hugging Face等AI初创公司及多所学术机构耗时两年共同完成，数据量达8TB。该数据集已被用于训练EleutherAI推出的两款新模型Comma v0.1-1T和Comma v0.1-2T，其性能据称可与使用未授权版权数据训练的模型媲美。

Cover Image

当前包括OpenAI在内的多家AI公司正面临诉讼，这些公司通过爬取网络数据（含受版权保护的书籍和研究期刊）构建训练数据集。尽管部分AI公司与内容提供商达成了授权协议，但多数公司仍以美国“合理使用”原则为由，主张无需为使用未经授权的版权内容承担责任。

EleutherAI指出，此类诉讼已“显著降低”AI公司的透明度，使得研究人员更难理解模型运作机制及潜在缺陷，对整个AI研究领域造成负面影响。该组织执行董事斯特拉·比德曼(Stella Biderman)在Hugging Face平台发文称：“诉讼并未实质性改变（模型）训练的数据获取方式，但极大削弱了企业的透明度。某些公司的研究人员明确表示，诉讼导致他们无法发布以数据为核心领域的研究成果。”

Common Pile v0.1数据集可通过Hugging Face开发平台和GitHub获取，其构建过程咨询了法律专家，数据来源包括美国国会图书馆和互联网档案馆数字化的30万本公共领域书籍。EleutherAI还使用OpenAI开源语音转文本模型Whisper处理音频内容。

据称，基于Common Pile v0.1部分数据训练的70亿参数模型Comma v0.1-1T和Comma v0.1-2T，在编程、图像理解和数学等基准测试中表现可媲美Meta的首代Llama模型。比德曼强调：“普遍认为未经授权的文本能提升模型性能的观点缺乏依据。随着可公开获取的授权及公共领域数据量增长，基于此类内容训练的模型质量将不断提高。”

Common Pile v0.1的发布部分旨在修正EleutherAI过往过失——该组织多年前发布的The Pile训练文本集曾因包含版权内容引发争议。EleutherAI承诺未来将与研究及基础设施合作伙伴更频繁地发布开源数据集。

搜索结果如下

阅读全文

Eleuther AI发布最大授权文本数据集，推动AI合规训练

也可以看看

《噬血代码II》定档2026年1月30日，登陆PC和主机平台

阅读全文

《微软飞行模拟器2024》将于12月8日登陆PS5，2026年支持PS VR2

阅读全文

亨利·卡维尔动作大片票房惨败，流媒体平台重获新生

阅读全文