想调暗飞利浦Hue灯光,却遭全屏弹窗广告干扰
阅读全文

锤刻创思寰宇网
人工智能研究组织EleutherAI近日发布了号称规模最大的授权及公共领域文本数据集,用于训练AI模型。这个名为Common Pile v0.1的数据集由EleutherAI与Poolside、Hugging Face等AI初创公司及多所学术机构耗时两年共同完成,数据量达8TB。该数据集已被用于训练EleutherAI推出的两款新模型Comma v0.1-1T和Comma v0.1-2T,其性能据称可与使用未授权版权数据训练的模型媲美。
当前包括OpenAI在内的多家AI公司正面临诉讼,这些公司通过爬取网络数据(含受版权保护的书籍和研究期刊)构建训练数据集。尽管部分AI公司与内容提供商达成了授权协议,但多数公司仍以美国“合理使用”原则为由,主张无需为使用未经授权的版权内容承担责任。
EleutherAI指出,此类诉讼已“显著降低”AI公司的透明度,使得研究人员更难理解模型运作机制及潜在缺陷,对整个AI研究领域造成负面影响。该组织执行董事斯特拉·比德曼(Stella Biderman)在Hugging Face平台发文称:“诉讼并未实质性改变(模型)训练的数据获取方式,但极大削弱了企业的透明度。某些公司的研究人员明确表示,诉讼导致他们无法发布以数据为核心领域的研究成果。”
Common Pile v0.1数据集可通过Hugging Face开发平台和GitHub获取,其构建过程咨询了法律专家,数据来源包括美国国会图书馆和互联网档案馆数字化的30万本公共领域书籍。EleutherAI还使用OpenAI开源语音转文本模型Whisper处理音频内容。
据称,基于Common Pile v0.1部分数据训练的70亿参数模型Comma v0.1-1T和Comma v0.1-2T,在编程、图像理解和数学等基准测试中表现可媲美Meta的首代Llama模型。比德曼强调:“普遍认为未经授权的文本能提升模型性能的观点缺乏依据。随着可公开获取的授权及公共领域数据量增长,基于此类内容训练的模型质量将不断提高。”
Common Pile v0.1的发布部分旨在修正EleutherAI过往过失——该组织多年前发布的The Pile训练文本集曾因包含版权内容引发争议。EleutherAI承诺未来将与研究及基础设施合作伙伴更频繁地发布开源数据集。