多方指控OpenAI在未经许可的情况下使用受版权保护的内容训练其人工智能。近日,一家AI监督机构发布的最新研究报告提出严厉指控:该公司为训练更复杂的AI模型,越来越多地依赖未经授权的非公开书籍数据。

Cover Image

AI模型本质上是复杂的预测引擎。通过海量数据(书籍、影视作品等)训练,它们能掌握从简单指令中推导新模式的技巧。当模型“撰写”关于希腊悲剧的论文或“绘制”吉卜力(Ghibli)风格图像时,实际上只是在调用其庞大的知识库进行模仿,而非创造真正的新内容。

尽管包括OpenAI在内的多家AI实验室已开始使用AI生成的数据进行训练(因现实世界数据源——主要是公共网络——已趋枯竭),但完全放弃真实数据的机构寥寥无几。这很可能因为纯合成数据训练存在导致模型性能下降等风险。

这份由非营利组织“AI信息披露项目”发布的研究报告得出结论:OpenAI可能使用奥莱利传媒(O'Reilly Media)的付费墙书籍训练了其GPT-4o模型。该组织由媒体大亨蒂姆·奥莱利(Tim O'Reilly)与经济学家伊兰·斯特劳斯(Ilan Strauss)于2024年共同创立。(注:奥莱利同时担任奥莱利传媒CEO)

研究指出,在ChatGPT中,GPT-4o是默认模型,而奥莱利传媒与OpenAI并不存在版权授权协议。报告联合作者写道:“相比早期模型GPT-3.5 Turbo,OpenAI最新推出的GPT-4o对奥莱利付费书籍内容展现出更强的识别能力……而GPT-3.5 Turbo对公开样本的识别率更高。”

研究采用名为DE-COP的检测方法(该方法于2024年首次在学术研究中提出),旨在识别语言模型训练数据中的版权内容。这种被称为“成员推理攻击”的技术通过测试模型能否区分人类原创文本与AI改写版本来判断训练数据来源。若模型表现出这种能力,则暗示其训练数据可能包含相关文本。

三位联合作者——奥莱利、斯特劳斯与AI研究员斯鲁利·罗森布拉特(Sruly Rosenblat)表示,他们检测了GPT-4o、GPT-3.5 Turbo等OpenAI模型对训练截止日期前后出版的奥莱利书籍的掌握程度。研究选取34本奥莱利书籍中的13962个段落节选,通过统计建模估算特定内容被纳入训练数据的概率。

报告结果显示,即使排除模型代际性能差异等干扰因素,GPT-4o对奥莱利付费内容的“识别率”仍显著高于旧版模型。作者特别指出:“GPT-4o很可能识别并预先掌握了大量训练截止前出版的非公开奥莱利书籍。”

但研究者谨慎强调,这并非确凿证据。他们承认实验方法存在局限,OpenAI也可能通过用户复制粘贴行为间接获取付费内容。此外,研究未涵盖OpenAI最新模型系列(包括GPT-4.5及o3-mini、o1等推理模型),这些模型可能未使用或较少使用奥莱利付费数据进行训练。

值得注意的是,长期倡导放宽版权数据使用限制的OpenAI,近年来确实在持续寻求更高质量的训练数据。该公司甚至聘请记者参与模型输出优化,这种聘请科学、物理等领域专家“投喂”专业知识的做法已成为行业普遍趋势。

需说明的是,OpenAI为部分训练数据支付了费用,与新闻出版商、社交平台、素材库等机构存在版权协议,同时提供(尚不完善的)内容退出机制供版权方申请禁用。然而随着OpenAI在美国法院面临多起训练数据诉讼,这份报告的指控无疑雪上加霜。

截至发稿,OpenAI未回应置评请求。


文章标签: #AI侵权 #OpenAI #版权争议 #GPT4o #数据训练

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。