研究指OpenAI用付费书籍训练AI模型，涉嫌侵权

多方指控OpenAI在未经许可的情况下使用受版权保护的内容训练其人工智能。近日，一家AI监督机构发布的最新研究报告提出严厉指控：该公司为训练更复杂的AI模型，越来越多地依赖未经授权的非公开书籍数据。

Cover Image

AI模型本质上是复杂的预测引擎。通过海量数据（书籍、影视作品等）训练，它们能掌握从简单指令中推导新模式的技巧。当模型“撰写”关于希腊悲剧的论文或“绘制”吉卜力（Ghibli）风格图像时，实际上只是在调用其庞大的知识库进行模仿，而非创造真正的新内容。

尽管包括OpenAI在内的多家AI实验室已开始使用AI生成的数据进行训练（因现实世界数据源——主要是公共网络——已趋枯竭），但完全放弃真实数据的机构寥寥无几。这很可能因为纯合成数据训练存在导致模型性能下降等风险。

这份由非营利组织“AI信息披露项目”发布的研究报告得出结论：OpenAI可能使用奥莱利传媒（O'Reilly Media）的付费墙书籍训练了其GPT-4o模型。该组织由媒体大亨蒂姆·奥莱利（Tim O'Reilly）与经济学家伊兰·斯特劳斯（Ilan Strauss）于2024年共同创立。（注：奥莱利同时担任奥莱利传媒CEO）

研究指出，在ChatGPT中，GPT-4o是默认模型，而奥莱利传媒与OpenAI并不存在版权授权协议。报告联合作者写道：“相比早期模型GPT-3.5 Turbo，OpenAI最新推出的GPT-4o对奥莱利付费书籍内容展现出更强的识别能力……而GPT-3.5 Turbo对公开样本的识别率更高。”

研究采用名为DE-COP的检测方法（该方法于2024年首次在学术研究中提出），旨在识别语言模型训练数据中的版权内容。这种被称为“成员推理攻击”的技术通过测试模型能否区分人类原创文本与AI改写版本来判断训练数据来源。若模型表现出这种能力，则暗示其训练数据可能包含相关文本。

三位联合作者——奥莱利、斯特劳斯与AI研究员斯鲁利·罗森布拉特（Sruly Rosenblat）表示，他们检测了GPT-4o、GPT-3.5 Turbo等OpenAI模型对训练截止日期前后出版的奥莱利书籍的掌握程度。研究选取34本奥莱利书籍中的13962个段落节选，通过统计建模估算特定内容被纳入训练数据的概率。

报告结果显示，即使排除模型代际性能差异等干扰因素，GPT-4o对奥莱利付费内容的“识别率”仍显著高于旧版模型。作者特别指出：“GPT-4o很可能识别并预先掌握了大量训练截止前出版的非公开奥莱利书籍。”

但研究者谨慎强调，这并非确凿证据。他们承认实验方法存在局限，OpenAI也可能通过用户复制粘贴行为间接获取付费内容。此外，研究未涵盖OpenAI最新模型系列（包括GPT-4.5及o3-mini、o1等推理模型），这些模型可能未使用或较少使用奥莱利付费数据进行训练。

值得注意的是，长期倡导放宽版权数据使用限制的OpenAI，近年来确实在持续寻求更高质量的训练数据。该公司甚至聘请记者参与模型输出优化，这种聘请科学、物理等领域专家“投喂”专业知识的做法已成为行业普遍趋势。

需说明的是，OpenAI为部分训练数据支付了费用，与新闻出版商、社交平台、素材库等机构存在版权协议，同时提供（尚不完善的）内容退出机制供版权方申请禁用。然而随着OpenAI在美国法院面临多起训练数据诉讼，这份报告的指控无疑雪上加霜。

截至发稿，OpenAI未回应置评请求。

搜索结果如下

阅读全文

研究指OpenAI用付费书籍训练AI模型，涉嫌侵权

也可以看看

真实二手车经营模拟游戏《汽车经销商模拟器》5月30日发售，查定整备销售全流程体验

阅读全文

Anthropic建议调整美国AI芯片出口管制，支持技术管控框架

阅读全文

《死神来了6》超前口碑炸裂，系列最佳血腥盛宴来袭

阅读全文