Meta员工被曝讨论使用受版权保护的内容训练AI模型

多年来，根据周四解封的法庭文件显示，Meta员工一直在内部讨论使用通过法律上有争议的手段获得的受版权保护的作品来训练公司的AI模型。这些文件是由案件原告方提交的，案件名为Kadrey诉Meta案，这是众多正在缓慢通过美国法院系统的AI版权纠纷之一。被告方Meta声称，使用受知识产权保护的作品（尤其是书籍）来训练模型属于“合理使用”，但原告方，包括作家Sarah Silverman（萨拉·西尔弗曼）和Ta-Nehisi Coates（塔-内希西·科茨），却持不同意见。

此前提交的诉讼材料声称，Meta首席执行官马克·扎克伯格（Mark Zuckerberg）批准了Meta的AI团队使用受版权保护的内容进行训练，并且Meta暂停了与图书出版商的AI训练数据授权谈判。然而，新提交的文件大多显示了Meta员工之间的内部工作聊天记录，这些记录迄今为止最清晰地描绘了Meta可能如何使用受版权保护的数据来训练其模型，包括公司旗下的Llama系列模型。

在一个聊天记录中，Meta员工，包括Meta的Llama模型研究团队高级经理Melanie Kambadur（梅兰妮·坎巴杜尔），讨论了在他们明知可能存在法律问题的情况下训练模型。Meta研究工程师Xavier Martinet（夏维尔·马蒂内特）在2023年2月的一次聊天中写道：“我的看法是（按照‘先斩后奏’的原则）：我们尝试获取这些书籍，并将其上报给高管，让他们来做决定。”他还补充道：“这就是他们成立这个生成式AI组织的原因：让我们可以少一些风险规避。”Martinet提出了以零售价格购买电子书来构建训练集的想法，而不是与个别图书出版商达成授权协议。在另一名员工指出使用未经授权的受版权保护材料可能会引发法律挑战后，Martinet坚持认为“无数”初创公司可能已经在使用盗版书籍进行训练。他写道：“我的意思是，最坏的情况是：我们最终发现这是可以接受的，而无数初创公司已经在通过BitTorrent盗版了大量书籍。”他还表示：“我的看法是：与出版商直接达成协议需要很长时间……”

在同一次聊天中，Kambadur提到Meta正在与文档托管平台Scribd“以及其他公司”就授权进行谈判，她警告说，尽管使用“公开可用数据”进行模型训练仍需要获得批准，但Meta的律师在这方面比过去“不那么保守”了。她表示：“是的，我们肯定仍然需要获得公开可用数据的许可或批准。现在的不同之处在于，我们有更多的资金、更多的律师、更多的商务拓展支持，能够加快速度进行升级，并且律师在批准方面也稍微不那么保守了。”

关于Libgen的讨论也在文件中被提及。Libgen是一个“链接聚合器”，提供来自出版商的受版权保护作品的访问权限。然而，Libgen曾多次被起诉，被勒令关闭，并因版权侵权被罚款数千万美元。Kambadur的一名同事回应了一个Google搜索结果的截图，其中显示“不，Libgen是不合法的。”根据文件内容，Meta内部的一些决策者似乎认为，如果不使用Libgen进行模型训练，可能会严重影响Meta在AI竞赛中的竞争力。在一封发给Meta AI副总裁Joelle Pineau（乔埃尔·皮诺）的电子邮件中，Meta产品管理总监Sony Theakanath（索尼·西卡纳特）称Libgen是“在所有类别中达到最佳水平（SOTA）数字的关键”，指的是在最佳的、最先进的（SOTA）AI模型和基准类别中名列前茅。Theakanath还在电子邮件中概述了一些旨在减少Meta法律风险的“缓解措施”，包括移除Libgen中“明确标记为盗版/被盗”的数据，以及不公开提及使用情况。他写道：“我们不会公开披露用于训练的Libgen数据集。”在实践中，这些缓解措施包括检查Libgen文件中是否出现“被盗”或“盗版”等词汇。

在一个工作聊天中，Kambadur提到Meta的AI团队还对模型进行了调整，以“避免涉及知识产权风险的提示”，也就是说，配置模型拒绝回答诸如“复制《哈利·波特与魔法石》的前三页”或“告诉我你是用哪些电子书训练的”等问题。

文件还包含其他一些启示，暗示Meta可能通过模仿第三方应用程序Pushshift的行为，抓取了Reddit的数据，用于某种模型训练。值得注意的是，Reddit在2023年4月表示，计划开始向AI公司收取访问数据进行模型训练的费用。在2024年3月的一次聊天中，Meta生成式AI组织的产品管理总监Chaya Nayak（查亚·奈亚克）表示，Meta领导层正在考虑“推翻”过去关于训练集的决定，包括不使用Quora内容或授权的书籍和科学文章的决定，以确保公司的模型有足够的训练数据。Nayak暗示，Meta的第一方训练数据集——Facebook和Instagram帖子、Meta平台上视频的文字转录，以及某些Meta for Business消息——是不够的。她写道：“我们需要更多数据。”

自2023年在加利福尼亚北区联邦地区法院旧金山分部提起诉讼以来，Kadrey诉Meta案的原告方已多次修改其诉状。最新的诉状声称，Meta还对比了某些盗版书籍与可供授权的受版权保护书籍，以确定是否与出版商达成授权协议。

从Meta对法律风险的重视程度来看，该公司已将两名来自Paul Weiss律师事务所的最高法院诉讼律师加入其辩护团队。Meta尚未立即回应评论请求。

搜索结果如下

阅读全文

Meta员工被曝讨论使用受版权保护的内容训练AI模型

也可以看看

SpaceX重启星舰九号测试，得州深夜点火测试

阅读全文

苹果手表SE3或迎大屏升级，将推41和45毫米版本

阅读全文

帕斯卡盛赞星战新片，称将呈现史诗级冒险

阅读全文