开发Claude AI的Anthropic公司已同意支付至少15亿美元,就作者团体因其大型语言模型训练中使用盗版书籍而提起的集体诉讼达成和解。这项于9月5日提交的和解协议,结束了持续数月的法律诉讼,此案可能改变人工智能公司获取和管理模型训练数据的方式。

Cover Image

该集体诉讼由作家安德里亚·巴尔塔(Andrea Barta)查尔斯·格雷伯(Charles Graeber)柯克·华莱士·约翰逊(Kirk Wallace Johnson)牵头,指控AnthropicLibrary GenesisPirate MirrorBooks3等基于种子文件的来源下载了数十万本受版权保护的书籍。原告方声称,这种行为使得该公司能够构建Claude的基础数据集。

今年6月,一名联邦法官允许此案就未经授权的数字复制这一具体问题继续进行审理,为12月的审判奠定了基础。然而,Anthropic现已同意设立一项起始金额为15亿美元的不可撤销和解基金,每部被侵权的作品将获得约3000美元的赔偿。随着更多被侵权的作品被确认,这一数字可能会增加。

根据协议,Anthropic还将被要求删除侵权数据,不过目前没有迹象表明法院将依据当前协议强制该公司删除其模型或重新进行训练——这一过程被称为模型吐出(model disgorgement)。

这标志着迄今为止公开披露的规模最大的人工智能版权和解案。OpenAI也在另一起事件中与出版商达成了和解,但这些交易的具体细节是保密的。虽然Anthropic的和解并不承认其有任何不当行为,但巨额赔付为生成式人工智能开发中的数据责任设立了新的基准。

值得注意的是,此案并未挑战在公开或合法获取的内容上训练人工智能的更广泛合法性——这仍然是一个正在法院审理中的独立问题——但它确实凸显了使用盗版材料所面临的法律风险和潜在的财务成本,即使其意图是研究并且内容后来被购买。

正如阿尔苏普(Alsup)法官在其6月份的裁决中所言:“Anthropic后来购买了它早先从互联网上窃取的一本书的副本,这并不能免除其盗窃的责任,”并补充说,这可能会影响应支付给权利人的法定赔偿金额。

如果基于盗版数据训练的模型面临诉讼或潜在的强制重新训练,开发人员可能需要从头开始使用干净的、获得许可的数据集。这意味着重做已经消耗了数百万GPU小时的训练运行,从而极大地推动了对计算的需求。随着法院强制实验室匆忙重新验证其模型,英伟达(Nvidia)H100和即将推出的Blackwell GPU,以及AMDMI300XHBM3e供应商,都可能从中受益。

目前这还只是推测,但法院未来如何裁决相关事项将值得关注。


文章标签: #AI版权 #集体诉讼 #盗版数据 #模型训练 #法律风险

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。