在Kadrey等人诉Meta一案中,原告方提交动议,指控Meta在其AI模型开发过程中明知故犯地使用了受版权保护的作品。
原告方包括作家理查德·卡德雷,他们向美国加利福尼亚北区联邦地区法院提交了“支持原告申请提交第三次修订合并诉状的答复”。
文件指出,Meta系统性地通过种子下载并从盗版数据集中删除版权管理信息,其中就包括臭名昭著的影子图书馆LibGen的作品。
据最近提交给法庭的文件显示,证据揭露了涉及Meta高层领导的极具犯罪性的行为。原告声称,尽管公司人工智能高管提出了内部担忧,但Meta首席执行官马克·扎克伯格明确批准使用LibGen数据集。
2024年12月的一份内部Meta讨论备忘录承认LibGen是“我们知道是盗版的数据集”,引发了关于使用此类材料的道德和法律后果的争论。文件还显示,顶级工程师犹豫是否要下载这些数据集,他们担心使用公司笔记本电脑进行可能的非法活动。
此外,内部通信表明,在获得LibGen数据集后,Meta删除了其中受版权保护作品的版权管理信息,这是原告强调的版权侵权主张的核心内容。
据Meta公司代表迈克尔·克拉克的证词,公司实施了脚本,旨在删除任何标识这些作品受版权保护的信息,包括“版权”“致谢”或此类文本中常用的行。克拉克证实,这种做法是故意为之,以准备数据集用于训练Meta的Llama人工智能模型。
针对Meta的指控描绘了一个公司明知故犯地参与通过种子下载进行的广泛盗版计划的形象。 根据作为证据提交的一系列电子邮件,Meta工程师对从公司场所种子下载盗版数据集的外观表示担忧。一名工程师指出,“从Meta所有的公司笔记本电脑上种子下载感觉不对劲”,但尽管有所犹豫,盗版数据的快速下载和分发还是发生了。
原告的法律顾问表示,直到2024年1月,Meta已经从LibGen种子下载了数据。此外,记录显示,Meta几个月前最初就获得了数百份相关文件,但在早期发现过程中却予以隐瞒。原告认为,这种延迟披露是Meta出于恶意试图阻碍获取关键证据。
在2024年12月17日的一次证词中,扎克伯格本人据报道承认,此类活动会引发很多问题,并表示这看起来像是坏事,尽管他对于Meta更广泛的AI训练实践问题给出了有限的直接回应。 这起案件最初是作为代表作者和出版商的知识产权侵权行动开始的,他们声称与AI使用其材料有关的违规行为。然而,原告现在寻求在其诉讼中增加两项主要主张:违反《数字千年版权法》和违反《加利福尼亚综合数据访问和欺诈法》。
根据《数字千年版权法》,原告声称Meta明知故犯地移除版权保护,以掩盖其Llama模型中未经授权使用受版权保护文本的行为。
正如诉状中所引用的,Meta据称删除版权管理信息是为了减少模型记住这些数据的可能性,并且这种移除权利管理指标的做法使得版权所有者发现侵权行为更加困难。
《加利福尼亚综合数据访问和欺诈法》的指控涉及Meta获取LibGen数据集的方法,包括据称从事种子下载以在未经许可的情况下获取受版权保护的数据集。内部文件显示,Meta工程师公开讨论了播种和种子下载可能在法律上不合适的问题。
原告方认为,从文本数据集中删除版权保护,剥夺了版权所有者应得的补偿,并允许Meta在作者和出版商创造性努力的财务废墟上构建像Llama这样的AI系统。
这些指控的时机正值全球对“生成式AI”技术的高度关注之际。像OpenAI、谷歌和Meta这样的公司都因使用受版权保护的数据来训练其模型而受到批评。各地法院目前正在努力应对AI对权利管理的长期影响,美国和英国都有可能具有里程碑意义的案件正在裁决。
在这一特定案件中,美国法院表现出越来越愿意听取关于AI可能对长期确立的版权法先例造成损害的投诉。原告在其动议中引用了《拦截者媒体诉OpenAI》一案,这是纽约最近的一个类似《数字千年版权法》主张被允许继续进行的裁决。
无论原告是否在这次修正中成功,世界各地的作者都面临着对其创造性作品在AI背景下处理方式日益增长的焦虑。随着版权法努力跟上技术进步的步伐,这一案件凸显了在国际层面上需要更明确的指导,以保护创作者和创新者。
对于Meta来说,这些指控也代表着一种声誉风险。随着AI成为其未来战略的核心,依赖盗版图书馆的指控不太可能有助于其在该领域保持领导地位的雄心。
Kadrey等人诉Meta案的展开可能对未来的AI模型开发产生深远影响,可能会在美国乃至更广泛地区设定法律先例。