Meta首席执行官马克·扎克伯格在去年年底的证词中,似乎拿YouTube打击盗版内容的行动来为Meta使用包含版权电子书的数据集辩护。这份证词是作为原告律师提交给法庭的诉状的一部分,与AI版权案“卡德雷诉Meta Platforms”有关。此类案件在美国法院系统中有很多,将AI公司与作者等知识产权持有者对立起来。AI公司大多声称对版权内容的训练属于“合理使用”,但许多版权持有者并不认同。
扎克伯格在证词中说:“例如YouTube,我认为可能会在一段时间内托管一些人们盗版的东西,但YouTube正在努力将这些东西下架。而且我猜想YouTube上的绝大多数内容都是好的,并且他们有授权这么做。”扎克伯格证词的片段让人们看到了他对版权内容和合理使用的思考,不过证词的完整记录并未公布。媒体已联系Meta以获取更多背景信息。
从证词片段来看,扎克伯格似乎在为Meta使用名为LibGen的电子书训练数据集来开发其名为Llama的AI模型家族辩护。Meta的Llama与OpenAI等AI公司的旗舰模型竞争。
LibGen自称为“链接聚合器”,提供来自出版商(包括Cengage Learning、Macmillan Learning、McGraw Hill和Pearson Education)的版权作品的访问权限。LibGen曾多次被起诉,被责令关闭,并因版权侵权被罚款数千万美元。
据本周解封的法庭文件显示,尽管公司内部的AI高管和研究团队对法律影响存在担忧,扎克伯格还是批准使用LibGen来训练Meta至少一个Llama模型。原告律师,包括畅销书作家萨拉·西尔弗曼和塔 - 内西·科茨,引用Meta员工将LibGen称为“我们知道是盗版的数据集”,并指出其使用“可能会破坏Meta与监管机构的谈判地位”。
在证词中,扎克伯格声称他“真的没听说过”LibGen。在原告律师之一大卫·博伊斯的提问下,扎克伯格解释了为什么禁止使用像LibGen这样的数据集是不合理的。他说:“那我会想要制定一项禁止人们使用YouTube的政策,因为其中一些内容可能是版权作品吗?不会。因为在某些情况下,实施这样的全面禁令可能不是正确的事情。”扎克伯格确实表示,Meta在训练版权材料时应该“相当谨慎”。
自2023年在美国加利福尼亚北区联邦地区法院旧金山分部提起诉讼以来,“卡德雷诉Meta Platforms”案的原告律师已多次修改诉状。原告律师周三晚间提交的最新修改诉状包含了对Meta的新指控,包括该公司将LibGen中某些盗版书籍与可供授权的版权书籍进行交叉比对。
律师声称Meta使用这种策略来确定是否值得与出版商签订许可协议。据修改后的诉状称,Meta据称使用LibGen来训练其最新的Llama模型家族——Llama 3。原告还声称Meta正在使用该数据集来训练下一代Llama 4模型。
据修改后的诉状称,Meta研究人员据称试图通过在Llama的微调中插入“监督样本”来掩盖Llama模型是基于版权材料训练的事实。并且据修改后的诉状指控,Meta最近还在2024年4月从另一个来源Z - Library下载盗版电子书用于Llama训练。Z - Library曾是众多由出版商发起的法律行动的对象,包括域名扣押和下架。2022年,据称维护该网站的俄罗斯国民被指控犯有版权侵权、电信诈骗和洗钱罪。