英伟达(Nvidia)被指控曾提出向著名的“影子图书馆”门户网站安娜档案馆(Anna's Archive)付费,以获取其海量侵权材料的“高速访问”权限。TorrentFreak发布的文件似乎显示,英伟达数据战略团队曾就支付“高速访问”安娜档案馆的费用事宜进行接洽。此外,如果文件属实,它们表明英伟达管理层在“一周内”就批准了该付款计划。

Cover Image

与其他人工智能行业巨头一样,英伟达对获取最大规模的人类知识来源以提升大语言模型训练质量非常感兴趣。此前,MetaAnthropic等公司也曾被发现大量使用盗版内容。这些超级富有的公司对自己的技术严防死守,因此,有证据表明它们似乎对他人的知识产权漠不关心,这颇具讽刺意味。

TorrentFreak指出,其分享的电子邮件片段是在一起正在进行的集体诉讼的证据开示阶段曝光的。在该诉讼中,英伟达被指控使用来自Books3数据集的内容(包括从盗版网站Bibliotik获取的受版权保护的作品)训练其模型,从而侵犯了版权。

在该案中,英伟达以“合理使用”为由为其行为辩护,但显示其与安娜档案馆通信的新证据似乎很有说服力。事实上,据TorrentFreak报道,Books3集体诉讼的发起方已提交了修订后的起诉书,大幅扩大了诉讼范围。

上图显示了英伟达代表安娜档案馆之间最具破坏性的通信片段之一。该片段似乎显示一位未具名的英伟达高管询问将安娜档案馆用于大语言模型训练的事宜。

然而,可能更糟糕的是新法庭文件中的部分内容,该部分指控称:“在联系安娜档案馆后的一周内,以及在安娜档案馆警告其馆藏具有非法性质几天后,英伟达管理层就‘开了绿灯’,允许继续进行盗版行为。”

拟议的交易意味着为英伟达提供约500TB数据的高速访问权限,用于大语言模型训练。目前没有证据表明该交易最终达成,或任何款项支付给了安娜档案馆

英伟达还被指控向企业客户自动提供对包含Books3盗版合集在内的“The Pile”等数据集的访问权限。集体诉讼的发起方正在为他们所遭受的损害寻求赔偿。作品被纳入这个庞大盗版图书馆的数百名其他作者后续也可能加入集体诉讼。

安娜档案馆目前仍在运营,但其日益增长的知名度已将其推入了不可避免的DMCA删除通知“打地鼠”阶段。如前文所述,MetaAnthropic的大语言模型也曾挖掘过“Books3”。然而,这是首次有指控称一家美国公司与这个侵犯版权的图书资料库之间存在正式的安娜档案馆商业安排。


文章标签: #英伟达 #安娜档案馆 #盗版图书 #集体诉讼 #AI训练

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。