英伟达(Nvidia)正在反驳关于其使用盗版书籍训练人工智能模型的指控,该公司向加利福尼亚州联邦法院表示,其与“安娜档案馆(Anna's Archive)”图书馆所谓的接触并不构成版权侵权的证据。

在1月29日提交的驳回动议中,该公司辩称,尽管原告方在纳泽米安诉英伟达(Nazemian v Nvidia)一案中扩充了诉状,加入了新的理论和数据集,但他们未能合理证明其特定作品被下载或用于训练。
纳泽米安案于2024年初提起,在加利福尼亚州北区法院由乔恩·泰加(Jon Tigar)法官审理。该案指控英伟达的人工智能工具和参考模型使用了来自所谓“影子图书馆”(包括安娜档案馆和Books3)的受版权保护的书籍进行训练。原告的修正诉状提及了据称是英伟达员工内部讨论的内容,其中他们寻求确认能否访问安娜档案馆,原告方认为这构成了非法使用的证据。
在其驳回动议中,英伟达辩称,修正后的诉状甚至未能提出版权侵权索赔所需的最基本要素。根据提交的文件,原告“没有陈述事实表明英伟达复制了他们的任何受版权保护的作品、任何此类复制行为何时发生,或者哪些英伟达模型据称包含了这些作品。”该公司表示,没有这些细节,指控完全是推测性的。
针对安娜档案馆的指控,英伟达直接回应称,虽然申诉书描述了关于可能访问该网站的内部讨论和询问,但他们并未指控英伟达实际上从该网站获取或下载了原告的任何作品。动议进一步辩称,讨论或评估潜在的数据来源不等同于复制受版权保护的材料,版权法要求原告陈述事实以表明受保护作品被复制。“英伟达同样可能并未获取原告的作品。”
英伟达毫不留情地批评了原告方依赖“基于信息和信念”的指控,认为这种方法不当试图以证据开示程序替代诉状陈述。英伟达在动议中进一步提醒法院,版权原告必须在证据开示开始前就提出侵权指控,而不是依赖证据开示来确定侵权是否发生,而本案中的安娜档案馆似乎正试图这样做。
除了安娜档案馆,英伟达还试图通过质疑修正诉状中新增的其他数据集和模型(例如Megatron 345M)来缩小案件范围,辩称原告不当将多个模型和工具混为一谈,却没有解释任何特定模型是如何使用他们的作品进行训练的。在多个实例中,英伟达援引其自身的公开文档,认为原告关于训练数据的假设与公开可得的资料相矛盾。
修正后的诉状还引入了一项与英伟达的NeMo Megatron框架及其支持下载大型公共数据集(如The Pile)相关的次要责任理论。英伟达回应称,诉状并未指控任何第三方存在构成直接侵权的先决行为,而这是维持辅助或替代性版权侵权索赔所必需的。该公司辩称,在没有具体指控用户使用该工具侵犯版权的情况下,提供可选工具并不构成责任。
驳回动议定于2026年4月2日在美国加利福尼亚州北区地方法院进行听证。



