PCWorld报道称,微软的一位经理曾通过一篇开发者博客文章,推广使用盗版《哈利·波特》系列丛书来训练Azure AI,该文章现已被删除。随着作者们越来越多地起诉科技公司在未经许可的情况下使用受版权保护的作品来训练AI系统,这一事件凸显了日益增长的法律担忧。此案也强调了在AI开发中,不当使用受版权保护的材料进行机器学习训练所带来的重大伦理挑战。

Cover Image

天啊。当“AI”系统几乎在各地都引发诸多问题时,对于全球最重要的科技公司之一来说,公开宣扬盗版行为实在有损形象。但这似乎正是发生的情况:一篇发布在微软开发者博客上的文章,公然使用一套显然是盗版的《哈利·波特》小说来训练基于Azure的“AI”系统。

“由J·K·罗琳(J.K. Rowling)创作的《哈利·波特》系列是全球广受喜爱的七部曲,讲述了年轻巫师哈利·波特(Harry Potter)和他的朋友们对抗由邪恶的伏地魔(Voldemort)领导的黑暗势力的旅程,”微软高级产品经理普贾·卡马斯(Pooja Kamath)写道。该博客文章随后指向一个Kaggle数据集链接,其中包含七个TXT文件,显然涵盖了该系列所有已出版的小说。

这篇博客文章是一份关于通过Azure为应用程序添加生成式“AI”功能的指南。这位经理表示,它可用于创建问答系统,或自动生成《哈利·波特》同人小说。“这个功能肯定会让波特迷们欣喜,让他们能够探索新的冒险并创造属于自己的魔法故事。”文章结尾附有一张由大语言模型(LLM)生成的图片,描绘了两个孩子在火车上,明显是哈利·波特罗恩·韦斯莱(Ron Weasley)的漫画形象,中间还有一个微软标志。

用技术性的法律术语来说,这绝对是严重违规。当然,所有《哈利·波特》小说在世界各地都由包括作者在内的不同实体持有版权。在亚马逊上快速浏览一下就会发现,截至本文撰写时,一套完整的电子书合集售价为70美元。几乎在任何地方,未经支付任何版税就免费托管或下载这些文件都是一种犯罪行为。是的,即使你下载它只是为了将其输入大语言模型,也同样如此。

这篇原始的微软操作指南文章发布于2024年底,现已被从网站上移除(不过仍可通过互联网档案馆访问)。根据Ars Technica的一份报告,那个Kaggle数据集也已被删除,它曾被错误地标记为“公共领域”,仅被下载了大约1万次。这篇博客文章和盗版数据集似乎都默默无闻地存在了一年半,直到昨天Hacker News上的一个讨论串让它们重新引起了关注。

令人震惊的是,一位微软经理竟会在微软博客的公开文章中如此随意地对待电子书盗版行为(尽管卡马斯可能不了解公共领域系统如何运作,并假设文件标记正确)。但最流行的大语言模型已经用数百万本电子书进行了训练,其中许多(甚至可能是大部分)都是通过非法盗版下载的。

作者们已经对Meta/FacebookOpenAI英伟达(Nvidia)Alphabet/GoogleAnthropic微软等公司提起了诉讼,旨在阻止使用受版权保护的作品进行训练,和/或为那些未经许可已被纳入大语言模型训练内容的书籍寻求补偿。法院的初步判决结果不一,有时认为训练模型的结果具有“转换性”,因此与核心数据有实质性不同,即构成合理使用;而有些判决则认为,最初的盗版行为仍必须受到追究。


文章标签: #微软 #AI训练 #版权侵权 #哈利波特 #法律风险

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。