Anthropic公司达成15亿美元版权和解协议后,人工智能行业正面临训练数据来源的合规化挑战。目前仍有约40起悬而未决的诉讼指控AI公司使用未授权数据,其中甚至包括Midjourney因生成超人形象而被起诉的案件。

Cover Image

若不能建立有效的授权体系,AI企业可能面临版权诉讼的雪崩式冲击,这或将永久阻碍行业发展。如今,由技术专家和网络出版商组成的联盟推出了名为“简易授权协议(RSL)”的大规模数据授权系统——前提是AI公司愿意接受该方案。该系统已获得RedditQuora雅虎等主流网络出版商的支持,但目前尚不确定这股势头能否推动大型AI实验室坐上谈判桌。

RSL联合创始人艾卡特·瓦尔特(Eckart Walther,也是RSS标准共同创建者)表示,该计划旨在建立覆盖整个互联网的训练数据授权体系。“我们需要机器可读的网络授权协议,这正是RSL要解决的核心问题。”

尽管“数据集提供商联盟”等组织多年来一直推动更规范的数据采集实践,但RSL首次尝试构建兼具技术可行性与法律约束力的基础设施。技术层面,RSL协议允许出版商设置具体授权条款,无论是要求AI公司获取定制许可还是采用知识共享协议。参与网站将以预设格式将条款纳入“robots.txt”文件,使数据归属权限一目了然。

法律层面,RSL团队成立了集体授权组织“RSL联盟”,其功能类似于音乐界的美国作曲家、作家与出版商协会(ASCAP)或影视界的Motion Picture Licensing Company(MPLC),可统一协商条款并征收版权费。这种模式旨在为授权方提供单一对接点,同时让权利持有人能一次性与数十家潜在被授权方设定条款。

目前已有雅虎RedditMedium奥莱利传媒兹夫戴维斯(Mashable和Cnet母公司)、互联网品牌公司(WebMD所有者)、人民公司每日野兽等出版商加入联盟。而FastlyQuoraAdweek等公司则选择支持标准但不加入集体授权。

值得注意的是,联盟成员中包含已签订授权协议的出版商,最典型的是Reddit——该公司每年从谷歌获取约6000万美元训练数据使用费。RSL系统并不排斥企业单独签订协议,就像泰勒·斯威夫特既可通过ASCAP收取版税也能设置特殊授权条款。但对于规模过小无力独立谈判的出版商,RSL的集体授权条款可能是唯一选择。

然而与歌曲播放次数统计不同,AI模型在训练数据版税计量方面存在特殊挑战。对于谷歌AI搜索摘要这类实时抓取网络数据且严格记录来源的产品相对简单,但若训练过程未被记录,几乎无法确认特定文件是否被大型语言模型吸收。如果出版商要求按推理次数付费而非一次性买断(RSL标准许可选项之一),核算将变得尤为复杂。

RSL联合创始人道格·利兹(Doug Leeds,曾任IAC出版公司CEO)表示:“部分现有授权协议已要求AI公司具备数据使用报告能力,技术上可以实现。标准不必完美,只需足够确保创作者获得报酬。”

更关键的问题在于AI公司是否愿意接受该体系。虽然ScaleAIMercor等公司的成功证明尖端实验室愿意为数据付费,但网络历来被视为廉价低质数据源。鉴于Common Crawl等免费数据集的存在,向习惯无偿获取数据的实验室征收版税颇具挑战。正如近期CloudflarePerplexity的纠纷所示,网络爬虫与机器增强浏览的界限本身就很模糊。

面对质疑,利兹援引了AI领袖们对RSL类系统的公开呼吁——尤其是桑达尔·皮查伊在去年峰会上的发言。无论这些呼吁是否真诚,RSL团队决心将其转化为现实:“他们曾公开表示需要这样的系统,我们需要协议,需要规范。”

现在,这个规范或许即将诞生。


文章标签: #人工智能 #数据授权 #版权诉讼 #RSL协议 #网络出版商

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。