RSS联合创始人推出AI数据授权新协议，应对版权挑战

继Anthropic公司达成15亿美元版权和解协议后，人工智能行业正面临训练数据来源的合规化挑战。目前仍有约40起悬而未决的诉讼指控AI公司使用未授权数据，其中甚至包括Midjourney因生成超人形象而被起诉的案件。

Cover Image

若不能建立有效的授权体系，AI企业可能面临版权诉讼的雪崩式冲击，这或将永久阻碍行业发展。如今，由技术专家和网络出版商组成的联盟推出了名为“简易授权协议（RSL）”的大规模数据授权系统——前提是AI公司愿意接受该方案。该系统已获得Reddit、Quora和雅虎等主流网络出版商的支持，但目前尚不确定这股势头能否推动大型AI实验室坐上谈判桌。

RSL联合创始人艾卡特·瓦尔特（Eckart Walther，也是RSS标准共同创建者）表示，该计划旨在建立覆盖整个互联网的训练数据授权体系。“我们需要机器可读的网络授权协议，这正是RSL要解决的核心问题。”

尽管“数据集提供商联盟”等组织多年来一直推动更规范的数据采集实践，但RSL首次尝试构建兼具技术可行性与法律约束力的基础设施。技术层面，RSL协议允许出版商设置具体授权条款，无论是要求AI公司获取定制许可还是采用知识共享协议。参与网站将以预设格式将条款纳入“robots.txt”文件，使数据归属权限一目了然。

法律层面，RSL团队成立了集体授权组织“RSL联盟”，其功能类似于音乐界的美国作曲家、作家与出版商协会（ASCAP）或影视界的Motion Picture Licensing Company（MPLC），可统一协商条款并征收版权费。这种模式旨在为授权方提供单一对接点，同时让权利持有人能一次性与数十家潜在被授权方设定条款。

目前已有雅虎、Reddit、Medium、奥莱利传媒、兹夫戴维斯（Mashable和Cnet母公司）、互联网品牌公司（WebMD所有者）、人民公司及每日野兽等出版商加入联盟。而Fastly、Quora和Adweek等公司则选择支持标准但不加入集体授权。

值得注意的是，联盟成员中包含已签订授权协议的出版商，最典型的是Reddit——该公司每年从谷歌获取约6000万美元训练数据使用费。RSL系统并不排斥企业单独签订协议，就像泰勒·斯威夫特既可通过ASCAP收取版税也能设置特殊授权条款。但对于规模过小无力独立谈判的出版商，RSL的集体授权条款可能是唯一选择。

然而与歌曲播放次数统计不同，AI模型在训练数据版税计量方面存在特殊挑战。对于谷歌AI搜索摘要这类实时抓取网络数据且严格记录来源的产品相对简单，但若训练过程未被记录，几乎无法确认特定文件是否被大型语言模型吸收。如果出版商要求按推理次数付费而非一次性买断（RSL标准许可选项之一），核算将变得尤为复杂。

RSL联合创始人道格·利兹（Doug Leeds，曾任IAC出版公司CEO）表示：“部分现有授权协议已要求AI公司具备数据使用报告能力，技术上可以实现。标准不必完美，只需足够确保创作者获得报酬。”

更关键的问题在于AI公司是否愿意接受该体系。虽然ScaleAI和Mercor等公司的成功证明尖端实验室愿意为数据付费，但网络历来被视为廉价低质数据源。鉴于Common Crawl等免费数据集的存在，向习惯无偿获取数据的实验室征收版税颇具挑战。正如近期Cloudflare与Perplexity的纠纷所示，网络爬虫与机器增强浏览的界限本身就很模糊。

面对质疑，利兹援引了AI领袖们对RSL类系统的公开呼吁——尤其是桑达尔·皮查伊在去年峰会上的发言。无论这些呼吁是否真诚，RSL团队决心将其转化为现实：“他们曾公开表示需要这样的系统，我们需要协议，需要规范。”

现在，这个规范或许即将诞生。

搜索结果如下

阅读全文

RSS联合创始人推出AI数据授权新协议，应对版权挑战

也可以看看

任天堂Switch2夏季大作云集，新《星际火狐》登场，《超级马力欧3D》至2027

阅读全文

亚马逊《战神》剧集敲定芙蕾雅演员，索尼娅·瓦尔格加盟

阅读全文

iBUYPOWER推出酷睿Ultra 200S Plus台式机，起售价1899美元

阅读全文