非营利组织知识共享(Creative Commons,CC)正为人工智能时代做准备。该组织率先推出允许创作者保留版权的同时分享作品的许可协议,本周三宣布启动新项目CC信号(CC signals),旨在让数据集持有者明确标注其内容是否允许被机器重复使用(例如训练AI模型)。

Cover Image

这一构想试图在互联网的开放特性与AI发展对数据的海量需求之间寻求平衡。正如知识共享在博客中指出,持续的数据攫取可能侵蚀网络开放性,导致机构关闭网站访问或设置付费墙,而非共享数据。

CC信号项目致力于提供法律与技术双重解决方案,为数据控制者与AI训练者之间的数据集共享建立框架。随着企业纷纷调整政策和服务条款——或限制AI使用其数据训练,或明确用户数据用于AI开发的范围——对此类工具的需求正持续增长。

例如:X平台最初允许第三方利用其公开数据训练模型,后又撤回该政策;Reddit通过robots.txt文件禁止AI训练机器人抓取数据;Cloudflare正探索向AI爬虫收费及干扰其运行的方案;开源开发者则创建工具来消耗不遵守“禁止爬取”指令的AI爬虫资源。

相比之下,CC信号提出了一套兼具法律约束力与伦理价值的工具方案,其理念类似目前覆盖数十亿网络创意作品的CC许可协议。“CC信号旨在AI时代维护公共资源,”知识共享首席执行官安娜·图马多蒂尔(Anna Tumadóttir)表示,“正如CC许可协议助力构建开放网络,我们相信CC信号将塑造基于互惠原则的开放AI生态。”

该项目目前处于雏形阶段,初步设计已发布于知识共享官网及GitHub页面。该组织正积极征集公众意见,计划于2025年11月启动alpha测试,并将举办系列线上听证会收集反馈。


文章标签: #AI #数据共享 #知识共享 #开放生态 #许可协议

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。