微软正在推进一项开创性研究计划,旨在追溯生成式AI模型创作内容与训练数据之间的关联性。根据近期重新引发关注的招聘启事披露,该项目将开发评估方法,用于量化特定训练样本(如照片、书籍)对AI生成文本、图像等内容的实际影响。
招聘信息显示,研究团队将着力解决当前AI模型的"黑箱困境"——现有神经网络架构无法清晰展示生成内容的来源依据。项目负责人特别指出:"建立数据溯源机制具有多重现实意义,特别是要为那些为AI发展提供宝贵数据的贡献者,设计出合理的激励、认可及报酬体系,即使这些模型未来的进化方向可能超出我们现有认知。"
这项名为"训练溯源"的研究计划获得了微软研究院技术专家贾伦·拉尼尔(Jaron Lanier)的支持。这位提出"数据尊严"概念的科学家曾在《纽约客》撰文,主张建立数字创作与人类贡献者的关联机制。他举例说明:"当用户要求生成'以油画世界为背景的会说话猫咪动画'时,系统应当追溯对该创作影响最大的油画家、宠物摄影师、配音演员等贡献者,并给予相应回报。"
该研究计划推出的背景,正值全球AI公司面临日益严峻的版权争议。微软自身就卷入多起诉讼,包括《纽约时报》指控其使用数百万篇文章训练模型构成侵权,以及开发者起诉GitHub Copilot非法使用受保护代码。尽管科技公司普遍以"合理使用"原则辩护,但创作者群体持续抗议未经授权使用其作品的行为。
目前行业内的补偿机制仍显不足。虽然Bria等新兴公司尝试根据数据贡献度进行程序化补偿,Adobe和Shutterstock也定期支付报酬,但具体分配标准仍不透明。多数AI实验室仅提供"选择退出"机制,且流程复杂,无法追溯已训练模型的数据来源。
值得注意的是,微软的探索在行业实践中颇具前瞻性。在OpenAI等机构主张弱化版权保护的背景下(这些公司曾建议美国政府将模型训练的合理使用原则法典化),微软逆向推动数据溯源技术研发的举措尤为引人注目。不过项目实际成效尚待观察——OpenAI去年宣布的类似工具至今仍未面世,显示相关技术存在实施难度。
业内分析指出,微软此举或许也暗含"道德合规"考量,试图规避可能影响AI业务发展的监管风险。截至本文发布,微软官方尚未对研究进展作出进一步说明。