近日,非营利性人工智能安全工作组 MLCommons 与知名人工智能开发平台 Hugging Face 联手,推出了一项重磅资源——全球最大的公共领域语音录音数据集之一。这个名为“Unsupervised People’s Speech”(无监督人民语音)的数据集,涵盖了超过一百万小时的音频资料,横跨至少 89 种语言。MLCommons 表示,创建这一数据集的初衷是为了推动语音技术各个领域的研发工作。
在一篇博客文章中,MLCommons 强调:“支持除英语之外其他语言的自然语言处理研究,能够帮助全球更多人享受到先进的通信技术。”他们认为,该数据集将在多个方向上助力研究者,比如改进低资源语言的语音模型、提升不同口音和方言的语音识别能力,以及开拓语音合成的新应用等。这一目标无疑具有重要意义,但从实际应用来看,该数据集也存在一些潜在风险。
首先,数据偏差问题不容忽视。这些语音录音主要来源于 Archive.org,一个以 Wayback Machine 网页存档工具而闻名的非营利组织。由于 Archive.org 的多数贡献者是说英语的美国人,因此“Unsupervised People’s Speech”数据集中的录音大多带有美国口音。
如果开发者在使用这些数据训练语音识别或语音合成模型时没有进行仔细筛选,那么模型可能会出现偏见,比如难以准确转录非母语者的英语,或者在生成其他语言的合成语音时效果不佳。
此外,数据集的使用还可能涉及隐私和授权问题。尽管 MLCommons 声称数据集中的录音均为公共领域或在知识共享许可下可用,但仍有部分录音可能来自那些并不知晓自己声音被用于 AI 研究(甚至商业应用)的用户。
根据麻省理工学院的一项研究,许多公开的 AI 训练数据集都存在缺乏许可信息和包含错误的问题。AI 伦理相关非营利组织 Fairly Trained 的首席执行官 Ed Newton-Rex 曾指出,要求创作者主动“退出”AI 数据集的做法是不合理的,因为这给创作者带来了沉重的负担。他提到,许多创作者(如 Squarespace 用户)根本无法选择退出,而现有的退出机制又复杂且不完善。
面对这些潜在问题,MLCommons 表示将致力于更新、维护并提升“Unsupervised People’s Speech”数据集的质量。然而,对于开发者而言,在使用这一数据集时仍需格外谨慎,以避免因数据偏差或授权问题而引发的不良后果。