人工智能公司Sesame发布了支撑其语音助手Maya的基础模型——Maya以其令人印象深刻的逼真表现著称。

Cover Image

该模型大小为10亿参数(“参数”指的是模型的各个组成部分),采用Apache 2.0许可证,意味着它在商业用途上几乎没有限制。这个名为CSM-1B的模型可以根据文本和音频输入生成“RVQ音频编码”,据Sesame在AI开发平台Hugging Face上的描述。

RVQ指的是“残差矢量量化”,这是一种将音频编码为离散令牌(称为编码)的技术。RVQ被应用于多项最新的AI音频技术中,包括谷歌(Google)的SoundStream和Meta的Encodec。

CSM-1B使用了Meta的Llama系列模型作为其核心,并搭配了一个音频“解码器”组件。Sesame表示,经过微调的CSM变体为Maya提供了支持。

Sesame在CSM-1B的Hugging Face和GitHub存储库中写道:“这里开源的模型是一个基础生成模型。它能够生成多种声音,但尚未针对任何特定声音进行微调……由于训练数据中的污染,该模型对非英语语言有一定处理能力,但效果可能不佳。”

目前尚不清楚Sesame使用了哪些数据来训练CSM-1B,公司并未透露。

值得注意的是,该模型并没有真正的安全防护措施。Sesame采取了一种荣誉体系,仅呼吁开发者和用户不要未经许可使用该模型模仿他人的声音,也不要用它创建虚假新闻等误导性内容,或从事“有害”或“恶意”活动。

我在Hugging Face上尝试了演示,克隆我的声音不到一分钟。之后,我可以随心所欲地生成语音,包括一些具有争议性的话题,如选举和俄罗斯宣传。

《消费者报告》(Consumer Reports)最近警告称,市场上许多流行的AI语音克隆工具缺乏“实质性”的安全防护措施,无法有效防止欺诈或滥用。

Sesame由Oculus联合创始人布伦丹·伊里贝(Brendan Iribe)共同创立,因其助手技术而在2月底走红,其技术接近突破“恐怖谷”领域。Maya和Sesame的另一款助手Miles不仅能呼吸,还能在说话时出现不流畅的情况,并且可以在说话过程中被打断,这与OpenAI的语音模式非常相似。

Sesame已经从安德森·霍洛维茨(Andreessen Horowitz)、Spark Capital和Matrix Partners筹集了未公开金额的资金。除了开发语音助手技术外,该公司表示正在原型化一款“设计为全天佩戴”的AI眼镜,该眼镜将配备其定制模型。


文章标签: #语音助手 #AI模型 #技术 #安全 #眼镜

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。