Sesame发布Maya基础AI模型

人工智能公司Sesame发布了支撑其语音助手Maya的基础模型——Maya以其令人印象深刻的逼真表现著称。

Cover Image

该模型大小为10亿参数（“参数”指的是模型的各个组成部分），采用Apache 2.0许可证，意味着它在商业用途上几乎没有限制。这个名为CSM-1B的模型可以根据文本和音频输入生成“RVQ音频编码”，据Sesame在AI开发平台Hugging Face上的描述。

RVQ指的是“残差矢量量化”，这是一种将音频编码为离散令牌（称为编码）的技术。RVQ被应用于多项最新的AI音频技术中，包括谷歌（Google）的SoundStream和Meta的Encodec。

CSM-1B使用了Meta的Llama系列模型作为其核心，并搭配了一个音频“解码器”组件。Sesame表示，经过微调的CSM变体为Maya提供了支持。

Sesame在CSM-1B的Hugging Face和GitHub存储库中写道：“这里开源的模型是一个基础生成模型。它能够生成多种声音，但尚未针对任何特定声音进行微调……由于训练数据中的污染，该模型对非英语语言有一定处理能力，但效果可能不佳。”

目前尚不清楚Sesame使用了哪些数据来训练CSM-1B，公司并未透露。

值得注意的是，该模型并没有真正的安全防护措施。Sesame采取了一种荣誉体系，仅呼吁开发者和用户不要未经许可使用该模型模仿他人的声音，也不要用它创建虚假新闻等误导性内容，或从事“有害”或“恶意”活动。

我在Hugging Face上尝试了演示，克隆我的声音不到一分钟。之后，我可以随心所欲地生成语音，包括一些具有争议性的话题，如选举和俄罗斯宣传。

《消费者报告》（Consumer Reports）最近警告称，市场上许多流行的AI语音克隆工具缺乏“实质性”的安全防护措施，无法有效防止欺诈或滥用。

Sesame由Oculus联合创始人布伦丹·伊里贝（Brendan Iribe）共同创立，因其助手技术而在2月底走红，其技术接近突破“恐怖谷”领域。Maya和Sesame的另一款助手Miles不仅能呼吸，还能在说话时出现不流畅的情况，并且可以在说话过程中被打断，这与OpenAI的语音模式非常相似。

Sesame已经从安德森·霍洛维茨（Andreessen Horowitz）、Spark Capital和Matrix Partners筹集了未公开金额的资金。除了开发语音助手技术外，该公司表示正在原型化一款“设计为全天佩戴”的AI眼镜，该眼镜将配备其定制模型。

搜索结果如下