Stability AI发布智能手机音频生成模型，速度领先市场

人工智能初创公司Stability AI近日推出“立体声”音频生成模型Stable Audio Open Small（稳定音频开放小型版），该公司宣称这是目前市场上速度最快的音频AI模型，其高效性足以在智能手机上运行。

Cover Image

这款模型是Stability AI与芯片制造商Arm（安谋）合作的成果，后者为平板电脑、手机等移动设备提供大量处理器。虽然目前已有Suno、Udio等多款AI应用能生成音频，但多数依赖云端处理，无法离线使用。

Stability公司特别强调，Stable Audio Open Small的训练数据集完全来自免版税音频库Free Music Archive（自由音乐档案馆）和Freesound（自由声音）。这与据称包含受版权保护内容的Suno和Udio训练集形成鲜明对比，后者存在知识产权风险。

该模型参数量达3.41亿个，专为Arm CPU优化运行。据Stability AI宣称，这款为快速生成短音频样本和音效设计的模型，可在智能手机上以不到8秒的时间生成最长11秒的音频内容。

该模型也存在一定局限：仅支持英文提示词输入，且官方文档明确指出无法生成逼真人声或高品质歌曲。公司同时警告，由于训练数据偏向西方音乐风格，模型对不同音乐类型的处理效果并不均衡。

对开发者而言，另一个潜在限制是其较为严苛的使用条款：年收入低于100万美元的研究者、业余爱好者及企业可免费使用，但收入超此门槛的开发者和机构需购买企业许可证。

作为知名图像生成模型Stable Diffusion（稳定扩散）的开发商，身陷困境的Stability公司在去年获得了包括埃里克·施密特（Eric Schmidt）和Napster（纳普斯特）创始人肖恩·帕克（Sean Parker）在内的投资者注资以期扭转颓势。据报道，联合创始人兼前首席执行官埃马德·莫斯塔克（Emad Mostaque）的管理不善导致公司陷入财务危机，引发员工离职、与Canva（可画）的合作流产，并使投资者对公司前景产生忧虑。

最近数月，该公司已任命新CEO，聘请电影导演詹姆斯·卡梅隆（James Cameron）加入董事会，并发布了多款新的图像生成模型。

搜索结果如下

阅读全文

Stability AI发布智能手机音频生成模型，速度领先市场

也可以看看

霍尔特揭秘新超人电影，打造顶级掠食者版卢瑟

阅读全文

安娜回应与阿汤哥关系，澄清仅是工作伙伴

阅读全文

《碟中谍》导演揭秘，太空任务为何无法实拍

阅读全文