人工智能初创公司Stability AI近日推出“立体声”音频生成模型Stable Audio Open Small(稳定音频开放小型版),该公司宣称这是目前市场上速度最快的音频AI模型,其高效性足以在智能手机上运行。
这款模型是Stability AI与芯片制造商Arm(安谋)合作的成果,后者为平板电脑、手机等移动设备提供大量处理器。虽然目前已有Suno、Udio等多款AI应用能生成音频,但多数依赖云端处理,无法离线使用。
Stability公司特别强调,Stable Audio Open Small的训练数据集完全来自免版税音频库Free Music Archive(自由音乐档案馆)和Freesound(自由声音)。这与据称包含受版权保护内容的Suno和Udio训练集形成鲜明对比,后者存在知识产权风险。
该模型参数量达3.41亿个,专为Arm CPU优化运行。据Stability AI宣称,这款为快速生成短音频样本和音效设计的模型,可在智能手机上以不到8秒的时间生成最长11秒的音频内容。
该模型也存在一定局限:仅支持英文提示词输入,且官方文档明确指出无法生成逼真人声或高品质歌曲。公司同时警告,由于训练数据偏向西方音乐风格,模型对不同音乐类型的处理效果并不均衡。
对开发者而言,另一个潜在限制是其较为严苛的使用条款:年收入低于100万美元的研究者、业余爱好者及企业可免费使用,但收入超此门槛的开发者和机构需购买企业许可证。
作为知名图像生成模型Stable Diffusion(稳定扩散)的开发商,身陷困境的Stability公司在去年获得了包括埃里克·施密特(Eric Schmidt)和Napster(纳普斯特)创始人肖恩·帕克(Sean Parker)在内的投资者注资以期扭转颓势。据报道,联合创始人兼前首席执行官埃马德·莫斯塔克(Emad Mostaque)的管理不善导致公司陷入财务危机,引发员工离职、与Canva(可画)的合作流产,并使投资者对公司前景产生忧虑。
最近数月,该公司已任命新CEO,聘请电影导演詹姆斯·卡梅隆(James Cameron)加入董事会,并发布了多款新的图像生成模型。