随着人工智能系统功能日益强大,语音正迅速成为我们与机器交互的主要方式。法国AI初创企业Mistral携其首个开源模型加入音频赛道,旨在通过开放权重的替代方案挑战封闭式商业系统的垄断地位。

Cover Image

Mistral本周二发布了面向企业的首款音频模型系列Voxtral。该公司宣称这是首个能在生产环境中部署“真正可用语音智能”的开源模型——开发者无需再在两种方案间艰难抉择:要么选择成本低廉但转写错误频出、语义理解能力薄弱的开源系统,要么选择性能优异但封闭性强、部署成本高昂且可控性差的商业方案。对企业用户而言,Voxtral提供了价格优势显著的替代选择,其成本据称“不到同类方案的一半”。

基于Mistral Small 3.1大语言模型架构的Voxtral可处理长达30分钟的音频转录,语义理解能力更扩展至40分钟。用户能对音频内容提问、生成摘要,或将语音指令转化为调用API等实时操作。该模型支持英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语及意大利语的多语言转录与理解。

Mistral推出两款“语音理解模型”:24亿参数的Voxtral Small适用于生产级部署,性能对标ElevenLabs ScribeGPT-4o-miniGemini 2.5 Flash;30亿参数的Voxtral Mini则面向本地及边缘部署。另有针对纯转录场景优化的精简版Voxtral Mini Transcribe,其API版本成本不到OpenAI Whisper的一半却承诺更优性能。

用户可通过Hugging Face平台免费下载API试用,或在Mistral聊天机器人Le Chat中测试模型。企业级API集成起价为每分钟0.001美元。此次发布距Mistral推出分步推理模型系列Magistral仅一月之隔。

作为欧洲顶尖AI企业之一,Mistral素以倡导开源AI模型闻名。本月初有消息称,该公司正与阿布扎比MGX基金等投资方洽谈高达10亿美元的股权融资。


文章标签: #人工智能 #开源模型 #语音识别 #Mistral #Voxtral

负责编辑

  菠萝老师先生 

  让你的每一个瞬间都充满意义地生活,因为在生命的尽头,衡量的不是你活了多少年,而是你如何度过这些年。