关闭广告

Mistral首个开源语音模型来了!全面碾压Whisper,多项测试超越GPT-4o mini

智东西2025-07-17 00:00:015811人阅读


智东西
作者 王涵
编辑 漠影

智东西7月16日消息,今日,谷歌和Meta前研究人员创立的AI初创公司Mistral AI,最新发布了首个开源语音模型:Voxtral语音理解模型系列

该模型包含24B和3B两个参数规模的版本,均基于Apache 2.0许可证开源,同时提供API服务接口

Voxtral模型支持32k token的上下文窗口,能够处理长达30分钟的音频转录任务或40分钟的语义理解任务,在各项基准测试指标上全面超越目前主流的开源语音转录模型Whisper large-v3

Voxtral模型继承了Mistral Small 3.1基座模型的文本理解能力,除了基础的语音转文字功能外,还可以直接对音频内容进行问答交互,生成结构化摘要,并通过语音指令触发API调用。

在公告中,Mistral还给出了几个实例展现其语音生成能力,包括:

法国男人说法语:

https://oss.zhidx.com/bc5c551f5e78418ce996300229d3f173/68767b00/uploads/2025/07/68771da55bf0d_68771da5557f5_68771da5557ca_chat-fr.m4a

法国男人说英语:

https://oss.zhidx.com/b9d986efdf1a6a1775f86444f331168e/68767b00/uploads/2025/07/68771db31d1fe_68771db319648_68771db319622_chat-en.m4a

还可以加背景音,例如在喧闹的大街上对话:

https://oss.zhidx.com/88b1d1a527869423a1ef311b8bf10feb/68767b00/uploads/2025/07/68771dbda9878_68771dbda5a08_68771dbda59e3_street.m4a

就连印地语混杂英语都能生成:

https://oss.zhidx.com/2dccd5f38674f04c90ac76962bbaf34b/68767b00/uploads/2025/07/68771dfe69e68_68771dfe657c3_68771dfe65788_audio-hi.m4a

在成本敏感型应用场景中,Voxtral Mini转录版的性能优于OpenAI Whisper,而使用成本仅为后者的50%以下。在高阶应用场景中,Voxtral Small在保持与ElevenLabs Scribe相当性能水平的同时,使用成本同样控制在后者50%以下


开发者可以在Le Chat上试用,通过Hugging Face平台获取模型进行本地部署,也可以使用云端API服务。

针对企业级应用,该模型支持私有化部署方案,可进行特定领域的微调适配,并提供高级上下文处理功能以及专属集成支持。

未来两周内Voxtral模型将在网页和移动端的语音模式中向所有用户推出。

一、转录能力全面碾压Whisper,3项测试超越GPT-4o mini

在转录能力上,Voxtral通过多个英语及多语种基准测试进行验证,每个任务的评测结果均采用跨语言宏平均词错率呈现,即数值越低越好。针对英语任务,还分别统计了短音频(<30秒)和长音频(>30秒)的平均表现。

结果显示,Voxtral在各项指标上全面超越当前领先的开源语音转录模型Whisper large-v3。在英语短音频,以及覆盖多种语言和方言的大规模语音数据库Mozilla Common Voice基准上,Voxtral Small超越Gemini 2.5 Flash与GPT-4o mini Transcribe,在英语长音频测试上也超越了Scribe和GPT-4o mini Transcribe


在多语言基准测试FLEURS的评估中,Voxtral Small模型在所有任务上都超越了Whisper large-V3,并在法语和德语中占据榜单首位。


二、语音翻译成绩占据榜首,语音理解能力追平GPT-4o-mini、Gemini 2.5 Flash

为了更好地测试Voxtral Small和Mini版本的语音理解能力,Mistral的研究团队将三项标准文本理解任务转换为语音输入形式,并构建了包含40个长音频样本的内部音频理解基准(AU Benchmark),要求模型完成复杂问答任务。此外,还基于FLEURS-Translation基准测试了Voxtral的语音翻译性能。

测试结果显示,Voxtral Small在所有任务中与GPT-4o-mini及Gemini 2.5 Flash表现相当,并在语音翻译任务FLEURS Translation中,超越GPT-4o-mini及Gemini 2.5 Flash,位列第一


在文本方面,Voxtral保留了其基座语言模型的文本处理能力,在各项文本测试中与Mistral Small 3.1成绩相当,官方称可直接替代Ministral和Mistral Small 3.1模型使用


结语:Voxtral表现超越开源项目,但难敌商业模型

Mistral AI发布的Voxtral语音模型系列为开源语音AI领域带来了新的技术选择。

从测试结果上看,该模型在转录准确率上超越了同为开源的Whisper,但其与商业模型GPT-4o-mini及Gemini 2.5 Flash还是有着一定的差距,Scribe依旧是语音模型中的“老大”。

Mistral AI在公告中还特别提到,未来几个月,Voxtral模型的音频处理能力还会持续增强,并且将新增说话人分割、音频标记(如年龄和情绪)、词级时间戳、非语音音频识别等功能。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

天空体育:米兰未能说服霍伊伦接受他们提供的转会条件

懂球帝 浏览 9318 08-21

杜海涛用P图回应秃头:我有很多头发,不接受反驳

极目新闻 浏览 0 08-22

美媒披露:俄方要求乌克兰作出重大领土让步

鲁中晨报 浏览 7077 08-10

为什么我们永远需要“冷门歌手”孙燕姿?

时尚COSMO 浏览 7349 04-15

外卖小哥认识美籍幼师5个月闪婚:在电梯里一见钟情

潇湘晨报 浏览 996 08-20

年度最佳新秀赔率更新:杨瀚森飙升至第8位 夏联表现让他广受好评

罗说NBA 浏览 6358 07-20

零跑6月交付再创新高达48006台 连续四个月领先

天天电动 浏览 6282 07-01

S妈按捺不住再发文沦“笑话”,具俊晔成调侃对象

观察鉴娱 浏览 4546 07-18

弗雷德告别穆帅:感谢您与我再次并肩作战,我永远会为您加油

直播吧 浏览 1 08-30

董璇再婚仅一月,让人担心的事情还是发生了

温读史 浏览 6129 08-13

链博会盘点之一:哪些展台人气最高?|聚焦链博会

北青网-北京青年报 浏览 561 07-21

同样是离婚带娃,董璇和黄奕的女儿差距太明显

说历史的老牢 浏览 9714 08-08

MiniMax闫俊杰:AI模型将持续存在多个玩家,未来研发不再是烧钱行业

澎湃新闻 浏览 7606 07-27

中国市场缺席,特斯拉将 FSD 转移促销计划扩展至欧洲及中东地区

IT之家 浏览 1570 07-24

铅污染,是连环杀手的产房?

虎嗅APP 浏览 5450 07-17

小米汽车副总裁辟谣 并称愿意倾听用户声音

网易汽车 浏览 6232 05-17

内塔尼亚胡:以色列将不得不做出"痛苦且重大"让步

环球网资讯 浏览 0 09-29

助力识别、延缓或逆转老年疾病,全新“自然奖项”问世

上观新闻 浏览 1 09-29

罗马诺-墨索里尼:尽管我的姓氏令他人沉重,但没给我造成困扰

懂球帝 浏览 7087 07-24

2吨级eVTOL首次完成跨城农副产品低空无人运输

北京商报 浏览 2 09-19

综合续航1700km 捷途山海L7 PLUS上市11.99万元起

网易汽车 浏览 0 08-28
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2