热点资讯

智东西
作者王涵
编辑漠影

智东西7月16日消息，今日，谷歌和Meta前研究人员创立的AI初创公司Mistral AI，最新发布了首个开源语音模型：Voxtral语音理解模型系列！

该模型包含24B和3B两个参数规模的版本，均基于Apache 2.0许可证开源，同时提供API服务接口。

Voxtral模型支持32k token的上下文窗口，能够处理长达30分钟的音频转录任务或40分钟的语义理解任务，在各项基准测试指标上全面超越目前主流的开源语音转录模型Whisper large-v3。

Voxtral模型继承了Mistral Small 3.1基座模型的文本理解能力，除了基础的语音转文字功能外，还可以直接对音频内容进行问答交互，生成结构化摘要，并通过语音指令触发API调用。

在公告中，Mistral还给出了几个实例展现其语音生成能力，包括：

法国男人说法语：

https://oss.zhidx.com/bc5c551f5e78418ce996300229d3f173/68767b00/uploads/2025/07/68771da55bf0d_68771da5557f5_68771da5557ca_chat-fr.m4a

法国男人说英语：

https://oss.zhidx.com/b9d986efdf1a6a1775f86444f331168e/68767b00/uploads/2025/07/68771db31d1fe_68771db319648_68771db319622_chat-en.m4a

还可以加背景音，例如在喧闹的大街上对话：

https://oss.zhidx.com/88b1d1a527869423a1ef311b8bf10feb/68767b00/uploads/2025/07/68771dbda9878_68771dbda5a08_68771dbda59e3_street.m4a

就连印地语混杂英语都能生成：

https://oss.zhidx.com/2dccd5f38674f04c90ac76962bbaf34b/68767b00/uploads/2025/07/68771dfe69e68_68771dfe657c3_68771dfe65788_audio-hi.m4a

在成本敏感型应用场景中，Voxtral Mini转录版的性能优于OpenAI Whisper，而使用成本仅为后者的50%以下。在高阶应用场景中，Voxtral Small在保持与ElevenLabs Scribe相当性能水平的同时，使用成本同样控制在后者50%以下。

开发者可以在Le Chat上试用，通过Hugging Face平台获取模型进行本地部署，也可以使用云端API服务。

针对企业级应用，该模型支持私有化部署方案，可进行特定领域的微调适配，并提供高级上下文处理功能以及专属集成支持。

未来两周内Voxtral模型将在网页和移动端的语音模式中向所有用户推出。

一、转录能力全面碾压Whisper，3项测试超越GPT-4o mini

在转录能力上，Voxtral通过多个英语及多语种基准测试进行验证，每个任务的评测结果均采用跨语言宏平均词错率呈现，即数值越低越好。针对英语任务，还分别统计了短音频（＜30秒）和长音频（＞30秒）的平均表现。

结果显示，Voxtral在各项指标上全面超越当前领先的开源语音转录模型Whisper large-v3。在英语短音频，以及覆盖多种语言和方言的大规模语音数据库Mozilla Common Voice基准上，Voxtral Small超越Gemini 2.5 Flash与GPT-4o mini Transcribe，在英语长音频测试上也超越了Scribe和GPT-4o mini Transcribe。

在多语言基准测试FLEURS的评估中，Voxtral Small模型在所有任务上都超越了Whisper large-V3，并在法语和德语中占据榜单首位。

二、语音翻译成绩占据榜首，语音理解能力追平GPT-4o-mini、Gemini 2.5 Flash

为了更好地测试Voxtral Small和Mini版本的语音理解能力，Mistral的研究团队将三项标准文本理解任务转换为语音输入形式，并构建了包含40个长音频样本的内部音频理解基准（AU Benchmark），要求模型完成复杂问答任务。此外，还基于FLEURS-Translation基准测试了Voxtral的语音翻译性能。

测试结果显示，Voxtral Small在所有任务中与GPT-4o-mini及Gemini 2.5 Flash表现相当，并在语音翻译任务FLEURS Translation中，超越GPT-4o-mini及Gemini 2.5 Flash，位列第一。

在文本方面，Voxtral保留了其基座语言模型的文本处理能力，在各项文本测试中与Mistral Small 3.1成绩相当，官方称可直接替代Ministral和Mistral Small 3.1模型使用。

结语：Voxtral表现超越开源项目，但难敌商业模型

Mistral AI发布的Voxtral语音模型系列为开源语音AI领域带来了新的技术选择。

从测试结果上看，该模型在转录准确率上超越了同为开源的Whisper，但其与商业模型GPT-4o-mini及Gemini 2.5 Flash还是有着一定的差距，Scribe依旧是语音模型中的“老大”。

Mistral AI在公告中还特别提到，未来几个月，Voxtral模型的音频处理能力还会持续增强，并且将新增说话人分割、音频标记（如年龄和情绪）、词级时间戳、非语音音频识别等功能。

Mistral首个开源语音模型来了！全面碾压Whisper，多项测试超越GPT-4o mini

金靖靠穿搭意...

视觉智驾：何...

国米取胜后距...

弗里克：我以...

小米米家漫反...

央视披露：＂...

路易斯-迪亚斯导致阿什拉夫受伤，摩洛哥记者：你是个罪犯

詹姆斯：现代NBA空间和节奏远超过去身体消耗更大

俄外交部：乌方对和平解决冲突“缺乏兴趣”

强化性能本田Prelude Type R假想图曝光

对话智元机器人王闯：直播收获大订单，出海已在路上

成库里品牌签约首位中国球员！朱正:当然求之不得库里是我的偶像

反超OpenAI 百川开源医疗大模型发布

弹琴、踢球、当主持……人形机器人在世界机器人大会秀出“十八般武艺”

“被动型”后卫？枪手新援莫斯克拉不只是增强阵容厚度那么简单

特朗普威胁＂美军轰炸会更猛烈＂伊朗：美国会后悔的

星河动力谷神星一号“一箭四星”海射成功

灵感集结，能量共振

彩虹-7高空高速隐身无人机成功首飞实现重大突破

泽连斯基:乌谈判团队将于2日晚前往乌美俄三方会谈地点

最牛退休女工，靠卖易拉罐，纳税100亿

长沙一盲道被护栏分割成＂迷宫＂街道：为人车分流安装

“恐龙院士”徐星：在朝阳，孩子们可以近距离与化石对话

《伟大的长征》首发预告，于和伟饰演毛泽东，总觉得差点意思

太强！萨巴伦卡今年抢七战绩18胜1负，创造单赛季抢7获胜次数纪录

小米汽车回应YU7赛道测试时刹车片起火

货不对版！京东国民好车陷「批量退订潮」；李想承认犯错，理想汽车将回归创业模式；黄仁勋内部讲话泄露：少用AI？你们疯了吗？

回应消费者需求变化，贝壳持续探索居住服务新范式

小S复出拿奖瞬间泪崩，多次提及姐姐大S求保佑

《731》票房破4.1亿，豆瓣却差评如潮，终于理解吴京这段话