关闭广告

小米开源语音大模型Xiaomi-MiMo-Audio,对话自然度达拟人水准

IT之家2025-09-19 12:00:0216人阅读

IT之家 9 月 19 日消息,小米今天宣布开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,首次在语音领域实现基于 ICL 的少样本泛化

据小米介绍,五年前 GPT-3 首次展示了通过自回归语言模型 + 大规模无标注数据训练,获得 In-Context Learning(ICL,上下文学习)能力,而在语音领域,现有的大模型仍严重依赖大规模标注数据难以适应新任务达到类人智能

而 Xiaomi-MiMo-Audio 模型打破了这种瓶颈,它基于创新预训练架构和上亿小时训练数据,在智商、情商、表现力与安全性在内的跨模态对齐能力均有提升,在自然度、情感表达和交互适配方面呈现出拟人化水准

这款模型的具体创新点如下:

  • 首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性,表现为 Few-Shot Learning 能力。


  • 首个明确语音生成式预训练的目标和定义,并开源一套完整的语音预训练方案,包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系。


目前小米已在 Huggingface 平台开源了这款模型的预训练、指令微调模型,同时在 Github 平台开源了 Tokenizer 模型,其参数量达 1.2B,基于 Transformer 架构,支持音频重建任务和音频转文本任务。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

郭宇欣拿下央媒微短剧,短剧演员的“编制”来了?

徐帮阳 浏览 12 01-12

这才是真正的欧美赛车片,成功把观众拉回影院,完美体验灵魂出窍

最爱酷影视 浏览 9590 07-10

外卖大战商家结算:月入16万一算账还亏1万

环球网资讯 浏览 7597 08-11

房东半年降价7次 中介砍价"大刀"仍未停

每日经济新闻 浏览 8472 07-26

阿维塔陈卓回应懂车帝测试:排名非绝对,关注用户使用安全最重要

IT之家 浏览 1416 07-31

17岁少年网购虚假退货"薅羊毛"获利超400万 被判刑6年

北青网-北京青年报 浏览 11 01-06

落叶归根,德转:35岁门将石笑天加盟辽宁铁人

懂球帝 浏览 2223 07-21

环保龙头成立“人工智能联合研究院”,打造“行业超脑”

野马财经 浏览 1104 07-24

本田东京车展亮相0系列电动概念车 揭示未来出行

网易汽车 浏览 16 10-30

《寂静的朋友》全亚洲登陆,梁朝伟出演大尺度镜头,很可能被删减

最爱酷影视 浏览 16 10-13

蔚来萤火虫上市半年多了,现在卖得怎么样了?

车轮生活 浏览 13 11-11

东方甄选宣布启动开放日报名,俞敏洪做东请吃饭

网易科技报道 浏览 17 08-22

泰国向中美俄等26国发函 并称对柬埔寨"可能开战"

每日经济新闻 浏览 6407 07-27

风味IP爆发,快消圈拿到长期增长新船票?

斑马消费 浏览 6 04-22

女子新房装玫红色入户门贴大花壁纸 称总花费近100万

极目新闻 浏览 13 01-08

开播9分,这才是成人该看的爱情片

独立鱼 浏览 3 05-09

11月新车申报爆冷!车企们要集体“躺平”?误会了!

雷科技 浏览 14 11-12

22点至8点严禁催收、电话最多6次/天,消费贷催收新规划重点

上观新闻 浏览 11 02-02

闪崩、暴跌!外资,猛烈抛售!这国股市,发生了什么?

券商中国 浏览 2778 07-30

明年登陆赛道 法拉利296 GT3 Evo官图发布

车质网 浏览 4377 06-30

蔡康永发文缅怀大S,说大S应该被好好疼爱的

素素娱乐 浏览 8 02-03
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2