关闭广告

小米开源语音大模型Xiaomi-MiMo-Audio,对话自然度达拟人水准

IT之家2025-09-19 12:00:0212人阅读

IT之家 9 月 19 日消息,小米今天宣布开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,首次在语音领域实现基于 ICL 的少样本泛化

据小米介绍,五年前 GPT-3 首次展示了通过自回归语言模型 + 大规模无标注数据训练,获得 In-Context Learning(ICL,上下文学习)能力,而在语音领域,现有的大模型仍严重依赖大规模标注数据难以适应新任务达到类人智能

而 Xiaomi-MiMo-Audio 模型打破了这种瓶颈,它基于创新预训练架构和上亿小时训练数据,在智商、情商、表现力与安全性在内的跨模态对齐能力均有提升,在自然度、情感表达和交互适配方面呈现出拟人化水准

这款模型的具体创新点如下:

  • 首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性,表现为 Few-Shot Learning 能力。


  • 首个明确语音生成式预训练的目标和定义,并开源一套完整的语音预训练方案,包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系。


目前小米已在 Huggingface 平台开源了这款模型的预训练、指令微调模型,同时在 Github 平台开源了 Tokenizer 模型,其参数量达 1.2B,基于 Transformer 架构,支持音频重建任务和音频转文本任务。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

汪小菲反击!曝向具俊晔提出财产追回

小徐讲八卦 浏览 2289 07-05

AUDI首款战略车型上市 推动奥迪在华电动化战略加速落地

经济观察报 浏览 11 09-21

12月22日发布 零跑D19内饰设计图曝光

网易汽车 浏览 9 12-21

收手吧何润东!不要再侮辱观众眼睛

诗意世界 浏览 9032 08-10

女人过了50岁就该这样穿衣!选用的服装要衬气质,得体又大方

静儿时尚达人 浏览 1854 05-10

官方:斯特拉斯堡中场帕普-迪奥普租借加盟图卢兹

懂球帝 浏览 10 01-08

原来这就是火彩!

时尚COSMO 浏览 9119 05-22

助力科创,中金公司如何产生“化学反应”?

券商中国 浏览 7049 08-18

中超第28轮传球成功率榜:国安88.4%居首,本赛季第9次登顶

懂球帝 浏览 14 10-28

17.68万起!搭载全新图灵AI芯片 2026款小鹏G6/G9上市

网易汽车 浏览 10 01-09

温哥华白浪2-0堪萨斯城体育取美职联3连胜,奥坎波建功,卡夫雷拉锦上添花

懂球帝 浏览 14 09-21

鹰击19首披露 中国高超音速导弹彻底甩开美俄雄踞第一

文雅笔墨 浏览 10 08-25

华为&新央企赋能,阿维塔将加速海外突破

网易汽车 浏览 15 09-02

和巴萨关系如何?特尔施特根笑答:非常好,手术因为确实有伤

直播吧 浏览 8953 07-29

释永信生活"纸醉金迷":出行阵仗堪比皇上 1串珠子亿元

火山诗话 浏览 3054 07-28

创新药板块“过热”?绩优基金限购背后的投资逻辑

国际金融报 浏览 9008 08-12

OTA开战入境游市场:去哪儿上线英文版,携程瞄准团队游

国际金融报 浏览 4086 07-18

上半年国内车市增长10.8%,新能源渗透率首次过半达50.2%

汽车公社 浏览 2867 07-10

纯电续航722km 北京现代ELEXIO命名EO 羿欧

车质网 浏览 11 09-30

媒体:泰柬边境重燃战火 在泰国产生了巨大的政治影响

红星新闻 浏览 9689 07-25

求稳的钱,终于有新去处了

简七理财 浏览 9098 07-26
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2