关闭广告

小米开源语音大模型Xiaomi-MiMo-Audio,对话自然度达拟人水准

IT之家2025-09-19 12:00:0213人阅读

IT之家 9 月 19 日消息,小米今天宣布开源首个原生端到端语音大模型 Xiaomi-MiMo-Audio,首次在语音领域实现基于 ICL 的少样本泛化

据小米介绍,五年前 GPT-3 首次展示了通过自回归语言模型 + 大规模无标注数据训练,获得 In-Context Learning(ICL,上下文学习)能力,而在语音领域,现有的大模型仍严重依赖大规模标注数据难以适应新任务达到类人智能

而 Xiaomi-MiMo-Audio 模型打破了这种瓶颈,它基于创新预训练架构和上亿小时训练数据,在智商、情商、表现力与安全性在内的跨模态对齐能力均有提升,在自然度、情感表达和交互适配方面呈现出拟人化水准

这款模型的具体创新点如下:

  • 首次证明把语音无损压缩预训练 Scaling 至 1 亿小时可以“涌现”出跨任务的泛化性,表现为 Few-Shot Learning 能力。


  • 首个明确语音生成式预训练的目标和定义,并开源一套完整的语音预训练方案,包括无损压缩的 Tokenizer、全新模型结构、训练方法和评测体系。


目前小米已在 Huggingface 平台开源了这款模型的预训练、指令微调模型,同时在 Github 平台开源了 Tokenizer 模型,其参数量达 1.2B,基于 Transformer 架构,支持音频重建任务和音频转文本任务。

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

女子花30元假装"上班" 有年入百万老板来"假装面试"

红星新闻 浏览 2722 08-11

读懂IPO|高成本吞噬利润!建邦高科毛利率不足4%,单一业务依赖风险待破

时代周报 浏览 8878 07-25

阿隆索:我们在安菲尔德跑动太少?不能凭一场比赛下结论

懂球帝 浏览 6 11-09

伊朗外长:伊朗通过阿曼回复了特朗普信函

环球网资讯 浏览 6991 03-28

钟楚曦过往争议被扒,对苗苗黑脸、戛纳霸占楼梯,一进圈就有野心

萌神木木 浏览 12 10-25

特朗普这次真的赢了 风卷残云一样绝杀欧盟七大佬

北回归线 浏览 14 08-21

昔日大美女孙菲菲遭剧组暴力,王阳两面人真相!

归史 浏览 3208 07-13

干掉江疏影、刘亦菲?这个97年小花一跃成为最白女明星?

Yuki女人故事 浏览 2644 04-11

餐馆外高空坠物砸伤女子头部 社区:坠楼的是外墙瓷片

大风新闻 浏览 4643 07-23

每体:老佛爷想立即解雇阿隆索,但身边人士说服他不让其下课

懂球帝 浏览 9 12-19

难怪连央媒都发文悼念,许绍雄竟“藏”得这么深

凡知 浏览 12 10-31

吉文:可能我有点老派,看不惯加纳乔走路歪着身子还挂条链子

懂球帝 浏览 14 11-27

三瑞智能实控人一股独大,国泰海通前员工火速入职,子公司与大客户疑似“隐秘关联”|读懂IPO

时代周报 浏览 8 01-07

车间主任讲述溺亡事件:坠落地明显偏离绿色参观通道

上游新闻 浏览 6842 07-26

预售价6.88万元起,五菱缤果S正式开启预售

网易汽车 浏览 14 08-26

陈奕迅发声道歉,已下架朱祖儿相关影片,网友不买账评论区沦陷

扒虾侃娱 浏览 13 08-29

陈赫去国外度假,俩女儿一个像爸一个像妈

大嘴爱哔哔 浏览 6 01-12

吉利银河M9登陆米兰 重新定义AI科技大六座旗舰SUV

网易汽车 浏览 6893 05-23

被问"与美国是否在协调对华立场" 将访华欧盟外长回应

澎湃新闻 浏览 7456 07-23

媒体:俄罗斯很可能会成"五常"中唯一没有航母的国家

枢密院十号 浏览 6902 07-15

牵手阿里巴巴,余杭又有新布局!

都市快报橙柿互动 浏览 13 09-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2