关闭广告

即将开源!华为发布AI推理黑科技,已在中国银联落地

钛媒体APP2025-08-13 12:00:01204人阅读


图片系AI生成

8月12日,华为发布AI推理创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为携手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。

UCM推理记忆数据管理器,包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。

AI推理:既不够快,也不够便宜

从行业视角观察,大模型的重心正在从训练转向推理。相关行业数据显示,当前推理算力需求已超过训练(58.5%)。GPT-5开放首周20 亿次/分钟,70%的请求为复杂任务推理(如代码生成、多步规划);而国内火山引擎的日均token调用量已达16.4万亿,其中70%以上来自线上推理而非训练。

与此同时,大模型行业总会频繁出现一个现象,一旦出现了一种火热的新模型,该服务商的服务在一段时间会处于不太稳定的状态,这是因为大量用户访问需求之下,服务商需要通过计算、存储等优化措施,降低它的推理成本,并且降本的同时不能影响用户体验。

比如GPT-5发布就引起不少用户诟病,通过智能路由降低后台的算力成本,但是路由规划的效果出现了偏差,用户使用时频繁出现了“降智”效果,海内外用户吐槽非常多。

此外,由于在基础设施投资领域的差距,中国互联网在AI基础设施上的投资仅是美国的十分之一,叠加如算力卡阉割、算力卡涨价、HBM涨价等一系列因素,中国AI推理发展难上加难。

中国互联网大模型首Token时延普遍慢于海外互联网头部的首Token时延,每秒或者一定时间内推理的Token数也远小于海外头部互联网厂商。

国外主流大模型输出速度为200 tokens/s区间(时延5ms),而中国普遍小于60 tokens/s(时延50~100ms),最大差距达到10倍。在上下文窗口上,海外模型普遍支持100万级Token(如GPT-5、Claude 3.5),而国内头部(Kimi)仅50万,且在长文本分析中,国内模型遗漏关键信息的概率超50%。

行业通常用增加显存、内存的方式,提升AI推理的效率和性能,但是很多业界方案只关注基础设施层,即分层流动/开启管理,在整个算法加速库上缺少系列场景化加速算法、套件以及开放第三方库等举措,即缺少一套“推理框架、算力、存储三层协同”的方案。

以存代算,首token延迟降低90%

华为公司副总裁、数据存储产品线总裁周跃峰解释,以人的思考和大模型作对比,思考能力和记忆能力强相关,AI推理系统也一样的。整个AI推理系统当中,记忆功能往往有三部分,高性能的缓存(HBM),中间是内存(DRAM),这两部分基本上在智算服务器当中。第三部分是过去没有得到利用的专业共享存储。

UCM主要分为三部分:顶层和业界流行的推理框架对接,称为“连接器”,它会连接业界普遍流行的推理引擎框架,包括华为的MindiE、SGLang等等,与目前推理框架进行协同。

中间部分是加速程序,对于缓存记忆数据进行分级缓存管理的算法程序,运行在智算服务器当中。

另外一部分是和专业共享存储相结合的协同器,这个协同器(适配器)可以提升专业存储直通的效率和降低时延,可以让三级存储协同起来。


通俗解释,首先,华为通过UCM,将历史已处理过的结果、历史对话、语料库、RAG知识库的数据以KV Cache的形式缓存至第三层的高性能外置共享存储上,遇到已推理过、已缓存过的信息就不需要重新推理了,而是只用从外置存储中查询并调用即可,实现大幅推理加速,将首token延迟降低90%、也节省了token by token的时间。

在过去,这些数据量通常较大、达到PB级,仅依赖HBM和DRAM这样几十GB、最多TB级的小容量是存不下来的,导致推理频繁出现“失忆”,需要GPU反复计算、造成卡顿迟缓。而且过去HBM又贵又小、且与GPU卡强绑定,靠堆卡的形式普通企业根本买不起,只有被迫接受“重复造轮子”的低效方式。

在此基础上,大模型能积累越来越多的历史对话、历史内容,就变相地增加了知识丰富度和广度,让需要全新计算的比例越来越少,简化计算复杂度,大模型也就越来越快、越来越聪明,如此解决“推得慢”的问题。

其次,当推理任务越来越长、越来越复杂,长序列推理会让大模型经常出现“只有七秒钟的记忆”。比如,在分析一篇万字长文时,由于HBM容量有限,仅缓存到前2000字就装不下了,这样就容易出现推理失败、关键关联信息丢失的情况。

华为UCM通过一系列智能的算法,对长序列内容进行切片,并把已处理的切片卸载到更大的DRAM或外置共享存储,这就变相扩充了HBM的容量,让上下文窗口扩大10倍、满足长序列推理需求。

此外,华为采用了注意力稀疏技术及相关技术,可以识别这些大量KV Cache数据的重要程度、相关性和热度,将重要的/不重要的、相关的/不相关的数据分层分级地进行缓存并流动。在下一次推理过程中,只需要把关键的、合适的向量提取出来即可,这也就降低了向量推理过程中向量的数量,提升整体吞吐量,如此解决“推不动”的问题。

在无需过多投资的情况下,UCM让长序列场景下TPS(每秒处理token数)提升2-22倍,相当于降低每Token推理成本,企业可以继续维持算力不变,仅花销小部分外置存储的投资、让缓存原地“升级”,从而改善推理效率、摊薄每token推理成本,解决“推得贵”的问题。

已在中国银联落地,9月将开源

金融行业是拥抱大模型较为快速的行业之一,对于新技术的需求也十分迫切。金融AI规模化落地的核心瓶颈在于高成本、高延迟、高依赖,金融级应用需微秒级响应,而卡顿、延迟直接影响风控与交易安全,因此AI推理的效果至关重要。

中国银联智能化创新中心副总经理杨燕明表示,通过分析来自客服、工单等数据发现以下痛点:金融产品、金融服务的种类多、场景复杂,在问题进行分类时相当困难;用户反馈内容繁杂的、冗长,导致难以分析原因。

中国银联尝试使用大模型技术解决这些问题,通常的解决方案是,将问题进行标签化,构建起一系列的问题标签,结合客户对话内容进行切片,喂给大语言模型进行处理,希望通过大语言模型帮助解决分类问题。

但随之发现了新的技术挑战,首先它是一个多次推理,推理时间非常长,一通电话或者一个服务,需要长达15分钟的分析时间;第二因为标签数量太多,分析准确性非常低,无法应用生产。

中国银联联合华为开展了推理性能的技术攻关,与华为存储团队、算力先遣队、业务专家一起组合了联合创新小组,经过一系列尝试,提出了引入存储的KV Cache的加速方案,满足实际的业务需求。

采用KV Cache的方案,通使整个运算方式从推理运算,变为查找运算和推理运算相结合的方式,避免了大量重复推理,加速整个推理过程,实际效果标签分类的推理时间从原来的600秒,下降到10秒内,提升了50倍以上,标签分类准确率从不到10%上升到80%,整个效果达到生产预期。

华为也公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,后续逐步贡献给业界主流推理引擎社区。

华为相关专家表示,IT行业产品先行,标准随后。华为希望通过UCM这样一套开源的方式,能够让更多的厂商、业界存储伙伴加入,能够在推理加速推动标准落地,这是一个共创标准的过程,共同在开源社区孵化成熟,真正形成标准,才能真正解决今天看到的推理体验和推理成本的问题(本文首发于钛媒体APP,作者 | 张帅,编辑 | 盖虹达)

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

生育津贴直接发放至个人 这些地方已实现

央视财经 浏览 17 10-21

雷克萨斯“落沪”,是好棋还是险棋?

禾颜阅车 浏览 5420 07-11

新长安集团总部落户重庆 朱华荣将任正局级新央企一把手

道哥说车 浏览 8470 07-08

是时候考虑购买美国大豆了,为了“拴住”特朗普!

北向财经 浏览 15 10-27

长安汽车上半年销量135.5万辆 创近8年新高

网易汽车 浏览 2112 07-04

余承东曝享界S9T内饰官图,818开启预售,预估35-38万?

车大拿 浏览 705 08-13

在建大桥施工绳索断裂已致十余人遇难失联 施工方回应

大风新闻 浏览 12 08-23

北约秘书长力挺特朗普:没有美国 欧洲能自保是做梦

红星新闻 浏览 11 01-28

一天5万欧元?特斯拉FSD宣传被法国制止,国产车也该被罚?

功夫AUTO 浏览 4079 06-27

男子强奸嫂子又刺死见义勇为者 亲哥发声:无法原谅

中国新闻周刊 浏览 9830 07-22

抗癌不到一年,曝刘谦近况

林轻吟 浏览 9 11-01

今年“刘海染”火了!洋气显白,谁染谁好看!

Yuki女人故事 浏览 11 09-07

以军称被扣押人员全部返还前不会停止打击哈马斯

新京报 浏览 8 10-29

陈铭:亲哥幼时因警察父亲破案遭报复 脑部被注射药物

扬子晚报 浏览 10 08-23

曹操出行Robotaxi 2.0已搭载低轨卫星通信,将上线卫星SOS功能

IT之家 浏览 7 02-02

美政府已暂停军援乌克兰

界面新闻 浏览 9979 03-05

年末避险情绪抬升 公募选股遵循涨价硬逻辑

证券时报 浏览 12 11-17

大地财险“双线突围”之困:排名遭冲击,“雷李配”直面合规大考

子弹财经 浏览 7482 08-18

鲁尼:萨拉赫应该回撤参与协防;范戴克的进球应该算作有效

懂球帝 浏览 10 11-10

吴启华:后悔演反派,来内地定居还交社保

失宠的小野猪 浏览 7 01-05

顶配资源加持却遭质疑!黄多多进圈,是星二代特权还是实力使然?

Yuki女人故事 浏览 2413 05-14
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2