关闭广告

即将开源!华为发布AI推理黑科技,已在中国银联落地

钛媒体APP2025-08-13 12:00:01192人阅读


图片系AI生成

8月12日,华为发布AI推理创新技术——UCM推理记忆数据管理器,旨在推动AI推理体验升级,提升推理性价比,加速AI商业正循环。同时,华为携手中国银联率先在金融典型场景开展UCM技术试点应用,并联合发布智慧金融AI推理加速方案应用成果。

UCM推理记忆数据管理器,包括对接不同引擎与算力的推理引擎插件(Connector)、支持多级KV Cache管理及加速算法的功能库(Accelerator)、高性能KV Cache存取适配器(Adapter)三大组件,通过推理框架、算力、存储三层协同,实现AI推理“更优体验、更低成本”。

AI推理:既不够快,也不够便宜

从行业视角观察,大模型的重心正在从训练转向推理。相关行业数据显示,当前推理算力需求已超过训练(58.5%)。GPT-5开放首周20 亿次/分钟,70%的请求为复杂任务推理(如代码生成、多步规划);而国内火山引擎的日均token调用量已达16.4万亿,其中70%以上来自线上推理而非训练。

与此同时,大模型行业总会频繁出现一个现象,一旦出现了一种火热的新模型,该服务商的服务在一段时间会处于不太稳定的状态,这是因为大量用户访问需求之下,服务商需要通过计算、存储等优化措施,降低它的推理成本,并且降本的同时不能影响用户体验。

比如GPT-5发布就引起不少用户诟病,通过智能路由降低后台的算力成本,但是路由规划的效果出现了偏差,用户使用时频繁出现了“降智”效果,海内外用户吐槽非常多。

此外,由于在基础设施投资领域的差距,中国互联网在AI基础设施上的投资仅是美国的十分之一,叠加如算力卡阉割、算力卡涨价、HBM涨价等一系列因素,中国AI推理发展难上加难。

中国互联网大模型首Token时延普遍慢于海外互联网头部的首Token时延,每秒或者一定时间内推理的Token数也远小于海外头部互联网厂商。

国外主流大模型输出速度为200 tokens/s区间(时延5ms),而中国普遍小于60 tokens/s(时延50~100ms),最大差距达到10倍。在上下文窗口上,海外模型普遍支持100万级Token(如GPT-5、Claude 3.5),而国内头部(Kimi)仅50万,且在长文本分析中,国内模型遗漏关键信息的概率超50%。

行业通常用增加显存、内存的方式,提升AI推理的效率和性能,但是很多业界方案只关注基础设施层,即分层流动/开启管理,在整个算法加速库上缺少系列场景化加速算法、套件以及开放第三方库等举措,即缺少一套“推理框架、算力、存储三层协同”的方案。

以存代算,首token延迟降低90%

华为公司副总裁、数据存储产品线总裁周跃峰解释,以人的思考和大模型作对比,思考能力和记忆能力强相关,AI推理系统也一样的。整个AI推理系统当中,记忆功能往往有三部分,高性能的缓存(HBM),中间是内存(DRAM),这两部分基本上在智算服务器当中。第三部分是过去没有得到利用的专业共享存储。

UCM主要分为三部分:顶层和业界流行的推理框架对接,称为“连接器”,它会连接业界普遍流行的推理引擎框架,包括华为的MindiE、SGLang等等,与目前推理框架进行协同。

中间部分是加速程序,对于缓存记忆数据进行分级缓存管理的算法程序,运行在智算服务器当中。

另外一部分是和专业共享存储相结合的协同器,这个协同器(适配器)可以提升专业存储直通的效率和降低时延,可以让三级存储协同起来。


通俗解释,首先,华为通过UCM,将历史已处理过的结果、历史对话、语料库、RAG知识库的数据以KV Cache的形式缓存至第三层的高性能外置共享存储上,遇到已推理过、已缓存过的信息就不需要重新推理了,而是只用从外置存储中查询并调用即可,实现大幅推理加速,将首token延迟降低90%、也节省了token by token的时间。

在过去,这些数据量通常较大、达到PB级,仅依赖HBM和DRAM这样几十GB、最多TB级的小容量是存不下来的,导致推理频繁出现“失忆”,需要GPU反复计算、造成卡顿迟缓。而且过去HBM又贵又小、且与GPU卡强绑定,靠堆卡的形式普通企业根本买不起,只有被迫接受“重复造轮子”的低效方式。

在此基础上,大模型能积累越来越多的历史对话、历史内容,就变相地增加了知识丰富度和广度,让需要全新计算的比例越来越少,简化计算复杂度,大模型也就越来越快、越来越聪明,如此解决“推得慢”的问题。

其次,当推理任务越来越长、越来越复杂,长序列推理会让大模型经常出现“只有七秒钟的记忆”。比如,在分析一篇万字长文时,由于HBM容量有限,仅缓存到前2000字就装不下了,这样就容易出现推理失败、关键关联信息丢失的情况。

华为UCM通过一系列智能的算法,对长序列内容进行切片,并把已处理的切片卸载到更大的DRAM或外置共享存储,这就变相扩充了HBM的容量,让上下文窗口扩大10倍、满足长序列推理需求。

此外,华为采用了注意力稀疏技术及相关技术,可以识别这些大量KV Cache数据的重要程度、相关性和热度,将重要的/不重要的、相关的/不相关的数据分层分级地进行缓存并流动。在下一次推理过程中,只需要把关键的、合适的向量提取出来即可,这也就降低了向量推理过程中向量的数量,提升整体吞吐量,如此解决“推不动”的问题。

在无需过多投资的情况下,UCM让长序列场景下TPS(每秒处理token数)提升2-22倍,相当于降低每Token推理成本,企业可以继续维持算力不变,仅花销小部分外置存储的投资、让缓存原地“升级”,从而改善推理效率、摊薄每token推理成本,解决“推得贵”的问题。

已在中国银联落地,9月将开源

金融行业是拥抱大模型较为快速的行业之一,对于新技术的需求也十分迫切。金融AI规模化落地的核心瓶颈在于高成本、高延迟、高依赖,金融级应用需微秒级响应,而卡顿、延迟直接影响风控与交易安全,因此AI推理的效果至关重要。

中国银联智能化创新中心副总经理杨燕明表示,通过分析来自客服、工单等数据发现以下痛点:金融产品、金融服务的种类多、场景复杂,在问题进行分类时相当困难;用户反馈内容繁杂的、冗长,导致难以分析原因。

中国银联尝试使用大模型技术解决这些问题,通常的解决方案是,将问题进行标签化,构建起一系列的问题标签,结合客户对话内容进行切片,喂给大语言模型进行处理,希望通过大语言模型帮助解决分类问题。

但随之发现了新的技术挑战,首先它是一个多次推理,推理时间非常长,一通电话或者一个服务,需要长达15分钟的分析时间;第二因为标签数量太多,分析准确性非常低,无法应用生产。

中国银联联合华为开展了推理性能的技术攻关,与华为存储团队、算力先遣队、业务专家一起组合了联合创新小组,经过一系列尝试,提出了引入存储的KV Cache的加速方案,满足实际的业务需求。

采用KV Cache的方案,通使整个运算方式从推理运算,变为查找运算和推理运算相结合的方式,避免了大量重复推理,加速整个推理过程,实际效果标签分类的推理时间从原来的600秒,下降到10秒内,提升了50倍以上,标签分类准确率从不到10%上升到80%,整个效果达到生产预期。

华为也公布了UCM开源计划。UCM通过开放统一的南北向接口,可适配多类型推理引擎框架、算力及存储系统。今年9月,UCM将正式开源,后续逐步贡献给业界主流推理引擎社区。

华为相关专家表示,IT行业产品先行,标准随后。华为希望通过UCM这样一套开源的方式,能够让更多的厂商、业界存储伙伴加入,能够在推理加速推动标准落地,这是一个共创标准的过程,共同在开源社区孵化成熟,真正形成标准,才能真正解决今天看到的推理体验和推理成本的问题(本文首发于钛媒体APP,作者 | 张帅,编辑 | 盖虹达)

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

以官员称美国通报以色列 将否决联合国安理会加沙决议

环球网资讯 浏览 8530 06-05

中国信通院《中国数据库产业图谱(2025)》发布

网易科技报道 浏览 4892 07-18

克6谈控球高手:库里&欧文&保罗&弗朗西斯&巴郎戴维斯&范埃克塞尔

直播吧 浏览 605 08-18

大疆 DJI Mini 5 Pro 无人机宣传物料曝光:1 英寸传感器

IT之家 浏览 2 09-01

石破茂:日本面临日美关税谈判等问题 将继续担任首相

环球网资讯 浏览 2116 07-22

李晨不是上跑男太吃力而是前女友退圈后混得太好

小咪侃娱圈 浏览 4103 07-10

阿斯:西足协提议在美国办女子超级杯,迈阿密是候选主办城市

懂球帝 浏览 8878 07-23

官方:刘易斯-库克内侧副韧带受伤,将缺席新赛季初段的比赛

懂球帝 浏览 3557 07-26

又一起券业并购获批!证监会核准国信证券成为万和证券主要股东

红星资本局 浏览 0 08-25

纽卡vs阿森纳双方公布首发

体坛周报 浏览 0 09-29

重伤!那不勒斯官方:卢卡库股直肌严重损伤,据悉至少缺阵3个月

直播吧 浏览 241 08-19

少妇用"附近的人"搜男人 没2天就发裸照诱他发生关系

瓜田里有只大猹 浏览 6368 07-23

苹果被曝开发类ChatGPT应用!专为训练新Siri打造

智东西 浏览 3 09-29

现场直击|芯片爆单?黄仁勋:你们也看到了市场的热度,交付期要9 个月

网易科技报道 浏览 9825 07-17

赵露思直播不带货却让农民赚翻!一天清空

视听故事局 浏览 5319 08-11

老中新量化谁更赚钱?新锐量化收益更胜一筹!幻方、量创进入前十

私募排排网 浏览 1109 07-19

刘浩存的现偶适配度,1000%

时尚COSMO 浏览 2154 06-12

前拜仁总监:签不下维尔茨算不上失败,英超的竞争力太强了

直播吧 浏览 5521 07-21

印巴在克什米尔再次交火

新华社 浏览 9923 04-27

“九边形战士”才是出路?东风猛士新车有点猛:预售不到33万元

电车通 浏览 4423 07-18

美国中产阶层信心降温

国际金融报 浏览 1 09-02
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2