关闭广告

美团杀入开源大模型混战:LongCat登场,推理速度直破100 Token/s

AI寒武纪2025-09-01 00:00:0115人阅读


美团也推出一款名为 LongCat-Flash 的非推理开源(MIT)大模型,总参数量为 5600亿, MoE架构,激活 186亿至313亿参数(平均约270亿),模型性能看起来还是很不错的,尤其在智能体(Agentic)任务方面表现突出


一大看点是模型采用了 shortcut-connected 架构,扩展了计算与通信的重叠窗口,使推理能够在成本可控的情况下达到每秒100 Token 以上,我刚试了一下速度真的超快

体验地址:

https://longcat.ai

关键特性

可扩展的高效架构设计

LongCat-Flash 的设计与优化遵循两个核心原则:

1.高效的计算利用

2.高效的训练与推理

具体而言:

并非所有 Token 都同等重要,因此研究人员在 MoE 块中引入了 零计算专家机制,根据 Token 的重要性动态分配计算预算,即在总计 5600亿参数中,根据上下文需求激活 186亿至313亿参数

为确保计算负载稳定,采用 PID 控制器调整的专家偏置,保持每个 Token 平均约 270亿激活参数

随着 MoE 模型扩展,通信开销会成为瓶颈。为此,采用了 Shortcut-connected MoE (ScMoE) 设计,扩展计算与通信的重叠窗口。配合定制化的基础设施优化,该设计使得模型能够在 数万加速器规模 上进行大规模训练,并在推理时实现 高吞吐率和低延迟。

有效的模型扩展策略

如何有效地扩展模型规模,是策略设计中的核心挑战。为此美团开发了一套全面的 稳定性与扩展框架,确保大规模模型能够稳健训练:

超参数迁移策略:成功地将超参数迁移应用到如此大规模的模型上,通过小规模代理模型的实验结果,预测最优超参数配置,并且具有理论保证

模型生长机制:基于精炼的半规模检查点进行初始化,相较于常规初始化方法表现更优

稳定性套件:包含基于原理的路由器梯度平衡、隐藏的 z-loss(抑制大规模激活)、以及精调的优化器配置

确定性计算:提升大规模集群训练的可靠性,确保实验结果完全可复现,并能够在训练过程中检测 静默数据损坏(Silent Data Corruption, SDC)

这些措施确保了 LongCat-Flash 在训练过程中保持稳定,没有不可恢复的损失峰值

面向智能体能力的多阶段训练管线

通过精心设计的训练管线,LongCat-Flash 被赋予了先进的 智能体行为能力:

初始阶段:专注于为智能体后训练构建更合适的基础模型,采用 双阶段预训练数据融合策略,重点引入推理密集型领域数据

中期阶段:增强模型的推理与编程能力,同时将上下文长度扩展到 128k,以满足智能体后训练的需求

后期阶段:在先进的基础模型上,进一步进行 多阶段后训练。由于高质量、高难度的智能体任务训练数据稀缺,我们设计了一个 多智能体合成框架,通过以下三条轴线定义任务难度:

1.    信息处理 2.    工具集复杂度 3.    用户交互

借助专门的控制器生成需要 迭代推理与环境交互 的复杂任务

参考:

https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

美网正赛中国8人入围:张帅王曦雨资格赛突围 女单6人男单2人

醉卧浮生 浏览 14 08-23

卷上天的新能源厂商,销量却被燃油车背刺了

虎嗅APP 浏览 16 10-14

悉尼枪案:男子勇夺一歹徒枪支 很多人活下来全靠他

红星新闻 浏览 12 12-15

媒体:都说与爱泼斯坦不熟 300万页文件让他们露馅

看看新闻Knews 浏览 6 02-04

如果你过了50岁,千万别穿“超短裙”,这样穿搭才高级和显瘦

静儿时尚达人 浏览 8341 06-17

美记:勇士和库明加互不让步 签换市场也低迷 事情可能要拖到8月

直播吧 浏览 886 07-24

三地冲刺万亿城市,其中一个更特殊!

国是直通车 浏览 981 08-11

综合续航里程超1600km smart精灵#5 EHD预售18.99万起

网易汽车 浏览 12 09-29

起拍价7777.77万元,百年历史建筑于济川公馆旧址将被拍卖

红星资本局 浏览 4331 07-28

官方:亚特兰大25岁后卫巴克在训练中遭遇十字韧带断裂,周一手术

直播吧 浏览 3294 07-26

华硕带来ExpertCenter Pro ET900N G3:搭载GB300 Grace Blackwell Ultra

超能网 浏览 2282 07-22

九三阅兵名单几乎没有西方发达国家领导人 媒体分析

新民晚报 浏览 19 08-30

混动系统为内燃机续命 沃尔沃最新消息曝光

乐选爱车 浏览 14 11-04

1280亿电子烟巨头,杀入医疗美容赛道

21财闻汇 浏览 14 08-27

小米汽车:入选OTA首批体验招募活动即可提前升级新版本

IT之家 浏览 4 05-09

荷兰政府对闻泰科技安世半导体下手 中资股权仅剩1股

蓝鲸新闻 浏览 16 10-13

夏天穿衣越简单越省力!这27套日常穿搭不容错过,显瘦又舒适

静儿时尚达人 浏览 1404 07-19

AI“压力面”,DeepSeek性能暴跌近30% | 清华&上海AI Lab

量子位 浏览 4199 07-20

加密货币跌势连绵,近10亿美元杠杆仓被平,现货比特币ETF上周仅小幅净流入

华尔街见闻官方 浏览 9 12-02

汪小菲产品陷发霉风波!度假面色凝重

张发林 浏览 4711 07-31

Amazon和UCLA团队突破传统界限,开启无监督智能训练新纪元

科技行者 浏览 13 01-05
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2