关闭广告

WAIC前线|摩尔线程张建中:为AGI时代造生产模型的“超级工厂”

网易科技报道2025-07-27 00:00:025701人阅读

7月26日消息,在世界人工智能大会(WAIC 2025)开幕前夕,线程召开发布会,提出“AI工厂”理念。摩尔线程创始人兼CEO表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为时代打造生产先进模型的“”。

据介绍,摩尔线程提出的“AI工厂”,如同芯片晶圆厂的制程升级,是一个系统性、全方位的变革,需要实现从底层芯片架构创新、到集群整体架构的优化,再到软件算法调优和资源调度系统的全面升级。这种全方位的基础设施变革,将推动AI训练从千卡级向万卡级乃至十万卡级规模演进,以系统级工程实现生产力和创新效率的飞跃。

据了解,这座“AI工厂”的智能“产能”,由五大核心要素共同决定,其效率公式可概括为:AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性

技术一:全功能GPU

在AI基础设施建设中,计算功能的完备性与精度完整性是支撑多元场景的核心基石。摩尔线程以自主研发的全功能GPU为核心,构建了“功能完备”与“精度完整”的通用性底座,全面覆盖从AI训练、推理到科学计算的全场景需求。

1,创新突破:单芯片覆盖多场景。基于MUSA架构的突破性设计,摩尔线程的GPU单芯片即可集成AI计算加速、图形渲染、物理仿真及超高清视频编解码能力,充分适配AI训推、具身智能、AIGC等多样化应用场景。

2,精度标杆:性能跃升20%~30%。在计算精度方面,摩尔线程支持从FP64至INT8的完整精度谱系,并通过FP8混合精度技术,在主流前沿大模型训练中实现20%~30%的性能跃升,为国产GPU的算力效率树立行业标杆。

3,前瞻布局:推动AI基础设施进化。这一技术体系不仅满足大模型时代的高效计算需求,更为世界模型和新兴AI架构的演化提供前瞻性支撑,助力AI基础设施向高通用性、高精度方向持续升级。

技术二:自研MUSA架构

据介绍,摩尔线程基于自研MUSA架构,通过计算、内存、通信三重突破,显著提升单GPU运算效率。

1,创新架构突破传统限制:摩尔线程采用多引擎、可伸缩GPU架构,通过硬件资源池化及动态资源调度技术,构建了全局共享的计算、内存与通信资源池。这一设计不仅突破了传统GPU功能单一的限制,还在保障通用性的同时显著提升了资源利用率。其参数化配置可伸缩架构允许面向目标市场快速裁剪出优化的芯片配置,大幅降低了新品芯片的开发成本。

2,计算性能显著提升:在计算层面,摩尔线程的AI加速系统(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。作为国内首批实现FP8算力量产的GPU厂商,其FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升约30%。

3,内存与通信效率全面优化:内存系统方面,通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术,实现了50%的带宽节省和60%的延迟降低。在通信和互联领域,独创的ACE异步通信引擎减少了15%的计算资源损耗,MTLink2.0互联技术提供了高出国内行业平均水平60%的带宽,为大规模集群部署奠定了坚实基础。

技术三:MUSA全栈系统软件

据介绍,摩尔线程通过MUSA全栈系统软件实现关键技术突破,推动AI工厂从单点创新转向系统级效能提升。其核心创新包括:

1,任务调度优化:核函数启动时间缩短50%;

2,极致性能库:GEMM算子算力利用率达98%,Flash Attention 算子算力利用率突破95%;

3,通信效能跃升:MCCL通信库实现RDMA网络97%带宽利用率;基于异步通信引擎优化计算通信并行,集群性能提升10%;

4,低精度计算效率革新:FP8优化与重计算技术显著降低训练开销;

5,开发生态完善:基于Triton-MUSA编译器 + MUSA Graph 实现DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。

技术四:自研KUAE大规模集群

摩尔线程自研KUAE计算集群通过5D大规模分布式并行计算技术,实现上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。

1,创新5D并行训练:摩尔线程整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构,显著提升大规模集群训练效率。

2,性能仿真与优化:自主研发的Simumax工具面向超大规模集群自动搜索最优并行策略,精准模拟FP8混合精度训练与算子融合,为DeepSeek等模型缩短训练周期提供科学依据。

3,秒级备份恢复:针对大模型稳定性难题,创新CheckPoint加速方案利用RDMA技术,将百GB级备份恢复时间从数分钟压缩至1秒,提升GPU有效算力利用率。

技术五:零中断容错技术

在构建高效集群的基础上,稳定可靠的运行环境是“AI工厂”持续产出的保障。特别在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力。摩尔线程推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。

同时,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定保障。

与此同时,完善的“AI工厂”不仅需要高效训练大模型,还需具备推理验证能力。摩尔线程基于自研MUSA技术栈,构建覆盖LLM、视觉、生成类模型的全流程推理解决方案,实现“训练-验证-部署”的无缝衔接。其MT Transformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架,为模型验证和部署提供极致性能支持。

据透露,摩尔线程将于今年10月举办首届MUSA开发者大会

版权与免责声明:本文内容转载自其他媒体,目的在于传递更多信息,不代表本网观点或立场,不承担此类作品侵权行为的自己责任及连带责任。
猜你喜欢
精彩推荐

等你到了50岁依然可以很美,夏季穿衣谨记3个原则,优雅得体

静儿时尚达人 浏览 4098 05-29

三星刚公布神秘代工大单 马斯克迫不及待爆料:和我签的!

财联社 浏览 9500 07-29

布雷斯特3-3里尔,吉鲁首开记录,勒卡迪纳尔扳平比分

懂球帝 浏览 5869 08-18

上市不到1个月 突降800元!华为对Pura 80系列降价背后:标准版价格或是王炸

快科技 浏览 796 07-15

以军称正扩大“莫拉格走廊”

上观新闻 浏览 1015 04-17

让创作办公释放无穷潜力,平板电脑求变

文汇报 浏览 2140 07-26

欧盟车市,正在复制中国电动化模式

汽车公社 浏览 4107 07-09

阿里加入“百镜大战”!首款夸克 AI眼镜亮相,公司称“已完成研发,将于年内发布”

时代周报 浏览 8824 07-28

失控的美债

国际金融报 浏览 8747 08-18

纯电续航722km 北京现代ELEXIO命名EO 羿欧

车质网 浏览 0 09-30

收工了~CBA选秀大会次轮35顺位:广东男篮弃权

直播吧 浏览 8102 07-26

美国航母再遭胡塞武装袭击 美军空袭也门多地

每日经济新闻 浏览 1060 04-12

百度的AI叙事,刚刚开始

锦缎研究院 浏览 0 09-22

外套里面穿什么?这4款内搭时髦又显瘦!

Yuki女人故事 浏览 1 09-25

难看就是难看!

严肃八卦 浏览 9268 07-21

复旦大学硬核军训玩"真人CS" 学生:用上了激光镭射枪

上游新闻 浏览 1 09-01

又有分析师称苹果iPhone 17美国售价或上涨,关税政策是主因

IT之家 浏览 868 08-10

2026款奥迪Q5L正式亮相!配备quattro四驱系统

汽车网评 浏览 3374 05-06

同是星二代,陈飞宇的美梦却成张若昀的 “噩梦”

黄小仙的搞笑视频 浏览 3031 08-09

瞄准3000亿体检蓝海,善诊谋局智能化

21财闻汇 浏览 2 09-02

布云朝克特本赛季第十胜扔出王炸,张帅燃情表现获封纽约神奇女侠

网球之家 浏览 6069 08-21
本站所有信息收集于互联网,如本站收集信息侵权,请联系我们及时删除沪ICP备2023013132号-2