资讯配图
资讯配图

算力决定AI的智能水平,谁能高效利用算力,谁就能赢得竞争优势。

资讯配图

大数据产业创新服务媒体

——聚焦数据 · 改变商业



2024至2025年,AI大模型、AgenticAI和世界模型迎来爆发式增长。随着ChatGPT、DeepSeek、Grok、Qwen等新一代超大模型的不断涌现,人工智能的应用场景和产业边界正快速扩展,带来了前所未有的技术和产业革新。AI发展的核心驱动力是强大的计算能力——算力决定AI的智能水平,谁能高效利用算力,谁就能赢得竞争优势。
摩尔线程,一家国产GPU创新企业,正试图打破这种局面。在WAIC 2025上,摩尔线程提出了“AI工厂”理念,致力于用系统级创新和工程化能力重构AI产业链的底层能力。
资讯配图
那么,摩尔线程是怎么做的,做的怎么样?接下来,就让我来深入分析一下。
“国产AI芯片”不可回避的历史任务


毫无疑问,算力已经成为推动技术进步的关键力量,其重要性堪比工业革命时期的电力。
然而当前国产AI芯片面临三大核心挑战:通用性不足,目前市场上的多数芯片仅能处理AI计算或图形渲染等单一任务,难以应对多模态融合、物理仿真等复杂场景;训练效率低下,GPT级模型训练耗时数月,算力资源因架构与调度缺陷大量浪费;生态壁垒高筑,CUDA平台600万开发者生态形成垄断,国产方案兼容性差导致迁移困难。突破这些瓶颈,是国产芯片实现技术自立、支撑中国AI产业突围的历史性任务。
国产全功能GPU,用系统化思维解题


面对AI产业的高训练成本、通用性差和算力垄断等问题,摩尔线程并未仅仅聚焦某一领域,而是通过构建一个系统化工程创新,以五项核心技术能力构建“AI工厂”,打造生产模型、生产智能的超级工厂。
资讯配图
1.全功能GPU通用计算能力
摩尔线程在国内厂商中走的是全功能GPU路线。
该GPU不仅“全功能”,支持3D图形渲染,还支持AI计算加速、科学计算和编解码等四大引擎。同时,还“全精度”,实现了从FP64到FP8的完整精度范围,满足大规模AI训练对混合精度计算的要求。
凭借更全面的功能和更完备的计算精度,摩尔线程GPU具有更高的计算通用性,能够适配AI、AI4S(AI for Science)、大数据处理、数字孪生、图形渲染、高清显示等多样化计算需求。
资讯配图
2.先进MUSA统一架构
摩尔线程推出的MUSA统一架构,涵盖统一的芯片架构、指令集、编程模型、软件运行库及驱动程序框架等关键要素,让各种计算任务都能高效运行。
这个架构的创新点很实在,是可伸缩的GPU架构,支持资源灵活调配:通过智能调度技术,让计算、内存、通信资源变成“共享池”,需要多少用多少。这一设计不仅突破了传统GPU功能单一的限制,还在保障通用性的同时显著提升了资源利用率。
除此之外,MUSA架构内部包含了多个摩尔线程自研的核心技术。例如,摩尔线程的AI加速系统(TCE/TME)全面支持从INT8到FP8等多种计算精度,尤其FP8技术通过智能转换和累加设计,在保证准确度的同时,让AI模型训练提速近30%。独创的ACE异步通信引擎,可减少了15%的计算资源损耗,将GPU的算力释放;而MTLink2.0互联技术,提供了高出国内行业平均水平60%的带宽,为大规模集群部署奠定了坚实基础。
资讯配图
3.MUSA全栈系统软件
有了创新的底层架构和强大的芯片算力,如何提升单节点计算效率,是推动AI工厂从单点创新转向系统级效能提升的关键。
资讯配图
摩尔线程MUSA全栈系统软件,打通了底层驱动到上层应用框架,并实现了多项创新。例如,任务调度优化,核函数启动时间缩短50%,任务派发延迟极低;
核心算子库上,GEMM算子算力利用率达98%,Flash Attention算子算力利用率突破95%;
通信效能上,MCCL通信库实现RDMA网络97%带宽利用率;基于异步通信引擎优化计算通信并行,集群性能提升10%;
开发生态上,基于Triton-MUSA编译器+MUSA Graph实现DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。
4.大规模集群效率
摩尔线程的KUAE集群系统提供了万卡级别的计算能力,支持亚微秒级通信延迟,并具备容错调度和大规模集群管理能力,已成功适配DeepSeek、Qwen、LLaMA等多个主流AI大模型。
资讯配图
摩尔线程的KUAE集群能够高效协作大规模计算节点,解决了分布式计算中的资源调度问题,确保集群高效运转,为大模型训练提供了稳定可靠的技术保障。
资讯配图
KUAE计算集群具备多项创新技术,具体可概括为:创新5D并行训练,摩尔线程整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构,显著提升大规模集群训练效率。
性能仿真与优化,自主研发的Simumax工具面向超大规模集群自动搜索最优并行策略,精准模拟FP8混合精度训练与算子融合,为DeepSeek等模型缩短训练周期提供科学依据。
秒级备份恢复,针对大模型稳定性难题,创新CheckPoint加速方案利用RDMA技术,将百GB级备份恢复时间从数分钟压缩至1秒,提升GPU有效算力利用率。
5.集群稳定性
在构建高效集群的基础上,稳定可靠的运行环境是“AI工厂”持续产出的保障。特别在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力。
摩尔线程创新推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。
同时,KUAE通过多维度训练洞察体系实现动态监测与智能诊断,异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定保障。
摩尔线程通过上述五力协同,系统级能力构建“AI生产力”。
需要指出的是,摩尔线程的五大核心技术能力并不是孤立的,而是从GPU计算到架构设计,从训练优化到集群管理,再到软件生态,构成了一个闭环系统,推动了其“AI工厂”概念的成功落地,为AI大模型训练提供了强大而可靠的国产基础设施支持。
如何赋能AI时代的核心应用场景


GPU的角色,已经从传统的图形处理,转变为AI大模型训练、科学仿真、多模态推理、工业智能化和空间计算等关键技术的核心算力基础。随着AI技术,尤其是大模型训练和生成式AI的快速发展,GPU在计算资源中的核心地位日益突出。摩尔线程的全功能GPU,尤其是其“AI工厂”体系,正在将这一强大算力转化为各行业智能升级的实际能力。
资讯配图
摩尔线程自主研发的全功能GPU,满足了AI产业对高效算力的迫切需求,且能够广泛应用于多个领域,推动AI技术的发展。
应用1:AI大模型训练与推理的核心引擎
随着大模型的崛起,AI应用对算力的需求变得更加复杂和多样。大模型在训练和推理阶段对算力的通用性、精度和能效比提出了极高的要求。摩尔线程的全功能GPU通过FP8混合精度和全栈推理优化成为解决这些问题的最佳选择。
·通用性与精度:摩尔线程GPU支持FP8混合精度,既能提升训练效率,又能保证计算精度,满足现代AI训练对算力和精度的双重需求。
·全栈推理优化:摩尔线程的TensorX和vLLM-MUSA推理优化套件,已在DeepSeek等大模型的训练和部署中验证其高效性。
摩尔线程的GPU打破了算力瓶颈,不仅为AI大模型的训练和推理提供了强大的技术支撑,更为即将爆发的Agentic AI时代铺路,未来的AI应用将包括万亿参数模型和多Agent协作,这类智能体协作要求极高的算力支持。摩尔线程的全功能GPU,将为智能体AI提供强大的支持,推动这一新型架构的快速发展。
应用2:科学计算与AIforScience的新底座
在药物设计、材料仿真、分子动力学等科研领域,对计算精度和计算规模的要求非常严格。传统的国外GPU难以满足这些需求,而摩尔线程通过支持FP64等全精度计算,为科研领域提供了强大的技术支持。
·FP64精度支持:摩尔线程的GPU不仅能支持高精度计算,还满足了AI for Science领域对大规模并行计算的需求。
·科研合作与应用:摩尔线程正与国内顶级科研机构合作,推动GPU在分子动力学和蛋白质结构预测等领域的应用,满足了科研对高精度计算的需求。
应用3:工业与空间智能的国产替代关键力量
在工业制造、遥感、图形渲染等领域,GPU的图形处理能力、AI加速能力和仿真能力必须高度融合。随着工业智能化和数字孪生技术的发展,摩尔线程可以提供关键技术支持。
·图形+AI+仿真能力:摩尔线程GPU支持3D渲染、图像识别、数字孪生等应用,在工业智能化、遥感和空间计算中展现出强大的计算和数据处理能力。
·国产替代实现闭环:摩尔线程产品和技术已与雪浪云工业智能体和超图遥感平台融合,成功打造了全国产解决方案。
在算力决定智能高度的今天,摩尔线程正通过"AI工厂"构建新一代AI基础设施——从提升精度的FP8技术,到可支撑万卡规模的KUAE集群,这套系统级创新将会证明:国产计算平台已具备规模化、高效率、高可靠的大模型生产能力。

文:月满西楼/ 数据猿
责编:凝视深空 
/ 数据猿


资讯配图
往期好文推荐

从四大巨头的竞赛 看中国通用大模型的突围之路

是开源大模型之王?Llama、DeepSeek还是Qwen?

人民呼唤DeepSeek!

资讯配图