电子发烧友网报道(文/张迎辉)在2025年世界人工智能大会(WAIC 2025)开幕前一天,国产GPU企业摩尔线程以“算力进化,精度革命”为主题带来技术分享,随后在7月26日-29日的展会期间,又凭借“云边端”全栈AI产品和解决方案成为焦点全方位展现了其在AI领域的技术实力与行业愿景。

资讯配图

“AI工厂”理念:重构大模型训练基础设施

张建中董事长CEO在技术分享会上提出了极具前瞻性的AI工理念,为AI基础设施建设指明了新方向。他将“AI工厂”比作芯片晶圆厂,强调这是一个系统性的变革,需要从底层芯片架构、集群整体架构,到软件算法调优和资源调度系统进行全面升级。

资讯配图
图:摩尔线程创始人兼CEO张建中提出AI Foudry的概念(来源:电子发烧友网)
“AI工厂”的生产效率由五大核心要素决定,即加速计算通用性、单芯片有效算力、单节点效率、集群效率和集群稳定性,它们之间呈相乘关系,共同决定着“AI工厂”的产能。这一理念致力于推动AI训练从千卡级向万卡级乃至十万卡级规模演进,实现生产力和创新效率的飞跃。

张建中强调,摩尔线程的“AI工厂”以全功能GPU为基石,通过先进架构、芯片算力、单节点效率、集群效率优化与可靠性等协同跃升的深度技术创新,将全功能GPU加速计算平台的强大潜能转化为工程级的训练效率与可靠性保障。

全功能GPU:功能完备与精度完整

全功能GPU是摩尔线程“AI工厂”的核心支撑,也是其技术突破的关键所在。张建中介绍,摩尔线程自主研发的全功能GPU实现了单芯片同时支持AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码的技术突破,目前国内GPU只有摩尔线程具备这个能力。 

资讯配图
图:摩尔线程原生支持FP8 大模型训练推理
在计算精度方面,摩尔线程的全功能GPU支持从FP 64至INT 8的完整精度谱系,尤其在FP8混合精度技术上表现突出,在主流前沿大模型训练中实现20%-30%的性能跃升,为国产GPU的算力效率树立了行业标杆。这种全精度支持使其能够全面覆盖从AI训练、推理到科学计算的全场景需求,无论是大模型训练还是复杂的科学计算任务,都能游刃有余。

MUSA架构:释放芯片有效算力

自研的MUSA架构是摩尔线程提升芯片有效算力的核心武器。张建中详细阐述了MUSA架构在计算、内存、通信三方面的突破。该架构采用创新的多引擎、可伸缩GPU架构,通过硬件资源池化及动态资源调度技术,构建了全局共享的计算、内存与通信资源池,突破了传统GPU功能单一的限制。

在计算层面,摩尔线程的AI加速系统(TCE/TME)全面支持多种混合精度计算,作为国内首批实现FP 8算力量产的GPU厂商,其FP8技术通过一系列创新设计,将Transformer计算性能提升约30%。内存系统方面,实现了50%的带宽节省和60%的延迟降低;通信领域,独创的ACE异步通信引擎减少了15%的计算资源损耗,MT Link 2.0互联技术提供了高出国内行业平均水平60%的带宽。

MUSA全栈系统软件:提升单节点效率

单节点效率的提升离不开优秀的软件支持,摩尔线程的MUSA全栈系统软件在这方面表现出色。张建中介绍,其核心创新包括任务调度优化,核函数启动时间缩短50%;极致性能算子库,GEMM算子算力利用率达98%,Flash Attention算子算力利用率突破95%;通信效能跃升,MCCL通信库实现RDMA网络97%带宽利用率等。

这些软件层面的优化使得单节点能够充分发挥硬件的性能,减少资源浪费,提高计算效率,为“AI工厂”的高效运转提供了坚实的软件基础。

KUAE大规模集群:系统工程级的突破

当单节点效率达到较高水平后,大规模集群的高效协作成为新的挑战。摩尔线程自研的夸额(KUAE)计算集群通过5D大规模分布式并行计算技术,实现了上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。

KUAE集群创新采用5D并行训练,整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构。同时,自主研发的Simumax工具能面向超大规模集群自动搜索最优并行策略,为模型缩短训练周期提供科学依据。此外,创新的Check Point加速方案利用RDMA技术,将百GB级备份恢复时间从数分钟压缩至1秒,大幅提升了GPU有效算力利用率。

零中断容错技术:保障集群稳定性

在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力。为此,摩尔线程创新推出零中断容错技术,这一技术成为保障“AI工厂”持续运转的关键。

当故障发生时,该技术仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这使得KUAE集群有效训练时间占比超99%,大幅降低了恢复开销。同时,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供了稳定保障。

展台产品矩阵:“云边端”全栈解决方案亮相

在WAIC展会的H1-A821展位,摩尔线程展示了丰富的“云边端”全栈AI产品与解决方案,让观众直观感受到其技术的实际应用。

资讯配图
图:WAIC 2025摩尔线程现场大受热捧
夸娥(KUAE)作为以全功能GPU为硬件核心的软硬一体化系统级算力解决方案,支持万卡级规模扩展能力,为大模型预训练提供稳定高效的算力支撑。其中,KUAE2是2024年底推出的第二代大规模智算融合中心产品,支持万卡互联,兼顾AI与科学计算。

资讯配图

全功能GPU OAM模组专为大规模智算集群设计,可支持万亿级参数大模型训练与推理,且在国内率先支持FP8等全计算精度。AI大模型一体机MCCXD800X2是旗舰级GPU加速服务器,为大语言及多模态大模型、科学计算等前沿领域提供强大支持。

此外,还有训推兼顾的AI大模型智算加速卡MTTS4000,适用于云电脑、云游戏等场景的云端渲染卡MTTS3000,首款国产GPU游戏显卡MTTS80,以及可广泛应用于多个行业的边缘AI计算模组。这些产品形成了完整的计算加速产品矩阵,全面满足不同场景的需求。

行业应用:全功能GPU赋能千行百业

摩尔线程的全功能GPU不仅在技术上领先,更在多个行业领域展现出强大的应用价值。在智能计算领域,其大模型训练和推理解决方案性能优异,运行DeepSeekR1671B全量模型的单路解码速度约100token/s,处于行业领先水平。

在科学计算领域,与国内顶尖科研机构打造了软硬件协同的生命科学解决方案,凭借全功能GPU的全精度计算、强大兼容性和高性能优势,可高效运行分子动力学、分子对接等科学计算软件。该方案不仅突破传统研究瓶颈,更在性能上达到行业领先水平,推动生命科学研究的国产化突破。

物理仿真方面,硒钼科技研发的AI for Science大模型平台,依托全功能GPU强大算力与均衡的训推能力,在保持计算精度下实现百倍仿真效率跃升。其专有智能体系统自动化处理重复科研工作,推动科学研究向工程化、精准化新范式演进。

在空间智能领域,依托全功能GPU算力,摩尔线程联合超图共同构建了覆盖训练、推理到可视化的完整国产化链条,支持亿级参数模型开发,并实现快速解译和高清影像实时渲染,成为国内极少数的可满足遥感大模型全流程需求的国产GPU解决方案。

资讯配图
具身智能、创娱教育、智能制造、智慧医疗、智能驾驶、智能座舱等领域,摩尔线程的全功能GPU也都有出色的应用展示,为各行业的智能化升级注入新动能。

从“AI工厂”理念的提出到全栈产品的展示,摩尔线程在WAIC 2025上充分展现了其在全功能GPU领域的深厚积累和领先地位。随着技术的不断迭代和应用的持续拓展,摩尔线程正以系统级创新定义新一代AI基础设施,为AGI时代的到来奠定坚实的算力基础。

资讯配图

声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。


更多热点文章阅读


点击关注 星标我们



将我们设为星标,不错过每一次更新!
资讯配图

资讯配图喜欢就奖励一个“在看”吧!