首亮相!华为超级AI算力系统真机实现多项突破
- 2025-07-30 20:09:07
上海世博中心,华为展台中央那台黑色机柜,何以斩获WAIC 2025“镇馆之宝”?
7月29日消息,在2025世界人工智能大会(WAIC)上,华为首次线下展出了昇腾384超节点(Atlas 900 A3 SuperPoD),这也是继今年5月鲲鹏昇腾开发者大会发布后,这一超级AI算力系统的真机首度公开亮相。
这款此前被称为华为“核弹”的产品,核心突破在于架构:通过华为自研的高速网络MatrixLink,将384颗昇腾NPU和192颗鲲鹏CPU以全对等拓扑“拧成一股绳”,让整个集群像一台计算机般协同工作,突破了传统堆叠式集群的通信瓶颈。
在单卡算力并非全球顶尖的情况下,华为凭借通信技术的突破,成功实现了对英伟达的系统级超越。
性能上,昇腾384超节点总算力高达300 PFLOPs,是英伟达旗舰GB200 NVL72系统的1.67倍;网络互联总带宽达269TB/s,超出英伟达107%;内存总带宽达1229TB/s,领先113%。
另外,其单卡推理吞吐量跃升到2300 Tokens/s,几乎为实时思考类AI交互扫平了障碍。
华为同期公布了论文《Serving Large Language Models on Huawei CloudMatrix384》,从论文里面的内容更细致来看,关键突破在其三:

其一为CloudMatrix384超节点用速度换算力效率,通过全对等高速互联的架构创新,把卡间互联速度一下拉到世界领先水平,实现对英伟达的系统级代际跨越。
在AI芯片集群里,并不像很多人想象得一般,好比万卡集群里,10000张算力100的芯片,并不能得到10*10000的总算力,因为芯片之间的通信速度是有受限的,而这种情况随着芯片数量增多限制会变得更严重。
华为采用的是一种超高带宽,低延迟的统一总线技术,让所有CPU和NPU、内存等部件进行对等互联,这些组件对等传输,形成一个统一的超节点。
这种超节点技术用高速总线取代传统以太网互联,通信带宽提升到2.8Tb/s,提升高达15倍,单条通信时延从2μs降到200ns,降低整整10倍。

更通俗来讲,其让整个集群摆脱以往每个计算机“先访问、再传输”的模式,让整个集群如同一台计算机般协同工作,从而突破系统性能限制。
为了最大限度提升传输速度,华为舍弃了英伟达NVLink72采用的铜缆连接,采用更先进的400G光模组,通过光模组和统一总线架构,让384颗昇腾NPU、192颗鲲鹏CPU,实现了真正全对等的高速无阻塞互联。
其好比如在城际交通里,别人都是单行道或者双行道,华为通过架设了“光纤”高速公路,让芯片间的传输速度极限逼近于芯片内部传输,从速度升级换来算力效率升级,而这种在集群上效果更是立竿见影,这也是为什么华为的芯片单卡性能不如英伟达H100,但单卡吞吐能力却反超的原因。
英伟达CEO黄仁勋此前接受采访时也曾坦言:“华为在系统设计上确实超越了我们。”他尤其强调华为的芯片设计、网络工程与云服务整合能力,甚至预警“任何轻视这家中国公司的人,都极其天真”。
其二关键为昇腾384超节点专为千亿乃至万亿级参数的推理大模型“一卡一专家”技术创新。
算力是如今AI大模型迭代的一方面,而另一方面,如何让推理大模型更高速的跑起来也极为重要。
华为为更好支持如DeepSeek这样的混合转接MoE大模型的推理,CloudMatrix384超节点设计了大规模专家并行策略,384颗昇腾NPU每张卡都可以精确承载一个专家,利用先前提到的统一总线网络,实现高效的token分发和专家输出合并,也就是业内常说的高吞吐、低延迟
在华为公布的论文中,这套策略实测千亿级大模型训练比传统集群快2.5倍,而在多模态或MoE专家模型如DeepSeek、Qwen上,甚至可达3倍以上,全面超越英伟达H100和H800。
其三关键在于CloudMatrix384超节点的扩展能力,它最多可以将432个超节点进行级联,形成一个16万卡的AI集群,可通过纵向和横向网络的通信协同优化,集群性能逼近无损,万卡集群线性度 >95%,能提供最大10万PFLOPs算力 ,可以支持1300个迁移级别参数的大模型同时做训练,这为下一步万亿参数的大模型训练提供了基础。
目前,它已支撑了超过80个主流大模型——从讯飞星火、LLaMA到国产翘楚DeepSeek、Qwen等,并与2700多家伙伴共同孵化出6000余个行业解决方案。








- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊