首亮相！华为超级AI算力系统真机实现多项突破

维科网人工智能
2025-07-30 20:09:07

✎ 引言

上海世博中心，华为展台中央那台黑色机柜，何以斩获WAIC 2025“镇馆之宝”？

7月29日消息，在2025世界人工智能大会（WAIC）上，华为首次线下展出了昇腾384超节点（Atlas 900 A3 SuperPoD），这也是继今年5月鲲鹏昇腾开发者大会发布后，这一超级AI算力系统的真机首度公开亮相。

资讯配图

这款此前被称为华为“核弹”的产品，核心突破在于架构：通过华为自研的高速网络MatrixLink，将384颗昇腾NPU和192颗鲲鹏CPU以全对等拓扑“拧成一股绳”，让整个集群像一台计算机般协同工作，突破了传统堆叠式集群的通信瓶颈。

在单卡算力并非全球顶尖的情况下，华为凭借通信技术的突破，成功实现了对英伟达的系统级超越。

性能上，昇腾384超节点总算力高达300 PFLOPs，是英伟达旗舰GB200 NVL72系统的1.67倍；网络互联总带宽达269TB/s，超出英伟达107%；内存总带宽达1229TB/s，领先113%。

另外，其单卡推理吞吐量跃升到2300 Tokens/s，几乎为实时思考类AI交互扫平了障碍。

华为同期公布了论文《Serving Large Language Models on Huawei CloudMatrix384》，从论文里面的内容更细致来看，关键突破在其三：

其一为CloudMatrix384超节点用速度换算力效率，通过全对等高速互联的架构创新，把卡间互联速度一下拉到世界领先水平，实现对英伟达的系统级代际跨越。

在AI芯片集群里，并不像很多人想象得一般，好比万卡集群里，10000张算力100的芯片，并不能得到10*10000的总算力，因为芯片之间的通信速度是有受限的，而这种情况随着芯片数量增多限制会变得更严重。

华为采用的是一种超高带宽，低延迟的统一总线技术，让所有CPU和NPU、内存等部件进行对等互联，这些组件对等传输，形成一个统一的超节点。

这种超节点技术用高速总线取代传统以太网互联，通信带宽提升到2.8Tb/s，提升高达15倍，单条通信时延从2μs降到200ns，降低整整10倍。

更通俗来讲，其让整个集群摆脱以往每个计算机“先访问、再传输”的模式，让整个集群如同一台计算机般协同工作，从而突破系统性能限制。

为了最大限度提升传输速度，华为舍弃了英伟达NVLink72采用的铜缆连接，采用更先进的400G光模组，通过光模组和统一总线架构，让384颗昇腾NPU、192颗鲲鹏CPU，实现了真正全对等的高速无阻塞互联。

其好比如在城际交通里，别人都是单行道或者双行道，华为通过架设了“光纤”高速公路，让芯片间的传输速度极限逼近于芯片内部传输，从速度升级换来算力效率升级，而这种在集群上效果更是立竿见影，这也是为什么华为的芯片单卡性能不如英伟达H100，但单卡吞吐能力却反超的原因。

英伟达CEO黄仁勋此前接受采访时也曾坦言：“华为在系统设计上确实超越了我们。”他尤其强调华为的芯片设计、网络工程与云服务整合能力，甚至预警“任何轻视这家中国公司的人，都极其天真”。

其二关键为昇腾384超节点专为千亿乃至万亿级参数的推理大模型“一卡一专家”技术创新。

算力是如今AI大模型迭代的一方面，而另一方面，如何让推理大模型更高速的跑起来也极为重要。

华为为更好支持如DeepSeek这样的混合转接MoE大模型的推理，CloudMatrix384超节点设计了大规模专家并行策略，384颗昇腾NPU每张卡都可以精确承载一个专家，利用先前提到的统一总线网络，实现高效的token分发和专家输出合并，也就是业内常说的高吞吐、低延迟

在华为公布的论文中，这套策略实测千亿级大模型训练比传统集群快2.5倍，而在多模态或MoE专家模型如DeepSeek、Qwen上，甚至可达3倍以上，全面超越英伟达H100和H800。

资讯配图

其三关键在于CloudMatrix384超节点的扩展能力，它最多可以将432个超节点进行级联，形成一个16万卡的AI集群，可通过纵向和横向网络的通信协同优化，集群性能逼近无损，万卡集群线性度＞95%，能提供最大10万PFLOPs算力，可以支持1300个迁移级别参数的大模型同时做训练，这为下一步万亿参数的大模型训练提供了基础。

资讯配图