WAIC 2025最大看点！中国智算超节点，新亮相

半导体产业纵横
2025-07-27 15:10:03

2025世界人工智能大会（WAIC）的现场人头攒动。

一踏入WAIC 的现场，就能感受到扑面而来的人气。无论是主会场还是各个分展区，到处都是攒动的身影。人们穿梭在不同的展品之间，而智算超节点的展台前，更是聚集了不少行业内的人士，他们或站着倾听讲解，或围着设备仔细观察。

今年的WAIC现场中，智算超节点在众多展品中显得尤为突出，华为的昇腾384超节点更是其中翘楚。但除了华为，中兴、新华三、超聚变等中国企业的超节点方案也纷纷亮相，共同上演了一场中国智算超节点的 “集体秀”。

超节点是什么？

想要了解华为昇腾384超节点，就得先知道什么是超节点。

超节点这个概念最开始是英伟达提出的，英文名叫SuperPod。

GPU作为重要的算力硬件，为AI的训练和推理提供有力的支撑。但是随着大模型参数的不断增长，对于GPU集群的规模需求也就越来越大。

从之前的千卡集群，到现在的万卡集群，再到未来的十万卡集群。那么越来越大的GPU集群如何构建呢？

答案就是，Scale Up和Scale Out。

Scale Up，向上扩展，也叫做纵向扩展，增加的是单节点的资源数量。Scale Out，向外扩展，也就是横向扩展，增加节点的数量。简单理解，每台服务器里面多塞几块GPU，这时一台服务器就是一个节点。在通过网络，将多台节点连接起来，就是Scale Out。

超节点技术的核心就与此：

第一，突破单服务器限制。超节点允许把数十块甚至数百块GPU集成在一个机架内，形成“一个机架就是一个节点”。

第二，超带宽域（HBD）技术。通过NVLink/UB等高速互联技术，将GPU间通信时延压缩至百纳秒级（传统网络时延为10微秒），实现GPU间数据交换的无缝衔接。

第三，Scale Up与Scale Out融合。既支持单节点内增加GPU（纵向扩展），又能通过网络连接多节点（横向扩展），实现 “乐高式” 灵活搭建。

英伟达把这种以超大带宽互联16卡以上GPU-GPU的Scale Up系统，称为超节点。发展到现在，英伟达的NVL72超节点，可以把36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中，实现总计720 PFLOPs的AI训练性能，或1440 PFLOPs的推理性能。

在WAIC现场，中国企业也带来了自己的超节点方案。

华为昇腾384超节点

作为本次WAIC 的 “明星展品”，华为首次线下展出的昇腾 384 超节点（Atlas 900 A3 SuperPoD）堪称 “巨无霸”。由 12 个计算柜和 4 个总线柜组成，集成了 384 个昇腾 910C NPU 和 192 个鲲鹏 920 CPU，是目前业界规模最大的超节点。

昇腾384超节点集成了384个昇腾 910C 神经网络处理单元 (NPU) 和192个鲲鹏920中央处理器 (CPU)。采用华为自研的MatrixLink高速互联技术，实现全对等互联。

从性能测试上看，在昇腾超节点集群上，LLaMA 3等千亿稠密模型性能相比传统集群提升2.5倍以上；在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上，性能提升可达3倍以上，较业界其他集群高出1.2倍。

根据官方表示，这个算力平台基于384颗昇腾芯片构建，通过全互联对等架构实现芯片间高效协同，可提供高达300 PFLOPs的稠密BF16算力。这个方案性能接近英伟达B200 NVL 72平台的两倍。内存带宽达到1229TB/s，总的内存容量超出英伟达方案的3.6倍。

关于大家关心的几个问题，我们也替大家问到了。

第一，在如此多芯片、机柜下，如何在不降低数据传输速递下，保证芯片的互连？

之前业内普遍采用以CPU为中心的冯·诺依曼结构，但华为昇腾超节点提出的是：对等计算架构。把总线从服务器内部，扩展到整机柜、甚至跨机柜。特点就是点对点、完全互联的超高带宽网络，通过UB 协议连接所有NPU和CPU。

并且，华为的Scale Up互联采用了去铜全光的方案。每个GPU用7个400G LPO Sipho光模块提供的2800Gbit/s带宽来实现Scale Up互联，合计384张GPU一共通过4个CloudEngine Switch的单层扁平拓扑实现互联。

工作人员向记者介绍，在超节点范围内，用高速总线互联替代传统以太，通信带宽提升了15倍；单跳通信时延也从2微秒做到200纳秒，降低了10倍。

第二，昇腾384超节点冷却方式是？

液冷加风冷的模式。对于384颗昇腾910C芯片采用冷板式液冷；对于电源、网卡等低功耗模块保留风冷设计。

第三，昇腾384超节点的客户是？

目前硅基流动基于昇腾384部署DeepSeek-R1模型，能够实现在单用户20TPS负载下实现1920 tokens/秒的吞吐量，超越国际主流芯片的1850 tokens/秒，且生成精度在知识问答、代码生成等任务中表现更优。

训练方面，华为内部的大模型，以及工行、邮储银行的内部大模型在使用昇腾384进行训练。此外，美团、字节、蚂蚁、京东、百度等是相关客户。

据记者了解，这个超节点可以进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群。华为相关人士向记者介绍：“相当于我们用工程化的方案，弥补了技术和算力上的差距。”

中兴智算超节点方案

中兴通讯也有自家的超节点方案。在本次展台中展示的智算超节点，内部搭载的是百度昆仑心P800，主打 “高密度集成”。

中兴的智算超节点服务器，单机柜可搭载64个GPU，内置16个计算节点，8个交换节点，采用正交互联架构，降低互联成本，GPU间通信带宽达到400GB/S-1.6TB/S，时延达到百纳秒级，液冷占比达到80%，机内Scale up可扩展至2048张算力卡，机间支持Scale out拓展至万卡规模。

中兴智算超节点方案能够适配英伟达的AI加速卡，也能够适配国内大多数GPU企业，如海光、寒武纪、沐曦、摩尔线程等。

据中兴工作人员介绍，中兴能够做到单机架节点集成64卡，而目前华为的单机架节点是32张卡。

新华三：UniPoD 超节点

新华三带来的是超节点产品H3C UniPod S80000全球首秀。

据了解，新华三UniPoD 超节点支持单机柜、多机柜等多种形态，Scale-up互联规模提升300%。依托以太互联协议，实现Scale-up南向互联。能够实现单机柜64卡（和中兴一样）高密部署及互联互通，并同时具备向1024卡互联演进的能力。

超聚变：单柜128个AI加速卡

超聚变带来全球首个多元智算即插即用超级集群系统。

实现全面软硬件基础设施技术和全面算力生态，能够兼容10+加速卡，提供双生态南北向安全异构算力。做到单柜240kW的超级供电，一柜顶32柜；单柜128个AI加速卡，112G/224G的高速互连；使用第5代100%原生液冷，能够实现节能20%以上。

据超聚变介绍，该方案能够规模化部署10万+节点。

结语

超节点并非简单的硬件堆砌，而是面向大模型时代，在芯片性能、地缘政治与工程实践三重约束下，必然催生的一种高效、可扩展、标准化的算力集群架构。

超节点将复杂的系统工程问题在工厂端解决，为客户提供了一个标准化的、乐高积木式的算力单元。对于中国而言，选择超节点的道路更增添了一层战略必然性。

我们已经看到，国内AI企业都在前后推出自家的超节点产品和解决方案。

华为昇腾384超节点在世界级展会上亮相，并不是偶然。昇腾384超节点的出现，为中国企业终结了底层算力的忧虑，也给予国产算力很大的信心。

AI PC产业研究报告

为帮助PC领域硬件层、软件层、模型层及终端层各类玩家更清晰地了解AI PC行业的发展现状及未来发展趋势，半导体产业纵横筹备撰写《AI PC产业研究报告》。现征集AI PC产业链各类厂商案例，该报告将通过半导体产业纵横全媒体矩阵发布，参与的案例可获得丰富的宣发支持和曝光机会。本次案例征集自即日起，报告预计7月发布，欢迎相关企业积极参与探讨！有意者联系我方商务：

* 微信号1: icviews2

* 微信号2: Joy8432211