WAIC 2025最大看点!中国智算超节点,新亮相
- 2025-07-27 15:10:03


2025世界人工智能大会(WAIC)的现场人头攒动。
一踏入WAIC 的现场,就能感受到扑面而来的人气。无论是主会场还是各个分展区,到处都是攒动的身影。人们穿梭在不同的展品之间,而智算超节点的展台前,更是聚集了不少行业内的人士,他们或站着倾听讲解,或围着设备仔细观察。
今年的WAIC现场中,智算超节点在众多展品中显得尤为突出,华为的昇腾384超节点更是其中翘楚。但除了华为,中兴、新华三、超聚变等中国企业的超节点方案也纷纷亮相,共同上演了一场中国智算超节点的 “集体秀”。

想要了解华为昇腾384超节点,就得先知道什么是超节点。
超节点这个概念最开始是英伟达提出的,英文名叫SuperPod。
GPU作为重要的算力硬件,为AI的训练和推理提供有力的支撑。但是随着大模型参数的不断增长,对于GPU集群的规模需求也就越来越大。
从之前的千卡集群,到现在的万卡集群,再到未来的十万卡集群。那么越来越大的GPU集群如何构建呢?

答案就是,Scale Up和Scale Out。
Scale Up,向上扩展,也叫做纵向扩展,增加的是单节点的资源数量。Scale Out,向外扩展,也就是横向扩展,增加节点的数量。简单理解,每台服务器里面多塞几块GPU,这时一台服务器就是一个节点。在通过网络,将多台节点连接起来,就是Scale Out。
超节点技术的核心就与此:
第一,突破单服务器限制。超节点允许把数十块甚至数百块GPU集成在一个机架内,形成“一个机架就是一个节点”。
第二,超带宽域(HBD)技术。通过NVLink/UB等高速互联技术,将GPU间通信时延压缩至百纳秒级(传统网络时延为10微秒),实现GPU间数据交换的无缝衔接。
第三,Scale Up与Scale Out融合。既支持单节点内增加GPU(纵向扩展),又能通过网络连接多节点(横向扩展),实现 “乐高式” 灵活搭建。
英伟达把这种以超大带宽互联16卡以上GPU-GPU的Scale Up系统,称为超节点。发展到现在,英伟达的NVL72超节点,可以把36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,实现总计720 PFLOPs的AI训练性能,或1440 PFLOPs的推理性能。
在WAIC现场,中国企业也带来了自己的超节点方案。

作为本次WAIC 的 “明星展品”,华为首次线下展出的昇腾 384 超节点(Atlas 900 A3 SuperPoD)堪称 “巨无霸”。由 12 个计算柜和 4 个总线柜组成,集成了 384 个昇腾 910C NPU 和 192 个鲲鹏 920 CPU,是目前业界规模最大的超节点。

昇腾384超节点集成了384个昇腾 910C 神经网络处理单元 (NPU) 和192个鲲鹏920中央处理器 (CPU)。采用华为自研的MatrixLink高速互联技术,实现全对等互联。
从性能测试上看,在昇腾超节点集群上,LLaMA 3等千亿稠密模型性能相比传统集群提升2.5倍以上;在通信需求更高的Qwen、DeepSeek等多模态、MoE模型上,性能提升可达3倍以上,较业界其他集群高出1.2倍。
根据官方表示,这个算力平台基于384颗昇腾芯片构建,通过全互联对等架构实现芯片间高效协同,可提供高达300 PFLOPs的稠密BF16算力。这个方案性能接近英伟达B200 NVL 72平台的两倍。内存带宽达到1229TB/s,总的内存容量超出英伟达方案的3.6倍。
关于大家关心的几个问题,我们也替大家问到了。
第一,在如此多芯片、机柜下,如何在不降低数据传输速递下,保证芯片的互连?
之前业内普遍采用以CPU为中心的冯·诺依曼结构,但华为昇腾超节点提出的是:对等计算架构。把总线从服务器内部,扩展到整机柜、甚至跨机柜。特点就是点对点、完全互联的超高带宽网络,通过UB 协议连接所有NPU和CPU。

并且,华为的Scale Up互联采用了去铜全光的方案。每个GPU用7个400G LPO Sipho光模块提供的2800Gbit/s带宽来实现Scale Up互联,合计384张GPU一共通过4个CloudEngine Switch的单层扁平拓扑实现互联。
工作人员向记者介绍,在超节点范围内,用高速总线互联替代传统以太,通信带宽提升了15倍;单跳通信时延也从2微秒做到200纳秒,降低了10倍。
第二,昇腾384超节点冷却方式是?
液冷加风冷的模式。对于384颗昇腾910C芯片采用冷板式液冷;对于电源、网卡等低功耗模块保留风冷设计。
第三,昇腾384超节点的客户是?
目前硅基流动基于昇腾384部署DeepSeek-R1模型,能够实现在单用户20TPS负载下实现1920 tokens/秒的吞吐量,超越国际主流芯片的1850 tokens/秒,且生成精度在知识问答、代码生成等任务中表现更优。
训练方面,华为内部的大模型,以及工行、邮储银行的内部大模型在使用昇腾384进行训练。此外,美团、字节、蚂蚁、京东、百度等是相关客户。
据记者了解,这个超节点可以进一步扩展为包含数万卡的Atlas 900 SuperCluster超节点集群。华为相关人士向记者介绍:“相当于我们用工程化的方案,弥补了技术和算力上的差距。”
中兴智算超节点方案
中兴通讯也有自家的超节点方案。在本次展台中展示的智算超节点,内部搭载的是百度昆仑心P800,主打 “高密度集成”。

中兴的智算超节点服务器,单机柜可搭载64个GPU,内置16个计算节点,8个交换节点,采用正交互联架构,降低互联成本,GPU间通信带宽达到400GB/S-1.6TB/S,时延达到百纳秒级,液冷占比达到80%,机内Scale up可扩展至2048张算力卡,机间支持Scale out拓展至万卡规模。
中兴智算超节点方案能够适配英伟达的AI加速卡,也能够适配国内大多数GPU企业,如海光、寒武纪、沐曦、摩尔线程等。
据中兴工作人员介绍,中兴能够做到单机架节点集成64卡,而目前华为的单机架节点是32张卡。
新华三:UniPoD 超节点

新华三带来的是超节点产品H3C UniPod S80000全球首秀。
据了解,新华三UniPoD 超节点支持单机柜、多机柜等多种形态,Scale-up互联规模提升300%。依托以太互联协议,实现Scale-up南向互联。能够实现单机柜64卡(和中兴一样)高密部署及互联互通,并同时具备向1024卡互联演进的能力。
超聚变:单柜128个AI加速卡

超聚变带来全球首个多元智算即插即用超级集群系统。
实现全面软硬件基础设施技术和全面算力生态,能够兼容10+加速卡,提供双生态南北向安全异构算力。做到单柜240kW的超级供电,一柜顶32柜;单柜128个AI加速卡,112G/224G的高速互连;使用第5代100%原生液冷,能够实现节能20%以上。
据超聚变介绍,该方案能够规模化部署10万+节点。

超节点并非简单的硬件堆砌,而是面向大模型时代,在芯片性能、地缘政治与工程实践三重约束下,必然催生的一种高效、可扩展、标准化的算力集群架构。
超节点将复杂的系统工程问题在工厂端解决,为客户提供了一个标准化的、乐高积木式的算力单元。对于中国而言,选择超节点的道路更增添了一层战略必然性。
我们已经看到,国内AI企业都在前后推出自家的超节点产品和解决方案。
华为昇腾384超节点在世界级展会上亮相,并不是偶然。昇腾384超节点的出现,为中国企业终结了底层算力的忧虑,也给予国产算力很大的信心。


AI PC产业研究报告
为帮助PC领域硬件层、软件层、模型层及终端层各类玩家更清晰地了解AI PC行业的发展现状及未来发展趋势,半导体产业纵横筹备撰写《AI PC产业研究报告》。现征集AI PC产业链各类厂商案例,该报告将通过半导体产业纵横全媒体矩阵发布,参与的案例可获得丰富的宣发支持和曝光机会。本次案例征集自即日起,报告预计7月发布,欢迎相关企业积极参与探讨!有意者联系我方商务:
* 微信号1: icviews2
* 微信号2: Joy8432211










- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊