黄仁勋预言成真?华为昇腾正面硬刚英伟达B200,差距仅3倍!但致命短板首次曝光
- 2025-07-28 15:34:53
中国硬件正迎头赶上,但核心瓶颈尚待突破
作者:VERONIKA BLABLOVÁ 与 ROBI RAHMAN
2025年7月27日
近来,一种声音不绝于耳:中国在人工智能算力领域正迅速追赶西方。
英伟达 CEO 黄仁勋的观点颇具代表性。他近期表示,中国在过去几年取得了“巨大进步”,并且“(在追赶我们的路上)已近在咫尺”。
中国的确取得了长足的进步。如下文所示,在计算能力和数据传输这两个 AI 核心领域,中国硬件与西方的差距正在不断缩小。
然而,尽管数据亮眼,我们并不认为中国能在 AI 算力上实现对西方的快速反超。阿里巴巴、字节跳动、百度和深度求索等顶尖开发者,其核心业务流仍旧高度依赖英伟达芯片。
在中国实现算力飞跃的道路上,依然横亘着两大难以逾越的瓶颈。
首先,瓶颈在于芯片制造。 美国对先进制造设备的出口管制,大幅推高了中国进行前沿大模型训练与推理所需芯片的量产成本。
其次,瓶颈在于软件生态。 与英伟达成熟的 CUDA 技术栈相比,中国芯片的软件生态普遍存在漏洞多、文档匮乏和运行不稳定的问题。
因此我们判断,未来数年,一旦有机会,中国开发者仍将优先选择西方芯片。当然,这并不意味着国产芯片会被弃用,只是在获取西方芯片受阻时,开发者将不得不付出更高昂的成本来使用性能稍逊的国产替代品。
纸面参数:国产硬件奋起直追
AI 开发者追求更强的 AI 系统,而这一切的核心是更优越的 AI 硬件,包括更强大的芯片和更高效的数据传输基础设施。
过去几年的趋势清晰可见:尽管西方硬件仍保持领先,但中国硬件正在全力缩小差距。
以计算能力为例,自 2017 年以来,中美芯片的每秒浮点运算次数均呈指数级增长。
2018 年双方尚有一个数量级的鸿沟,如今,华为昇腾 910C 与英伟达 B200 的性能差距已缩小至三倍。中国芯片甚至凭借壁仞科技 BR100 的发布,一度短暂登顶全球最快芯片的宝座。
从性价比维度看,中国硬件也展现出相似的追赶态势。历史上,国产硬件在价格上一直很有竞争力,只是产量有限。
例如,华为昇腾 910B 的性能虽只有英伟达 H100 的三分之一,但其价格也仅为后者的三分之一。由于二者同年发布,使得它们在 2022 年的初始性价比旗鼓相当。
然而,算力并非故事的全部。要公平比较,还必须审视硬件的数据传输效率。AI 工作负载涉及海量数据在不同组件间的流转,因此传输能力至关重要。
其中一个关键指标是内存带宽,它决定了数据在芯片内存与计算单元间的传输速率上限,对处理长上下文任务尤其关键。
在此项指标上,中国硬件同样在缩小差距。目前英伟达 B200 的内存带宽几乎是华为昇腾 910C 的两倍,依然领先。
但从 2017 到 2025 年,中国芯片内存带宽的年均增速高达 24%,远超西方同行的 13%。若能保持此势头,最快在下一代产品中就可能实现追平。当然,近期对高带宽内存的出口管制为此增添了变数。
另一个关键维度是互连带宽,即芯片间的传输速率。高互连带宽能有效减少芯片在训练过程中的数据等待时间。
在这一领域,西方依旧领先。英伟达的 NVLink 技术速度是昇腾 910C 所用 PCIe 4.0 标准的十倍以上。
为应对挑战,华为研发了“统一总线”技术。尽管其带宽不足 NVLink 的一半,耦合度也较低,但追赶的趋势毋庸置疑。
现实挑战:国产算力瓶颈待解
实践中,对西方芯片的依赖根深蒂固
尽管国产硬件进步显著,且英伟达芯片进口受限,但在中国顶尖的 AI 开发者中,国产芯片仍未成为主流。
我们的数据显示,在 2017 至 2024 年间发布的 130 个知名中文语言模型中,超过九成是使用西方硬件训练的。
即便排除那些能接触到海外资源的合资项目,绝大多数纯本土模型依然依赖英伟达 GPU。直到 2024 年 1 月,才诞生了首个据称完全由国产硬件训练的大模型,比业界首批大模型的出现晚了数年。
制造的枷锁与出口的管制
西方硬件之所以能主导市场,最核心的原因在于中国本土的 AI 芯片产能严重不足。
据报道,2024 年华为昇腾 910B 的产量约为 20 万片。而同年,合法渠道进入中国的英伟达 GPU 估算高达 100 万片,其中多数是性能有所缩减的 H800
和 H20
版本。
此外,数以万计的高性能英伟-达 GPU 通过走私等灰色渠道流入市场。中国头部科技公司的大量订单,充分证明了西方芯片难以抗拒的吸引力。
华为无疑在全力扩充产能。其 2025 年的目标是生产 40 万片昇腾芯片,并计划推出昇腾 920 等新品。
然而,这点产量对于前沿模型的训练需求而言,只是杯水-车薪。有限的产能被分散到众多开发者手中,加之较高的芯片次品率,使得大规模训练的挑战性剧增。
近年的出口管制,让本已严峻的算力状况雪上加霜。管制前,英伟达已手握中国 AI 算力市场 90% 的份额。如今,中国更要面对芯片生产关键要素被“卡脖子”的困境。
半导体制造设备是关键中的关键。例如,用于蚀刻芯片电路的先进光刻机,几乎由荷兰的阿斯麦公司垄断。
缺少顶尖设备,中芯国际等本土制造商只能奋力追赶。芯片制造的“良率”至关重要,而设备越差,良率越低。据报道,中芯国际的良率不足 50%,远低于台积电的 90%,这使其经济效益大打折扣,高度依赖国家补贴。
美国的出口管制还禁止台积电为中国大陆代工先进芯片,并试图在全球范围内将采用中国 AI 硬件的企业列入黑名单。这使得中国公司若选择华为芯片,将面临被美国制裁的巨大风险。
软件生态的鸿沟
除硬件挑战外,中国 AI 芯片的软件生态也远逊于西方。
一边是英伟达的 CUDA。经过十五年以上的迭代、积累了海量文档和庞大用户群,并与 PyTorch 等主流框架深度融合,构筑了坚固的护城河。
另一边是华为的 CANN 框架。它在 2019 年才问世,比 CUDA 晚了整整十二年。开发者普遍的反馈是:漏洞多、文档差、运行不稳定、易崩溃。
这些软件问题虽不至于完全阻断大规模训练,却显著推高了成本。因此,许多中国团队采取了混合策略:用昇腾芯片处理推理任务,而将宝贵的英伟达 GPU 资源保留给至关重要的大规模训练。
中国能否突破瓶颈?
我们已经看到,尽管中国硬件在参数上不断追赶,但受限于制造和软件生态两大瓶颈,其实际应用范围有限。那么,最大的问题是:中国能在短期内突破这些瓶颈吗?
只要无法获得最先进的光刻设备和高性能内存,中国芯片制造业就只能在追赶的道路上艰难前行。
即便有朝一日出口限制放松,软件生态的巨大差距也是另一座难以逾越的大山。中国正倾尽全力,试图通过巨额补贴实现软件和供应链的自主可控,但每一个技术关卡的突破,都非一日之功。
坦率地讲,我们预见不到中国在未来几年内实现算力反超的可能。
中国不仅要克服制造和软件上的重重障碍,还要面对西方巨头在研发和制造领域更为庞大的投入。
除非外部封锁出现松动,或中国能在短时间内创造多项技术奇迹,否则其硬件水平很可能将持续落后至少一代。
这并不妨碍中国训练出自己的前沿模型,但代价将远比对手高昂。我们认为,这种高昂的成本,将使中国在未来近十年的 AI 规模化竞赛中,处于相当不利的位置。
感谢 Tharin Pillay、Lynette Bye 和 Anson Ho 的编辑建议,以及 Erich Grunewald、Mary Clare McMahon 和 Yafah Edelman 帮助完善我们的研究和结论。
附录
表1:历年领先的中西方芯片时间线
*因台积电晶圆出口限制而无法购买。**
确切规格尚未公布。
表2:部分机器学习硬件规格
英伟达 V100 | ||||||
英伟达 A100 | ||||||
英伟达 H100 | ||||||
英伟达 B200 | ||||||
华为 昇腾 910 | ||||||
华为 昇腾 910B | ||||||
华为 昇腾 910C | ||||||
壁仞 BR100 |
*硬件价格不可用。
¹ 关于机器学习硬件计算性能趋势的更多信息,请参阅此数据洞察。
² 注意,这里指的是 16 位性能。具体来说,华为的昇腾 910C 提供约 754 TFLOP/s,而英伟达的 B200 提供 2250 TFLOP/s。DGX B200 服务器在 8 个 GPU 上提供 18 PFLOPS 的密集 FP16/BF16 性能;每个 GPU 的性能为 18/8 = 2.25 PFLOP/s。
³ 注意,它很快在性能上落后于英伟达的 H100 GPU。SemiAnalysis 的基准测试发现,H100 在 BF16 算术格式的密集矩阵乘法上达到 700-750 TFLOPS,约为其理论最大 BF16 性能的 70-75%。根据深度求索的测试,华为的昇腾 910C 处理器——目前中国制造的最先进芯片——达到了英伟达 H100 性能的约 60%,相当于约 593 TFLOP/s,这代表了该中国芯片 752 TFLOP/s 理论上限的约 80%。
⁴ 与大约同时发布的 H100 相比,昇腾 910B 的总性能(376 vs 989 TFLOP/s)和内存带宽(1.6 vs 3.3 TB/s)较低,但其售价为 120,000 人民币(约 16,000 美元),而 H100 的原始零售价为 44,000 美元,因此这两款芯片在当时的性价比是相等的,均为每美元 2.2×10¹⁰ FLOP/s。但请注意,昇腾 910B 较低的内存和互连带宽意味着它在扩展的现代工作负载中的可用性不如 H100,因此在 2022 年后用处较小。
⁵ 具体来说,英伟达的 B200 芯片提供每秒 8 TB (TB/s) 的内存带宽,而华为的昇腾 910C 的内存带宽约为 3.2 TB/s。
⁶ 我们还应注意,原始内存带宽只说明了问题的一半。带宽与内存的比率很重要,因为许多机器学习内核——如优化器更新、稀疏嵌入、注意力层——都是受内存限制的,因此它们的可持续 FLOP/s 受限于其每 GB 内存的相对带宽。中西方芯片历史上曾有相似的比率,但最新的国产芯片在这一指标上不如 Blackwell,如果要在与最大规模的英伟达集群相匹配的规模上使用,就需要改进。
⁷ NVLink 让英伟达 GPU 能以每芯片高达 900 GB/s 的速度共享数据。相比之下,常见的 PCIe 4.0 标准在芯片间移动数据的速度仅为 64 GB/s。
⁸ 到目前为止,深度求索——可能是最常被提及的中国 LLM——也使用英伟达 GPU 来训练其 LLM。一些社交媒体帖子谣传 R2 是在昇腾 910B 上训练的,但此类说法未经证实。
⁹ 2024 年 1 月,科大讯飞的星火 3.5 LLM 据报道是首个完全在国内计算硬件上训练的 LLM,一年后,唯一的此类推理模型星火 X1 也问世了。
¹⁰ 随着美国商务部于 2025 年 4 月实施出口许可证要求,这些 H20 的订单被冻结。2025 年 7 月,英伟达宣布将获得许可证,恢复对中国的 H20 销售。在此之前,CEO 黄仁勋亲自游说特朗普总统,警告称英伟达将损失 55 亿美元,并且为了美国保持 AI 领先地位,持续的芯片出口是必要的。
¹¹ 实际产量可能比目标更低,因为行业消息来源认为中芯国际的良率比金融时报估计的要差。
¹² 理论上,这些芯片每年总共可以执行 10²⁸ 次浮点运算,但由于中国 AI 产业在数十家开发者之间高度分散,大部分算力用于推理,且华为芯片在大型集群中的模型 FLOP 利用率历来很差,昇腾处理器可能不足以创造领先模型。中国官方媒体常将此情况描述为“百模大战”,指的是参与 LLM 开发的公司数量众多。百度 CEO 已警告中国 LLM 数量过多,公司应更专注于应用。保守假设,中国领先的开发者在 2025 年购买了 20% 的华为芯片产量,所有这些都是昇腾 910C,其中一半分配给单个集群进行训练,并在为期 3 个月的训练中达到 40% 的利用率,那么到 2026 年第二季度将产生一个以 1×10²⁶ FLOP 训练的模型,比美国开发者落后约一年。实际上,市场更加分散,大部分算力用于推理,开发者部署了许多独立的集群,而且在超过 8192 个华为处理器上从未展示过足够高的利用率。
¹³ 英伟达 CEO 黄仁勋在 2025 年 5 月提到,英伟达在中国市场的份额已降至 50%。
¹⁴ 尽管华为和中芯国际是独立公司,但美国出口管制的压力使它们变得相互依存,成为中国半导体雄心的重要支柱。被切断了与台积电合作的华为,是中芯国际最重要的客户之一。中芯国际现在为华为制造大部分芯片(包括数据中心的昇腾系列、移动端的麒麟系列,以及计划共同制造 3 纳米芯片),并且它们还在研发上进行合作。
¹⁵ 这里我们特别比较 7 纳米工艺的良率,通常良率会取决于芯片的具体设计和规格。
¹⁶ 2017 年,中国的《新一代人工智能发展规划》指出,硬件是中国在 2030 年成为 AI 领域主导者的一大弱点。从那时起,中国政府投入大量资金建设国内半导体能力,减少对外国硬件的依赖。这包括巨额的投资基金和补贴,中芯国际获得了大量国家支持,同时北京敦促中国公司采用国产芯片。
¹⁷ 尽管存在出口管制,台积电制造的芯片很可能最终进入了华为的 AI 处理器。台积电目前正因可能违反管制而接受调查,可能导致超过 10 亿美元的罚款。这些芯片官方上是为中国公司 Sophgo 制造的,但逆向工程揭示它们与华为昇腾 910B 中使用的芯片相匹配,暗示存在一条秘密的供应链路线。台积电已停止向 Sophgo 发货,向当局报告了此问题,并坚称其遵守了所有法规。据估计,在出口管制实施后,台积电为各种华为空壳公司制造并运送了超过 200 万个昇腾 910B 逻辑裸片。
¹⁸ 为了克服 CANN 的性能和稳定性障碍,华为一直在派遣工程师团队到主要客户——包括百度、腾讯和科大讯飞——帮助他们将基于 CUDA 的训练代码移植到 CANN 技术栈并保持部署运行。
¹⁹ 例如,字节跳动和腾讯提到,他们计划使用华为芯片进行推理,并将他们的英伟达芯片分配给训练任务。华为自己也强调其战略是专注于主导中国的推理市场,而不是新的 LLM 训练。尽管华为已经使用昇腾芯片训练了一些语言模型,但其所有公开披露的运行所涉及的芯片数量都远少于前沿训练——只有几千片,而前沿训练则需要数十万片。
²⁰ 性价比计算使用硬件的发布价格(如果可用),这包括除 B200 外的所有英伟达芯片。对于价格未公布的芯片,我们使用公开来源的估计值。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!

- 点赞 (0)
-
分享
微信扫一扫
-
加入群聊
扫码加入群聊