拆解英伟达1.6T的网络模块

半导体行业观察
2025-07-23 08:53:31

公众号记得加星标⭐️，第一时间看推送不会错过。

来源：内容编译自servethehome。

英伟达此前从A100 升级到H100 系列的一大变化是转向 PCIe Gen5。PCIe Gen5 拥有足够的带宽，可以从 200Gbps 网络过渡到 400Gbps 网络。NVIDIA DGX H100 采用了不同的网络方案，具体来说，它放弃了传统的 PCIe 卡，转而采用名为“Cedar”的模块。

每个 Cedar 模块板载四个 ConnectX-7 控制器。每个控制器提供 400Gbps 的网络带宽。DGX H100 中也有两个 ConnectX-7 控制器，用于连接 2 个 Cedar 模块，每个模块 4 个 ConnectX-7 控制器，每个控制器 400Gbps，即 3.2Tbps 的结构带宽。我们在订购单上没有找到这些控制器，但 SKU 表可以大致了解运行这些控制器所需的带宽。

在 DGX H100 中，这些 Cedar 模块配有专门设计的散热器，用于冷却组件，同时允许气流流向 CPU 和内存托盘的其余部分。这些散热器随后通过环绕 CPU 和内存的跨接电缆连接到后部机箱。在后部，DGX H100 可以使用直连铜缆(DAC)、有源光缆或标准光纤模块。

关于渲染图的简要说明。虽然很多人觉得这看起来像是 Sapphire Rapids，但我听说 NVIDIA 为 DGX H100 提供了不同的主板设计，而且 CPU 也尚未确定。我还听说 CPU 将是 x86 架构，所以要么是 Intel Sapphire Rapids，要么是 AMD Genoa，而不是 Arm 通过 Ampere 的下一代产品或 NVIDIA Grace。Grace 对于这个平台来说已经太迟了。

如果您想知道为什么不在 DGX H100 上使用 BlueField-3，NVIDIA 也提供了解决方案。除了两个 Cedar 模块和 8 个 ConnectX-7 400Gbps 控制器组合外，还配备了两个 PCIe BlueField-3 控制器。这两个 BlueField-3 控制器用于访问存储和用户平面等任务，而 Cedar 模块则专注于计算平面。

我问过 NVIDIA，为什么不直接为 DGX H100 使用标准 PCIe 或 OCP 尺寸的模块。使用 Cedar 模块主要是因为系统空间效率更高，因为它比在系统中添加 8 个 PCIe ConnectX-7 卡要紧凑得多。它还有助于 DGX H100 内部的空气流通。

虽然 Cedar 模块听起来可能非常奇特，但 NVIDIA 告诉我，该公司的网络团队已将其“广泛提供”，可供任何供应商在系统中使用。随着新一代 AI 模型的出现，所需的规模将大大扩大，因此为 AI 系统的计算平面提供大量带宽就显得尤为重要。正因如此，系统中配备了两个 Cedar 模块来提供巨大的带宽。

拥有 1.6Tbps 网络容量的 NVIDIA Cedar 模块内部

简单介绍一下，NVIDIA 为其 DGX 系统定制了网络模块。目前市面上大多数 HGX 8-GPU 平台都使用基于 PCIe 的 GPU，至少在即将推出的搭载 ConnectX-8 的 NVIDIA MGX PCIe 交换板（用于 8x PCIe GPU 服务器）和HGX B300 NVL16之前都是如此。虽然 NVIDIA 表示这些模块可供合作伙伴使用，但多年来大多数合作伙伴都使用了 PCIe NVIDIA ConnectX-7 网卡。Cedar 模块则有所不同，它采用定制的水平尺寸，并将线缆连接到系统后部的光纤机架。