NVL72 架构解析：72 GPU 全互连拓扑

NVL72 是 NVIDIA GB200 系列中一个 72 GPU 的单机级 NVLink 交换网络。它不是简单的 72 张卡互联，而是一个精心设计的 全互连 (full crossbar) + 单级交换 (single switch stage) 拓扑。

NVL72 计算托盘

硬件构成

整个系统由两个主要部分组成：

18 个计算托盘 (compute tray)，每个托盘包含 4 个 Blackwell GPU，总计：

9 个 NVLink 交换托盘 (switch tray)，每个托盘包含 2 个 NVSwitch 芯片，总计：

NVSwitch 交换系统

每个 GPU 配备 18 个 NVLink 5 端口，每个端口双向带宽 100 GB/s：

每个 GPU 的 18 条 NVLink，正好一条接一个 NVSwitch。

GPU_i
 ├─link1  → NVSwitch1
 ├─link2  → NVSwitch2
 ├─...
 └─link18 → NVSwitch18

这种设计形成一个 full crossbar 结构：

GPU 与 NVSwitch 连接关系

任意两张 GPU 通信时，路径非常简单：

GPU A → 某个 NVSwitch → GPU B

这就是所谓的 single hop / one switch stage。

单个 NVSwitch 交换托盘

这个概念不是”永远不会堵”，而是：

它不是一棵容易拥塞的树，也不是分层 oversubscribe 网络，而是尽量做成”任意到任意都能直接经一个交换级过去”的结构。

虽然高层上是”uniform connectivity”，但实际调度时仍需注意：