干货：智算集群网络架构关键技术

多卡训练可极大缩短训练时间，尤其对于千亿级甚至万亿级参数规模的大语言模型，智算集群需支持万卡及以上的并行能力。因此，设计大规模、高可靠、低成本、易运维的优质网络架构，对于满足大模型训练的大算力、低时延和高吞吐需求具有重要意义。、系统复杂度，三层组网的负载均衡、拥塞控制等网路技术的难度和复杂度将大幅提升；交换机，该方式集群通信效率偏低，但在机房实施布线中有较大优势。性，但在时延与建设成本方面并非最优

开源Linux

439人浏览 · 2025-11-04 08:02:18

开源Linux · 2025-11-04 08:02:18 发布

——以下正文——

在AI 大模型训练场景中，GPU 数量与模型训练时长通常呈正比关系。多卡训练可极大缩短训练时间，尤其对于千亿级甚至万亿级参数规模的大语言模型，智算集群需支持万卡及以上的并行能力。智算集群内网络架构的优劣对 GPU 服务器内外的集合通信存在极大影响。

因此，设计大规模、高可靠、低成本、易运维的优质网络架构，对于满足大模型训练的大算力、低时延和高吞吐需求具有重要意义。

（1）Clos 网络架构

胖树（Fat-Tree）Clos 无阻塞网络架构由于其高效的路由设计、良好的可扩展性及方便管理等优势，成为大模型训练常用网络架构。

对于中小型规模的 GPU 集群网络，通常采用 Spine-Leaf 两层架构，对于较大规模的GPU集群则使用三层胖树（Core-Spine-Leaf）进行扩展组网，由于网络的层次增加，其转发跳数与时延也相应增加。

GPU 服务器接入分为多轨和单轨两种方式。上图为多轨接入方式，其 GPU 服务器上的 8 张网卡依次接入 8 台 Leaf 交换机，该方式集群通信效率高，大部分流量经一级 Leaf 传输或者先走本地 GPU 服务器机内代理再经一级 Leaf 传输。下图为单轨接入方式，1 台 GPU服务器上的网卡全部接入同一台 Leaf 交换机，该方式集群通信效率偏低，但在机房实施布线中有较大优势。此外，若 Leaf 交换机发生故障，多轨方式所影响的 GPU 服务器数量将多于单轨方式。

业内典型的大模型组网架构有腾讯星脉与阿里巴巴 HPN 网络。星脉网络采用无阻塞胖树（Fat-Tree）拓扑，分为 Cluster-Pod-Block三级。以 128 端口 400G 交换机为例，其中Block为最小单元，各 Block 包含 1024 个 GPU，各 Pod 支持最大 64 个 Block，即 65536 个 GPU。多个 Pod 构成一个 Cluster 集群，支持 524288 个GPU。

阿里云大模型训练网络（HPN，High-Performance Networking）引入一种双平面两层架构，每台 GPU 服务器配置了 8个 GPU，对应 8 个 NIC，各 NIC 提供 2×200Gbps 带宽，并上行连接到不同 Leaf 设备，形成双平面设计，从而避免单 Leaf 故障对训练任务的影响。若交换机为 128 端口，每台 GPU 服务器分别上行连至 16台 Leaf，组成一个 Segment（包含 1024 个 GPU）。

每台 Leaf 预留了额外 8×200G 端口接入 GPU 服务器，便于 GPU 服务器发生硬件等故障后可快速替换。Spine 层面连接多个 Segments 组成一个 Pod，每台Leaf 上行有 60×400G 端口连接 Spine，因此一个 Pod 可容纳 15 个Segments，即 15360 个 GPU。对于更大规模的训练任务，则会涉及到 Core 层面的连接进而组成算力规模更大的 GPU 集群。阿里根据其训练任务流量特性，选择 Spine-Core 之间采用 15:1 的收敛比设计，集群可支持 245760 个 GPU。

（2）Dragonfly 网络架构

传统 Clos 树形架构作为主流的智算网络架构，重点突出其普适性，但在时延与建设成本方面并非最优。在高性能计算网络中，Dragonfly 网络因其较小的网络直径与较低的部署成本被大量使用。

Dragonfly 可支持超过 27 万个 GPU 卡，相当于三层 Fat-Tree 架构所容纳 GPU 数量的 4 倍以上，而交换机数量及传输跳数可降低 20%。尽管 Dragonfly 网络可提供较高的性价比与更低的传输时延，但 GPU集群每次扩展都需重新部署链路，因此其可维护性相对较差。

（3）Group-wise Dragonfly+网络架构

当规模需求超过十万卡时，最直接的组网方式是引入无收敛三层Fat-Tree 架构。以单端口为 400G 的 51.2T 盒式交换机为例，三层盒盒盒组网，最大支撑 50 万+节点组网。然而此架构存在以下两个主要问题：

1、系统复杂度，三层组网的负载均衡、拥塞控制等网路技术的难度和复杂度将大幅提升；

2、成本和功耗，对比二层 Fat-Tree 组网网络成本和功耗开销提高。为了应对以上两个挑战，在此场景下可以有两种架构选择：

架构一为第二层带收敛的三层 Fat-Tree 架构，即下图中 L2 层交换机的下行带宽：上行带宽为 N：M（N>M）。在同等规模下此架构可降低 L3 层的设备数量，节省成本和功耗。

架构二为 Group-wise Dragonfly+（GW-DF+）直连架构。如下图所示，每个 Pod 内设备通过二层 Fat-Tree 架构互联。Pod 间，同位置或同号的 L2 设备两两直连。以单端口为 400G 的 51.2T 盒式交换机为例，此架构最大可支持 20 万+节点规模。如果 L2 替换为框式交换机，规模可超100 万。