前几天写了篇AI时代和GPU互联相关的总线技术,有读者说当今应该重点落在以GPU为中心,讲讲如何进行Scale Up和Scale Out,以及这些技术涉及的产品如何在研发阶段和生产交阶段端进行测试和验证。今天在之前的文章基础上重新打乱重组,不过不少内容仍会重合,当然,也增加了一些新的内容,尤其是国产方面的产品和技术介绍,有兴趣的可以再读一下。

概述

随着人工智能模型规模的爆炸式增长,单个GPU已无法满足训练和推理的算力与存储需求,需要多个GPU协同工作。这催生了GPU之间高速互连总线技术的发展,以实现“scale-up”(单台服务器内部多GPU互联)和“scale-out”(多台服务器GPU集群互联)的性能扩展。在scale-up场景中,GPU–GPU直接互连总线可绕过传统经过CPU内存的通信路径,大幅提升带宽、降低延迟;在scale-out场景中,则需高速网络将不同服务器的GPU连接成集群。本文聚焦GPU与GPU直接互连(即GPU-GPU之间,而非GPU-CPU之间)的主要总线技术,包括NVIDIA的NVLink、通用的PCI Express、以太网以及其他新兴互连(如XLink、CXL、Infinity Fabric等)。我们将介绍各技术当前的协议代际、速率(speed)、通道宽度(width)及理论最大带宽,并分析其发展趋势、技术优劣、主要推广厂商以及部署占有率排序。此外,报告将梳理这些总线技术在研发、测试到量产各阶段的测试要点(涵盖物理层、协议层、兼容性、互操作、性能、功能、可靠性等),提供清晰的测试项目、技术方法、工具和业界方案示例。最后,我们讨论Ultra Ethernet Consortium(UEC)和Ultra Accelerator Link(UALink)两个组织及其以太网改进技术的异同、未来融合可能性,并介绍AI训练服务器集群(scale-out)间互连的主流技术、产品方案及其优劣势。

GPU–GPU直接互连的主要总线技术

目前业界在单机多GPU互连(scale-up)方面,已经发展出多种高速总线与协议,旨在提供远超传统总线PCI Express的带宽和更低的延迟。以下列出了全球范围内主流的GPU-GPU直接互连技术:

NVIDIA NVLink高速互连

NVLink是NVIDIA开发的高带宽GPU互连总线和通信协议,自2016年推出以来已迭代多代,广泛应用于NVIDIA数据中心GPU产品中。NVLink采用高速度差分SerDes点对点链路连接GPU,最初设计用以超越PCIe带宽,满足GPU之间大量张量数据交换的需求。NVLink的主要代际规格如下:

  • NVLink 1.0(Pascal P100时代):每链路带宽约20GB/s,典型GPU有4条NVLink,总带宽可达80GB/s级别。

  • NVLink 2.0(Volta V100时代):带宽提升,每链路约25GB/s(双向),V100 GPU提供6条NVLink 2,总互连带宽最高约300GB/s。

  • NVLink 3.0(Ampere A100时代):进一步提升链路数量和速率。A100(80GB SXM4版)支持12条第三代NVLink链路,总GPU对GPU带宽约600GB/s。这相比PCIe Gen4 x16(32GB/s单向)高出一个数量级。

  • NVLink 4.0(Hopper H100时代):链路速率大幅提高至100Gbps/通道,单GPU支持18条NVLink 4链路,总双向带宽达900GB/s。每通道100Gbps意味着NVLink 4单lane速度是PCIe Gen5的3倍以上。NVIDIA通过NVLink 4在8卡HGX系统内实现了每GPU 900GB/s的惊人带宽,比PCIe Gen5 x16(约128GB/s)快约7倍。

  • NVLink 5.0(Blackwell架构):Blackwell GPU将支持18条NVLink,每条链路100GB/s(即800Gbps),单GPU总带宽可达1.8TB/s,是H100的2倍。这表明NVLink带宽仍在迅猛增长。

NVLink除了点对点直连,还配套NVSwitch交换芯片用于构建多GPU全互连拓扑。在NVIDIA DGX等系统中,NVSwitch可看作具备大量NVLink端口的交叉开关,使得8颗或16颗GPU形成无阻塞互连。例如,DGX-2(16×V100)借助NVSwitch实现任意GPU间直接通信,总互连带宽达每GPU 300GB/s量级。DGX A100则通过第二代NVSwitch将8×A100 GPU完全互联,每GPU维持600GB/s直连带宽。NVSwitch还支持跨节点的NVLink拓展:NVIDIA最新的NVLink Switch系统(代号SGXLS)是一种1U机架交换机,内含NVSwitch芯片并提供32个外部端口,可通过OSFP电缆连接多台服务器。借助两级NVLink交换,最多可将256颗GPU互联成一个统一高带宽域,实现跨节点的GPU直连通信。这种架构使多机GPU集群几乎表现为“数据中心级GPU”,具备高吞吐、低延迟的优势。

优势:NVLink为GPU设计,具有超高带宽和极低延迟,支持GPU直接交换大数据块而无需经过CPU内存。NVLink还通过NVIDIA的CUDA和通信库(如NCCL)深度优化,支持GPU统一虚拟地址空间和高效的张量互传。例如NVLink 4每lane 100Gbps的速率,使GPU间通信速度远超标准总线。NVSwitch的加入实现了大规模GPU无阻塞互连,并带有SHARP原语支持在交换芯片上完成All-Reduce等聚合操作,从而加速分布式训练。

劣势:NVLink是NVIDIA的封闭技术,仅用于NVIDIA自家GPU及少数合作CPU(如IBM Power)的互连,生态局限于NVIDIA体系。此外,NVLink接口通常只在高端数据中心GPU(SXM模块)上提供,PCIe卡版GPU多数不支持NVLink或仅支持双GPU桥接(带宽有限),这使得采用NVLink需要特定硬件形态和更高成本。NVLink布线距离也有限,一般用于同服务器或机架内互连,扩展到全机房需结合其他网络。尽管如此,凭借NVIDIA在AI加速领域的主导地位,NVLink已在全球众多AI训练服务器中部署,是当前实际应用中最主要的GPU互连之一。

PCI Express总线

PCI Express(PCIe)是通用高速串行扩展总线,也是GPU最基本的连接总线标准。几乎所有GPU都通过PCIe与主板和CPU相连,因而PCIe的部署覆盖率接近100%。当前数据中心GPU主要使用PCIe 4.0或PCIe 5.0接口:PCIe 4.0速率16 GT/s每lane,x16链路单向理论带宽约32GB/s(实际有效约31.5GB/s);PCIe 5.0速率32 GT/s,x16单向带宽提升到约63GB/s,双向约126GB/s。例如NVIDIA H100 PCIe卡采用PCIe Gen5 x16,与CPU通信峰值128GB/s。即便如此,PCIe带宽仍大幅低于NVLink等专有互连——H100 GPU的NVLink带宽900GB/s,约为PCIe Gen5的7倍。目前领先的常见正在实现的PCIe 6.0(64 GT/s,采用PAM4编码)将再次翻倍带宽,x16双向理论可达~256GB/s,但相较GPU内部数百GB/s的需求仍是瓶颈。PCIe总线以标准化和兼容性见长,其物理层和协议也成为许多衍生技术的基础(如CXL就基于PCIe物理接口)。

在多GPU服务器中,没有专用互连时GPU之间通常通过PCIe交换数据。例如一台4卡服务器,GPU之间可以通过PCIe switch连接或经由CPU内存进行数据传输。然而,这种路径的带宽和延迟相对较差:PCIe共享总线易形成瓶颈,且如果需要借助CPU参与通信会增加额外延迟。因此纯PCIe互连的多GPU系统在大规模并行训练时性能伸缩性受限。针对这些问题,NVIDIA推出GPUDirect RDMA等技术,允许GPU通过PCIe直访对方或NIC缓冲内存,绕过CPU参与,以降低开销。但总的来说,PCIe在GPU直连通信方面属于“不得已而为之”的方案,其表现明显不如NVLink等定制总线。

优势:PCIe作为行业标准,通用性极强,任何厂商的GPU/加速卡都支持PCIe接口,互操作良好。它采用集中式交换架构,易于通过成熟的PCIe交换芯片扩展(例如PLX/Broadcom的PCIe switch可将多GPU连接到同一Root Complex)。PCIe还具有丰富的软件支持,几乎所有操作系统和驱动默认支持PCIe设备,使得基于PCIe的系统集成最为便利。

劣势:PCIe并非为GPU大规模并行设计,带宽有限且多设备共享,总线易拥塞;延迟较高,PCIe事务需经过分层协议处理,远不及GPU专用直连来的简洁。另外PCIe默认是非缓存一致的,总线上的GPU各自内存独立(CXL出现前需要软件参与管理内存共享)。当多个GPU通过PCIe通信时,往往需要经过主存或中介,有效带宽打折且延迟进一步增加。因此,虽然PCIe无处不在,但在高端AI服务器中往往被NVLink/Infinity等更高效的直连所补充。

当前部署来看,PCIe依然是基础通信框架:即使使用NVLink的系统,GPU也通过PCIe与CPU通信。因此从占有率看,PCIe是所有GPU服务器都具备的底层总线。PCIe 6.0、7.0将持续提升速率以及未来PCIe 8.0并使用PAM4等新技术,但也面临信号完整性挑战和功耗增加的问题。在GPU直连领域,PCIe正逐渐演进出缓存一致和内存语义的新形态(即CXL),以期在通用性与性能之间找到更好平衡。

AMD Infinity Fabric(XGMI)互连

Infinity Fabric是AMD开发的片上/片间高速互连架构,广泛用于AMD CPU和GPU内部。针对GPU间互连,AMD采用Infinity Fabric的外部版本称为XGMI(External Global Memory Interconnect),用于连接多块Instinct加速器(MI系列)GPU。XGMI提供与NVLink类似的高速直连,但更强调缓存一致性和内存共享:AMD的多GPU方案构建“hive”(蜂巢)架构,使多GPU共享统一的分布式HBM显存池,实现单一内存空间下的协同计算。这类似于把多GPU当作一个统一内存的计算单元,简化并行编程模型。

在最新的MI300系列GPU中,AMD大幅增强了Infinity Fabric互连能力。MI300X GPU据报道集成了多达7个Infinity Fabric链路,每条链路为16通道、速率32Gbps/通道,提供128GB/s双向带宽/每链路。7条XGMI链路总计可达896GB/s的跨GPU总带宽,接近NVLink 4的水平。值得注意的是,第四代Infinity Fabric的单通道速率32Gbps已经超过PCIe Gen6(每通道约16Gbps有效速率)的两倍。这意味着AMD Infinity在物理层上非常激进,采用了先进的PAM4高速SerDes技术(如112Gbps/lane)的潜力,以提供卓越的互连性能。AMD MI250等早期产品则通过两个GPU芯片之间的Infinity Fabric互连(片上+片间),也实现了GPU分布式计算的高带宽需求。

优势:Infinity Fabric/XGMI最大的优势是原生缓存一致性和异构内存共享。XGMI不仅传输数据,还携带缓存协议,使多GPU可以像多CPU那样保持内存一致,实现更灵活的编程模型(例如直接执行Load/Store访问远端GPU内存)。在AMD的ROCm软件栈中,XGMI结合RCCL通信库,可高效实现GPU的集合通信和一致内存操作。此外,AMD正推动Infinity Fabric的开放化。2024年成立的UALink联盟中,AMD贡献了其XGMI协议作为基础,使之工作在开放标准的物理层上。。甚至PCIe交换芯片厂商Broadcom宣布其下一代PCIe switch将支持直接通过XGMI连接GPU,形成类似于NVSwitch的多GPU拓扑。这种与第三方合作的策略有助于扩大Infinity Fabric生态。

劣势:目前AMD GPU在AI加速市场份额较低,Infinity Fabric的实际部署量远不及NVLink。其性能虽强,但只适用于AMD自家GPU,加之软件生态相对薄弱,使许多AI系统仍倾向NVIDIA方案。此外,XGMI需要较复杂的协议支持一致性,潜在协议开销可能在某些场景下增加延迟。不过随着MI300等产品在超算和云服务中的应用增长,以及开放标准UALink的推进,Infinity Fabric有望被更多厂商和系统采用,成为对抗NVLink的一支重要力量。

华为 Ascend UB 互连

华为的Ascend系列AI加速器(如Ascend 910、Ascend 310等)也采用了专有的高速互连,总线名称在业内常简称为UB(可能代表Ultra Broadband或Unified Bandwidth等)。Ascend UB旨在连接多颗华为昇腾AI处理器,实现类似NVLink/Infinity的高带宽互联。据报道,Ascend 910处理器支持直接的芯片间高速连接,使多个Ascend芯片组建大规模训练集群。例如,华为曾构建Atlas 900集群,由数百颗Ascend 910通过高速互连组成,被用于AI模型训练。据推测,Ascend UB的物理层技术与其他高端互连类似,采用高速PAM4 SerDes,速率在112 Gbps/车道级别,提供每链接数十GB/s的传输能力。在阿里巴巴Panjiu超节点架构的描述中,就提到支持Ascend的UB协议,并指出行业主流GPU的高效互连(NVLink、UB等)都使用了112 Gbps甚至224 Gbps速率的SerDes技术。

优势:作为专门为华为AI芯片设计的互连,UB可以充分结合Ascend架构特点,提供高吞吐、低延迟的数据交换能力,满足大规模分布式训练对通信的需求。华为的解决方案往往软硬件协同优化,UB可能也针对其AI框架做了传输协议上的定制,加速AllReduce等操作。另外,由于Ascend主要在中国市场推广,UB互连为本土AI基础设施提供了一个自主可控的高速网络选项。

劣势:UB属于华为内部技术,封闭生态,只有Ascend系列芯片可用。相对于全球主流(NVIDIA/AMD)的方案,UB的第三方支持很少,生态体系局限。同时其性能参数公开有限,行业认知度较低。总体而言,Ascend UB目前主要在华为及合作伙伴的数据中心中部署,在全球范围的AI服务器互连技术占比较小。但在特定区域市场,UB代表了国产AI加速互连的最高水平之一。

XLink 等其他专有互连

除上述主流方案外,一些公司和研究机构也推出了各自的GPU/AI加速器互连技术,这里以“XLink”为代表进行介绍。“XLink”并非一个正式标准名称,而是业内对某些自定义高速芯片直连技术的泛称。例如,阿里巴巴在其Panjiu AI超大规模服务器中,采用了一种xLink C2C(Chip-to-Chip)接口将CPU直接与GPU相连,以替代传统的PCIe总线。阿里巴巴未公开xLink的细节,但可以推测其速率和带宽远超PCIe,例如可能采用了更宽的链路或更新的PHY,以提升CPU–GPU之间的缓存和数据交换能力。再如,Graphcore公司的IPU采用专有的IPU-Link将多达数百颗IPU相连形成大型加速矩阵;谷歌TPU使用ICN(Inter-Chip Network)互连数千TPU芯片。这些都可以视作各家公司版本的“XLink”。

针对GPU–GPU互连,一些新创公司也推出有竞争力的方案。例如Enflame、寒武纪等中国厂商的AI芯片也各自支持多芯片互联技术,用于构建大算力训练机。虽然名称不同,但核心思想都是通过定制协议充分利用硬件特性,实现直连高带宽低延迟,绕开通用总线的性能瓶颈。优势:这类专有互连通常针对特定产品优化,性能潜力大;设计灵活,可以根据需要定义链路宽度、拓扑(环形、网格等)和协议层,未必受限于标准。劣势:显而易见是通用性差,不同厂商的“XLink”彼此不兼容,难以形成统一生态。此外,由于缺乏行业标准约束,有些私有互连在可靠性、容错等方面成熟度需要长期验证。总的来说,XLink类技术目前在市场占有率上非常有限,多存在于单一厂商的封闭系统中。但它们代表了创新的方向,也为行业提供了宝贵的经验教训,推动着后续开放标准的诞生(如UALink的出现就是为了避免各家各搞一套的碎片化局面)。

CXL(Compute Express Link)缓存一致互连

CXL是近年兴起的一项开放互连标准,全称Compute Express Link。它建立在PCIe物理层之上,提供了缓存一致(Cache-Coherent)和内存共享的协议,旨在高效连接CPU与加速器、内存设备等。虽然CXL最初聚焦于CPU–设备互连,但其最新规范(CXL 3.0)已经支持多头设备(Multi-Head)和互联拓扑,意味着多个处理器/加速器可以通过CXL构成复杂的交换网络。对于GPU而言,CXL有望成为跨CPU/GPU之间共享内存横向扩展加速器的一种通用方式。例如,服务器厂商计划通过CXL将多块GPU连接到同一内存池,实现GPU对大容量主存的直接访问,或多GPU之间共享缓存一致的内存视图。这在异构计算和内存瓶颈方面具有重大意义。

目前CXL 2.0基于PCIe 5.0(32GT/s),支持一对一的加速器–主机连接以及一个主机对多个设备的“Type-2/3”连接。CXL 3.0则兼容PCIe 6.0(64GT/s),引入交换架构,可构建类似PCIe switch的CXL交换,以允许多主机共享多设备资源。带宽方面,由于沿用PCIe PHY,一条CXL链路x16在PCIe5下理论带宽与PCIe相同(~128GB/s双向),在PCIe6下可翻倍至~256GB/s。CXL主要的价值在于三个子协议:CXL.io(类似PCIe IO空间)、CXL.cache(设备与主内存缓存一致交互)和CXL.mem(直接访存),其中cache和mem协议让加速器可以高效读写主机内存甚至互相访问,打破了GPU内存独立的限制

优势:CXL由业界联盟推动(成员包括Intel、AMD、ARM、谷歌、微软等众多企业),采用开放标准,兼容PCIe生态,具有广泛的支持面。它的缓存一致性支持使异构计算编程简化,例如GPU可以直接访问CPU内存中的数据结构而无需拷贝。对于多GPU系统,未来若GPU具备CXL.cache功能,则彼此间也能通过共享内存进行通信,从软件上看仿佛大GPU一样(类似AMD目前通过Infinity实现的效果)。CXL还支持内存池化,这对GPU利用主存扩展容量、多个GPU共享高速存储器都有潜在好处。

劣势:目前CXL的带宽受限于PCIe标准,远低于NVLink等专用方案,而且由于协议更复杂(涉及一致性维护),延迟开销可能会偏高,不一定适合需要极致低延迟的GPU梯度交换。CXL产品生态尚在起步阶段,GPU厂商对于直接采用CXL进行GPU互连持观望态度(现有GPU尚未公开支持CXL缓存一致)。因此短期内,CXL更多用于CPU和加速/内存设备间的灵活连接,在GPU–GPU直连高性能通信方面并非主要方案。然而,随着CXL 3.0硬件逐步推出(如支持CXL 3.0的PCIe 6.0交换芯片),我们有望看到GPU开始兼容CXL,用于内存协同和跨主机互连的新模式。例如未来某系统中,多块GPU通过CXL交换实现共享内存的大模型推理,这将是对NVLink/Infinity架构的一种补充而非完全替代。

小结:以上介绍了当今主要的GPU–GPU互连技术。表面看来,各技术的物理速率都在朝着112 Gbps乃至224 Gbps per lane的方向演进,以太网标准IEEE 802.3dj也已制定200/400/800Gbps PHY供这些互连参考采用。例如NVLink 4和Infinity采用100~112Gbps级SerDes,UALink 1.0明确基于200Gbps/lane的以太PHY。但在链路宽度、协议层设计上,各方案有所差异,导致性能特性和应用场景各有侧重。下一节我们将从市场部署角度,对这些总线技术的现状和趋势进行对比。

部署现状与市场占有率比较

在全球AI训练服务器中,不同互连总线的采用情况差异较大。以下按照当前实际部署的广泛程度,对主要GPU互连技术作一个大致排序,并分析其应用现状:

  1. PCI Express(PCIe) – (普及率:☆☆☆☆☆):PCIe是所有GPU都会用到的基础总线。无论是采用NVLink的高端系统,还是多GPU直连欠奉的经济型服务器,每块GPU至少通过PCIe与主板/CPU通信。因此就硬件覆盖面而言,PCIe无处不在,是当之无愧的“占有率第一”。不过,PCIe通常充当GPU与主机的连接,对于GPU–GPU直接高速通信则力有不逮。因此在高性能训练集群内部,PCIe往往被更高阶的互连所补充或替代。

  2. NVIDIA NVLink – (普及率:☆☆☆☆):由于NVIDIA在AI加速市场的主导份额,其专有的NVLink/NVSwitch互连被广泛部署于各大AI超级计算机和云厂商高端GPU服务器中。例如,NVIDIA DGX系列(A100、H100等)全部采用NVLink互连8~16块GPU;主要云服务商的高性能GPU实例(如AWS P4d、Google TPU VMs GPU版本等)也多使用HGX板(8×A100/H100带NVSwitch)组成节点。可以说,当前绝大多数大型AI训练集群的单机节点内部都通过NVLink实现GPU直连,这使NVLink成为实质上的行业标准之一。即使在节点间需要InfiniBand/以太网络(见下文),节点内部的NVLink仍然承担主要通信流量。需要指出的是,小规模GPU服务器(如4卡PCIe服务器)以及消费级GPU并不具备NVLink互连,这部分市场NVLink未覆盖。因此若按机器数量计算,NVLink并非每台多GPU服务器都有;但按GPU总算力或大规模部署来看,NVLink覆盖了最关键的高端算力设备。

  3. 高速网络互连(以太网 / InfiniBand) – (普及率:☆☆☆☆):对于跨服务器的GPU集群(scale-out),网络是必需的。当前主要有以太网和InfiniBand两大技术路线(详见下文),二者在市场上平分秋色。InfiniBand传统上主导HPC和许多AI超级计算集群;例如微软、NVIDIA等打造的大型AI集群常使用400Gb/s HDR/NDR InfiniBand交换网。而超大规模数据中心和云厂商则越来越倾向于以太网方案,利用100~400Gb以太网结合RDMA(RoCE)构建GPU集群网络。像Meta等公司追求开放标准,已有从InfiniBand转向以太方案的趋势。总体而言,如果从GPU集群整体角度,基本每个GPU训练集群都会部署至少一套高速网络,不是InfiniBand就是等效的以太方案。因此按节点间通信占有率来看,高速网络技术可以和NVLink并列成为AI训练系统不可或缺的组件。需要区分的是,网络互连主要用于跨服务器通信,在单机内部仍需要NVLink/PCIe等。因此将网络与NVLink作简单高低之分并不精确——两者在典型AI系统中往往是层次互补关系:节点内用NVLink,节点间靠网络。无论如何,考虑到几乎所有大型AI训练都需要多机,高带宽网络互连在实际部署中同样具有举足轻重的地位

  4. AMD Infinity Fabric (XGMI) – (普及率:☆☆):AMD的GPU互连目前仅应用于AMD Instinct系列加速卡。虽然AMD在超算(如Frontier超算采用了MI250)中有所斩获,但总体市场占比相对NVIDIA仍较低。保守估计,采用XGMI互连的GPU节点数量不到采用NVLink节点的十分之一。然而,值得关注的是,AMD正凭借MI300等新产品积极拓展AI市场,并推动开放标准UALink把自家Infinity变成行业通用方案。如果这一努力成功,未来几年Infinity Fabric的采用率可能上升,有潜力打破NVLink一统高端的局面。目前来看,XGMI互连主要部署在少数超算和云试点中,普及度有限但在特定领域具有战略意义。

  5. 华为 Ascend UB / 其他专有互连 – (普及率:☆):这些方案由于厂商和地域的局限,整体市场占有率很小。Ascend UB基本仅在华为自有或合作的数据中心使用,尚未形成国际化影响。Graphcore、寒武纪等的互连亦属各自产品闭环,数量级上远低于上述主流。同样,CXL在GPU间直接互连上的应用还处于起步和示范阶段,目前难言有实际占比。未来若CXL广泛用于GPU内存共享,才可能在占有率上升。总之,此类“其他”互连技术当前更多是战略储备和探索性质,离规模化还有距离。

综上所述,PCIe因其基础性无可动摇地位列首位;NVLink紧随其后,在高性能训练节点中几乎是标配;跨节点网络(以太/IB)则与NVLink共同构成AI集群通信的骨干;AMD Infinity处于挑战者地位,仍在努力扩大份额;其他互连技术目前更多是补充。在技术趋势上,开放标准和以太网生态正变得越来越重要(详见下文UALink、UEC等),这可能改变未来排名格局。但就当前(2025年)的实际部署看,上述排序基本反映了业界的应用现状。

研发、测试与量产阶段的互连验证

高性能互连总线从开发到产品,需要经历严苛的测试验证环节,以确保物理信号质量、协议功能正确、跨厂商兼容,以及大批量生产时的质量一致性。下面从研发阶段量产阶段,层次分明地列出各类测试项目、技术手段、所用工具和相关厂家实例。

研发阶段测试

在研发设计阶段,工程师需要对互连总线的各个层面进行深入测试验证:

  • 物理层信号完整性测试:高速总线首先要保证电气信号质量。研发中通常会进行信号完整性(SI)仿真和实测,包括插损、回损、抖动等参数。使用示波器采集高速串行链路的眼图,确保在目标比特误码率(BER)下眼图张开度符合规范要求(例如BER 1e-12或更严)。例如UEC规范引入了基于FEC码字的误码率监控指标UCR(无法纠错码字率)和MTBPE(平均包错间隔)来评估链路传输可靠性。对于112 Gbps PAM4这种超高速链路,会采用实时示波器或采样示波器进行PAM4眼图分析,并利用抖动分解噪声分析工具了解信号裕量。时域反射/透射TDR/TDT测试用于检查阻抗匹配和插损曲线。信号发生器与误码率测试仪(BERT)结合,用PRBS等伪随机码型在链路上跑,统计误码情况,以验证物理层的误码率性能。常用设备供应商包括Keysight是德科技(如Keysight Infiniium系列示波器、M8040A/BERT等)、Tektronix泰克Rohde & Schwarz罗德与施瓦茨Anritsu安立等,这些厂家提供完整的高速数字链路测试解决方案。通过物理层测试,可以发现设计中的信号质量隐患,如PCB走线过孔不良、连接器串扰等并优化改进。

  • 协议层功能和一致性测试:在确保电信号能可靠传输后,需要验证协议层的实现是否正确健壮。这包括链路培训和协商过程是否正常(例如PCIe的LTSSM状态机是否按规范状态转换),数据包格式和时序是否符合协议标准,以及错误处理机制(如重传、流控)是否有效。工程师会使用协议分析仪协议发生器/一致性测试工具来捕获链路上的报文并注入特定测试序列。以PCIe为例,有Saniffer公司销售的SerialTek的PCIe协议分析仪,可以拦截并解析PCIe Gen5交易层/数据链路层包,检视是否有违规序列;也可以使用SerialTek的CTS协议一致性测试软件按照PCI SIG标准规范进行测试,或者使用SerialTek协议训练器定制发送异常序列验证设备响应。以太网方面,有专门的以太网协议测试仪(如Spirent、IXIA等)用于验证RDMA、PFC等网络协议行为。对于NVLink、Infinity这类专有协议,NVIDIA和AMD内部也有各自的仿真器和分析工具来进行功能验证。一项关键测试是兼容性/互操作测试:确保新实现的接口可以与既有标准设备通信。例如新设计的PCIe设备应能在不同主板上Link Up、不论对方是Intel或AMD主机;InfiniBand网卡需通过IBTA一致性测试;以太网需在plugfest上与各厂家设备互通。这方面通常通过加入行业互操作性测试活动(如PCI-SIG Compliance Workshop、以太网联盟Plugfest等)来实现,或者邀请主要合作厂商提前联调。通过协议和兼容性测试,可以发现协议栈实现中的bug,确保最终产品在各种环境下都能稳定通信。

  • 性能和功能测试:当硬件和基本协议稳定后,需要评估互连的实际性能和功能是否达到设计目标。带宽测试是重头戏——例如测量GPU通过NVLink传输连续大块内存时的实际吞吐量是否接近理论值600GB/s;测量PCIe链路在DMA传输、RDMA场景下的有效带宽;以太网或InfiniBand则跑MPI Benchmarks看延迟和AllReduce性能等。常用方法是在实际系统上运行微基准测试:如使用NVIDIA的NCCL测试程序测AllReduce带宽来评估NVLink/NVSwitch效率,使用IBM Perftest或RDMAcore的工具测试RoCE/IB延迟和吞吐。延迟测试则用ping-pong延迟测量或发出特殊标记包测一跳来回时间,评估接口的单向/双向延迟。除了原始带宽,还要测试扩展性能,如多个GPU同时通信时总带宽的伸缩性、拓扑中不同路径的公平性等。功能测试则检查互连的特色功能:比如Infinity Fabric的一致性操作是否正确(多GPU对同一数据的读写结果是否符合缓存一致预期);NVSwitch的广播/归约硬件引擎是否按要求工作;以太网的PFC、ECN拥塞机制在高负载下是否有效防止丢包等。性能测试需要软硬件配合,有时会开发专门的驱动或固件测试模式。例如配置GPU持续互相发送数据流以测饱和吞吐;或构造极端场景(如大量小包突发)测试网络的尾延迟。常见的工具和框架包括:Intel MPI Benchmarks、OSU Micro-Benchmarks(OMB)、NCCL Tests、iperf/netperf(网络吞吐测试)等。一些芯片自带性能计数器,也可用来验证诸如重传次数、利用率等指标是否在合理范围。通过性能和功能测试,能够验证设计是否真正满足了AI训练应用的需求,并发现潜在的瓶颈或不合理之处。

  • 可靠性与稳定性测试:高性能互连在各种运行条件下都必须保持稳定可靠。研发阶段会进行一系列压力测试健壮性测试。例如让互连在环境极限下工作:高温(接近上限,比如50~70℃环境)和低温、不同电压波动条件,验证误码率是否升高、链路是否掉线。长期稳定性测试方面,可能会让系统连续跑重负载(如长时间的深度学习训练任务)来观察是否出现链路错误、中断等。对于网络互连,会测试大规模通信时交换机和NIC是否出现拥塞放大或崩溃。错误注入测试也是重要环节:通过调试接口或故障注入工具,有意制造单个比特错误、丢包、链路闪断等,检查协议的错误处理机制——例如看以太网UEC的Link Level Retry是否能快速恢复丢包而不引发大范围重传;PCIe的LTSSM能否正确重新训练链路等。硬件层面,还会进行EMC/EMI测试,确保高速链路不会因外部干扰产生异常(或不干扰其他设备),以及功耗测试,确认高速总线的电源稳定和散热可控。可靠性测试也包括机械可靠性:像OAM模块的高速连接器需要测试插拔N次后信号衰减有没有超标,连接器的锁紧机构在振动冲击环境下是否依然连接牢靠等等。这些都属于研发验证的一环。许多大厂还会有专门的压力测试集群,在上面不断跑典型AI训练以验证新互连设计在真实工作负载下的稳定性。通过一系列严苛的可靠性测试,工程团队可以提升互连的鲁棒性,发现在极端条件下才暴露的问题,为量产部署打下基础。

生产及量产阶段测试

经过研发验证定型后,进入批量生产阶段(包括芯片量产和服务器组装),仍需要一系列测试措施来保证产品质量的一致性并降低不良率。由于量产测试面向每一片/每一台出厂产品,必须讲求高效率、低成本,因此策略上与研发阶段有所不同,更偏向快速筛查性的测试。

  • 晶圆/芯片级测试(ATE测试):对于互连芯片(如NVSwitch、NIC芯片)或GPU本身,在晶圆和封装测试阶段会使用自动化测试设备(ATE)进行功能和速度筛选。ATE会跑预先定义的测试向量,验证每条高速SerDes链路是否通畅、误码率是否在目标范围。由于ATE测试时间宝贵,一般不可能完整测试每个协议特性,但基本的BIST(内建自测)模式会被触发,比如让收发器进入环回模式发送PRBS31码型,快速测算BER。如果有问题的芯片会在此阶段被筛出。主要的ATE供应商有TeradyneAdvantest等,他们提供专门的高速接口测试模块,可以在量产测试中以并行方式测试多通道,高效产出结果。

  • 电路板级生产测试:当GPU和交换芯片被安装到服务器主板或加速卡上后,需要确认焊接和组装过程中没有产生连接故障,且高速通道质量满足要求。生产线上常用的方法包括ICT(电路在线测试)和AOI(自动光学检查)来发现开短路和焊接缺陷。但对于高速差分信号,最佳手段是利用设备自身的功能进行测试。例如很多高速PHY支持内建环回BER计数。生产测试可以通过软件命令让每个端口进入内部环回模式,发送一定量测试数据,并读取错误计数寄存器。如果某通道存在焊接不良或严重反射,其误码计数会显著不为零,从而迅速定位问题。对于PCIe接口,主板厂商常用PCIe插卡式环回适配器:这是一种将插槽的发送对直连到接收对的特殊测试卡,插入每个PCIe槽后,上位机可以发出PCIe训练序列并检测是否能正确Loopback。如果某槽没训练到目标速率(比如Gen5降速到Gen3)或无法连通,则该板子存在问题需返修。同理,针对于OAM加速模块连接器这样的特殊互连,一些厂家如Saniffer上海公司设计了“假OAM 2.0”测试治具。这种治具形状尺寸模拟真实OAM模块,内部使用高速PCIe芯片,用于测试底板上的OAM插座连接是否完好。这样做的好处是避免使用昂贵的真实GPU模块进行反复插拔测试,以防止损坏并降低成本浪费——据悉,有服务器厂商在量产测试环节发现用真的OAM 2.0卡不断插拔来验证接口可靠性非常不经济,改用dummy治具后大幅节省了材料和维护费用(这一经验已在业内传播)。在高速网络布线方面,也可以采用线缆回环模块来测试交换机端口或NIC端口的基本功能。总之,量产阶段的板级测试追求快速覆盖主要故障,比如连通/不良焊点/器件DOA等,用最少的时间判断产品是否可以出厂。

  • 系统级功能抽测:并非每台出厂服务器都跑完整性能测试(那将耗费过多时间),但通常厂商会对抽样的整机做一定的系统验证,确保批量生产没有引入系统性问题。例如抽取一定比例的新机运行实际GPU通信测试程序(如多GPU跑一个AllReduce看性能是否达标),或者在整机上进行简短的Burn-in(老化测试)。Burn-in通常让服务器高负载运行数小时,以捕捉早期失效元件以及观察高温下互连是否稳定。一些厂商也会在产线对每台机器进行基本性能跑分,记录下带宽/延迟等指标,用于后续品质追溯。如果发现某批次指标异常,则能及时调查生产环节的问题。另一方面,量产测试也包括可靠性抽检,例如每N台中抽1台去做温循(温度循环)和振动,验证互连模块在运输和恶劣环境下不会松动或性能衰退。这类测试一般由专门的品质保证团队执行,不在每台设备上都做,但能保证交付给客户的产品总体质量可靠。

  • 测试设备和供应商:在生产测试环节,许多传统仪器由于速度慢或成本高,不适合对每件产品使用,因此更多依赖专用测试工装和被测设备自身的诊断能力。不过也有一些厂商提供了量产测试解决方案,例如BitifEye、Keysight等提供高速接口Production Test软件,可以结合较少通道的仪器,在批量中抽检高速链路参数。一些连接器/线缆供应商也提供测试插件,用于在不借助示波器的情况下快速判断信号通路通断。还有厂商设计了所谓板边环回连接器,在主板上预置跳线,使某些高速通道开机自环回,用以简化工厂测试流程。

总之,在量产阶段,测试的宗旨是“早发现、快筛选”。通过研发阶段和试产阶段积累的经验,厂家会制定严格的测试SOP,确保每条GPU互连链路在出厂前都经过充分验证,同时尽量降低测试成本和对产品的损伤。比如上文提到的使用假模块进行接口测试,就是一个典型的量产测试优化案例。这些测试手段的有效实施,最终保证了大规模交付的GPU服务器依然能够保持高可靠、高一致性的互连性能。

UEC vs UALink:融合前景与以太网改进之异同

近年来,面对AI超大规模集群对网络和互连提出的新要求,业界涌现出两个重要的开放组织:UEC(Ultra Ethernet Consortium)和UALink Consortium。二者分别着眼于以太网的演进和加速器直连互连的标准化。下面我们详细比较它们改进以太网协议的异同,并探讨二者未来是否会走向融合。

Ultra Ethernet Consortium (UEC):UEC由AMD、Arista、Broadcom、Meta、谷歌等多家业者于2023年发起,目标是优化以太网架构以满足AI/HPC网络需求。UEC着重于从链路层到传输层对现有以太网协议进行升级改造,同时保持与现有以太网的兼容。其1.0规范(2024年底发布)引入了一系列关键技术:

  • 链路层改进:提出LLR(Link Level Retry)机制,用链路级自动重传取代传统端到端的PFC无丢包方案,从而在发生丢包时快速重传受影响帧,避免高层大量重试。这样解决了RoCE网络中PFC停顿造成的HoL阻塞和丢包重传开销问题,提高链路利用率并降低尾部延迟。

  • 报头压缩:引入PRI(Packet Rate Improvement),对以太网/IPv6报头进行压缩,去除不必要字段,以降低小报文开销,提升每秒报文发送数。因为AI通信多是小包(比如梯度压缩后的数据包),提高包率对性能很重要。

  • 拥塞控制和多路径:UEC定义了先进的拥塞控制算法,包括快速拥塞反馈incast管理包喷洒(Packet Spraying)等。Packet Spraying允许在网络中对流分拆多路径、乱序发送,从而充分利用多路径带宽并减少拥塞热点对单一路径的影响。另外Selective Retransmit等机制允许乱序重传丢包帧,提高RDMA效率。

  • 安全和可管理性:UEC也考虑了数据中心安全,利用IPsec和PSP(Per-Session Protocol)实现传输层的作业隔离和低开销加密。并设计了扩展的LLDP用于协商UEC特性以实现逐跳渐进部署。

简言之,UEC是在保留以太网PHY和基本框架前提下,大幅增强其高性能计算适用性,让以太网在性能上逼近InfiniBand,同时保持以太网的开放和成本优势。UEC得到AMD、HPE、Arista等公司积极推动,AMD更将UEC视为其GPU集群的首选方案之一。

UALink Consortium:UALink(Ultra Accelerator Link)成立于2024年,由阿里巴巴、AMD、Intel、Meta、微软等十余家成员共同开发开放的加速器直连互连标准。其目标是在节点内部乃至跨节点,实现数百上千颗AI加速芯片的高带宽、低延迟互联,打破GPU间通信的厂家壁垒。UALink 1.0规范(又称UALink_200)于2025年发布,主要特点包括:

  • 200 Gbps/lane的PHY:UALink 1.0采用IEEE 802.3dj的200Gb/s物理层技术,每“lane”速率高达200Gbps。实现上可能是每端口若干车道(例如4 lane合成800Gbps端口),可提供远超PCIe的带宽。

  • 专用交换和拓扑:UALink设计了ULS(UALink Switch)芯片用于互连,支持多达1024颗加速器组成单一“加速集群(pod)”。每个加速器有唯一的10-bit地址,通过多级开关可路由通信。初始拓扑侧重单层交换,以降低延迟。所谓1级交换即可实现最多1024节点的全互联(假设每开关128端口,两级可覆盖更大,但增加延迟)。在阿里巴巴Panjiu架构中,就规划通过单级ALink Switch无阻塞互连64~128颗GPU,实现超低延迟的Scale-Up网络。

  • 轻量高效的协议:UALink并非直接套用TCP/IP或RDMA,而是为加速器通信设计了精简协议,支持读/写/原子等内存语义操作在网络中传递。其目标是在数百GPU间实现类似共享内存的工作模式,软件将这些GPU视作一个“超大GPU”来编程。这需要协议具备极低的处理开销(sub-microsecond级延迟)和硬件的直接内存寻址能力。AMD的Infinity架构提供了一部分支持(如一致性),因此UALink初期预计采用AMD的开放内存协议作为基础。

  • 开放标准与互操作:UALink强调开放性和避免厂商锁定。它的成员覆盖云计算公司、CPU/GPU厂商、交换芯片厂商等,旨在让不同厂商的加速器都可以通过UALink互连。这意味着,将来可能出现第三方UALink交换机、适配不同厂商GPU的UALink接口,从而建立一个统一的加速器互连生态。这一点类似于以太网之于网络的角色。

UEC vs UALink 异同:两者都源于AI大规模训练的需求,都涉及改良以太网技术,但定位有明显不同:

  • 定位与层级:UEC针对scale-out集群网络,也就是传统意义上的多服务器互联,其改进主要在网络的链路/传输层,提升大规模多跳以太网的性能。UALink则聚焦scale-up加速器直连,即在单个加速pod内构建一跳或少跳的专用高带宽网络。可以说,UEC解决GPU出服务器后的通信问题,UALink解决服务器内/机柜内GPU直连问题。

  • 协议层次:UEC仍然是在以太网范式内演进——保留MAC/IP层,只是修改/增强其实现。网络上的设备(交换机、NIC)需要支持UEC的新特性,但对于应用层来说依然是套IP或者Verbs接口。UALink则是重新定义了一套协议,不基于IP或传统以太转发,而更类似存储总线或共享内存协议在网络中的扩展。因此UALink的数据包格式、路由方式和操作语义都独立于以太网,仅物理层借鉴以太规范。实际应用中,GPU通过驱动直接操纵UALink通道进行读写操作,这与通过Socket发送IP包的模型很不一样。

  • 性能侧重:UEC关注高吞吐+低尾延,通过拥塞控制、多路径让成千上万个流在大型网络上高效传输。UALink更关注极致低延迟和内存级操作,其通信延迟目标是亚微秒级,这相当于传统网络几十甚至上百微秒延迟的两个数量级提升。UALink要做到这点,需要硬件直通、高度并行的交换结构,以及简单的路由协议。此外,UALink专门支持硬件级的同步和一致(如原子操作) —这些都是以太网传统协议所不具备或效率低的。可以认为UALink提供的是“数据中心范围的计算内存互连”,而UEC提供的是“优化过的以太网络传输”

  • 互补性:尽管目标不同,但UEC和UALink并非孤立,反而可能在架构上互补。UALink构建的加速器pod(例如1024 GPUs)仍需要通过某种网络与其他pod或存储系统通信。这时候,UEC优化过的以太网就可以作为pod间互联的理想选择。Synopsys的报道也指出,UALink与UEC是配套协作关系,UALink负责节点内扩展,UEC负责更大范围的网络,两者结合可实现真正大规模、端到端优化的AI集群。甚至在一些会员公司(如AMD、阿里)看来,未来的AI集群架构可能是:“节点内通过UALink组成超大GPU,节点间通过UEC网络连接超大GPU与超大GPU”,从而达到既高带宽低延迟,又具备以太网可扩展性的“理想网络”。

  • 融合前景:鉴于两组织关注点不同,短期内组织层面合并的可能性不大。UEC归属Linux基金会旗下,UALink则是独立的行业联盟,各自已有明确的路线图。不过技术上,两者已有紧密关联:UALink采用的PHY正是UEC推动的802.3dj(200Gbps/lane),未来UALink可能提升到800Gbps/lane时也会跟随以太PHY进步。可以设想,将来UALink交换芯片也许会内置部分UEC的运输功能,以在多跳环境中支持路由容错;反之,UEC网络或许会支持承载UALink流量的隧道。这些属于潜在的技术融合方向。更值得注意的是,两者拥有重叠的成员公司(如AMD、Intel、阿里、微软等都参与了双方),因此战略目标是一致的——即打破NVIDIA在GPU互连和网络上的双重垄断,用开放标准构建跨厂商的AI基础设施。这个大方向上,UEC和UALink实际上是在不同战线上协同作战:一个从网络协议入手,一个从加速器直连入手。最终愿景很可能是让基于UEC+UALink的解决方案形成闭环生态,对用户而言无缝使用。从用户角度看,这两者是否“合并”并不重要,重要的是能否共同塑造一个开放、高性能的AI互连体系。目前来看,他们正在朝这个方向努力且各有所长:UEC继承了以太网的开放和灵活,UALink则针对AI计算作了极致优化。若干年后,我们或许会看到一个既包含UALink规模内互联又通过UEC连接跨数据中心的融合网络,但那时二者的概念边界可能已变得模糊。

综上,UEC和UALink分别改进了以太网不同层面的能力,一个改良网络栈,一个重塑直连总线。二者立足点不同但目标一致,并不存在直接竞争关系,因此不大可能简单地合并成一个标准。不过,它们已经在技术上紧密合作(如共享物理层、成员协同等),未来更可能以协同标准的形式共同构建AI网络新生态,而非彼此割裂。对于以太网协议的改进,UEC走的是逐层优化、保留兼容性的路线,UALink则是针对加速器场景重新定义协议。两种思路各有侧重,但殊途同归——最终都为了让AI分布式计算中的数据流动更加高效、顺畅。

AI训练服务器的Scale-Out网络技术与方案

除了服务器内部的GPU总线,跨服务器的“横向扩展”(scale-out)网络同样是AI训练系统的关键组成。大型AI模型往往需要数百上千颗GPU协同,这超出了单机所能容纳的GPU数量,必须通过高速网络将多台服务器连接成集群。与传统数据中心网络不同,AI训练对网络带宽和延迟有极高要求——节点间通信频繁、数据量大、同步要求高。因此,过去几年专为AI/HPC设计的网络技术蓬勃发展。下面介绍当前主流的几类GPU集群互连技术、代表产品/方案,以及它们的优劣势。

InfiniBand 网络

InfiniBand (IB)是一种面向高性能计算的专用互连网络标准,问世于2000年前后,经过长期发展已成为HPC集群通信的中坚。NVIDIA于2020年收购Mellanox后,InfiniBand技术继续快速演进,并融入其AI网络产品线。当前主流的InfiniBand代际有:

  • HDR InfiniBand:速率200 Gbps(每端口4x50G PAM4),单向带宽25GB/s左右。NVIDIA Mellanox ConnectX-6 NIC和Quantum HDR交换机支持HDR。许多AI集群采用双端口HDR NIC,总带宽可达400 Gbps。

  • NDR InfiniBand:最新一代,速率400 Gbps(每端口4x100G PAM4),单向带宽50GB/s以上。对应的硬件是ConnectX-7/BlueField-3 NIC和Quantum-2交换机。NDR交换机每端口400G,可通过48或64端口交换芯片构建大规模Fat-Tree拓扑。

  • XDR InfiniBand:规划中的下一代,将提升至800 Gbps端口速率,采用更高速SerDes(例如112G PAM4)。NVIDIA已展示了1.6Tbps(双端口800G)概念产品。

InfiniBand的显著特点是端到端的硬件RDMA和通信加速。IB使用verbs接口,让应用直接读写远端内存而无CPU介入,实现低延迟通信。更高级的是,IB网络设备具备In-Network Computing能力,例如NVIDIA的交换机集成SHARP技术,可在交换机上直接完成AllReduce等聚合运算,大幅加速像梯度求和这样的操作(据NVIDIA称,可将AllReduce效率提升数倍)。IB还支持GPUDirect RDMA,GPU可以直接通过IB NIC访问远端GPU内存,减少拷贝开销。延迟方面,InfiniBand网络的小包延迟可低至几微秒量级,比传统以太网快一个数量级。这些特性使InfiniBand成为众多超算中心和AI训练集群的首选网络。

优势:InfiniBand是为极致性能打造的封闭体系,具有无可比拟的低延迟高消息吞吐。其链路层采用信用流控避免丢包,保证网络无丢包运行,无需复杂拥塞管理。专有的交换架构和拓扑算法(如fat-tree或Dragonfly+)搭配自适应路由,让IB在大规模情况下也能提供接近线性的性能扩展。InfiniBand的软件栈成熟、优化充分,MPI、NCCL等都对其有专门优化,开销极低。另外,由于IB生态相对统一(主要NVIDIA一家提供),版本兼容和调优由厂商一体解决,用户可以获得开箱即用的性能。

劣势:主要是成本和封闭。IB设备昂贵,交换机和NIC只能从NVIDIA购买,价格较同速率以太设备高。同时因为其封闭,难以融入现有数据中心以太架构,对于云厂商来说可管理性和通用性较差。此外,IB虽然强大,但在极大规模(如上万节点)下也存在挑战,尤其在多租户和复杂工作负载混合情况下,IB的静态路由和信用机制可能出现效率下降。NVIDIA近年也推出了基于以太的Spectrum-X方案(见下节),可以看作对IB的补充。在一些案例中,如Meta的新AI集群,已能看到以太网方案在性能上开始逼近InfiniBand。尽管如此,就当前而言,InfiniBand仍是在HPC和部分AI超级集群中最可靠高效的选择,特别是在用户愿意为顶级性能支付溢价的场景下。

高速以太网 (RoCE及增强型以太方案)

以太网是数据中心中无处不在的网络技术。传统以太网因其高灵活性和多供应商生态,成本低廉且易于拓展。但以前AI/HPC领域很少用以太网,因为标准TCP/IP协议栈开销大、软件延迟高。然而,近年来以太网通过RoCE (RDMA over Converged Ethernet)引入RDMA能力,加上网络硬件速度飞跃式提升,使其逐渐成为AI训练集群的可行方案。典型配置如100Gb、200Gb、400Gb、800Gb以太网网卡和交换机已经商用,并部署在一些AI集群中。例如阿里云据报道在其GPU集群中使用每台服务器8块GPU配9个100Gb以太网端口直连交换机的架构,实现各GPU节点互联。这种架构利用以太网组建大规模低直径网络,在大型AI训练中取得了可观性能,同时成本相对可控。

以太网方案主要包括以下几种形式:

  • RoCE v2 标准以太:使用标准以太交换机(支持DCQCN拥塞控制和PFC流控)和RDMA网卡(常见如Mellanox ConnectX系列、Broadcom/BITNIC等),在IP网络上运行RDMA协议。RoCE v2对网络要求是无丢包(通过PFC保证),但PFC可能导致死锁和拥塞传播,需精细配置。大规模下DCQCN算法也有局限。这种方案实现简单(在IP网基础上配置即可),例如微软早期的AI集群就使用RoCE + Fat-Tree网络。

  • 无损以太增强:为改善RoCE性能,厂商推出一系列改进,比如Broadcom的Congestion Isolation功能、Cisco的动态队列限制等,缓解PFC问题。一些超算采用定制的拓扑和路由(如龙型Dragonfly)配合以太网交换芯片,以降低直径和拥塞。

  • 专用AI以太方案:NVIDIA于2023年发布Spectrum-X,将其Spectrum-4以太交换机与BlueField-3 DPU搭配,提供端到端优化的以太网络。Spectrum-X包括硬件级的拥塞检测、广播优化,以及“SuperNIC”架构(在DPU上卸载GPU通信)。据报道,Spectrum-X网络可在多租户云环境中实现媲美InfiniBand的延迟和吞吐。另一家HPC厂商HPE则推出Slingshot交换机(用于Frontier、Aurora超算),其特点是在标准以太网PHY下引入自适应路由、拥塞控制,并支持混合HPC和IP流量。这些都算是以太网的特化版本。

  • Ultra Ethernet (UEC):前文介绍的UEC规范正是对以太网的全面增强方案。虽然UEC设备尚在开发中,但它预示了未来以太网网络针对AI负载的设计方向:无丢包、高利用率、低尾延迟,且保持与现有协议兼容。AMD已宣布其Pensando系DPU下一代产品将支持UEC的特性。一旦产业链完善,UEC很可能成为AI以太网络的新的事实标准

优势:以太网方案最大的优势在于开放性和成本效益。多家厂商(如Broadcom、Cisco、Intel等)生产兼容设备,竞争带来价格下降,也避免锁定某一家供应商。对于已有大规模以太基础设施的云厂商来说,使用以太网络连接GPU集群可以复用现有网络管理和运维工具,降低部署复杂度。另外,以太网易于扩展到超大规模,互联网企业对大规模Clos网络的管理驾轻就熟,可直接套用于GPU集群。随着400G乃至800G以太的推出,带宽瓶颈也逐步缓解。同时,新技术(如UEC)的加持将显著缩小与InfiniBand在延迟和负载管理上的差距。因此,以太网让AI网络既能享受高性能,又能保持与普通数据中心网络的一致性,这是非常具有吸引力的。劣势:目前标准以太方案若无定制优化,在一些极端场景下性能不够理想。比如PFC配置复杂且有死锁隐患,RoCE对丢包极其敏感导致调优困难。当网络规模增大时,拥塞热点可能导致尾延迟飙升,多租户环境中链路争用也可能带来不可预知的抖动。这些都需要通过更智能的算法和更强大的NIC/交换芯片配合解决(这正是UEC等致力的方向)。总的来看,以太网正在迅速赶上AI网络需求曲线,特别在云和互联网公司那里已成为首选方案之一。从占有率看,近年来新建的大型AI集群采用以太的比例在提高,InfiniBand逐渐从绝对主角变为与以太平分秋色。如果UEC等取得成功,我们有望看到以太网彻底主导AI训练网络的局面。

NVIDIA NVLink跨节点互连

除上述两大主流外,值得一提的是NVIDIA在最新H100架构中推出的NVLink Switch System,它使NVLink这种原本节点内部的互连延伸到了节点之间。NVLink Switch是一种专用交换机(前文提及,每台包含2颗NVSwitch芯片),通过有源光缆连接多台GPU服务器。在典型配置中,可将若干台8-GPU服务器组成为一个多机一体的NVLink域。例如NVIDIA官方资料提到,通过两级NVLink Switch,可以将256颗H100 GPU互联形成统一集群。这实际上把NVLink网络的规模从单机8或16卡扩展到了32台服务器的规模,相当于一个小型数据中心都在同一个NVLink全局地址空间下运行。

NVLink跨节点互连的优劣势非常明显:优势是性能无敌——带宽远超以太或IB,延迟极低(因为基本还是NVLink级别的跳数)。对于需要极高通信密集度的作业(如超大模型的Tensor并行,需要GPU间频繁同步),NVLink网络提供了梦寐以求的通信能力。而且GPU可以直接进行一致内存操作(NVLink支持GPU内存的统一寻址),这使编程简化、效率提升。缺点在于适用范围有限:NVLink Switch系统成本极其高昂,而且距离受限(通常一两个机架内)。要部署这样网络的用户基本只可能是购买整套NVIDIA解决方案(如DGX SuperPOD)的客户。对更广泛的用户来说,可复制性不高。此外NVLink网络扩展到256 GPU虽然强大,但更大规模(上千GPU)仍需多组NVLink域再通过传统网络相连。因此NVLink Switch不是通用集群互连的解决方案,更像NVIDIA提供的一种高端选项,服务于那些愿意投入重金打造顶尖性能集群的场景。

其他方案和未来趋势

在scale-out互连领域,还有一些其他值得一提的方案:

  • 谷歌TPU互连:虽然TPU不是GPU,但其互连网络技术代表了另一种思路。谷歌为TPU定制了高速ICN(Inter-Chip Network),采用2D Torus拓扑把每个TPU板上的芯片连接,再通过超级POD拓扑(更高层交换)连接数千TPU。这种torus结构延迟更低,但需要模型特别拆分以适应。GPU目前没有采用环形或网格拓扑互连节点的先例,大多用Fat-tree网络,但随着NVLink网络扩展,这种可能性也在被探索。

  • 光互连:无论InfiniBand还是以太,目前都面临电铜介质信号衰减瓶颈。未来的GPU集群很可能更多依赖光通信。近年来兴起的CPO(共封装光学)、硅光交换等,将有望将网络延迟进一步降低并提高能效。在GPU直接互连上,实验室已经出现用光纤直接连GPU的尝试。阿里巴巴等也提到在Scale-Up互连中引入光互连作为减小延迟的方向。因此可以预见,光技术将在下一代AI网络中扮演更大角色,带来新的产品形态。

  • 软件定义及拓扑优化:除了硬件,软件方面如Facebook发表的HPC-Y拓扑优化,或者微软研究的特别路由算法,都在尝试通过调度和路由层改善大规模AI通信。NVIDIA推出的NCCL Swift、微软的DeepSpeed等框架也整合了对网络的优化。虽然这不是“总线技术”本身,但与硬件互连相辅相成,共同提升性能。

总结比较:InfiniBand vs Ethernet的争论可概括为“专用高性能”“开放灵活”。InfiniBand当前依然在最高性能上占优,适合需要极致低延迟的规模适中集群;以太网凭借强大的迭代速度和生态,已经在大规模AI训练中证明了自己,将随着UEC等增强方案而更加强大。NVIDIA的NVLink网络提供了第三种路径,在特定范围内性能秒杀前两者,但受限于生态和距离,只能作为特殊场合补充。对于构建AI训练集群的用户,一般会考虑混合使用:例如节点内NVLink,节点间Ethernet或IB;或者小规模用NVLink,扩展用Ethernet等。关键是根据工作负载特性和预算进行取舍:

  • 带宽/延迟敏感的大模型训练:优先考虑NVLink域(如果预算允许)或InfiniBand网络,因为这类任务通信占比高,需要最低延迟保障。

  • 规模超大的互联网级集群:倾向Ethernet方案,因其可扩展性和经济性,在万级GPU规模时容易管理和部署,且可利用云厂商已有设施。

  • 异构/通用数据中心:以太网胜出,可以统一承载存储、训练、推理等流量,通过QoS区分,而InfiniBand只能专网专用。

  • 未来展望:随着以太网不断改进和GPU直连标准化(UALink)的出现,我们可能迎来统一的架构:小范围内加速器通过UALink形成超级计算单元,大范围通过UEC优化的以太网互连这些单元。那时,我们或许不再纠结选IB还是Ethernet,因为开放以太将足以满足几乎所有场景,同时提供跨厂商互通性和更低成本。NVIDIA方面,可能也会将NVLink与其以太产品更紧密结合(例如未来BlueField DPU整合NVLink,AMD已计划在DPU上集成XGMI)。总之,AI训练网络技术正朝着更高速、更智能、更开放的方向发展,各种总线技术在其中扮演不同角色。掌握并测试好这些互连,将使我们能够建造更大更强的AI计算集群,为下一代AI应用奠定基础。

更多推荐