在其于圣何塞举办的“Advancing AI”活动上,AMD发布了其最新一代GPU Instinct MI350系列,并公布了未来AI加速器平台的激进路线图。基于先进的CDNA4架构构建的MI350系列,为苛刻的AI工作负载承诺了显著的性能提升。此次发布还预览了未来的Instinct产品线,彰显了AMD在AI硬件领域持续创新的承诺。

AMD Instinct MI350系列

由全新CDNA4架构驱动的AMD Instinct MI350系列,代表了AI计算的重大飞跃。专为AI工作负载设计的CDNA4架构引入了增强的矩阵引擎、对新数据格式的支持以及能效方面的关键改进。
在这里插入图片描述

先进封装与小芯片架构:MI350的基石

MI350系列基于AMD先进的3D小芯片封装技术构建,在MI300系列的基础上进行了关键增强。

芯片设计与制造
GPU封装的核心是八个加速器计算小芯片(XCD),即主要的计算引擎。这些XCD采用先进的3nm Node 3+工艺节点制造,相比MI300系列使用的5nm技术有所升级,显著提高了能效。每个XCD包含四个着色器引擎,每个引擎包含八个活动的CDNA4计算单元(CU),最终每个XCD拥有32个CU,整个加速器总计256个CU。
在这里插入图片描述
辅助XCD的是两个I/O芯片(IOD),比MI300系列的四个IOD有所减少。这些采用6nm级工艺制造的IOD负责内存访问、I/O操作和小芯片间通信。这种精简的双IOD设计,结合更宽的内部互连,在降低功耗的同时保持了带宽目标。

物理集成与逻辑统一
物理组装涉及将XCD和HBM3E内存堆栈安装在Chip-on-Wafer-on-Substrate (CoWoS) 中介层上。此设计的一个关键方面是XCD与位于其下方的IOD之间的混合键合(Hybrid Bonding)。这种3D混合键合技术在计算小芯片和I/O小芯片之间创建了极其密集、高带宽的互连,远超传统的2.5D结构,这对于为高功耗的XCD高效供应数据至关重要。此外,这种先进的3D集成有助于减小整体GPU尺寸,可能提高制造良率和运行可靠性。
在这里插入图片描述
尽管采用复杂的小芯片构造,MI350在逻辑上仍作为单个统一的GPU运行。每个XCD构成一个加速器计算复合体(Accelerator Compute Complex),配备全局资源,包括一个命令处理器和一个4MB的L2缓存。

增强的内存子系统
为了充分供应强大的CDNA4核心,MI350系列的内存子系统进行了大幅升级。它配备了八个HBM3E内存堆栈,为每个GPU提供总计288GB的容量。每个36GB的堆栈由12层高的24Gbit器件组成,以HBM3E的满速8Gbps/引脚运行。
在这里插入图片描述
该架构还保留了AMD的Infinity Cache,这是一个位于HBM和Infinity Fabric/L2缓存之间的关键内存端缓存。该缓存包含128个通道,每个通道由2MB缓存支持,整个GPU总计256MB。为了在更低功耗下提升带宽传输效率,AMD加宽了IOD内的片上网络总线,并在降低的电压下运行。这种优化降低了每比特能耗,使MI350系列能够实现比前代MI300系列高约1.3倍的单位功耗内存带宽。
在这里插入图片描述
此外,为了有效管理庞大的288GB物理内存,通用转换缓存(UTC,类似于CPU的转换后备缓冲器TLB)得到了显著增强。MI350系列在UTC L1和L2中引入了更精细的页面大小控制,并增加了容量。这些改进允许更大的TLB覆盖范围(reach)和更高效的虚拟内存管理。

Infinity Fabric增强
AMD的Infinity Fabric技术仍然是MI350可扩展性和GPU间通信性能的核心。连接两个IOD的Infinity Fabric AP链路(bisectional bandwidth)已大幅提升至5.5TB/s,促进了GPU两半之间的高效数据移动。
在这里插入图片描述
对于外部通信,每个MI350 GPU具有七个Infinity Fabric链路,支持在诸如8-GPU UBB 2.0平台等配置中进行直接的GPU到GPU连接。这些链路以每引脚38.4Gbps的速度运行。在8-GPU OAM设置中,此配置为每条链路在每个方向上提供约153.6 GB/s的bisectional带宽。AMD还在这些外部链路上改进了数据打包和压缩技术,以提高有效传输带宽。在内部,Infinity Fabric确保所有XCD都能通过两个IOD对整个HBM3E内存空间进行完全、细粒度的交错访问,向计算单元呈现为单个、扁平、统一的资源。
在这里插入图片描述

CDNA4计算核心架构
作为MI350处理能力的核心,专为AI量身定制的CDNA4计算单元(CU)经历了重大的架构重构。

矩阵数学能力得到大幅提升:与MI300相比,MI350的CU在16位(BF16, FP16)和8位(FP8, INT8)运算上的每CU吞吐量提高了2倍。MI350系列还引入了对OCP MX规范指定的微尺度格式(micro-scale formats)的硬件支持,特别是FP6和FP4,它们按比例从FP8缩放而来。值得注意的是,AMD的实现使FP6能够以与FP4相同的计算速率运行。这一战略决策使AMD在FP6(一种具有AI训练潜力的新兴格式)领域处于领先地位。此外,新增了一个向量ALU(算术逻辑单元),支持2位运算并能够将BF16结果累加到FP32,从而提高了某些低精度向量运算的吞吐量。
在这里插入图片描述
为了支持这些增强的张量吞吐量,每个CU的本地数据共享区(LDS)大小有所增加,并且新增的功能增强了从全局内存加载数据到LDS的带宽。认识到在Softmax和注意力机制等操作中可能存在的瓶颈,超越函数(transcendental functions)的吞吐量也随着张量核心的改进而同步提高。
在这里插入图片描述
其他几项架构增强提升了性能和灵活性:
●硬件支持的随机舍入(Stochastic Rounding): 通过注入随机性,减轻从FP32向下转换到低精度格式时的偏差。
●逻辑运算符3(LUT3)指令: 为程序员实现自定义三输入逻辑操作提供了更大的灵活性。
●新的Min-Max运算符: 使程序员能够在比较过程中控制NaN(非数值)传播,可以选择传播NaN值或选择非NaN浮点数,从而有助于实现稳健的AI数据管理。

尽管AI是主要焦点,MI350系列仍保留对64位浮点(FP64)运算的支持(在向量和矩阵单元中)。然而,与MI300的一个关键区别在于,在MI350上,矩阵FP64运算的速率与向量FP64单元相同,这实际上是MI300 FP64矩阵速率的一半。
在这里插入图片描述

最后,更高的HBM3E带宽和略微减少的CU数量(MI350X/355X为256个,MI300X为304个)的结合,意味着MI350系列中的每个CU都能获得更高的每时钟周期全局内存带宽。这对于加速GEMM密集型(通用矩阵乘法)运算和带宽受限的向量算术至关重要。

灵活分区:NPS与计算分区
AMD MI350系列具有增强的分区功能,提供对其庞大资源的高度灵活分配,以最大化跨多样化工作负载的利用率和效率。
在这里插入图片描述
对于内存管理,MI350提供两种主要的NUMA(非均匀内存访问)模式:
NPS1: 通过在所有八个HBM堆栈上进行数据访问交错,将整个288GB HBM3E内存视为单个统一的NUMA域。
NPS2: 将内存划分为两个独立的NUMA域,每个域对应一个IOD及其关联的四个HBM堆栈。在NPS2模式下,每个IOD内部的内存访问保持细粒度交错,但在IOD之间变为粗粒度(coarse-grained)。这种模式,特别是在与计算分区结合时,可以针对空间局部性(spatial locality)进行优化。

值得注意的是,AMD选择不在MI350上支持NPS4模式(这在MI300上是可用的)。该决定源于新架构中两个IOD内部更紧密的内存耦合,这削弱了进一步内存细分的潜在性能优势。
在这里插入图片描述
在计算方面,GPU 可以配置为在几种模式下运行:
SPX (单分区执行 - Single Partition Execution): GPU作为单个强大的引擎运行,通常与NPS1内存模式一起使用。
DPX, QPX, OPX (双/四/八分区执行 - Dual/Quad/Octal Partition Execution): GPU可以被划分为两个、四个甚至八个独立计算分区。

这些计算分区可以与NPS1或NPS2内存配置配对,但有一个约束:计算分区的粒度必须至少与内存分区一样精细或更精细(例如,SPX模式与NPS2内存分区不兼容)。

这些多功能的分区选项在裸机部署和通过SR-IOV(单根I/O虚拟化)中都得到支持,使其成为虚拟化、多租户环境的理想选择。例如,在云或数据中心环境中,单个MI350 GPU可以被逻辑分段以同时服务于多个用户或应用程序。每个租户获得专用的内存和计算资源切片,确保服务质量和安全性,这对于不同虚拟机需要隔离访问GPU硬件的场景尤其有价值。

MI350X 对比 MI355X:针对不同部署量身定制

MI350系列推出了两个主要变体,以满足不同的部署需求和热设计功耗(TDP):
●I350X:该变体设计用于较低功耗,热设计功耗(TDP)最高为1千瓦(1000W)。它支持风冷部署,在现有数据中心基础设施中提供更广泛的兼容性。
●I355X:在高达1.4千瓦(1400W)的系统功率(TDP)下运行,主要面向液冷部署,使其能够提供最大性能。

在这里插入图片描述
虽然两者基于相同的基础硬件,但MI355X更高的运行功率范围允许其维持更高的时钟频率。这转化为在实际端到端工作负载中相比MI350X大约20%的性能优势。这些加速器提供三种经过验证的机架配置。
在这里插入图片描述

AMD Pensando Pollara 网络

除了新的GPU,AMD还深入介绍了其Pollara网络解决方案,展示了旨在满足大规模人工智能系统日益增长需求的重大架构进步。基于AMD收购Pensando技术构建的Pollara 400 AI NIC(网络接口卡),为AI网络结构引入了新水平的可编程性和智能。
在这里插入图片描述
Pollara 创新的核心在于其可编程架构。与固定功能硬件不同,Pollara NIC具有一个P4可编程的MPU(报文处理单元)核心。这种设计至关重要,因为AI网络需求瞬息万变,新协议、传输机制和遥测需求不断涌现。可编程性使Pollara NIC能够通过软件更新进行适配,允许部署自定义流量管理方案、新颖的负载均衡算法和定制的拥塞控制机制,而无需更换硬件。这种灵活性对于未来验证AI数据中心并快速响应工作负载的不断演进特性至关重要。

为了解决常见的网络瓶颈,Pollara 引入了多播。对于GPU到GPU的通信,来自单个连接的数据可以同时分布在多个物理网络链路上。这种方法提高了整体网络利用率和吞吐量,防止任何单一路径上的拥塞。NIC本身管理这种分发的复杂性,包括对可能乱序到达目的地的数据包进行重新排序。
通过选择性确认重传来提高网络效率。

在传统网络中,丢失单个数据包可能导致大量数据序列的重传。Pollara则采用更精确的方法,仅重传丢失的数据包。这显著减少了网络上的冗余数据,提高了有效带宽。Pollara网络解决方案还设计用于在各种网络环境(包括有损连接)中稳健运行。它结合了复杂的、可编程的、路径感知(Path-Aware)的拥塞控制。这种能力减少了对完美无损网络结构的依赖,后者在现代化AI集群所需的庞大规模下实施和维护既复杂又昂贵。
在这里插入图片描述
AMD 还是 Ultra Ethernet Consortium 的积极参与者,贡献并实施其标准。UEC旨在定义针对AI优化的下一代以太网,专注于高效的负载均衡、增强的可靠性和AI特定的拥塞控制。遵守这些开放标准促进了互操作性并培育了更广泛的生态系统。

Pollara技术被设计为在AMD更广泛的平台内协同运行,实现跨CPU、GPU和NIC组件的协同创新。这包括诸如集合操作卸载(Collective Operation Offload)能力,即NIC处理特定的网络密集型通信任务(那些不需要GPU计算的任务)。这释放了GPU资源用于其主要处理任务。

ROCm 7:面向先进AI的开放软件生态系统

支撑这些硬件创新的是ROCm 7的发布,这是AMD开放软件平台的最新演进,旨在最大化性能和可访问性。计划于今日(发布会当天)进行公开预览,并于8月全面发布。AMD报告称,ROCm 7与其前身相比,在现有硬件上的推理和训练性能实现了惊人的3倍至3.5倍提升。
对于企业客户,AMD正在推出ROCm AI Enterprise这是一个全面的套件,为大规模部署提供集群管理、MLOps和应用程序构建工具。
同时,AMD通过一个新的开发者云(Developer Cloud)个体开发者提供访问权限,并提供免费的GPU积分以鼓励实验。
这种提升可访问性的努力更进一步,ROCm 7正式将支持扩展到客户端设备,包括运行Windows的笔记本电脑和工作站,确保开发者可以在整个AMD生态系统上无缝构建和测试AI应用程序。

未来路线图

AMD致力于快速、每年一轮的创新周期,其产品路线图已延伸至MI350系列之后。
在这里插入图片描述
AMD正在开发将成为Helios(一个完全集成的机架级解决方案)核心的MI400系列,计划2026年发布。该平台专门设计用于训练尖端AI模型和管理大规模分布式推理任务。Helios系统将是一个集成的AMD平台,包含代号为Venice未来EPYC CPU、Instinct MI400 GPU和下一代Pensando网络(具体为Vulcano 800G AI NIC。一个全面的ROCm软件栈,包括用于自动化部署和管理的专用Fabric Manager也将是该解决方案的一部分。强调开放标准,Helios机架将符合OCP(开放计算项目)规范。它将利用超级以太网(Ultra Ethernet - UEC)机架间扩展网络,并引入超级加速器链路(Ultra Accelerator Link - UAL 1.0)于单个机架内的向上扩展(Scale-up)通信。
在这里插入图片描述
Instinct MI400 GPU本身专为极大规模AI应用而打造。初步规格显示出令人印象深刻的能力,包括40 PetaFLOPS的FP4性能和20 PetaFLOPS的FP8性能。每个GPU预计配备432GB的HBM内存,提供约20TB/s的HBM内存带宽,并将提供300 Gb/s的向外扩展(Scale-out)带宽。

作为GPU的补充,Vulcano 800G AI NIC将支持UEC并兼容UAL以及PCIe Gen6。UAL将提供PCIe Gen6两倍的带宽。预计该NIC将为每个GPU提供相比早期Polara(应为Pollara)代高达八倍的向外扩展带宽。

AMD对Helios机架解决方案设定了雄心勃勃的性能目标,预计其在最先进的前沿模型上相比MI355提供高达十倍(10x)的AI性能提升。针对2026年的Vera Rubin(可能指代竞争对手平台),Helios旨在提供有竞争力的原始FLOPS、高出50%的HBM容量、高出50%的HBM内存带宽以及高达50%的向外扩展带宽。
在这里插入图片描述
2027 年,AMD 将推出其下一代 EPYC Verano CPU 和 Instinct MI500 系列。EPYC Verano CPU 可能会使用 Zen 6 的升级版本或下一代 Zen 7 核心架构,因此我们将以非常快的速度看到数据中心和 AI 方面的更新,类似于 NVIDIA 现在在标准和“Ultra”产品上所做的。这些将用于为下一代 AI 机架提供动力,并将颠覆性地提升整体性能。

更多推荐