近日,谷歌云推出了由自研Axion CPU和Ironwood TPU驱动的新型AI实例。这些新实例旨在服务于大规模AI模型的训练及低延迟推理,其关键特性在于能够通过基于Ironwood的大型系统实现极高的扩展规模,从而高效地扩展AI模型。
在这里插入图片描述

用于训练和推理的数百万Ironwood TPU

Ironwood是谷歌的第七代张量处理单元(TPU),可提供4,614 FP8 TFLOPS的性能,并配备了192 GB的HBM3E内存,提供高达7.37 TB/s的带宽。Ironwood计算单元可扩展至9,216个AI加速器,为训练和推理提供总计42.5 FP8 ExaFLOPS的算力,这远远超过了英伟达GB300 NVL72系统0.36 ExaFLOPS的FP8算力。该计算单元通过专有的9.6 Tb/s芯片互连网络进行连接,总计搭载约1.77 PB的HBM3E内存,再次超越了英伟达竞争平台所能提供的水平。
在这里插入图片描述
基于Axion CPU和Ironwood TPU的Ironwood计算单元可以集群形式连接,运行数十万个TPU,这构成了谷歌恰如其名的"AI超级计算机"的一部分。这是一个集成的超级计算平台,将计算、存储和网络统一在一个管理层下。为了提升超大规模计算单元和AI超级计算机的可靠性,谷歌采用了其可重构光纤背板技术——光学电路交换,该技术能够即时绕开任何硬件中断,以维持持续运行。

IDC数据显示,AI超级计算机模型能为企业客户带来平均353%的三年投资回报率,IT支出降低28%,以及运营效率提升55%。

已有数家公司开始采用谷歌基于Ironwood的平台。Anthropic计划使用多达一百万个TPU来运营和扩展其Claude模型系列,并称其在成本效益方面取得了重大提升。Lightricks也已开始部署Ironwood来训练和服务其LTX-2多模态系统。

Axion CPU:谷歌终部署自研处理器

尽管在AI计算时代,像谷歌Ironwood这样的AI加速器往往吸引了所有目光,但CPU对于应用逻辑、服务托管以及运行部分AI工作负载(如数据摄取)仍然至关重要。因此,除了第七代TPU,谷歌也同步部署了其首批基于Armv9架构的通用处理器——Axion。
在这里插入图片描述
谷歌尚未公布其Axion CPU的全部芯片规格:除了C4A Metal实例最多支持96个vCPU和最多768 GB DDR5内存外,没有确认每个芯片的核心数,也未公开披露其时钟频率和制程工艺节点。我们所知的是,Axion基于Arm Neoverse v2平台构建,旨在相比现代x86 CPU提供高达50%的性能提升和高达60%的能效提升,同时比"当今云上可用的最快的基于Arm的通用实例"性能高出30%。有报告称,该CPU每个核心提供2 MB的私有L2缓存,80 MB的L3缓存,支持DDR5-5600 MT/s内存,并支持节点的统一内存访问。
在这里插入图片描述

运行谷歌Axion CPU和Ironwood TPU的服务器配备了该公司定制的Titanium品牌控制器,这些控制器从主机CPU上卸载了网络、安全和I/O存储处理任务,从而实现更好的管理并带来更高的性能。

总体而言,Axion CPU既可以服务于AI服务器,也可以服务于处理各种任务的通用服务器。目前,谷歌提供三种Axion配置:C4A、N4A和C4A Metal。

C4A是谷歌Axion实例系列中的首个也是主要产品,也是目前唯一正式可用的产品。它提供最多72个vCPU、576 GB DDR5内存和100 Gbps网络,搭配最高6 TB本地容量的Titanium SSD存储。该实例针对各种应用的持续高性能进行了优化。

接下来是N4A实例,同样面向通用工作负载,如数据处理、Web服务和开发环境,但它最多支持64个vCPU、512 GB DDR5内存和50 Gbps网络,使其成为更具性价比的选择。

另一个处于预览阶段的型号是C4A Metal,这是一种裸机配置,据推测可将完整的Axion硬件栈直接提供给客户:最多96个vCPU、768 GB DDR5内存和100 Gbps网络。该实例适用于专业化或许可受限的应用,或Arm原生开发。

完整的定制芯片组合

这些新产品的发布建立在谷歌长达十年的定制芯片开发基础之上,其发展始于最初的TPU,并延续至YouTube的VCU、Tensor移动处理器和Titanium基础设施。Axion CPU——谷歌首款基于Arm的通用服务器处理器——补全了该公司定制芯片的产品组合,而Ironwood TPU则为与市场上最优秀的AI加速器竞争奠定了基础。

更多推荐