算力霸权之争白热化！谷歌自研Axion CPU与Ironwood TPU亮剑，碾压英伟达GB300

谷歌自研 Axion CPU 和第七代 Ironwood TPU，体现了大模型时代算力体系从“堆 GPU”走向“通用 CPU + 专用加速器 + 高速互联”的融合架构趋势。

昊源诺信

721人浏览 · 2025-11-07 15:58:41

昊源诺信 · 2025-11-07 15:58:41 发布

近日，谷歌云推出了由自研Axion CPU和Ironwood TPU驱动的新型AI实例。这些新实例旨在服务于大规模AI模型的训练及低延迟推理，其关键特性在于能够通过基于Ironwood的大型系统实现极高的扩展规模，从而高效地扩展AI模型。
在这里插入图片描述

用于训练和推理的数百万Ironwood TPU

Ironwood是谷歌的第七代张量处理单元（TPU），可提供4,614 FP8 TFLOPS的性能，并配备了192 GB的HBM3E内存，提供高达7.37 TB/s的带宽。Ironwood计算单元可扩展至9,216个AI加速器，为训练和推理提供总计42.5 FP8 ExaFLOPS的算力，这远远超过了英伟达GB300 NVL72系统0.36 ExaFLOPS的FP8算力。该计算单元通过专有的9.6 Tb/s芯片互连网络进行连接，总计搭载约1.77 PB的HBM3E内存，再次超越了英伟达竞争平台所能提供的水平。
在这里插入图片描述
基于Axion CPU和Ironwood TPU的Ironwood计算单元可以集群形式连接，运行数十万个TPU，这构成了谷歌恰如其名的"AI超级计算机"的一部分。这是一个集成的超级计算平台，将计算、存储和网络统一在一个管理层下。为了提升超大规模计算单元和AI超级计算机的可靠性，谷歌采用了其可重构光纤背板技术——光学电路交换，该技术能够即时绕开任何硬件中断，以维持持续运行。

IDC数据显示，AI超级计算机模型能为企业客户带来平均353%的三年投资回报率，IT支出降低28%，以及运营效率提升55%。

已有数家公司开始采用谷歌基于Ironwood的平台。Anthropic计划使用多达一百万个TPU来运营和扩展其Claude模型系列，并称其在成本效益方面取得了重大提升。Lightricks也已开始部署Ironwood来训练和服务其LTX-2多模态系统。

Axion CPU：谷歌终部署自研处理器

尽管在AI计算时代，像谷歌Ironwood这样的AI加速器往往吸引了所有目光，但CPU对于应用逻辑、服务托管以及运行部分AI工作负载（如数据摄取）仍然至关重要。因此，除了第七代TPU，谷歌也同步部署了其首批基于Armv9架构的通用处理器——Axion。
在这里插入图片描述
谷歌尚未公布其Axion CPU的全部芯片规格：除了C4A Metal实例最多支持96个vCPU和最多768 GB DDR5内存外，没有确认每个芯片的核心数，也未公开披露其时钟频率和制程工艺节点。我们所知的是，Axion基于Arm Neoverse v2平台构建，旨在相比现代x86 CPU提供高达50%的性能提升和高达60%的能效提升，同时比"当今云上可用的最快的基于Arm的通用实例"性能高出30%。有报告称，该CPU每个核心提供2 MB的私有L2缓存，80 MB的L3缓存，支持DDR5-5600 MT/s内存，并支持节点的统一内存访问。
在这里插入图片描述

运行谷歌Axion CPU和Ironwood TPU的服务器配备了该公司定制的Titanium品牌控制器，这些控制器从主机CPU上卸载了网络、安全和I/O存储处理任务，从而实现更好的管理并带来更高的性能。

总体而言，Axion CPU既可以服务于AI服务器，也可以服务于处理各种任务的通用服务器。目前，谷歌提供三种Axion配置：C4A、N4A和C4A Metal。

C4A是谷歌Axion实例系列中的首个也是主要产品，也是目前唯一正式可用的产品。它提供最多72个vCPU、576 GB DDR5内存和100 Gbps网络，搭配最高6 TB本地容量的Titanium SSD存储。该实例针对各种应用的持续高性能进行了优化。

接下来是N4A实例，同样面向通用工作负载，如数据处理、Web服务和开发环境，但它最多支持64个vCPU、512 GB DDR5内存和50 Gbps网络，使其成为更具性价比的选择。

另一个处于预览阶段的型号是C4A Metal，这是一种裸机配置，据推测可将完整的Axion硬件栈直接提供给客户：最多96个vCPU、768 GB DDR5内存和100 Gbps网络。该实例适用于专业化或许可受限的应用，或Arm原生开发。

完整的定制芯片组合

这些新产品的发布建立在谷歌长达十年的定制芯片开发基础之上，其发展始于最初的TPU，并延续至YouTube的VCU、Tensor移动处理器和Titanium基础设施。Axion CPU——谷歌首款基于Arm的通用服务器处理器——补全了该公司定制芯片的产品组合，而Ironwood TPU则为与市场上最优秀的AI加速器竞争奠定了基础。