一、硬件参数

A100 40GB PCIe A100 80GB PCIe A100 40GB SXM A100 80GB SXM
核心 GA100 GA100 GA100 GA100
架构 Ampere Ampere Ampere Ampere
SM 108 108 108 108
CUDA Cores / SM 64 64 64 64
CUDA Cores / GPU 6912 6912 6912 6912
FP32 Cores / SM 64 64 64 64
FP32 Cores / GPU 6912 6912 6912 6912
FP64 Cores / SM 32 32 32 32
FP64 Cores / GPU 3456 3456 3456 3456
INT32 Cores / SM 64 64 64 64
INT32 Cores / GPU 6912 6912 6912 6912
Tensor Core 3rd 3rd 3rd 3rd
Tensor Cores / SM 4 4 4 4
Tensor Cores / GPU 432 432 432 432
GPU 加速频率 (MHz) 1410 1410 1410 1410
显存 40 GB HBM2 80 GB HBM2e 40 GB HBM2 80 GB HBM2e
显存位宽 (bit) 5120 5120 5120 5120
显存带宽 (GBps) 1555 1935 1555 2039
一缓 (KB per SM) 192 192 192 192
二缓 (MB) 40 40 40 40
接口 PCIe 4.0x16 PCIe 4.0x16 SXM4 SXM4
TDP (W) 250 300 400 400
制程 TSMC N7 (7nm) TSMC N7 (7nm) TSMC N7 (7nm) TSMC N7 (7nm)

        注意到,完整 GA100 核心有 8 组 GPC,每组 GPC 包含 8 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA100 核心共有 128 个 SM 单元,但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。

        每个 SM 单元中有 4 个 Tensor Core,因此 GA100 总共含有 432 个 Tensor Core。支持的数据类型有FP16、BF16、TF32、FP32、FP64、INT8、INT4、Binary。

二、算力

1、CUDA Core 算力

浮点:TFLOPS

整型:TIOPS

FP32 19.5
FP16 78
FP64 9.7
BF16 39
INT32 19.5

2、Tensor Core 算力

浮点:TFLOPS

整型:TIOPS

稠密/稀疏

FP16 312 / 624
BF16 312 / 624
TF32 156 / 312
FP32 19.5
FP64 19.5
INT8 624 / 1248
INT4 1248 / 2496
Binary 4992

更多推荐