常见GPU算力(A100,GA100)
注意到,完整 GA100 核心有 8 组 GPC,每组 GPC 包含 8 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA100 核心共有 128 个 SM 单元,但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计
·
一、硬件参数
| A100 40GB PCIe | A100 80GB PCIe | A100 40GB SXM | A100 80GB SXM | |
| 核心 | GA100 | GA100 | GA100 | GA100 |
| 架构 | Ampere | Ampere | Ampere | Ampere |
| SM | 108 | 108 | 108 | 108 |
| CUDA Cores / SM | 64 | 64 | 64 | 64 |
| CUDA Cores / GPU | 6912 | 6912 | 6912 | 6912 |
| FP32 Cores / SM | 64 | 64 | 64 | 64 |
| FP32 Cores / GPU | 6912 | 6912 | 6912 | 6912 |
| FP64 Cores / SM | 32 | 32 | 32 | 32 |
| FP64 Cores / GPU | 3456 | 3456 | 3456 | 3456 |
| INT32 Cores / SM | 64 | 64 | 64 | 64 |
| INT32 Cores / GPU | 6912 | 6912 | 6912 | 6912 |
| Tensor Core | 3rd | 3rd | 3rd | 3rd |
| Tensor Cores / SM | 4 | 4 | 4 | 4 |
| Tensor Cores / GPU | 432 | 432 | 432 | 432 |
| GPU 加速频率 (MHz) | 1410 | 1410 | 1410 | 1410 |
| 显存 | 40 GB HBM2 | 80 GB HBM2e | 40 GB HBM2 | 80 GB HBM2e |
| 显存位宽 (bit) | 5120 | 5120 | 5120 | 5120 |
| 显存带宽 (GBps) | 1555 | 1935 | 1555 | 2039 |
| 一缓 (KB per SM) | 192 | 192 | 192 | 192 |
| 二缓 (MB) | 40 | 40 | 40 | 40 |
| 接口 | PCIe 4.0x16 | PCIe 4.0x16 | SXM4 | SXM4 |
| TDP (W) | 250 | 300 | 400 | 400 |
| 制程 | TSMC N7 (7nm) | TSMC N7 (7nm) | TSMC N7 (7nm) | TSMC N7 (7nm) |


注意到,完整 GA100 核心有 8 组 GPC,每组 GPC 包含 8 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA100 核心共有 128 个 SM 单元,但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。
每个 SM 单元中有 4 个 Tensor Core,因此 GA100 总共含有 432 个 Tensor Core。支持的数据类型有FP16、BF16、TF32、FP32、FP64、INT8、INT4、Binary。
二、算力
1、CUDA Core 算力
浮点:TFLOPS
整型:TIOPS
| FP32 | 19.5 |
| FP16 | 78 |
| FP64 | 9.7 |
| BF16 | 39 |
| INT32 | 19.5 |
2、Tensor Core 算力
浮点:TFLOPS
整型:TIOPS
稠密/稀疏
| FP16 | 312 / 624 |
| BF16 | 312 / 624 |
| TF32 | 156 / 312 |
| FP32 | 19.5 |
| FP64 | 19.5 |
| INT8 | 624 / 1248 |
| INT4 | 1248 / 2496 |
| Binary | 4992 |
更多推荐

所有评论(0)