常见GPU算力（A100，GA100）

注意到，完整 GA100 核心有 8 组 GPC，每组 GPC 包含 8 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 GA100 核心共有 128 个 SM 单元，但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计

Dolphin期材

2940人浏览 · 2025-02-04 10:44:40

Dolphin期材 · 2025-02-04 10:44:40 发布

一、硬件参数

	A100 40GB PCIe	A100 80GB PCIe	A100 40GB SXM	A100 80GB SXM
核心	GA100	GA100	GA100	GA100
架构	Ampere	Ampere	Ampere	Ampere
SM	108	108	108	108
CUDA Cores / SM	64	64	64	64
CUDA Cores / GPU	6912	6912	6912	6912
FP32 Cores / SM	64	64	64	64
FP32 Cores / GPU	6912	6912	6912	6912
FP64 Cores / SM	32	32	32	32
FP64 Cores / GPU	3456	3456	3456	3456
INT32 Cores / SM	64	64	64	64
INT32 Cores / GPU	6912	6912	6912	6912
Tensor Core	3rd	3rd	3rd	3rd
Tensor Cores / SM	4	4	4	4
Tensor Cores / GPU	432	432	432	432
GPU 加速频率 (MHz)	1410	1410	1410	1410
显存	40 GB HBM2	80 GB HBM2e	40 GB HBM2	80 GB HBM2e
显存位宽 (bit)	5120	5120	5120	5120
显存带宽 (GBps)	1555	1935	1555	2039
一缓 (KB per SM)	192	192	192	192
二缓 (MB)	40	40	40	40
接口	PCIe 4.0x16	PCIe 4.0x16	SXM4	SXM4
TDP (W)	250	300	400	400
制程	TSMC N7 (7nm)	TSMC N7 (7nm)	TSMC N7 (7nm)	TSMC N7 (7nm)

每个 SM 单元中有 4 个 Tensor Core，因此 GA100 总共含有 432 个 Tensor Core。支持的数据类型有FP16、BF16、TF32、FP32、FP64、INT8、INT4、Binary。

二、算力

1、CUDA Core 算力

浮点：TFLOPS

整型：TIOPS

FP32	19.5
FP16	78
FP64	9.7
BF16	39
INT32	19.5

2、Tensor Core 算力

浮点：TFLOPS

整型：TIOPS

稠密/稀疏

FP16	312 / 624
BF16	312 / 624
TF32	156 / 312
FP32	19.5
FP64	19.5
INT8	624 / 1248
INT4	1248 / 2496
Binary	4992

九章云极普惠算力

更多推荐

Kandinsky-5.0-I2V-Lite-5s惊艳效果展示：赛博朋克街景→霓虹闪烁+雨滴滑落动态视频

本文介绍了如何在星图GPU平台上自动化部署Kandinsky-5.0-I2V-Lite-5s镜像，实现高效图生视频转换。该工具能将静态赛博朋克街景图片快速转换为动态视频，添加霓虹闪烁、雨滴滑落等效果，适用于短视频制作、广告创意等场景，显著提升内容创作效率。

九章云极普惠算力

看遍了市面上的coding plan，我发现还是这个好用

九章云极普惠算力

终极指南：如何用facenet-pytorch快速构建企业级人脸识别系统

在当今数字化时代，人脸识别技术已成为身份验证、安全监控和智能交互的核心驱动力。facenet-pytorch作为一款基于PyTorch的开源人脸识别工具包，凭借其高效的MTCNN人脸检测和InceptionResnetV1特征提取能力，为开发者提供了从零构建专业级人脸识别系统的完整解决方案。本文将带你一步步探索这个强大工具的使用方法，从环境搭建到实际应用，让你在短时间内掌握人脸识别的核心技术。