【深度学习】CUDA&cuDNN安装与使用

NVIDIA GPU 加速计算

浩水飞鸽(晴雨)

1861人浏览 · 2025-06-06 22:21:13

浩水飞鸽(晴雨) · 2025-06-06 22:21:13 发布

CUDA 和 cuDNN，它们是 NVIDIA GPU 加速计算，特别是深度学习的基石。

1. 介绍

CUDA (Compute Unified Device Architecture)

是什么？ 由 NVIDIA 开发的一个并行计算平台和编程模型。
核心作用： 允许开发者使用 C/C++、Fortran、Python（通过库）等语言，利用 NVIDIA GPU 的强大并行处理能力来加速计算密集型任务。它让开发者能够编写直接在 GPU 上执行的代码（称为核函数）。
关键组件：
- CUDA Toolkit： 包含编译器 (nvcc)、库（如 cuBLAS, cuFFT, cuRAND, Thrust 等）、调试和性能分析工具 (Nsight, nvprof)、头文件和运行时库。这是开发者需要安装的主要 SDK。
- CUDA Driver： 操作系统层与 GPU 硬件通信的软件组件。通常随 NVIDIA 显卡驱动一起安装。驱动版本需要 >= CUDA Toolkit 版本要求。
- CUDA Runtime API / Driver API： 提供给开发者调用 GPU 功能的编程接口。
应用领域： 科学计算、工程模拟、金融建模、图像/视频处理、深度学习（训练和推理）、计算机视觉、物理模拟等任何能从大规模并行处理中受益的领域。

cuDNN (CUDA Deep Neural Network Library)

是什么？ 一个由 NVIDIA 提供的针对深度神经网络原语进行高度优化的 GPU 加速库。
核心作用： 它是 CUDA 的补充库，专门为深度学习框架（如 TensorFlow, PyTorch, Caffe, MXNet 等）实现常见的神经网络层提供极致优化的实现。cuDNN 不是独立使用的，它被这些深度学习框架内部调用。
优化重点：
- 卷积 (Convolution) - 尤其是用于 CNN
- 池化 (Pooling)
- 激活函数 (Activation Functions - ReLU, Tanh, Sigmoid)
- 归一化 (Batch Normalization, Layer Normalization)
- 张量变换 (Tensor Transformations)
- RNN / LSTM / GRU 单元
为什么重要？ 使用 cuDNN 相比框架自己实现的 GPU 版本或 CPU 实现，能带来显著的性能提升（通常是数倍甚至数十倍），极大地加速了深度神经网络的训练和推理过程。
特性： 提供自动调优功能，根据具体的 GPU 硬件、输入大小和网络参数选择最优的底层算法实现。

总结关系：

CUDA 是基础平台和编程模型，提供了利用 GPU 进行通用并行计算的能力。
cuDNN 是建立在 CUDA 之上的一个专用库，利用 CUDA 的能力，为深度神经网络的核心操作提供极致优化的实现。
深度学习框架 (TensorFlow, PyTorch 等) 在底层调用 cuDNN 和 CUDA 库 (如 cuBLAS) 来实现其 GPU 加速功能。

2. 安装

安装需要按顺序进行，并特别注意版本兼容性！

满足硬件要求：
- 拥有一块 NVIDIA GPU。查看 CUDA GPU 支持列表。
- 确保你的 GPU 满足你要安装的 CUDA Toolkit 版本的最低计算能力 (Compute Capability) 要求。查看 CUDA 版本说明。
安装 NVIDIA 显卡驱动：
- 推荐方式： 直接从 NVIDIA 驱动程序下载页面下载并安装与你的操作系统和 GPU 匹配的最新生产分支 (Production Branch) 驱动。
- 关键点： 驱动版本必须大于或等于你计划安装的 CUDA Toolkit 版本所要求的最低驱动版本（在 CUDA Toolkit 的 Release Notes 中明确说明）。通常安装最新稳定版驱动是最简单兼容性最好的选择。
- 验证驱动安装：
  - Linux: nvidia-smi。这会显示驱动版本、GPU 信息、使用情况等。
  - Windows: 打开 NVIDIA 控制面板或在设备管理器中查看显卡属性。
安装 CUDA Toolkit：
- 访问下载页： 前往 CUDA Toolkit 下载页面。
- 选择平台： 选择你的操作系统 (Linux, Windows, macOS - 注意：macOS 上的 CUDA 支持有限且新版本可能不再支持，主要用于 Linux/Windows)。
- 选择架构/版本： 选择安装包类型（通常选 runfile [local] 或 deb [local] 或 exe [local]）。
- 选择版本： 非常重要！ 选择你需要的 CUDA Toolkit 版本。这通常取决于：
  - 你计划使用的深度学习框架版本的要求。
  - 你计划使用的 cuDNN 版本的要求（cuDNN 对 CUDA 版本有严格依赖）。
- 下载并安装：
  - Linux (runfile): 下载 .run 文件。chmod +x cuda_*.run 然后 sudo ./cuda_*.run。在安装选项中，通常建议取消勾选驱动安装（如果已安装新驱动），只安装 Toolkit 和 Samples。按照提示操作。
  - Linux (deb): 下载 .deb 文件。按照网站提供的安装命令执行（通常涉及 sudo dpkg -i cuda-repo-*.deb 和 sudo apt-get update，然后 sudo apt-get install cuda）。
  - Windows: 下载 .exe 文件并运行安装程序。选择“自定义（高级）”安装通常更可控。同样，如果已安装新驱动，可以取消勾选驱动组件。选择安装位置（记住它）。
- 配置环境变量 (Linux / macOS):
  - 将 CUDA 的 bin 和 lib64 路径添加到环境变量（通常在 ~/.bashrc 或 ~/.zshrc 中）：
```
export PATH=/usr/local/cuda-xx.x/bin${PATH:+:${PATH}} # 替换 xx.x 为你的版本号
export LD_LIBRARY_PATH=/usr/local/cuda-xx.x/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}} # 替换 xx.x
```
  然后执行 source ~/.bashrc (或 ~/.zshrc)。
- 配置环境变量 (Windows):
  - 系统属性 -> 高级 -> 环境变量 -> 系统变量：
    - 编辑 Path，添加 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vxx.x\bin 和 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vxx.x\libnvvp (替换 xx.x)。
    - 新建变量 CUDA_PATH = C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vxx.x (替换 xx.x)。
    - 新建变量 CUDA_PATH_Vxx_x = C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vxx.x (替换 xx.x)。
- 验证 CUDA 安装：
  - nvcc --version (检查编译器版本)
  - 编译并运行 CUDA Samples 中的例子（如 deviceQuery， bandwidthTest）。Samples 通常随 Toolkit 安装，或需要单独下载。
安装 cuDNN：
- 访问下载页： 前往 cuDNN 下载页面。需要注册 NVIDIA 开发者账号并加入开发者计划（免费）。
- 选择版本： 极其重要！ 选择与你已安装的 CUDA Toolkit 版本严格兼容 的 cuDNN 版本。下载页面会明确列出每个 cuDNN 版本支持的 CUDA 版本。不要选错！
- 选择平台： 选择你的操作系统。
- 下载： 通常提供压缩包格式（.tgz for Linux, .zip for Windows）。
- 安装 (本质是文件拷贝)：
  - Linux:
```
# 解压下载的文件 (替换文件名)
tar -xzvf cudnn-xx.x-linux-x64-v8.x.x.x.tgz
# 将文件复制到 CUDA Toolkit 目录 (替换路径中的版本号)
sudo cp cuda/include/cudnn*.h /usr/local/cuda-xx.x/include/
sudo cp cuda/lib64/libcudnn* /usr/local/cuda-xx.x/lib64/
# 设置文件权限
sudo chmod a+r /usr/local/cuda-xx.x/include/cudnn*.h /usr/local/cuda-xx.x/lib64/libcudnn*
# (可选但推荐) 创建符号链接指向最新版本 (如果解压出的文件夹名包含版本)
cd /usr/local/cuda-xx.x/lib64
sudo ln -sf libcudnn.so.8.x.x libcudnn.so.8 # 替换 8.x.x 为实际次要版本
sudo ln -sf libcudnn.so.8 libcudnn.so
sudo ldconfig # 更新动态链接器缓存
```
  - Windows:
    - 解压下载的 .zip 文件。
    - 将 bin 目录下的 cudnn64_8.dll (版本号可能不同) 复制到 CUDA_PATH\bin (通常是 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\vxx.x\bin)。
    - 将 include 目录下的 cudnn*.h 文件复制到 CUDA_PATH\include。
    - 将 lib 目录下的 cudnn*.lib 文件复制到 CUDA_PATH\lib\x64。
- 验证 cuDNN 安装：
  - 验证通常不是直接运行 cuDNN 程序，而是通过运行深度学习框架的测试代码或使用框架提供的验证工具（如 torch.backends.cudnn.is_available() 在 PyTorch 中）。
```
import torch
print(torch.version.cuda)
print(torch.cuda.is_available())
print(torch.backends.cudnn.is_available())
```
  - 可以编译运行 cuDNN Samples（需要单独下载，在 cuDNN 开发者页面找），但这相对复杂，不如用框架验证直接。

3. 使用

你通常不会直接编写大量的 CUDA 代码或直接调用 cuDNN API 来开发深度学习应用，除非你在进行底层优化或开发新的框架/算子。主要使用方式是通过深度学习框架。

通过深度学习框架使用：
- 安装框架： 安装支持 GPU 加速的深度学习框架（TensorFlow, PyTorch, Keras, MXNet, Caffe 等）。在安装时，框架通常会检测你系统上的 CUDA 和 cuDNN（如果路径设置正确）。
- 框架配置： 安装时通常使用 pip install tensorflow-gpu 或 pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu11x (替换 cu11x 为你的 CUDA 版本) 这样的命令，框架的 GPU 版本预编译包会绑定特定版本的 CUDA/cuDNN。确保框架要求的版本与你安装的一致。
- 验证框架 GPU 支持：
  - TensorFlow:
```
import tensorflow as tf
print("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU')))
print(tf.test.is_built_with_cuda()) # 是否支持 CUDA
print(tf.test.is_built_with_cudnn()) # (较新版本可能无此方法) 是否支持 cuDNN
# 运行一个简单的计算看是否在 GPU 上
with tf.device('/GPU:0'):
    a = tf.constant([1.0, 2.0, 3.0], shape=[3], name='a')
    b = tf.constant([4.0, 5.0, 6.0], shape=[3], name='b')
    c = tf.add(a, b)
print(c)
```
  - PyTorch:
```
import torch
print(torch.__version__)
print(torch.cuda.is_available()) # CUDA 是否可用
print(torch.backends.cudnn.is_available()) # cuDNN 是否可用
# 创建一个张量并移到 GPU 上
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
x = torch.rand(3, 3).to(device)
print(x)
```
- 编写代码： 正常使用框架的 API 编写模型定义、训练和推理代码。框架会在后台自动调用 CUDA 和 cuDNN 来加速计算。你只需要确保你的数据（Tensor）在 GPU 上（例如，在 PyTorch 中使用 .to(device)，在 TensorFlow 中默认在有 GPU 时会优先使用 GPU）。

直接使用 CUDA 编程：

如果你需要开发自定义的高性能 GPU 加速组件或进行底层研究，则需要学习 CUDA C/C++ 编程。
编写 .cu 文件（包含主机代码和设备核函数）。
使用 nvcc 编译器编译。
链接必要的 CUDA 库 (cudart, cublas, cufft 等)。
运行生成的可执行文件。

示例 (一个简单的向量加法核函数)：

// vecAdd.cu
__global__ void vecAdd(float *A, float *B, float *C, int n) {
    int i = blockIdx.x * blockDim.x + threadIdx.x;
    if (i < n) C[i] = A[i] + B[i];
}
int main() {
    int n = 1000000, size = n * sizeof(float);
    // 分配主机内存
    float *h_A = ..., *h_B = ..., *h_C = ...;
    // 初始化 h_A, h_B...
    // 分配设备内存
    float *d_A, *d_B, *d_C;
    cudaMalloc(&d_A, size); cudaMalloc(&d_B, size); cudaMalloc(&d_C, size);
    // 拷贝数据到设备
    cudaMemcpy(d_A, h_A, size, cudaMemcpyHostToDevice);
    cudaMemcpy(d_B, h_B, size, cudaMemcpyHostToDevice);
    // 启动核函数
    int threadsPerBlock = 256;
    int blocksPerGrid = (n + threadsPerBlock - 1) / threadsPerBlock;
    vecAdd<<>>(d_A, d_B, d_C, n);
    // 拷贝结果回主机
    cudaMemcpy(h_C, d_C, size, cudaMemcpyDeviceToHost);
    // 清理
    cudaFree(d_A); cudaFree(d_B); cudaFree(d_C);
    return 0;
}

编译：nvcc -o vecAdd vecAdd.cu

直接使用 cuDNN API：
- 这通常在开发或扩展深度学习框架时使用。
- 需要包含 cudnn.h 头文件。
- 链接 libcudnn.so (Linux) 或 cudnn.lib (Windows)。
- 使用 cuDNN 提供的函数（如 cudnnConvolutionForward, cudnnCreateTensorDescriptor, cudnnSetActivationDescriptor 等）来执行优化后的卷积、池化、激活等操作。使用相对复杂，需要管理描述符、工作空间等。

关键注意事项

版本兼容性！版本兼容性！版本兼容性！ 这是安装过程中最常见的问题根源。
- 驱动版本 >= CUDA Toolkit 要求的最低驱动版本。
- cuDNN 版本必须严格匹配所安装的 CUDA Toolkit 版本。 (例如，cuDNN v8.9.5 for CUDA 12.x 不能用于 CUDA 11.x)。
- 深度学习框架版本 通常绑定或要求特定范围的 CUDA/cuDNN 版本。务必查阅框架官方安装文档的要求。
环境变量： 确保 PATH 和 LD_LIBRARY_PATH (Linux) 或 Path (Windows) 正确设置，指向安装的 CUDA 的 bin 和 lib64 (或 lib\x64) 目录。cuDNN 文件必须复制到这些目录或框架能找到的路径。
路径冲突： 避免安装多个版本的 CUDA 导致路径混乱。可以使用环境变量或符号链接来管理不同的版本。
依赖项： 确保系统满足 CUDA Toolkit 的其他依赖项（如特定版本的 GCC、系统库等，查看 CUDA 安装指南）。
更新： 更新 CUDA/cuDNN 时，同样要严格遵循兼容性要求，并注意可能需要重新安装或重新编译依赖它们的软件（如深度学习框架）。
文档： 遇到问题，首先查阅官方文档：
- CUDA Toolkit Documentation
- cuDNN Developer Guide