大模型部署与训练：如何选择显卡？

选择合适的显卡部署大模型是一个需要综合考量的决策。核心原则是：明确需求场景，理解硬件特性，计算真实成本。不要被单一参数（如显存大小或理论算力）误导，也不要忽视功耗、稳定性、扩展性等"软性"因素。A10适合推理但不适合训练，A100的40GB和80GB版本差异主要在带宽和容量而非算力，消费级显卡虽然性价比高但有功耗和稳定性隐患——理解这些细节，才能做出真正符合需求的选择。希望本文能帮助你在大模型部署

Mark White

847人浏览 · 2026-02-03 20:08:40

Mark White · 2026-02-03 20:08:40 发布

大模型部署与训练：如何选择显卡？

引言

随着大语言模型（LLM）和各类深度学习模型的快速发展，越来越多的企业和开发者需要自行部署和微调模型。然而，显卡选型往往是一个复杂的决策过程——不仅要考虑显存容量，还要理解计算精度、带宽、功耗等多个维度的差异。本文将系统性地介绍显存需求的估算方法，并深入分析不同显卡的特性差异，帮助你做出最适合自己需求的选择。

第一部分：显存需求估算

1.1 模型推理部署的显存组成

当我们部署一个大模型进行推理时，显存主要被以下几部分占用：

模型参数本身是显存占用的主体。计算公式很简单：参数量 × 参数精度。以一个7B参数的模型为例，如果采用FP16（2字节）存储，则需要 7×10⁹ × 2 = 14GB 显存。如果采用INT8量化（1字节），则降至7GB；INT4量化（0.5字节）则只需3.5GB。

激活值是推理过程中每层神经元计算产生的中间结果。其显存占用与批量大小（batch size）、序列长度、模型架构（层数和隐藏层维度）正相关。根据实践经验，对于典型配置（batch=1，序列长度2048），激活值显存大约占模型参数显存的10%左右。

KV缓存是大语言模型推理的关键优化。为了避免每个时间步重新计算所有历史token的注意力，系统会缓存每层Transformer的Key和Value矩阵。引入KV缓存后，计算复杂度从O(n²)降至O(n)，显著提升推理速度。KV缓存的显存占用与并发数、序列长度、模型层数和隐藏层维度成正比，在典型配置下也约占模型参数显存的10%。

其他开销包括输入数据、CUDA核心、深度学习框架本身的内存占用，通常为1-2GB。

综合以上因素，一个7B模型在FP16精度下的推理显存需求约为：14GB + 1.4GB + 1.4GB + 2GB ≈ 18.8GB。这意味着一张24GB的显卡可以较为舒适地部署7B模型，而13B模型则需要更大显存或采用量化技术。
你可以参考这个网站，简要计算得到自己需要的显存
https://help.aliyun.com/zh/pai/getting-started/estimation-of-the-required-video-memory-for-the-model

1.2 模型微调训练的显存组成

训练场景的显存需求远高于推理，因为需要额外存储梯度和优化器状态。

梯度参数在反向传播过程中产生，其数量与待训练参数相同。对于全参数微调，一个7B模型的梯度（FP16存储）需要额外14GB显存。而采用LoRA等参数高效微调方法时，由于只训练约0.1%-1%的参数，梯度显存可降至0.14GB左右。

优化器状态是训练显存的另一大消耗。不同优化器的状态存储需求差异显著。SGD优化器不需要额外状态；SGD with Momentum需要为每个参数存储一个动量值；而大模型训练常用的Adam/AdamW优化器需要存储一阶矩（动量）和二阶矩两个状态值。由于优化器状态通常采用FP32（4字节）存储以保证数值稳定性，一个7B模型的Adam优化器状态需要 7×10⁹ × 2 × 4 = 56GB 显存。

训练时的激活值与推理类似，但需要保留完整的前向传播中间结果用于反向传播计算梯度，因此实际占用会更高。可以通过梯度检查点（Gradient Checkpointing）技术以计算换显存。

下表汇总了7B模型不同微调方式的典型显存需求：

微调方式	模型参数	梯度	Adam优化器状态	激活值	其他	总计
全参数微调	14GB	14GB	56GB	1.4GB	2GB	87.4GB
LoRA微调	14GB	0.14GB	0.56GB	1.4GB	2GB	18.1GB
QLoRA (8-bit)	7GB	0.14GB	0.56GB	1.4GB	2GB	11.1GB
QLoRA (4-bit)	3.5GB	0.14GB	0.56GB	1.4GB	2GB	7.6GB

1.3 MoE模型的特殊考量

混合专家模型（MoE）如DeepSeek-R1-671B有其特殊性：虽然模型总参数为671B，但推理时只激活37B参数。因此，加载模型需要按671B计算显存，但激活值和KV缓存则按37B计算。这种架构在保持模型能力的同时显著降低了推理计算成本。

第二部分：理解显卡的关键参数

2.1 计算精度与训练能力

这是选型时最容易被忽视但至关重要的参数。NVIDIA显卡支持多种计算精度，但不同型号的支持程度差异很大。

**FP32（单精度浮点）**是传统深度学习训练的标准精度。它提供足够的数值动态范围，确保梯度计算和参数更新的稳定性。几乎所有需要从头训练的场景，包括YOLO目标检测、图像分割等计算机视觉任务，都依赖FP32能力。

FP16/BF16 半精度浮点是大模型训练的主流选择。通过混合精度训练（Mixed Precision Training），模型参数和梯度以FP16存储和计算，而优化器状态保持FP32精度，既节省显存又保证精度。BF16相比FP16具有更大的动态范围，在大模型训练中更为稳定。

TF32 TensorFloat-32是NVIDIA Ampere架构引入的格式，在Tensor Core上自动将FP32操作加速，对用户透明。

**INT8/INT4（整数量化）**主要用于推理部署，通过量化大幅减少显存占用和提升吞吐量。

2.2 为什么A10不适合训练？

NVIDIA A10是一款定位于推理和图形渲染的显卡。虽然它拥有24GB显存和不错的INT8/FP16性能，但其FP32算力相对有限，且缺乏对训练场景的优化。

更关键的问题在于，A10的Tensor Core主要为推理优化，在需要大量FP32计算的训练场景下效率不高。当你使用PyTorch进行YOLO训练或其他需要FP32的任务时，A10的表现会明显弱于同级别的训练卡。此外，A10不支持NVLink，无法实现多卡高速互联，这在分布式训练中是致命的限制。

简而言之，A10是一张优秀的推理卡，但如果你的需求包含模型训练（无论是从头训练还是全参数微调），A10都不是合适的选择。

2.3 A100 40GB vs 80GB：只是显存的差异

A100有40GB和80GB两个版本，它们的CUDA核心数和理论算力完全相同（FP32 19.5 TFLOPS，TF32 156 TFLOPS）。那么80GB版本贵出的价格买的是什么？

显存带宽是最关键的差异。A100 40GB的显存带宽为1555 GB/s，而80GB版本采用HBM2e显存，带宽达到2039 GB/s，提升约31%。对于大模型推理和训练这类显存带宽敏感的任务，更高的带宽意味着更高的实际吞吐量。

显存容量的影响显而易见：80GB可以部署更大的模型，或在相同模型下支持更大的batch size和更长的序列长度。对于70B级别的模型，40GB版本可能需要4-8卡才能部署，而80GB版本可能只需2-4卡。

NVLink带宽也有差异。80GB版本支持第三代NVLink，多卡互联带宽更高，在分布式训练中优势明显。

因此，选择40GB还是80GB版本，取决于你的具体需求：如果主要部署7B-13B级别模型且预算有限，40GB版本足够；如果需要部署更大模型或对吞吐量有更高要求，80GB版本的投资是值得的。

2.4 H100与A100的代际差异

H100是NVIDIA Hopper架构的旗舰产品，相比A100有显著提升。其FP16 Tensor Core性能达到1979 TFLOPS（稀疏），是A100的约3倍；显存带宽达到3.35 TB/s（HBM3），比A100 80GB高出约64%。H100还引入了Transformer Engine，专门优化大模型训练中的精度转换。

但H100的价格也是A100的数倍。对于预算敏感的场景，A100仍然是性价比较高的选择。

第三部分：消费级显卡的诱惑与陷阱

3.1 RTX 3090/4090的性价比分析

从纸面参数看，RTX 4090拥有24GB显存和82 TFLOPS的FP32算力，而单卡价格仅为A100的几分之一，看起来极具吸引力。RTX 3090同样有24GB显存，二手市场价格更是低廉。

性价比优势确实存在。对于个人开发者或小型团队，用于模型推理、LoRA微调、学术研究等场景，消费级显卡是务实的选择。其FP32和FP16算力对于中小规模训练任务足够应对。

3.2 功耗：被忽视的隐性成本

然而，消费级显卡有一个经常被忽视的问题：功耗密度极高。

RTX 4090的TDP（热设计功耗）为450W，RTX 3090为350W。相比之下，A100 SXM版本为400W，A100 PCIe版本为300W。看起来差距不大，但问题在于部署规模。

当你需要部署多台服务器时，高功耗带来的问题会迅速放大。首先是供电需求：一台装有8张RTX 4090的服务器峰值功耗可能超过4000W，普通机房的单机柜供电能力（通常3-6kW）可能无法满足，需要特殊的供电改造。其次是散热压力：高功耗意味着高发热，需要更强的空调制冷能力，这会显著增加运营成本。

此外，消费级显卡不支持ECC显存（Error-Correcting Code），在长时间高负载运行时可能出现显存位翻转导致的计算错误。对于生产环境，这是潜在的稳定性风险。

尽管4090支持，但是因为开启ECC会占用显存，5090又不支持了。

3.3 多卡互联的局限性

消费级显卡不支持NVLink，多卡通信只能依赖PCIe总线。PCIe 4.0 x16的理论带宽为32 GB/s（双向），而NVLink 4.0的带宽可达900 GB/s。在分布式训练中，卡间通信效率直接影响训练效率，消费级显卡在这方面有明显短板。

第四部分：场景化选型建议

4.1 纯推理部署场景

如果只需要部署模型提供推理服务，选型思路相对简单：

中小模型（7B-13B）推理：A10（24GB）配合INT8/INT4量化是高性价比选择，单卡可部署7B模型，支持较高并发。如果预算更紧，RTX 4090也是可行方案。

大模型（30B-70B）推理：需要多卡部署。A100 40GB/80GB或H100是专业选择，支持高效的多卡并行。对于70B模型FP16部署，通常需要4张A100 80GB或2张H100 80GB。

超大模型（100B+）推理：考虑使用云服务或专门的推理加速硬件，自建成本过高。

4.2 模型微调场景

微调场景需要同时考虑显存容量和训练能力：

LoRA/QLoRA微调：由于只训练少量参数，显存需求与推理接近。A10可以胜任7B模型的LoRA微调，RTX 4090同样适用。但要注意，如果需要训练的数据量大或迭代周期长，消费级显卡的稳定性可能成为问题。

全参数微调：需要专业训练卡。7B模型全参数微调需要约87GB显存（使用Adam优化器），至少需要2张A100 80GB或4张A100 40GB。13B模型则需要更多资源。

4.3 从头训练场景

从头训练对硬件要求最高：

YOLO等CV模型训练：需要强大的FP32算力。A100、V100是可靠选择，RTX 3090/4090在中小规模训练中也能胜任，但注意散热和稳定性。A10由于FP32能力受限，不建议用于从头训练。

大模型预训练：需要大规模集群，通常使用A100/H100组成的超算集群，配合高速网络互联。这不是一般企业能够承担的投资，建议使用云服务。

4.4 选型决策树

你的主要需求是什么？
│
├─ 纯推理部署
│   ├─ 模型 ≤ 13B → A10 / RTX 4090（单卡量化部署）
│   ├─ 模型 30B-70B → A100 40GB×2-4 或 A100 80GB×2
│   └─ 模型 > 100B → H100集群 或 云服务
│
├─ LoRA/QLoRA微调
│   ├─ 模型 ≤ 13B → A10 / RTX 4090
│   └─ 模型 > 13B → A100 40GB/80GB
│
├─ 全参数微调
│   ├─ 模型 ≤ 7B → A100 80GB×2 或 A100 40GB×4
│   └─ 模型 > 7B → A100/H100 集群
│
└─ 从头训练
    ├─ CV模型（YOLO等）→ A100 / V100 / RTX 3090（注意散热）
    └─ 大模型预训练 → H100集群 / 云服务