20倍吞吐量突破：豆包大模型团队基于verl的技术优化实践

你是否还在为大模型RLHF训练时的低吞吐量发愁？面对动辄数百亿参数的模型，传统训练方案往往陷入"算力黑洞"——96张GPU仅能获得0.19的MFU（模型 FLOPS 利用率），单步训练耗时超28分钟。豆包大模型团队基于verl框架（Volcano Engine Reinforcement Learning for LLMs）实现20倍吞吐量提升的实践，为大模型高效训练提供了完整技术路径。本文将拆解

gitblog_00012

445人浏览 · 2025-09-10 22:12:34

gitblog_00012 · 2025-09-10 22:12:34 发布

20倍吞吐量突破：豆包大模型团队基于verl的技术优化实践

【免费下载链接】verl verl: Volcano Engine Reinforcement Learning for LLMs 项目地址: https://gitcode.com/GitHub_Trending/ve/verl

性能瓶颈诊断：从硬件到算法的全链路分析

在启动优化前，团队通过verl内置的性能分析工具建立了量化基准。使用nsight_profiling.md中描述的NVIDIA Nsight Systems集成方案，对DeepSeek 671B模型在96张H20 GPU上的训练过程进行全链路追踪。

基准测试显示，原始配置下存在三大瓶颈：

计算效率低下：平均MFU仅0.19，GPU资源利用率不足20%
内存瓶颈：单节点CPU内存占用高达1.6TB，导致频繁swap
通信开销：跨节点参数同步耗时占比达35%

verl性能分析架构

图1：verl性能分析系统架构，支持多角色（Actor/Ref/Reward）的精细化 profiling，数据来源verl_profiler_system.md

关键性能指标对比： | 模型 | GPU数量 | 平均响应长度 | 生成耗时(s) | 单步训练时间(s) | GPU内存占用(GB) | |------|---------|--------------|-------------|-----------------|-----------------| | DeepSeek 671B | 96 | 1960 | 1050 | 1700 | 66 | | Qwen3-235B | 32 | 1520 | 820 | 1240 | 78 |

表1：优化前基础模型性能数据，来源examples/grpo_trainer/run_deepseek671b_math_megatron_96gb.sh

三大核心优化策略

1. 张量级动态重分片技术

针对MoE模型特有的专家并行（EP）与张量并行（TP）冲突问题，团队实现了基于Megatron的训练/推理阶段动态重分片机制。通过megatron_extension.rst中定义的接口，在生成阶段（Rollout）与训练阶段自动切换最优分片策略：

生成阶段：采用8路专家并行+12路张量并行，最大化吞吐量
训练阶段：切换为4路管道并行+8路张量并行，优化梯度计算效率

核心实现位于one_step_off_policy/megatron_workers.py，通过MegatronWorker类的reshard_weights()方法实现权重动态重组。配置示例：

# Qwen3-235B推荐配置，来源[run_qwen3-235b_megatron_96gb.sh](https://link.gitcode.com/i/ead4e8d178d8eaa7ee2c5e058470d795)
export TP=4
export PP=8
export EP=4
export OFFLOAD_FRACTION=0.5

2. 混合并行优化与内存调度

基于verl的分层并行框架，团队设计了混合并行策略，结合模型并行（MP）、张量并行（TP）和专家并行（EP）的优势。通过device_tuning.rst中的硬件资源配置指南，针对不同模型规模制定最优并行方案：

中小模型（<7B）：采用FSDP+LoRA组合，如Qwen2.5-3B在1张H100上实现批量大小62的GRPO训练
大模型（30B-235B）：启用Megatron后端，配置examples/tuning/32b/qwen2_32B_grpo_8_h20_megatron_vllm.sh中的参数

内存优化方面，通过三级内存调度机制：

GPU内存：存储活跃层参数与中间结果
CPU内存：通过OFFLOAD_FRACTION=0.5卸载非活跃参数
NVMe存储：使用 verl 的 CheckpointManager 实现权重分页加载

3. 分布式训练框架优化

基于Ray的分布式训练框架，实施了两项关键优化：

序列化开销削减：采用Apache Arrow格式替代Python原生序列化，将跨节点数据传输耗时降低60%
动态批处理：根据序列长度自动调整批大小，实现examples/grpo_trainer/run_qwen2_5_7b_grpo_npu.sh中的序列平衡策略

通信优化通过split_placement/中的placement策略实现，将计算任务与通信任务解耦调度，在96节点集群上实现92%的通信效率提升。

优化效果与落地指南

关键性能指标提升

实施优化后，DeepSeek 671B模型在96张H20 GPU上的性能指标：

吞吐量提升：20倍（从0.5 step/min提升至10 step/min）
MFU提升：0.19→0.65，GPU利用率提升242%
内存效率：单GPU内存占用从66GB降至48GB，节省27%

快速部署指南

环境准备：使用预构建Docker镜像，内置优化依赖：

docker pull verlai/verl:app-verl0.4-vllm0.8.5-mcore0.13.0-preview
# 镜像构建文件：[Dockerfile.app.vllm.mcore0.13.preview](https://link.gitcode.com/i/9113471d21ccea2f932f90aee3dbb151)

配置优化：根据模型规模选择优化配置：
- 7B以下模型：examples/tuning/7b/qwen2-7b_grpo-lora_1_h100_fsdp_vllm.sh
- 30B+模型：examples/grpo_trainer/run_qwen3moe-30b_megatron_96gb.sh

性能监控：启用verl profiler实时监控：

# 配置示例，来源[nsight_profiling.md](https://link.gitcode.com/i/fa785dfb9b24f162095f3545076292ee)
global_profiler:
  steps: [1, 5, 10]
  discrete: True
  global_tool_config:
    nsys:
      worker_nsight_options:
        capture-range: "cudaProfilerApi"