星图AI算力平台：PETRV2-BEV模型训练体验

本文介绍了如何在星图GPU平台上自动化部署训练PETRV2-BEV模型的镜像，实现自动驾驶领域的3D目标检测。该镜像能够将2D图像转换为鸟瞰图视角的3D感知结果，用于车辆、行人等物体的识别，提升环境感知能力。

李姝瑶

215人浏览 · 2026-02-15 00:33:39

李姝瑶 · 2026-02-15 00:33:39 发布

星图AI算力平台：PETRV2-BEV模型训练体验

1. 环境准备与快速开始

想要在自动驾驶领域快速上手3D目标检测？PETRV2-BEV模型是一个绝佳的起点。这个模型能够将摄像头拍摄的2D图像直接转换成鸟瞰图视角的3D感知结果，让计算机像人一样理解周围环境的空间关系。

使用星图AI算力平台，我们可以在几分钟内准备好所有环境。首先需要激活预配置的Conda环境：

conda activate paddle3d_env

这个环境已经包含了所有必要的深度学习库和依赖项，包括PaddlePaddle框架和相关的计算机视觉工具包。你可以通过一个简单命令验证环境是否正常：

python -c "import paddle; print('PaddlePaddle版本:', paddle.__version__)"

如果看到版本号输出，说明环境已经就绪，可以开始下一步操作了。

2. 数据与模型准备

2.1 下载预训练模型

为了节省训练时间，我们使用官方提供的预训练权重作为起点：

wget -O /root/workspace/model.pdparams https://paddle3d.bj.bcebos.com/models/petr/petrv2_vovnet_gridmask_p4_800x320/model.pdparams

这个模型已经在完整的NuScenes数据集上训练过，包含了优秀的特征提取能力和3D检测基础，非常适合作为我们进一步训练的起点。

2.2 获取训练数据

接下来下载NuScenes v1.0-mini数据集，这是一个轻量级的自动驾驶数据集，包含丰富的城市驾驶场景：

wget -O /root/workspace/v1.0-mini.tgz https://www.nuscenes.org/data/v1.0-mini.tgz
mkdir -p /root/workspace/nuscenes
tar -xf /root/workspace/v1.0-mini.tgz -C /root/workspace/nuscenes

解压后的数据集包含摄像头图像、激光雷达点云、雷达数据以及详细的标注信息，总计约4GB大小，足够我们进行模型训练和验证。

3. 模型训练全流程

3.1 数据预处理

在开始训练前，需要将原始数据转换成模型能够理解的格式：

cd /usr/local/Paddle3D
rm /root/workspace/nuscenes/petr_nuscenes_annotation_* -f
python3 tools/create_petr_nus_infos.py --dataset_root /root/workspace/nuscenes/ --save_dir /root/workspace/nuscenes/ --mode mini_val

这个过程会生成训练所需的标注文件，包括每个物体的3D边界框位置、尺寸、朝向等信息。

3.2 初始性能评估

我们先测试一下预训练模型在mini数据集上的表现：

python tools/evaluate.py \
    --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \
    --model /root/workspace/model.pdparams \
    --dataset_root /root/workspace/nuscenes/

评估结果会显示模型在各个类别上的检测精度：

mAP: 0.2669
NDS: 0.2878

Per-class results:
Object Class    AP
car     0.446
truck   0.381
bus     0.407
pedestrian      0.378
motorcycle      0.356

可以看到，车辆类别的检测效果较好，但行人和两轮车的检测还有提升空间。

3.3 开始模型训练

现在启动训练过程，设置100个训练轮次，每批处理2个样本：

python tools/train.py \
    --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \
    --model /root/workspace/model.pdparams \
    --dataset_root /root/workspace/nuscenes/ \
    --epochs 100 \
    --batch_size 2 \
    --log_interval 10 \
    --learning_rate 1e-4 \
    --save_interval 5 \
    --do_eval

训练过程中，模型会定期保存检查点并在验证集上评估性能，方便我们监控训练进度。

3.4 训练过程可视化

使用VisualDL工具可以实时查看训练曲线：

visualdl --logdir ./output/ --host 0.0.0.0

通过端口转发可以在本地浏览器中查看损失函数下降情况和精度变化趋势：

ssh -p 31264 -L 0.0.0.0:8888:localhost:8040 root@gpu-09rxs0pcu2.ssh.gpu.csdn.net

在浏览器中访问 http://localhost:8888 就能看到实时的训练监控界面。

4. 模型导出与应用

4.1 导出推理模型

训练完成后，将模型导出为部署格式：

rm -rf /root/workspace/nuscenes_release_model
mkdir -p /root/workspace/nuscenes_release_model
python tools/export.py \
    --config configs/petr/petrv2_vovnet_gridmask_p4_800x320_nuscene.yml \
    --model output/best_model/model.pdparams \
    --save_dir /root/workspace/nuscenes_release_model

导出的模型包含网络结构定义和训练好的权重参数，可以直接用于推理部署。

4.2 运行演示程序

最后，我们可以运行演示程序查看模型的实际效果：

python tools/demo.py /root/workspace/nuscenes/ /root/workspace/nuscenes_release_model nuscenes

这个演示会显示模型在测试图像上的检测结果，包括识别出的车辆、行人等物体的3D边界框，让你直观地看到模型的表现。

5. 进阶扩展：Xtreme1数据集训练

如果你想要挑战更复杂的环境，可以尝试在Xtreme1数据集上进行训练。这个数据集包含了各种极端天气和光照条件下的驾驶场景。

5.1 数据准备

cd /usr/local/Paddle3D
rm /root/workspace/xtreme1_nuscenes_data/petr_nuscenes_annotation_* -f
python3 tools/create_petr_nus_infos_from_xtreme1.py /root/workspace/xtreme1_nuscenes_data/

5.2 模型训练

使用相同的命令结构，只需更换数据集路径即可：

python tools/train.py \
    --config configs/petr/petrv2_vovnet_gridmask_p4_800x320.yml \
    --model /root/workspace/model.pdparams \
    --dataset_root /root/workspace/xtreme1_nuscenes_data/ \
    --epochs 100 \
    --batch_size 2 \
    --log_interval 10 \
    --learning_rate 1e-4 \
    --save_interval 5 \
    --do_eval

在极端条件下的训练会更具挑战性，但也能够让模型学到更强的泛化能力。

6. 训练体验总结

通过这次完整的PETRV2-BEV模型训练体验，我们可以得出几个关键体会：

环境搭建极其简便：星图AI算力平台提供了开箱即用的深度学习环境，省去了繁琐的环境配置过程。

训练流程清晰完整：从数据准备、模型训练到结果验证，整个流程都有详细的脚本和文档支持。

资源利用高效：平台提供了强大的GPU算力，使得即使是复杂的3D检测模型也能在合理时间内完成训练。

可视化工具完善：内置的训练监控和结果可视化工具让调试和优化过程更加直观。

实际应用价值高：训练好的模型可以直接用于自动驾驶感知系统，具有很高的实用价值。

对于想要入门3D目标检测的开发者来说，这个训练镜像提供了一个绝佳的学习和实践平台。你不仅可以了解最先进的BEV感知技术，还能亲手训练和优化模型，为未来的自动驾驶项目打下坚实基础。

获取更多AI镜像

想探索更多AI镜像和应用场景？访问 CSDN星图镜像广场，提供丰富的预置镜像，覆盖大模型推理、图像生成、视频生成、模型微调等多个领域，支持一键部署。

九章云极普惠算力

更多推荐

Big快速上手：如何用简单的Markdown语法创建专业演示文稿

想要快速制作专业演示文稿却不想学习复杂的软件？Big是专为创意工作者和忙碌开发者设计的极简演示系统，让你告别繁琐配置，专注于内容本身。本文将为你介绍Big的核心功能、快速入门方法以及如何用简单的HTML创建令人印象深刻的演示文稿。## 🚀 什么是Big演示文稿系统？Big是一个轻量级的演示文稿系统，整个系统仅约16KB大小，采用纯HTML+CSS+JavaScript技术栈。它专为创意工