小白也能懂的YOLO11：目标检测保姆级教程

本文介绍了如何在星图GPU平台上自动化部署YOLO11镜像，快速构建目标检测开发环境。用户无需配置依赖或安装驱动，即可通过Jupyter或SSH直接开展人车识别等典型任务，适用于智能安防、交通监控及移动端实时检测等场景，大幅降低AI落地门槛。

美丽回忆一瞬间

279人浏览 · 2026-01-29 02:07:20

美丽回忆一瞬间 · 2026-01-29 02:07:20 发布

小白也能懂的YOLO11：目标检测保姆级教程

你是不是也遇到过这样的问题：想用AI识别图中的人和车，但一看到“YOLO”“backbone”“SPPF”这些词就头皮发麻？下载代码、配环境、改配置、调参数……光是看文档就花了两小时，还没跑出第一张结果图？

别急。这篇教程就是为你写的——不讲原理推导，不堆术语，不假设你会Python或Linux，连conda都没装过也没关系。我们用一个现成的YOLO11镜像，从打开浏览器开始，到亲手训练出能识别人和车的模型，全程可视化操作，每一步都有截图、有命令、有解释，就像朋友手把手带你做。

你只需要会复制粘贴、会点鼠标、知道“图片里有几个人、几辆车”，就能完成整个流程。

1. 先搞清楚：YOLO11到底是什么，我能用它做什么？

YOLO11不是“第11代YOLO”，而是Ultralytics团队推出的最新稳定版目标检测框架（命名延续了YOLOv8/v10的语义习惯）。它不是纸上谈兵的论文模型，而是一个开箱即用、完整封装、带Jupyter和SSH双入口的开发环境。

简单说：它已经帮你装好了Python、PyTorch、OpenCV、Ultralytics库，甚至预置了训练脚本、数据工具、标注指南和示例数据——你不用再为“pip install失败”“CUDA版本不匹配”“找不到ultralytics模块”抓狂。

你能用它做什么？
识别照片/视频里的人、车、猫、狗、杯子、椅子……（只要你想标）
把手机拍的5张街景图，10分钟变成可训练的数据集
训练一个轻量小模型（YOLO11n），在普通笔记本上也能跑起来
看见预测框精准框住行人、准确标出车辆轮廓，还能导出带框的图片

它不追求“SOTA排行榜第一”，而是追求“你今天下午就能跑通，明天就能用在自己数据上”。

2. 零基础启动：3分钟进入YOLO11工作台

YOLO11镜像已为你准备好完整环境。你不需要本地装GPU驱动、不需编译源码、不需配置虚拟环境——只需一个浏览器。

2.1 通过Jupyter Lab直接开始编码（推荐新手）

这是最友好的方式：所有代码在网页里写、运行、看结果，像用Excel一样直观。

打开镜像后，首页会显示一个Jupyter Lab界面（就是你看到的第一个图）
左侧文件栏里，你会看到 ultralytics-8.3.9/ 这个文件夹——这就是YOLO11的核心工程目录
双击进入，里面已有全部训练脚本、配置文件、工具脚本和示例资源

小贴士：Jupyter里每个.ipynb文件都是“活文档”。你可以点单元格→按Ctrl+Enter运行代码，结果立刻显示在下方，出错了也会提示哪一行有问题，比黑窗口友好十倍。

2.2 用SSH连接执行命令（适合习惯终端的用户）

如果你更喜欢敲命令，镜像也提供了SSH服务（第二个图）：

使用任意SSH客户端（如Windows自带的PowerShell、Mac的Terminal、或免费的PuTTY）
连接地址：ssh -p [端口] user@your-server-ip
密码已在镜像启动页给出（通常为user或password，具体以实际镜像说明为准）

连上后，第一件事就是进项目目录：

cd ultralytics-8.3.9/

这行命令的意思是：“请带我到YOLO11的工作主目录”。之后所有操作都基于这个位置。

注意：不要跳过这步！YOLO11的路径是硬编码的，不在这个目录下运行，脚本会找不到配置、找不到数据、报一堆FileNotFoundError。

3. 你的第一个任务：只识别人和车（5张图起步）

我们不一上来就训COCO数据集（80类、上万张图）。我们从最简单的开始：只区分“人”和“车”两类，用你手机拍的5张街景图。

为什么选这个？因为：

类别少 → 标注快（1张图平均1分钟）
图片少 → 训练快（笔记本CPU上10分钟出结果）
场景熟 → 结果一眼能判断准不准（“框住了吗？框错了吗？”）

整个过程分四步：准备图 → 标出来 → 转格式 → 分训练验证集。全部用镜像里自带的工具，无需额外安装。

3.1 准备你的5张照片

拍5张含有人或车的日常照片（比如小区门口、路边停车、商场入口）
保存为JPG格式（不要PNG，避免通道问题）
上传到镜像的这个路径：
resources/images/det/json/
（Jupyter里右键文件夹→Upload，或用SSH的scp命令上传）

示例结构（你上传后应该看到）：

resources/
└── images/
    └── det/
        └── json/
            ├── img1.jpg
            ├── img2.jpg
            └── ...

3.2 用Labelme标出“人”和“车”

镜像已预装Labelme——目前最主流、最易上手的开源标注工具。

在SSH终端或Jupyter终端中，输入：
```
labelme
```
界面弹出后，点击左上角 Open Dir → 选择 resources/images/det/json/
逐张打开图片，用左侧“矩形框”工具，框住每个人、每辆车
框完后，在弹出的对话框里输入类别名：person 或 car（必须小写，必须拼对）
点击 Save，自动生成同名 .json 文件（如 img1.jpg → img1.json）

关键提醒：

不要输成 Person、CAR、people、automobile——YOLO11只认 person 和 car

一个图可以标多个框（比如3个人+2辆车，就画5个框）

标完一张，务必点 Save，否则关闭后丢失！

3.3 一键转成YOLO格式标签

YOLO11不读JSON，它要的是每张图对应一个.txt文件，每行一个目标，格式是：

类别序号 中心x(归一化) 中心y(归一化) 宽度(归一化) 高度(归一化)

别手动算！镜像里有现成脚本：

python tool/tool_json2label_det.py

运行后，会在同目录下生成 labels/ 文件夹，里面是 img1.txt、img2.txt……内容已自动计算好。

举个真实例子：
假设 img1.jpg 是640×480像素，你框了一个位于(100,150)、宽200高300的“person”，脚本会输出：
0 0.234 0.469 0.312 0.625
——全是小数，范围0~1，YOLO11就认这个。

3.4 自动划分训练集和验证集

机器学习不能“全拿去学”，得留一部分“考卷”检验效果。我们把5张图按8:2分（4张训练 + 1张验证）：

python tool/tool_det2datasets.py

运行后，自动生成标准YOLO目录结构：

resources/images/det/datasets/
├── images/
│   ├── train/
│   └── val/
└── labels/
    ├── train/
    └── val/

你的5张图和对应标签，已被随机打乱、正确分配、放入对应文件夹。

此时，数据准备全部完成。没有手动建文件夹，没有复制粘贴错路径，没有格式报错。

4. 开始训练：改3个地方，点一下就跑起来

YOLO11训练不需要你从头写模型。我们复用镜像预置的 train_det.py 脚本（第三个图），只改3处关键配置，就能启动训练。

4.1 确认数据配置文件

打开 resources/config/data/yolo11-det.yaml，检查以下三行：

path: ../ultralytics-yolo11/resources/images/det/datasets/images
train: train
val: val
names:
  0: person
  1: car

path 指向你刚生成的图片根目录
train/val 对应子文件夹名（默认就是train和val）
names 顺序和你标注时输入的完全一致（person=0，car=1）

如果路径不对，训练会报错“no images found”——这是新手最常卡住的地方，请务必核对。

4.2 选择合适模型大小

YOLO11提供多个尺寸模型：n（nano）、s（small）、m（medium）……越小越快，越大越准。
小白首选 n 版本：参数最少、显存占用最低、CPU上也能训。

打开 train_det.py，找到这行：

model = YOLO("resources/config/model/yolo11-det.yaml").load("weights/det/yolo11n.pt")

确保加载的是 yolo11n.pt（不是s或m）
yolo11n.pt 是官方预训练权重，已内置在镜像中，无需下载

4.3 启动训练（真正的一键）

回到Jupyter，新建一个终端（Terminal），输入：

cd ultralytics-8.3.9/
python train_det.py

或者直接在Jupyter里运行 train_det.py 的代码单元。

你会看到滚动的日志：

Epoch    GPU_mem    box_loss    cls_loss    dfl_loss  Instances       Size
   0/999      1.2G     1.2456      0.8765      1.0234        127        640
   1/999      1.2G     1.1987      0.8213      0.9876        132        640
...

box_loss（定位损失）和 cls_loss（分类损失）数字在稳步下降 → 模型正在学会
Instances 数字在变化 → 它正从图中检出目标
每10轮自动保存一次权重 → runs/detect/train/weights/last.pt、best.pt

⏱ 预估时间：

CPU模式（无GPU）：5张图，100轮约8–12分钟

GPU模式（如有）：1–2分钟

训练中途可关机，下次运行加 resume=True（脚本已默认开启）

5. 看见结果：用训练好的模型检测新图

训练结束，你会在 runs/detect/train/weights/ 下看到两个重要文件：

best.pt：验证集指标最好的模型（我们用它）
last.pt：最后一轮的模型（用于断点续训）

现在，用 predict_det.py 脚本，让模型“考试”：

5.1 修改预测脚本

打开 predict_det.py，确认这几行：

model = YOLO("runs/detect/train/weights/best.pt")  #  指向你刚训好的模型

results = model.predict(
    source='resources/images/det/datasets/images/val',  #  验证集图片路径
    imgsz=480,           #  输入尺寸（比训练小，更快）
    project='detect/predict',
    name='exp',
    save=True,           #  必须为True，才能保存带框图片
    conf=0.4,            #  置信度阈值：0.4以上才画框（太低会框很多噪点）
    iou=0.7,             #  框重叠阈值：合并相似框
    device='cpu'         #  CPU用户写'cpu'；GPU用户可写'cuda'
)