三种目标检测数据集格式对比：PASCAL VOC 格式、 COCO 格式、YOLO 格式

【代码】三种目标检测数据集格式对比：PASCAL VOC 格式、 COCO 格式、YOLO 格式。

verse_armour

534人浏览 · 2025-08-20 10:22:17

verse_armour · 2025-08-20 10:22:17 发布

三种目标检测数据集格式对比

特性	PASCAL VOC 格式	COCO 格式	YOLO 格式
格式名称	PASCAL Visual Object Classes	Common Objects in Context	You Only Look Once
存储文件	`.xml` 文件	`.json` 文件	`.txt` 文件
文件组织	每张图片对应一个XML文件	通常一个数据集划分（如训练集）对应一个大的JSON文件	每张图片对应一个TXT文件（若无目标则为空文件）
BBox坐标含义	`[xmin, ymin, xmax, ymax]`	`[xmin, ymin, width, height]`	`[x_center_norm, y_center_norm, width_norm, height_norm]`
坐标中文解释	[左上角x, 左上角y, 右下角x, 右下角y]	[左上角x, 左上角y, 宽度, 高度]	[归一化的中心点x, 归一化的中心点y, 归一化的宽度, 归一化的高度]
坐标类型	像素坐标 (绝对值)	像素坐标 (绝对值)	归一化坐标 (相对于图像尺寸的比例，0到1之间)
优点	格式直观，XML结构清晰，包含丰富的元数据。	现代框架的事实标准，扩展性强，不仅支持bbox，还支持实例分割、关键点等复杂任务。	格式极其简单，文件小，磁盘IO效率高，可以直接被YOLO模型用于训练。
缺点/注意事项	XML文件解析相对较慢，文件冗余信息多。	整个数据集一个大文件，不方便单独查看某个样本；JSON结构嵌套较深。	标签文件中不包含类别名称、图片尺寸等元数据，需要额外文件和操作来还原信息。
典型应用	经典的计算机视觉竞赛和框架，如早期版本的Faster R-CNN。	目前最主流的格式，被DINOv3, MMDetection, Detectron2等绝大多数现代检测框架所使用。	YOLO系列模型（v3, v5, v8等）训练时的首选格式。

总结一下关键区别：

坐标定义：这是最核心的区别。VOC用右下角坐标定义大小，COCO用宽高定义大小，而YOLO用归一化的中心点和宽高。
坐标尺度：VOC和COCO使用绝对像素值，而YOLO使用相对比例值。
文件结构：VOC和YOLO是一个图片一个标签文件，而COCO是将所有图片的标注信息整合在一个大的JSON文件里。

COCO:

  "images": [
    {
      "id": 0,
      "file_name": "0001_41.bmp",
      "height": 512,
      "width": 512
    },
    
  "annotations": [
    {
      "id": 0,
      "image_id": 0,
      "category_id": 0,
      "bbox": [
        134.0,
        311.0,
        5.0,
        5.0
      ],
      "area": 25.0,
      "iscrowd": 0,
      "segmentation": []
    },

PASCAL VOC:

<annotation><folder>VOC</folder><filename>0001_41.bmp</filename><size><width>512</width><height>512</height><depth>3</depth></size><object><name>nodule</name><bndbox><xmin>134</xmin><ymin>311</ymin><xmax>139</xmax><ymax>316</ymax></bndbox></object></annotation>

YOLO：

0 0.3251953125 0.6572265625 0.021484375 0.025390625

九章云极普惠算力

更多推荐

Django Silk 未来发展方向：终极路线图与社区贡献机会

Django Silk 是一个强大的 Django 实时性能分析和检查工具，它通过拦截和存储 HTTP 请求和数据库查询，为用户提供直观的界面进行深度分析。作为 Django 生态系统中不可或缺的性能监控工具，Silk 正在朝着更加智能化和自动化的方向发展。🚀## 当前功能回顾与演进方向### 性能监控功能增强Django Silk 目前提供了完善的请求监控功能，包括请求时间、查询数量

九章云极普惠算力

Argos Translate错误排查手册：常见问题与解决方案大全

Argos Translate是一款优秀的开源离线翻译库，支持多种语言间的互译。但在实际使用过程中，用户可能会遇到各种问题。本文为您提供完整的Argos Translate错误排查指南，帮助您快速解决常见问题。🚀## 🔧 包管理与安装问题### 语言包下载失败解决方案当您遇到"Download failed"错误时，通常是由于网络连接问题或包索引不可用。以下是快速解决方案：1.

九章云极普惠算力

Intercooler.js进度指示器实现：打造流畅的用户体验终极指南

Intercooler.js 是一款革命性的JavaScript库，通过简单的HTML属性让AJAX请求变得像锚点标签一样简单。作为前端开发的重要工具，Intercooler.js的进度指示器功能能够显著提升用户体验，让用户清楚地了解请求状态。本文将详细介绍如何利用Intercooler.js的进度指示器打造流畅的用户交互体验。[![Intercooler.js技术演进对比](https://