超越YOLO！DINOv3加持！DEIMv2：重新定义实时目标检测

值得注意的是，虽然 DEIMv2 在延迟（latency）上并没有显著优势，但其卓越的 FLOPs 性能展示了高效延迟的潜力。这些优化经验，来源于Transformer社区的最新成果，但在DEIMv2中得到了创新性的应用，使得训练效率更高，模型表现更强。（62M 参数，56.5 AP），DEIMv2-X不仅提高了1.3 AP，还大大减少了计算量。：进一步增强了多尺度检测的能力，让模型在不增加计算量

Amusi（CVer）

1307人浏览 · 2025-09-29 23:59:31

Amusi（CVer） · 2025-09-29 23:59:31 发布

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【目标检测】投稿交流群

添加微信号：CVer2233，小助手拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用！发论文/搞科研/涨薪，强烈推荐！

实时目标检测是计算机视觉中的基石，尤其在边缘设备等算力受限的环境下尤为重要。最近，英特灵达人工智能实验室 (Intellindust AI Lab) 推出了DEIM的升级版本DEIMv2，这款升级版覆盖了Atto到X等8个模型，完美解决了实时检测中的“效率 vs 精度”问题。DEIMv2的S、M、L、X模型采用了最新的DINOv3特征，展现出卓越性能：S模型在COCO上以不到10M参数达到50.9AP，而X模型以50M参数达到57.8AP，均大幅领先于SOTA模型。

📎 arXiv: https://arxiv.org/abs/2509.20787
📎 GitHub: https://github.com/Intellindust-AI-Lab/DEIMv2
📎 项目主页: https://intellindust-ai-lab.github.io/projects/DEIMv2/

PS: 关于DEIM的Dense-O20，我们在公众号中也有详细介绍：[经典论文] DEIM：先进的实时DETR目标检测

1. 核心创新

1.1 DINOv3特征与轻量模型的无缝对接

DEIMv2大胆引入了最新的强大DINOv3，它在语义特征表达上可谓独领风骚。但DINOv3的输出是单尺度特征，直接应用到目标检测上并不合适。为此，DEIMv2的研究团队设计了一个简单轻量的解决方案——Spatial Tuning Adapter (STA)：

• 双线性插值：将ViT不同层的1/16特征转化为多尺度表示，极大提升了细节的感知能力。
• 轻量CNN + Bi-Fusion：进一步增强了多尺度检测的能力，让模型在不增加计算量的情况下，检测效果更上一层楼。

这个简洁的设计，不仅提高了模型的表现力，而且在低资源环境下实现了超高效的检测。

1.2 全谱系模型设计，满足各种需求

DEIMv2的核心魅力之一是它的全谱系设计——从超轻量模型到高性能模型一应俱全，满足不同应用场景的需求：

• ViT 系列 (S, M, L, X)：采用ViT-Tiny、ViT-Small等不同规模的变体，配合DINOv3预训练，保证了强大的高层语义理解能力。
• HGNet 系列 (Atto, Femto, Pico, Nano)：针对超轻量需求，DEIMv2对HGNetv2-B0进行深度和宽度裁剪，为每个项目提供量身定制的模型。

这种从超轻到高性能的全谱系设计让DEIMv2不仅能满足小型IoT设备的需求，还能轻松应对需要高性能计算的大型系统。

1.3 高效训练与优化技巧

• Dense O2O + Copy-Blend：与传统的Copy-Paste方法不同，Copy-Blend在合成目标时能更好地保留上下文的一致性，极大地提升了训练时的监督信号。
• 高效解码器：采用RMSNorm、SwiGLUFFN以及共享位置编码，减少了冗余计算，提高了效率。

这些优化经验，来源于Transformer社区的最新成果，但在DEIMv2中得到了创新性的应用，使得训练效率更高，模型表现更强。

2. 性能亮点

在COCO数据集上，DEIMv2展示了无可挑剔的表现，刷新了多项记录：

• 旗舰性能：
- • DEIMv2-X：57.8 AP / 50M 参数
  相比上一代 DEIM-X（62M 参数，56.5 AP），DEIMv2-X不仅提高了1.3 AP，还大大减少了计算量。
• 轻量级突破：
- • DEIMv2-S：50.9 AP / 9.7M 参数
  成为史上首个小于10M参数就能突破50 AP的模型！同时，超越了DEIM-S（10M 参数，49 AP）以及YOLOv12-S（9.3M 参数，48.0 AP）。
• 超轻量级应用：
- • DEIMv2-Pico：38.5 AP / 1.5M 参数
  在超轻量级场景下，DEIMv2-Pico表现媲美YOLOv10-Nano（2.3M 参数，38.5 AP），但其参数量减少超过50%，让人惊叹。

通过这些成绩，我们看到，DEIMv2系列不仅在轻量级和超轻量级模型中表现出色，更在性能上大幅超越了竞争对手。

3. 总结与展望

DEIMv2 的结果突显了 Transformer 架构在实时目标检测中的重要性。过去，Transformer 主要作为骨干网络（backbone）使用，其特征表达能力相对有限；然而，DINOv3 的问世使得我们能够更加大胆地转向 Transformer 架构。值得注意的是，虽然 DEIMv2 在延迟（latency）上并没有显著优势，但其卓越的 FLOPs 性能展示了高效延迟的潜力。未来，随着硬件和生态系统的进一步优化，Transformer 架构的推理效率有望得到大幅提升。总之，DEIMv2 为非 YOLO 系列的实时目标检测开辟了更多可能性。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！


ICCV 2025 论文和代码下载
在CVer公众号后台回复：ICCV2025，即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复：CVPR2025，即可下载CVPR 2025论文和代码开源的论文合集

目标检测交流群成立

扫描下方二维码，或者添加微信号：CVer2233，即可添加CVer小助手微信，便可申请加入CVer-目标检测微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer2233，进交流群
CVer计算机视觉（知识星球）人数破万！如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料，一定要扫描下方二维码，加入CVer知识星球！最强助力你的科研和工作！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

九章云极普惠算力

更多推荐

阿里云 Coding Plan Lite 下架，各家算力吃紧，上哪买还能支持GLM-5和5.1的coding plan？_2026-04-15

九章云极普惠算力

看遍了市面上的coding plan，我发现还是这个好用

九章云极普惠算力

Kandinsky-5.0-I2V-Lite-5s惊艳效果展示：赛博朋克街景→霓虹闪烁+雨滴滑落动态视频

本文介绍了如何在星图GPU平台上自动化部署Kandinsky-5.0-I2V-Lite-5s镜像，实现高效图生视频转换。该工具能将静态赛博朋克街景图片快速转换为动态视频，添加霓虹闪烁、雨滴滑落等效果，适用于短视频制作、广告创意等场景，显著提升内容创作效率。

九章云极普惠算力

所有评论(0)

查看更多评论

Amusi（CVer）

@amusi1994

已为社区贡献70条内容

超越YOLO！DINOv3加持！DEIMv2：重新定义实时目标检测

Amusi（CVer）

1. 核心创新

1.1 DINOv3特征与轻量模型的无缝对接

1.2 全谱系模型设计，满足各种需求

1.3 高效训练与优化技巧

2. 性能亮点

3. 总结与展望

所有评论(0)

温馨提示：您尚未绑定手机号

Amusi（CVer）