点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测】投稿交流群

添加微信号:CVer2233,小助手拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

图片

实时目标检测是计算机视觉中的基石,尤其在边缘设备等算力受限的环境下尤为重要。最近,英特灵达人工智能实验室 (Intellindust AI Lab) 推出了DEIM的升级版本DEIMv2,这款升级版覆盖了AttoX等8个模型,完美解决了实时检测中的“效率 vs 精度”问题。DEIMv2的S、M、L、X模型采用了最新的DINOv3特征,展现出卓越性能:S模型在COCO上以不到10M参数达到50.9AP,而X模型以50M参数达到57.8AP,均大幅领先于SOTA模型

📎 arXivhttps://arxiv.org/abs/2509.20787
📎 GitHubhttps://github.com/Intellindust-AI-Lab/DEIMv2
📎 项目主页https://intellindust-ai-lab.github.io/projects/DEIMv2/

PS: 关于DEIM的Dense-O20,我们在公众号中也有详细介绍:[经典论文] DEIM:先进的实时DETR目标检测

1. 核心创新

1.1 DINOv3特征与轻量模型的无缝对接

DEIMv2大胆引入了最新的强大DINOv3,它在语义特征表达上可谓独领风骚。但DINOv3的输出是单尺度特征,直接应用到目标检测上并不合适。为此,DEIMv2的研究团队设计了一个简单轻量的解决方案——Spatial Tuning Adapter (STA)

  • • 双线性插值:将ViT不同层的1/16特征转化为多尺度表示,极大提升了细节的感知能力。

  • • 轻量CNN + Bi-Fusion:进一步增强了多尺度检测的能力,让模型在不增加计算量的情况下,检测效果更上一层楼。

这个简洁的设计,不仅提高了模型的表现力,而且在低资源环境下实现了超高效的检测。

1.2 全谱系模型设计,满足各种需求

DEIMv2的核心魅力之一是它的全谱系设计——从超轻量模型到高性能模型一应俱全,满足不同应用场景的需求:

  • • ViT 系列 (S, M, L, X):采用ViT-Tiny、ViT-Small等不同规模的变体,配合DINOv3预训练,保证了强大的高层语义理解能力。

  • • HGNet 系列 (Atto, Femto, Pico, Nano):针对超轻量需求,DEIMv2对HGNetv2-B0进行深度和宽度裁剪,为每个项目提供量身定制的模型。

这种从超轻到高性能的全谱系设计让DEIMv2不仅能满足小型IoT设备的需求,还能轻松应对需要高性能计算的大型系统。

1.3 高效训练与优化技巧

  • • Dense O2O + Copy-Blend:与传统的Copy-Paste方法不同,Copy-Blend在合成目标时能更好地保留上下文的一致性,极大地提升了训练时的监督信号。

  • • 高效解码器:采用RMSNormSwiGLUFFN以及共享位置编码,减少了冗余计算,提高了效率。

这些优化经验,来源于Transformer社区的最新成果,但在DEIMv2中得到了创新性的应用,使得训练效率更高,模型表现更强。


2. 性能亮点

COCO数据集上,DEIMv2展示了无可挑剔的表现,刷新了多项记录:

  • • 旗舰性能

    • • DEIMv2-X57.8 AP / 50M 参数
      相比上一代 DEIM-X(62M 参数,56.5 AP),DEIMv2-X不仅提高了1.3 AP,还大大减少了计算量。

  • • 轻量级突破

    • • DEIMv2-S50.9 AP / 9.7M 参数
      成为史上首个小于10M参数就能突破50 AP的模型!同时,超越了DEIM-S(10M 参数,49 AP)以及YOLOv12-S(9.3M 参数,48.0 AP)

  • • 超轻量级应用

    • • DEIMv2-Pico38.5 AP / 1.5M 参数
      在超轻量级场景下,DEIMv2-Pico表现媲美YOLOv10-Nano(2.3M 参数,38.5 AP),但其参数量减少超过50%,让人惊叹。

通过这些成绩,我们看到,DEIMv2系列不仅在轻量级和超轻量级模型中表现出色,更在性能上大幅超越了竞争对手。


3. 总结与展望

DEIMv2 的结果突显了 Transformer 架构在实时目标检测中的重要性。过去,Transformer 主要作为骨干网络(backbone)使用,其特征表达能力相对有限;然而,DINOv3 的问世使得我们能够更加大胆地转向 Transformer 架构。值得注意的是,虽然 DEIMv2 在延迟(latency)上并没有显著优势,但其卓越的 FLOPs 性能展示了高效延迟的潜力。未来,随着硬件和生态系统的进一步优化,Transformer 架构的推理效率有望得到大幅提升。总之,DEIMv2 为非 YOLO 系列的实时目标检测开辟了更多可能性。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ICCV 2025 论文和代码下载

在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

目标检测交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作!

▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

更多推荐