超越YOLO!DINOv3加持!DEIMv2:重新定义实时目标检测
值得注意的是,虽然 DEIMv2 在延迟(latency)上并没有显著优势,但其卓越的 FLOPs 性能展示了高效延迟的潜力。这些优化经验,来源于Transformer社区的最新成果,但在DEIMv2中得到了创新性的应用,使得训练效率更高,模型表现更强。(62M 参数,56.5 AP),DEIMv2-X不仅提高了1.3 AP,还大大减少了计算量。:进一步增强了多尺度检测的能力,让模型在不增加计算量
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—>【目标检测】投稿交流群
添加微信号:CVer2233,小助手拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用!发论文/搞科研/涨薪,强烈推荐!

实时目标检测是计算机视觉中的基石,尤其在边缘设备等算力受限的环境下尤为重要。最近,英特灵达人工智能实验室 (Intellindust AI Lab) 推出了DEIM的升级版本DEIMv2,这款升级版覆盖了Atto到X等8个模型,完美解决了实时检测中的“效率 vs 精度”问题。DEIMv2的S、M、L、X模型采用了最新的DINOv3特征,展现出卓越性能:S模型在COCO上以不到10M参数达到50.9AP,而X模型以50M参数达到57.8AP,均大幅领先于SOTA模型。
📎 arXiv: https://arxiv.org/abs/2509.20787
📎 GitHub: https://github.com/Intellindust-AI-Lab/DEIMv2
📎 项目主页: https://intellindust-ai-lab.github.io/projects/DEIMv2/
PS: 关于DEIM的Dense-O20,我们在公众号中也有详细介绍:[经典论文] DEIM:先进的实时DETR目标检测

1. 核心创新
1.1 DINOv3特征与轻量模型的无缝对接

DEIMv2大胆引入了最新的强大DINOv3,它在语义特征表达上可谓独领风骚。但DINOv3的输出是单尺度特征,直接应用到目标检测上并不合适。为此,DEIMv2的研究团队设计了一个简单轻量的解决方案——Spatial Tuning Adapter (STA):
-
• 双线性插值:将ViT不同层的1/16特征转化为多尺度表示,极大提升了细节的感知能力。
-
• 轻量CNN + Bi-Fusion:进一步增强了多尺度检测的能力,让模型在不增加计算量的情况下,检测效果更上一层楼。
这个简洁的设计,不仅提高了模型的表现力,而且在低资源环境下实现了超高效的检测。
1.2 全谱系模型设计,满足各种需求

DEIMv2的核心魅力之一是它的全谱系设计——从超轻量模型到高性能模型一应俱全,满足不同应用场景的需求:
-
• ViT 系列 (S, M, L, X):采用ViT-Tiny、ViT-Small等不同规模的变体,配合DINOv3预训练,保证了强大的高层语义理解能力。
-
• HGNet 系列 (Atto, Femto, Pico, Nano):针对超轻量需求,DEIMv2对HGNetv2-B0进行深度和宽度裁剪,为每个项目提供量身定制的模型。
这种从超轻到高性能的全谱系设计让DEIMv2不仅能满足小型IoT设备的需求,还能轻松应对需要高性能计算的大型系统。
1.3 高效训练与优化技巧
-
• Dense O2O + Copy-Blend:与传统的Copy-Paste方法不同,Copy-Blend在合成目标时能更好地保留上下文的一致性,极大地提升了训练时的监督信号。
-
• 高效解码器:采用RMSNorm、SwiGLUFFN以及共享位置编码,减少了冗余计算,提高了效率。
这些优化经验,来源于Transformer社区的最新成果,但在DEIMv2中得到了创新性的应用,使得训练效率更高,模型表现更强。
2. 性能亮点


在COCO数据集上,DEIMv2展示了无可挑剔的表现,刷新了多项记录:
-
• 旗舰性能:
-
-
• DEIMv2-X:57.8 AP / 50M 参数
相比上一代 DEIM-X(62M 参数,56.5 AP),DEIMv2-X不仅提高了1.3 AP,还大大减少了计算量。
-
-
• 轻量级突破:
-
-
• DEIMv2-S:50.9 AP / 9.7M 参数
成为史上首个小于10M参数就能突破50 AP的模型!同时,超越了DEIM-S(10M 参数,49 AP)以及YOLOv12-S(9.3M 参数,48.0 AP)。
-
-
• 超轻量级应用:
-
-
• DEIMv2-Pico:38.5 AP / 1.5M 参数
在超轻量级场景下,DEIMv2-Pico表现媲美YOLOv10-Nano(2.3M 参数,38.5 AP),但其参数量减少超过50%,让人惊叹。
-
通过这些成绩,我们看到,DEIMv2系列不仅在轻量级和超轻量级模型中表现出色,更在性能上大幅超越了竞争对手。
3. 总结与展望
DEIMv2 的结果突显了 Transformer 架构在实时目标检测中的重要性。过去,Transformer 主要作为骨干网络(backbone)使用,其特征表达能力相对有限;然而,DINOv3 的问世使得我们能够更加大胆地转向 Transformer 架构。值得注意的是,虽然 DEIMv2 在延迟(latency)上并没有显著优势,但其卓越的 FLOPs 性能展示了高效延迟的潜力。未来,随着硬件和生态系统的进一步优化,Transformer 架构的推理效率有望得到大幅提升。总之,DEIMv2 为非 YOLO 系列的实时目标检测开辟了更多可能性。
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
ICCV 2025 论文和代码下载
在CVer公众号后台回复:ICCV2025,即可下载ICCV 2025论文和代码开源的论文合CVPR 2025 论文和代码下载
在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集
目标检测交流群成立
扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-目标检测微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注:研究方向+地点+学校/公司+昵称(如目标检测+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作!
▲扫码加入星球学习
▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)人数破万!如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料,一定要扫描下方二维码,加入CVer知识星球!最强助力你的科研和工作!
▲扫码加入星球学习▲点击上方卡片,关注CVer公众号 整理不易,请点赞和在看
更多推荐


所有评论(0)