稀疏半监督DETR：用于半监督目标检测的稀疏可学习查询

因此，查询优化模块不仅提高了查询的质量，还减少了查询的数量，实现了高效处理。此外，它还引入了一个可靠伪标签过滤模块，用于选择性地过滤掉低质量伪标签，从而利用剩余的高质量标签提高整体检测精度和一致性。它引入了一个查询优化模块，用于处理查询特征，以增强复杂检测场景（例如识别小型或部分被遮挡的物体）下的语义表示。集成了一个查询优化模块，以提升目标查询的质量，显著增强了对小型和部分被遮挡物体的检测能力。此

计算机视觉研究院

1184人浏览 · 2025-09-17 09:33:19

计算机视觉研究院 · 2025-09-17 09:33:19 发布

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

https://openaccess.thecvf.com/content/CVPR2024/papers/Shehzadi_Sparse_Semi-DETR_Sparse_Learnable_Queries_for_Semi-Supervised_Object_Detection_CVPR_2024_paper.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

在本文中，我们针对基于DETR（Detection Transformer，检测Transformer）的半监督目标检测（SSOD）框架的局限性展开研究，尤其聚焦于目标查询质量所带来的挑战。

PART/1

概述

在基于DETR的半监督目标检测中，一对一分配策略会产生不准确的伪标签，而一对多分配策略则会导致预测结果重叠。这些问题会降低训练效率，并且使模型性能下降，在检测小型或被遮挡物体时尤为明显。我们提出了Sparse Semi-DETR，这是一种新颖的基于Transformer的端到端半监督目标检测解决方案，旨在克服这些挑战。Sparse Semi-DETR集成了一个查询优化模块，以提升目标查询的质量，显著增强了对小型和部分被遮挡物体的检测能力。此外，我们还整合了一个可靠伪标签过滤模块，该模块可选择性地过滤高质量伪标签，从而提高检测的准确性和一致性。在MS-COCO和Pascal VOC目标检测基准测试中，Sparse Semi-DETR相较于当前最先进的方法取得了显著提升，这凸显了Sparse Semi-DETR在半监督目标检测方面的有效性，尤其是在涉及小型或部分被遮挡物体的具有挑战性的场景中。

PART/2

背景

半监督目标检测（SSOD）旨在通过整合大量未标记数据来提高全监督目标检测的有效性。它在从自动驾驶汽车到医疗保健等不同领域都有应用，在这些领域中，获取大规模标记数据集往往不切实际或成本高昂。

已经提出了几种半监督目标检测方法。该领域中两种流行的方法是伪标签和基于一致性的正则化。STAC提出了一种简单的多阶段半监督目标检测方法，采用伪标签和一致性训练，后来通过师生框架进行简化以生成伪标签。基于这一框架，大量研究工作致力于提高伪标签的质量。这些传统的半监督目标检测方法建立在传统检测器（如单阶段和两阶段检测器）的基础上，涉及各种手动设计的组件，如锚框和非极大值抑制（NMS）。在半监督目标检测中使用这些方法面临着几个潜在的挑战，必须谨慎处理才能获得合理的性能。这些因素包括标记数据过拟合、伪标签噪声、有偏差的标签分布以及对小目标检测性能差。最近，基于DETR的半监督目标检测方法消除了对NMS等传统组件的需求。

尽管基于DETR的半监督目标检测取得了显著进展，但最先进的方法仍存在一些局限性。

（1）如上图所示，基于DETR的半监督目标检测方法在小目标检测方面表现不佳。这是因为这些方法没有像特征金字塔网络（FPN）那样使用多尺度特征，而特征金字塔网络在基于CNN的半监督目标检测方法中对识别较小目标起着重要作用。尽管DETR在目标检测方面的最新进展提高了对小目标的检测能力，但它们的半监督适应仍然难以有效应对这一挑战。

（2）半监督目标检测方法依赖于NMS等手动后处理。当我们使用大量目标查询和一对多分配策略时，这个问题在基于DETR的半监督目标检测中特别出现。在基于DETR的半监督目标检测方法中，使用一对一或混合（一对一和一对多的组合）分配策略可以部分解决这个问题。然而，通常更倾向于使用一对多分配策略，因为一对一分配策略会产生不准确的伪标签，从而导致学习效率低下。尽管在混合策略中重复边界框的数量较少，但数量仍然足够多，会对目标检测性能产生不利影响，如下图所示。

（3）伪标签生成会产生高质量和低质量的标签。基于DETR的半监督目标检测方法缺乏有效的一对一分配策略优化方法，这对于过滤掉低质量候选框至关重要。

为了解决上述问题，我们提出改进最先进的基于DETR的半监督目标检测（SSOD）方法，即下图（b）所示的“稀疏半监督DETR（Sparse Semi-DETR）”。

我们的方法包括扩展其架构，整合几个旨在缓解已发现缺陷的新模块。其中关键模块是查询优化模块，如下图所示并在下图中进行说明。

该模块显著提高了查询的质量并减少了查询的数量。所提出的模块使用来自骨干网络的低级特征，以及通过感兴趣区域对齐（ROI alignment）从弱增强图像中直接提取的高级特征。融合这些特征可以克服第一个缺陷，即检测小型和被遮挡的物体，如下图所示。

注意力机制驱动特征的聚合，从而得到经过优化的高质量特征以进行后续处理。为了确保查询特征的质量，注意力机制还配有查询匹配策略，用于过滤无关查询。因此，查询优化模块不仅提高了查询的质量，还减少了查询的数量，实现了高效处理。该模块使重叠候选框的数量显著减少，从整体上提高了性能，从而解决了第二个局限性。此外，受混合DETR（Hybrid-DETR）的启发，我们引入了一个可靠伪标签过滤模块，如下图所示，以解决第三个局限性。

使用该模块可显著减少低质量伪标签。因此，它进一步减少了在混合分配策略的第二阶段后仍可能出现的重复预测的数量。我们的方法提供了比以往半监督目标检测方法更好的结果，如下图（c）所示。

PART/3

新算法框架解析

在基于DETR的半监督目标检测（SSOD）中，一对一分配策略是通过在学生模型做出的预测与教师模型提供的伪标签之间应用匈牙利算法来实现的，具体如下：

这种方法采用了一对多分配策略，旨在提升性能，但在处理小型或被遮挡物体时效果欠佳。

稀疏半监督DETR

在半监督学习中，给定一个标记数据集，同时还有一个未标记数据集，这里分别对应标记数据和未标记数据的数量。标记数据的标注 \( y_i^l \包含物体标签和边界框信息。稀疏半监督DETR框架的流程如下图2所示。

它引入了一个查询优化模块，用于处理查询特征，以增强复杂检测场景（例如识别小型或部分被遮挡的物体）下的语义表示。此外，我们整合了一个可靠伪标签过滤模块，该模块可选择性地过滤高质量伪标签，从而提高检测准确性。为了进行比较，我们采用了带有ResNet - 50骨干网络的DINO。本节详细概述了稀疏半监督DETR的各个模块。我们在附录A1.1中简要解释了我们的半监督方法。

查询优化

受近期视觉网络相关进展的启发，我们引入一种创新方法来增强目标查询特征。对于每一张未标记图像，我们从经过强增强的图像中提取查询特征。类似地，我们从经过弱增强的图像中提取查询特征，其维度也相同。随后，从图像骨干网络中进行特征提取。这些特征包含标签和边界框等细节，会随批次大小而变化。我们对图3所示的查询优化模块的每个组件进行简要概述。

PART/4

实验及可视化分析

COCO-Partial基准测试：如表格1所示，在所有实验设置下，Sparse Semi-DETR在COCO-Partial上的表现都优于当前的半监督目标检测方法。（1）我们将我们的方法与单阶段和两阶段半监督目标检测方法进行比较。Sparse Semi-DETR在1%、5%和10%标记数据上，分别以8.52、7.79、7.17 mAP超过Dense Teacher。在1%、5%和10%标记数据上，它分别以8.47、8.30、8.24 mAP超过PseCo。作为一种半监督目标检测器，Sparse Semi-DETR无需两阶段和单阶段检测器中常用的手工设计组件，就能实现优异性能。（2）与基于DETR的检测器相比，Sparse Semi-DETR在1%、5%和10%标记数据上，分别以3.30、3.10、3.00 mAP超过Omni-DETR，以0.40、0.70、0.80 mAP超过Semi-DETR。（3）Sparse Semi-DETR在精准检测小型和部分被遮挡物体方面的卓越能力是一个突出特点。

在上图中，我们使用COCO 10%标记数据集，将Sparse Semi-DETR与前两种方法进行了直观比较。这些结果展示了Sparse Semi-DETR令人印象深刻的能力，尤其是它识别小型物体和被障碍物遮挡物体的能力，如第三行图像中白色箭头所突出显示的那样。

上图对Sparse Semi-DETR和Semi-DETR进行了比较。Sparse Semi-DETR处理的是数量更少但经过优化的查询，在这种训练方法中，重复率更低。

总之，我们通过提出Sparse Semi-DETR，成功解决了基于DETR的半监督目标检测框架的固有局限性。这种新颖的解决方案有效应对了预测重叠以及小型物体检测的问题。Sparse Semi-DETR集成了一个查询优化模块，以提升目标查询质量，主要有利于小型和部分被遮挡物体的检测。此外，它还引入了一个可靠伪标签过滤模块，用于选择性地过滤掉低质量伪标签，从而利用剩余的高质量标签提高整体检测精度和一致性。我们的方法优于现有的半监督目标检测方法，大量实验证明了它的有效性。

伦理考量：我们研究半监督模型，并认同视觉识别的标准伦理考量适用于我们的工作。

有相关需求的你可以联系我们！

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗