image vb6 图片自适应_旷世提出类别正则化的域自适应目标检测模型，缓解场景多样的痛点 | CVPR 2020...

论文基于DA Faster R-CNN系列提出类别正则化框架，充分利用多标签分类的弱定位能力以及图片级预测和实例级预测的类一致性，从实验结果来看，类该方法能够很好地提升DA Faster R-CNN系列的性能来源：晓飞的算法工程笔记公众号论文: Exploring Categorical Regularization for Domain Adaptive Object Detection论文.

weixin_39883256

231人浏览 · 2020-12-21 22:57:51

weixin_39883256 · 2020-12-21 22:57:51 发布

论文基于DA Faster R-CNN系列提出类别正则化框架，充分利用多标签分类的弱定位能力以及图片级预测和实例级预测的类一致性，从实验结果来看，类该方法能够很好地提升DA Faster R-CNN系列的性能
来源：晓飞的算法工程笔记公众号

论文: Exploring Categorical Regularization for Domain Adaptive Object Detection

论文地址：https://arxiv.org/pdf/2003.09152.pdf
论文代码：https://github.com/Megvii-Nanjing/CR-DA-DET

Introduction

由于标注成本大，在训练好检测算法后，面对差异较大的新场景(类别不变)，若想获取大量的带标注图片进行再训练是很不方便的。对于这种情况，无监督的域自适应方法能够灵活地自适应新场景，从包含丰富标注信息的源域转移到无标注的目标域。其中，域自适应方法中比较有代表性的是Donamin Adaptive(DA) Faster R-CNN系列，利用对抗训练来对齐图片和实例的分布，使得模型能够做到域不变性，具体可以看上一篇介绍。但是这些方法大都把无法转化的背景内容也进行了对齐，而且在实例对齐时，没有从包含较多低质量的proposal集合中识别出难样本。为了解决上面的问题，论文提出类别正则化框架，帮助DA Faster R-CNN专注于对齐跨域中的关键区域和重要目标。
论文的主要贡献如下：

提出新的类别正则化框架，作为域自适应目标检测算法的插件，不需要额外的标注和超参数。
设计了两个正则化模块，分别用于榨取卷积分类器的弱定位能力以及图像级别预测和实例级别预测间的类别一致性，能够帮助分类器专注于对齐目标相关区域以及难对齐实例。
对多种域转移场景进行实验，验证论文提出的方法的有效性。从实验结果来看，类别正则化框架能够提出DA Faster R-CNN系列方法的性能，并在基础数据集上达到SOTA。

Approach

Framework Overview

论文方法的整体架构如图2，在DA Faster R-CNN基础上添加了ICR(image-level categorical regularization)和CCR(categorical consistency regularization)，能够更好地对齐域间的关键区域和重要实例。

Image-Level Categorical Regularization

ICR的主要目的是提高主干网络的目标特征提取能力，同时降低背景的激活。结构如图2b所示，ICR使用源域数据进行有监督训练，对主干网络的特征输出进行全局池化，再使用多标签分类器(

卷积)进行分类，损失函数使用标准交叉熵多标签损失：

为类别总数，

为GT标签，

为预测标签，

表示图片至少包含一个类别

物体。

ICR模块利用多标签分类器的弱定位能力，能够有监督地引导主干网络只激活类相关特征。如图3所示，类相关的特征会有较高的激活值。在图像级对齐时，能够对齐域间关键区域，同时，由于背景没有参与到图像级多标签分类器中，能够有效减少拟合不可对齐的源背景的可能性。

Categorical Consistency Regularization

CCR负责发现难对齐实例，调整实例级对齐损失的权重，基于两点考虑：

由于不能区分前景和后景，实例对齐模块可能被低质量背景proposal占据。
添加的图像级分类器和实例检测head是互补的，前者负责获取所有图像级上下文信息，后者使用精确的RoI特征，当两者预测不一致时，该实例就是难样本。

基于以上考虑，论文采用图像级预测和实例级预测的类别一致性作为目标分类难易程度的判断，并在目标域中使用该一致性作为正则因子，调节难对齐样本在实例对齐中的权重。假定

为预测第

个实例为类别

的概率，

为实例预测包含类别

的概率，类别一致性的计算为

使用公式5来加权实例级对抗损失

需要注意，仅对目标域的检测head预测为前景的实例使用公式5加权，源域的所有实例和目标域的背景实例均使用

，前者因为是有监督的，而后者则是因为不重要。

Integration with DA Faster R-CNN Series

将论文提出的方法加入到DA Faster R-CNN中，ICR为直接加入，CCR为对原损失的修改，最终的损失函数为

论文也对比了另外一种主流的DA -Faster改进SW-Faster，该方法使用弱全局对齐模型来提升DA-Faster的强图像对齐模块，直接加入ICR和CCR，最终的损失函数为

Experiments

Comparison Results

Faster R-CNN(Source)仅使用源域训练，Faster R-CNN(Oracle)仅使用目标域训练。

Weather Adaptation

这里对比模型对天气的自适应性。

Scene Adaptation

这里对比模型对不同城市的场景的自适应性。

Dissimilar Domain Adaptation

这里对比模型对真实图片和卡通图片的自适应性。

Visualization and Analyses

对前面对比实验的目标域测试图片进行了可视化。

将特征降维并可视化，蓝点为源域样本，红点为目标域样本，可以看到论文的方法能够让域间的同分类实例距离更近。
论文也计算了域间距离，使用Earth Movers Distance (EMD) 测量，SW-Faster, SW-Faster-ICR and SW-FasterICR-CCR的结果分别是8.84、8.59和8.15。

CONCLUSION

论文基于DA Faster R-CNN系列提出类别正则化框架，充分利用多标签分类的弱定位能力以及图片级预测和实例级预测的类一致性，从实验结果来看，类该方法能够很好地提升DA Faster R-CNN系列的性能。

如果本文对你有帮助，麻烦点个赞或在看呗～
更多内容请关注微信公众号【晓飞的算法工程笔记】

九章云极普惠算力

更多推荐

混合精度训练革命：happy-llm如何用16位浮点数实现效率与精度双赢

在大语言模型训练领域，混合精度训练已经成为提升训练效率的关键技术。通过巧妙结合16位和32位浮点数，happy-llm项目展示了如何在保证模型精度的同时，显著降低显存占用并加速训练过程。## 什么是混合精度训练？混合精度训练是一种结合不同精度浮点数进行深度学习训练的技术。它主要使用16位浮点数（FP16或BF16）进行前向传播和反向传播，同时保留32位浮点数用于关键的权重更新操作。[!

九章云极普惠算力

Zero邮件备份恢复：数据丢失预防与恢复的完整方案

在数字化时代，邮件数据安全已成为企业和个人用户面临的重要挑战。Zero开源邮件应用提供了一套完整的邮件备份恢复方案，通过智能数据保护机制确保您的邮件信息安全无忧。无论您是担心误删重要邮件、系统故障导致数据丢失，还是需要长期归档关键通信记录，Zero的备份恢复功能都能为您提供可靠保障。## 🔒 数据丢失预防：多重保护机制Zero邮件应用内置了**乐观更新机制**，在用户执行操作时立即提供视

九章云极普惠算力

突破推理瓶颈：vLLM多模态时空决策系统重构智慧城市规划流程的完整指南

在当今智慧城市建设的浪潮中，vLLM多模态时空决策系统正以其卓越的高吞吐量和内存效率，彻底重构传统城市规划流程。作为专门为大型语言模型设计的推理和服务引擎，vLLM通过创新的架构设计，解决了传统AI系统在处理复杂时空数据时的性能瓶颈，为城市规划者提供了前所未有的决策支持能力。## 🚀 vLLM多模态时空决策系统的核心优势vLLM多模态时空决策系统采用了分层架构设计，从模型引擎到分布式计算