SARDet-100K:面向大规模合成孔径雷达(SAR)目标检测的开源基准与工具包
利用这个高质量数据集,我们开展了全面的实验,并揭示了SAR目标检测预训练中的一个关键挑战:在RGB数据集上预训练与在SAR数据集上微调之间,在数据域和模型结构方面均存在显著差异。为弥合这些差距,我们提出了一种新颖的带滤波器增强的多阶段(MSFA)预训练框架,该框架从数据输入、域转换和模型迁移的角度解决了这些问题。因此,它增强了跨域知识的对齐和可迁移性。SAR目标检测的一个主要障碍是,将在自然RGB
点击蓝字
关注我们
关注并星标
从此不迷路
计算机视觉研究院


公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
https://proceedings.neurips.cc/paper_files/paper/2024/file/e7eb8128eb26eafbe901348df1dbacdc-Paper-Conference.pdf
计算机视觉研究院专栏
Column of Computer Vision Institute
合成孔径雷达(SAR)目标检测因其不可替代的全天候成像能力,近年来受到了极大关注。然而,该研究领域面临着公开数据集有限(大多包含少于2000张图像且仅涉及单一类别目标)和源代码不可获取的问题。

PART/1
概述
为应对这些挑战,我们建立了一个基准数据集,并开发了一个用于大规模SAR目标检测的开源方法。我们的新数据集SARDet-100K是对现有10个SAR检测数据集进行深入调研、收集和标准化后形成的,为研究提供了一个大规模且多样化的数据集。据我们所知,SARDet-100K是首个创建的COCO级大规模多类别SAR目标检测数据集。利用这个高质量数据集,我们开展了全面的实验,并揭示了SAR目标检测预训练中的一个关键挑战:在RGB数据集上预训练与在SAR数据集上微调之间,在数据域和模型结构方面均存在显著差异。为弥合这些差距,我们提出了一种新颖的带滤波器增强的多阶段(MSFA)预训练框架,该框架从数据输入、域转换和模型迁移的角度解决了这些问题。所提出的MSFA方法显著提升了SAR目标检测模型的性能,同时在不同模型上展现出出色的泛化能力和灵活性。本工作旨在为SAR目标检测的进一步发展铺平道路。该数据集和代码可在https://github.com/zcablii/SARDet_100K获取。
PART/2
背景
合成孔径雷达(SAR)是遥感领域的关键技术,与传统光学传感器相比具有诸多优势。值得注意的是,SAR具备在任何天气条件下获取地理图像的能力,不受阳光、土地覆盖或某些类型伪装等因素的影响,如图1(a)所示。由于这些优势,SAR在国防、人道主义救援、伪装检测和地质勘探等关键领域得到了广泛应用。

图1
凭借其宝贵的优势,SAR目标检测领域越来越受到关注。近年来,专注于该领域的研究论文数量大幅增加,如图1(b)所示。尽管影响力日益提升,但该研究领域仍面临资源有限和迁移差距等重大挑战。
资源有限。高分辨率合成孔径雷达(SAR)图像目标检测的一个显著障碍是SAR图像的敏感性,再加上标注这些图像的高额成本。这严重限制了公开数据集的可用性。现有数据集,如SAR-AIRcraft、Air-SARShip、SSDD 和HRSID ,通常仅包含单一类型的目标,且背景较为简化。此外,这些数据集的规模普遍有限,在评估不同方法时可能会引入偏差。另外,一个显著的障碍是缺乏公开可用的源代码,这使得重现先前的研究成果、进行公平比较或在现有工作的基础上开展研究变得具有挑战性。
为解决这一问题,我们融合了现有可公开获取的SAR检测数据集。这一工作包括对当前公开SAR检测资源的全面调研,随后将这些数据集收集并标准化为统一格式,创建了一个用于SAR目标检测的大规模多类别统一数据集,命名为SARDet-100k。该数据集包含约11.7万张图像和24.6万个目标实例,涵盖六个不同类别。据我们所知,SARDet-100k是该研究领域首个COCO级规模的数据集。它通过为SAR目标检测模型的开发和评估提供丰富资源,显著有助于克服前文提及的局限性。此外,该数据集和源代码将公开可用。
迁移差距。通过我们的实证研究和详细分析,我们发现SAR目标检测的一个主要障碍是,将在自然RGB数据集(例如ImageNet)上预训练的骨干网络迁移到SAR图像的检测网络时,会遇到显著的域差距和模型差距。域差距源于RGB图像和SAR图像之间巨大的视觉差异,而模型差距则源于预训练骨干网络与下游任务中使用的整个检测框架之间的模型差异。
为缓解上述域差距和模型差距,我们提出了一种新颖的带滤波器增强的多阶段(MSFA)预训练框架来弥合这些差距。该框架从多个角度应对挑战:数据输入、域转换和模型迁移,每个角度都针对SAR图像检测任务的独特属性进行了定制。对于数据输入:为解决输入域差距,我们利用传统的手工特征描述符对SAR数据集进行预训练。这些描述符可高效地将输入数据从像素空间转换到特征空间,该特征空间不仅抗噪,还能在统计上缩小RGB和SAR模态数据之间的差距(见图2(a)),从而增强预训练知识的可迁移性。对于域转换:我们利用光学遥感检测数据集搭建域增强桥。

图2
该桥通过光学相关性连接自然RGB图像,通过目标相关性连接SAR图像,建立了一种分层预训练方法,有效缩小了RGB和SAR图像之间的域差距(见图2(b))。对于模型迁移:为确保整个检测框架的充分训练并促进完整的模型迁移和微调,我们在多阶段预训练过程中采用整个检测器作为桥接模型。
MSFA框架在减少预训练和微调阶段之间通常存在的显著域差距和模型差距方面表现出显著效果。MSFA不仅有效,而且具有通用性,适用于各种现代深度神经网络。
我们在SAR目标检测领域的贡献可总结为以下四点:
-
引入首个用于SAR多类别目标检测的COCO级大规模数据集。
-
识别出传统模型在SAR目标检测预训练和微调方法中存在的关键差距。
-
提出带滤波器增强的多阶段(MSFA)预训练框架,该框架表现出显著的有效性,且在各类深度网络模型上具有出色的泛化能力和灵活性。
-
通过发布与我们研究相关的数据集和代码,在SAR目标检测领域建立新的基准。这一贡献有望推动该领域的进一步发展和进步。
PART/3
新算法框架解析
现状
SAR图像通常由卫星捕获,存在大量低分辨率SAR影像,地面采样距离(GSD)通常为10m×10m或更大。Sentinel-1 等平台可提供这些图像的访问权限,它们能呈现城市、山脉、河流和耕地等各类地理区域的宏观视图,这使其在场景分类任务中具有显著优势。然而,这些图像固有的低分辨率限制了其描绘小型目标(如船只、汽车和飞机)精细细节的能力。相反,高分辨率SAR图像能提供更详细的信息,但需要大量硬件资源。此外,这些高清图像通常包含敏感信息,不适合公开发布。而且,获取高分辨率SAR数据集成本可能非常高昂,对其可访问性构成重大挑战。
众多研究团队经常面临预算限制,这限制了他们获取大规模且多样化的高分辨率SAR数据集的能力。这些财务约束不仅限制了可覆盖的地理区域范围,还影响了可访问的数据来源多样性。因此,这些团队可获取的数据集通常缺乏多样性,尤其是在光谱波段、极化和分辨率等方面。从研究人员的角度来看,在如此小型且同质化的数据集上评估模型可能会引入偏差,导致不公平的性能比较。
SARDet-100K
为应对上述挑战,我们对SAR目标检测数据集进行了全面调研。最终,我们精心收集了**10个**可公开获取的高质量数据集,这些数据集不仅具有多样性,且目标类别无冲突。这些数据由不同国家和机构发布或收集,例如中国的科研部门、欧洲的航天部门以及美国的军事部门。所收集数据集的详细信息如表2所示。

为确保所收集数据集的一致性,我们投入了大量时间和精力进行严格的数据集标准化工作,包括处理训练-验证-测试划分状态、图像分辨率和标注格式的差异。关于数据收集和标准化的更多细节可参见附录。

表1展示了SARDet-100K的标准化子数据集及其对应的统计信息,其中包含图像级和实例级的统计信息。SARDet-100K数据集共包含116,598张图像和245,653个实例,分布在六个类别中:飞机、船只、汽车、桥梁、坦克和港口。SARDet-100K数据集是首个大规模SAR目标检测数据集,其规模可与广泛使用的COCO数据集(118K张图像)相媲美,而COCO是通用目标检测的标准基准。SARDet-100K数据集的规模和多样性有效模拟了SAR目标检测模型在实际应用中跨多数据源遇到的真实场景。它为研究人员推进SAR目标检测算法和技术提供了可靠的训练和评估支持,促进了该领域SOTA(最先进)模型的发展。
MSFA
最后,所提出的MSFA框架将滤波器增强输入与多阶段预训练相整合,如图3所示。

图3
我们的MSFA框架有效弥合了自然图像预训练与SAR图像检测微调之间的显著域差距和模态差距。
通过引入滤波器增强输入,我们利用成熟的手工特征描述符来提取抗噪特征。这也使我们能够有效地将预训练和微调图像的异质图像域转换为同质特征域。通过将输入数据统一到一致的特征域中,我们解决了不同类型图像之间存在的差异。因此,它增强了跨域知识的对齐和可迁移性。此外,多阶段训练的整合涉及利用额外的大规模光学遥感数据集进行检测预训练。该数据集充当域桥梁,连接ImageNet自然图像的域与SAR遥感图像的域。因此,它进一步缩小了图像差距,促进了两个域之间的平滑过渡。此外,MSFA框架第二阶段的检测预训练也可作为模型桥梁。它允许对整个检测框架进行全面训练,而非仅关注骨干网络,使整个检测框架在SAR检测微调中能以良好的初始化状态实现最优性能。
PART/4
新算法框架解析

上表中实验2、4、6和8的结果证明了两阶段预训练方法的显著优势。值得注意的是,即使是相对小规模的DIOR数据集,与基准(实验1和5)相比也展现出明显的性能提升。这一观察凸显了在SAR检测预训练阶段缩小域差距的重要性。
然而,DIOR数据集预训练的效果不如更大规模的DOTA数据集(实验2与4、6与8对比)。这一比较凸显了预训练规模对实现最优结果的重要性。DOTA数据集规模更大,且实例平均面积与SARDet-100K相似,提供了更全面、信息更丰富的预训练,从而在后续微调阶段提升了性能。
实验3、4与实验7、8的比较,证明了预训练整个框架优于仅预训练骨干网络,突出了模型差距对SAR检测性能的显著影响。
总之,我们在MSFA中提出的多阶段预训练策略缓解了预训练与下游模型之间的数据域差距和模型差距,使SAR检测性能得到显著提升。详细的实验结果和可视化见附录。

图4
为评估所提出的MSFA的有效性和泛化性,我们使用各类检测器和骨干网络开展实验,结果如上图4(a)和4(b)所示。
在不同框架(包括单阶段、两阶段和端到端)以及多样的骨干网络(包括ResNets、ConvNexts 、VANs和Swin-Transformer 网络)中,均观察到显著的性能提升。这为我们所提方法的有效性和广泛适用性提供了有力证据。此外,如图4(b)所示,随着骨干网络规模的扩大,我们观察到性能的稳定提升,表明我们所提方法具有良好的可扩展性。
值得注意的是,我们的MSFA方法在设计时就考虑了灵活性、泛化性和广泛适用性。因此,该方法可无缝集成到大多数现有模型中,无需任何修改。
结论
本文提出了一个用于大规模SAR目标检测的新基准,引入了SARDet-100K数据集和带滤波器增强的多阶段(MSFA)预训练方法。我们的SARDet-100K数据集包含超过11.6万张图像,涵盖6个类别,为开展SAR目标检测研究提供了一个大规模且多样化的数据集。为弥合SAR目标检测预训练和微调阶段之间的域差距和模型差距,我们提出了MSFA预训练框架。MSFA显著提升了SAR目标检测模型的性能,在以往基准数据集上创下了新的最先进性能。此外,MSFA在各类模型中展现出显著的泛化能力和灵活性。我们的研究成果致力于克服当前SAR目标检测中普遍存在的障碍。我们期望我们的贡献将为该领域未来的研究和创新铺平道路。
我们的研究工作致力于克服当前SAR目标检测中普遍存在的障碍。我们期望我们的贡献将为该领域未来的研究和创新铺平道路。
有相关需求的你可以联系我们!

END



转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入!
ABOUT
计算机视觉研究院
计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!
往期推荐
🔗
更多推荐



所有评论(0)