点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达图片

在计算机视觉的广阔天地中,显著目标检测(SOD)宛如一颗璀璨的明珠,在人机交互、内容感知图像编辑、图像检索等诸多领域散发着重要的光芒。然而,传统方法在面对这一任务时,却面临着诸多挑战。今天,我们就来深入了解一篇发表在TCSVT 2025上的论文——《Boosting Salient Object Detection With Transformer - Based Asymmetric Bilateral U - Net》,看看它是如何突破困境,为SOD带来新的曙光。

一、传统方法的困境

在过去的十年里,卷积神经网络(CNNs)在显著目标检测领域取得了显著的进展。U形编码器 - 解码器CNN凭借其能够结合全局上下文信息和局部空间细节的优势,在该领域占据了主导地位。但是,基于CNN的编码器存在着一个固有的局限性,那就是它只能以局部方式从图像中提取特征,缺乏强大的全局建模能力。

与此同时,视觉变换器(Transformer)的出现为计算机视觉领域带来了革命性的进展。它强大的全局依赖建模能力,使得一些研究者尝试将其引入SOD。然而,现有的基于Transformer的SOD方法完全依赖Transformer作为编码器来提取全局特征,却忽略了局部表示的重要作用,而局部表示对于细化目标细节同样至关重要

二、ABiU - Net闪亮登场

针对上述问题,论文作者提出了一种基于Transformer的非对称双边U形网络——ABiU - Net。它的核心思想是结合Transformer和CNN的优势,分别学习用于SOD的全局和局部表示。

1. 非对称双边编码器

ABiU - Net的非对称双边编码器包含两条路径:Transformer编码路径(TEncPath)和轻量级CNN混合编码路径(HEncPath)。

  • TEncPath:作者使用流行的变换器网络PVT作为TEncPath。PVT通过自注意力机制直接对序列数据的全局依赖关系进行建模,能够学习图像的强大全局特征表示。但是,它在学习局部信息方面存在不足。

  • HEncPath:为了弥补TEncPath的这一缺陷,作者设计了HEncPath。它是一个轻量级的基于CNN的子网络,通过堆叠多个卷积阶段引入局部敏感性。从第三阶段开始,HEncPath每个阶段的输入分别来自前一个卷积阶段和对应的TEncPath阶段。这样,HEncPath在TEncPath提供的全局上下文信息的引导下,将局部性引入特征表示中,实现了全局长距离依赖关系和局部表示的混合编码。

ABiU - Net的非对称双边编码器
ABiU - Net的非对称双边编码器

2. 非对称双边解码器

对应于编码器,ABiU - Net的非对称双边解码器也包含两条路径:Transformer解码器路径(TDecPath)和混合解码器路径(HDecPath)。

  • TDecPath:可以看作是一个简单的自上而下的生成路径,用于解码来自TEncPath的特征表示,回归显著目标的粗略位置。

  • HDecPath:在TDecPath解码的粗略位置的指导下,进一步细化显著目标的细节。它的输入来自TDecPath和HEncPath,通过信息交互学习互补的信息。

3. 深度监督策略

为了促进网络优化,作者对HDecPath的所有阶段和TDecPath的最后阶段施加深度监督。通过设计一个简单的预测模块(PM),将特征图转换为显著性图,并使用标准的二元交叉熵损失(BCE)进行端到端训练。

三、论文创新点剖析

提出非对称双边U型网络架构ABiU - Net

结合Transformer与CNN的优势,设计包含Transformer编码路径(TEncPath)轻量级CNN混合编码路径(HEncPath)的非对称双边编码器,以及对应解码路径(TDecPath和HDecPath),通过编码器/解码器路径间的多级交互,实现全局上下文建模局部细节特征学习的互补。

编码器路径的跨路径交互机制

HEncPath从第三阶段开始,将前一卷积阶段的特征与TEncPath对应阶段的特征拼接作为输入,使全局上下文引导局部特征学习,形成融合长距离依赖和局部表示的混合编码特征。

解码器路径的互补信息学习

TDecPath基于Transformer特征解码显著物体的粗略位置,HDecPath结合HEncPath的局部细节特征和TDecPath的粗略位置信息,进一步优化物体细节和边界,通过通道注意力机制增强特征表示,并在各阶段进行特征交互以学习互补信息。

深度监督策略与轻量化设计

对HDecPath的所有阶段和TDecPath的最后阶段施加深度监督,促进网络优化;HEncPath采用少量通道和快速下采样策略,在保证性能的同时维持轻量化,使模型兼具高效性与准确性。

四、实验结果令人瞩目

1. 性能比较

作者将ABiU - Net与以往的先进SOD方法进行了全面的比较。在六个广泛使用的数据集上,ABiU - Net在最大F - 度量分数、平均绝对误差、加权F - 度量分数和结构度量等指标上都表现出色,大幅优于其他方法。

性能比较
性能比较

2. 复杂度分析

在复杂度方面,ABiU - Net与近期的同类方法相当,具有相对较少的参数和浮点运算次数(FLOPs),以及相对较短的运行时间。

复杂度分析
复杂度分析

3. 定性评估

从特征可视化图和各种中间侧输出的相应显著性图可以看出,ABiU - Net能够在各种场景下生成更好的显著性图,准确分割具有精细细节的显著目标。

定性评估
定性评估

4. 消融实验

通过一系列的消融实验,作者验证了ABiU - Net各个组件的有效性。实验结果表明,非对称双边编码器、非对称双边解码器和深度监督策略都对提高SOD性能起到了重要作用。

消融实验
消融实验

五、挑战与展望

尽管ABiU - Net取得了显著的成果,但在某些情况下仍可能失败。例如,对于微小目标和不太显著的目标,或者当背景区域特别复杂时,ABiU - Net可能无法准确分割显著目标。这也为未来的研究指明了方向,如何确保显著目标的完整性,以及如何更好地区分显著目标和背景区域,将是下一个需要解决的问题。

总的来说,ABiU - Net为基于Transformer的SOD提供了新的视角,它通过探索Transformer和CNN之间的深度合作,实现了全局上下文特征和局部详细表示的互补利用。相信在未来,ABiU - Net将为显著目标检测领域带来更多的突破和创新。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程,即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2:Python视觉实战项目52讲
在「小白学视觉」公众号后台回复:Python视觉实战项目,即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。


下载3:OpenCV实战项目20讲
在「小白学视觉」公众号后台回复:OpenCV实战项目20讲,即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

更多推荐