【TCSVT 2025】ABiU-Net：Transformer 与 CNN 联手，显著目标检测迎来精度革命

这样，HEncPath在TEncPath提供的全局上下文信息的引导下，将局部性引入特征表示中，实现了全局长距离依赖关系和局部表示的混合编码。总的来说，ABiU - Net为基于Transformer的SOD提供了新的视角，它通过探索Transformer和CNN之间的深度合作，实现了全局上下文特征和局部详细表示的互补利用。TDecPath基于Transformer特征解码显著物体的粗略位置，HDe

小白学视觉

538人浏览 · 2025-06-17 10:01:45

小白学视觉 · 2025-06-17 10:01:45 发布

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

在计算机视觉的广阔天地中，显著目标检测（SOD）宛如一颗璀璨的明珠，在人机交互、内容感知图像编辑、图像检索等诸多领域散发着重要的光芒。然而，传统方法在面对这一任务时，却面临着诸多挑战。今天，我们就来深入了解一篇发表在TCSVT 2025上的论文——《Boosting Salient Object Detection With Transformer - Based Asymmetric Bilateral U - Net》，看看它是如何突破困境，为SOD带来新的曙光。

一、传统方法的困境

在过去的十年里，卷积神经网络（CNNs）在显著目标检测领域取得了显著的进展。U形编码器 - 解码器CNN凭借其能够结合全局上下文信息和局部空间细节的优势，在该领域占据了主导地位。但是，基于CNN的编码器存在着一个固有的局限性，那就是它只能以局部方式从图像中提取特征，缺乏强大的全局建模能力。

与此同时，视觉变换器（Transformer）的出现为计算机视觉领域带来了革命性的进展。它强大的全局依赖建模能力，使得一些研究者尝试将其引入SOD。然而，现有的基于Transformer的SOD方法完全依赖Transformer作为编码器来提取全局特征，却忽略了局部表示的重要作用，而局部表示对于细化目标细节同样至关重要。

二、ABiU - Net闪亮登场

针对上述问题，论文作者提出了一种基于Transformer的非对称双边U形网络——ABiU - Net。它的核心思想是结合Transformer和CNN的优势，分别学习用于SOD的全局和局部表示。

1. 非对称双边编码器

ABiU - Net的非对称双边编码器包含两条路径：Transformer编码路径（TEncPath）和轻量级CNN混合编码路径（HEncPath）。

TEncPath：作者使用流行的变换器网络PVT作为TEncPath。PVT通过自注意力机制直接对序列数据的全局依赖关系进行建模，能够学习图像的强大全局特征表示。但是，它在学习局部信息方面存在不足。
HEncPath：为了弥补TEncPath的这一缺陷，作者设计了HEncPath。它是一个轻量级的基于CNN的子网络，通过堆叠多个卷积阶段引入局部敏感性。从第三阶段开始，HEncPath每个阶段的输入分别来自前一个卷积阶段和对应的TEncPath阶段。这样，HEncPath在TEncPath提供的全局上下文信息的引导下，将局部性引入特征表示中，实现了全局长距离依赖关系和局部表示的混合编码。

ABiU - Net的非对称双边编码器

2. 非对称双边解码器

对应于编码器，ABiU - Net的非对称双边解码器也包含两条路径：Transformer解码器路径（TDecPath）和混合解码器路径（HDecPath）。

TDecPath：可以看作是一个简单的自上而下的生成路径，用于解码来自TEncPath的特征表示，回归显著目标的粗略位置。
HDecPath：在TDecPath解码的粗略位置的指导下，进一步细化显著目标的细节。它的输入来自TDecPath和HEncPath，通过信息交互学习互补的信息。

3. 深度监督策略

为了促进网络优化，作者对HDecPath的所有阶段和TDecPath的最后阶段施加深度监督。通过设计一个简单的预测模块（PM），将特征图转换为显著性图，并使用标准的二元交叉熵损失（BCE）进行端到端训练。

三、论文创新点剖析

提出非对称双边U型网络架构ABiU - Net

结合Transformer与CNN的优势，设计包含Transformer编码路径（TEncPath）和轻量级CNN混合编码路径（HEncPath）的非对称双边编码器，以及对应解码路径（TDecPath和HDecPath），通过编码器/解码器路径间的多级交互，实现全局上下文建模与局部细节特征学习的互补。

编码器路径的跨路径交互机制

HEncPath从第三阶段开始，将前一卷积阶段的特征与TEncPath对应阶段的特征拼接作为输入，使全局上下文引导局部特征学习，形成融合长距离依赖和局部表示的混合编码特征。

解码器路径的互补信息学习

TDecPath基于Transformer特征解码显著物体的粗略位置，HDecPath结合HEncPath的局部细节特征和TDecPath的粗略位置信息，进一步优化物体细节和边界，通过通道注意力机制增强特征表示，并在各阶段进行特征交互以学习互补信息。

深度监督策略与轻量化设计

对HDecPath的所有阶段和TDecPath的最后阶段施加深度监督，促进网络优化；HEncPath采用少量通道和快速下采样策略，在保证性能的同时维持轻量化，使模型兼具高效性与准确性。

四、实验结果令人瞩目

1. 性能比较

作者将ABiU - Net与以往的先进SOD方法进行了全面的比较。在六个广泛使用的数据集上，ABiU - Net在最大F - 度量分数、平均绝对误差、加权F - 度量分数和结构度量等指标上都表现出色，大幅优于其他方法。

性能比较

2. 复杂度分析

在复杂度方面，ABiU - Net与近期的同类方法相当，具有相对较少的参数和浮点运算次数（FLOPs），以及相对较短的运行时间。

复杂度分析

3. 定性评估

从特征可视化图和各种中间侧输出的相应显著性图可以看出，ABiU - Net能够在各种场景下生成更好的显著性图，准确分割具有精细细节的显著目标。

定性评估

4. 消融实验

通过一系列的消融实验，作者验证了ABiU - Net各个组件的有效性。实验结果表明，非对称双边编码器、非对称双边解码器和深度监督策略都对提高SOD性能起到了重要作用。

消融实验

五、挑战与展望

尽管ABiU - Net取得了显著的成果，但在某些情况下仍可能失败。例如，对于微小目标和不太显著的目标，或者当背景区域特别复杂时，ABiU - Net可能无法准确分割显著目标。这也为未来的研究指明了方向，如何确保显著目标的完整性，以及如何更好地区分显著目标和背景区域，将是下一个需要解决的问题。

总的来说，ABiU - Net为基于Transformer的SOD提供了新的视角，它通过探索Transformer和CNN之间的深度合作，实现了全局上下文特征和局部详细表示的互补利用。相信在未来，ABiU - Net将为显著目标检测领域带来更多的突破和创新。

下载1：OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复：扩展模块中文教程，即可下载全网第一份OpenCV扩展模块教程中文版，涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。


下载2：Python视觉实战项目52讲
在「小白学视觉」公众号后台回复：Python视觉实战项目，即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目，助力快速学校计算机视觉。


下载3：OpenCV实战项目20讲
在「小白学视觉」公众号后台回复：OpenCV实战项目20讲，即可下载含有20个基于OpenCV实现20个实战项目，实现OpenCV学习进阶。


交流群

欢迎加入公众号读者群一起和同行交流，目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群（以后会逐渐细分），请扫描下面微信号加群，备注：”昵称+学校/公司+研究方向“，例如：”张三 + 上海交大 + 视觉SLAM“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~