TDCNet:基于时序差分卷积的时空上下文学习在移动红外小目标检测中的应用 | AAAI2026
本文提出TDCNet,一种创新的移动红外小目标检测网络。核心贡献包括:1)提出时间差分卷积重参数化模块(TDCR),首次将时间差分与3D卷积融合为可学习的统一表示,能显式捕获多尺度运动上下文;2)设计TDC引导的时空注意力机制(TDCSTA),通过交叉注意力增强目标区域特征;3)构建IRSTD-UAV数据集(15,106帧)。实验表明,该方法在复杂背景下显著优于现有技术,F1分数达96.74%,平
🔍本文的核心贡献主要包括三点:
-
提出TDCNet框架:这是一个新颖的移动红外小目标检测网络,它通过多尺度运动上下文建模和特征增强,有效提升了在复杂背景下的检测性能。
-
创新TDC模块:首次将时间差分操作与3D时空卷积融合为一个统一的、可学习的表示,能够显式且高效地捕获指定时间范围内的运动上下文依赖关系。
-
设计TDCSTA机制:引入一种由运动感知特征引导的时空注意力模块,通过交叉注意力细化特征,使模型能更精准地聚焦于关键目标区域。

博主简介
AI小怪兽 | 计算机视觉布道者 | 视觉检测领域创新者
深耕计算机视觉与深度学习领域,专注于视觉检测前沿技术的探索与突破。长期致力于YOLO系列算法的结构性创新、性能极限优化与工业级落地实践,旨在打通从学术研究到产业应用的最后一公里。
🚀 核心专长与技术创新
-
YOLO算法结构性创新:于CSDN平台原创发布《YOLOv13魔术师》、《YOLOv12魔术师》等全系列深度专栏。系统性提出并开源了多项原创自研模块,在模型轻量化设计、多维度注意力机制融合、特征金字塔重构等关键方向完成了一系列突破性实践,为行业提供了具备高参考价值的技术路径与完整解决方案。
-
技术生态建设与知识传播:独立运营 “计算机视觉大作战” 公众号(粉丝1.6万),成功构建高质量的技术交流社群。致力于将复杂算法转化为通俗易懂的解读与可复现的工程代码,显著降低了计算机视觉的技术入门门槛。
🏆 行业影响力与商业实践
-
荣获腾讯云年度影响力作者与创作之星奖项,内容质量与专业性获行业权威平台认证。
-
全网累计拥有 7万+ 垂直领域技术受众,专栏文章总阅读量突破百万,在目标检测领域形成了广泛的学术与工业影响力。
-
具备丰富的企业级项目交付经验,曾为工业视觉检测、智慧城市安防等多个关键领域提供定制化的算法模型与解决方案,驱动业务智能化升级。
💡 未来方向与使命
秉持 “让每一行代码都有温度” 的技术理念,未来将持续聚焦于实时检测、语义分割及工业缺陷检测的商业化闭环等核心方向。愿与业界同仁协同创新,共同推动技术边界,以坚实的技术能力赋能实体经济与行业变革。
原创自研系列, 25年计算机视觉顶会创新点
应用系列篇:
23、24年最火系列,加入24年改进点内涵100+优化改进篇,涨点小能手,助力科研,好评率极高
原理介绍

论文:https://arxiv.org/pdf/2511.09352
代码:https://github.com/IVPLabX/TDCNet
摘要:移动红外小目标检测在无人驾驶飞行器监视及基于无人机的搜索系统等实际应用中至关重要。由于目标特征微弱及背景干扰复杂,移动红外小目标检测仍极具挑战。精准的时空特征建模是实现移动目标检测的关键,通常通过时间差分或时空卷积实现。时间差分能显式利用运动线索,但在提取空间特征方面能力有限;而时空卷积虽能有效表征时空特征,却缺乏沿时间维度对运动动态的显式感知。本文提出一种新颖的移动红外小目标检测网络,该网络能有效提取并增强时空特征以实现精确的目标检测。具体而言,我们引入一种新颖的时间差分卷积重参数化模块,该模块包含三个并行的时间差分卷积块,旨在捕获不同时间范围内的上下文依赖关系。每个时间差分卷积块将时间差分与时空卷积融合为统一的时空卷积表示。该重参数化模块能有效捕获多尺度运动上下文特征,同时抑制复杂背景中的伪运动杂波,从而显著提升检测性能。此外,我们提出一种时间差分卷积引导的时空注意力机制,该机制在基于时间差分卷积的主干网络与并行的时空主干网络提取的时空特征之间执行交叉注意力,以建模它们的全局语义依赖关系,从而细化当前帧的特征,进而引导模型更准确地聚焦于关键目标区域。为便于全面评估,我们构建了一个新的挑战性基准数据集IRSTD-UAV,该数据集包含15,106张真实红外图像,涵盖了多种低信杂比场景及复杂背景。在IRSTD-UAV及公开红外数据集上的大量实验表明,我们的网络在移动目标检测中实现了最先进的检测性能。

1.引言
移动红外小目标检测旨在定位红外图像中微小、暗淡的目标,通常面临复杂背景和低信杂比的挑战。该技术广泛应用于无人驾驶飞行器监视和天基监测等领域。在这些场景中,目标在空间域通常呈现微小且对比度低的特征,极易被复杂动态背景杂波所淹没,常导致漏检和误报。
为解决上述挑战,学者们提出了众多红外小目标检测方法,可大致分为两类:单帧方法与多帧方法。前者侧重于构建复杂的网络架构以提取空间特征,但缺乏对复杂背景中时间运动模式的建模能力,易导致漏检或误报。而精确的时空特征建模对于移动红外小目标检测至关重要。因此,后者结合多帧输入,利用时间差分建模或时空卷积来提取目标的时空特征。时间差分操作能显式捕获时间上下文信息,但其提取空间特征的能力有限。相比之下,3D卷积能有效表征三维特征,但缺乏对沿时间维度的运动动态的显式感知。这一局限削弱了其在像素级捕捉细微帧间变化的能力,而该能力对于在低信杂比场景下检测弱小目标尤为关键。
为克服上述局限,本文提出一种新颖的移动红外小目标检测网络,该网络能有效提取并增强时空特征以实现精确的目标检测。通常,红外小目标在空间域特征微弱且易受复杂背景干扰,但移动红外小目标通常沿时间维度表现出强烈的运动上下文依赖关系。这一观察促使我们利用此类上下文依赖关系来抑制复杂背景干扰,并更有效地建模时空特征。
本工作中,我们引入了时间差分卷积重参数化模块,该模块集成了三个并行的时间差分卷积块,分别用于建模短期、中期和长期的运动上下文依赖关系。每个TDC块将时间差分与3D卷积融合成一个统一的时空卷积表示,旨在有效捕获指定时间范围内的运动上下文依赖。这使得TDC块能够抑制背景杂波,同时增强对红外小目标时空特征的辨别力。TDCR模块在训练时的多分支架构在推理时可等效转换为单分支结构,以实现高效推理。这一设计使TDCR模块能有效捕获多尺度运动上下文依赖,同时抑制复杂背景中的伪运动杂波,且不增加推理时的计算成本,从而显著提升检测性能。
此外,我们提出一种TDC引导的时空注意力机制,该机制在基于TDC的主干网络与并行的3D卷积主干网络提取的时空特征之间执行交叉注意力。基于TDC的主干网络能突出显著目标区域并抑制复杂背景干扰。利用这一特性,所提出的机制能有效捕获两个特征流之间的全局语义依赖关系,并细化当前帧的时空特征表示,从而引导模型更准确地聚焦于关键目标区域,进而提升检测性能。
更进一步,我们构建了一个新的红外小目标检测基准数据集,包含15,106帧图像,涵盖了多种无人机类型和复杂背景。在IRSTD-UAV和公开基准IRDST上进行的大量实验表明,TDCNet实现了最先进的检测性能,在低信杂比和复杂背景下显著优于现有的单帧与多帧方法。
本工作的贡献可总结如下:
-
我们提出了一种新颖的移动红外小目标检测网络,该网络能有效捕获时空特征,同时抑制复杂背景,以实现精确检测。
-
我们首次提出TDC,它将时间差分与时空卷积融合为统一的3D卷积表示,从而能够有效捕获指定时间范围内的运动上下文依赖关系。
-
我们引入了一种新颖的TDC引导的时空注意力机制,该机制对TDC增强特征与并行3D卷积特征之间的语义关系进行建模,并利用该机制细化当前帧中关键目标区域的表示,从而提升在复杂背景下的检测性能。
2 相关工作
2.1 移动红外小目标检测
现有的移动红外小目标检测方法主要在如何处理空间和时间信息上有所不同。一种广泛采用的策略是在时间序列中的每一帧上独立地应用二维卷积网络。然而,帧间交互的缺乏限制了它们对时空连续性建模的能力。相反,时间差分方法则专注于帧间强度变化以捕捉运动线索,但难以提取对于鲁棒检测至关重要的空间语义表示。为了有效利用空间和时间信息,最近的方法要么采用分阶段的流程,即先通过2D卷积提取空间特征,再进行时间建模;要么使用3D卷积来联合捕获时空特征。然而,这些方法在复杂背景下往往存在运动感知能力有限或时空上下文建模不足的问题。相比之下,我们提出的TDC块将时间差分和时空卷积融合成一个统一的3D卷积表示,能够有效捕获运动上下文依赖关系,从而在复杂背景下实现鲁棒的移动红外小目标检测。
2.2 时空上下文建模
时间差分、3D卷积和基于Transformer的模型是视频分析中进行时空建模的基础技术,广泛应用于动作识别和视频理解等任务。时间差分通过捕获帧间变化来突出运动线索,而3D卷积则联合学习空间和时间特征。基于Transformer的模型进一步引入了时间自注意力,以实现长程依赖关系建模。然而,每种方法都侧重于有限的方面:时间差分缺乏语义上下文,而3D卷积和基于Transformer的模型则常常忽略了显式的运动线索。在本工作中,我们提出了一个统一的时空网络,它通过TDCR进行多尺度运动上下文建模,并通过TDCSTA进行时空特征增强,以实现鲁棒的移动红外小目标检测。
3 所提出的方法
3.1 整体架构
在本研究中,我们提出了一种新颖的移动红外小目标检测网络 TDCNet,如图2所示。该网络首先引入了一个时间差分卷积主干网络。随后,一个TDC引导的时空注意力模块通过将自注意力机制应用于三个不同的特征流,并以TDC特征作为查询进行交叉注意力,来有选择性地增强时空特征,从而优化特征表示。最后,我们构建了一个具有挑战性的基准数据集 IRSTD-UAV,以验证我们方法的有效性。

3.2 时间差分卷积主干网络
受 STMENet 的3D主干网络设计启发,我们引入TDC主干网络以提取时空上下文特征。在将帧序列输入TDC主干网络之前,会应用一个背景对齐过程来抑制相机运动。通过逐步堆叠 TDCR 层,来自较早阶段的时空上下文特征在多尺度时间范围下得到进一步细化,使模型能够学习嵌入复杂红外场景中的移动小目标的更具判别性的表示。
3.3 时间差分卷积重参数化模块
如图3所示,我们提出了一种新颖的 TDCR 模块,以增强多时间尺度上的时空上下文特征建模能力。在训练期间,TDCR 由三个并行分支组成:短期TDC块、中期TDC块和长期TDC块(图4)。每个分支专门设计用于捕获不同时间尺度上的时间依赖关系。这些块的输出分别由批归一化层进行独立归一化,然后通过求和进行聚合。在推理阶段,我们将三个分支重参数化为一个统一的单3D卷积,以简化推理流程,同时保留多尺度时间建模能力。


时间差分卷积。精确的时空特征建模对于红外序列中鲁棒的移动IRSTD至关重要。传统方法通常依赖于时间差分操作或3D卷积。时间差分通过计算帧间差异直接对运动信息进行建模,提供了强大的运动动态感知能力,但其空间特征表示能力较弱。相比之下,3D卷积能有效提取时空特征,但在杂乱的背景中缺乏明确的运动感知能力。为了结合两种方法的优势,我们提出了 TDC块,它将时间差分和3D卷积融合成一个统一的时空卷积表示。
具体来说,为了显式地捕获帧间的运动上下文依赖关系,我们重新形式化了传统的3D卷积权重 W ∈ R^{C_out × C_in × T × H × W},其中 C_in 和 C_out 分别表示输入和输出通道数,T、H、W 分别代表沿时间、高度和宽度维度的卷积核大小。如图4所示,我们以 L-TDC 块为例。输入到 L-TDC 块的特征图 F ∈ R^{T × C × H × W} 由一系列帧 {F_t}_{t=1}^{5} 组成,其中每个 F_t ∈ R^{C × H × W}。这里,F_5 表示当前帧,而 F_1 到 F_4 是之前的帧。L-TDC 块旨在通过计算当前帧与所有先前帧之间的差异来捕获长期运动上下文依赖关系。为了实现这一点,W 沿时间维度被分解为一组2D卷积核 {W_t}_{t=1}^{4},其中每个 W_t ∈ R^{C_out × C_in × H × W} 对时间步 t 的帧间差异进行建模。其输出定义为:
其中,* 表示卷积运算。F_l 在数学上等价于 W_t 与时序差分特征图 F_5 - F_t 的卷积之和。然而,如图4所示,需要强调的是,我们的 TDC 并没有显式地执行差分操作。相反,它将时间差分和3D卷积隐式地融合成一个统一的时空卷积表示。这种形式显式地编码了当前帧与所有先前帧之间的长期时间差分和丰富的时空特征,从而捕获了长期运动上下文依赖关系。
S-TDC 和 M-TDC 的推导方式与 L-TDC 类似,各自针对不同时间尺度的运动建模。S-TDC 块通过计算连续帧之间的差异来聚焦短期运动:
这种短期运动建模设计增强了网络对细粒度和快速变化运动模式的敏感性,使其能够有效捕获连续帧之间的细微变化。同时,M-TDC 块通过计算间隔两帧的帧间差异来捕获中间尺度的运动上下文,以其独特的时间范围补充短期和长期建模:
这种设计使网络能够捕获中期运动上下文依赖关系,同时减轻冗余运动或噪声的影响。三个TDC块共同作用,在不同时间尺度上捕获互补的时空特征,从而增强了整体运动上下文建模能力。
因此,TDCR 模块通过三个并行的TDC分支捕获多尺度运动上下文依赖关系:F̃_s = BN_s(F_s),F̃_m = BN_m(F_m),F̃_l = BN_l(F_l),其中 BN_{s,m,l} 是它们对应的批归一化层。然后将三个输出聚合为 TDCR 模块的最终输出:F_TDCR = F̃_s + F̃_m + F̃_l。
多尺度TDC分支的重参数化。我们首先通过参数转换融合每个TDC分支内的卷积和BN操作:Ŵ_i = γ_i · W_i / σ_i,b̂_i = γ_i · (b_i - μ_i) / σ_i + β_i,其中 W_i 和 b_i 表示卷积核权重和偏置,γ_i、β_i、μ_i、σ_i 是批归一化的参数。利用卷积的齐次性和可加性,我们将三个TDC分支合并为单个3D卷积:Ŵ_TDCR = Σ_{i∈{s,m,l}} Ŵ_i,b̂_TDCR = Σ_{i∈{s,m,l}} b̂_i。得到的重参数化TDCR模块可以表示为:TDCR(F) = Ŵ_TDCR * F + b̂_TDCR。这种重参数化在保持多尺度运动上下文建模优势的同时,提高了模型内部推理的效率。
3.4 TDC引导的时空注意力模块
如图2底部中心所示,我们提出了一个 TDC引导的时空注意力模块,以优化杂乱红外场景中移动小目标的特征表示。与直接融合多帧特征的传统方法不同,TDCSTA 引入了一种三分支架构来解耦并专门处理不同的时空线索,从而实现更结构化和有效的特征交互。具体来说,TDCSTA 对分别从各自主干网络最后三个阶段提取的三个特征流进行操作:来自TDC主干网络的时间差分卷积特征、来自3D主干网络的时空特征 以及来自2D主干网络的空间特征。通过捕获全局语义依赖关系并实现选择性特征交互,TDCSTA 生成时空增强特征,帮助模型更准确地聚焦于小目标,并提高检测性能。增强后的特征随后被传递到检测颈部和检测头部,以产生最终的检测结果。
用于增强语义表达能力的自注意力机制。为了增强每个特征流的语义表示能力并有效抑制无关的背景杂波,我们独立地对三个特征流 T DCF_i、ST F_i 和 SF_i 在每个阶段 i 应用自注意力机制。我们将每个特征流 F_S ∈ R^{T × C × H × W} 划分为大小为 P × M × M 的非重叠3D局部窗口,并应用常规和偏移窗口划分两种方式计算自注意力。形式上,自注意力定义为:
其中 Q, K, V ∈ R^{PM^2 × d} 是每个窗口内输入标记的线性投影,d 是嵌入维度,B 是相对位置偏置。我们将此机制应用于每个特征流:F̂_TDCF,i = SA(T DCF_i),F̂_STF,i = SA(ST F_i),F̂_SF,i = SA(SF_i)。
用于TDC引导的语义依赖建模的交叉注意力机制。为了显式地建模由运动感知特征引导的语义依赖关系,我们采用了一种交叉注意力机制,其中 F̂_TDCF,i 作为查询,而 F̂_STF,i 和 F̂_SF,i 分别作为键和值。交叉注意力机制的输出是时空增强特征,定义为:
其中 Q_i 来自 F̂_TDCF,i,K_i 来自 F̂_STF,i,V_i 来自 F̂_SF,i。通过利用 F̂_TDCF,i 中编码的具有判别性的运动上下文线索(该线索能突出显著目标区域并抑制复杂背景干扰),该机制使模型能够关注时空维度上语义相关的区域,从而增强语义依赖关系建模并优化当前帧的时空表示。
4 实验结果与分析
4.1 数据集与评估指标
数据集。我们在两个真实红外基准数据集上评估我们的方法:一个自建的IRSTD-UAV数据集和一个公开的IRDST数据集。IRSTD-UAV数据集包含17个真实红外视频序列,共计15,106帧图像,其中包含小目标以及建筑物、树木和云层等复杂背景。更多关于我们数据集的细节在补充材料中提供。
评估指标。为进行评估,我们采用标准指标,包括精确率、召回率、F1分数以及平均精确度,所有指标均在交并比阈值为0.5的条件下计算。实时性能以每秒帧数来衡量,而计算复杂度则使用参数量和浮点运算次数进行评估。
4.2 实现细节
所有实验均在单张NVIDIA RTX 3090 GPU(CUDA 12.4, PyTorch 2.7)上进行。训练使用Adam优化器,学习率为0.001,权重衰减为1e-4。我们首先在静止图像上预训练2D主干网络,在多帧输入上预训练3D主干网络。然后冻结这两个网络,在视频序列上训练TDC主干网络和TDCSTA模块。输入帧被调整大小为640×640,训练和推理时使用连续的5帧作为输入。我们采用IoU损失进行边界框回归,采用二元交叉熵损失进行目标性和分类预测:L = L_reg + L_obj + L_cls。
对于单帧方法,我们选取了基于CNN的通用检测器YOLO11-L、YOLOv12-L和Hyper-YOLO-M,以及专门为IRSTD设计的MSHNet和PConv。此外,我们还选取了基于Transformer的红外专用基线模型SCTransNet。对于多帧方法,我们选取了红外专用的基于CNN的方法,包括TMP、SSTNet、MOCID、STMENet、RFR和DTUM。
4.3 定量结果
如表1所示,我们提出的TDCNet在IRSTD-UAV数据集上的精确率、召回率、F1分数和平均精确度指标上均达到了最优性能;在IRDST数据集上的召回率、F1分数和平均精确度指标上也达到了最优。TDCNet的表现优于MSHNet和Hyper-YOLO-M等所有单帧方法,这些方法因缺乏时序建模而在杂乱红外场景中鲁棒性有限。在多帧方法中,TDCNet实现了最高的召回率、F1分数和平均精确度。其他方法如MOCID和SCTransNet由于运动建模不足或时空特征表示欠佳,在复杂场景中效果较差。TDCNet实现了较低的计算成本(95.7G FLOPs)和合理的推理速度(18.5 FPS)。

4.4 定性结果
如图5所示,我们的TDCNet在IRSTD-UAV和IRDST数据集中两个具有挑战性的红外场景下均表现出优异的检测性能。即使在存在强背景杂波(如城市结构和类光干扰物)的情况下,TDCNet也能有效突出真实的无人机目标并抑制误报。这是因为TDCR模块能够有效捕获多尺度运动上下文依赖关系,而TDCSTA则有选择地增强与目标相关的特征,同时抑制无关的背景杂波。

YOLO11-L、Hyper-YOLO-M和PConv在复杂红外场景下表现不佳,由于缺乏时序建模和运动感知特征表示,经常漏检真实目标并产生误报。SCTransNet由于缺乏显式的运动上下文指导而产生误报。尽管MOCID包含了运动上下文,但未能捕获多尺度时间依赖关系,这限制了其抑制复杂背景杂波的能力。更多可视化结果见补充材料。
4.5 消融实验
本节汇报消融研究,更多实验见补充材料。

提出的TDCR和TDCSTA的影响。如表2所示,TDCR和TDCSTA各自独立地为基线模型带来了性能提升。具体而言,TDCR将精确率提升至97.61,平均精确度提升至92.50;而TDCSTA将召回率提升至95.96,F1分数提升至96.74。TDCR和TDCSTA结合使用取得了最优结果,突显了它们的互补优势。为了更好地理解其效果,我们在图6中可视化了热力图。与基础模型相比,TDCR在目标上产生了更集中、更易区分的激活。在应用TDCSTA后,无关的背景激活被显著抑制,进一步增强了杂乱红外场景中目标的显著性。

TDC的影响。如表3所示,仅使用时序差分(TD)会导致召回率和平均精确度受限,因为它仅利用了帧间强度变化而丢弃了大部分空间上下文信息。相比之下,3D卷积由于其建模显式时间依赖关系的能力有限,导致了较低的F1分数和平均精确度。简单地结合TD和3D卷积依赖于单尺度的时空上下文,带来了一定的性能提升。而我们的方法实现了更大的性能改进,将平均精确度从89.81提升至92.50,且未引入额外的计算成本。这是因为我们提出的TDC将时序差分和3D卷积融合为一个统一且可学习的表示,该表示能够捕获跨不同时间范围的多尺度时空上下文依赖关系。

不同时空上下文特征的影响。表4显示,融入不同时间尺度的时空上下文特征会带来显著的性能提升。S-TDC块通过捕获细粒度的短期时空上下文特征,将精确率提升至96.19,F1分数提升至94.91。M-TDC将召回率提升至95.79,F1分数提升至95.65。L-TDC捕获长程依赖关系,实现了97.49的精确率和92.35的平均精确度。当所有分支结合时,模型在所有指标上达到了最佳结果,证实了多尺度时序建模能提供对鲁棒小目标检测至关重要的互补运动线索。

TDCR中重参数化的影响。根据表5,重参数化将参数量从24.85M减少到24.76M,将FLOPs从102.96G减少到95.67G,同时保持了稳定的检测性能,这证明了在不牺牲准确性的前提下效率得到了提升。

TDCSTA的影响。从表6中,我们观察到将时序差分卷积特征设置为查询,将时空特征和空间特征分别设置为键和值时,取得了最佳性能(F1为96.74,平均精确度为92.35)。将查询替换为时空特征或空间特征会导致所有指标显著下降,这证实了时序差分卷积特征在TDCSTA中提供了更具判别性的指导,这对于在杂乱场景中准确定位目标至关重要。

5 结论
本文提出了一种用于移动红外小目标检测的新模型TDCNet。TDCNet包含两个关键设计:TDCR模块和TDCSTA机制。TDCR模块能捕获多尺度时间上下文特征,同时抑制复杂背景,且在推理时不会产生额外的计算成本。TDCSTA机制对两个三维特征流之间的语义关系进行建模,以细化当前帧中关键目标区域的表示。这些组件有效增强了时空特征表示,使TDCNet在IRSTD-UAV和公开的IRDST数据集上超越了现有方法。尽管性能强大,TDCNet仍具有相对较高的模型复杂度,我们计划在未来的工作中通过探索轻量高效的架构来解决这一问题。
更多推荐
所有评论(0)