MFDA-YOLO：面向无人机小目标检测的多尺度特征融合与动态对齐网络

同时，为让AIFI模块更高效地提取关键信息，我们在输入处添加了1×1卷积层以实现通道压缩——这既完成了通道压缩、过滤冗余信息，也确保模块能高效聚焦于无人机检测中最显著的特征。为此，我们采用注意力驱动的尺度内特征交互（AIF）模块替代骨干网络中的SPPF模块——该模块通过单尺度注意力机制捕捉同尺度特征间的依赖关系，增强网络的聚焦能力。随后，经骨干网络增强的特征被输入颈部网络，由我们专门设计的DIDP

计算机视觉研究院

1198人浏览 · 2025-12-19 09:31:06

计算机视觉研究院 · 2025-12-19 09:31:06 发布

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12680328/

计算机视觉研究院专栏

Column of Computer Vision Institute

将YOLOv8等标准检测器应用于无人机航拍影像时，会面临尺度差异大、目标微小、背景复杂等显著挑战。其通用的特征融合架构易产生假阳性结果或遗漏小目标。为解决这些局限，我们提出一种基于YOLOv8改进的MFDA-YOLO模型。

PART/1

概述

该模型在骨干网络中引入注意力驱动的尺度内特征交互（AIF）模块，增强对多尺度目标的适应性并强化特征表示；在颈部网络中，设计无人机影像检测金字塔（DIDP）网络，整合空间转深度卷积模块，实现多尺度特征从浅层到深层的高效传递；通过在跨阶段局部网络中引入全核模块，恢复图像的全局上下文感知能力，同时消除计算负担，扩展传统的P2检测层。

针对检测头中定位与分类任务协同不足的问题，我们设计动态对齐检测头（DADH）——通过多尺度特征交互学习与动态特征选择机制，实现跨任务表示优化，大幅降低模型复杂度并保持检测精度。此外，我们采用WLoUv3损失函数，动态调整聚焦系数，增强模型对小目标的区分能力。

大量实验结果表明，MFDA-YOLO在VisDrone2019、HIT-UAV和NWPU VHR-10等数据集上，性能优于YOLOv11、YOLOv13等现有主流方法。特别是在VisDrone数据集上，MFDA-YOLO超越基准模型YOLOv8n：mAP0.5提升4.4个百分点，mAP0.5:0.95提升2.7个百分点；同时参数量减少17.2%，有效降低了假阴性与假阳性率。

PART/2

背景

随着科技的飞速发展，无人机（UAV）已广泛应用于农业、灾害救援、运输等领域。其灵活性、低成本与易操作性的优势显著，但无人机目标检测常面临尺度变化、动态视角、复杂背景、密集目标重叠等挑战，导致传统检测框架效果不佳。因此，研发适用于复杂环境的轻量化、高精度无人机小目标检测算法，具有重要的研究价值与应用潜力。

目标检测算法的精度与效率已随深度学习（尤其是卷积神经网络）的广泛应用得到显著提升，超越了传统方法。基于深度学习的检测算法大致分为两类：单阶段算法（如YOLO系列）与两阶段算法（如R-CNN系列）。

综上，研发兼顾精度、效率与轻量化设计的无人机检测算法仍是核心挑战。由于无人机对实时性有要求，更高效的单阶段检测器是更有前景的研究方向。因此，本研究选择YOLOv8作为基准模型——它在速度与精度之间实现了出色的平衡，但在无人机检测常见的小目标、复杂背景场景中仍表现不佳，体现了单阶段检测器的固有局限。为解决这一问题，我们提出MFDA-YOLO，旨在大幅增强模型的多尺度特征能力，同时严格控制计算复杂度。本文的主要贡献如下：

1. 无人机航拍中密集小目标的检测依赖精准的空间细节，而空间金字塔池化快速（SPPF）模块恰好容易模糊这些细节，导致漏检。为此，我们采用注意力驱动的尺度内特征交互（AIF）模块替代骨干网络中的SPPF模块——该模块通过单尺度注意力机制捕捉同尺度特征间的依赖关系，增强网络的聚焦能力。

2. 无人机小目标检测需要P2层的细节信息，但这会带来较高的计算成本。为此，我们提出无人机影像检测金字塔（DIDP）：模型采用SPD卷积对P2层进行无损下采样，将空间结构信息重组到通道维度；同时设计C-OKM模块恢复遗漏的图像细节，为后续特征融合提供更丰富的特征。

3. 为进一步缓解P2检测层引入的参数复杂度问题，我们提出动态对齐检测头（DADH）：该模块先通过共享卷积提取特征，最大限度控制模型参数量；再通过任务分解为每个任务提取对应特征；结合可变形卷积与动态权重选择机制实现自适应处理，有效缓解任务间的冲突。

4. 考虑到轻量化检测器在处理大量低质量样本时收敛困难，我们将基准的CIOU损失函数替换为WLoUv3损失函数——它通过动态系数引导模型关注难以区分的小目标，并通过自适应归一化有效缓解振荡问题。

本节全面分析YOLOv8的网络架构，并阐释其组件模块的功能。在此基础上，探讨该模型应用于特定任务时存在的固有局限。与前代YOLO模型相比，YOLOv8优化了网络结构，如图1所示，其核心架构包含三个模块：骨干网络（Backbone）、颈部网络（Neck）与检测头（Head）。

图1

PART/3

新算法框架解析

本研究基于YOLOv8提出面向无人机目标检测的MFDA-YOLO模型，有效解决了无人机场景中的两个核心问题：小目标特征丢失，以及边缘设备的计算约束。MFDA-YOLO的整体网络架构如图2所示，核心改进覆盖骨干网络、颈部网络与检测头。

图2

在骨干网络中，我们引入AIF模块——其全局注意力机制增强了深度特征表示，有效缓解了连续下采样导致的小目标信息丢失。随后，经骨干网络增强的特征被输入颈部网络，由我们专门设计的DIDP模块处理小目标特征：该模块高效恢复多尺度特征，确保微小目标的细节被保留并有效传递。

最终，这些经过优化的特征被输入DADH检测头：通过学习任务交互特征并采用动态特征选择机制，该模块显著提升了分类与定位精度。此外，整个架构采用WLoUv3损失函数优化，引导模型在训练中聚焦具有挑战性的复杂目标，进一步提升整体性能。

AIFI模块

无人机的高飞行高度使目标变得极小，而平台的快速移动会模糊识别所需的精细纹理细节。传统SPPF模块虽高效，但在这类场景中往往效果不佳——其为通用特征提取设计的重复池化操作，可能会意外抹除定义航拍小目标所需的细微但关键的信息。

为解决这一问题，我们用AIFI模块替代传统SPPF模块：该模块通过自注意力机制处理高层语义特征，有效捕捉无人机检测中的纹理细节。同时，为让AIFI模块更高效地提取关键信息，我们在输入处添加了1×1卷积层以实现通道压缩——这既完成了通道压缩、过滤冗余信息，也确保模块能高效聚焦于无人机检测中最显著的特征。AIFI的结构如图3所示。

AIFI模块将输入的2D特征图：

转换为1D特征序列：

随后，该序列通过多头自注意力机制处理，学习位置关联并生成注意力特征；接着进行残差拼接与层归一化，以保留原始特征信息；前馈网络进一步引入非线性变换，学习特征序列间的复杂关联；最终，生成的序列被重构为2D特征图，实现全局上下文信息与局部空间结构的有效融合。AIFI模块流程的数学表示如下：

无人机影像检测金字塔

尽管AIFI模块增强了骨干网络的特征，但如何将这些特征有效融合以实现小目标检测，仍是核心挑战。标准特征金字塔（P3-P5）缺乏无人机影像中常见小目标所需的分辨率。

然而，直接引入高分辨率的P2层会带来极高的计算开销，这对于需要实时响应的资源受限无人机平台而言并不现实。

为解决这些问题，我们针对无人机影像的小目标检测设计了DIDP模块：在P2检测层，我们采用SPD卷积进行特征提取，并将其与P3检测层融合；同时，为避免特征衰减，我们提出C-OKM模块——该模块通过跨阶段局部网络实现通道分离，并整合全核（Omni-Kernel）的多尺度感知能力，以实现高效的特征恢复。

SPD-Conv模块

SPD-Conv通过空间重组与卷积操作提取多尺度特征，提升了低分辨率图像中小目标的检测精度。该模块包含两个核心组件：SPD层与无步长卷积（N-S Conv）层。SPD-Conv的工作流程如图4所示。

图4

C-OKM模块

然而，在特征提取与融合后，特征仍易因运动模糊和抖动出现衰减。为此，我们设计了C-OKM模块来实现图像恢复。如图5所示，C-OKM模块采用多分支架构，可在很大程度上恢复小目标特征，同时保持计算效率。

图5

如图5(a)所示，跨阶段局部结构将输入特征图划分为4个通道切片。其中一个切片经全核（Omni-Kernel）模块增强后，与其他切片融合，以保留通道维度的原始特征。全核模块如图5(b)所示：输入特征先通过1×1卷积层变换，随后分为3个分支，分别捕捉局部、大尺度和全局特征；各分支的输出经加法融合后，再通过另一个1×1卷积层进一步细化。

在局部分支中，我们采用1×1深度可分离卷积（D-Conv）增强局部图像特征；在大分支中，采用低复杂度的大奇数尺寸KK捕捉大尺度特征并扩大感受野；同时，为高效捕捉上下文信息并控制计算开销，我们在瓶颈位置并行使用1×31和31×1的D-Conv。

在全局分支中，网络主要基于裁剪后的图像片段训练，但推理时输入图像的尺寸远大于训练样本——这种尺寸差异导致卷积核无法覆K×K盖整个全局域。因此，我们引入双域处理技术增强全局建模能力：具体而言，全局分支整合了两个核心模块，即图5(c)中的双域通道注意力模块（DCAM）和图5(d)中的基于频率的空间注意力模块（FSAM）。

DCAM模块先通过傅里叶变换将特征转换到频域，再利用空间域全局平均池化生成的通道权重对频域特征进行重加权，随后在空间域进行二次通道优化；FSAM模块通过双路径在频域提取全局上下文，并生成空间域重要性掩码，这些掩码在频域融合后，经逆变换返回空间域。

动态对齐检测头

无人机的动态观测视角，加剧了检测模型中分类与定位任务的固有冲突。目标外观的剧烈变化放大了核心矛盾：特征无法同时满足分类所需的通用性与定位所需的精准性，进而导致定位精度下降。

为解决这一问题，我们结合TOOD的交互标签分配机制与任务一致性优化，提出DADH模块。与依赖注意力加权的动态头（如DyHead）不同，DADH整合了可变形卷积网络v2（DCNv2）与任务分解，动态优化定位任务的特征采样。DADH模块的具体细节如图6所示：首先通过共享卷积层高效提取多尺度特征；随后将这些特征输入任务分解模块，解耦为定位与分类两个并行分支。在定位分支中，我们引入DCNv2动态优化特征采样区域，以适配无人机航拍影像中目标的复杂几何形变；同时，分类分支通过对共享特征进行动态加权，生成更具区分性的任务专属特征表示。最终，动态对齐过程增强了两个并行分支间的特征一致性，使两者能生成更精准的分类与定位预测结果。

共享卷积层

为减少模型参数量并高效整合多尺度特征，我们设计了共享卷积层：输入特征图先经过共享卷积进行初始特征提取，随后通过组归一化将通道划分为多个组并进行组内标准化；之后，处理后的特征图再次进行卷积与组归一化操作，进一步细化并提取更深层的特征信息；最后，将细化后的特征与原始输入沿通道维度拼接，整合层级特征并增强表示能力。输出特征图Y是通过将共享卷积核K在输入X的局部区域滑动计算得到的，其表达式为：

其中(i,j)是输出特征图 Y 上的位置。最终增强后的特征图 Y 会作为统一输入，送入后续的动态选择与任务分解模块。

任务分解

在单分支网络中，分类与定位任务对特征的不同需求，会在共享同一组特征时引发特征冲突。为解决这一问题，我们引入任务分解机制，其核心是加入逐层注意力机制——该机制动态解耦共享的任务交互特征，从而生成任务专属的特征表示。任务分解的原理如图7所示。

图7

WLoUv3损失函数

无人机影像中剧烈的尺度变化与密集重叠的目标，给边界框回归带来了显著挑战。YOLOv8默认的CIoU损失函数尤其容易受这些问题影响，在拥挤场景中往往收敛到局部最优解，导致定位精度不理想。为解决这些局限，我们引入WLoUv3——这是一种采用动态非单调聚焦策略的损失函数。该设计通过聚焦样本质量、缓解低质量样本常被分配的过度梯度，增强了模型的适应性。 WLoUv3损失函数通过“离群程度”评估候选锚框的质量：离群程度越低，锚框质量越高；离群程度越高，锚框质量越低。

PART/4

实验及可视化

消融实验

我们评估了WLoUv3中超参数α和δ对检测精度的影响，在VisDrone2019数据集上测试了关键参数组合。

为验证所提AIFI、DIDP、DADH和WLoUv3模块对MFDA-YOLO模型的有效性，我们在VisDrone2019数据集上开展了以下消融实验，详细结果汇总于表2。

表2

为评估所提方法的有效性，我们开展了大量对比实验。对比方法包括YOLO系列的多个版本（如YOLOv5s、YOLOv5n、YOLOv8n、YOLOv9-t、YOLOv10n、YOLOX、YOLOv11n、YOLOv12n、YOLOv13n），以及FCOS、Retina-Net等其他模型。我们从参数量、精确率、FPS、mAP0.5和mAP0.5:0.95等维度综合评估各模型性能，结果在Visdrone2019-DET-Test数据集下汇总于表3。

表3

实验结果显示：Retina-Net和FCOS因参数量较多，不适用于无人机实时目标检测；MFDA-YOLO在参数量与检测精度间实现了更好的平衡——仅2.49M参数量，却达到了0.317的mAP0.5和0.180的mAP0.5:0.95，性能优于YOLOv12n、YOLOv13n等近期YOLO变体。同时，其轻量化设计增强了无人机场景下的小目标检测能力，实现了149 FPS的实时性能，且精确率提升4.5个百分点。

为可视化MFDA-YOLO模型在解决漏检和误检问题上的有效性，我们将其与YOLOv8n的混淆矩阵进行了对比，结果如图8和图9所示。

图8

图9

为全面评估目标检测模型在无人机场景中的可靠性与灵活性，我们开展了系统的多环境测试。

图10

图10展示了MFDA-YOLO模型在各类复杂环境下的目标检测能力。通过对不同地理位置、不同无人机飞行高度下的检测结果进行详细可视化分析，我们发现：MFDA-YOLO在复杂环境中对密集型、小型目标的检测精度较高。

MFDA-YOLO模型在密集环境中表现出优异的检测性能，非常适用于无人机目标检测场景。在密集人群与车辆场景中，我们发现该模型能有效识别行人、摩托车等小目标（这些目标常被YOLOv8n和YOLOv11n模型遗漏），同时还成功减少了车辆类别的误分类问题。为验证MFDA-YOLO模型在红外环境下的性能，我们对YOLOv8n、YOLOv11n和MFDA-YOLO进行了全面的热成像图分析，结果如图11所示。

图11

在第一排图像中，MFDA-YOLO模型能够检测到更多小目标；在第二排图像中，YOLOv8n处理密集场景时明显注意力不足，导致漏检率高且存在误检；在第三排图像中，YOLOv8n和YOLOv11n均出现漏检，而MFDA-YOLO模型检测到了大部分目标，减少了漏检与误检。

总体而言，MFDA-YOLO模型能更关注细粒度细节，检测范围更广，相比YOLOv8n和YOLOv11n展现出更优的检测性能。

有相关需求的你可以联系我们！

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

九章云极普惠算力

更多推荐

Webpack HMR在aspnetcore-Vue-starter中的应用：提升开发效率的秘诀

aspnetcore-Vue-starter是一个集成了ASP.NET Core后端与Vue.js前端的强大单页应用模板，它通过Webpack热模块替换（HMR）技术，为开发者提供了无缝的开发体验，让前端代码修改无需手动刷新页面即可实时生效。## 🚀 什么是Webpack HMR？Webpack热模块替换（Hot Module Replacement）是一项革命性的开发技术，它允许在应用

九章云极普惠算力

人脸识别真的需要深度学习吗？ArcFace技术深度解析

在当今数字化时代，人脸识别技术已广泛应用于安防、支付、智能门禁等领域。许多人好奇：人脸识别真的需要深度学习吗？答案是肯定的。传统方法在复杂场景下识别精度有限，而基于深度学习的ArcFace技术通过创新的角度损失函数，实现了高精度的人脸识别。本文将深入解析ArcFace技术的原理、优势及实际应用。## 一、传统方法的局限性传统人脸识别方法如 Eigenfaces、Fisherfaces 等，

九章云极普惠算力

如何使用Nut高效管理NS游戏文件：新手入门教程

Nut是一款功能强大的NS游戏文件管理工具，能帮助玩家轻松管理、组织和优化Switch游戏文件。无论是本地存储还是云端文件，Nut都提供了直观的界面和实用的功能，让游戏管理变得简单高效。本文将为你详细介绍Nut的安装步骤、核心功能及使用技巧，让你快速掌握这款工具的使用方法。## 一、准备工作：安装Nut### 1.1 环境要求Nut基于Python开发，支持Windows、Linux和m