YOLO-Drone：一种用于微型无人机目标检测的优化YOLOv8网络

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式https://www.mdpi.com/2079-9292/12/17/3664计算机视觉研究院专栏Column of Computer Vision Institute随着无人机在商业和工业领域的广泛应用，无人机检测在公共安全等领域受到越来越多的关注，无人机目标检测技术也随之快速发展。

计算机视觉研究院

1004人浏览 · 2025-06-16 09:00:35

计算机视觉研究院 · 2025-06-16 09:00:35 发布

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

https://www.mdpi.com/2079-9292/12/17/3664

计算机视觉研究院专栏

Column of Computer Vision Institute

随着无人机在商业和工业领域的广泛应用，无人机检测在公共安全等领域受到越来越多的关注，无人机目标检测技术也随之快速发展。然而，无人机尺寸小、空域背景复杂、光照条件多变等问题，仍为此领域的研究带来重大挑战。

PART/1

概述

针对上述问题，本文提出一种基于优化YOLOv8的微型无人机检测方法。首先，在检测头组件中增加高分辨率检测头，提升模型对小目标的检测能力，同时裁剪大目标检测头及冗余网络层，有效减少网络参数量并提高无人机检测速度；其次，在特征提取阶段，使用SPD-Conv（谱域分解卷积）替代传统卷积（Conv）进行多尺度特征提取，减少细粒度信息丢失，增强模型对小目标的特征提取能力；最后，在颈部网络引入GAM注意力机制，强化模型对目标特征的融合效果，提升无人机检测的整体性能。与基线模型相比，该方法在精确率（P）、召回率（R）和平均精度均值（mAP）上分别提升11.9%、15.2%和9%，同时参数量和模型大小分别减少59.9%和57.9%。此外，该方法在对比实验和自建数据集实验中均表现出明显优势，更适用于工程部署及无人机目标检测系统的实际应用。

PART/2

背景

随着无人机技术的进步，无人机被广泛应用于航拍、应急响应、农业规划等多个领域。然而，无人机的发展也带来了一系列管理问题，包括非法“黑飞”、利用无人机实施犯罪与恐怖活动，以及通过携带爆炸物转化为危险武器的潜在风险。无人机已成为恐怖主义的新工具，对公共安全构成重大威胁。针对日益严峻的无人机威胁，在禁区周边建立反无人机系统迫在眉睫，而非法无人机检测作为反无人机系统的关键组成部分[4]，已成为研究人员广泛关注的课题。提高敌方无人机目标的检测精度和处理速度，进行有效的预警检测并采取拦截措施，是掌握制空权、维护国家安全和社会稳定的关键。

当前多数预警检测设备存在部署位置固定、体积庞大、目标暴露明显等缺陷，无法灵活部署在隐蔽的前沿阵地，因此需要轻量化、易部署的大规模预警设备填补这一空白。解决无人机目标检测问题面临以下挑战：

（1）无人机具有尺寸小、使用“隐形”材料、低空侦察目标、起飞平台灵活等特点；

（2）复杂的空域环境常受云层、光照和物体遮挡影响，导致利用电磁等信号检测无人机群时易出现误检和漏检。

随着计算机视觉技术和神经网络的快速发展，基于视频和图像帧的方法已广泛用于提取目标轮廓、颜色、形状等特征，实现目标位置和运动行为的实时检测。该方法在公共安全监控、智能交通系统、国防安全、人机交互系统和安全生产中具有广泛应用。将计算机视觉技术应用于无人机检测，为空域预警开辟了新途径，展现出广阔的实际应用前景。

近年来，硬件设备性能的提升增强了计算机数据处理能力，推动了依赖大数据深度学习的视觉技术快速发展。基于计算机视觉技术的目标检测已引起研究人员的广泛关注，其发展已从传统的使用卷积计算进行目标检测的手动特征提取方法，演变为利用深度学习提升视觉目标检测的识别精度。与雷达、激光、红外、音频和射频等传统电磁信号检测方法相比，使用视觉传感器（特别是捕获群体视频和图像数据的摄像头）进行目标检测，能够提供更直观的检测结果和群体信息识别，具有实时动态记录目标序列图像、成本低、检测速度快、抗低空杂波干扰等优势。

目标检测是计算机视觉中的重要研究领域，也是众多复杂视觉任务的基础，已广泛应用于工业、农业等领域。自2014年以来，基于深度学习的目标检测技术取得了显著进展，业界推出了Faster R-CNN、SSD和YOLO系列等多种算法，以进一步提升目标检测性能。随着目标检测技术的快速发展，针对无人机目标检测任务涌现出了一些实用方法。例如，有作者指出卷积神经网络难以平衡检测精度和模型大小，为解决这一问题，他们在原始极小面部检测器（EXTD）中引入循环路径和空间注意力模块，增强了其对小型无人机目标的特征提取能力，且模型大小仅为690.7 kb。然而，该模型推理时间较慢，不适合实际工程场景部署。有文献提出了一种基于多尺度特征融合的无人机目标检测网络，该网络首先使用res2net提取目标多感官场特征，然后在细粒度多尺度特征提取和分层多尺度特征融合方面提升网络性能，最终在自建的无人机检测数据集上取得了较好结果。有文献提出了一种新的无人机检测方法，该方法克服了无人机检测过程中参数和计算环境的限制，利用Web应用实现了逼真检测。当前研究首先筛选适合在该Web应用中部署的SSD预训练模型，以提高检测精度和召回率，实验结果表明Web应用方法优于机载处理方法，取得了更好的效果。有文献提出了一种轻量级特征增强卷积神经网络，能够对低空飞行物体进行实时高精度检测，有效预警空域内的非法无人机并提供引导信息。有文献引入了一种名为卷积变换网络（CT-Net）的新型深度学习方法，该网络的主干首先融入注意力增强变换块，建立特征增强多头自注意力机制以提高模型的特征提取能力，然后采用轻量级瓶颈模块控制计算负载并减少参数，最后提出方向特征融合结构以增强处理多尺度物体（尤其是小尺寸物体）时的检测精度。该方法在自建的低空小物体数据集上实现了0.966的mAP，展示了良好的检测精度，但FPS仅为37，表明检测速度仍有提升空间。

尽管无人机检测技术已取得显著进展，但现有检测方法在平衡检测精度、模型大小和检测速度方面仍面临挑战。YOLO系列检测网络已有效解决了这些问题，该系列模型历经八次官方迭代和多个分支版本，展现出卓越的检测精度和速度性能，在医学、交通、遥感和工业等各个领域均有广泛应用。学者们已对使用YOLO系列模型进行无人机目标检测展开了广泛研究，众多研究成果印证了这一点。例如，有文献通过在PP-YOLO检测算法中融入注意力机制模块对其性能进行增强，此外，引入Mish激活函数解决了反向传播过程中的梯度消失问题，使检测精度显著提升。有文献提出了一种适用于复杂城市背景的无人机检测算法，该算法基于YOLOv3，采用FPN进行多尺度预测，提升了系统对小目标的检测性能，同时利用轻量级Ghost网络加速模型，实现了网络轻量化。实验结果表明，该算法能有效检测复杂场景中的小型无人机目标，且具有较强的鲁棒性。有文献使用轻量级卷积神经网络MobileNetv2替代高性能YOLOv4模型的原始CSPDarknet53主干，旨在减小模型规模并简化计算操作。实验结果表明，Mob-YOLO能够以更小的模型尺寸实现对无人机目标的准确实时监控，可部署于机载嵌入式处理器。有文献提出了一种基于YOLOv5的分布式反无人机系统，该系统集成机场防御能力，通过融入自动瞄准和干扰信号广播等功能应对无人机干扰场景，实现对非法无人机的拦截。为满足机场广阔禁飞区的需求，该系统采用分布式集群部署在机场周围，有效解决了检测盲区和目标丢失问题。

实验结果表明，基于YOLOv5算法的自动瞄准具有较高精度，推理速度和模型大小满足实时硬件检测要求。尽管该系统在改进YOLOv5方面创新性不足，但其将无人机目标检测技术成功应用于实际工程场景的经验仍具有参考价值。有文献提出了YOLOX-drone，这是一种基于YOLOX-S的改进型无人机目标检测算法。该研究在YOLOX-S目标检测网络的基础上，首先引入协调注意力机制以改善无人机目标的图像突出显示，增强有用特征并抑制无用特征；其次，针对该研究设计了特征聚合结构，以改善有用特征的表示，抑制干扰并提高检测精度。改进后的算法在公开的DUT-Anti-AV数据集和自生成数据集上均表现良好，展示出较强的障碍物检测能力。

结合上述相关文献中针对YOLO系列提出的改进思路，本文对YOLOv8s模型进行改进，提出一种适用于微型无人机目标检测的新模型。该模型在具有挑战性的小型无人机数据集上实现了高检测精度和速度，并大幅减小了模型尺寸和参数量，为微型无人机目标检测领域的模型部署提供了新途径。

PART/3

新算法框架解析

YOLOv8网络结构 YOLOv8在先前YOLO版本的基础上进一步引入新特性与改进，以提升性能和灵活性，实现了顶尖的检测表现与卓越速度。该模型提供五种不同规模的版本：nano、small、middle、large和extra-large。其中Nano模型参数量仅320万，便于部署在移动设备或仅含CPU的设备上。为平衡检测精度与速度，本文采用YOLOv8s作为无人机检测模型，其通过对nano网络结构进行深度和宽度的扩展得到。YOLOv8的网络架构分为主干（backbone）、颈部（neck）和头部（head），分别用于特征提取、多特征融合和预测输出。YOLOv8的网络设计如下图所示。

特征提取网络主要通过C2f和SPPF模块从图像中提取不同尺度的特征。C2f模块在原始C3模块基础上减少一个卷积层，使模型更轻量化，同时融入YOLOv7中ELAN结构的优势，利用瓶颈模块有效扩展梯度分支以获取更丰富的梯度流信息。SPPF在SPP（空间金字塔池化）基础上减少网络层，消除冗余操作并实现更快速的特征融合。多尺度融合模块采用FPN（特征金字塔网络）与PAN（路径聚合网络）结合的方式，通过对低层特征和高层特征进行双向融合，增强感受野较小的低层特征，提升对不同尺度目标的检测能力。检测层负责预测目标位置、类别、置信度等信息。YOLOv8的头部从基于锚框（anchor-based）转向无锚框（anchor-free）方式，摒弃IOU匹配或单侧尺度分配，改用任务对齐分配器（task-aligned assigner）进行正负样本匹配，最终利用8×、16×和32×下采样特征进行多尺度预测，实现对小、中、大目标的精准预测。YOLOv8网络中的详细模块如下图所示。

改进的YOLOv8无人机检测模型 YOLOv8通过深度残差网络提取目标特征，并利用PAN结构完成多尺度预测。但在特征提取过程中，YOLOv8仍需进行三次下采样迭代以获取最大特征图，这会导致大量目标特征信息丢失，而这些信息对微型目标检测至关重要。因此，本文对YOLOv8进行改进，提出适用于无人机微型目标检测的网络模型，改进后的网络结构如下图所示。

具体改进方案如下：（1）在检测头部分增加高分辨率检测分支，增强模型对微型目标的检测能力；同时裁剪大目标预测的检测层及其相关特征提取与融合层，减少模型参数。（2）改进多尺度特征提取模块，使用SPD-Conv[32]替代传统卷积（Conv）以提取多尺度特征。（3）在多尺度融合模块中引入GAM注意力机制[33]，强化模型对目标特征的融合效果。

检测头的改进

A.添加微型目标检测头

本文的检测对象为低空飞行的无人机。当使用相机捕捉无人机图像时，为防止飞行中的无人机冲出相机视野，相机通常会保持较大的视场范围，因此无人机在图像中的占比通常较小。原始YOLOv8模型的主干网络共进行五次下采样，得到五层特征表示（P1、P2、P3、P4和P5），其中Pi表示分辨率为原始图像的1/2ⁱ。尽管颈部网络通过自上而下和自下而上的聚合路径实现了多尺度特征融合，但这并不改变特征图的尺度，最终检测头部分通过P3、P4和P5进行检测，对应的特征图尺度分别为80×80、40×40和20×20。在小目标检测任务中，常存在需检测的微型目标，本文使用的TIB-Net数据集中包含许多微型无人机目标，其尺度通常小于10×10像素。此类目标在多次下采样后已丢失大部分特征信息，即使通过P3层检测头进行高分辨率检测仍具有挑战性。为实现微型目标识别并获得更好的检测效果，如前所述，我们在YOLOv8模型上基于P2层特征引入新的检测头，称为微型目标检测头，其结构如下图所示。

P2层检测头的分辨率为160×160像素，相当于主干网络仅进行两次下采样操作，包含更丰富的目标底层特征信息。颈部网络中通过自上而下和自下而上路径获得的两个P2层特征，与主干网络中相同尺度的特征以concat形式融合，输出特征为三个输入特征的融合结果，这使得P2层检测头在处理微型目标时快速且有效。P2层检测头与原始检测头共同作用，可有效缓解尺度变化带来的负面影响——P2检测头与初始检测头结合，能有效降低尺度方差的不利影响。新增的检测头针对底层特征，由低层级、高分辨率的特征图生成，对小目标更为敏感。尽管添加该检测头会增加模型的计算和内存开销，但显著提升了对微型目标的检测能力。

移除大目标检测头

大目标检测头P5层通过对图像进行32倍下采样获得。当目标尺寸小于32像素时，最多可能仅采样到目标的一个点或无法采样。因此，YOLOv8的大目标检测层在检测小尺寸无人机目标时属于冗余结构。基于上述结论，本文从YOLOv8网络结构中裁剪掉大目标预测层及相关的特征提取和特征融合层，仅保留4倍下采样、8倍下采样和16倍下采样的特征图用于无人机预测。在图3所示的改进网络结构中，第三层C2f的16倍下采样特征图直接输入SPPF进行多尺度特征提取，融合后的特征图跳过Upsample-Concat-C2f模块并直接连接至下一模块，同时舍弃中目标检测层之后的所有网络层。该改进网络结构在保证精度的前提下，通过移除冗余计算减少了计算瓶颈。改进后的检测头如上图所示。

特征提取模块的改进

当图像分辨率良好且检测目标尺寸适中时，图像中包含足够的冗余像素信息，大步幅卷积（即步长>1）可轻松跳过这些冗余像素信息，模型仍能高效学习特征。然而，在图像模糊或目标尺寸较小的复杂任务中，冗余信息的假设不再成立，现有模型开始出现细节丢失问题，这会显著削弱其特征学习能力。小目标难以检测的原因在于其分辨率低，且用于学习模式的内容信息有限。在YOLOv8中，特征提取模块的Conv（大步幅卷积层）在图像分辨率低或检测目标较小时，会导致检测性能快速下降。基于此，本文在特征提取阶段引入一种新的CNN构建块SPD-Conv，以替代大步幅卷积层。SPD-Conv由SPD（空间到深度）层和非步幅卷积层组成，可应用于大多数CNN架构。在早期研究[32]中，作者将SPD-Conv引入YOLOv5的主干和颈部网络，实验表明该方法在处理低分辨率图像和小目标的复杂任务中显著提升了性能。结合本文针对YOLOv5的改进思路（已通过实验验证），我们只需在YOLOv8的特征提取模块（即主干）中引入SPD-Conv，即可在不增加过多冗余的情况下提升对微型无人机目标的检测能力。SPD-Conv在scale=2时的结构如下图所示。

SPD-Conv的操作包含两个步骤：首先对输入图像的特征图进行从空间到深度的预处理；随后对预处理后的特征图进行标准卷积。图5展示了C1通道的特征图，呈现了输入特征图的切片过程。经过裁剪后得到四组子形状图像，每组子形状图像保留与输入特征图相同的通道数。由于scale设置为2，输出特征图的宽和高相比输入减半。生成的子特征图通过标准卷积进行组合，由于使用步长为1的标准卷积，确保了所有子特征信息都被保留。

特征融合模块的改进 GAM（全局注意力机制模块）是一种轻量级、实用且简单的组件，可无缝集成到CNN架构中。其主要目的是通过最小化信息丢失并增强给定特征映射内的全局交互表示，来提升深度神经网络的性能。GAM模块采用CBAM注意力机制，按通道到空间的顺序运行。在早期研究中，GAM模块被成功集成到不同数据集和分类任务的各种模型中，模型性能显著提升，这凸显了GAM模块的有效性。作为即插即用模块，GAM被广泛引用，通过将GAM插入YOLOv7的主干和头部，使网络能够通过增强全局维度特征的交互来提取关键特征。GAM的结构如下图所示。

PART/4

新算法框架解析

TIB-Net无人机数据集包含2850张图像，展示了多旋翼无人机、固定翼无人机等多种类型的无人机。图像由地面固定相机拍摄，距离空中无人机约500米，采集图像分辨率为1920×1080像素。这些场景涵盖了无人机飞行图像中的多种低空场景（天空、树木、建筑物等），充分考虑了一天中不同时段和不同天气下的样本。

从上图可以看出，无人机在每张图像中占比不足1%，部分样本如下图所示。

网络设置与训练

详细介绍TIB-Net数据集在YOLOv8及改进YOLOv8上的训练过程。实验使用的硬件配置为8 GB NVIDIA GeForce RTX 3070显卡，深度学习框架为PyTorch 1.13.1，Python版本3.7.15，CUDA版本11.7，操作系统为Ubuntu 22.04。

网络训练训练前，数据集图像和标签按7:1:2的比例划分为训练集、验证集和测试集。数据集训练的最大轮次（epochs）设为150，前3轮用于预热训练。采用SGD优化策略调整学习率，初始学习率为0.01。考虑到样本图像中存在大量微小目标，且检测过程需平衡实时性与准确性，样本尺寸统一调整为640×640像素。该尺寸既能保留图像中的关键信息，又便于模型在边缘设备上部署。为确保实验公平性和模型性能的可比性，消融实验和对比实验均不使用预训练权重，且所有训练过程保持一致的超参数设置。训练过程中最重要的参数设置如下表所示。

参考上表可以看出：添加微型检测头后，模型的精确率P、召回率R和mAP分别提升了10.8%、13.5%和8.3%，表明高分辨率检测头的加入能有效增强对微型目标的检测能力。同时可以看到，裁剪大目标检测层后，模型参数量减少了70.2%，模型大小减小了67%，而R保持不变，P降低了0.3%，mAP降低了0.9%，这说明低分辨率检测头对微型无人机目标的检测贡献较小，且会产生大量冗余网络。

改进模型3、4、5和6的实验结果表明，改进SPD-Conv模块对模型的召回率R有更好的提升效果，说明在主干网络中将Conv模块改进为SPD-Conv能更好地保留微小目标的特征，降低微小目标的漏检概率；添加GAM对模型的精确率P有更好的提升效果，表明在颈部添加GAM注意力模块对网络的特征融合有良好影响，降低了网络误检的概率。当同时添加SPD-Conv和GAM时，P、R和mAP均得到提升，尽管参数量和模型大小略有增加。

对比改进模型6（即我们的模型）和模型1（即基准模型）的实验结果：

如上图所示，可以发现由于添加了微型检测头、SPD-Conv和GAM模块，增加了一定的推理时间，改进模型的FPS指标达到221/f.s⁻¹，相比基准模型的285/f.s⁻¹有所降低，但在实际部署中仍能保证满足实时性要求。此外，我们的模型相比基准模型在P、R、mAP、参数量和模型大小方面均有显著改进，其中P、R和mAP分别提升了11.9%、15.2%和9%，参数量和模型大小分别减少了59.9%和57.9%，从而证明了改进模型的有效性和实用性。

为了更直观地观察改进模型的检测效果，使用基准模型YOLOv8s和本文改进模型进行无人机检测，效果对比图分别如下图所示。

在上图10的对比中可以发现，YOLOv8s在无人机尺寸极小或与背景融合时存在漏检情况（如上图a、c、e所示），同时也存在误检问题（如上图a、c、e中黄色框标注的区域）。相比之下，本文提出的改进模型能够在建筑物、树木等复杂背景下准确检测出小型无人机目标，并且显著提升了检测结果的置信度。如上图b所示，置信度达到0.96；如上图e、f所示，置信度从0.27提升至0.82。因此，本文的改进模型有效解决了复杂背景下小型无人机目标的漏检和误检问题。

总体而言，改进模型仍具有较高的检测精度，表明我们的方法具有良好的泛化能力。实际检测结果如下图所示。

有相关需求的你可以联系我们！

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

揭秘易开发核心功能：页面信息提取与无障碍服务配置详解

易开发（DeveloperHelper）是一款专为Android开发者打造的快速开发工具，核心功能包括界面分析、页面信息提取、加固脱壳等，完美支持Android 9.0系统。本文将深入解析其两大核心功能——**页面信息提取**与**无障碍服务配置**，帮助开发者快速掌握使用技巧，提升开发效率。## 一、无障碍服务：易开发的核心引擎 🚀无障碍服务是易开发实现界面分析的基础，通过系统级别的

魔乐社区

pry-rails源码探秘：Rails控制台增强插件的实现原理

pry-rails是一款为Rails >= 3应用提供Pry控制台支持的增强插件，它通过替换默认的IRB控制台，为开发者带来更强大的交互式编程体验。本文将深入剖析pry-rails的实现原理，帮助开发者理解其工作机制和核心功能。## Railtie：Rails集成的核心pry-rails的核心集成逻辑位于[lib/pry-rails/railtie.rb](https://link.git

魔乐社区

CameraManager性能优化：提升iOS相机应用响应速度的10个技巧

CameraManager是一款简单易用的Swift类库，专为iOS开发者打造，提供了创建自定义相机视图所需的全部配置。在移动应用开发中，相机功能的响应速度直接影响用户体验，本文将分享10个实用技巧，帮助你优化CameraManager的性能，打造流畅的相机应用。### 1. 合理设置会话预设（Session Preset）会话预设直接影响相机的分辨率和性能消耗。在`Sources/Came