SRTSOD-YOLO：基于改进 YOLO11 的面向无人机影像的增强型实时小目标检测算法

在广泛使用的UAVDT和VisDrone2019数据集上的实验结果表明，所提出的SRTSOD-YOLO网络在参数更少、计算成本更低的情况下，取得了更优的检测精度，显著优于基线YOLO11模型。基于深度学习框架的专用检测算法，通过优化的特征提取与空间注意力机制，在复杂低空场景中展现出了卓越的性能提升。C3K2模块的数量，所提出的SRTSOD-YOLO框架可适应不同的应用需求，衍生出四种模型变体：SR

计算机视觉研究院

575人浏览 · 2026-02-12 09:30:37

计算机视觉研究院 · 2026-02-12 09:30:37 发布

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

本文提出的SRTSOD-YOLO系列模型在保持实时性能的同时，显著提升了无人机航拍图像中小目标的检测精度。

PART/1

概述

本文提出的SRTSOD-YOLO系列模型在保持实时性能的同时，显著提升了无人机航拍图像中小目标的检测精度。在VisDrone2019数据集上与YOLO11对比，SRTSOD-YOLO-l的mAP50提升了7.9%，目标漏检率E_missed降低了1.08%。

本文提出了多尺度特征互补聚合模块（MFCAM）和门控激活卷积融合金字塔网络（GAC-FPN）结构。MFCAM可有效缓解深度网络中小目标特征丢失的问题，GAC-FPN则通过动态门控机制抑制复杂背景干扰。

主要发现的意义

SRTSOD-YOLO-n/s/m/l系列模型提供了灵活的部署方案，可同时满足机载边缘设备与地面工作站的实时检测需求。

为智慧城市交通监控、电力巡检等低空经济场景提供了高精度的小目标检测基准。

针对无人机航拍图像中小目标检测面临的特征提取困难、复杂背景干扰、漏检率高及实时性要求严苛等挑战，本文基于YOLO11提出了创新的SRTSOD-YOLO系列模型。

主干网络引入多尺度特征互补聚合模块（MFCAM），用于缓解网络深度增加导致的小目标信息丢失问题。该模块结合通道与空间注意力机制及多尺度卷积特征提取，可在图像中精准定位小目标。

本文还提出了新型门控激活卷积融合金字塔网络（GAC-FPN）结构，通过突出显著特征、抑制无关背景信息来增强多尺度特征融合。GAC-FPN采用三项核心策略：添加感受野更小的检测头并移除原最大感受野检测头，以更高效地利用大尺度特征；引入门控激活卷积模块。

为解决正负样本不平衡问题，检测头采用自适应阈值焦点损失替代传统的二元交叉熵损失，加速了网络收敛。

为适配多样化应用场景，本文通过调整网络模块的宽度与深度，开发了四种版本的SRTSOD-YOLO：超轻量版（SRTSOD-YOLO-n）、轻量版（SRTSOD-YOLO-s）、中等版（SRTSOD-YOLO-m）和标准版（SRTSOD-YOLO-l）。

在VisDrone2019与UAVDT数据集上的实验结果表明：

SRTSOD-YOLO-n相比YOLO11n，mAP@0.5分别提升3.1%和1.2%

SRTSOD-YOLO-l相比YOLO11，mAP@0.5分别提升7.9%和3.3%

与其他先进算法相比，SRTSOD-YOLO-l在保持实时性能的同时实现了最高检测精度，充分验证了本方案的优越性。

PART/2

背景

近年来，深度学习的快速发展显著推动了计算机视觉核心领域之一的目标检测技术进步。目标检测能够对图像或视频中的目标进行精准定位与分类。随着无人机（UAV）平台与计算机视觉技术的深度融合，基于航拍图像的目标检测已成为交通监控、智慧城市、电力设施巡检、灾害响应等诸多场景中的核心技术。

当前主流的目标检测算法主要基于深度学习模型，大致可分为三类：两阶段方法、单阶段方法和基于Transformer的方法。两阶段检测框架将检测过程拆解为两个连续步骤：首先生成区域候选框，然后对这些候选框进行分类（通常伴随边界框回归优化）。这类算法的典型代表包括R-CNN、SPPNet、Fast R-CNN和Faster R-CNN。尽管两阶段检测器通常能实现较高的检测精度，但其推理速度往往是一个瓶颈。相比之下，以YOLO系列为代表的单阶段方法采用更直接的策略，将目标定位与分类整合到单个回归步骤中，将目标检测重构为回归问题而非分类任务，相比R-CNN等两阶段流程，大幅提升了计算效率。

尽管当前主流检测算法在MS COCO、Pascal VOC等基准数据集上已展现出极具竞争力的性能，但航拍图像中的小目标（例如尺寸小于32×32像素的目标）检测仍然是一项极具挑战性的任务。

如图1a–c所示，航拍图像通常具有高度复杂的背景。由于无人机通常从高空视角拍摄场景，图像中的目标显得极其微小，这使得该场景下几乎所有目标都属于小目标。Kai Liu等人指出，在VisDrone数据集中，每张图像平均包含54个目标，但这些目标仅占总像素的8.1%。将当前主流检测器应用于航拍图像时，网络的深度层级结构往往会导致小目标细微特征的逐步丢失，从而降低检测性能。此外，如图1d–f所示，无人机从正面、侧面、俯视等多种视角捕捉目标，导致同一目标在不同视角下的尺度存在显著差异。即使在同一场景中，距离无人机较近的目标看起来更大，而距离较远的目标则呈现出更小的尺度。

除此之外，如图1g、h所示，成像条件会随时间发生显著变化，不同光照条件（如白天与夜晚）下捕捉的目标外观存在明显差异。当无人机高速移动或跟踪快速运动的目标时，运动模糊会进一步增加检测难度。

此外，无人机目标检测算法的工程部署通常包含两种针对不同场景的架构：

(1)机载感知-地面计算：在该架构中，原始图像数据通过低延迟链路传输至地面GPU集群进行处理。这种架构对模型尺寸和计算成本没有严格限制，允许使用通过多尺度特征融合、注意力机制等策略来利用空间细节的深度网络，从而提升小目标检测精度。

(2)机载边缘计算：无人机搭载的嵌入式系统需要本地实时处理，这对模型复杂度和功耗提出了严格限制。这类系统需要轻量化模型（通常通过神经架构搜索设计），在有限的内存和功耗预算下平衡表示能力与计算效率。此时的重点已从单纯追求精度转向在资源受限环境下实现实时性能，这需要低功耗硬件与紧凑模型设计的协同优化。

由于这些挑战，无人机等专用平台的视觉分析与处理能力受到了显著限制。为了缩小小尺度与正常尺度目标检测之间的性能差距，并提升高分辨率无人机图像中小目标的检测性能，研究人员已在多个方向开展了大量工作，包括数据增强、层级特征聚合和基于注意力的机制等。

然而，上述方法的泛化能力仍然有限，这主要是由于小目标的像素覆盖范围较小，无法提供足够的视觉信息来构建具有区分度的特征表示。此外，现有研究中存在一个根本性的权衡：提升算法效率的努力（如提高帧率或减少内存占用）往往会导致检测精度的显著下降。这种精度相对于效率的非对称退化严重削弱了这些算法在实际工程应用中的部署价值。

为解决上述问题，我们提出了一种新的SRTSOD-YOLO模型，该模型是一个系列。在YOLO11框架下，我们引入了两个协同模块——MFCAM和GAC-FPN，旨在增强复杂环境下航拍图像中小目标的检测性能。这两个模块单独使用时均无法达到协同使用时的性能增益。其中，MFCAM模块集成在骨干网络中，有助于保留小目标的细粒度细节；而GAC-FPN模块位于颈部网络，能够有效整合这些增强后的多尺度特征。这种紧密耦合的架构设计是我们方案的核心创新点。改进后的YOLO11模型在不增加大量计算开销的前提下，实现了小目标检测性能的提升。为了适应多样化的应用需求，我们在SRTSOD-YOLO框架下开发了多个变体，即SRTSOD-YOLO-n、-s、-m和-l，它们在网络宽度和深度上有所不同。在广泛使用的UAVDT和VisDrone2019数据集上的实验结果表明，所提出的SRTSOD-YOLO网络在参数更少、计算成本更低的情况下，取得了更优的检测精度，显著优于基线YOLO11模型。

PART/3

相关工作

无人机航拍图像的目标检测方法

在计算机视觉技术进步的推动下，多种基于深度学习的无人机航拍图像目标检测方法被相继提出，这些方法在性能上取得了显著提升，极大地推动了该领域的发展。

近年来，无人机视觉感知领域取得了重大进展。基于深度学习框架的专用检测算法，通过优化的特征提取与空间注意力机制，在复杂低空场景中展现出了卓越的性能提升。这些创新性的模型架构与算法设计，不仅有效解决了传统方法长期面临的尺度变化、目标遮挡和光照干扰等挑战，还通过多模态数据融合与轻量化网络设计，成功在检测精度与计算效率之间取得了平衡。此类进展为智慧城市管理、精准农业监测和应急响应等垂直应用提供了更可靠的视觉感知方案，从而推动了低空经济应用生态的拓展与成熟。

YOLO11架构

YOLO11是Ultralytics团队于2024年发布的，代表了YOLO系列目标检测模型的最新进展。它延续了YOLO系列经典的三段式架构，由骨干网络（Backbone）、颈部网络（Neck）和头部网络（Head）组成，如图2所示。

输入图像为3通道，空间尺寸为640×640像素。CBS模块由二维卷积层（Conv2d）、批量归一化层（BatchNorm2d）和SiLU激活函数构成。在骨干网络中，通过四个下采样阶段获得多分辨率特征图，每个阶段均通过步长为2的3×3卷积实现。骨干网络中引入了C3K2模块以替代YOLOv8中的C2f模块。它采用多分支架构，既能捕捉细粒度细节，又能提取高层语义信息，显著增强了特征提取能力。该模块支持两种可配置模式：`c3k = True` 和 `c3k = False`，可根据任务需求灵活调整特征提取策略。当启用c3k模式时，输入特征被均匀分组，由独立的卷积分支处理后再拼接，以实现通道维度的信息融合；当禁用时，模块退化为标准C2f的行为。

空间金字塔池化快速（SPPF）模块是YOLO11中多尺度特征融合的核心组件。其架构分为三个阶段：特征压缩、级联池化和跨尺度融合。压缩阶段通过卷积核降低特征维度，在保留关键语义信息的同时最小化空间冗余；级联池化阶段采用一系列核尺寸递增（5×5、9×9、13×13）的最大池化操作，以层级化方式捕捉局部细节、中层纹理和全局上下文；最终，通过1×1卷积聚合不同感受野的特征图。

作为YOLO11的另一项核心创新，跨尺度像素空间注意力（C2PSA）模块通过多尺度空间感知和像素级细化，增强了复杂场景下的特征表示。此外，在检测头的分类分支中，传统卷积被深度可分离卷积（DWConv）替代，后者将标准卷积分解为深度卷积和逐点卷积操作，显著减少了参数量。

通过C3K2的轻量化设计、C2PSA中的多尺度注意力机制，以及DWConv的高效运算，YOLO11在精度与推理速度之间实现了最优平衡。其模块化和可配置的架构使其非常适合对性能和部署灵活性均有较高要求的工业应用。YOLO11系列模型的宽度和深度是可配置的，衍生出五种尺寸规格（按降序排列）：yolo11x、yolo11l、yolo11m、yolo11s和yolo11n，详细信息见表1。

PART/4

新算法框架解析

SRTSOD-YOLO网络结构

我们以YOLO11n基线架构为基础，在骨干网络和颈部网络中引入了一系列优化与增强。

通过调整输出通道数和C3K2模块的数量，所提出的SRTSOD-YOLO框架可适应不同的应用需求，衍生出四种模型变体：SRTSOD-YOLO-n、SRTSOD-YOLO-s、SRTSOD-YOLO-m和SRTSOD-YOLO-l。各网络模块的详细配置参数见表2和表3。

图3展示了所提出的SRTSOD-YOLO的网络架构。骨干网络包含四个核心组件：CBS模块、多尺度特征互补聚合模块（MFCAM）、SPPF模块和C2PSA模块。

在标准YOLO11网络中，第1、3、5、7层的CBS模块与对应的C3K2模块相连。

在我们提出的SRTSOD-YOLO中，我们引入了一种新颖的多尺度特征互补聚合模块（MFCAM）来替代原有设计。MFCAM通过结合通道与空间注意力机制，以及多尺度卷积特征提取，高效捕捉图像中的显著信息。具体而言，它采用三种不同尺度（3×3、5×5、7×7）的卷积核提取多尺度特征，使网络能够适应不同尺寸的目标，并提升跨尺度的识别能力。

此外，我们设计了一种新的颈部架构，称为门控激活卷积融合金字塔网络（GAC-FPN），以替代原YOLO11的颈部网络。

GAC-FPN包含三项主要改进：

(1) 在骨干网络中增加一个额外的下采样阶段，以更好地利用大尺度特征；

(2) 引入门控激活卷积模块以增强特征选择性；

(3) 添加一个感受野更小的检测头，同时移除感受野最大的检测头，以提升小目标检测性能。

为解决前景-背景样本不平衡问题，我们在检测头中用自适应阈值焦点损失替代了原有的二元交叉熵损失，这一改进加速了网络收敛，并提升了小目标检测精度。

多尺度特征互补聚合模块

受文献的启发，我们提出了多尺度特征互补聚合模块（MFCAM），以缓解深度网络中小目标信息的丢失问题（这一问题通常会增加特征提取的难度）。

该模块通过整合多尺度卷积特征提取与通道、空间注意力机制，增强了特征表示能力，并能有效定位图像中的小目标，如图4所示。

门控激活卷积融合金字塔网络

在无人机航拍图像的目标检测中，必须同时应对两大核心挑战：位置感知与类别区分。在特征提取过程中，精准定位依赖于精确的空间信息，而类别分类则需要丰富的语义上下文。随着骨干网络中卷积层数的加深，特征图的语义抽象能力会随之提升，但这也会导致空间位置信息的逐步衰减。尽管现有的增强手段（如MFCAM模块）已部分缓解了这一问题，但在动态平衡空间精度与语义深度方面，仍存在较大的提升空间。因此，通过优化特征融合结构以整合多层骨干特征，并建立空间与语义信息的互补机制，可为检测头提供更具区分度的复合特征。

为实现多尺度特征融合，YOLO11在颈部网络中采用了路径聚合特征金字塔网络（PA-FPN）。在该结构中，骨干网络的多层特征通过自上而下的路径进行传播：高层语义特征（如图2中第10层的输出）经过上采样后，与低层特征（如第6层的输出）在通道维度上拼接，形成语义增强的特征表示。这一过程逐层重复，最终构建出一个注入了高层语义的特征金字塔。路径聚合机制进一步增强了特征的传播与交互，从而确保目标信息能够有效传递至后续检测层。

然而，传统的PA-FPN在无人机图像小目标检测场景中存在诸多局限。主要问题在于对大尺度特征图的利用不足，而这类特征图对于保留小目标的空间细节至关重要。此外，其特征交互机制主要依赖简单的通道拼接与卷积操作，这往往会导致特征冗余和语义错位——尤其是高层特征容易丢失小目标的细粒度细节。这些缺陷造成了不同特征分辨率间的低效协同，并阻碍了互补层级结构的建立。

为解决上述问题，我们设计了一种新的颈部架构，即门控激活卷积融合金字塔网络（GAC-FPN），如图3中颈部部分所示。GAC-FPN通过强化相关特征并抑制背景干扰来增强多尺度融合能力，它包含三项核心策略：

(1)引入一个感受野更小的新增检测头，同时移除原有的最大感受野检测头，以更好地捕捉小目标。

(2)充分利用大尺度浅层特征，以保留空间细节。

(3)引入门控激活卷积模块，以动态控制特征流动。

在本研究中，我们从两个关键方面对经典特征金字塔网络进行了拓扑增强。如图3所示，第一项增强聚焦于空间特征的丰富化：通过层级扩展策略更有效地利用浅层特征图。具体而言，我们移除了原金字塔顶端的大目标检测头，并新增了一个专门针对微小目标的预测头。这一修改使网络能够更好地从浅层特征中捕捉高分辨率边缘与纹理信息。

第二项增强旨在重构多尺度融合路径，以优化跨层级特征交互。来自骨干网络第0、1、4层的特征图经过下采样后，分别被送入颈部网络的第23、19、15层。第15层接收来自第4层的下采样输出，以及第6、14层的特征图；第19层整合来自第1层的下采样特征与第4、18层的特征图；第23层则结合第0层的下采样输出与第1、22层的特征。

这种重构后的交互路径充分整合了大尺度特征图的多层表示，并建立了跨尺度特征整合机制。通过动态对齐低层空间细节与深层语义表示，该改进促进了像素级定位精度与高层语义抽象之间的协同优化。

此外，受文献的启发，我们引入了门控激活卷积模块，以缓解多尺度、多层级特征融合中的特征冗余与语义错位问题。该模块在增强相关特征的同时，能够抑制无关的背景信息。如图5所示，我们采用自适应门控单元在特征通道与空间维度上实现动态权重分配，并进一步应用逐元素特征调制以提升模型对细粒度细节的感知能力。为优化计算效率，我们设计了一个基于秩约束优化的轻量化卷积模块（BottConv）。该组件将高维特征张量投影到低维潜在空间，从而在保留特征表示能力的同时，降低了对计算资源的需求。

特征融合方法的分类

特征融合是目标检测网络中的一项关键技术，旨在增强特征表示能力并应对尺度变化等挑战。根据其核心机制，我们将现有特征融合方法分为三大类：基于操作的融合、基于注意力的融合和基于金字塔的融合。这一分类体系为理解不同方法的设计思路和适用场景提供了清晰的理论框架，尤其适用于无人机图像中的小目标检测任务。基于操作的融合方法依赖简单的数学运算来融合不同层或不同尺度的特征。这类方法计算效率高，但适应性不足，例如逐元素相加、通道拼接和平均池化等操作。它们常用于早期的融合方案，以及U-Net等网络的跳跃连接中。其融合过程是固定且非自适应的，无法根据输入内容动态调整。优点是计算成本低、易于实现，但由于无法突出关键特征或抑制干扰噪声，在包含小目标的复杂场景中通常表现不佳。基于注意力的融合方法利用注意力机制动态为特征分配权重，突出显著区域并抑制无关信息。

例如SE-Net（压缩激励网络）、CBAM（卷积块注意力模块）和EMA（高效多尺度注意力）。这类方法的核心特点是使用通道或空间注意力来细化特征，通常是按顺序执行的。优点是能有效增强特征的区分度并减少背景干扰，但大多数方法仅处理单尺度特征，忽略了多尺度上下文信息。此外，复杂的注意力计算机制可能会带来额外的计算开销。

基于金字塔的融合方法通过金字塔结构聚焦于多尺度特征整合，融合来自不同网络层级的特征以捕捉不同尺度的上下文。例如FPN、PANet、BiFPN和AFPN。这类方法的主要特点是采用自上而下或双向的方式，将高层语义特征与低层空间细节相结合。优点是擅长处理目标尺度变化，从而提升不同尺寸目标的检测精度。但在整合不同层级特征时，可能会出现特征冗余或语义断层等问题，并且通常使用简单运算（如加法）进行融合，缺乏动态加权机制。我们在SRTSOD-YOLO中提出的MFCAM和GAC-FPN模块，整合了上述各类方法的创新点，以解决它们在无人机小目标检测中的局限性：

MFCAM结合了基于注意力和基于金字塔的融合元素：它采用并行多尺度卷积（3×3、5×5、7×7）来捕捉不同感受野下的上下文（受金字塔方法启发），同时通过拆分-变换-合并策略整合通道与空间注意力（增强了超越简单运算的适应性）。这种设计保留了细粒度细节，并能动态突出关键区域，克服了基于操作方法的非适应性和纯注意力机制的单尺度局限。

GAC-FPN则基于金字塔结构引入了动态门控：它使用门控激活卷积（GAC）模块在融合过程中实现自适应特征加权，解决了标准金字塔方法中固定操作的局限性。其结构优化（例如用小检测头替换大检测头）增强了高分辨率特征的利用率，这对小目标检测至关重要。通过将现有研究分为这三类，我们强调SRTSOD-YOLO的融合策略是一种混合方案，它整合了：基于金字塔方法的多尺度上下文捕捉能力、基于注意力方法的动态调制能力，并在基于操作方法的基础上提升了计算效率，这一理论框架为第3节的实验验证奠定了基础。

PART/5

实验及可视化

与YOLO11的对比分析

在详细介绍第2章提出的SRTSOD-YOLO模型，以及3.3和3.4节的评估指标后，我们在VisDrone2019数据集上，对不同版本的SRTSOD-YOLO模型和对应的YOLO11模型各进行了3次训练，每次使用不同的随机种子（随机种子分别为0/42/123）。SRTSOD-YOLO与YOLO11的性能和模型规模见表5和图7。

如表5所示，列出了各模型的mAP50、mAP50-95及其标准差、参数量、浮点运算量（GFLOPs）和每秒帧数（FPS）。与标准YOLO11模型相比，不同版本的SRTSOD-YOLO模型均展现出领先优势。具体而言：

与YOLO11n相比，SRTSOD-YOLO-n的GFLOPs增加13.8%，参数量增加34.6%，但mAP50提升3.1%，mAP50-95提升1.2%。

与YOLO11s相比，SRTSOD-YOLO-s的GFLOPs增加12.0%，参数量增加18.1%，mAP50提升3.8%，mAP50-95提升2.5%。

与YOLO11m相比，SRTSOD-YOLO-m的GFLOPs增加6.6%，参数量增加10.4%，mAP50提升6.1%，mAP50-95提升4.1%。

与YOLO11l相比，SRTSOD-YOLO-l的GFLOPs增加8.5%，参数量增加9.1%，mAP50提升7.9%，mAP50-95提升5.6%。

这些结果表明，SRTSOD-YOLO在模型参数和计算成本小幅增加的前提下，实现了更高的检测性能。此外，尽管各版本SRTSOD-YOLO的FPS仅略低于YOLO11，但仍能完全满足无人机场景所需的实时处理要求。

如图7所示，无论模型规模如何，所提出的检测模型SRTSOD-YOLO的每个版本均持续优于对应的基线模型YOLO11的每个版本。深入分析发现，两者检测性能的差距随模型规模增大呈现显著扩大趋势。在“n”版本规模下，基于mAP50指标，SRTSOD-YOLO-n较YOLO11n领先3.1%；而当模型规模增大到“l”版本时，其mAP50优势值增至7.9%，显著拉大了两者间的差距。这一现象证实，随着模型参数和计算复杂度的增加，SRTSOD-YOLO在检测精度上的提升速度明显加快。因此，在计算能力充足的硬件平台上部署时，尤其是在大规模模型配置下，该模型有望实现更高的目标检测精度。

如图8所示，展示了两种典型的检测错误：分类错误和漏检。

为全面评估所提模型的性能，我们使用两个独立数据集进行验证。在VisDrone2019和UAVDT数据集上训练时，输入图像均被调整为640×640像素，模型训练300轮。需要注意的是，GFLOPs和模型参数量是网络架构的固有属性，其数值不受数据集类型或规模的影响。因此，本研究重点关注在UAVDT数据集上得到的精度指标，尤其强调mAP@0.5和mAP@0.5:0.95。

如图9所示，展示了消融实验的可视化结果。

可视化对比

为了更直观地对比所提出的模型与基线模型，我们对SRTSOD-YOLO-s、SRTSOD-YOLO-l与YOLO11s、YOLO11l的检测结果进行了可视化对比。

如图10-14所示（这些图片来自VisDrone2019测试集的多幅代表性图像），在相同输入条件下，我们的模型展现出更优的检测精度，同时在误检率和漏检率上均有显著降低。在目标密集分布的场景中，我们使用不同颜色的边界框来区分目标类别，为了清晰起见，这类场景中省略了置信度分数和类别标签。

此外，对类别激活图的可视化对比显示，我们提出的模型在目标感知和定位精度上显著优于基线模型。

如图15-19所示，热力图可视化清晰地展现了模型在复杂场景中抑制误检和提升目标捕捉能力的表现。在这些热力图中，暖色调区域（如红色或黄色）表示模型对目标存在高度置信的区域，反映了可靠的定位效果。这种分析方式不仅证明了我们方法的优势，还为后续的模型调优与改进提供了宝贵的可视化指导。借助这类可视化手段，我们可以准确评估模型在特定场景下的行为，并识别潜在的改进方向。

如图20所示，图中的两个场景均存在光线不足和运动模糊问题。第一行是YOLO11l的预测结果，第二行是SRTSOD-YOLO-l的预测结果。与YOLO11l相比，我们的模型能够在低光照条件下准确检测小目标，并能有效识别带有运动模糊的目标，充分证明了所提方法的优越性。

有相关需求的你可以联系我们！

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗