Adaptive Sparse Convolutional Networks with Global Context Enhancement for
Faster Object Detection on Drone Images 原论文网址
摘要:

        在资源受限的无人机(UAV)平台上,低延迟的目标检测是一个重要且具有挑战性的任务。本文研究了基于稀疏卷积的检测头优化方法,该方法在平衡精度和效率方面被证明是有效的。然而,它在集成小物体的上下文信息方面存在不足,并且在前景物体尺度变化时,掩模比例的控制较为笨拙。为了解决上述问题,我们提出了一种新型的全球上下文增强自适应稀疏卷积网络(CEASC。该网络首先通过用全局上下文统计替换基于稀疏采样特征的统计量,开发了一个上下文增强的组归一化(CE-GN)层;然后,设计了一种自适应多层掩模策略,以在不同尺度上生成最佳的掩模比例,从而为紧凑的前景覆盖提供支持,促进了精度和效率的提升。在两个主要基准测试(即VisDroneUAVDT)上的大量实验结果表明,CEASC在与典型的最先进检测框架(如RetinaNetGFL V1)结合使用时,显著降低了GFLOPs并加速了推理过程,同时保持了竞争力的性能。

研究意义:

        现有研究着重于设计复杂的模型,以达到在高分辨率无人机图像上检测微小物体的高准确性,但这些模型在计算上十分消耗资源。另一方面,无人机所配备的硬件通常受限于资源,这就迫切需要轻量化的部署模型,以实现快速推理和低延迟。

        稀疏卷积[6,41]展示了另一种有前景的替代方案,通过可学习的掩膜仅对稀疏采样的区域或通道进行卷积,从而限制计算。掩膜比例不足会扩大焦点部分,导致更多不必要的计算消耗在背景上,这往往会同时降低效率和准确性。相反,过度的掩膜比例会缩小焦点部分,导致无法充分覆盖前景和关键上下文,从而引起性能下降。传统的稀疏卷积方式,设置固定的掩膜比例或仅关注前景,因此距离无人机检测器所需的准确性与效率之间的权衡还有很大差距。因此,如何利用稀疏卷积来促进无人机轻量化检测仍是一个未解的问题。

文章贡献:

  1. 我们提出了一种基于稀疏卷积的全新检测头优化方法,即CEASC,用于提高无人机的高效目标检测。
  2. 我们引入了一个上下文增强稀疏卷积层和一个自适应多层掩膜方案,优化掩膜比例,实现检测准确性和效率之间的最佳平衡。
  3. 我们通过将CEASC集成到各种最先进的检测器(如RetinaNet和GFL V1)中,在两个主要的公共无人机图像基准上广泛评估了所提出的方法,显著减少了计算成本,同时保持了竞争力的准确性。

方法:

    在给定一个基础检测器的情况下,整个CEASC网络旨在通过优化FPN中不同层的检测头来提升性能。为此,网络开发了一种上下文增强稀疏卷积(CESC),通过一个轻量级卷积模块以及上下文增强组归一化(CE-GN)层,将焦点信息与全局上下文进行融合。此外,还设计了一个自适应多层掩码(AMM)模块,使模型能够自适应地生成具有适当掩码比例的掩码,从而在准确性和效率之间实现更好的平衡。

图注:CEASC 框架。给定一个基础检测器,如 GFL V1,CEASC 在每个 FPN 层中通过上下文增强稀疏卷积(CESC)替换检测头,通过生成掩码特征 Hi 和全局特征 Gi 来增强上下文。掩码比例 Hi 通过自适应多层掩模(AMM)方案自动优化,促进了准确性和效率的提升。

稀疏卷积:聚焦于前景目标,减少计算量、加快推理速度

        在稀疏卷积中,最重要的部分便是掩码区域与比例的确定。(掩码即为稀疏卷积的作用区域,掩码的最佳比例就是要接近真实前景区域的比例)

        具体而言,给定来自 FPN 第  层的特征图  ,稀疏卷积采用一个由共享核  组成的掩码网络,其中  、  分别表示批量大小、通道大小、高度和宽度。在   的基础上对  进行卷积生成一个软特征 Si∈RB×1×H×W ,该特征进一步通过使用 Gumbel-Softmax 技巧 [35] 转换为掩码矩阵 Hi∈{0,1}B×1×H×W ,其公式如下:

        其中  表示两个随机的 gumbel 噪声,  指 sigmoid 函数,  是 Gumbel-Softmax 中对应的温度参数。

        根据公式 (1),只有掩码值为 1 的区域在推理过程中参与卷积,从而降低了整体计算成本Hi 的稀疏性由掩码比率 r∈【0,1 】控制,该比率在现有研究中通常手动设置为大于 0.9。由于基础检测器(这里以 GFL V1 为例)在检测框架中包含分类头和回归头,考虑到它们通常关注于不同的区域,我们为每个检测头单独引入了一个掩模网络。

        在检测头的网络结构中,每个检测头采用四个Convolution-GN-ReLU(Group NormalizationGN 是一种替代 Batch Normalization (BN) 的归一化技术)层和一个单卷积层进行预测,其中我们将常规卷积层替换为稀疏卷积层(SC)。

上下文信息增强:弥补稀疏卷积导致的上下文信息不足

        在本研究中,我们提出了一个轻量级的上下文增强稀疏卷积(CESC)模块,联合利用前景信息和全局上下文进行增强,同时提升后续计算的稳定性。如图2所示,我们对特征图  应用逐点卷积(point-wise convolution),生成全局上下文特征。由于稀疏卷积仅处理中的少量元素,经过多轮稀疏卷积后,趋于稳定,而不会增加过多的计算成本。

        作为 SC(稀疏卷积) 的重要组成部分,我们将全局上下文信息  嵌入到 SparseConvolution-GN-ReLU 层中,该层以特征图  、掩码  和全局特征  作为输入,其中  表示第  个 SparseConvolution-GN-ReLU 层。我们不再像传统 SC 中那样使用激活元素来计算组归一化的统计数据,而是采用  的均值和标准差进行归一化,旨在弥补缺失的上下文信息。假设  是在  上应用 SC 后的输出特征图,通过上下文增强的组归一化(CE-GN)获得的上下文增强特征如下所示:

        其中均值  和  分别表示均值和标准差,而  和  是可学习的参数。

        为了进一步减轻 SC 中的信息损失并使训练过程更加稳定,我们在训练期间除了稀疏卷积外,还保持正常的密集卷积,在完整的输入特征图上进行卷积生成特征图  。然后,我们通过最小化均方误差(MSE)损失来利用  增强稀疏特征图  ,如下所示:

        其中 是 FPN 中的层数。

        我们最终在激活层之前采用残差结构,通过将  添加到  ,即  ,来增强上下文保留。

AMM自适应多层掩码:自适应生成适当的掩码比例方法,损失函数的目标是让掩码比例趋近于前景的占比。

        具体而言,AMM 首先基于真实标签估计一个最佳掩码比例。通过利用标签分配技术,对于第 i 层 FPN,我们获得真实的分类结果 ,其中  表示包括背景在内的类别数量;  和  分别表示特征图的高度和宽度。第  层 FPN的最佳激活比例  被估计为:

9

        其中  和  分别表示属于正样本(前景)的像素数量和所有像素的数量。

为了引导网络自适应地生成具有适当掩码比例的掩码,我们采用以下损失函数:

        其中  表示掩码的激活比例  。通过最小化 被强制遵循与真实前景比例  相同的激活比例,从而促进适当掩码比例的生成。

        通过添加常规检测损失   ,我们将总体训练损失公式化如下:

        其中  是平衡  和 重要性的超参数。

实验

使用数据集:VisDrone和UAVDT

评估指标:平均精度均值(mAP)、平均精度(AP)和平均召回率(AR)作为准确性评估指标,GFLOPs和FPS作为效率评估指标。

实验细节:公式(6)中的超参数α(控制全局卷积损失的权重)和β(控制稀疏卷积损失的权重)分别设置为110,Gumbel Softmax中的温度参数τ固定为1。我们使用GFL V1作为基础检测器,ResNet18作为骨干网络,默认使用512个特征通道

不同检测头评估

        将CEASC与四个主流基础检测器进行结合,分别是GFL V1、RetinaNet、Faster-RCNN和FSAF。

表 1. 使用我们的方法与各种基础检测器在 VisDrone 上的 AP/AR (%) 和 GFLOPs/FPS 比较

结论:推理速度和计算复杂度显著变化、检测精度的变化可以忽略。在检测准确率和效率上取得很好的平衡。

消融实验:

表 2. 在 VisDrone 上以 GFL V1 作为基础检测器的 CESC 和 AMM 的消融实验

结论:通过采用CESC组件,基础检测器节省了约70%GFLOPs,并且在不降低准确度的情况下运行速度提高了1.43,因为SC减少了复杂度,而CE-GN层和残差结构弥补了上下文信息的丢失。通过采用动态掩码比率以获得紧凑的前景覆盖,AMM组件进一步提高了准确度,并进一步节省5.1%的GFLOPs,同时加速了推理速度11.9%。

CESC模块性能的评估:

表 3. 在 VisDrone 上使用 GFL V1 的 CESC 详细设计的消融实验

结论:当采用残差结构时,GFL V1结合SC变得稳定,并且所需的GFLOPs大大减少,但由于缺乏上下文信息,mAP显著下降。通过引入CE-GN来增加上下文信息,精度得到了显著提升,同时GFLOPs的增加很小。Lnorm进一步提升了精度和效率,因为它通过隐式地增强特征的稀疏性来优化性能

CE-GN的性能评估:

表 4. 在 VisDrone 上使用 GFL V1 的 CE-GN 消融实验

结论:CE-GN显著提高了没有归一化的模型的准确性,提升了2.6%与其他归一化方案相比,CE-GN取得了最佳的准确性,分别比GN、BN和IN高出0.7%、2.6%和0.8%。值得注意的是,CE-GN在效率方面,无论是GFLOPs还是FPS,都表现出最佳性能。

逐点卷积的比较:

表 5. GFL V1 在 VisDrone 上编码全局上下文的不同方法比较

结论:逐点卷积在检测精度上优于其他方法。同时,它在基于卷积的方法中达到了最低的GFLOPs,并在所有方法中实现了最高的FPS。

AMM自适应估计掩码比例的实验:

表 6. AMM 在 VisDrone 上以不同方式估计掩码比例的比较

结论:"逐层"方法在mAP和FPS方面明显优于“全局”方法。其原因在于,FPN的不同层具有不同的最佳掩码比例。

检测器的整体性能比较实验:

表 8. 在 VisDrone 上与最先进的方法比较 mAP/AP (%) 和 GFLOPs/FPS。‘-’ 表示结果未报告或未公开可用

结论:CEASC显著降低了基础检测器(GFL V1和RetinaNet)的GFLOPs,同时在保持稍微更高的mAP的情况下,提高了效率。例如,CEASC将基准GFL V1的GFLOPs减少了71.4%,并在推理时实现了60%的FPS加速,同时mAP提高了0.3%。由于轻量级模型(如MobileNet V2和ShuffleNet V2)通过简化网络结构追求效率,它们的mAP低于我们的模型。此外,它们使用的是稠密检测头,因此需要更多的GFLOPs。虽然QueryDet-CSQ通过使用稀疏卷积的CSQ模块来优化检测头,但它只关注小物体,忽略了上下文信息的丢失。此外,QueryDet引入了额外的重型查询头以提升性能,这不可避免地增加了计算成本。相比之下,CEASC新开发了增强上下文的稀疏卷积模块,并设计了自适应多层掩码方案,因此在准确性和效率方面都明显优于QueryDet和QueryDet-CSQ。

结论

        提出了一种新颖的即插即用检测头优化方法,称为CEASC,用于无人机图像中的物体检测。它开发了包含CE-GN的CESC模块,该模块显著补偿了全局上下文的丢失,并稳定了前景的分布。此外,它设计了AMM模块,以自适应地调整不同前景区域的掩码比例。在VisDroneUAVDT数据集上进行的大量实验结果表明,CEASC显著加速了各种基础检测器的推理速度,同时保持了竞争力的准确性

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐