多模态目标检测
多模态目标检测通过利用来自多个传感器模态的互补线索,提高了在复杂环境下的鲁棒性。我们提出了一种名为滤波多模态交叉注意力融合(FMCAF)的预处理架构,旨在增强RGB和红外(IR)输入的融合。FMCAF结合了频域滤波模块(Freq-Filter)来抑制冗余的光谱特征,以及基于交叉注意力的融合模块(MCAF)来提高模态间特征共享。
·
多模态目标检测通过利用来自多个传感器模态的互补线索,提高了在复杂环境下的鲁棒性。我们提出了一种名为滤波多模态交叉注意力融合(FMCAF)的预处理架构,旨在增强RGB和红外(IR)输入的融合。FMCAF结合了频域滤波模块(Freq-Filter)来抑制冗余的光谱特征,以及基于交叉注意力的融合模块(MCAF)来提高模态间特征共享。与针对特定数据集的方法不同,FMCAF旨在实现泛化性,无需针对特定数据集进行调优,即可在不同的多模态挑战中提升性能。在LLVIP(低光照行人检测)和VEDAI(飞行器检测)数据集上,FMCAF的性能优于传统的融合方法(级联),在VEDAI数据集上实现了mAP@50提升13.9%,在LLVIP数据集上实现了mAP@50提升1.1%。这些结果表明,FMCAF有望成为未来检测流程中鲁棒多模态融合的灵活基础。参考链接:https://arxiv.org/abs/2510.17078




魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐



所有评论(0)