目标检测算法发展历程

也算无悔203

806人浏览 · 2024-10-14 17:29:18

也算无悔203 · 2024-10-14 17:29:18 发布

一、本篇简单介绍：

（1）基于锚框和无锚框的关系

（2）什么是感受野，感受野的中心、步长怎么计算

（3）简单了解目标检测算法的发展进程以及流程

二、目标检测算法的发展历程：从滑窗到密集预测

（一）滑窗 sliding window

（1）设定多个固定大小的窗口（方便检测不同尺度的目标）

（2）用这些窗口去遍历图像的所有位置，所到之处，都用卷积网络识别窗口中的内容

缺点：计算成本高，会有很多冗余的计算

图中阴影部分会重复的经过卷积，属于冗余计算

（二）密集预测

简单来说，密集预测就是一次性的计算出所有位置的卷积

一次性的经过卷积之后，从特征图上的像素点找其对应到原图上的感受野，然后去看原图感受野中包含了什么物体：

（1）要对感受野进行分类，即类别预测

（2）要对感受野进行回归预测

而对于边界框回归有两种套路：基于锚框和无锚框

基于锚框、无锚框

基于锚框：就是在图像上会生成很多大小不同的锚框，然后在特征图上去做分类回归预测是基于锚框去做的，比如这个人相较于这个紫色的框的偏移量有多少要给预测出来。

而无锚框的方法是直接去回归物体边界相对于感受野中心的距离。

三、感受野

感受野的中心和步长的计算：

参考链接：

（1）目标检测与MMDetection_哔哩哔哩_bilibili

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模