人工智能图像识别目标检测项目
(Xmin, Ymin, W, H),其中x,y,w,h均不是归一化后的数值,分别代表左上角坐标和宽、高。经典发展线:R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN。包含20万个图像、80个类别、超过50万个目标标注、平均每个图像的目标数是7.2。(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。(x,y,w,h)分别代表中心点坐标和宽、高,
目标检测项目
1.目标检测
识别图片中有哪些物体并且找到物体的存在位置。
多任务:位置 + 类别
目标种类与数量繁多的问题
目标尺度不均的问题
遮挡、噪声等外部环境干扰

2.目标检测的数据集
VOC数据集:PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。
4大类,20小类
VOC 2007:9963图片 /24640目标
VOC 2012:23080图片 /54900目标

COCO数据集:起源于微软2014年出资标注的MS COCO数据库。

包含20万个图像、80个类别、超过50万个目标标注、平均每个图像的目标数是7.2
3.目标检测的Ground Truth
类别+真实边界框坐标(x,y,w,h)
假设左图尺寸为1000*800px


YOLO(TXT)格式:
(x,y,w,h)分别代表中心点坐标和宽、高,x,y,w,h均为归一化结果

VOC(XML)格式:
(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。

COCO(JSON)格式:
(Xmin, Ymin, W, H),其中x,y,w,h均不是归一化后的数值,分别代表左上角坐标和宽、高
4.目标检测的评估指标
IoU:Intersection over Union

生成的预测结果会非常多
首先过滤掉低类别置信度的检测结果
使用IoU作为边界框正确性的度量指标
检测结果的类别

Precision:准确率,查准率
Recall:召回率,查全率
P-R曲线
mean AP:每个类别所得到的AP的均值
Average Precision:11点法、近似面积法

mean与average
mean:算数平均
average:包含其他的度量指标
Average P:P值需要设计度量规则让它均衡
mean AP:AP够均衡了,直接mean即可
AP计算方法:11点法

R=[0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1]
P=[1, 0.6666, 0.4285, 0.4285, 0.4285, 0, 0, 0, 0, 0, 0]


· 案例:
· 案例:

1、 根据IoU划分TP或者FP
案例:

2、 按置信度的从大到小,计算P和R
3、 绘制P-R曲线,进行AP计算

5.目标检测的传统方法
滑动窗口法:需要人工设计尺寸、大量冗余操作、定位不准确
6.目标检测的深度学习方法
anchor box
anchor box用ratio+scale描述
eature map的点来决定位置
scale来表示目标的大小(面积大小)
aspect ratio来表示目标的形状(长宽比)

anchor-base和anchor-free
anchor-base
anchor-base是自顶向下的
类似于传统方法,滑动窗口法穷举出许多,然后再根据置信度之类的进行筛选
anchor-free
anchor-free是自底向上的
想办法自动生成,不穷举
free掉了anchor的预设过程
two stage算法流程

one stage算法流程

常见two stage算法
经典发展线:R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN
其他:Cascade R-CNN、Guided Anchoring
常见one stage算法
YOLO系列:YOLO v1-v5
SSD系列:SSD、DSSD、FSSD
其他经典:RefineDet
非极大值抑制(Non-maximum suppression,NMS)
设定目标框的置信度阈值,常用的阈值是0.5左右
根据置信度降序排列候选框列表
选取置信度最高的框A添到输出列表,将其从候选框列表删除
候选框列表中的所有框依次与A计算IoU,删除大于阈值的候选框
重复上述过程,直到候选框列表为空,返回输出列表

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)