人工智能图像识别目标检测项目

2501_90677971

1001人浏览 · 2025-03-11 11:25:13

2501_90677971 · 2025-03-11 11:25:13 发布

目标检测项目

1.目标检测

识别图片中有哪些物体并且找到物体的存在位置。

多任务：位置 + 类别

目标种类与数量繁多的问题

目标尺度不均的问题

遮挡、噪声等外部环境干扰

2.目标检测的数据集

VOC数据集：PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。

4大类，20小类

VOC 2007：9963图片 /24640目标

VOC 2012：23080图片 /54900目标

COCO数据集：起源于微软2014年出资标注的MS COCO数据库。

包含20万个图像、80个类别、超过50万个目标标注、平均每个图像的目标数是7.2

3.目标检测的Ground Truth

类别+真实边界框坐标(x,y,w,h)

假设左图尺寸为1000*800px

YOLO(TXT)格式：

(x,y,w,h)分别代表中心点坐标和宽、高，x,y,w,h均为归一化结果

VOC(XML)格式：

(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。

COCO(JSON)格式：

(Xmin, Ymin, W, H)，其中x,y,w,h均不是归一化后的数值，分别代表左上角坐标和宽、高

4.目标检测的评估指标

IoU：Intersection over Union

生成的预测结果会非常多

首先过滤掉低类别置信度的检测结果

使用IoU作为边界框正确性的度量指标

检测结果的类别

Precision：准确率，查准率

Recall：召回率，查全率

P-R曲线

mean AP：每个类别所得到的AP的均值

Average Precision：11点法、近似面积法

mean与average

mean：算数平均

average：包含其他的度量指标

Average P：P值需要设计度量规则让它均衡

mean AP：AP够均衡了，直接mean即可

AP计算方法：11点法

R=[0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1]

P=[1, 0.6666, 0.4285, 0.4285, 0.4285, 0, 0, 0, 0, 0, 0]

· 案例：

· 案例：

1、根据IoU划分TP或者FP

案例：

2、按置信度的从大到小，计算P和R

3、绘制P-R曲线，进行AP计算

5.目标检测的传统方法

滑动窗口法：需要人工设计尺寸、大量冗余操作、定位不准确

6.目标检测的深度学习方法

anchor box

anchor box用ratio+scale描述

eature map的点来决定位置

scale来表示目标的大小（面积大小）

aspect ratio来表示目标的形状（长宽比）

anchor-base和anchor-free

anchor-base

anchor-base是自顶向下的

类似于传统方法，滑动窗口法穷举出许多，然后再根据置信度之类的进行筛选

anchor-free

anchor-free是自底向上的

想办法自动生成，不穷举

free掉了anchor的预设过程

two stage算法流程

one stage算法流程

常见two stage算法

经典发展线：R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN

其他：Cascade R-CNN、Guided Anchoring

常见one stage算法

YOLO系列：YOLO v1-v5

SSD系列：SSD、DSSD、FSSD

其他经典：RefineDet

非极大值抑制(Non-maximum suppression,NMS)

设定目标框的置信度阈值，常用的阈值是0.5左右

根据置信度降序排列候选框列表

选取置信度最高的框A添到输出列表，将其从候选框列表删除

候选框列表中的所有框依次与A计算IoU，删除大于阈值的候选框

重复上述过程，直到候选框列表为空，返回输出列表

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模

cover

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

cover

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

所有评论(0)

查看更多评论

2501_90677971

已为社区贡献5条内容