深度学习目标检测之YOLO系列网络（一步步变强之yolo v1）

YOLO介绍：（You Only Look Once）典型的one-stage网络。是在2016年CVPR发表的一篇论文，对于yolov1而言，在图像大小为448*448推理，可以达到45FPS，它在pascal voc 2007测试数据集上，可以达到63.4mAP（明显弱于SSD网络，非常不理想）。YOLO论文思想：一般将图像分为7*7等份，如最左边的图像，在训练之前，会先对狗进行人工标注（Bo

BigHao688

2958人浏览 · 2021-11-05 16:30:41

BigHao688 · 2021-11-05 16:30:41 发布

YOLO介绍：（You Only Look Once）

典型的one-stage网络。是在2016年CVPR发表的一篇论文，对于yolov1而言，在图像大小为448*448推理，可以达到45FPS，它在pascal voc 2007测试数据集上，可以达到63.4mAP（明显弱于SSD网络，非常不理想）。

YOLO论文思想：

一般将图像分为7*7等份，如最左边的图像，在训练之前，会先对狗进行人工标注（Bounding box），如果狗这个目标的中心落在一个网格中，那么该网格就进行狗这个目标的预测。

一般每个网格预测2个bounding box,对于每个bounding box，需要预测5个值，其中4个值是位置参数（x,y,w,h），还有一个为confidence。以及每个网格需要预测C个类别的分数。

比如：对于PASCAL VOC数据集（类别为20），S=7,B=2,C=20,最后的预测参数为：77（20+5*2）。如下图所示：

在这里解释一下confidence:在原论文中，confidence为。右边部分是预测目标和真实目标的IOU值；左边部分，当网格中确实是存在目标则为1，此时confidence为IOU值，当不是目标则为0，此时confidence为0。

在最终预测的时候，对于每一个目标的最终概率：the conditional class probability（预测的C个类别分数） * confidence。公式如下：

YOLO网络结构：

通过上面结构图，我们可以很直接的看出yolov1的网络结构，用了一系列的卷积层、最大池化下载样层以及全连接层，在这里说明一下全连接层。

通过第一个Conn.Layer时，需要进行三个处理：①transpose处理。不一定要进行②flateen。因为要和全连接层连接，所以要进行展平处理。③fc(4096)。通过一个节点个数为4096的全连接层进行连接。此时得到一个4096维的向量。

通过第二个Conn.Layer时，需要进行两个处理：①通过一个节点个数为1470的全连接层。因为要得到一个7730的特征矩阵，所以需要1470。②进行reshape处理。把向量调整为7730的矩阵。

损失函数：

yolov1的损失分为三部分：目标边界框损失、confidence损失、类别损失。

YOLO v1存在的问题：

①对一些群体性的小目标检测效果很差。

②当目标出现新的尺寸后，效果较差。

③定位不准确。

（说明：以上各图并非原创。）

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

「极限压缩量化未来」Modelers GeekDay上海站圆满落幕

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

魔乐社区月度精选（26年3月）

魔乐社区

所有评论(0)

查看更多评论

BigHao688

@BIgHAo1

已为社区贡献1条内容

深度学习目标检测之YOLO系列网络（一步步变强之yolo v1）

BigHao688

YOLO介绍：（You Only Look Once）

典型的one-stage网络。是在2016年CVPR发表的一篇论文，对于yolov1而言，在图像大小为448*448推理，可以达到45FPS，它在pascal voc 2007测试数据集上，可以达到63.4mAP（明显弱于SSD网络，非常不理想）。

YOLO论文思想：

一般将图像分为7*7等份，如最左边的图像，在训练之前，会先对狗进行人工标注（Bounding box），如果狗这个目标的中心落在一个网格中，那么该网格就进行狗这个目标的预测。

一般每个网格预测2个bounding box,对于每个bounding box，需要预测5个值，其中4个值是位置参数（x,y,w,h），还有一个为confidence。以及每个网格需要预测C个类别的分数。

比如：对于PASCAL VOC数据集（类别为20），S=7,B=2,C=20,最后的预测参数为：7*7*（20+5*2）。如下图所示：

在这里解释一下confidence:在原论文中，confidence为。右边部分是预测目标和真实目标的IOU值；左边部分，当网格中确实是存在目标则为1，此时confidence为IOU值，当不是目标则为0，此时confidence为0。

在最终预测的时候，对于每一个目标的最终概率：the conditional class probability（预测的C个类别分数） * confidence。公式如下：

YOLO网络结构：

通过上面结构图，我们可以很直接的看出yolov1的网络结构，用了一系列的卷积层、最大池化下载样层以及全连接层，在这里说明一下全连接层。

通过第一个Conn.Layer时，需要进行三个处理：①transpose处理。不一定要进行②flateen。因为要和全连接层连接，所以要进行展平处理。③fc(4096)。通过一个节点个数为4096的全连接层进行连接。此时得到一个4096维的向量。

通过第二个Conn.Layer时，需要进行两个处理：①通过一个节点个数为1470的全连接层。因为要得到一个7*7*30的特征矩阵，所以需要1470。②进行reshape处理。把向量调整为7*7*30的矩阵。

损失函数：

yolov1的损失分为三部分：目标边界框损失、confidence损失、类别损失。

YOLO v1存在的问题：

①对一些群体性的小目标检测效果很差。

②当目标出现新的尺寸后，效果较差。

③定位不准确。

（说明：以上各图并非原创。）

所有评论(0)

温馨提示：您尚未绑定手机号

BigHao688

比如：对于PASCAL VOC数据集（类别为20），S=7,B=2,C=20,最后的预测参数为：77（20+5*2）。如下图所示：

通过第二个Conn.Layer时，需要进行两个处理：①通过一个节点个数为1470的全连接层。因为要得到一个7730的特征矩阵，所以需要1470。②进行reshape处理。把向量调整为7730的矩阵。