目标检测（R-CNN系列、YOLO系列）、图像分割（FCN、U-Net）简介

这是一个关于计算机视觉两大核心任务——目标检测与图像分割的经典模型简介。以下内容将以清晰的结构呈现，符合专业且易懂的标准。这些模型构成了现代计算机视觉应用的基石，后续的诸多研究都是在它们的思想上进行改进和融合。——将目标检测视为一个单一的回归问题，直接从图像像素到边界框坐标和类别概率。——首先生成可能存在物体的候选区域，然后对这些区域进行分类和精修。图像分割的任务是为图像中的每个像素分配一个类别标

邝煜云

1068人浏览 · 2025-11-17 10:52:16

邝煜云 · 2025-11-17 10:52:16 发布

这是一个关于计算机视觉两大核心任务——目标检测与图像分割的经典模型简介。以下内容将以清晰的结构呈现，符合专业且易懂的标准。

一、目标检测

目标检测的任务是识别图像中有什么物体（分类），并指出它们的位置（定位），通常用边界框表示。

1. R-CNN 系列（两阶段方法的典范）

核心思想：“看两次”——首先生成可能存在物体的候选区域，然后对这些区域进行分类和精修。

R-CNN（Regions with CNN features）
- 简介：开创性地将CNN用于目标检测。
- 流程：
  1. 候选区域：使用选择性搜索算法从图像中提取约2000个类别无关的候选区域。
  2. 特征提取：将每个候选区域缩放成固定大小，输入到CNN中提取特征。
  3. 分类与回归：使用支持向量机对特征进行分类，同时使用一个独立的回归器对候选框的位置进行精修。
- 缺点：训练测试速度极慢（重复为每个区域提取特征），存储开销大，流程复杂。
Fast R-CNN
- 改进：共享计算，大幅提速。
- 流程：
  1. 将整张图像输入CNN，得到整个图像的特征图。
  2. 将原始图像中的候选区域映射到特征图上，得到对应的特征块。
  3. 通过一个RoI池化层 将不同尺寸的特征块转换为固定尺寸。
  4. 最后通过全连接层同时完成分类和边界框回归。
- 优点：速度显著快于R-CNN，准确率提升。
Faster R-CNN
- 改进：端到端训练，彻底解决了候选区域生成的瓶颈。
- 核心创新：引入区域提议网络（RPN）。RPN是一个全卷积网络，直接在特征图上预测候选区域（即“锚点”机制），与检测网络共享特征。
- 流程：图像 -> CNN骨干网络 -> 特征图 -> RPN生成候选区域 -> Fast R-CNN检测头。
- 意义：奠定了两阶段检测器的霸主地位，准确率高，但速度仍不及单阶段方法。

2. YOLO 系列（单阶段方法的代表）

核心思想：“看一次”——将目标检测视为一个单一的回归问题，直接从图像像素到边界框坐标和类别概率。

YOLO（You Only Look Once）
- 简介：开创了单阶段目标检测的先河，速度极快。
- 流程：
  1. 将图像划分为 S×S 的网格。
  2. 每个网格负责预测落入该网格的物体。每个预测包含边界框（坐标、宽高、置信度）和类别概率。
  3. 最后通过非极大值抑制（NMS）过滤掉冗余的预测框。
- 优点：速度非常快，能进行实时检测。
- 缺点：对密集小物体检测较差，定位精度 initially 不如两阶段方法。
YOLOv3
- 关键改进：
  - 多尺度预测：使用类似FPN的金字塔结构，从不同尺度的特征图上进行预测，显著提升了对小物体的检测能力。
  - 更好的骨干网络：采用Darknet-53。
  - 多标签分类：使用独立的逻辑回归分类器代替Softmax。
YOLOv4/v5及之后
- 特点：不再是单一论文，而是一个工程优化集合。
- 改进方向：在保持速度优势的同时，集成了大量能提升性能的“技巧”，如：
  - 数据增强：Mosaic， MixUp等。
  - 新的激活函数：Mish, SiLU。
  - 新的损失函数：CIoU Loss。
  - 模型缩放技术：便于在不同计算资源下部署不同大小的模型。
- 现状：YOLO系列因其在速度与精度间的出色平衡，已成为工业界应用最广泛的目标检测框架之一。

二、图像分割

图像分割的任务是为图像中的每个像素分配一个类别标签。

1. FCN（Fully Convolutional Network）

简介：语义分割的开山之作，首次证明了CNN可以通过端到端的训练来解决像素级分类问题。
核心思想：“全卷积化”。将传统CNN分类网络（如VGG， AlexNet）末尾的全连接层替换为卷积层。
关键技术：
- 转置卷积（反卷积）：用于对特征图进行上采样，使其恢复到原图尺寸。
- 跳跃连接：将深层、语义信息丰富的特征与浅层、位置信息精细的特征进行融合，从而在保证类别判断准确的同时，生成边界清晰的分割结果。
意义：奠定了现代语义分割网络的基本范式——编码器-解码器 结构。

2. U-Net

简介：最初为生物医学图像分割设计，现已成为语义分割领域的经典网络，尤其在数据量较小的领域表现出色。
核心结构：对称的编码器-解码器结构，形似英文字母“U”，故名U-Net。
- 编码器（下采样路径）：通过卷积和池化逐步提取特征，捕获上下文信息，但特征图尺寸减小。
- 解码器（上采样路径）：通过转置卷积逐步恢复特征图尺寸和空间细节。
最关键创新：密集的跳跃连接。将编码器每一层的特征图与解码器对应层的特征图在通道维度上进行拼接。这使得解码器在重建目标细节时，能直接获得来自编码器的高分辨率特征，完美弥补了因下采样而丢失的空间信息。
优点：在小型数据集上表现优异，分割边界精准，结构简洁优雅。

总结对比

任务	模型系列	核心思想	特点
目标检测	R-CNN系列	两阶段：先提议，后检测	精度高，速度相对慢
	YOLO系列	单阶段：端到端回归	速度快，适合实时应用
图像分割	FCN	全卷积化，编码器-解码器	开创性，语义分割基石
	U-Net	对称结构，密集跳跃连接	细节保留好，小数据友好

这些模型构成了现代计算机视觉应用的基石，后续的诸多研究都是在它们的思想上进行改进和融合。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

提升Angular2-HN性能的7个实用技巧：让新闻加载速度飞起来

Angular2-HN是一款基于Angular构建的Progressive Hacker News客户端，专为追求高效新闻浏览体验的用户设计。本文将分享7个实用技巧，帮助你优化Angular2-HN的性能，让新闻加载速度显著提升，带来更流畅的阅读体验。## 1. 启用Service Worker缓存关键资源Service Worker是提升Angular应用性能的强大工具，它可以在后台缓存