图像太宽无法输出请裁剪图像或降低分辨率然后重试_【论文精读】U-Net 适用于低数据量图像分割的深度卷积网络...

本期推文主要介绍U-Net结构，这是一种包含多重卷积层和升采样层的深度卷积网络，它的特点在于：对数据量要求小，高效，精准，不含有全连接层。本文作者: Masonic@NAIS论文题目：U-Net: Convolutional Networks for Biomedical Image Segmentation论文作者：Olaf Ronneberger, Philipp Fischer, and T

weixin_39522170

834人浏览 · 2020-12-04 13:15:15

weixin_39522170 · 2020-12-04 13:15:15 发布

本期推文主要介绍U-Net结构，这是一种包含多重卷积层和升采样层的深度卷积网络，它的特点在于：对数据量要求小，高效，精准，不含有全连接层。
本文作者: Masonic@NAIS

论文题目：

U-Net: Convolutional Networks for Biomedical Image Segmentation

论文作者：

Olaf Ronneberger, Philipp Fischer, and Thomas Brox

发表时间：2015.05.18

概论 ABSTRACT

大多数的深度神经网络需要数以千计的标记数据图像来训练，而本篇论文提出的U-Net模型和相关训练算法，利用了扩大数据集(Data Augmentation)的核心思想，最大限度的利用有限的数据集去训练模型。

U-Net在2015年的ISBI比赛上以大幅度的领先赢得了生物细胞定位项目的冠军。到目前为止，U-Net的各种变种模型3D U-Net, V-Net, TernausNet, Res-UNet等等在图像分割领域仍保持着相当的活力。

TernausNet: 使用 VGG11 编码器的U-Net变种

Attention U-Net: 使用了注意力机制的U-Net变种

Attention R2U-Net: 增加了递归结构的U-Net变种

模型结构 Structure

U-Net本质上是不含全连接层的全卷积网络，标准的U-Net由左右两条路径构成，U型网络由此得名，两条路径分别是

左侧的降采样/编码路径(contracting network/encoder)

最左侧输入

的多通道原始图像，进行4次双重3x3卷积和4次2x2最大池化进行四层的降采样操作后，将图像压缩至

的尺寸。每层降采样都会把特征通道(Feature Channels)加倍，反映到示意图上就是蓝色方块越来越"厚"。

在这里，降采样操作的意义在于，它能够降低图像平移，旋转等操作带来的扰动，降低过拟合的风险。同时多层降采样产生的大量特征通道(1024层)，能够很好的将像素周围的相关信息(context information)传递到接下来的网络中，换句话说就是能够感知局部像素(localization)而不是单一像素。

右侧的升采样/解码路径(expansive network/decoder)

右侧升采样路径同样由四层升采样层构成，不过这里的池化层改为了2x2的升卷积层。每个升卷积层将特征通道减半，并将图像的尺寸加倍(长宽x2=面积x4)。

U-Net结构的左右侧结构是对称的，每次升采样后都将结果和左侧的降采样层的特征通道拼合起来，这里使用的是concat而不是sum。由于右侧的结果尺寸较小，因此将左侧的特征通道进行裁剪(蓝色虚线框)。这样做可以使模型合成出更精准的输入图像。

最终使用了1x1的卷积核将64个特征通道映射到2个映射通道，输出结果是

尺寸的包含2层特征通道的图像。我们要解决的是医学上的图像分割问题，因此一层特征是背景，另一层特征是目标的组织图像。U-Net总共使用了23层卷积层。

以脑组织切片为例，黑色部分为背景，其余为我们需要的脑图像

关键技术 Tricks

数据集扩充策略(Data Augmentation)

本篇论文的核心思想之一是数据集扩充(Data Augmentation)，对于样本量小的医学图像分割问题，核心的解决思路是使用变形模型(Deformation Model)对图像进行空间变形，以获取更多的原始数据。这样可以使模型对同一个图像学到更多的变量。这一点已经在Dosovitskiy等人关于无监督学习特征的论文中讨论过。

本文在3x3的网格上，使用符合高斯分布的10像素变形向量来进行变形(deformation)，使用双三次插值(bicubic interpolation)来填充变形造成的分辨率降低的问题。在下采样路径的最后加入了Drop-Out方法，进一步地扩充数据集。

无缝分割策略(Overlap-Tile)

输入的原始图像是

尺寸的，而不是

尺寸的，这是为了更好地处理边缘像素。我们知道，卷积层在处理图像时会造成一定程度的边缘信息丢失。

那么多出来的那块像素是从哪来的呢? 答案很简单，针对边缘进行镜像。

通过对图像进行overlap-tile处理，可以将图像分块输入模型，这有利于降低内存占用。而现有的其他方法有一定的缺陷：resize会导致图像分辨率降低，而滑窗分割(sliding-window)会产生过多的重叠边缘。

预计算权重矩阵策略(Pre-compute weight map/ weight initialization)

随着神经网络层数的增加，训练过程中会出现梯度消失的问题，这导致深层的网络参数无法被有效地训练。此外，某些卷积层可能会有过多的激活函数。因此，权值的初始化好坏程度会影响模型的效果以及训练时间。理想的权值初始化是使得网络中的每一个特征图方差都接近1。
在U-Net中，可以通过高斯分布随机生成权值，高斯分布的均方差为

，其中N为前一神经层的输入节点数，举例：前一层使用了3x3卷积核和64个特征通道，那么

。