遥感影像-语义分割数据集：EvLab-SS benchmark数据集详细介绍及训练样本处理流程

EvLab-SS benchmark 数据集武大公开数据集，用于评估真实工程场景上的语义分割算法，旨在为遥感领域的高分辨率像素级分类任务寻找一种良好的深度学习架构。

GIS潮流

974人浏览 · 2024-09-02 13:04:18

GIS潮流 · 2024-09-02 13:04:18 发布

原始数据集详情

简介：EvLab-SS benchmark 数据集武大公开数据集，用于评估真实工程场景上的语义分割算法，旨在为遥感领域的高分辨率像素级分类任务寻找一种良好的深度学习架构。

数据集来源于中国地理条件调查和绘图项目，每幅图像都有地理条件调查的完整注释。数据集的平均大小约为4500×4500像素。EvLab-SS数据集包含11个大类，分别是背景、农田、花园、林地、草地、建筑、道路、构筑物、挖孔桩、沙漠和水域，目前包括由不同平台和传感器拍摄的60幅图像，训练集37幅、验证集8幅、测试集15幅。

该数据集包括35幅卫星图像，其中19幅由World-View-2卫星采集，5幅由GeoEye卫星采集，5幅由Quick Bird卫星采集，6幅由GF-2卫星采集；该数据集还有25幅航空图像，其中10幅图像的空间分辨率为0.25 m，15幅图像的空间分辨率为0.1 m。

Key	Value
卫星类型	多种
覆盖区域	未知
场景	未知
分辨率	不固定
数量	训练集37幅、验证集8幅、测试集15幅
单张尺寸	约为4500*4500
原始影像位深	8位
标签图片位深	8位
原始影像通道数	三通道
标签图片通道数	单通道

标签类别对照表

像素值	类别名（英文）	类别名（中文）
0	background	背景
1	farmland	农田
2	garden	花园
3	woodland	林地
4	grassland	草地
5	building	建筑
6	road	道路
7	structure	构筑物
8	digging pile	挖孔桩
9	desert	沙漠
10	water	水域

数据处理部分

大家是否有这样的困惑，真值标签图片的像素值太小，比如1、2、3······，由于像素值太小，导致看上去标签图片全为黑色，无法看出真值标签与影像图片的像素位置是否对应？如果真值标签的像素值间隔太大，又无法直接作为训练样本。

其实有办法可以解决这个问题，那就是在像素值为1、2、3等的图片上添加一个彩色表，添加的彩色表不会改变图片的像素值，但是可以由彩色的视觉效果展示，如下图所示：

在这里插入图片描述

下面对原始影像及标签进行模型训练前的数据预处理，根据这套数据集的原始信息，原作者整理的已基本接近训练条件，现在需要做的是根据自己训练模型的图片尺寸大小批量裁剪原始影像和标签为所需要的尺寸，比如512*512，另外如果需要检查裁剪后的数据是否一一对应，最好给标签数据添加颜色表，这样就可以轻易看出影像和真值标签是否一致。

下面就是使用代码对原始影像及原始标签进行批量裁剪为512*512大小，并给真值标签添加颜色表，效果图如下所示：

在这里插入图片描述

最后可以直接用于训练的数据集结构如下所示

/path/to/datas
├── train
│   ├── images
│   │   ├── 2522_0_0.tif
│   │   ├── 2522_0_512.tif
│   │   └── ......
│   └── labels
│       ├── 2522_0_0.tif
│       ├── 2522_0_512.tif
│       └── ......
└── val
    ├── images
    │   ├── 2522_512_512.tif
    │   ├── 2523_0_0.tif
    │   └── ......
    └── labels
        ├── 2522_512_512.tif
        ├── 2523_0_0.tif
        └── ......