遥感科学与应用技术

一种基于深度传递迁移学习的遥感影像分类方法

  • 林禹 ,
  • 赵泉华 , * ,
  • 李玉
展开
  • 辽宁工程技术大学测绘与地理科学学院,阜新 123000
*赵泉华(1978— ),女,河北承德人,博士,教授,主要从事随机几何、空间统计学、模糊集理论等在遥感图像建模、 解译及海洋环境遥感等方面的研究。E-mail:

林 禹(1994— ),男,辽宁抚顺人,硕士生,主要从事基于深度学习的遥感影像分类研究。E-mail:

收稿日期: 2021-07-25

  要求修回日期: 2021-10-05

  网络出版日期: 2022-05-25

基金资助

国家自然科学基金项目(41801233)

国家自然科学基金项目(41801368)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

A Remote Sensing Image Classification Method based on Deep Transitive Transfer Learning

  • LIN Yu ,
  • ZHAO Quanhua , * ,
  • LI Yu
Expand
  • School of Geomatics, Liaoning Technical University, Fuxin 123000, China
*ZHAO Quanhua,E-mail:

Received date: 2021-07-25

  Request revised date: 2021-10-05

  Online published: 2022-05-25

Supported by

National Natural Science Foundation of China(41801233)

National Natural Science Foundation of China(41801368)

Copyright

Copyright reserved © 2022

摘要

面对实际的遥感影像分类任务,采用深度神经网络的方法存在的最大问题是缺乏充足的标注样本,如何使用较少的标注样本实现较高精度的遥感影像分类,是目前需要解决的问题。ImageNet作为世界上最大的图像识别数据集,在其上训练出的模型有着丰富的底层特征。对ImageNet预训练模型进行微调是最常见的迁移学习方法,能够一定程度利用其丰富的底层特征,提高分类精度。但ImageNet影像特征与遥感影像差距较大,对分类效果提升有限。为了解决上述问题,本文基于传递迁移学习思想,结合深度神经网络,提出一种基于深度传递迁移学习的遥感影像分类方法。该方法通过构建以开源遥感场景识别数据集为源域的中间域,并以ImageNet预训练权重为源域、待分类遥感影像为目标域进行迁移学习,提高遥感影像分类精度。首先,以ImageNet预训练VGG16网络为基础,为加速卷积层权重更新而将全连接层替换为全局平均池化层,构建GAP-VGG16,使用中间域数据集训练ImageNet预训练GAP-VGG16以获取权重;然后,以SegNet网络为基础,在SegNet中加入卷积层设计了T-SegNet,以对获取的权重进一步地提取。最后,将获取的权重迁移到T-SegNet中,使用目标域数据集训练,实现遥感影像分类。本文选取Aerial Image Dataset和UC Merced Land-Use DataSet作为中间域数据集的数据源,资源三号盘锦地区影像为目标域影像,并分别选取了50%和25%数量的训练样本进行实验。实验结果表明,在50%和25%数量的训练样本下,本文方法分类结果相比SegNet的Kappa系数分别提高了0.0459和0.0545,相比ImageNet预训练SegNet的Kappa系数分别提高了0.0377和0.0346,且在样本数较少的类别上,本文方法分类精度提升更明显。

本文引用格式

林禹 , 赵泉华 , 李玉 . 一种基于深度传递迁移学习的遥感影像分类方法[J]. 地球信息科学学报, 2022 , 24(3) : 495 -507 . DOI: 10.12082/dqxxkx.2022.210428

Abstract

In the practical task of remote sensing image classification, the biggest problem with the use of deep neural network method is the lack of sufficient labeled samples. How to use fewer labeled samples to achieve higher accuracy of remote sensing image classification is a problem that needs to be solved at present. ImageNet is the largest image recognition dataset in the world, the model trained on it has rich underlying features. Fine-tuning the ImageNet pre-training model is the most common transfer learning method, which can make use of the rich underlying features to improve the classification accuracy. However, there is a big difference between ImageNet image features and remote sensing image features, and the improvement of classification effect is limited. In order to solve the above problems, a remote sensing image classification method based on deep transitive transfer learning combined with deep neural network is proposed in this paper. This method constructs an intermediate domain using the open-source remote sensing scene recognition datasets as the data source and uses ImageNet pre-training weight as the source domain and remote sensing images to be classified as the target domain for transfer learning to improve remote sensing image classification accuracy. First, based on ImageNet pre-training VGG16 network, the fully connected layer is replaced by the global average pooling layer in order to speed up the weight update of convolutional layer, and the GAP-VGG16 is constructed. The intermediate domain dataset is used for training the ImageNet pre-training GAP-VGG16 to obtain the weight. Then, based on the SegNet, the T-SegNet is designed by adding the convolutional layer into the SegNet to further extract the obtained weight. Finally, the obtained weight is transferred to T-SegNet, and the remote sensing image classification is achieved by training the target domain dataset. In this paper, the Aerial Image Dataset and UC Merced Land-Use Dataset are selected as the data sources of the intermediate domain dataset, and the ZY-3 Panjin area image is selected as the target domain image, 50% and 25% of the training samples are selected for the experiment. The experimental results show that using 50% and 25% of the training samples, the Kappa coefficient of the classification results using the proposed method in this paper is increased by 0.0459 and 0.0545, respectively compared to SegNet, and is increased by 0.0377 and 0.0346, respectively compared to ImageNet pre-training SegNet. For classes with a smaller number of samples, the classification accuracy of the method in this paper is improved more significantly.

1 引言

近几十年来遥感技术快速发展,遥感影像已广泛应用于军事、气象、地球资源、环境等领域[1]。遥感影像分类作为遥感领域研究的重要内容,国内外学者对其进行了大量的研究[2]。在传统遥感影像分类方法中,有以最大似然法[3]、最小距离法[4]、支持向量机[5]等为代表的监督分类方法,以及以K均值[6]、迭代自组织的数据分析法[7]等为代表的非监督分类方法,然而,随着遥感技术的不断发展,空间分辨率越来越高,地物特征越来越复杂,传统分类方法面对遥感影像“同物异谱”和“异物同谱”的特点,分类精度均难以达到要求。近年来随着硬件性能的提升,卷积神经网络[8](Convolutional Neural Network, CNN)为代表的深度神经网络兴起。CNN无需经过特征工程获取足够好的数据特征,其深度结构能够自己完成特征的学习过程,在面对遥感影像复杂的地物特征时,能够更加充分地挖掘和学习更多的特征,精度高于传统的遥感影像分类算法。Long等[9]提出的全卷积神经网络(Fully Convolutional Networks, FCN),通过反卷积操作实现了像素级分类,解决了像素级分类的问题。近年来,深度神经网络被广泛应用于遥感影像分类领域。杨建宇等[10]以World View-2高分影像为数据源对河北省霸州市农村建设用地进行分类,通过与最大似然法、迭代自组织的数据分析法、支持向量机以及PSPNet对比,表明SegNet有着更好的分类效果。朱岩彬等[11]以SegNet为基础网络,将Unet和SegNet结合,构建了U-SegNet网络,对Vaihingen市高分辨率遥感影像建筑物进行分类,该方法能够有效地提取出实验场景中的建筑物。
深度神经网络的训练需要大量有标注的样本影像,且制作样本是一项繁杂的工作。面对实际的遥感影像分类任务,如何使用较少的有标注样本,在有限的迭代次数下,实现较高精度的分类,是目前需要解决的问题。迁移学习能够有效缓解样本不足的问题[12]。ImageNet作为世界上最大的图像识别数据集,在其上训练出的模型有着丰富的底层特征,使用ImageNet预训练模型进行微调是目前较为常见的深度迁移学习方式。李冠东等[13]利用加载ImageNet预训练权重的Inception v3网络为模型提取遥感影像的特征,以此为输入训练一个单层全连接层,使用少量的遥感数据集进行训练实现遥感影像场景识别,得到了较高的分类精度。滕文秀等[14]利用超像素分割算法对林地影像进行分类,加载ImageNet预训练权重进行微调完成网络训练,对分割后的超像素块进行识别以完成分类,取得了更高的分类精度,且树种边界更为精确。虽然使用ImageNet预训练权重能够在一定程度上利用ImageNet丰富的底层特征,但ImageNet影像特征与遥感影像差距较大,对分类效果提升有限。
为解决上述问题,本文根据传递迁移学习思想,结合深度神经网络,提出一种基于深度传递迁移学习的遥感影像分类方法。该方法通过加入以开源遥感场景识别为数据集的中间域数据集,增强ImageNet网络与遥感影像分类数据集的联系,并对传统深度神经网络进行了改进,设计了GAP-VGG16和T-SegNet,在保留ImageNet权重丰富底层特征的同时,提高了迁移学习的效果。本文提出的方法面对实际的遥感影像分类任务,在有限的标注样本下,提高了遥感影像的分类精度。

2 技术路线

本文提出了一种基于深度传递迁移学习的遥感影像分类方法,应用于盘锦地区资源三号(ZY-3)遥感影像的分类中。本文技术路线整体上分为数据集制作、网络训练和精度评定与分析3个部分。具体的技术路线如图1所示。
图1 本文技术路线

Fig. 1 Technology roadmap in this paper

3 深度传递迁移学习方法

3.1 深度传递迁移学习流程

在基于深度神经网络的遥感影像分类中,普遍存在大数据与少标注之间的矛盾,而少量的样本无法支撑网络的训练,使得分类精度低。迁移学习能够利用已有的知识帮助借助新的任务,其定义为给定源域Ds = {Xs, Fs(X)} 和学习任务Ts,目标域Dt = {Xt, Ft(X)} 和学习任务Tt,迁移学习旨在源域Ds不同于目标域Dt或学习任务Ts不同于学习任务Tt的条件下通过使用学习任务Ts和源域Ds ={Xs, Fs(X)}所获取的知识来帮助学习目标域Dt中的知识,来完成学习任务Tt。其核心任务是找到新问题和原问题的相似之处。迁移学习能够缓解深度学习样本不足的问题,常用方式是微调(Fine-tune),微调通过修改已经训练好的网络模型结构,选择性载入预训练权重,再用目标的数据集重新训练模型,这样能够提高训练效率,在小规模数据集上效果较好。但如果源域与目标域的特征相差较大,迁移学习的效果会有所降低。ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库,是世界上最大的图像识别数据集,其中包含了超过1400万张有标注图像。常用对ImageNet预训练网络进行微调的方式进行迁移学习来缓解样本不足的问题,从而提高分类精度。Yosinski等[15]的研究表明,无论是在相似的数据集上迁移还是在不相似的数据集上迁移,使用迁移的权重去初始化的效果会比随机初始化的效果要好。虽然在ImageNet上预训练的网络模型具有丰富的底层特征,但由于ImageNet数据集图像特征与遥感影像差距较大,对分类效果的提升效果有限。
传递迁移学习[16](Transitive Transfer Learning, TTL)由杨强教授团队于2015年提出,其要解决的问题就是源域的数据与目标域特征差距较大的情况下进行迁移学习(图2)。传递迁移学习的核心思想是:若源域Ds与目标域Dt差距较大,引入一个或多个与二者均有一定相似度的中间域DI将它们联系起来。
图2 传递迁移学习

Fig. 2 Transitive transfer learning

针对遥感影像场景识别,有开源遥感场景识别数据集如AID(Aerial Image Dataset)[17]、UC(UC Merced Land-Use DataSet)[18]等。为能够利用ImageNet数据集丰富的底层特征,并增强ImageNet数据集与目标域遥感分类影像的联系,更好的进行迁移学习,本章根据传递迁移学习的思想,结合深度神经网络提出一种深度传递迁移学习流程。该流程使用AID、UC等开源遥感场景识别数据集作为中间域,将源域ImageNet和目标域数据集联系起来,在充分利用ImageNet数据集丰富的底层特征的同时,解决了源域和目标域特征差距较大的问题,以提高遥感影像分类精度。本文提出的基于传递迁移学习的流程如图3所示。
图3 深度传递迁移学习流程

Fig. 3 Deep transitive transfer learning process

首先,采用ImageNet预训练VGG16作为本文训练流程的初始网络。将ImageNet预训练VGG16迁移到中间域遥感场景识别数据集上进行微调,使得VGG16拥有了更为丰富的底层特征,同时其高层特征通过微调逐渐转变为遥感影像特征,完成从源域到中间域的迁移。然后,采用SegNet作为的分类网络,将训练好的VGG16网络卷积层部分的权重提取出来,迁移到SegNet中,使用目标域数据集进行训练,完成遥感影像分类任务。经过中间域遥感场景识别数据集迁移训练的ImageNet预训练网络,使得VGG16的卷积层拥有了提取遥感影像特征的能力,将卷积层的权重迁移到SegNet上,使得SegNet网络在训练开始就拥有更好的初始参数,较直接迁移ImageNet预训练参数的方法,在相同的迭代次数下能够得到更高的分类精度。至此,完成了从中间域到目标域的迁移。

3.2 网络结构设计

迁移学习能够利用已有的知识,对新的分类任务起到积极作用,缓解训练样本不足的问题。Yosinski等[15]的研究表明卷积神经网络的权重参数是可迁移的,采用微调的方法对卷积神经网络进行迁移学习被证明是有效的,但需要满足被迁移部分的网络结构与目标网络结构是一致的。为更好的进行传递迁移学习,本文对VGG16和SegNet进行改进,构建了GAP-VGG16和T-SegNet网络。
3.2.1 GAP-VGG16网络
图3所示为GAP-VGG16的网络结构示意图,整个网络的卷积部分与VGG16相同,有13个卷积层、5个池化层组成了5个卷积组,卷积层深度分别为64、128、256、512和512,激活函数为ReLU。在最后一层最大池化层后分别为一层全局平均池化层、节点数为分类类别数的全连接层。
(1)卷积层
卷积层是CNN最基础的组成单元,卷积层最大的特点就是采用的局部连接和权值共享的思想,局部连接和权值共享的存在大大降低了CNN的参数量。设卷积层的输入为xil-1,输出为xjl,则卷积计算的公式为:
$x_{j}^{l}=\sum_{i \in M_{j}} x_{i}^{l-1} \times k_{i j}^{l}+b_{j}^{l}$
式中:xjl为第l层卷积层的第j个卷积核的输出结果,通过与前一层输出特征图xil-1进行卷积计算和偏置后得到;kijl为卷积核矩阵,为偏置;Mj表示选择的输入特征图的集合。
(2)池化层
池化层是一种降采样的方式,其目的是减少特征图的尺寸,从而减少全连接层的参数量,防止过拟合。池化层模仿人的视觉系统对数据进行降维,用更高层次的特征表示图像。常用的池化方式有最大池化和平均池化。最大池化是对池化窗口选取其中的最大值作为输出,而平均池化则是选取平均值作为输出。
(3)激活函数
卷积后一般会加入激活函数对输出的特征图进行计算。激活函数的作用是加入非线性因素,使得网络能够处理更为复杂的问题,增强网络的拟合能力,提高网络的表达能力。常采用修线性整流函数(Rectified Linear Unit, ReLU)作为CNN的非线性激活函数,设输入特征图为x,输出为f(x),则ReLU的计算公式为:
f ( x ) = max ( x , 0 )
(4)全局平均池化
传统VGG16的前两层节点数为4096,使得其占据的参数比例非常大。假设第s层为卷积层,第t为全连接层,则上述两层的参数量YsZt为,
Y s = C s - 1 × A s × B s × C s
Z t = D t - 1 × D t
式中:Cs-1为上一层卷积层的深度,AsBs为当前卷积层卷积核的长和宽,Cs为当前卷积层的深度,Ds-1为前一层的节点数,Ds为当前层的节点数。VGG16经计算共有1.3834E+08个参数,然而其全连接层3层共计7×7×512×4096+4096×4096+4096×1000共1.2363E+08个参数,第一层全连接层就有7×7×512×4096共1.0276E+08个参数。这使得在迁移学习时采用VGG16进行微调,其卷积层参数难以更新。为了解决这一问题,本文对VGG16网络进行改进,使用全局平均池化(Global Average Pooling, GAP)[19]层代替了全连接层,设计了GAP-VGG16网络,其网络结构如图4所示。
图4 GAP-VGG16网络结构

Fig. 4 Network architecture of GAP-VGG16

全局平均池化是对整个特征图内的所有像素求均值,不存在需要微调的参数,使得各个类别与特征图的联系更加直观。此外,在全局平均池化层后添加一个节点数为类别数的全连接层,通过Softmax分类器计算概率,完成分类。这样,假设一个分类数为1000的VGG16网络,将全连接层替换为全局平均池化层,则除卷积层外参数量为512×1000共5.12E+05个参数,相较传统VGG16中1.2363E+08个参数,其参数量大大减少。当使用中间域遥感场景识别数据集训练GAP-VGG16网络时,由于全局平均池化操作没有参数参与训练,非卷积层部分参数量大大减少,所以网络卷积层的卷积核参数易于进行充分地微调更新,从而能够更加充分的提取遥感影像信息。
3.2.2 T-SegNet网络
图5所示为T-SegNet网络结构,整个网络采用编码-解码器架构。其中,编码器层部分共计16个卷积层,每层的卷积核个数分别为64、128、256、512、512和512。池化层选用最大池化操作,池化窗口的尺寸为2,池化步长为2。上池化层尺寸、步长与最大池化层一致,分类器采用Softmax分类器。
图5 T-SegNet网络结构

Fig. 5 Network architecture of T-SegNet

T-SegNet借鉴了SegNet的网络结构,其编码器层的前半部分与VGG16结构完全相同,由13个卷积层、5个池化层组成。上采样操作的方式同样采用了上池化,上池化操作在池化过程中同时记录最大池化索引(图6)信息,保存了最大特征值所在的位置,然后利用最大池化索引信息对输入的特征图进行上池化,直接恢复最大特征值的空间位置,克服了FCN反卷积过程中丢失了空间信息的缺点,使得边缘信息更加精确,同时也不需要融合池化得到的特征图恢复细节,节约了内存空间。与SegNet不同的是,在前半部分VGG16结构后添加了三层大小为3×3,深度为512的卷积层。在卷积神经网络中,卷积层提取的特征从底层到高层是一个不断提取和组合的过程,底层特征通常是一些简单的、一般的特征,而高层特征更接近分类目标影像的特征。虽然经过AID-UC遥感场景识别数据集训练得到的权重参数能够对遥感影像进行特征提取,但这些数据集中的影像特征与本文目标影像特征仍存在差距,故在T-SegNet编码器前半部分的VGG16结构后加入三层卷积层,对特征进行进一步提取和组合,更好地利用GAP-VGG16网络训练出的权重参数。
图6 最大池化索引

Fig. 6 Maxpooling indices

4 数据集构建

4.1 目标域数据集

本文所用数据分为两部分,第一部分为目标域数据集,用于训练T-SegNet网络。影像中的地物类型被分为5类,为耕地、建筑用地、水体、湿地和海水养殖场(图7)。影像数据来自中国辽宁省盘锦市地区地理位置位于盘锦市西南方向,大凌河与双台子河流域,获取时间为2017年11月4日。影像为资源三号卫星获取的多光谱影像,地面像元分辨率为5.8 m,影像大小为8192像素×8192像素,选取其中的红、绿、蓝3个波段合成真彩色影像作为本文的实验影像数据。如图7所示为影像及其真值图。本实验将原始影像通过图像标注软件Labelme制作成标签图,并将其尺寸裁剪为256的样本影图像,去除其中只有单一类别的样本,共获得712张样本影像。最后,由于样本数量较少,采用旋转90°、180°、270°、垂直镜像和水平镜像的方式进行数据增强,扩充数据集,共获得4272张标注样本。
图7 资源三号盘锦地区影像及其真实标注

Fig. 7 ZY-3 Panjin area image and real landmarks

4.2 中间域数据集

第二部分为训练GAP-VGG16获取遥感影像预训练权重所用的中间域AID-UC数据集。中间域数据集中的影像采用AID数据集和UC数据集中的部分影像。AID数据集由武汉大学于2017年发布,影像来自于Google Earth,数据集包括了airport、beach等在内的30种土地利用类型的遥感影像。UC数据集由加利福尼亚大学美熹德分校于2010年发布,影像来自USGS National Map,数据集包含了buildings、freeway在内的21个类别。选取AID数据集中Farmland影像数据、UC数据集中的Agricultural影像数据作为耕地的训练样本;选取AID数据集中Commercial、DenseResidential和Industrial影像数据、UC数据集中Buildings和DenseResidential影像数据作为建筑用地的训练样本;选取AID数据集中Pond影像数据作为水体的训练样本;选取AID数据集中Desert影像数据作为湿地的训练样本,虽然这一类别为荒漠,但其与湿地的影像特征有一定的相似之处,根据传递迁移学习理论,相似的特征能够对分类起到积极作用。同样的,虽然没有海水养殖场的训练样本,但其特征与建筑用地和水体均有一定的相似之处。最后,对选取的影像,将其尺寸裁剪为256作为输入大小,通过旋转90°、180°、270°、垂直镜像和水平镜像,扩充数据集,最终每类均得到超过5000张样本。数据集部分样本如图8所示。
图8 AID-UC数据集部分样本

Fig. 8 Partial samples of AID-UC dataset

5 实验与结果分析

5.1 实验环境、参数设置与精度评价方法

本章的实验环境为window7操作系统,采用基于Tensorflow1.13.1的高层神经网络应用程序接口Keras2.2.4训练本实验网络。硬件方面,CPU为 Intel(R) Core i7 4790,GPU为Nvidia GTX1060 6G,内存为8 G。选用SegNet网络和ImageNet预训练SegNet网络作为对比算法,选取交并比(IoU)、Kappa系数、总体精度(OA)作为精度评价指标。IoU、OA和Kappa系数的计算公式分别为,
IoU = TP TP + FN + FP
OA = TP + TN TP + FN + FP + FN
Kappa = P o - P e 1 - P e
式中:TP为被模型分类正确的正样本数;FN被模型分类错误的正样本数;FP被模型分类错误的负样本数;TN被模型分类正确的负样本数;Po为每一类正确分类的样本数量之和除以总样本数;Pe为每一类真实样本个数与预测样本个数乘积的和除以总样本个数的平方。
训练参数方面,均采用适应性矩估计[20](adaptive moment estimation, Adam),epoch设置为80,batch size设置为3。由于AID-UC数据集与ImageNet数据集影像特征差距较大,数据集样本数较多,故训练GAP-VGG16时采用全局微调的形式。而资源三号盘锦影像与AID-UC数据集影像特征差距较小,虽样本数量相对较少但足以支撑网络的训练,训练T-SegNet时同样采用了全局微调的形式。考虑到迁移学习需要以较慢的速度更新权重参数,将学习率均设置为0.000 1。实验设计上,分别50%和25%数量的目标域样本对网络训练,并使用未参与训练的目标域样本作为测试集计算分类精度。

5.2 实验结果

为测试SegNet、ImageNet预训练SegNet(以下简称iSegNet)和本文提出的基于深度传递迁移学习的遥感影像分类方法(简称本文方法)的分类效果,首先选取了50%样本数量的资源三号盘锦影像数据集对各个算法进行训练,选取测试集的影像进行精度评价,以整张影像的分类结果作为展示。图9(b)—图9(d)分别为SegNet网络、iSegNet网络和本文方法的分类结果,图10为分类细节展示。可以看出,SegNet的整体分类效果尚可,但SegNet的错分现象稍多,有一定的耕地被错分为湿地,以及将建筑用地错分类养殖场的现象。并且在SegNet网络对于海水养殖场处的分类噪点较多,对细小的河流分类效果较差。iSegNet相比SegNet的分类效果有一定的提升,整体上噪点较SegNet有一定的降低,建筑物和耕地的错分现象减少,细小河流分类效果较好,但在养殖场上的分类效果与SegNet差距不大,而且对一些水体存在漏分现象。本文方法分类效果相比iSegNet更好,整体噪点更少,在养殖场上的分类效果有明显改善,但对影像中间河滩处的耕地与湿地特征相似部分,本文方法相比iSegNet的错分现象更多。表1为各个算法的定量评价结果,在50%训练样本下,iSegNet网络相比SegNet网络,总体精度提高了0.61%,Kappa系数提高了0.0082。本文方法相比iSegNet网络,总体精度提高了2.65%,Kappa系数提高了0.0377。
图9 各算法50%样本分类结果

Fig. 9 Classification results of 50% samples for each methods

图10 各算法50%样本局部分类结果

Fig. 10 Local classification results of 25% samples for each methods

表1 50%样本下分类定量评价结果比较

Tab. 1 Quantitative evaluation results of 50% samples for different methods

地物 IoU OA Kappa
耕地 建筑用地 水体 湿地 养殖场
SegNet 0.8771 0.6456 0.8511 0.8103 0.7795 0.9100 0.8744
iSegNet 0.8838 0.6357 0.8662 0.8274 0.7909 0.9161 0.8826
本文方法 0.9161 0.6971 0.9068 0.8697 0.9007 0.9426 0.9203
为了进一步探究迁移学习在少样本情况下对分类效果的提高能力,选取25%的样本数量对各算法进行训练。图11(b)—图11(d)为SegNet网络、iSegNet网络和本文方法选取25%样本训练的分类结果,图12为分类细节展示。可以看出,随着样本数量的减少,错分现象和噪声随之增多。SegNet在耕地和建筑用地的错分现象进一步增多,并且在养殖场和水体相接的沿海处出现了大量的错分现象。iSegNet在耕地和建筑用地上稍好,但在养殖场的错分相比SegNet更为严重。本文方法好于二者,但整体噪声也有明显增多。由表2可知,在25%训练样本下,iSegNet相比SegNet,总体精度提高了1.42%,Kappa系数提高了0.0199,但养殖场的IoU相比SegNet反而减少了0.89%。而本文方法相比iSegNet网络,总体精度提高了2.39%,Kappa系数提高了0.0346。
图11 各算法25%样本分类结果

Fig. 11 Classification results of 25% samples for each methods

图12 各算法25%样本局部分类结果

Fig. 12 Local classification results of 25% samples for each methods

表2 25%样本下分类定量评价结果比较

Tab. 2 Quantitative evaluation results of 25% samples for different methods

地物 IoU OA Kappa
耕地 建筑用地 水体 湿地 养殖场
SegNet 0.8589 0.5492 0.7909 0.7840 0.7240 0.8886 0.8438
iSegNet 0.8820 0.5745 0.8306 0.8099 0.7151 0.9028 0.8637
本文方法 0.8973 0.7004 0.8734 0.8354 0.8504 0.9267 0.8983

5.3 实验讨论

在使用50%和25%数量的盘锦湿地训练样本对网络进行训练和分类中,本文方法的分类效果与SegNet和iSegNet的差距主要体现在建筑用地和养殖场上。本文的资源三号盘锦湿地影像中,建筑用地的面积最小故训练样本中建筑用地所占像素数最少,养殖场次之,且养殖场网格中间的特征与水体相对接近,网格边缘特征与建筑用地接近,容易错分。而由于采用了深度传递迁移学习方法,构建了与目标域分类类别相同或相似影像的中间域数据集,并且GAP-VGG16保留了ImageNet预训练VGG16的卷积层权重,使用AID-UC遥感场景识别数据集训练GAP-VGG16获取了对应类别且有丰富底层特征的遥感影像权重,使得T-SegNet在训练的开始就拥有更好的初始权重,网络的收敛速度更快。遥感影像权重补充了网络所需学习的特征,使得T-SegNet在相同的epoch和训练样本数量下达到了更高的分类精度。本文方法相比iSegNet,在50%数量的目标域样本训练下,建筑物和养殖场的IoU差距达到6.14%和10.89%,在25%数量的目标域样本训练下,建筑物和养殖场的IoU差距增大到12.59%和13.53%,表明本文方法能够有效补充少样本类别的影像特征,对少样本类别的分类效果的提升更明显。面对实际的遥感影像分类任务,本文算法能够以相对较少的标注样本实现较高精度的分类,表现出本文方法的有效性。
在运行效率方面,以100%样本数量为例,SegNet训练一个epoch的平均时长为622 s,iSegNet与SegNet基本相同,T-SegNet为648s,以本文设置的80个epoch计算,T-SegNet训练时长比SegNet增加了2080 s。本文的基于传递迁移学习的训练方法增加了训练GAP-VGG16的步骤,GAP-VGG16训练一个epoch的平均时长为480 s,经过7个epoch后损失降低到0.05以内,耗时约3360 s。整个训练流程总计耗时增加了5440 s,相比SegNet提高了10.9%。但本文方法在实验中以50%的样本数量达到了与iSegNet网络100%样本数量相近的分类精度,在以50%的样本训练T-SegNet耗时约328×80共26 240 s,加上训练GAP-VGG16的时间共计29 600 s,小于训练100%样本数量iSegNet的时间(622×80 = 49 760 s),表明了本文方法的可行性。

6 结论

面对实际的遥感影像分类任务,深度学习存在标注样本数量少且标注难度大的问题,为此,本文提出了一种基于深度传递迁移学习的遥感影像分类方法,用以缓解缺乏有标注样本的问题,提高遥感影像分类精度。针对常用的使用ImageNet预训练模型微调这一迁移学习方法中,ImageNet数据集特征与遥感影像特征差距较大的问题,借鉴传递迁移学习思想,以AID-UC遥感场景识别数据集为中间域设计训练流程,并针对VGG16全连接层参数过多,卷积层参数更新缓慢的问题,将VGG16全连接层替换为全局平均池化层构建GAP-VGG16网络,使用AID-UC遥感场景识别数据集对载入VGG16预训练权重的GAP-VGG16微调,获取遥感影像特征参数;为了进一步提取训练好的GAP-VGG16卷积层参数,基于SegNet设计了全卷积神经网络T-SegNet,将GAP-VGG16微调得到的权重参数迁移到T-SegNet中,采用资源三号盘锦影像数据集进行训练,以完成分类。本文选取了50%和25%样本数量的资源三号盘锦影像数据集进行实验,选择SegNet和ImageNet预训练SegNet作为对比算法。实验结果表明,本文提出的基于深度传递迁移学习的遥感影像分类方法获得了较高的分类精度,在50%和25%数量的样本训练下,本文提出的方法相比SegNet和ImageNet预训练SegNet拥有更高的分类精度,且在少样本类别上分类精度提升更明显,证明了本文提出算法的有效性。但由于数据源的难以获取且数据集制作困难,仅对一景资源三号影像进行了分类研究,没有对提出的方法的可应用性在不同场景下进行验证。且本文选用的深度神经网络均为较经典的网络,未选取更为前沿的网络进行研究,在今后着重研究更为前沿的网络和思想,以构建更先进的神经网络达到更高的分类精度。
[1]
廖小罕, 肖青, 张颢. 无人机遥感:大众化与拓展应用发展趋势[J]. 遥感学报, 2019, 23(6):1046-1052.

[ Liao X H, Xiao Q, Zhang H. UAV remote sensing: Popularization and expand application development trend[J]. Journal of Remote Sensing, 2019, 23(6):1046-1052. ] DOI: 10.11834/jrs.20199422

[2]
王一达, 沈熙玲, 谢炯, 等. 遥感图像分类方法研究综述[J]. 遥感信息, 2006, 21(5):67-71.

[ Wang Y D, Shen X L, Xie J, et al. A review of remote sensing image classification method[J]. Remote Sensing Information, 2006, 21(5):67-71. ] DOI: 10.3969/j.issn.1000-3177.2006.05.021

[3]
骆剑承, 王钦敏, 马江洪, 等. 遥感图像最大似然分类方法的EM改进算法[J]. 测绘学报, 2002, 31(3):234-239.

[ Luo J C, Wang Q M, Ma J H, et al. The EM-based maximum likelihood classifier for remotely sensed data[J]. Acta Geodaetica et Cartographic Sinica, 2002, 31(3):234-239. ] DOI: 10.3321/j.issn:1001-1595.2002.03.010

[4]
朱建华, 刘政凯, 俞能海. 一种多光谱遥感图象的自适应最小距离分类方法[J]. 中国图象图形学报, 2000, 5(1):24-27.

[ Zhu J H, Liu Z K, Yu N H. Remote sensing image classification using an adaptive min-distance algorithm[J]. Journal of Image and Graphics, 2000, 5(1):24-27. ] DOI: 10.11834/jig.20000105

[5]
张锦水, 何春阳, 潘耀忠, 等. 基于SVM的多源信息复合的高空间分辨率遥感数据分类研究[J]. 遥感学报, 2006, 10(1):49-57.

[ Zhang J S, He C Y, Pan Y Z, et al. The high spatial resolution RS image classification based on SVM method with the multi-source data[J]. Journal of Remote Sensing, 2006, 10(1):49-57. ] DOI: 10.3321/j.issn:1007-4619.2006.01.008

[6]
王慧贤, 靳惠佳, 王娇龙, 等. k均值聚类引导的遥感影像多尺度分割优化方法[J]. 测绘学报, 2015, 44(5):526-532.

[ Wang H X, Jin H J, Wang J L, et al. Optimization approach for multi-scale segmentation of remotely sensed imagery under k-means clustering guidance[J]. Acta Geodaetica et Cartographica Sinica, 2015, 44(5):526-532. ] DOI: 10.11947/j.AGCS.2015.20130497

[7]
沈照庆, 舒宁, 龚衍, 等. 基于改进模糊ISODATA算法的遥感影像非监督聚类研究[J]. 遥感信息, 2008, 23(5):28-32.

[ Shen Z Q, Shu N, Gong Y, et al. Study on the supervised classification of remote sensing image based on a modified fuzzy-ISODATA algorithm[J]. Remote Sensing Information, 2008, 23(5):28-32. ] DOI: 10.3969/j.issn.1000-3177.2008.05.007

[8]
LeCun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324. DOI: 10.1109/5.726791

DOI

[9]
Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4):640-651. DOI: 10.1109/CVPR.2015.7298965

DOI PMID

[10]
杨建宇, 周振旭, 杜贞容, 等. 基于SegNet语义模型的高分辨率遥感影像农村建设用地提取[J]. 农业工程学报, 2019, 35(5):251-258.

[ Yang J Y, Zhou Z X, Du Z R, et al. Rural construction land extraction from high spatial resolution remote sensing image based on SegNet semantic segmentation model[J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(5):251-258. ] DOI: 10.11975/j.issn.1002-6819.2019.05.031

[11]
朱岩彬, 徐启恒, 杨俊涛, 等. 基于全卷积神经网络的高分辨率航空影像建筑物提取方法研究[J]. 地理信息世界, 2020, 27(2):101-106.

[ Zhu Y B, Xu Q H, Yang J T, et al. Full convolution neural network based building extraction approach from high resolution aerial image[J]. Geomatics World, 2020, 27(2):101-106. ] DOI: 10.3969/j.issn.1672-1586.2020.02.017

[12]
Pan S J, Yang Q A. A survey on transfer learning[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(10):1345-1359. DOI: 10.1109/TKDE.2009.191

DOI

[13]
李冠东, 张春菊, 王铭恺, 等. 卷积神经网络迁移的高分影像场景分类学习[J]. 测绘科学, 2019, 44(4):116-123,174.

[ Li G D, Zhang C J, Wang M K, et al. Transfer learning using convolutional neural network for scene classification within high resolution remote sensing image[J]. Science of Surveying and Mapping, 2019, 44(4):116-123,174. ] DOI: 10.16251/j.cnki.1009-2307.2019.04.018

[14]
滕文秀, 温小荣, 王妮, 等. 基于深度迁移学习的无人机高分影像树种分类与制图[J]. 激光与光电子学进展, 2019, 56(7):277-286.

[ Teng W X, Wen X R, Wang N, et al. Tree species classification and mapping based on deep transfer learning with unmanned aerial vehicle high resolution images[J]. Laser & Optoelectronics Progress, 2019, 56(7):277-286. ] DOI: 10.3788/LOP56.072801

[15]
Yosinski J, Clune J, Bengio Y, et al. How transferable are features in deep neural networks?[J]. Eprint Arxiv, 2014, 27:3320-3328. DOI: 10.1201/b22524-12

[16]
Tan B, Song Y, Zhong E, et al. Transitive transfer learning[C]// Acm Sigkdd International Conference on Knowledge Discovery & Data Mining. ACM, 2015,1155-1164. DOI: 10.1017/9781139061773.013

[17]
Xia G S, Hu J W, Hu F, et al. AID: A benchmark data set for performance evaluation of aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7):3965-3981. DOI: 10.1109/tgrs.2017.2685945

DOI

[18]
Yang Y, Newsam S. Bag-of-visual-words and spatial extensions for land-use classification[C]// GIS '10: Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems. 2010:270-279. DOI: 10.1145/1869790.1869829

[19]
Lin M, Chen Q A, Yan S C. Network in network[EB/OL]. 2013: arXiv: 1312.4400[cs.NE]. https://arxiv.org/abs/1312.4400

[20]
Kingma D, Ba J. Adam: A aethod for stochastic optimization[J]. Computer Science, 2014:1-13.DOI: 10.1002/9780470061602.eqf13013

文章导航

/