地球信息科学理论与方法

基于改进全卷积神经网络模型的土地覆盖分类方法研究

  • 衡雪彪 , 1 ,
  • 许捍卫 , 1, * ,
  • 唐璐 1 ,
  • 汤恒 1 ,
  • 许怡蕾 2
展开
  • 1.河海大学水文水资源学院,南京 210024
  • 2.南京师范大学地理科学学院,南京 210024
* 许捍卫(1969— ),男,博士,副教授,主要从事地理大数据应用与开发。E-mail:

衡雪彪(1999— ),男,河南焦作人,硕士生,从事深度学习遥感信息提取研究。E-mail:

收稿日期: 2022-06-23

  修回日期: 2022-08-02

  网络出版日期: 2023-04-19

基金资助

国家自然科学基金项目(411771478)

Research on Land Cover Classification Method based on Improved Fully Convolutional Neural Network Model

  • HENG Xuebiao , 1 ,
  • XU Hanwei , 1, * ,
  • TANG Lu 1 ,
  • TANG Heng 1 ,
  • XU Yilei 2
Expand
  • 1. School of Hydrology and Water Resources, Hohai University, Nanjing 210024, China
  • 2. School of Geographical Sciences, Nanjing Normal University, Nanjing 210024, China
* XU Hanwei, E-mail:

Received date: 2022-06-23

  Revised date: 2022-08-02

  Online published: 2023-04-19

Supported by

National Natural Science Foundation of China(411771478)

摘要

遥感卫星数据是地球表面信息的重要来源,但利用传统的遥感分类方法进行土地覆盖分类局限性大、过程繁琐、解译精度依赖专家经验,而深度学习方法可以自适应地提取地物更多深层次的特征信息,适用于高分辨率遥感影像的土地覆盖分类。文中对高分辨率影像中水体、交通运输、建筑、耕地、草地、林地、裸土等进行高精度分类,结合遥感多地物分类的特点,以DeepLabV3+模型为基础,作出了以下改进:① 骨干网络的改进,使用ResNeSt代替ResNet作为骨干网络;② 空洞空间金字塔池化模块的改进,首先在并联的每个分支的前一层增加一个空洞率相对较小的空洞卷积,其次在分支后层加入串联的空洞率逐渐减小的空洞卷积层。使用土地覆盖样本库和自制样本库进行模型训练、测试。结果表明,改进模型在2个数据集的精度和时间效率均明显优于原始DeepLabV3+模型:土地覆盖样本库总体精度达到88.08%,自制样本库总体精度达到85.22%,较原始DeepLabV3+模型分别提升了1.35%和3.4%,时间效率每epoch减少0.39 h。改进模型能够为数据量以每日TB级增加的高分影像提供更加快速精确的土地覆盖分类结果。

本文引用格式

衡雪彪 , 许捍卫 , 唐璐 , 汤恒 , 许怡蕾 . 基于改进全卷积神经网络模型的土地覆盖分类方法研究[J]. 地球信息科学学报, 2023 , 25(3) : 495 -509 . DOI: 10.12082/dqxxkx.2023.220435

Abstract

Remote sensing satellite data are essential source of earth surface information. However, traditional remote sensing classification methods usually have limitations and include cumbersome processes, and the accuracy of interpretation depends on the expert experience. Deep learning methods can adaptively extract more detailed feature information from field objects and are suitable for land cover classification of high-resolution remote sensing images. Based on the DeepLabV3+ model, this paper makes the following improvements: (1) Improvement of the backbone network. We use ResNeSt instead of ResNet as the backbone network; (2) The improvement of the hole space pyramid pooling module. First, a hole convolution with a relatively small hole rate is added to the previous layer of the parallel branch, and then a series of hole convolution layers with a gradually decreasing hole rate are added to the back layer of the branch. We use the land cover sample database and the self-made sample database respectively for model training and classify water bodies, transportation, buildings, cultivated land, grasslands, forests, bare soil, etc. from high-resolution images. Our results show that the accuracy and time efficiency of the improved model using the two databases are significantly higher than those of the original DeepLabV3+ model. The overall accuracy using the land cover sample database and self-made sample database reach 88.08% and 85.22%, respectively, which are 1.35% and 3.4% higher than that using the original DeepLabV3+ model, respectively. Also the time cost decreases by 0.39h per epoch. The improved model can provide faster and more accurate land cover classification results for high-resolution imageries that increases in terabytes of data per day.

1 引言

自20世纪90年代以来,全球人口、资源与环境问题日益突出,土地利用/土地覆盖变化(LUCC)研究已成为国际上全球变化研究的前沿与热点课题[1]。土地覆盖是指地球陆地表面的各种生物或物理的覆盖类型,包括地表的植被(天然或人工)、人类的建设用地(建筑、道路)、湖泊、冰川、裸岩和沙漠等,主要描述地球表面的自然属性[2]。土地覆盖分类在反映人类与自然关系的人地交互系统中扮演着重要角色,并且在地球系统的气候和生物化学全球尺度模式中发挥着重要作用[3]。无论是土地覆盖分类研究还是土地覆盖变化研究,都离不开土地覆盖信息。因此,如何快速准确地获取土地覆盖信息具有一定的研究价值和应用意义。
遥感卫星数据是地球表面信息的重要来源[4-5]。通过遥感数据,能够快速准确地获取大规模地面信息。传统的遥感影像分类方法如基于像元的K-Means法、最大似然法、决策树法和面向对象的支持向量机方法等存在着适用范围有限、分类过程繁琐、模型迁移能力差等问题。Zhu等[6]提取高空间分辨率影像的部分光谱特征、全局纹理特征和局部结构特征,使用K-Means方法对21种土地利用场景进行分类,精度达到80%,但该方法需要事先指定类别数K,而类别数并不好选取,且当各类别的数据不平衡时,聚类效果一般。Tuxen等[7]利用最大似然法对CIR影像中的植被进行分类,不同植被的精度在70%~92%之间,12种植被中有10种精度在80%以上,但最大似然法只适用于低维数据,且对训练样本要求较高。周星宇等[8]使用高分一号高分辨率影像,利用决策树方法提取中国沿海地区地表物类信息,结果表明,决策树方法分类效果表现良好,仅堤坝及裸地两类的分类精度略低于其它方法,但决策树模型的结构及参数对分类精度影响很大。Wu等[9]利用面向对象的支持向量机方法对影像数据中的道路进行分类提取,总体分类精度达到92%以上,虽然面向对象方法的精度较上述基于像元的分类方法有一定提升,但确定最优的分割尺度和分类阈值较为困难,因此分类过程较为繁琐,最终分类结果的精度表现也并不稳定。
基于深度学习方法的分类效果优于传统方法且不需要复杂繁琐的调参过程,在提取影像特征时,不依赖专家经验,减少了人为主观因素对分类精度的影响。在高分辨率遥感影像要素提取方面,研究者们从提出新的高效率网络模型或面向已有网络模型的改良两个角度出发,以针对遥感影像处理的任务需求。Zhu等[10]提出了用于语义变化检测的Siam-GL框架,使用G-H采样机制和变化掩码约束在3个高分辨率遥感影像数据集上取得了很好的检测效果。刘浩等[11]在传统的U-Net网络结构中嵌入特征压缩激活模块,同时使用 Dice和交叉熵函数复合的损失函数解决样本不均衡问题,在识别提取大小各异和形状不规则的建筑物时取得了更好的识别效果。李森等[12]改进了RCF网络,为其添加空洞卷积结构,将其应用于耕地边缘检测,较传统的Canny算子检测以及HED、RCF 网络取得了更好的效果。同时也有研究者借助现有的成熟网络模块,根据任务需求组装网络模型用于遥感要素提取。Liu等[13]结合残差模块、膨胀卷积与最大池化并行的下采样模块以及密集上采样模块,同时使用SeLU作为激活函数,组成深层编码器网络(DE-Net),在建筑物的提取上取得了不俗的效果。郭颖等[14]对全卷积神经网络进行双支改进,使用双支FCN-8s模型对高分影像森林类型进行精细分类,相比于传统基于特征的支持向量机分类方法,该模型对精度的提升超过10%,相较于改进前的FCN-8s,精度上也有明显的提升。众多研究表明,全卷积神经网络更适合高空间分辨率遥感影像的分类[15-18]
继Long等[19]将VGGNet后3层的全连接层全部替换为卷积层,提出了全卷积神经网络后,使用对称编解码网络结构的U-Net[20]以及创新使用上采样层最大池化和批标准化的SegNet[21]相继诞生。二者均被广泛应用于高分辨率遥感影像分类任务中,如Zhu[22]等在U-Net基础上加入DB模块、RD模块、CSFC和混合损失函数提出了CDANet,在高分影像阴影信息提取任务中取得了很好的效果。Zhu等[23]在传统SegNet结构基础上提出SSDGL框架,为解决样本不足和不平衡问题采用H-B抽样策略并引入带交叉熵损失的加权softmax来降低易分类样本的权重,使模型在训练时更关注难分类样本,在高光谱高分辨率遥感土地分类中取得了更高的精度。在多种优秀网络基础之上,Google提出DeepLab系列[24-27],V1版本在VGGNet的基础上改进而来,删去全连接层,使用空洞卷积替换部分卷积层以增大感受野;V2版本在V1的基础上进行扩展,提出空洞空间金字塔模块,实现对多尺度目标的处理;V3版本在之前网络的基础上,级联空洞空间金字塔模块并增加全局平均池化和1×1卷积层,同时使用SegNet的批标准化,提高了多尺度目标的分割能力;第四代V3+版本与U-Net相同,均采用编解码器结构,以V3网络为编码器,并且存在跳跃连接。因此DeepLabV3+充分继承了多种网络的优点,在大多数数据集上的表现更佳。同时,在高分辨率遥感影像分类应用中,该模型能够提取丰富的多尺度空间上下文信息,在提升分割效果的同时还关注了地物边界信息。但模型仍然存在以下问题:① 模型对小尺度地物如汽车、有水生植物覆盖的水体的分类存在漏分或错分的情况。② 不同地物交界处易产生错分,且模型对地物边界的划分较为粗糙。为解决上述问题,研究使用ResNeSt作为骨干网络加强地物边界提取能力以提高整体分类精度,并对原始模型的空洞空间金字塔池化模块进行改进以提高模型对于小尺度地物提取能力,最终改善特征提取效果。
综上,本研究结合深度学习方法,对DeepLabV3+模型进行改进,并使用土地覆盖样本库完成模型训练。为了检测模型的改进效果和泛化迁移能力,使用自制样本库测试原始模型和改进模型。研究结果表明,改进模型时间效率每epoch减少0.39 h,分类精度较原始模型提升了1.35%,并且对小尺度地物和地物边界的分类效果获得明显提升,模型改进效果良好。此外,模型在自制样本库取得了一致性高的分类结果,证明该改进模型具有一定的迁移泛化能力。

2 研究方案

2.1 技术路线

本文技术路线如图1所示。
图1 基于全卷积神经模型的土地覆盖分类研究技术路线

Fig. 1 Research technical route of land cover classification based on fully convolutional neural model

2.2 DeepLabV3+网络概述

DeepLabV3+模型通过编解码器结构应用了连接思想,同时引入空洞卷积尽量保持分辨率,因此该模型性能表现优秀。其网络结构如图2所示,模型总体采用编解码器结构,编码器包括两个主要部分:带空洞卷积的卷积神经网络(Dilated Convolutional Neural Network,DCNN)和空洞空间金字塔池化模块(Atrous Spatial Pyramid Pooling,ASPP),以带空洞卷积的卷积神经网络ResNet为骨干网络,进行特征提取;通过ASPP模块提取不同尺度的空间上下文信息。编码器中,骨干网络提取的高级特征进入并联的ASPP模块后输出多通道的特征图,通过1×1卷积来降低通道数,低级特征则进入解码器。解码器中,首先使用1×1卷积将多个低层级特征图融合,之后与经过4倍上采样的编码器输出特征图合并,经过3×3卷积细化后,使用双线性插值法上采样4倍得到预测结果。
图2 DeepLabV3+网络总体结构

Fig. 2 Overall structure of DeepLabV3+ network

2.3 改进DeepLabV3+网络

DeepLabV3+模型通过编解码结构和空洞空间金字塔池化模块能够获取更加丰富的空间上下文信息,提取多尺度的目标特征,使得在目标边界的分类上更为精确。但在研究对多尺度遥感影像进行土地覆盖分类的背景下,对于不同分辨率的遥感影像,该模型仍然存在分类不够细致的情况。因此,通过分析DeepLabV3+模型的不足进行针对性改进。
主要改进在以下2个方面:
(1)骨干网络的改进。为了提升模型在不同分辨率遥感影像下对地物细节分类的能力,使用ResNeSt代替ResNet作为改进的DeepLabV3+模型的骨干网络。原模型中使用的ResNet网络建立的初衷是针对图像分类问题,其感受野大小有限且缺乏跨通道机制,导致其应用于遥感影像分类时效果受限。ResNeSt的分离注意力模块提出组内跨通道注意力机制和总体上的跨组注意力机制,在应用于高分辨率影像分类时,能够提升整体分类精度,多个卷积核分支可以分别提取特征,增加了特征多样性,同时也提高了对于小尺度地物和地物边界提取能力,改善了特征提取的效果。
ResNeSt,即分离注意力网络(Split-Attention Networks),是Zhang等[28]在2020年提出的ResNet的变体,该网络在特征图中使用跨组注意力机制,通过分离注意力模块的堆叠,采用与ResNet相同的模块化方式构建。
分离注意力模块(split-attention block)是ResNeSt的核心计算单元,由特征图分组和分离注意力运算两部分构成,如图3,模块将输入特征图(高为h、长为w、通道数为c)分成K个基本组(图中k个Cardinal),每组内再分成R个分支(图中r个Split),每个分支单独提取特征后经过分离注意力运算后将所有基本组的特征合并输出。
图3 ResNeSt分离注意力模块

Fig. 3 ResNeSt split-attention attention module

该模块具有2个超参数,基本组数K和组内分支数R,对于基本组来说,对应的变换如式(1)[28]所示:
y = x + i K T i ( x )
式中:y为基本组网络的输出;x为输入; T i ( x )为第i个基本组对应的变换关系。假设卷积核大小为 m×m×c,共n个,输入特征图大小为h×w×c,输出特征图数量为卷积核数量n,每一个卷积需要学习的参数个数为c×m×m,则输入特征图未分组时,需要学习的参数个数为n×c×m×m,分组后,需要学习的参数个数为n×(c/K)×m×m,显然,参数量缩小了K倍,减少了网络的计算量。
之后将基本组内再次分组,分支数为R,此时总的特征图组数为G=KR,经过G个组中的变换,每个基本组输出的第c个通道的特征如式(2)所示[28]
V c k = i = 1 R a i k ( c ) U R k - 1 + i
式中: a i k ( c )为每个基本组的权重; U R k - 1 + i为第i个基本组中第r个分支的输出,每个基本组的权重计算方法如式(3)所示[28]
a i k c = e w i c ( s k ) j = 0 R e w i c ( s k ) R > 1 1 1 + e - w i c ( s k ) R = 1
式中: s k为基本组内通过跨空间全局平均池化得到的全局上下文信息; w i c为由 s k确定的每个分支(split)在第c个通道上的权重。每个通道的 s k的计算如式(4)[28]
s c k = 1 h × w i = 1 h j = 1 w U ˆ c k ( i , j )
式中: U ˆ c k为第k个基本组所有分支在第c个通道上提取的特征总和。
每个基本组内各个通道的特征 V c k经过分离注意力运算单元后,形成每个基本组输出的特征 V k。最终,该模块将K个基本组的输出特征合并为多通道的输出特征图V,如式(5)[28]
V = C o n c a t V 1 , V 2 , , V K
该模块的分组卷积使得在同一层网络中,多个卷积核分支可以分别提取特征,增加了特征多样性。此外,分离注意力运算通过引入注意力机制,实现了组内特征的权重分配(即组内特征的跨通道注意力机制)和各个组间特征的权重分配(即跨组注意力机制),保持了组间特征的独立性。最终相比于ResNet,ResNeSt能够高效地提取到更丰富多样的特征。
(2)改进空洞空间金字塔池化模块。在遥感影像分类过程中,空洞空间金字塔池化(图4)对于小尺度地物的分类仍存在以下问题:① 由于小尺度地物在骨干网络卷积和下采样过程中,其特征所占像元逐渐变小,在将其按分支复制入空洞空间金字塔池化模块中经过空洞卷积后,小尺度地物特征的表达能力就变得十分欠缺;② 空洞卷积的空洞率如果过大,那么在对输入遥感影像进行卷积运算时,其卷积核内部的权重参数过于稀疏,导致每个权重参数需要表达的实际区域过大,使得局部空间信息变得粗略甚至丢失,削弱了相邻空间的一致性,这也使得网络对小尺度地物的特征提取能力不足。
图4 原DeepLabV3+中的空洞空间金字塔池化模块

Fig. 4 Atrous spatial pyramid pooling module in the original DeepLabV3+

为了进一步加强模型对小尺度地物的提取能力,首先在并联的每个分支的前一层增加一个空洞率相对较小的空洞卷积,提取更多小尺度地物的特征,加强特征表达能力。其次在分支后层加入空洞率逐渐减小的空洞卷积层,在更深的层次中逐步提取多尺度的局部空间信息,提高空间一致性,改进后的模块结构如图5所示。3个串联的空洞卷积分支与用于降低通道数的1×1卷积分支及全局池化分支并联,之后将输出的特征图进行合并,改进后的模块在每个空洞卷积分支中进行更密集的计算,能够提取到更细致的不同尺度的空间上下文信息,从而提升对小尺度地物的分类效果。
图5 改进后的空洞空间金字塔池化模块

Fig. 5 Improved atrous space pyramid pooling module

综合以上2方面改进,模型结构如图6所示。
图6 改进的DeepLabV3+模型结构

Fig. 6 Improved DeepLabV3+ model structure

3 实验与分析

3.1 分类系统

研究采用鹏城实验室为2020“华为・昇腾杯”AI+遥感影像分类比赛所制定的土地分类系统,此分类系统依据现有的遥感地物分类要求,结合现有的地物分类实际需求,参照地理国情监测、“第三次全国土地调查”等既有地物分类标准,依据遥感地物“所见即所得”原则,将土地覆盖分为水体、交通运输、建筑、耕地、草地、林地、裸土、其他8类(表1)。
表1 土地覆盖分类系统

Tab. 1 Land cover classification system

一级大类 代码 二级小类 分类示例
水体 1 水体 河流、湖泊、水库、坑塘、沟渠、海洋
交通运输 道路 快速路、主干路、次干路、支路
2 机场 飞行区、航站楼等
火车站 火车站站台及候车厅
建筑 3 建筑物 住宅、工厂等人工建筑
耕地 4 普通耕地 普通耕地
农业大棚 耕地另一种形式,如温室
草地 5 自然草地 自然草地
绿地绿化 包括公园绿地、生态景观绿地、防护绿地等人工草地
林地 6 自然林 乔木林、灌木林
人工林 果园林、苗圃等
裸土 7 自然裸土 自然裸土、戈壁、沙漠
人为裸土 因建筑需求等原因破坏地表覆盖而造成裸土裸露的地表
其他 光伏 太阳能光伏发电板
8 停车场 社会停车场用地、公共交通场站
操场 篮球场、排球场、羽毛球场、网球场等
其他无法确定地物 -

3.2 研究数据

研究数据主要包括两部分:①“华为·昇腾杯”2020年全国人工智能大赛AI+遥感影像赛道初赛数据集;②于自然资源卫星遥感云服务平台下载的2017年1月16日南京市江宁区部分区域高分二号遥感影像。

3.2.1 土地覆盖样本库

土地覆盖样本库使用“华为·昇腾杯”2020年全国人工智能大赛AI+遥感影像赛道初赛数据集作为基础数据。该数据集由鹏城实验室和协办单位合作采集、标注、构建,包括10万张0.1~4.0 m分辨率的高分一、二、六号,高景二号,北京二号,以及部分航空等数据源的可见光、多光谱载荷图像样本及与样本一一对应的标签图像,每张影像及标签为256像素×256像素。对数据结构进行分析发现,该数据集标签为16位无符号整型存储,这使得样本文件增大,训练时浪费空间资源,因此预处理时将其转为8位无符号整型存储。此外,原样本标签使用百分位来表示类别,由于实际需要,使用1-8来标注样本类别(表1),以节省计算资源。经过上述处理后,建立土地覆盖样本库(图7),并按照8:2的比例将其随机分为训练集和验证集,即训练集包含8万张影像样本及其标签,验证集包含2万张影像样本及其标签。
图7 土地覆盖样本库文件组织

Fig. 7 Land cover sample library file organization

3.2.2 自制样本库

为了测试改进模型的迁移能力,使用获取于2017年1月16日的南京市江宁区约100 km2区域的高分二号影像作为测试集原始影像。影像实际区域位于南京市江宁区东山街道,区域内分布有九龙湖、牛首山(部分)、吉山、静龙山、龙吉山、东南大学、凯湖产业园、大唐科技园、江苏软件园、太平工业园、南庄交通枢纽、南京同仁客运站、村庄及住宅小区30余个,涵盖了分类系统中水体、交通运输、建筑、耕地、草地、林地、裸土、其他8种土地覆盖类型,因此选择该区域的高分二号影像作为测试影像,对原始数据进行预处理并制作样本库标签如图8所示。
图8 自制样本库

Fig. 8 Self-made sample library

3.3 精度评价方法

采用总体精度(OA),Kappa系数,综合精度得分(F1-score)作为结果的评价指标。
(1)总体精度
O A = 1 N i = 1 m C i i
(2)Kappa系数
K a p p a = O A - i = 1 m ( a i × b i ) N × N 1 - i = 1 m ( a i × b i ) N × N
式中: a i为第i类像元的实际个数; b i为被预测为第i类的像元个数。
(3)F1-score
F1-score是适合样本不平衡情况的精度评价指标,将真实值为负例(Negative),预测值也为负例定义为真反例(True Negative,TN);真实值为正例(Positive),预测值也为正例定义为真正例(True Positive,TP);真实值为负例,预测值却为正例定义为假正例(False Positive,FP);真实值为正例,预测值却为负例定义为假反例(False Negative,FN)。
p r e c i s i o n = T P T P + F P
r e c a l l = T P T P + F N
而F1-score是将查准率和查全率综合考虑的精度指标,取二者的调和平均数,如式(10):
F 1 = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l

3.4 预实验

为了检验DeepLabV3+模型在高分辨率遥感影像中的应用效果,预实验选用U-Net和SegNet两种网络模型进行对比。二者均有着简明高效的网络结构,被广泛应用于遥感信息的提取。在PyTorch网络下,将土地覆盖样本库分别输入3种网络模型,并根据客观需要调整超参数,最终得到模型分类结果如表2所示。
表2 预实验精度评价

Tab. 2 Pre-experimental precision evaluation (%)

DeepLabV3+ U-Net SegNet
水体 94.23 93.84 93.91
交通运输 82.47 80.26 80.53
建筑 90.39 87.13 87.70
耕地 84.09 81.37 81.76
草地 82.81 81.04 81.73
林地 91.18 89.65 89.03
裸土 83.94 82.17 82.33
其他 81.44 78.47 79.21
OA 86.73 84.76 85.68
Kappa 84.47 82.67 83.54
F1-score 86.39 84.65 85.42
总体上,DeepLabV3+模型因其优秀的编解码结构和空洞空间金字塔池化模块能够获取更加丰富的空间上下文信息,提取多尺度的目标特征,体现出了最高的分类精度。

3.5 模型验证

根据对DeepLabV3+模型的改进,为了验证各结构改进效果共做了3个实验:① 使用ResNet作为骨干网络,选取交叉熵函数作为损失函数的DeepLabV3+模型,下文记作“D”;② 使用ResNeSt作为骨干网络,选取交叉熵函数作为损失函数的DeepLabV3+模型,下文记作“D+R”;③ 使用ResNeSt作为骨干网络,对空洞空间金字塔池化进行改进,选取交叉熵函数作为损失函数的DeepLabV3+模型,下文记作“D+R+A”。
在PyTorch下搭建网络,输入大小为256像素×256像素,红绿蓝三波段的土地覆盖样本库,并根据客观硬件条件,对网络中的其他超参数进行设置,batchsize设置为32,网络在训练集上训练300个epoch后,损失函数的值逐渐降低并且趋于平稳,将验证集输入到训练好的模型中得到分类结果并进行精度评价,结果如表3所示。
表3 验证集精度与效率评价

Tab. 3 Verification set precision and efficiency evaluation (%)

D D+R D+R+A
水体 94.23 94.56 94.52
交通运输 82.47 86.07 86.53
建筑 90.39 91.25 91.70
耕地 84.09 84.39 84.26
草地 82.81 83.04 83.33
林地 91.18 92.68 93.03
裸土 83.94 86.17 86.10
其他 81.44 82.47 83.31
OA 86.73 87.76 88.08
Kappa 84.47 85.67 86.04
F1-score 86.39 87.65 87.92
平均每个epoch训练时间/h 1.89 1.48 1.50
首先,讨论改进模型效率问题,表3中记录了D、D+R、D+R+A 共3种模型平均每个epoch训练时间,其中D+R模型由于分离注意力模块使得分组后每个卷积需要学习的参数量成倍数缩小,减少了网络的计算量,相较于原始D模型效率提升较为明显。而D+R+A模型引入了多个空洞卷积块,所以模型效率略有下降,但相比于原始模型,最终改进模型D+R+A在时间效率上仍有良好的提升效果。
对比D+R模型及原始D模型在各个类别的精度,使用ResNeSt作为骨干网络对模型精度提升效果良好。总的来说,ResNeSt使得模型总体精度提升1%,Kappa系数和F1-score提升了1.2%以上(图9)。其中,ResNeSt对交通运输、裸土、林地3类精度提升贡献最大,交通运输类包括道路、机场和火车站,在实际情况中,不同等级的道路拥有不同的宽度、不同的隔离带等,而且道路中存在正在行驶的车辆,导致其特征较为多变,机场与火车站也表现出不一样的特征;在分类系统中,裸土不仅有自然裸土,还包括因建筑需求等原因破坏地表覆盖而造成的人为裸土,影像中大多为亮黄色,但人为裸土中,有时需要铺设防尘网,所以在影像中呈浅绿色,总的来说,这一类别特征纹理复杂;同样,林地也包括自然林和人工林2种,由于山坡有阳面和阴面,所以分布于丘陵地区的自然林在影像中有不同的表现,而人工林由于边界规则、间距清晰,所以和自然林又有不同的特征,因此能够增强特征多样性的ResNeSt使得模型对这3种地物分类的精度提升最大,而对草地、耕地和水体这3种特征较为简单地物的精度提升较小。
图9 ResNeSt对模型精度的贡献

Fig. 9 Contribution of ResNeSt to model accuracy

为了探究改进的空洞空间金字塔池化模块对模型精度的影响,将D+R模型精度与D+R+A模型精度进行对比。总的来说,改进的空洞空间金字塔池化模块使总体精度及Kappa系数均提升了0.3%以上,F1-score提升了0.2%左右(图10)。纵观各类型精度的提升情况,可以看出,该模块确实提升了模型对交通运输、建筑等小尺度地物的分类效果,但同时也发现,该改进模块对不同地物分类精度的贡献有正有负,正向贡献中,其他类地物精度提升最多,交通运输类和建筑类次之。其他类地物包括光伏、停车场、操场和其他无法确定的地物,因此地物尺寸有大有小,而该改进模块能够提取更多的不同尺度空间上下文信息,利于其精度提升;在所有类别的地物中,道路和建筑属于小尺度地物,该改进模块能够提取更细致的空间信息,因此交通运输和建筑两类精度提升也较高。而改进模块在耕地、裸土和水体中为负向贡献,结合样本库影像后发现:裸土类地物中,由于人为裸土正在施工,存在土坑,降雨后形成水洼,导致小尺度中将裸土误判为水体,此外,裸土中存在少量杂草,在提取了更细致的小尺度信息后,容易误判为草地;水体中,由于传感器与太阳角度形成镜面反射导致影像高亮,在这种情况下,如果空间信息提取的过于细致,模型有可能将其误判为交通运输或裸土类,造成精度下降;有时水体上会覆盖水生植物,导致其在小尺度空间信息中与水田类似,使得模型将水田与水体混淆,导致耕地误分为水体。此外,由于耕地在不同时相中具有不同的光谱特征,而在RGB三通道的情况下,其在影像中的颜色表现与裸土类相似,而更细致丰富的小尺度空间信息导致耕地本身较为规则的纹理特征比重下降,使得模型判断时发生误判。
图10 改进的空洞空间金字塔池化模块对模型精度的贡献

Fig. 10 Contribution of the improved Atrous Spatial Pyramid Pooling to model accuracy

根据实验结果,改进模型相较于原始DeepLabV3+模型在各精度指标上都有不同的提升(图11)。各类地物精度提升由0.17%至4.06%不等,其中交通运输类地物由于其多尺度并且特征复杂,在双重改进加持下获得了最大的精度提升,其分类效果的改善优于总体。在模型整体的评价指标中,总体精度提高了1.3%以上,Kappa系数提高了1.5%以上。
图11 改进DeepLabV3+模型的精度提升

Fig. 11 Improved accuracy of DeepLabV3+ model

各模型的分类结果如图12,一行为一组,共8组,每一行依次为验证集原始图像、真实标签图、DeepLabV3+模型(D)分类结果、使用ResNeSt骨干网络的DeepLabV3+模型(D+R)分类结果和使用ResNeSt骨干网络并对空洞空间金字塔池化模块进行改进的DeepLabV3+模型(D+R+A)分类结果。
图12 各模型验证集分类结果对比

Fig. 12 Comparison of the classification results of each model on the validation set

通过多组对比图,可以得出模型的改进提升了地物分类的精确度,与精度评价的定量分析结果一致。虽然改进模型仍然存在不足,例如对于微小尺度地物的分类效果还有提升的空间,但其提高了对地物的分类能力,尤其是改进的空洞空间金字塔池化模块提高了改进模型对小尺度地物及地物边界细节的分类效果。

3.6 模型测试

由于模型是由256像素×256像素的图片训练得到的,为了发挥模型的最优效果,在测试时也应输入尺寸为256像素×256像素的红绿蓝三波段数据,而自制样本库影像大小为10 752像素×10 752像素,因此采用滑动窗口法,重叠比设置为0.95,将测试影像分别输入原始DeepLabV3+模型和改进DeepLabV3+模型中,窗口大小设置为256像素×256像素,同时为了更好比较模型性能,使用SVM对测试影像进行了分类。对SVM、DeepLabV3+模型和改进DeepLabV3+模型在测试图像中分类结果进行精度评价(表4)。
表4 测试结果精度评价

Tab. 4 Test result precision evaluation (%)

SVM DeepLabV3+ 改进的DeepLabV3+
水体 91.05 89.87 92.51
交通运输 80.79 82.18 84.77
建筑 83.05 85.63 89.18
耕地 75.44 81.39 83.55
草地 80.69 81.56 83.06
林地 86.96 82.14 87.80
裸土 77.82 81.38 85.80
其他 69.58 79.70 82.43
OA 79.02 81.82 85.22
Kappa 74.39 76.65 80.85
F1-score 80.25 83.58 87.11
表4可以看出,相比于SVM法,改进模型在各个土地覆盖类别和模型的总体精度上都有较好的提升,并且改进模型比原始的DeepLabV3+模型的精度也有提升,具体如图13所示。
图13 改进模型较SVM法及原始DeepLabV3+模型的精度提升

Fig. 13 The accuracy improvement of the improved model compared with the SVM method and the original DeepLabV3+ model

图13得出,相较于SVM,改进,模型总体精度和Kappa系数均提升了6%以上,F1-score提升了近7%,各类地物的分类精度提升0.84%至12.85%不等,精度提升最高的土地覆盖类别是其他类,达到12%以上,主要是因为该类地物包含光伏、操场和其它无法确定地物,地物纯度不高,纹理特征相对较为复杂,导致传统方法对其分类效果一般;精度提升最小的是林地,考虑是因为林地地物单一、特征明显,所以传统方法对其分类也较为准确。
相较于原始DeepLabV3+模型,改进模型总体精度提升了3.4%左右,Kappa系数提升了4%以上,各类地物的分类精度提升了1.50%~5.66%不等,其中精度提升最高的是林地,考虑是因为改进模型对不同尺度空间信息提取的加强和特征多样性的增强使得林地边界和林地内部细节(如林地内部包含草地或耕地)的分类效果更好,从而提升了分类精度;精度提升最小的是草地,由于大多数草地是大面积地物,因此模型针对小尺度地物的改进对其分类效果的提升有限。
为了分析模型的泛化能力,将改进模型在验证集与测试集上的精度进行对比,将验证集精度与测试集精度作差。图14可知,改进模型在测试集上的各项精度指标相比验证集均有一定程度的下降。
图14 改进DeepLabV3+模型在验证集和测试集上的精度之差

Fig. 14 The difference between the accuracy of the improved DeepLabV3+ model on the validation set and the test set

图14中,正值表示测试集低于验证集精度,显然,测试集的所有精度指标均低于验证集,总体来看,总体精度下降了2.8%以上,Kappa系数下降了5%以上,各类土地覆盖的测试精度下降了0.28%至2.52%不等。其中精度下降最小的是草地和裸土,下降最多的是建筑和水体,对于这种现象,考虑是不同地区的草地和裸土在影像中的表现差异不大,特征显著,所以即使在训练样本数量占比较小的情况下,其迁移精度变化不大,而不同地区建筑和水体的影像特征相差较大,并且这两类地物的训练样本数量占比也较大。
本研究模型训练所用土地覆盖样本库中包含高分二号影像,但占比不大,并且测试集与其属于不同地区,同时,不同时相的影像中各类土地覆盖的表现也存在差异,导致模型测试集精度略有下降,但模型在测试集上的总体精度高于85%,Kappa系数高于80%,说明模型分类的一致性高,分类精度好,这也证明模型具有一定迁移泛化能力。

4 结论与讨论

本研究基于改进的DeepLabV3+模型进行了土地覆盖分类实验。针对DeepLabV3+模型的不足,使用ResNeSt作为改进模型的骨干网络,提取更加多样的特征以提升模型分类效果,并对原模型的空洞空间金字塔池化模块进行改进,以获得更加细节的多尺度空间上下文信息,提升模型对小尺度地物的分类能力。使用土地覆盖样本库进行模型训练优化,并对其分类效果进行了验证,结果表明,该改进模型在验证集上总体精度为88.08%,Kappa系数为86.04%,F1-score为87.92%,分别较原始模型提升了1.35%、1.57%、1.53%,其中ResNeSt使模型总体精度提升了1.03%,改进的空洞空间金字塔池化模块使模型总体精度提升了0.32%,对于小尺寸地物及地物边界细节的分类效果优于原始模型,模型改进效果良好。
随后研究对模型测试结果进行评价和分析。由于全卷积神经网络模型本身有较强的鲁棒性,并且本文用于训练的土地覆盖样本库包含多源遥感影像及标签,特征丰富,所以使用自制样本库对本研究构建及改进的模型进行测试以验证模型的泛化迁移能力。对原始模型与改进模型在测试集上的分类结果进行精度评价,并与机器学习方法SVM进行实验对比,结果表明:原始模型和改进模型在测试集上的总体精度分别为81.82%和85.22%,均高于SVM的79.02%,证明了全卷积神经网络分类效果优于传统方法;Kappa系数分别为76.65%和80.85%,F1-score分别为83.58%和87.11%,改进模型总体分类精度好;改进模型在测试集上的精度略低于验证集,总体精度和Kappa系数和分别下降了2.86%和5.19%,考虑到样本不平衡情况的F1-score下降了0.80%,证明了模型具有一定的泛化迁移能力,能够为数据量以每日TB级增加的高分影像提供更加快速精确的土地覆盖分类结果。
最后,本研究存在着一定不足。① 本文使用数据量丰富且包含多源遥感影像的数据集作为土地覆盖样本库,在一定程度上加强了模型的泛化能力,但本文在进行泛化能力验证时,受客观条件限制,只选取了南京市江宁区2017年1月的部分高分二号数据,在评价模型泛化迁移能力时,可能不够充分,日后可以再选取不同地区、不同分辨率、不同时相的影像,进行丰富的泛化能力测试实验。② 训练数据集存在样本不平衡的情况,样本不平衡会使得模型偏向样本多的类别,导致模型对于样本较少的类别分类精度不高,日后可以尝试一些其它方式,如迁移学习,以求在新的遥感影像中获得更好的分类效果。
[1]
刘纪远, 张增祥, 张树文, 等. 中国土地利用变化遥感研究的回顾与展望——基于陈述彭学术思想的引领[J]. 地球信息科学学报, 2020, 22(4):680-687.

DOI

[Liu J Y, Zhang Z X, Zhang S W, et al. Innovation and development of remote sensing-based land use change studies based on Shupeng chen's academic thoughts[J]. Journal of Geo-Information Science, 2020, 22(4):680-687.] DOI:CNKI:SUN:DQXX.0.2020-04-006

DOI

[2]
Di Gregorio A. Land cover classification system: classification concepts and user manual: LCCS[M]. Software version 2. Rome: Food and Agriculture Organization of the United Nations, 2005

[3]
Jin S M, Yang L M, Zhu Z, et al. A land cover change detection and classification protocol for updating Alaska NLCD 2001 to 2011[J]. Remote Sensing of Environment, 2017, 195:44-55. DOI:10.1016/j.rse.2017.04.021

DOI

[4]
de Oliveira M L, dos Santos C A C, de Oliveira G, et al. Remote sensing-based assessment of land degradation and drought impacts over terrestrial ecosystems in Northeastern Brazil[J]. Science of the Total Environment, 2022, 835:155490. DOI:10.1016/j.scitotenv.2022.155490

DOI

[5]
Stone R. Earth-observation summit endorses global data sharing[J]. Science, 2010, 330(6006):902. DOI:10.1126/science.330.6006.902

DOI

[6]
Zhu Q Q, Zhong Y F, Zhao B, et al. The bag-of-visual-words scene classifier combining local and global features for high spatial resolution imagery[C]// 2015 12th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD). IEEE, 717-721. DOI:10.1109/FSKD.2015.7382030

DOI

[7]
Tuxen K, Schile L, Stralberg D, et al. Mapping changes in tidal wetland vegetation composition and pattern across a salinity gradient using high spatial resolution imagery[J]. Wetlands Ecology and Management, 2011, 19(2):141-157. DOI:10.1007/s11273-010-9207-x

DOI

[8]
周星宇, 张继贤, 高绵新, 等. 高分辨率遥感影像下沿海地区地表覆盖信息的提取[J]. 测绘通报, 2017(2):19-24.

[Zhou X Y, Zhang J X, Gao M X, et al. Land cover information extraction based on high-resolution remote sensing image in coastal areas[J]. Bulletin of Surveying and Mapping, 2017(2):19-24.] DOI:10.13474/j.cnki.11-2246.2017.0041

DOI

[9]
Wu Q, Zhong R F, Zhao W J, et al. A comparison of pixel-based decision tree and object-based Support Vector Machine methods for land-cover classification based on aerial images and airborne lidar data[J]. International Journal of Remote Sensing, 2017, 38(23):7176-7195. DOI:10.1080/01431161.2017.1371864

DOI

[10]
Zhu Q Q, Guo X, Deng W H, et al. Land-use/land-cover change detection based on a Siamese global learning framework for high spatial resolution remote sensing imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 184:63-78. DOI:10.1016/j.isprsjprs.2021.12.005

DOI

[11]
刘浩, 骆剑承, 黄波, 等. 基于特征压缩激活Unet网络的建筑物提取[J]. 地球信息科学学报, 2019, 21(11):1779-1789.

DOI

[Liu H, Luo J C, Huang B, et al. Building extraction based on SE-unet[J]. Journal of Geo-Information Science, 2019, 21(11):1779-1789.] DOI:CNKI:SUN:DQXX.0.2019-11-012

DOI

[12]
李森, 彭玲, 胡媛, 等. 基于FD-RCF的高分辨率遥感影像耕地边缘检测[J]. 中国科学院大学学报, 2020, 37(4):483-489.

DOI

[Li S, Peng L, Hu Y, et al. FD-RCF-based boundary delineation of agricultural fields in high resolution remote sensing images[J]. Journal of University of Chinese Academy of Sciences, 2020, 37(4):483-489.] DOI:10.7523/j.issn.2095-6134.2020.04.007

DOI

[13]
Liu H, Luo J, Huang B, et al. DE-Net: Deep encoding network for building extraction from high-resolution remote sensing imagery[J]. Remote Sensing, 2019, 11(20):2380. DOI:10.3390/rs11202380

DOI

[14]
郭颖, 李增元, 陈尔学, 等. 一种改进的高空间分辨率遥感影像森林类型深度学习精细分类方法:双支FCN-8s[J]. 林业科学, 2020, 56(3):48-60.

[Guo Y, Li Z Y, Chen E X, et al. A deep learning method for forest fine classification based on high resolution remote sensing images: Two-branch FCN-8s[J]. Scientia Silvae Sinicae, 2020, 56(3):48-60.] DOI:CNKI:SUN:LYKE.0.2020-03-006

DOI

[15]
Zheng Z, Zhong Y F, Ma A L, et al. FPGA: fast patch-free global learning framework for fully end-to-end hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(8):5612-5626. DOI:10.1109/TGRS.2020.2967821

DOI

[16]
Sherrah J. Fully convolutional networks for dense semantic labelling of high-resolution aerial imagery[EB/OL]. 2016: arXiv: 1606.02585. DOI:10.48550/arXiv.1606.02585

DOI

[17]
Persello C, Stein A. Deep fully convolutional networks for the detection of informal settlements in VHR images[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(12):2325-2329. DOI:10.1109/LGRS.2017.2763738

DOI

[18]
Zhang C, Sargent I, Pan X, et al. An object-based convolutional neural network (OCNN) for urban land use classification[J]. Remote Sensing of Environment, 2018, 216:57-70. DOI:10.1016/j.rse.2018.06.034

DOI

[19]
Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition. IEEE,: 3431-3440. DOI:10.1109/CVPR.2015.7298965

DOI

[20]
Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2015:234-241. DOI:10.1007/978-3-319-24574-4_28

DOI

[21]
Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12):2481-2495. DOI:10.1109/TPAMI.2016.2644615

DOI PMID

[22]
Zhu Q Q, Yang Y, Sun X L, et al. CDANet: contextual detail-aware network for high-spatial-resolution remote-sensing imagery shadow detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60:1-15. DOI:10.1109/TGRS.2022.3143886

DOI

[23]
Zhu Q, Deng W, Zheng Z, et al. A spectral-spatial-dependent global learning framework for insufficient and imbalanced hyperspectral image classification[J]. IEEE Transactions on Cybernetics, 2021, 25. DOI:10.1109/TCYB.2021.3070577

DOI

[24]
Chen L, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. Computer Science, 2014(4):357-361.DOI:10.1080/17476938708814211

DOI

[25]
Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848. DOI:10.1109/TPAMI.2017.2699184

DOI

[26]
Chen L C, Papandreou G, Schroff F, et al. Rethinking Atrous Convolution for Semantic Image Segmentation[J]. 2017. DOI:10.1007/978-3-030-01234-2

DOI

[27]
Chen L C, Zhu Y K, Papandreou G, et al. Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation[C]// European Conference on Computer Vision. Cham: Springer, 2018:833-851. 10.1007/978-3-030-01234-2_49

DOI

[28]
Zhang H, Wu C, Zhang Z, et al. Resnest: Split-attention networks[J]. 2020. DOI:10.48550/arXiv.2004.08955

DOI

文章导航

/