A Lightweight Dual Attention and Feature Compensated Residual Network Model for Road Extraction from High-Resolution Remote Sensing Images

  • CHEN Zhen , 1, 2, 3 ,
  • CHEN Yunzhi , 1, 2, 3, * ,
  • WU Ting 1, 2, 3 ,
  • LI Jiayou 1, 2, 3
Expand
  • 1. The Academy of Digital China(Fujian), Fuzhou University, Fuzhou 350108, China
  • 2. National and Local Joint Engineering Research Center for the Comprehensive Application of Satellite Space Information Technology, Fuzhou 350108, China
  • 3. Key Laboratory of Spatial Data Mining and Information Sharing, Ministry of Education, Fuzhou University, Fuzhou 350108, China.
* CHEN Yunzhi, E-mail:

Received date: 2021-09-30

  Request revised date: 2021-12-03

  Online published: 2022-07-25

Supported by

National Natural Science Foundation of China(42071446)

Commissioning Project of Unicom (Fujian) Industrial Internet Co., Ltd.,(JC21-3502-2020-000559)

Copyright

Copyright reserved © 2022.

Abstract

Aiming at the problem that the background of high-resolution remote sensing images is complex and road extraction is easily disturbed by background information such as shadows, buildings, and railroads, the DAFCResUnet model with lightweight dual attention and feature compensation mechanism is proposed in this study. The model is based on ResUnet and achieves a balance between model performance and spatiotemporal complexity by adding lightweight dual attention and feature compensation modules. The dual attention module enhances the feature extraction capability of the model, and the feature compensation module can fuse the road features from deep and shallow layers in the network. The experimental results using DeepGlobe and GF-2 road datasets show that the IoU of the DAFCResUnet model can reach 0.6713, 0.8033, respectively, and the F1-score is 0.7402, 0.8507, respectively. The overall accuracy of the model is higher than that of U-Net, ResUnet, and VNet models. Compared with the U-Net and ResUnet models, the DAFCResUnet model only increases a small amount of computation and number of parameters, but the IoU and F1-score are improved substantially. Compared with the VNet model, the DAFCResUnet model achieves a higher accuracy with much lower computation and smaller number of parameters, and the model has advantages in both accuracy and spatiotemporal complexity. Compared with the other models, the DAFCResUnet model has stronger feature extraction and anti-interference ability, which can better solve the commission and omission caused by interfering objects on the road, ground features similar to roads, tree shade or shadow shading, etc.

Cite this article

CHEN Zhen , CHEN Yunzhi , WU Ting , LI Jiayou . A Lightweight Dual Attention and Feature Compensated Residual Network Model for Road Extraction from High-Resolution Remote Sensing Images[J]. Journal of Geo-information Science, 2022 , 24(5) : 949 -961 . DOI: 10.12082/dqxxkx.2022.210597

1 引言

道路作为基础的地理信息,是我国交通系统的重要组成部分,获取及时而完备的道路信息在城市规划、交通导航、数字地图更新和构建实时道路交通信息系统等方面发挥着重要作用[1,2]。近年来,随着遥感技术的快速发展,遥感影像在空间和光谱分辨率等方面都有了很大的提升,高分辨率遥感影像逐渐成为道路提取的主要数据之一。与中低分辨率遥感影像相比,高分辨率遥感影像具有更复杂的背景信息,道路提取容易受到阴影、建筑物和铁路等背景信息的干扰。因此,如何在复杂背景信息的干扰下,实现高效准确的道路提取成为众多学者的研究重点。
近些年,许多学者提出了多种基于道路的光谱、形状和纹理等特征的遥感影像道路提取方法[3,4,5,6]。这些方法虽然在遥感影像道路提取领域取得了一定的成果,但都是基于低层道路特征设计的提取算法,这些算法的提取过程繁杂,稳定性较差,不适合在大规模数据集上应用[7]。卷积神经网络(Convolutional Netural Network)[8]因其深层结构能在图像中通过卷积获得高度抽象和有效的特征,在图像语义分割领域取得巨大的成功[9]。与基于低层道路特征设计的传统算法相比,卷积神经网络具有强大的学习和特征表达能力,能够从像素级的原始数据到抽象的语义概念逐层提取信息,在遥感影像道路提取的精度和自动化程度等方面展现出较大的优势。例如,Zhang等[10]结合残差学习[11]和U-Net[12]架构的优点,提出一种用于道路提取的深度残差U-Net网络,网络中的残差单元可以简化深层网络的训练,促进信息传播,但该网络的特征提取能力还需进一步加强。Zhou等[13]结合LinkNet[14]网络和膨胀卷积[15]提出D-LinkNet,该网络通过级联和并行两种模式堆叠的膨胀卷积来增加模型的感受野,提高模型的特征提取能力,但模型会增加较多的参数和计算量。贺浩等[2]针对道路目标细节信息丰富、语义信息简单的特点设计了一种深度较浅、分辨率较高的DCED网络,提高模型对道路细节特征的表示能力,但这样的网络设计会损失模型的特征提取能力。金飞等[16]针对高分辨率遥感影像道路提取难度大、自动化程度低等问题,提出一种基于双U-Net网络联合训练的道路提取方法,该方法能在一定程度上提高网络的特征拟合能力,但网络在阴影、遮挡等干扰因素下的提取效果有待提升。Abdollahi等[17]引入一种新的卷积神经网络VNet进行道路提取,该网络结合残差网络和5 ×5卷积来提升模型的性能,但网络的结构较复杂,且大小为5 ×5的卷积核会增加较多的参数和计算量。Zhou等[18]针对道路提取的边界质量、噪声和遮挡等问题提出BT-RoadNet,该网络通过粗细两个模块提高道路的提取精度,网络在阴影和遮挡情况下的提取效果较好,但整体结构和提取流程较复杂。肖昌城等[19]针对遥感影像中的道路信息容易受到建筑物、植被等非道路信息干扰的问题,提出一种基于门控卷积残差网络的道路提取方法,该方法通过ResNet101、ASPP模块和门控卷积提升网络的整体性能,但也增加了较多的计算量和参数量。
通过以上分析,基于高分辨率遥感影像的道路提取主要存在以下问题:① 高分辨率遥感影像背景复杂,道路提取容易受阴影、建筑物和铁路等背景信息的干扰;② DCED、ResUnet等结构简单模型的特征提取能力无法满足高分辨率遥感影像道路提取的要求;③ D-LinkNet、BT-RoadNet等经过改进后的模型虽然具有较强的特征提取能力,但模型的结构较复杂,且改进部分会增加较多的计算量和参数量。针对以上问题,本文提出一种带有轻量级双注意力和特征补偿机制的道路提取方法,该方法以ResUnet(Residual U-Net)[10]模型为基础,设计轻量级的双注意力和特征补偿模块,在控制模型计算量和参数量增长的情况下,增强模型的特征提取能力,实现模型在性能和时空复杂度上的平衡。

2 研究方法

2.1 DAFCResUnet网络模型

U-Net是Ronneberger等[12]于2015年提出的一种语义分割网络,由特征编码器和解码器构成。其中,特征编码器通过卷积和池化操作压缩特征图,提取图像中的深层语义特征;特征解码器通过上采样和卷积操作恢复特征图的尺寸以及特征图中的信息,模型整体呈U型结构,该结构具有易改造性强、训练速度快等优点[16]。ResUnet(Residual U-Net)是Zhang等[10]在U-Net[12]结构的基础上,结合残差学习[11]思想提出的一种用于道路提取的深度学习模型,该模型在结构上与U-Net相似,其使用残差单元[11,20]替换U-Net中的普通卷积单元,有效综合了残差网络和U-Net结构的优点,在遥感影像道路提取任务上的表现较好,但该模型的结构比较简单,特征提取能力有待提高。因此,本文在ResUnet模型的基础上,针对高分辨率遥感影像背景复杂、ResUnet模型特征提取能力不足的问题,提出一种带有轻量级双注意力和特征补偿机制的DAFCResUnet(Dual Attention and Feature Compensation ResUnet)模型,其结构如图1所示。该模型在ResUnet模型的基础上增加了模型下采样的次数,使模型具有更深的结构,更强的特征提取能力;同时,在ResUnet的残差单元中增加双注意力模块,在模型的编解码器之间增加特征补偿模块,并在模型的输出层补偿道路特征。
图1 DAFCResUnet网络结构

Fig. 1 DAFCResUnet network structure

图1可知,DAFCResUnet采用编解码结构搭建模型,编码器包括一个输入层和4个改进的残差单元,解码器包括反卷积层、4个改进的残差单元和输出层。网络各层输出特征图尺寸如表1所示。
表1 DAFCResUnet网络各层的参数及输出特征图尺寸

Tab. 1 Parameters and output feature map size of each layer in DAFCResUnet network

编码器 解码器
层号 网络层 步长 输出特征图尺寸 层号 网络层 步长 输出特征图尺寸
1 Conv 3 ×3 1 256 ×256 ×32 1 T-Conv 2 ×2 2 32 ×32 ×256
2 Conv 3 ×3 1 256 ×256 ×32 2 Conv 3 ×3 1 32 ×32 ×256
3 Conv 3 ×3 2 128 ×128 ×64 3 Conv 3 ×3 1 32 ×32 ×256
4 Conv 3 ×3 1 128 ×128 ×64 4 T-Conv 2 ×2 2 64 ×64 ×128
5 Conv 3 ×3 2 64 ×64 ×128 5 Conv 3 ×3 1 64 ×64 ×128
6 Conv 3 ×3 1 64 ×64 ×128 6 Conv 3 ×3 1 64 ×64 ×128
7 Conv 3 ×3
2 32 ×32 ×256 7 T-Conv 2 ×2 2 128 ×128 ×64
8 Conv 3 ×3 1 32 ×32 ×256 8 Conv 3 ×3 1 128 ×128 ×64
9 Conv 3 ×3 2 16 ×16 ×512 9 Conv 3 ×3 1 128 ×128 ×64
10 Conv 3 ×3 1 16 ×16 ×512 10 T-Conv 2 ×2 2 256 ×256 ×32
11 Conv 3 ×3 1 256 ×256 ×32
12 Conv 3 ×3 1 256 ×256 ×32
13 Conv 1 ×1 1 256 ×256 ×1

注:输入图像尺寸为256×256×3;Conv 3 ×3代表卷积核为3的卷积层;T-Conv 2 ×2代表卷积核为2的反卷积层。

2.2 改进的残差单元

ResUnet在残差单元的结构上采用了He等[20]提出的完全预激活结构,其结构如图2(a)所示,该结构可以使网络的训练更容易,促进信息传播,在道路提取任务上的表现较好[10]。因此,本文在ResUnet残差单元的基础上增加轻量级的双注意力模块(SECA),进一步提升模型的性能,其结构如图2(b)所示。
为了将SECA(Space-Efficient Channel Attention)模块更好地融入到整个残差单元中,将其添加在残差单元的最后一个卷积层之前,旨在利用最后的卷积层充分学习SECA模块捕捉到的道路特征,最大限度发挥注意力模块的作用,提升模型的性能。
图2 残差单元和改进残差单元结构

Fig. 2 Residual unit and improved residual unit structure

2.2.1 通道注意力模块
通道注意力通过建立通道之间的相互依赖关系自适应地重新校准通道间的特征响应,使网络可以通过学习的方式自动获取每个特征的重要程度,并以此为依据增加对任务有积极作用特征的权重[21]
ECA(Efficient Channel Attention)[22]是一种由SE(Squeeze and Excitation)[21]模块改进得到的通道注意力模块,其结构如图3所示。特征图输入ECA模块后,首先利用全局均值池化(GAP)压缩特征图的尺寸,接着使用一维卷积实现局部特征之间的跨通道交互,最后使用Sigmoid函数获取各通道的权重。
图3 ECA结构

Fig. 3 ECA structure

图3中可知,ECA模块在全局均值池化后,使用卷积核为k的一维卷积实现无降维的局部特征跨通道交互,其中局部特征跨通道交互的范围由一维卷积的卷积核k决定,k的大小可根据式(1)自适应确定。
k = φ C = lo g 2 ( C ) γ + b γ odd
式中: t odd表示离t最近的奇数;C代表特征通道的数量; γ和b分别设置为2和1[22]
在ECA模块中,一维卷积可以在保持通道维度特征数量的情况下降低模块的参数和计算量,提高模块学习效率的同时保证模块中各通道特征与其权值之间的直接对应关系,避免降维操作对通道注意力的性能带来负面影响[22]。同时,一维卷积还可以通过自适应的卷积核k实现局部特征间的跨通道交互,这对通道注意力的学习也有一定的积极作用。
2.2.2 空间注意力模块
由于ECA模块中的全局均值池化压缩了特征图的宽和高,故其仅能在特征通道维度处理输入图像,其主要关注的是特征图在通道维度中的特征,无法充分考虑道路的空间信息对提取的影响。因此,为增强模型对道路空间信息的识别和提取能力,根据通道注意力的实现原理设计了一个可以捕捉道路空间信息的空间注意力SA(Space Attention)模块,其结构如图4所示[23]
图4 SA结构

Fig. 4 SA structure

特征图输入SA模块后,首先利用1 ×1卷积压缩特征,实现通道维度的特征聚合;接着使用3 ×3卷积捕捉特征图中的空间信息,最后利用Sigmoid函数得到特征图中空间信息的权重。在每个残差单元的SA模块中,特征图的尺寸保持不变,模块保留了道路的空间信息,这意味着SA模块可以充分的学习不同残差单元特征图中道路空间信息的权重,从而增强模型对不同尺度道路空间信息的提取能力。
2.2.3 SECA双注意力模块
为综合通道注意力和空间注意力的优势,在残差单元中引入双注意力模块(SECA),其结构如图5所示,2种注意力模块以并联的方式连接在一起。特征图输入双注意力模块后,分别经过通道和空间2个注意力支路获取相应的特征权重和特征图,然后将其逐像元相加获得在2个维度调整权值后的特征图。该模块可以同时捕捉特征图在通道和空间2个维度的信息,并在2个维度对输入图像中的道路特征进行增强。
图5 SECA结构

Fig. 5 SECA structure

在SECA模块中,通道注意力的主要任务是识别对任务有积极作用的特征并增加其权重,增强的是模型提取有效特征的能力。而空间注意力则主要关注特征在空间位置及形状上的变化[24],增强的是模型对道路空间信息的提取能力。

2.3 FCM特征补偿模块

高分辨率遥感影像中的地物复杂,道路类型丰富且形状变化较大。因此,在道路提取任务中,既要考虑道路的细节信息,又要考虑道路整体的结构走向等信息[25]
在卷积神经网络中,浅层神经网络由于感受野较小,对物体局部的细节特征更加敏感,能够提取到更多道路的细节信息。随着网络层的不断加深,卷积神经网络的感受野逐渐变大,网络可以学习到物体与物体之间更高层次的语义信息,从而更善于提取全局特征[25,26]。而从浅层的局部特征到深层的全局特征,不同卷积层之间的特征信息是互补的,将这些互补的特征信息进行融合往往可以获得更好的结果。因此,根据卷积神经网络的特点,在ResUnet模型中增加特征补偿模块(FCM),该模块可以融合编解码器中各层的道路特征,实现浅层和深层道路特征的信息互补,其结构如图6所示。
图6 FCM结构

Fig. 6 FCM structure

图6中,d和e分别为FCM(Feature Compensation Module)模块的输入数据,其中d来自模型的编码器,具有低层道路特征,e来自解码器,具有高层道路特征,d和e均通过SECA模块进行特征增强。特征图输入FCM模块后,首先将d和e逐像元相加,实现浅层特征和深层特征的信息互补并突出编解码器均有的特征;然后利用1 ×1卷积压缩特征,降低模块产生的计算量和参数量,最后通过上采样将特征图的尺寸恢复至256 ×256。在DAFCResUnet模型中,FCM模块添加在编解码器之间,来自各层编解码器的信息在模块中融合后进入输出层,在模型的输出层补偿从各层获取的道路特征。
结合图1可知,FCM模块收集的是来自编解码器对应层的特征信息,这些特征分别来自网络不同的层,包括不同尺度的浅层和深层道路特征,这些特征在FCM模块中融合后一起输入输出层,在输出层实现多尺度浅层和深层道路特征的融合。同时,在FCM模块中,编解码器对应层之间的特征融合采用的是逐像素相加的方式实现的,这样的融合方式也是对主干模型编解码器之间Concatenate特征融合方式的补充。

3 实验与评价指标

3.1 实验数据与数据增强

3.1.1 DeepGlobe道路数据集
DeepGlobe道路数据集[27]是2018年DeepGlobe道路提取挑战赛提出的一套高分辨率遥感影像道路数据集,包括8570张大小为1024像素 ×1024像素的遥感影像,其中带有标签数据的影像有6226张,影像的空间分辨率为0.5m。本文从带有标签的6226张影像中随机选择1254张影像进行实验,实验中将每张影像按256像素 ×256像素进行裁剪,影像之间没有重叠,在剔除部分无道路和标注错误的影像后共得到10 880张道路影像及其对应的标签,实验中将数据按7:2:1的比例进行划分。
3.1.2 GF-2道路数据集
GF-2道路数据集是基于福建省南平市和三明市部分地区融合后的GF-2遥感影像制作的数据集,影像的空间分辨率为1 m。实验共选取了21块总覆盖面积约800 km2区域的影像用于数据集的制作,道路标签的制作软件是ESRI公司开发的ArcGIS。实验中将数据按256 像素 ×256像素、重叠率为36像素进行裁剪,在剔除部分无道路的影像后共获得5920张道路影像及其对应的标签,将数据集按7.4:1.6:1分为训练集、测试集和验证集后得到4385张训练集、945张测试集和590张验证集。
3.1.3 数据增强
卷积神经网络的训练需要大量数据才可以避免网络出现过拟合现象,然而目前人工标注数据集的数量较少,难以满足深度学习模型训练的需要。针对该问题,已有学者通过实验充分论证了数据增强在网络训练中的有效性[28]。因此,本文在训练的过程中对数据进行了增强,主要包括随机翻转、随机旋转、色彩变换、随机偏移和缩放等[13]。其中,随机翻转包括水平和垂直翻转;随机旋转是指将图像随机旋转90°;色彩变换是指在HSV空间对图像的颜色进行变化,包括在H空间随机变化(-30,30),在S空间随机变化(-5,5),在V空间随机变化(-15,15);随机偏移是指将图像在上下左右4个方向随机偏移不超过10%;随机缩放是指将图像随机缩小和放大不超过10%。

3.2 实验环境

使用Windows10操作系统、Pytorch1.2深度学习框架,在GPU NVIDIA RTX2080(8GB)上开展神经网络的训练。在网络训练的过程中,使用Adam作为模型训练的优化器;Batch_size根据GPU的内存大小设置为8;初始学习率为0.001[10],学习率共进行三次递减,每次递减为原学习率的0.1倍;迭代轮数Epoch为100;损失函数为骰子系数(Dice coefficient)和二分类交叉熵(Binary Cross Entropy)。

3.3 评价指标

使用交并比(IoU)、召回率(Recall)、精确率(Precision)、F1分数(F1-score)、FLOPs(Floating point operations)和Params评价模型的性能。其中,IoU、Recall、Precision和F1-score为精度评价指标,用于评价模型的实验精度;FLOPs和Params为模型复杂度的评价指标,用于评价模型的时间复杂度和空间复杂度。在道路提取任务中,交并比可以看作预测影像和真实影像之间交集和并集的比值;召回率是指被正确预测的道路样本在所有真实目标样本中的比例;精确率表示被正确预测的道路样本在所有被预测为道路的样本中的比例;F1分数是召回率和精确率的调和平均值,可以在一定程度上综合召回率和精准率2个指标的性能;FLOPs是浮点运算数,即模型的计算量,可以用来衡量模型的时间复杂度;Params是模型的参数量,可以用来衡量模型的空间复杂度。各精度评价指标的定义如式(2)—式(5)所示:
IoU = TP TP + FP + FN
Recall = TP TP + FN
Precision = TP TP + FP
F 1 - score = 2 × Preci sion × Recall Precision + Recall
式中:TP代表正确分类样本的数量;FP代表负样本被误分为正样本的数量;FN代表正样本被误分为负样本的数量。

4 实验结果与分析

4.1 各模型训练Loss曲线分析

为验证模型的性能并分析各模块对道路提取的影响,在DeepGlobe和GF-2道路数据集上分别对U-Net[12]、ResUnet[10]、DAResUnet(Dual Attention ResUnet)、DAFCResUnet和VNet[17]模型进行测试。其中,DAResUnet、DAFCResUnet分别为在ResUnet中增加SECA模块的网络、在ResUnet中同时增加SECA和FCM模块的网络。如图7所示为各模型在两套数据集上训练的Loss曲线,从图中可知,各模型在两套数据集上训练Loss的变化趋势基本一致,即在前30个Epoch各模型的Loss下降较快,在后30个Epoch各模型的Loss逐渐稳定并收敛。进一步分析可知,在模型的收敛阶段,DAFCResUnet、DAResUnet和VNet模型在两套数据集上的整体Loss更低,模型的拟合效果较好,其中DAFCResUnet模型的拟合效果最佳。
图7 模型在2套数据集上的训练Loss

Fig. 7 Training Loss of the model on two datasets

4.2 各模型在DeepGlobe数据集上的实验结果与分析

使用DeepGlobe数据集对几个模型进行训练和测试,实验中几个模型的训练条件一致,如图8所示为模型的部分预测结果。
图8 DeepGlobe数据集部分提取结果

Fig. 8 Partial extraction results of the DeepGlobe dataset

图8中,从a区域的提取结果可知,当道路周围存在树荫或阴影遮挡道路时,U-Net和ResUnet模型的提取结果存在较严重的漏提和断连现象,而VNet、DAResUnet和DAFCResUnet模型基本可以消除遮挡造成的道路漏提和断连现象,保证道路的连通性。从b、c区域的提取结果可知,当图像中道路的特征不显著、道路与周围裸地的特征较相似时,仅DAFCResUnet模型可以从图像中完整的提取道路,U-Net、ResUnet和DAResUnet模型均无法解决道路特征不显著、道路与周围裸地特征较相似造成的道路漏提和断连现象,VNet模型虽然可以改善道路的提取结果,但还是存在漏提。从d区域的提取结果可知,当道路周围存在建筑物干扰、道路在光谱上与周围地物较相似时,U-Net、ResUnet和VNet模型的提取结果存在部分漏提现象,而DAResUnet和DAFCResUnet模型的提取结果中,漏提现象基本得到解决,其中DAFCResUnet模型整体的提取效果最好。从e区域的提取结果可知,当研究区的道路密集、背景复杂时,DAFCResUnet模型具有更强的抗干扰能力,模型在面对建筑物和阴影遮挡时的提取效果更好,但也存在一些误提和漏提。
为更加直观的验证几个模型的性能,使用3.4中的评价指标对各模型的性能进行评价,模型在DeepGlobe数据集的性能评价结果如表2所示。
表2 在DeepGlobe测试集上的精度对比

Tab. 2 Accuracy comparison on DeepGlobe test set

模型 IoU Recall Precision F1-score FLOPs(G) Params(M)
U-Net[12] 0.6521 0.7750 0.8044 0.7894 13.73 7.77
ResUnet[10] 0.6498 0.7748 0.8011 0.7877 14.43 8.12
VNet[17] 0.6686 0.7938 0.8091 0.8014 44.85 36.00
DAResUnet 0.6690 0.7914 0.8122 0.8016 14.44 8.12
DAFCResUnet 0.6713 0.7982 0.8085 0.8033 14.46 8.12
表2可知,DAResUnet 和DAFCResUnet模型在DeepGlobe数据集上取得了较理想的实验精度,2个模型的IoU、Recall、Precision和F1-score均优于U-Net和ResUnet模型。其中,DAFCResUnet模型的整体精度最好,各精度指标较U-Net模型分别提高了1.92%、2.32%、0.41%和1.39%,较ResUnet模型分别提高了2.15%、2.34%、0.74%和1.56%。而与VNet模型相比,DAFCResUnet模型的Precision较低,但IoU、Recall和F1-score均更高,且DAFCResUnet模型的计算量和参数量远低于VNet模型。通过进一步的分析可知,增加SECA模块后,DAResUnet模型的精度有较大幅度的提高,而同时增加SECA和FCM模块后,DAFCResUnet模型的整体精度进一步提高,道路提取的结果进一步改善。同时,根据FLOPs和Params的计算结果可知,在增加SECA和FCM模块后,DAFCResUnet模型的计算量仅增加了0.03G,参数量基本不变,模型的时空复杂度没有明显的变化,这表明DAFCResUnet模型仅消耗少量的计算和存储资源就可以实现性能的提升。

4.3 各模型在GF-2数据集上的实验结果与分析

以相同的实验条件,在GF-2数据集上也对模型进行测试,如图9所示为模型的部分预测结果。
图9 GF-2数据集部分提取结果

Fig. 9 Partial extraction results of the GF-2 dataset

图9中,从a、b区域的提取结果可知,当道路周围存在树荫、阴影和行道树遮挡道路时,U-Net、ResUnet和VNet模型的提取结果均存在不同程度的漏提或断连现象,模型基本无法识别被遮挡的道路;而DAResUnet 和DAFCResUnet模型可以较好地解决遮挡造成的道路漏提和断连现象。从c区域的提取结果可知,当道路上存在收费站等干扰物时,只有VNet和DAFCResUnet模型可以较完整的提取道路,其余模型的提取结果均出现了较严重的道路空洞现象;从d区域的提取结果可知,当道路周围出现与道路特征相似的地物(如铁路等)时,U-Net和ResUnet模型的提取结果出现了较严重的误提现象,DAResUnet模型虽然可以改善误提现象,但无法解决该问题,而VNet和DAFCResUnet模型可以更准确的提取道路,解决道路的误提问题。从e区域的提取结果可知,当面对道路状况较复杂的场景时,DAFCResUnet模型可以更完整的从影像中提取道路,但在受到建筑物、阴影等因素的严重干扰时,也存在较多漏提现象。
使用相同的评价指标,在GF-2测试集上也对各模型进行性能评价,其结果如表3所示。
表3 在GF-2测试集上的精度对比

Tab. 3 Accuracy comparison on GF-2 test set

模型 IoU Recall Precision F1-score FLOPs(G) Params(M)
U-Net[12] 0.7182 0.8050 0.8695 0.8360 13.73 7.77
ResUnet[10] 0.7272 0.8109 0.8756 0.8420 14.43 8.12
VNet[17] 0.7330 0.8196 0.8741 0.8460 44.85 36.00
DAResUnet 0.7383 0.8258 0.8745 0.8494 14.44 8.12
DAFCResUnet 0.7402 0.8226 0.8808 0.8507 14.46 8.12
表3可知,DAResUnet和DAFCResUnet模型在GF-2数据集上也取得了较理想的实验结果,2个模型的整体精度均优于U-Net、ResUnet和VNet,其中DAFCResUnet模型的整体精度最高。与U-net模型相比,DAFCResUnet模型的IoU、Recall、Precision和F1-score分别提高了2.2%、1.76%、1.13%和1.47%;与ResUnet模型相比,DAFCResUnet模型的IoU、Recall、Precision和F1-score分别提高了1.3%、1.17%、0.52%和0.87%,模型的整体性能较两个模型有较明显的提升。而与VNet模型相比,DAFCResUnet模型在精度和时空复杂度两方面均有优势,其中DAFCResUnet模型的时间复杂度和空间复杂度约为VNet模型的1/3和1/4。通过与表2对比可以发现,DAResUnet和DAFCResUnet模型在GF-2测试集上的精度变化规律和DeepGlobe测试集基本一致,即增加SECA模块后,DAResUnet模型的精度有较大的提高,而同时增加SECA和FCM模块可以进一步提高精度,改善道路提取结果。这说明SECA模块可以较明显的增强模型的特征提取能力,是模型性能提升的主要因素,而SECA和FCM模块的结合可以进一步提升模型的性能,改善道路提取结果,提高精度。
综合模型在两套数据集上的实验结果分析可知,DAFCResUnet模型可以较好的结合SECA和 FCM模块的优点,能在基本不增加模型时空复杂度的情况下增强模型的特征提取能力,全面提升模型的性能。同时,模型在一定程度上可以解决道路提取结果中的空洞、误提、漏提和断连等现象,有效降低道路上的干扰物、与道路特征相似地物以及树荫或阴影遮挡的影响,保证提取道路的连通性,在高分辨率遥感影像道路提取上取得较好的效果。

5 结论

本文针对高分辨率遥感影像背景复杂,道路提取容易受阴影、建筑物和铁路等背景信息干扰的问题,设计了一种带有轻量级双注意力和特征补偿模块的DAFCResUnet模型,并在DeepGlobe和GF-2数据集上验证模型的性能。具体结论如下:
(1)以ResUnet模型为基础,通过增加轻量级的双注意力和特征补偿模块提高模型的特征提取和抗干扰能力。实验表明,在增加双注意力和特征补偿模块后,模型的参数量基本不变,计算量仅增加了0.03G,但提取精度有较全面的提高。
(2)在DeepGlobe和GF-2道路数据集上的实验结果表明,DAFCResUnet模型在两套数据集上均取得了最高精度,其IoU和F1-score分别达到了0.6713、0.8033和0.7402、0.8507,较U-net模型分别提高了1.92%、2.2%和1.39%、1.47%;较ResUnet模型分别提高了2.15%、1.56%和1.3%、0.87%;较VNet模型分别提高了0.27%、0.19%和0.72%、0.47%,且DAFCResUnet模型的计算量和参数量远低于VNet模型。
(3)根据FLOPs和Params的计算结果可知,SECA和FCM模块仅增加少量的计算量和参数量就可以提升深度学习模型的性能,这使两个模块可以很方便的应用于其他深度模型或其他语义分割任务。
虽然DAFCResUnet模型能在一定程度上减少道路上的干扰物、与道路特征相似地物、树荫和阴影遮挡对道路提取的影响,改善道路提取结果;但在面对干扰因素较多的复杂场景时,提取结果中还是存在不少道路的误提、漏提和断连等现象,提取效果仍需提升。同时,本文仅在RGB遥感影像上开展道路提取的研究,没有尝试结合其他辅助数据进一步改善道路提取结果。因此,下一步的工作方向可以考虑结合多波段遥感影像或遥感影像外的其他辅助数据来解决道路的误提、漏提和断连等问题,进一步优化道路提取结果。
[1]
赫晓慧, 李代栋, 李盼乐, 等. 基于EDRNet模型的高分辨率遥感影像道路提取[J]. 计算机工程, 2021, 47(9):297-303,312.

[ He X H, Li D D, Li P L, et al. Road extraction from high resolution remote sensing images based on EDRNet model[J]. Computer Engineering, 2021, 47(9):297-303,312. ] DOI: 10.19678/j.issn.1000-3428.0058876.

DOI

[2]
贺浩, 王仕成, 杨东方, 等. 基于Encoder-Decoder网络的遥感影像道路提取方法[J]. 测绘学报, 2019, 48(3):330-338.

[ He H, Wang S C, Yang D F, et al. An road extraction method for remote sensing image based on Encoder-Decoder network[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(3):330-338. ] DOI: 10.11947/j.AGCS.2019.20180005.

DOI

[3]
罗庆洲, 尹球, 匡定波. 光谱与形状特征相结合的道路提取方法研究[J]. 遥感技术与应用, 2007(3):339-344.

[ Luo Q Z, Yi Q, Kuang D B. Research on extracting road based on its spectral feature and shape feature[J]. Remote Sensing Technology and Application, 2007(3):339-344. ] DOI: 10.11873/j.issn.1004-0323.2007.3.339.

DOI

[4]
吴学文, 徐涵秋. 一种基于水平集方法提取高分辨率遥感影像中主要道路信息的算法[J]. 宇航学报, 2010, 31(5):1495-1502.

[ Wu X W, Xu H Q, et al. Level set method major roads information extract from high-resolution remote-sensing imagery[J]. Journal of Astronautics, 2010, 31(5):1495-1502. ] DOI: 10.3873/j.issn.1000-1328.2010.05.038

DOI

[5]
赵文智, 雒立群, 郭舟, 等. 光谱特征分析的城市道路提取[J]. 光谱学与光谱分析, 2015, 35(10):2814-2819.

[ Zhao W Z, Luo L Q, Guo Z, et al. Road extraction in remote sensing images based on spectral and edge analysis[J]. Spectroscopy and Spectral Analysis, 2015, 35(10):2814-2819.] DOI: 10.3964/j.issn.1000-0593(2015)10-2814-06

DOI

[6]
王建华, 秦其明, 高中灵, 等. 加入空间纹理信息的遥感图像道路提取[J]. 湖南大学学报(自然科学版), 2016, 43(4):153-156.

[ Wang J H, Qing Q M, Gao Z L, et al. Road extraction from high-resolution remote sensing imagery by including spatial texture feature[J]. Journal of Hunan University(Natural Sciences), 2016, 43(4):153-156. ] DOI: 10.16339/j.cnki.hdxbzkb.2016.04.021

DOI

[7]
Mnih V, Hinton G E. Learning to detect roads in high-resolution aerial images [C]//European Conference on Computer Vision. Springer, Berlin, Heidelberg, 2010:210-223. DOI: 10.1007/978-3-642-15567-3_16

DOI

[8]
Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Advances in Neural Information Processing Systems, 2012, 25:1097-1105. DOI: 10.1145/3065386

DOI

[9]
Li Y, Zhang H, Xue X, et al. Deep learning for remote sensing image classification: A survey[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2018, 8(6):e1264. DOI: 10.1002/widm.1264

DOI

[10]
Zhang Z X, Liu Q J, Wang Y H. Road Extraction by Deep Residual U-Net[J]. IEEE Geoscience and Remote Sensing Letters, 2018, 15(5):749-753. DOI: 10.1109/LGRS.2018.2802944

DOI

[11]
He K M, Zhang X, Ren S, et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016:770-778. DOI: 10.1109/CVPR.2016.90.

DOI

[12]
Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation [C]// International Conference on Medical Image Computing and Computer-assisted Intervention. Springer, Cham, 2015:234-241. DOI: 10.1007/978-3-319-24574-4_28

DOI

[13]
Zhou L C, Zhang C, Wu M. D-linknet: Linknet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018:182-186. DOI: 10.1109/CVPRW.2018.00034

DOI

[14]
Chaurasia A, Culurciello E. Linknet: Exploiting encoder representations for efficient semantic segmentation [C]//2017 IEEE Visual Communications and Image Processing (VCIP). IEEE, 2017:1-4. DOI: 10.1109/VCIP.2017.8305148

DOI

[15]
Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions. [C]//4th International Conference on Learning Representations. San Juan, Puerto Rico: ICLR, 2016.

[16]
金飞, 王龙飞, 刘智, 等. 一种双U-Net的遥感影像道路提取方法[J]. 测绘科学技术学报, 2019,36(4):377-381+387.

[ Jin F, Wang L F, Liu Z, et al. Double U-Net remote sensing image road extraction method[J]. Journal of Geomatics Science and Technology, 2019, 36(4):377-381,387. ] DOI: 10.3969/j.issn.1673-6338.2019.04.009

DOI

[17]
Abdollahi A, Pradhan B, Alamri A. VNet: An end-to-end fully convolutional neural network for road extraction from high-resolution remote sensing data[J]. IEEE Access, 2020, 8:179424-179436. DOI: 10.1109/ACCESS.2020.3026658

DOI

[18]
Zhou M, Sui H, Chen S, et al. BT-RoadNet: A boundary and topologically-aware neural network for road extraction from high-resolution remote sensing imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 168:288-306. DOI: 10.1016/j.isprsjprs.2020.08.019

DOI

[19]
肖昌城, 吴锡. 基于门控卷积残差网络的卫星图像道路提取[J]. 计算机应用研究, 2021, 38(12):3820-3825.

[ Xiao C C, Wu X. Road extraction from satellite image based on gated convolutional residual network[J]. Application Research of Computer, 2021, 38(12):3820-3825. ] DOI: 10.19734/j.issn.1001-3695.2021.03.0123

DOI

[20]
He K M, Zhang X, Ren S, et al. Identity mappings in deep residual networks [C]//European Conference on Computer Vision. Springer, Cham, 2016: 630-645. DOI: 10.1007/978-3-319-46493-0_38

DOI

[21]
Hu J, Shen L, Sun G. Squeeze-and-excitation networks [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018:7132-7141. DOI: 10.1109/TPAMI.2019.2913372

DOI

[22]
Wang Q, Wu B, Zhu P, et al. ECA-Net: efficient channel attention for deep convolutional neural networks, 2020 IEEE [C]//CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE. 2020. DOI: 10.1109/CVPR42600.2020.01155

DOI

[23]
Roy A G, Navab N, Wachinger C. Concurrent spatial and channel ‘squeeze & excitation’in fully convolutional networks [C]//International Conference on Medical Image Computing and Computer-assisted Intervention. Springer, Cham, 2018:421-429. DOI: 10.1007/978-3-030-00928-1_48

DOI

[24]
宋廷强, 刘童心, 宗达, 等. 改进U-Net网络的遥感影像道路提取方法研究[J]. 计算机工程与应用, 2021, 57(14):209-216.

[ Song T Q, Liu T X, Zong D, et al. Research on road extraction method from remote sensing images based on improved U-Net network[J]. Computer Engineering and Applications, 2021, 57(14):209-216. ] DOI: 10.3778/j.issn.1002-8331.2007-0392

DOI

[25]
李君. 基于多尺度卷积神经网络的遥感图像道路提取研究[D]. 湘潭:湘潭大学, 2019.

[ Li J. Multi-scale Convolutional Neural Network for Road Extraction in Remote Sensing Imagery[D]. Xiangtan: Xiangtan University, 2019. ] DOI: 10.27426/d.cnki.gxtdu.2019.001567

DOI

[26]
罗咏潭. 基于深度学习的遥感图像道路提取与语义分割[D]. 厦门:厦门大学, 2019.

[ Luo Y T. Road extraction and semantic segmentation from remote sensing image based on deep learning[D]. Xiamen: Xiamen University, 2019. ]

[27]
Demir I, Koperski K, Lindenbaum D, et al. Deepglobe 2018: A challenge to parse the earth through satellite images [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops. 2018: 172-181. DOI: 10.1109/CVPRW.2018.00031

DOI

[28]
Wang J, Perez L. The effectiveness of data augmentation in image classification using deep learning[J]. Convolutional Neural Networks Vis. Recognit, 2017, 11:1-8.

Outlines

/