遥感科学与应用技术

基于双注意力残差网络的高分遥感影像道路提取模型

  • 刘洋 , 1 ,
  • 康健 1 ,
  • 管海燕 , 1, * ,
  • 汪汉云 2
展开
  • 1.南京信息工程大学遥感与测绘工程学院,南京 210044
  • 2.信息工程大学测绘工程学院,郑州 450052
* 管海燕(1976— ),女,江苏南京人,博士,教授,主要从事遥感数据智能解译。E-mail:

刘 洋(1996— ),男,安徽淮南人,硕士,主要从事高分辨率遥感影像处理。E-mail:

收稿日期: 2022-07-14

  修回日期: 2022-09-08

  网络出版日期: 2023-04-19

基金资助

国家自然科学基金项目(41971414)

Road Extraction Model of High-resolution Remote Sensing Images based on Dual-attention Residual Network

  • LIU Yang , 1 ,
  • KANG Jian 1 ,
  • GUAN Haiyan , 1, * ,
  • WANG Hanyun 2
Expand
  • 1. School of Remote Sensing & Geomatics Engineering,Nanjing University of Information Science & Technology, Nanjing 210044, China
  • 2. School of Geomatics Engineering, Information Engineering University, Zhengzhou 450052, China
* GUAN Haiyan, E-mail:

Received date: 2022-07-14

  Revised date: 2022-09-08

  Online published: 2023-04-19

Supported by

National Natural Science Foundation of China(41971414)

摘要

高分辨率遥感影像中,道路光谱信息丰富,且空间几何结构更清晰。但是,基于高分遥感影像的道路提取面临道路尺寸变化大、容易受树木、建筑物及阴影遮挡等因素影响,导致提取结果不完整。此外,高分遥感影像中同物异谱和异物同谱现象较为严重,从而影响道路提取结果连续性及细小道路信息完整性,而且难以区分道路和非道路不透水层。因此,本文提出基于双注意力残差网络的道路提取模型DARNet,利用深度编码网络,获取细粒度高阶语义信息,增强网络对细小道路的提取能力,通过嵌入串联式通道-空间双重注意力模块,获取道路特征图逐通道的全局语义信息,实现道路特征的高效表达及多尺度道路信息的深层融合,增强阴影和遮挡环境下网络模型的鲁棒性,改善道路提取细节缺失现象,实现复杂环境下高效、准确的道路自动化提取。本文在3个实验数据集对DARNet和DLinkNet、DeepLabV3+等5个对比模型进行对比试验和定量评估,结果表明,本文DARNet模型的F1分别为77.92%、67.88%和80.37%,高于对比模型。此外,定性比较表明,本文提出模型可以有效克服由于物体阴影、遮挡和高分影像光谱变化导致道路提取不准确与不完整问题,改善细小道路漏提、错提等现象,提高道路网提取的完整性和连续性。

本文引用格式

刘洋 , 康健 , 管海燕 , 汪汉云 . 基于双注意力残差网络的高分遥感影像道路提取模型[J]. 地球信息科学学报, 2023 , 25(2) : 396 -408 . DOI: 10.12082/dqxxkx.2023.220513

Abstract

In high-resolution remote sensing images, the spectral information of road is rich, and the spatial geometric structure is clear. However, the road extraction is still faced with challenges such as changes in road size and influences from trees, buildings, and occlusion shadow, which often leads to incomplete extraction results. In addition, the phenomenon of the same object with different spectrum and the foreign body with the same spectrum is more serious, which affects the continuity of road extraction and the integrity of small road information, and it is difficult to distinguish road and non-road impervious layer. Therefore, a road extraction model, DARNet, is proposed in this study to address the above limitations. It uses a deep learning network to obtain fine-grained high-level semantic information and enhance the network's ability to extract fine roads. By embedding the serial channel-space dual attention module, the global semantic information of road feature map is obtained, and the robustness of the network model in shadow and occlusion environment is enhanced. The efficient expression of road features and the deep fusion of multi-scale road information are achieved, the phenomenon of missing details in road extraction is improved, and the efficient and accurate automatic road extraction in complex environment is realized. In this paper, a quantitative comparison is carried out based on three experimental datasets, using DARNet, DLinkNet, and DeepLabV3+ etc. The results show that the F1 of the proposed model is 77.92%, 67.88% and 80.37% for three datasets, respectively, which is higher than that of the comparison models. In addition, the qualitative comparison shows that the proposed model can effectively overcome the problem of inaccurate and incomplete road extraction caused by object shadow, occlusion, and spectral changes of high-resolution images, avoid the phenomenon of missing and miscarrying of small roads, and improve the integrity and continuity of road network extraction.

1 引言

作为国家基础地理信息,道路在现代社会扮演着重要的角色,是车辆导航、城市空间规划、智慧城市建设和地理信息系统更新等应用的必要前提[1-2]。随着遥感技术快速发展,遥感影像数据呈现高时空分辨率特点,影像质量不断提高,被广泛应用于地物信息提取等研究领域[3]。在信息高度细节化的高分辨率遥感影像中,由于道路背景复杂、拓扑结构多变、阴影遮盖及影像的“同物异谱”问题,道路的自动、精确提取仍存在较大挑战。
近些年,国内外学者在高分辨率遥感影像道路提取方面做了大量研究,对于道路信息的不同应用领域提出了多种方法。针对传统的道路提取方法,根据道路提取层次的不同分为2类。① 基于特征层次,利用道路本身的光谱、纹理特征、几何拓扑结构,通过模板匹配[4-5]或知识驱动[6-9]算法提取道路骨架。前者道路提取效果好,但人工干预程度高,种子点选取较多,算法自动程度低[10];后者的人工参与度不高,但该类算法计算复杂度高,运行效率不理想[11]。② 对象层次,将道路区域视做整体,通过图像分割聚类[12]、支持向量机[13]和条件随机场[14]等算法提取高分辨率影像中道路的信息。但这类方法步骤复杂,稳定性差,受影像像素灰度变化不均匀的影响,提取结果存在断裂、错提、漏提、缺失等问题,道路提取效果不佳[15],后处理工作耗时费力,难以应用于大规模道路提取。因此,亟需一种能在复杂场景下快速、准确的高分遥感影像道路提取方法[16]
当前,计算机视觉和人工智能发展显著,Hinton等[17]提出的深度学习(Deep Learning, DL)算法被广泛应用于遥感影像智能化处理任务中。卷积神经网络(Convolutional Neural Network, CNN)凭借强大的学习和表征能力,可以自动地从原始数据中提取抽象的语义特征[18]。Long等[19]基于CNN模型提出全卷积神经网络(Fully Convolutional Network, FCN)模型,去掉全连接层,实现了“端到端”的语义特征表达。He等[20]提出了ResNet(Residual Neural Network)模型,利用残差块解决深层网络退化的问题。Badrinarayanan等[21]提出了语义分割网络SegNet模型,利用其编-解码结构以及池化索引连接实现高效、准确目标分割。Google团队提出DeepLab系列模型[22-25],其空洞空间金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模块可获取并融合目标多个尺度上下文信息,提高了分割目标边缘清晰度,从而提升模型语义分割精度。在高分辨率遥感影像道路提取领域,Mendes等[26]提出NiN(Network in Network)网络模型能从高分辨率影像中提取的道路完整且边缘清晰,但难以正确区分路面类型。Cheng等[27]提出CasNet(Cascaded end-to-end Convolutional Neural Network)利用2个级联的CNN实现道路的检测和提取,但遮挡区域的道路提取效果差。Almeida等[28]结合多个深度学习网络构建的ENet (Efficient Neural Network)模型实现道路检测。Chaurasia等[29]采用轻量化的ResNet18作为编码器构建了语义分割模型LinkNet,在保证道路检测的精度同时提高道路检测效率。Zhou等[30]提出改进的DLinkNet(Dilation Convolution LinkNet)模型,以LinkNet模型为基础,利用空洞卷积增大感受野,获取丰富的上下文语义信息,提高了道路完整性和边缘清晰度,但细小、阴影遮挡以及交叉的道路提取效果差。因此,宋廷强等[31]将注意力机制和空洞空间金字塔结合,提出AS-Unet(ASPP-Unet)模型精确实现了简单背景下不同尺度道路的提取,改善了错提、漏提现象。
针对现有基于深度学习的高分辨遥感影像道路提取算法,在植被、建筑物阴影遮挡下道路提取精度低以及细小道路提取不全的问题,本文提出一种双注意力残差道路提取网络模型(Dual Attention Residual Road Extraction Network, DARNet)。模型以D-LinkNet为基础,设计深度编码网络和通道注意力(Channel Attention Module, CAM)、空间注意力(Spatial Attention Module, SAM)的双重注意力模块,提高道路高阶特征和有效特征信息的全局化利用,以此改善道路提取细节缺失现象,提高道路提取精度。

2 研究方法

2.1 模型概述

本文基于DLinkNet模型,结合通道-空间双注意力机制,构建双注意力残差道路提取网络模型DARNet,网络整体结构如图1所示。模型主要由编码器、双重注意力模块、级联空洞卷积模块(Cascade Atrous Convolution Module, CACM)和解码器构成。
图1 双注意力残差道路提取网络

Fig. 1 Dual attention residual road extraction network

图1所示,首先,512像素×512像素大小的RGB影像经编码器下采样,得到道路多尺度高阶语义特征图;其次,将特征图输入通道-空间双重注意力模块,增强道路信息显著特征,抑制无关背景;然后,利用级联空洞卷积扩大特征感受野,获取多尺度特征,丰富道路特征图多尺度语义信息;最后,特征图经解码器恢复至原始尺寸,得到最终的提取结果。残差编码层由1×1、3×3和1×1三层卷积构成的 Bottleneck残差模块堆叠而成,相较于常见的 BasicBlock模块,深度编码网络采用的Bottleneck残差模块能减少参数和计算量,保证模型在算力有限的情况下,减少网络基础结构算力消耗,同时提升模型多尺度特征提取能力。
与现有高分辨率遥感影像道路提取方法相比,本文所提模型通过加深编码器提高道路高阶特征信息获取能力,选择在编码前、后和级联空洞卷积模块后嵌入通道-空间双重注意力模块,分别增强道路低阶泛化信息、高阶语义特征,丰富道路多尺度特征利用并强化道路显著信息,最大程度提高复杂环境下道路提取精度。

2.2 级联空洞卷积

空洞卷积不损耗特征信息,增加感受野而不增大计算量,级联空洞卷积感受野F计算如下:
F = 2 ( r - 1 ) × ( k - 1 ) + k
式中:rk分别表示空洞卷积的空洞率和卷积核大小。
图2所示为级联空洞卷积模块,共有5个级联分支,第1个分支获取道路特征点,第2分支至第5分支使用空洞率为1、2、4、8的空洞卷积层,利用 式(1)计算得到特征感受野分别为3、7、15、31,即 第1层特征点在第2~第5层特征图上分别显示为 3×3、7×7、15×15、31×31像素点阵,扩大了特征感受野且不降低特征图分辨率。此外,不同分支捕获道路上下文不同尺度信息,将多尺度特征信息融合输入解码区,提高道路多尺度、多分辨率抽象特征利用,减少特征图尺寸变化过程中的细节信息丢失,提升道路提取的精度并改善道路细节丢失现象。
图2 级联空洞卷积结构示意图

Fig. 2 Schematic diagram of cascade cavity convolution structure

2.3 双重注意力机制

注意力机制通过赋予不同重要性区域不同的权重,减小无关特征的权重来抑制模型对该类特征的学习,同时增大对相关显著特征的权重来加强对该类特征的学习[32]。刘航等[33]提出基于位置-通道注意力机制的RSANet(ResNet Attection Network)模型,有效提升了复杂场景下道路提取精度。因此,为了解决遥感影像道路背景复杂,存在阴影和遮挡下道路提取精度不高、提取不完整和道路细节丢失等问题,本文模型基于实验精度在3处嵌入通道-空间双重注意力机制(Channel-Spatial Attention Module, CSAM),利用通道注意力学习获取特征信息逐通道的重要程度,通过权重分配,增强有效特征利用。空间注意力是通道注意力的补充,利用建模增强有效特征信息的空间关联性,使得网络更关注道路有效且互相关联的语义特征,从而提高道路提取精度。

2.3.1 通道注意力模块-CAM

通道注意力模块利用特征的通道间关系,生成通道注意图。通道注意聚焦有意义的输入图像,对于输入的二维图像,使用平均池化和最大池化操作来聚合特征映射的空间信息。通道注意力模块通过建模各个特征通道的重要程度,自适应地建立特征通道间的依赖关系,根据依赖关系对原特征图的各通道进行加权处理,实现增强目标特征响应的目的[34]。通道注意力模块的结构如图3所示。
图3 通道注意力模块结构

Fig. 3 Structure of channel attention module

输入图像经过编码器提取特征,得到C×H×W的特征图FC为通道数,使用全局平均池化和最大池化在空间维度对特征F进行压缩,得到 F c A v g F c M a x,它们包含不同的全局特征信息,并且输出的通道数与输入特征图像相匹配。如式(2)—式(3)将池化结果输入含有多层感知机(Multilayer Perceptron, MLP)的共享网络。
M L P ( A v g P o o l ( F ) ) = W 1 × W 0 × F c a v g
M L P ( M a x P o o l ( F ) ) = W 1 × W 0 × F c m a x
式中:AvgPool和MaxPool分别表示全局平均池化和全局最大池化; W 1 W 0分别为多层感知机权重。
对通道数为C的2个全局特征图按照原特征图的通道进行分组,得到C组通道数为2的特征图。然后使用独立的卷积核对每一组通道进行学习,将2种全局特征进行融合。最后使用1×1卷积对所有通道的信息进行融合,进而通过sigmoid层得到逐通道的权重通道注意力图 M c ( F ),且 M c ( F ) R H × W(式(4))。
M c ( F ) = σ [ W 1 ( W 0 ( F c a v g ) )   + W 1 ( W 0 ( F c m a x ) ) ]
式中: σ表示sigmoid激活函数。
将权重注意力逐通道相乘并加权到先前的特征图F上,完成对通道的加权处理得到最终的不同权重值的特征图 F '(式(5)),通道注意力是在跨层连接之间对编码阶段的特征通道进行加权操作,从而减少无关特征信息干扰,提高特征利用的效率[35]
F ' = M c   ( F ) F

2.3.2 空间注意力模块-SAM

空间注意力是在通道注意力基础上,对特征信息位置建立空间关联性,利用特征空间维度相关性,生成特征空间注意图[34]。空间注意力模块的结构如图4所示。
图4 空间注意力模块结构

Fig. 4 Structure of spatial attention module

计算空间注意力是沿着通道应用平均池化和最大池操作,通过2个池化操作分别得到平均池化和最大池化: F s a v g F s m a x,且 F s a v g R H × W × 1 F s m a x R H × W × 1(式(6)—式(7))。将它们串联起来生成一个有效的特征描述符。具体是将尺寸大小为H×W×C的特征图 F,分别输入全局最大池化和全局平均池化网络中,池化操作聚合映射的通道信息,生成2个二维映射,得到大小为H×W×1特征图,通过7×7卷积核进行特征学习,采用Sigmoid层计算出二维空间注意力图 M s ( F ),且 M s ( F ) R H × W(式(8))[35]
F s a v g   = A v g P o o l ( F )  
F s m a x = M a x P o o l ( F )
M s ( F ) = σ ( f 7 × 7 ( [ F s a v g   ; F s m a x ] ) )
式中: f 7 × 7表示7×7卷积。将 M s ( F )与输入特征 图逐像素相乘,得到加权后的输出特征图 F (式(9))。
F = M s ( F ) F

3 实验及分析

3.1 实验数据集

为验证本文方法,本文选取Massachusetts航空影像数据集、DeepGlobe数据集以及CHN6-CUG数据集用于实验,数据集主要参数如表1所示,部分样本如图5所示,分别为原始影像和对应标签数据。
表1 实验数据集参数统计

Tab. 1 Statistical table of experimental data sets parameters

数据集 年份 影像大小/像素 空间分辨率/m 影像数量/张
Massachusetts 2013 1500×1500 1 1171
DeepGlobe 2018 1024×1024 0.5 6226
CHN6-CUG 2021 512×512 0.5 4511
图5 实验数据集部分原始影像和真值标签

Fig. 5 Part of the experimental data set images and labels

3.1.1 Massachusetts数据集

Massachusetts道路数据集(https://www.cs.toronto.edu/~vmnih/data/,University of Toronto)覆盖美国马萨诸塞州地区各种城市和郊区,总覆盖面积超过2600 km2[36]。该数据集覆盖范围大,影像中道路纹理、颜色以及道路环境差异大,且样本不平衡,建筑和植被对道路遮挡明显。数据集由1171幅高分辨率遥感影像组成,每幅影像的像素大小为1500像素×1500像素,分辨率约为1.0 m。利用滑动窗口将影像无重叠裁剪为512像素×512像素大小的影像数据集。随机选取其中4200、1200、600张分别作为训练集、测试集和验证集。

3.1.2 DeepGlobe数据集

DeepGlobe 道路数据集(http://deepglobe.org/challenge.html, DigitalGlobe)是用于2018年道路提取比赛。数据集涵盖了城市、乡村、荒郊、海滨、热带雨林等多类场景[37]。其中,乡村、荒郊、海滨的道路,呈现细小形状,颜色纹理与裸地荒地相似;城市、热带雨林中的道路,存在建筑物、植被的遮挡。DeepGlobe数据集包含6226张大小为1024像素×1024像素的影像,每幅影像的空间分辨率为0.5 m。同样利用滑动窗口将影像无重叠裁剪为512像素×512像素大小的影像数据集。随机选取4200、1200、600张分别作为训练集、测试集和验证集。本文利用DeepGlobe 道路数据集验证模型的泛化能力。

3.1.3 CHN6-CUG数据集

CHN6-CUG道路数据集(http://grzy.cug.edu.cn/zhuqiqi,中国地质大学(武汉)高性能空间计算智能实验室)是中国首套城市大尺度卫星遥感影像道路数据集。该数据集覆盖了中国不同地理位置和历史年代的6个城市[38]。数据集以城市道路为主,道路空间立体结构复杂,城市建筑高大密集。数据集由4511张遥感影像组成,每幅影像大小为512像素×512像素,分辨率为0.5 m。随机选取其中2170、620、310张影像分别作为训练集、测试集和验证集。

3.2 实验结果与分析

3.2.1 参数设置与评价指标

(1)实验环境
本文实验基于Python 3.6编程语言和Pytorch 1.8.1深度学习框架,所有实验均在一台包含Ryzen 7-3700X CPU和一张8GB显存的NVIDIA GeForce RTX 2070显卡的计算机上实现。
(2)参数设置
基于遥感影像的道路提取任务可看作像素层次的二分类语义分割。因此,本文采用二分类交叉熵损失函数(Binary Cross Entropy Loss, BCELoss)和Adam优化器优化网络参数。模型训练过程中,Massachusetts和DeepGlobe数据集的批处理大小设为2,学习率设为0.0001,迭代周期设为120;CHN6-CUG数据集批处理大小设为4,学习率设为0.000 25,迭代周期设为80。
(3)评价指标
使用精度(Precision)、召回率(Recall)、F1分数(F1-score)和均交并比(mIoU)等指标可以有效评估模型的性能,计算公式如下。本文选择Pre、F1和mIoU对本文模型道路提取结果进行评估。
P r e c i s i o n = T P T P + F P × 100 %
R e c a l l = T P T P + F N × 100 %
F 1 - s c o r e = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l × 100 %    
m I o U = 1 k + 1 i = 0 k T P F N + F P + T P × 100 %
式中:k+1表示包括背景在内的类别数;TP(True Positive)表示正确预测为道路的像素;TN(True Negative)表示正确预测为背景的像素;FP(False Positive)表示错误预测为道路的像素;FN(False Negative)表示错误预测为背景的像素。

3.2.2 道路提取结果

为证明本文方法在道路提取任务中的可行性和鲁棒性,本文模型与DLinkNet、DeepLabv3+、FCN8s、SegNet和UNet共5种网络模型的道路提取结果进行比较。其中DLinkNet与DeepLabv3+编码层结构分别采用ResNet34层、ResNet50层网络,FCN8s是基于CNN修改的8层全卷积编码结构、SegNet编码层选择VGG16网络的前13个卷积层提取特征图,而UNet模型的编码层由2层卷积和池化经4次堆叠组成。为保证结果公平客观,所有实验均在相同的实验环境和实验数据集上进行。表2所列为测试集上道路提取的量化结果,图6图8展示部分典型影像的道路提取结果,影像a—影像l是选取的具有代表性的实验样本,提取细节使用红色、黄色框标区分,从左至右分别是原始影像、真值标签、DARNet模型及其他对比模型的提取结果。
表2 DARNet和对比模型在实验数据集上提取结果统计

Tab. 2 DARNet and the comparison model extract the result tables on the experimental dataset (%)

方法 Massachusetts DeepGlobe CHN6-CUG
Pre F1 mIoU Pre F1 mIoU Pre F1 mIoU
DARNet 78.81 77.92 80.43 98.56 67.88 73.91 81.82 80.37 81.25
DLinkNet 77.25 74.48 78.22 97.16 64.66 71.39 80.48 77.43 79.02
DeepLabv3+ 77.89 72.79 77.09 97.07 64.42 71.24 76.82 72.38 75.30
FCN8s 72.30 68.80 57.96 96.14 65.17 71.68 73.97 70.32 73.81
SegNet 78.52 73.25 57.79 96.85 61.66 69.63 76.99 71.96 75.02
UNet 78.78 74.50 78.24 96.94 67.09 72.90 77.57 74.72 76.95
图6 DARNet和对比模型在Massachusetts数据集的道路提取结果

Fig. 6 DARNet and Contrast model for road extraction results on Massachusetts dataset

图7 DARNet和对比模型在DeepGlobe数据集的道路提取结果

Fig. 7 DARNet and Contrast model for road extraction results on DeepGlobe dataset

图8 DARNet和对比模型在CHN6-CUG数据集的道路提取结果

Fig. 8 DARNet and Contrast model for road extraction results on CHN6-CUG dataset

(1)Massachusetts数据集
表2所示,DARNet模型深层卷积提取高阶语义特征图更有利于精确道路识别,在Massachusetts数据集上的Pre、F1和mIoU 3个精度评价指标分别为78.81%、77.92%和80.43%。相较于次优的UNet模型,DARNet模型各项指标分别提高0.03%、3.42%、2.19%。从mIoU指标看,DLinkNet和UNet模型整体表现较好,分别达到了78.22%和78.24%。从Pre指标上比较,DARNet模型精度最高,但提升不明显,这是因为Massachusetts数据集道路样本占比不均衡,本文模型提高阴影、遮挡下的道路提取精度及改善细小道路缺失,并不能带来精度显著提升。
Massachusetts数据集中道路背景环境变化复杂,建筑、植被的阴影对道路遮挡明显,道路提取存在一定挑战。图6可以看出FCN8s提取结果最差,主要是因为FCN8s使用较浅层特征而忽视高分辨率特征导致细节信息丢失,像素空间一致性不足,道路提取结果连续性差,断裂较多,且漏提现象较为严重。SegNet模型在FCN8s基础上利用高分辨率特征改善边界划分,但是道路细节信息提取不足,对于小尺度道路提取存在一定的问题。DeepLabV3+模型引入了空洞空间金字塔池化模块,实现了多尺度特征的融合,提升了边界准确度,全局完整性较好,但没有引入注意力机制,阴影、遮挡下的道路区域提取效果一般。UNet与DLinkNet模 型在定量指标上差距不明显,但从可视化结果看,UNet模型在光谱纹理明显,单一道路提取表现较好,但由于模型简单,对于复杂环境的道路提取效果不佳。DLinkNet模型编码器采用ResNet网络,并引入级联卷积连接编码器与解码器,在阴影、遮挡的情况下对道路提取效果优于UNet网络。本文模型提取可视化结果清楚表明,DARNet通过引入通道-空间双重注意力模块,强化显著特征利用率,提高阴影下道路和细小道路提取精度,并且能够改善道路边界提取精度。
(2)DeepGlobe数据集
DeepGlobe数据集的道路数据背景类型复杂,本文在该数据集上验证DARNet模型泛化能力。如表2所示,所有方法模型的精度指标Pre均达到95%以上,表明各模型假阳性预测结果较少。评价指标F1是精度和召回率的加权平均和,能客观评价网络模型性能。综合比较,本文模型性能最佳,F1为67.88%,UNet模型表现次之,F1为67.09%,比DARNet低0.79%,SegNet模型最差,F1仅为61.66%,DARNet较之提升了6.22%。
DeepGlobe数据集与Massachusetts数据集相比,道路被阴影等遮挡下的样本较少,但乡村、荒郊和裸地样本较多,且道路多呈现形状细小,颜色纹理与背景相似。在该数据集上的实验可验证模型的泛化能力,道路提取可视化结果如图7所示,除本文方法外,UNet模型在场景简单、类型单一的道路场景中综合提取效果较好,但存在颜色、纹理相似的道路漏提、细小道路提取缺失现象。同样,DLinkNet模型对阴影下的道路区域识别不足,并且由于利用了级联卷积提取道路多尺度特征,导致模型存在细小道路过度提取现象。其他模型能提取基本道路网信息,但因为对颜色、纹理相似和阴影下的道路特征学习不足,小尺度道路特征提取较少,导致道路提取效果较差,道路细节缺失。提取结果表明,本文模型提高了对相似区域道路信息的提取能力,从而提高了道路提取精度。
(3)CHN6-CUG数据集
为进一步验证模型的优越性和稳定性,本文模型在CHN6-CUG数据集上进行试验。如表2所示,DARNet模型在复杂的城市道路数据集中提取表现较好,其精度PreF1和mIoU分别为81.82%、80.37%和81.25%。对比方法中,DLinkNet两种方法表现较好。DARNet与DLinkNet相比,F1高4.68%。上述对比结果显示,深度编码网络嵌入通道-空间双重注意力模块得到的DARNet在CHN6-CUG数据集整体表现好于其他模型。
CHN6-CUG数据集是典型中国城市道路数据集,道路环境空间立体结构复杂,道路形状、颜色纹理差异性大,建筑高大密集,遮挡、阴影情况严重。该数据集对道路提取网络模型的多尺度道路提取、背景阴影抑制能力十分具有挑战性。如图8及框标区可以看出,由于利用深度编码模型融合多尺度高阶语义特征和注意力模块增强道路特征的空间关联性,本文所提DARNet模型表现较好,能够从复杂背景下高精度地识别不同拓扑结构、空间分布、颜色和纹理差异的道路,并且对于建筑和植被阴影下的道路信息也能有效提取。同时因此,DARNet模型在道路提取边缘清晰度和细小道路提取方面有明显优势。然而,部分道路遮挡严重,部分路面纹理与周围建筑相似,导致道路完整提取困难。此外,如第4行所示,由于地面不透水层和道路纹理、颜色相似性,DeepLabv3+、FCN8s和UNet等对比模型将道路错误识别为地面不透水层,造成假阴性预测较多。综合对比可视化结果可知,使用深度编码和双重注意力模块的DARNet模型对道路提取能力更强,在建筑物、阴影等遮挡条件下提取提取道路有明显优势。

3.3 消融实验

通道-空间双重注意力机制和深度残差编码网络分别通过增强特征通道、空间位置重要性和提取深度高阶道路特征,从而提升特征表达能力。本节通过消融实验分别验证通道-空间双重注意力机制和深度编码网络对DARNet模型性能影响,在3个道路数据集中测试结果和部分可视化结果如表3图9所示。所有消融实验采用相同的训练、评估和测试集训练验证其性能。
表3 DARNet和消融模型在实验数据集提取结果统计
Massachusetts DeepGlobe CHN6-CUG
Method Pre F1 mIoU Pre F1 mIoU Pre F1 mIoU
DARNet 78.81 77.92 80.43 98.56 67.88 73.91 81.82 80.37 81.25
DR-DLinkNet 77.42 74.68 78.36 97.33 65.03 71.54 80.57 77.70 79.22
DA-DLinkNet 77.89 74.66 78.57 96.93 65.32 71.78 80.82 77.58 79.14
DLinkNet 77.25 74.48 78.22 97.16 64.66 71.39 80.48 77.43 79.02

Tab. 3 DARNet and ablation model extracted results from experimental datasets in statistical tables (%)

图9 DARNet和消融模型在实验数据集的道路提取结果

Fig. 9 DARNet and ablation model on experimental dataset for road extraction results

3.3.1 CSAM模块性能分析

从DARNet模型上移除CSAM模块,得到仅使用深度残差编码网络模型DR-DLinkNet,模型使用深度残差编码网络提取深层高阶道路特征以提高道路提取精度。DR-DLinkNet在3个数据集上的定量分析结果如表3所示。其中DR-DLinkNet相较于DARNet在Massachusetts数据集上Pre、F1和mIoU分别下降1.39%、3.24%和2.07%,表明模型假阳性和假阴性预测增加。而DR-DLinkNet在DeepGlobe数据集预测结果评价中,精度下降同样显著。这表明,CSAM模块可以有效抑制高分辨率遥感影像的强空间异质性并增强道路信息与背景的可区分性。同样,在CHN6-CUG数据集上,DR-DLinkNet提取评价指标分别下降1.25%、2.67%和2.03%。由此可见CSAM模块可以有效增强道路显著特征、抑制无关背景,提升模型道路提取表现。模型提取可视化结果如图9所示,第4列为DA-DLinkNet模型提取结果。与DLinkNet提取结果比较,通过引入通道-空间双重注意力模块,模型强化显著特征利用率,提高阴影下道路和细小道路提取精度、有效改善细小道路错误提取现象,并且能够改善道路边界提取精度。

3.3.2 深度残差编码网络性能分析

将深度残差编码网络从DARNet模型移除,得到仅添加CSAM模块的DA-DLinkNet模型。模型通过通道-空间注意力机制强调特征通道重要性、建模特征空间关联性并抑制无关特征,以此增 强道路显著特征利用,提升道路提取精度。 DA-DLinkNet模型在3个数据集提取结果如表3所示,由表3可以看出,仅使用双重注意力模块的 DA-DLinkNet模型道路提取性能显著下降,与DARNet相比F1分别下降3.26%、2.56%和2.79%。由此表明DA-DLinkNet模型输出特征包含的道路深层高阶语义信息不足。而深度残差编码网络可有效丰富道路特征深层信息,从而提升模型整体表现。
从模型可视化结果分析,第5列为DR-DLinkNet模型提取结果。模型深化残差编码网络,通过提取道路深层高阶特征,能更好地识别边缘纹理和小尺度道路信息,道路提取全局性较好。但是,因背景等无关特征因素影响较大,也存在阴影遮挡等情况下细小道路错提、漏提现象。由表2表3可知,即使模型消融CSAM模块或深度残差编码网络得到的DR/DA-DLinkNet模型在精度,F1和mIoU等指标相较其余对比模型仍有优势。表明本文模型在解决高分辨率遥感影像道路提取阴影干扰等问题具有优越性。

4 讨论

本文选择3套不同类型的道路数据集,验证模型在复杂环境、多类型、多尺度道路、阴影及建筑物遮蔽等不同因素作用下道路提取精并评价模型性能。综合模型实验结果分析可知,DARNet模型通过引入深度编码和双重注意力机制来实现道路特征的高效表达及多尺度道路信息的深层融合,可以较好地实现道路在复杂环境下高效、准确的自动化提取。与现有高分辨率遥感影像道路提取方法相比,本文所提模型通过深度编码器提高道路高阶特征信息获取能力,在多处嵌入通道-空间双重注意力模块,分别增强道路低阶泛化信息、高阶语义特征,丰富道路多尺度特征利用并强化道路显著信息,最大程度提高复杂环境下道路提取精度。具体而言,通过深度编码器获取细粒度高阶道路语义信息,增强网络对细小道路的提取能力。其次,将串联式通道注意力和空间注意力的双重注意力模块嵌入初始编码部分以及级联空洞卷积模块的前后位置,获取道路特征图逐通道的全局语义信息。之后,根据目标特征的空间相关性进行建模,丰富道路的语义特征,增强阴影和遮挡环境下网络模型的鲁棒性,改善道路提取细节缺失现象,提高道路提取精度。
本文在3个主流的高分遥感影像道路提取数据集将DARNet和DLinkNet、DeepLabV3+等5个模型进行对比试验和定量评估以验证模型道路提取性能和泛化能力。实验结果表明,本文模型性能优于对比模型。此外,消融实验中,因道路信息在遥感影像数据中占比小且不均衡,本文模型改善阴影下提取结果和细小道路提取不完整问题,不会导致定量结果显著提升。但定性结果表明,本文模型在道路特征增强和抗干扰能力上均优于对比模型,可以有效克服由于物体阴影遮挡和高分影像光谱变化导致道路提取不准确与不完整问题,改善细小道路漏提、错提等现象,提高道路网提取的完整性和连续性。
但是,由于高分辨率遥感影像道路背景复杂,城市道路易受高大建筑和树冠完全遮挡且影像受光照影响较大,因此,复杂多变场景下提取边界清晰,连续、完整的道路网仍存在较大困难。此外,由表3可知,本文模型提取性能虽然在阴影遮蔽、尺寸变化等多种复杂场景下表现明显优于对比模型,但是整体性能提升仍不显著且与人工目视解译有较大差距。

5 结论与展望

本文针对当前高分辨率遥感影像背景复杂,道路提取受道路尺寸变化、阴影遮蔽等挑战,设计了一种双注意力残差网络模型DARNet,并在3个高分遥感影像道路数据集上验证模型的性能。具体结论如下:
(1)DARNet深度编码网络能够提取深层高阶道路语义特征,并利用级联空洞卷积实现特征多层级多尺度融合;其次嵌入的通道-空间双重注意力模块,强化通道特征显著性,建模特征空间关联性,提升特征表达能力和模型鲁棒性,实现道路高精度提取。
(2)在本文道路数据集实验结果表明,DARNet模型在3个数据集均取得最高精度,其F1和mIoU分别达到了77.92%、80.43%,67.88%、73.91%和80.37%、81.25%,相较对比模型,均有不同程度提高。实验结果表明DARNet模型能有效解决高分辨率遥感影像道路提取中受背景环境、道路尺度变化、遮挡及阴影干扰下,道路提取精度不高及细小道路提取缺失等问题。但仅通过改进算法模型提升高分遥感影像道路提取能力存在瓶颈,因此,未来的研究可从以下方面展开:① 使用多源遥感数据融合,如增加光学遥感数据;② 继续优化模型算法,提升算法精度和运算效率;③ 结合深度学习多模态融合算法进行道路提取。
[1]
Cheng G L, Zhu F Y, Xiang S M, et al. Road centerline extraction via semisupervised segmentation and multidirection nonmaximum suppression[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(4):545-549. DOI:10.1109/LGRS.2016.2524025

DOI

[2]
张永宏, 何静, 阚希, 等. 遥感图像道路提取方法综述[J]. 计算机工程与应用, 2018, 54(13):1-10,51.

DOI

[ Zhang Y H, He J, Kan X, et al. Summary of road extraction methods for remote sensing images[J]. Computer Engineering and Applications, 2018, 54(13):1-10,51. ] DOI:10.3778/j.issn.1002-8331.1804-0271

DOI

[3]
曹敏. 基于频谱的高分辨率遥感影像纹理尺度分析及选择[D]. 北京: 中国地质大学(北京), 2020.

[ Cao M. Frequency spectrum based optimal texture window size selection for high spatial resolution remote sensing image analysis[D]. Beijing: China University of Geosciences, 2020. ]

[4]
Lin X G, Zhang J X, Liu Z J, et al. Semi-automatic road tracking by template matching and distance transform[C]// Joint Urban Remote Sensing Event. IEEE, 2009:1-7. DOI:10.1109/URS.2009.5137485

DOI

[5]
Udomhunsakul S, Kozaitis S P, Sritheeravirojana U. Semi-automatic road extraction from aerial images[C]// Remote Sensing. Proc SPIE 5239, Remote Sensing for Environmental Monitoring, GIS Applications, and Geology III, Barcelona, Spain. 2004, 5239:26-32. DOI:10.1117/12.508365

DOI

[6]
Mayer H, Laptev I, Baumgartner A, et al. Automatic road road extraction based on multi-scale modeling, context, and snakes[J]. International Archives of Photogrammetry and Remote Sensing, 1997, XXXII(3-2W3):106-113. DOI:doi:http://dx.doi.org/

DOI

[7]
Baumgartner A, Steger C, Mayer H, et al. Automatic road extraction based on multi-scale, grouping, and context[J]. Photogrammetric Engineering and Remote Sensing, 1999, 65(7):777-785.

[8]
Treash K, Amaratunga K. Automatic road detection in grayscale aerial images[J]. Journal of Computing in Civil Engineering, 2000,14( 1):60-69. DOI:10.1061/(asce)0887-3801(2000)14:1(60).

DOI

[9]
Gaetano R, Zerubia J, Scarpa G, et al. Morphological road segmentation in urban areas from high resolution satellite images[C]// 17th International Conference on Digital Signal Processing(DSP). IEEE, 2011:1-8. DOI:10.1109/ICDSP.2011.6005015

DOI

[10]
韩洁, 郭擎, 李安. 结合非监督分类和几何—纹理—光谱特征的高分影像道路提取[J]. 中国图象图形学报, 2017, 22(12):1788-1797.

[ Han J, Guo Q, Li A. Road extraction based on unsupervised classification and geometric-texture-spectral features for high-resolution remote sensing images[J]. Journal of Image and Graphics, 2017, 22(12):1788-1797. ] DOI:10.11834/jig.170222

DOI

[11]
曹云刚, 王志盼, 杨磊. 高分辨率遥感影像道路提取方法研究进展[J]. 遥感技术与应用, 2017, 32(1):20-26.

[ Cao Y G, Wang Z P, Yang L. Advances in method on road extraction from high resolution remote sensing images[J]. Remote Sensing Technology and Application, 2017, 32(1):20-26. ] DOI:10.11873/j.issn.1004-0323.2017.1.0020

DOI

[12]
Alshehhi R, Marpu P R. Hierarchical graph-based segmentation for extracting road networks from high-resolution satellite images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017,126 (APR.):245-260. DOI:10.1016/j.isprsjprs.2017.02.008

DOI

[13]
Song M J, Civco D. Road extraction using SVM and image segmentation[J]. Photogrammetric Engineering and Remote Sensing, 2004, 70(12):1365-1371. DOI:10.14358/PERS.70.12.1365

DOI

[14]
Xiao L, Dai B, Liu D X, et al. CRF based road detection with multi-sensor fusion[C]// IEEE Intelligent Vehicles Symposium. IEEE, 2015:192-198. DOI:10.1109/IVS.2015.7225685

DOI

[15]
戴激光, 王杨, 杜阳, 等. 光学遥感影像道路提取的方法综述[J]. 遥感学报, 2020, 24(7):804-823.

[ Dai J G, Wang Y, Du Y, et al. Development and prospect of road extraction method for optical remote sensing image[J]. Journal of Remote Sensing, 2020, 24(7):804-823. ] DOI:10.11834/jrs.20208360

DOI

[16]
Guo M Q, Liu H, Xu Y Y, et al. Building extraction based on U-net with an attention block and multiple losses[J]. Remote Sensing, 2020, 12(9):1400. DOI:10.3390/rs12091400

DOI

[17]
LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553):436-444. DOI:10.1038/nature14539

DOI

[18]
LeCun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4):541-551. DOI:10.1162/neco.1989.1.4.541

DOI

[19]
Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015:3431-3440. DOI:10.1109/CVPR.2015.72 98965

DOI

[20]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE conference on computer vision and pattern recognition, 2016:770-778. DOI: 10.1109/CVPR.2016.90

DOI

[21]
Badrinarayanan V, Kendall A, Cipolla R. SegNet:A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017: 39(12):2481-2495. DOI:10.1109/TPAMI.2016.2644615.

DOI PMID

[22]
Chen L C, Papandreou G, Kokkinos I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[J]. Computer Science, 2014(4):357-361. DOI:10.1080/17476938708814211

DOI

[23]
Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[C]// Conference on Computer Vision and Pattern Recognition (CVPR). IEEE/CVF. 2017. DOI:10.48550/arXiv.1706.05587

DOI

[24]
Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848. DOI:10.1109/TPAMI.2017.2699184

DOI

[25]
Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]// Proceedings of the European conference on computer vision (ECCV). 2018:801-818. DOI:10.1007/978-3-030-01234-2_49

DOI

[26]
Mendes C C T, Frémont V, Wolf D F. Exploiting fully convolutional neural networks for fast road detection[C]// IEEE International Conference on Robotics and Automation. IEEE, 2016:3174-3179. DOI:10.1109/ICRA.2016.7487486

DOI

[27]
Cheng G L, Wang Y, Xu S B, et al. Automatic road detection and centerline extraction via cascaded end-to-end convolutional neural network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(6):3322-3337. DOI:10.1109/TGRS.2017.2669341.

DOI

[28]
Almeida T, Lourenco B, Santos V. Road detection based on simultaneous deep learning approaches[J]. Robotics and Autonomous Systems, 2020, 133:103605. DOI:10.1016/j.robot.2020.103605

DOI

[29]
Chaurasia A, Culurciello E. Linknet: Exploiting encoder representations for efficient semantic segmentation[C]// 2017 IEEE Visual Communications and Image Processing (VCIP). IEEE, 2017:1-4. DOI:10.1109/VCIP.2017.8305148

DOI

[30]
Zhou L C, Zhang C, Wu M. D-LinkNet: LinkNet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2018:192- 1924. DOI:10.1109/CVPRW.2018.00034

DOI

[31]
宋廷强, 刘童心, 宗达, 等. 改进U-Net网络的遥感影像道路提取方法研究[J]. 计算机工程与应用, 2021, 57(14):209-216.

DOI

[ Song T Q, Liu T X, Zong D, et al. Research on road extraction method from remote sensing images based on improved U-net network[J]. Computer Engineering and Applications, 2021, 57(14):209-216. ] DOI:10.3778/j.issn.1002-8331.2007-0392

DOI

[32]
Mnih V, Heess N, Graves A, et al. Recurrent models of visual attention[J]. Advances in Neural Information Processing Systems, 2014, 3. DOI:10.48550/arXiv.1406.6247

DOI

[33]
刘航, 汪西莉. 基于注意力机制的遥感图像分割模型[J]. 激光与光电子学进展, 2020, 57(4):11.

[ Liu H, Wang X L. Remote sensing image segmentation model based on attention mechanism[J]. Advances in laser and optoelectronics, 2020, 57(4):11. ] DOI:10.3788/LOP57.041015

DOI

[34]
Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the European conference on computer vision (ECCV). 2018:3-19. DOI:10.1007/978-3-030-01234-2_1

DOI

[35]
Jie H, Li S, Gang S, et al. Squeeze- and- Excitation Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 99. DOI:10.1109/TPAMI.2019.2913372

DOI

[36]
Mnih V. Machine learning for aerial image labeling.[D]. Toronto: University of Toronto (Canada). 2013.

[37]
Demir I, Koperski K, Lindenbaum D, et al. DeepGlobe 2018: A challenge to parse the earth through satellite images[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2018:172-17209. DOI:10.1109/CVPRW.2018.00031

DOI

[38]
Zhu Q Q, Zhang Y, Wang L, et al. A global context-aware and batch-independent network for road extraction from VHR satellite imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 175(12):353-365. DOI:10.1016/j.isprsjprs.2021.03.016

DOI

文章导航

/