遥感科学与应用技术

基于MAEU-CNN的高分辨率遥感影像建筑物提取

  • 张华 , 1 ,
  • 郑祥成 1 ,
  • 郑南山 , 1, * ,
  • 史文中 2
展开
  • 1.中国矿业大学环境与测绘学院,徐州 22116
  • 2.香港理工大学土地测量及地理资讯学系,香港 999077
*郑南山(1974— ),男,安徽安庆人,博士,教授,主要从事遥感数据处理与应用。E-mail:

张 华(1979— ),男,安徽合肥人,博士,副教授,主要从事遥感数据智能解译及GIS理论与应用研究。E-mail:

收稿日期: 2021-11-15

  修回日期: 2021-12-01

  网络出版日期: 2022-08-25

基金资助

国家自然科学基金项目(41971400)

国家自然科学基金项目(41974039)

Building Extraction from High Spatial Resolution Imagery based on MAEU-CNN

  • ZHANG Hua , 1 ,
  • ZHENG Xiangcheng 1 ,
  • ZHENG Nanshan , 1, * ,
  • SHI Wenzhong 2
Expand
  • 1. School of Environment and Spatial Informatics, China University of Mining and Technology, Xuzhou 22116, China
  • 2. Department of Land Surveying and Geo-informatics, The Hong Kong Polytechnic University, Hongkong 999077, China
*ZHENG Nanshan, E-mail:

Received date: 2021-11-15

  Revised date: 2021-12-01

  Online published: 2022-08-25

Supported by

National Natural Science Foundation of China(41971400)

National Natural Science Foundation of China(41974039)

摘要

从高空间分辨率图像(HSRI)中提取建筑物信息在遥感应用领域具有重要意义。然而,由于遥感影像中的建筑物尺度变化大、背景复杂和外观变化大等因素,从HSRI中自动提取建筑物仍然是一项具有挑战性的任务。特别是从影像中同时提取小型建筑物群和具有精确边界的大型建筑物时,难度更大。为解决这些问题,本文提出了一种端到端的编码器-解码器神经网络模型,用于从HSRI中自动提取建筑物。所设计的网络称为MAEU-CNN(Multiscale Feature Enhanced U-shaped CNN with Attention Block and Edge Constraint)。首先,在设计的网络编码部分加入多尺度特征融合(MFF)模块,使网络能够更好地聚集多个尺度特征。然后,在编码器和解码器部分之间添加了多尺度特征增强模块(MFEF),以获得不同尺寸的感受野,用于获取更多的多尺度上下文信息。在跳跃连接部分引入双重注意机制,自适应地选择具有代表性的特征图用于提取建筑物。最后,为了进一步解决MAEU-CNN中由于池化及卷积操作导致的分割结果边界模糊的问题,引入多任务学习机制,将建筑物的边界几何信息融入网络中以优化提取的建筑物边界,最终获得精确边界的建筑物信息。MAEU-CNN在ISPRS Vaihingen语义标记数据集和WHU航空影像数据集2种不同尺度建筑物数据集上进行了试验分析,在ISPRS Vaihingen语义标记数据集上,MAEU-CNN在精度、F1分数和IoU指标中获得了最高精度,分别达到了93.4%、93.62%和88.01%;在WHU航空影像数据集上,召回率、F1分数和IoU指标中也获得了最高精度,分别达到了95.45%、95.58%和91.54%。结果表明,本文所提出的MAEU-CNN从遥感图像中提取建筑物信息精度较高,并且对于不同尺度具有较强的鲁棒性。

本文引用格式

张华 , 郑祥成 , 郑南山 , 史文中 . 基于MAEU-CNN的高分辨率遥感影像建筑物提取[J]. 地球信息科学学报, 2022 , 24(6) : 1189 -1203 . DOI: 10.12082/dqxxkx.2022.210727

Abstract

Extraction of buildings from High Spatial Resolution Imagery (HSRI) plays an important role in remotely sensed imagery application. However, automatically extracting buildings from HSRI is still a challenging task due to factors such as large-scale variation of buildings, background complexity, and variation in appearance, etc. Especially, it is difficult in extracting both crowded small buildings and large buildings with accurate boundaries. To address these challenges, this paper presents an end-to-end encoder-decoder model to automatically extract buildings from HSRI. The designed network is called multiscale feature enhanced U-Shaped CNN with attention block and edge constraint (MAEU-CNN). Firstly, a Multiscale Feature Fusion (MFF) module is adopted in the encoder part of the network, which enables the network to aggregate features from multiple scales. Then, a Multi-scale Feature Enhancement module (MFEF) is added between the encoder and decoder parts to obtain multiscale receptive fields for obtaining multiscale context information. Thirdly, a dual attention mechanism is introduced to adaptively select representative feature maps for extraction of buildings instead of direct skipping connections. Lastly, in order to further solve the problem of segmentation result with poor boundaries aroused by the pooling operations in the MAEU-CNN, the geometric information of building boundary is introduced into the proposed MAEU-CNN by multi-task learning using the distance class map to produce fine-grained segmentations with precise boundaries. The performance of MAEU-CNN is examined through two different data sets at different building scales. The results show that MAEU-CNN obtains the greatest accuracy in each data set. The Precision, F1, and IoU is 93.4%, 93.62%, and 88.01%, respectively using the ISPRS Vaihingen semantic labeling contest data set. The Recall, F1, and IoU reach 95.45%, 95.58%, and 91.54%, respectively, using the WHU aerial image data set. Experimental results demonstrate that our proposed MAEU-CNN can achieve high accuracy for the extraction of building from remotely sensed imagery and show great robustness at different scales.

1 引言

自动、快速地从高分辨率遥感影像中提取精确的建筑物对城市管理与规划、地表覆盖变化动态监测、土地利用调查及自动驾驶等方面都具有重要的理论和应用价值。然而,在大规模的实际应用中,仅依靠传统方法人工去判读并勾绘建筑物耗时且效率低下,因此,研发自动、及时、准确的建筑物信息提取方法至关重要。虽然高分辨率遥感影像为自动提取建筑物信息提供了丰富的细节信息,但同时也造成了建筑物的尺度多变性、多样性、结构复杂等问题。因此,如何准确地从高分辨率遥感影像中提取建筑物信息仍是目前遥感影像应用领域研究的热点和难点。
近几十年来,已经提出了许多半自动和自动的方法用于从图像中提取建筑物信息,主要可分成两大类:传统方法和基于深度学习方法。其中,传统方法主要依据图像中地物的光谱、边缘、形状和阴影等特性,通过人工设计相应的特征来提取建筑物,如基于边缘的方法[2]、包括模板匹配方法[1]、基于数学形态学的方法[3]、基于图论的方法[5]和基于人工设计特征的机器学习方法[4]等。这些方法虽然取得了巨大的成就,但提取上述人工设计特征通常需要很强的先验知识和辅助数据,包括特定领域的知识和经验,而这些人工设计的特征具有有限的泛化能力[6]。因此,这些方法往往无法适应复杂城市环境下的建筑物信息提取。
随着计算机技术的飞速发展,近年来,深卷积神经网络(Deep Convolutional Neural Network,DCNN)在计算机视觉领域取得了良好的应用效 果[7]。相对于传统方法,DCNN具有强大的特征学习和表达能力,可完成复杂环境下的分割任务。建筑提取算法也从基于人工设计特征的传统方法转向基于学习特征的DCNN方法。其中,在传统DCNN基础上演变的全卷积神经网络(Fully Convolutional Network,FCN)成为主流的语义分割框架[8],它首次实现了端对端训练的语义分割网络,可直接为图像中的每个像素分配一个类别标签,而无需任何后期处理。因FCN在语义分割方面取得的成功,学者们提出了许多基于FCN的框架来提取建筑物信 息[9-12]。然而,由于FCN中连续的下采样和池化操作以及仅利用FCN中的高级语义特征,导致图像内容细节和空间位置信息的丢失,分割结果不够准确。针对这些问题,学者们提出了一些改进方法。
(1)充分利用FCN网络中的浅层和深层特征,提高网络特征表达能力。其中,UNet网络利用跳跃连接融合了深层特征和浅层特征,使得地物边界分割精度得到了提高[13]。基于UNet和残差网络,有学者提出了一种深度残差学习序列分割网络(SSNet),将跳跃连接和残差表示相结合,用于从图像中提取建筑物[14]。ResUNet-a是由Diakogiannis 等[15]提出,它以UNet为基础,结合残差连接模块、密集空间金字塔池化模块和多任务模块。上述方法提高了模型的特征表达能力,在大多数情况下都能取得较好的分割结果,但深度和浅层特征的融合程度不够充分。例如,在UNet体系结构中,只是从编码部分到解码部分的简单跳跃连接,以帮助恢复位置信息,缺少对融合特征的优化选择,有可能引入冗余信息或者噪声,降低分割精度。
(2)由于UNet仅利用卷积核提取特征,获取的感受野范围相对较小,在对大型建筑物进行提取的时候,容易出现空洞现象。为此,Zhang等[16]在FCN和VGG16网络的基础上,联合反池化、转置卷积和扩展卷积路径的初始模块作为解码部分,设计了用于图像语义分割的多尺度解码网络(MSDNet)。徐佳佳等[17]提出的PRCUnet模型将金字塔池化、残差结构以及卷积块注意力模块引入到UNet模型中以增强语义信息和细节信息,弥补UNet对小目标检测的欠缺。张玉鑫等[18]基于UNet和ResNet残差结构,设计了一种高分辨率遥感影像建筑物提取模型MPRSU-Net,其能够在保持高分辨率语义信息的同时,融入全局特征,从而改善大型建筑物存在的空洞、边缘不完整问题。Rastogi等[19]提出了UNet-AP模型,采用带上采样滤波器的空洞卷积进行特征提取,以增强图像中不同尺度对象的表示,用于从超高分辨率遥感卫星图像中准确提取建筑物信息。唐璎等[20]提出了一种基于特征增强和激活函数ELU的建筑物提取神经网络,模型加入基于空洞卷积的特征增强结构,实现多尺度特征的获取,保留特征图的详细信息。Liu等[21]将USPP框架用于在高分辨率遥感影像上构建分割模型,该框架能够在多个空间尺度上提取特征,同时通过合并空间金字塔池模块对特征地图进行上采样,以学习全局上下文信息。这些模型试图提取和融合网络中的多尺度特征,但为了降低模型的复杂度或提高模型的效率,多尺度特征提取模块主要在网络的解码部分进行。因此,多尺度特征的提取是不够的,例如,缺乏对网络提取的特征图进行细化以减少负面特征信息,在编码阶段融合深层和浅层特征,以及从输入图像中直接提取多尺度特征等。
(3)由于CNN中的多次池化操作易造成空间信息丢失,这将导致小型的建筑物漏检、边界模糊等现象。为了解决这些问题,可通过引入边界信息或后处理技术。Wei等[22]提出了一种用于自动提取建筑的深度神经网络框架,其中通过多尺度聚合FCN对初始分割结果并执行多边形正则化,以获得多边形化地图。为了降低噪声和锐化建筑物边界,Shrestha等[23]设计了一种改进的FCN,用于从图像中提取建筑物,其中采用了基于条件随机场进行了的后处理优化。为了从图像中提取具有精确边界的建筑物,Yuan[24]使用符号距离函数作为输出表示,已达到对网络预测结果中建筑物边界的优化。为了提高边缘的检测精度,PEGNet结合了空洞卷积模块和边缘区域检测模块[25]。基于多任务学习和密集D-LinkNet,Xia等[26]提出了一种CNN框架,该框架采用全尺度跳跃连接和边缘引导模块,用于提高建筑物的定位精度。为了克服从图像中提取建筑物边界精度的限制,Sun等[27]将主动轮廓模型和CNN相结合,利用遥感影像和激光雷达数据提取精确的建筑物。然而,上述大多数模型需要更精确的边界信息、辅助数据或复杂的结构。此外,后处理也会降低模型的性能。
上述网络模型在建筑物提取中取得了显著的成就,但依然存在以下不足:① 提取细节特征的能力不足,易出现漏检、误检和边界模糊情况;② 模型对全局特征描述(感受野)不够,容易出现空洞现象;③ 针对不同尺度和不同形状的建筑物,对多尺度信息表达能力不够,算法的鲁棒性有待于提高。因此从图像中准确提取建筑物仍然是一个挑战。受注意机制、多任务学习和上述构建精确边界提取问题的启发,本文将以UNet网络为基础,设计了高分辨率遥感影像建筑物提取网络MAEU-CNN。模型中设计了更有效的多尺度特征提取策略、多尺度特征增强模块、特征融合和边界约束机制,有效地解决了上述问题,提高了建筑物提取精度。在ISPRS Vaihingen语义标记数据集和WHU航空影像数据集上进行了验证,结果表明本文所提出的方法提取的建筑物结构完整、边界清晰,较其他几种主流方法泛化能力更强,精度更高。

2 研究方法

本文所设计的MAEU-CNN建筑物提取网络框架如图1所示,该网络框架以UNet网络为基本框架,设计了多尺度影像数据输入与特征提取模块、多尺度特征增强模块、多尺度特征数据融合模块及边界约束模块4个模块。具体过程如下:
图1 基于MAEU-CNN的建筑物提取网络框架

Fig. 1 The Framework of MAEU-CNN for building extraction

(1)在模型的编码部分,对输入图像进行3种不同尺度的预处理,并将其输入到MAEU-CNN的相应特征提取部分以增强多尺度特征的提取。
(2)为进一步增强网络的多尺度特征表达能力,在模型编码和解码之间设计了一个多尺度特征增强模块(Multiscale Feature Enhancement Module (MFEM)),通过注入具有多尺度空洞卷积的多级联分支来捕获更广泛和更深的语义特征。
(3)在模型的解码部分,融合不同层次特征图进行跳跃连接时,加入了双重注意力机制,使得其可以根据不同层次特征图以及特征图不同位置的重要程度设置适当的权重,从而实现自适应选择具有代表性的特征进行融合与表达,以提高特征描述的准确性。
(4)为进一步解决MAEU-CNN中的卷积和池化操作而导致的建筑物边界模糊问题,将通过多任务学习方法,使用自定义的距离类别图将建筑物边缘信息嵌入到MAEU-CNN网络中优化分割结果,从而生成具有精确边界的细粒度建筑物分割结果。

2.1 影像多尺度特征提取与融合模块

从遥感图像中提取具有可分性和和代表性的建筑物特征对于精确提取建筑物信息至关重要。众所周知,影像中的建筑物分布具有空间结构复杂、尺度变化大和背景复杂等特点,对于尺寸较小的建筑物,一般在一个较小的影像块(感受野)中可反映出来,而对于大型建筑物则需要较大的影像块才能反映出来。即网络中感受野需要根据建筑物的大小进行调整,以达到提取多尺度建筑物特征信息的目的。传统的UNet网络框架在编码部分主要是通过逐层的卷积和池化操作对每一个级联块的特征图进行下采样,在输出特征图尺寸收缩的同时,增加特征图的通道,最终得到不同层次(尺度)的特征信息。但是,连续的池化和卷积会导致部分空间信息的丢失。为弥补这一缺点,本文所设计的MAEU-CNN建筑物提取框架在编码部分的浅层部分加入了不同尺度的原始影像特征信息,并分层地进行建筑物多特征提取与特征融合。如图1所示,每张输入影像被预处理成 3个不同尺度的影像,分别记作:1x(原始影像)、0.5x(通过1/2下采样)和0.25x(通过1/4下采样)。具体特征提取融合过程如下:1x通过2个CBR模块和一次最大池化操作,再经过2个CBR模块操作得到尺寸为原始图像1/2的特征图,同时0.5x经过两次CBR模块运算,将结果与1x得到的尺寸为1/2的特征图精细空间叠加得到新的特征图,然后经过一个1×1的卷积进行通道数调整来提高模型运算效率,然后再进行池化和2次CBR操作得到尺寸为原始图像 1/4的特征图,与此同时,将与0.25x经过2次CBR模块操作得到的特征进行融合作为下一层的输入特征。通过以上操作使得高级别的特征在解码器中保留更多空间信息以提高图像分割的性能。

2.2 多尺度特征增强模块

在MAEU-CNN的编码部分,通过在编码过程中采用连续的3×3卷积和池化操作来捕获多尺度特征,但在池化过程中会损失很多语义和和几何信息。而且,最终得到特征图尺寸仅为原始影像的 1/16,对于大尺寸的建筑物的特征提取还是不够。空洞卷积的提出能很好地解决该问题。空洞卷积可在不增加网络参数和不降低图像分辨率的前提下有效增加卷积的感受野。图2(a)为3×3卷积核的普通卷积;图2(b)为空洞率为3的空洞卷积,其效果和尺寸为7×7卷积核的感受野相同,但在图中只有红色点参与卷积计算,其他部分不参与计算; 图2(c)为空洞率为5的空洞卷积,感受野大小为11×11,也是只有红色点参与卷积计算,可以发现,空洞卷积可在不增加卷积网络参数的情况下增大感受野,同时有效降低空间信息的损失。可以通过设置不同空洞率(Rate),得到不同感受野,获取多尺度信息以捕捉多尺度上下文信息。
图2 核尺寸为3×3的不同空洞率的空洞卷积

注:只有红色点参与卷积计算。

Fig. 2 Atrous convolutions with 3×3 kernel and different rates

在空洞卷积和Inception-ResNet-V2的启发下,本文提出了多尺度特征增强模块(MFEM)来增强高级语义特征的表达。如图3所示,空洞卷积以级联的方式堆叠。在本文所提出的MFEM中含有5个级联分支,其中前4个是为了提取多尺度目标特征信息,分别使用不同的空洞卷积数量得到4个不同分支的感受野分别为3×3、9×7、7×9和13×13,类似于Inception结构。同时为了防止多个卷积堆叠在网络训练过程中出现梯度消失以及级联的空洞卷积带来网格效应影响分割结果,设计了一个类似残差映射的第 5个分支。一般来说,大感受野的卷积可以为大目标提取和生成更抽象的特征,而小感受野的卷积对于小目标更好。通过组合不同扩张率的空洞卷积,因此,MFEM模块能够提取具有各尺度目标的特征。
图3 多尺度特征增强模块

Fig. 3 Multiscale feature enhancement module

2.3 多尺度特征解析模块

在特征解码器模块中,为了恢复在特征提取过程中丢失的空间信息,传统的方法一般是通过融合编码模块的浅层特征以补救由于连续池化和卷积操作而导致的信息丢失。但由于不同层次特征之间的语义差距,有可能引入冗余信息或者噪声,降低分割精度。其原因主要就是不同层级的特征图经历的卷积及非线性激活的次数不同,因此它们的表示能力并不相同。为了加强不同层级特征图之间的语义一致性,本文将利用注意力机制在通道和空间两个维度优化融合后的特征,增强浅层特征图中与深层特征图一致的部分,抑制其他不必要的特征表达和噪声。如图4所示,深层特征XH通过上采样到与浅层特征XL相同尺度,然后进行叠加,为减少浅层特征与对应深层的语义鸿沟,通过本文所设计的双重注意力模块得到空间及通道优化后的特征,再经过2次CBR操作,最终得到融合后的特征图XA
图4 多尺度特征深度融合模块

Fig. 4 Multiscale feature fusion module

本模块中所设计的双重注意力模块如图5所示,将融合后的浅层和深层特征F作为双重注意力模块的输入,然后分别通过通道注意力和空间注意力模块,同时为了增强模型的拟合能力,对原始特征图增加了残差连接来提高网络的拟合能力,生成最终的优化特征S。
图5 双重注意力模块

Fig. 5 Dual attention module

(1)通道注意力模块
通道注意力利用特征图的通道之间的相关性,在网络学习的过程中筛选对提取结果有用的通道。首先,为了避免空间位置上信息的干扰以及降低计算量,采用平均池化和最大池化来压缩空间信息,然后分别通过多层感知器(MLP)得到2个特征向量,最后通过聚合这2个特征并利用Sigmoid函数进行归一化之后就可以得到通道注意力权重向量,将其与原始的特征图进行相乘就可以得到通道注意力增强后的特征图。通道注意力的加权过程为:
C = F σ ( M L P ( P a ( F ) ) + M L P ( P m ( F ) ) )
式中:F代表浅层和深层特征融合后的特征图; σ代表Sigmoid函数; P a P m分别代表平均池化和最大池化;MLP为多层感知器。
(2)空间注意力模块
与通道注意力相反,空间注意力则只关注特征图空间位置之间的相关性,在网络的学习过程中对每一个空间位置进行加权。相似的,为了避免通道上的冗余信息的影响,首先对特征图的通道维度进行最大值压缩与平均值压缩。将2种方式得到的特征图进行叠加后通过大核的7×7卷积,在经过Sigmoid函数归一化之后就可以得到空间注意力权重向量,将其与输入的特征图进行相乘之后就得到空间注意力增强后的特征图。空间注意力的加权过程为:
S ' = C σ ( C o n v 7 × 7 ( C o n c a t ( M C S ( C ) , A S C ( C ) ) )
式中: C代表通道注意力增强后的特征图; σ代表Sigmoid函数;MCS和ACS分别代表最大值通道压缩和平均值通道压缩; C o n v 7 × 7代表 7 × 7卷积;Concat代表通道维度的叠加。
最后,为了避免在学习过程中出现梯度消失、梯度爆炸等情况以及提升网络的拟合能力,我们在注意力模块的基础上引入了残差连接:
S = S ' + F

2.4 边界约束模块

在本文所提出的在MAEU-CNN的特征编码部分,采取了多次池化操作,这样通常会引起空间信息的损失,对最终的建筑物分割结果有较大影响,容易产生边界模糊效应。为了解决这个问题,通过多任务学习,使用自定义的距离类图将建筑物边缘信息合并到所提出的网络中,以提高建筑物边界提取的精度。如图1所示,在MAEU-CNN特征输出层添加2-个卷积层 L D C L S e g,其中 L D C主要用于预测各像素到建筑物边缘像素的距离类别, L S e g用于预测建筑物的分割结果。因此,通过多任务学习,所提出的MAEU-CNN既能具有建筑物语义分割功能之外,还能在训练过程中赋予所提取的建筑物边界信息的几何属性。
通常,有2种常见的方法可将建筑物的几何特性融入到网络中进行训练,即建筑区域图和建筑物边界图(图6(a)—图6(c))。实际上,这2种方法都有各自的优缺点。例如,基于边界图的训练,由于影像的空间分辨率、光谱变化和噪声像素,以及边缘像素一般仅占据一幅图像的很小部分等问题,网络很难生成精确的闭合轮廓,从而很好地拟合建筑物的边界。此外,边界图也无法判断像素是否位于建筑物内部或外部。而使用建筑物区域图进行训练可以解决以上问题,获得较好的结果,但建筑物区域图不能很好地表达相邻建筑物的边界相对关系及形状等信息。为了解决上述问题,本文将利用定义的距离类别图来表示建筑物的几何特征并加入到网络中进行训练,在所定义的距离类别图中包含了每个像素和边界像素之间的最近距离。使用该几何信息具有以下优点:距离类别图可以从直接从建筑物标签数据中通过距离变化和类别划分获取;使用距离类别所设计的损失函数,计算方便,可以从网络学习中学习到图像中每个像素与边缘位置信息关系以表示其几何属性。下面将详细介绍距离等级图的定义。
图6 建筑的不同表达形式

Fig. 6 Different representations of building

首先,符号距离对每个一个像素与边界像素之间的最近距离进行加权处理,正符号距离函数表示像素位于建筑物内部,负符号距离函数表示像素位于建筑物外部。为了便于训练,一个像素和边界像素之间的最近距离用某个阈值进行截断,从而得到最终截断符号距离函数:
D i s t ( i ) = δ d m i n ( m i n j X d ( i , j ) , T )
式中: i表示图像中某个像素; j表示图像中的边界像素; X表示图像中的所有边界像素集合; d ( i , j )表示像素 i到边界像素 j之间的欧式距离; m i n d ( i , j )表示像素 i到所有边界像素的最小距离; T是一个截断阈值。 δ d是一个符号函数,用于指示像素位于建筑物内部或外部,当值为1时,像素位于建筑物内部,当值为-1时,像素位于建筑物外部。本文中,为了便于网络训练,我们以相等的间隔将连续截断的有符号距离统一量化到有限的类数,产生距离类别图。如图6(d)所示,不同的数字表示从像素到边界的不同截断符号距离。其距离越大说明该像素越不属于边界像素,值越小说明该像素属于边界像素的可能性越大。在这种情况下,边界预测就变成了多标签分割任务。因为每个像素的类都是根据距离类别图通过其符号距离值获取,而不是原始粗略标签值(例如,建筑(1)和非建筑(0))进行标记的。将距离类别图融合网络中进行训练使得所设计的网络将分割结果进行划分成不同的空间关系区域(依据符号距离划分),从而最大限度保留建筑物的边界信息。

2.5 损失函数

为了得到具有精确边界的建筑物语义分割结果,本文将使用混合损失函数来训练网络,如式(5)所示。
L T o t a l = L S e g + α L D C
式中: L D C L S e g分别表示用于预测建筑物边界及语义分割结果的分类损失函数; α表示相应的任务权重,本文将其值设置为0.4; L D C L S e g都是基于标准的交叉熵损失函数来定义。

3 实验结果与分析

3.1 数据集

为验证MAEU-CNN的性能,在实验中使用了 2种不同的建筑物分割数据集合,即ISPRS Vaihingen语义标记数据集( https://www2.isprs.org/commissions/comm2/wg4/benchmark/2d-sem-label-vaihingen/)和WHU航空影像数据集( http://study.rsgis.whu.edu.cn/pages/download/)。
(1) ISPRS Vaihingen语义标记数据集
该数据集[28]由33个大小不同的经正射校正图像块组成,每个图像块由3个波段组成:近红外、红色和绿色,地面样本分辨率为0.09 m。在实验中,17块图像作为训练集,并以步幅为256将这些图像随机裁剪成固定大小为512像素×512像素的图像用于训练,剩下的16块图像用于验证。此外,该数据集包括5类:不透水表面、建筑物、低植被、树木和汽车。此处仅使用建筑类别,部分裁剪图像的示例如图7所示。
图7 ISPRS Vaihingen语义标记竞赛数据集(部分样本)

Fig. 7 Samples of the ISPRS Vaihingen semantic labeling contest data set

(2)WHU航空影像数据集
WHU数据集[9]包含2部分:航空影像子数据集和卫星影像子数据集。在实验中,仅使用航空图像数据集。该数据集覆盖新西兰Christchurch大约450 km2地区,数据集中包括约22万栋独立建筑。航空图像的原始地面分辨率为0.3 m。数据集中的图像被裁剪为512像素×512像素大小的图像块。所有裁剪后的图像被分成4736幅训练集、2416幅测试集和1036幅验证集数据。部分裁剪图像的示例如图8所示。
图8 WHU航空影像数据集(部分样本)

Fig. 8 Samples of the WHU aerial image data set

此外,对比图7图8,可以发现,在ISPRS数据集中,由于分辨率高,每个建筑物占据了较大的面积,使得每个图像块包含的建筑物很少。而在WHU数据集中,由于分辨率较低,每栋建筑占用的面积较小,使得每个图像块包含的建筑物较多。也就是说,与WHU数据集相比,ISPRS数据集中的建筑尺度更大。这2组数据在一定程度上代表了不同尺度的建筑分布情况。因此,使用这2种数据集在一定程度上可以测试和评估所提出模型MAEU-CNN在不同尺度建筑物提取性能。

3.2 实验环境设置

在实验中,所有网络使用相同的设置:MAEU-CNN中采用Adam优化器进行优化,初始学习率为0.0001,批处理数量为5,每50次epoch将学习率降低0.5倍。在WHU数据集上执行100次训练,而在小训练样本的Vaihingen数据集上执行300次训练,具体情况如表1所示。此外,分割损失和距离类损失同样设置为标准交叉熵损失函数。所有网络均使用Pytorch 1.2.0和python 3.7.9执行,并使用单个GPU Tesla P100 16 GB进行训练。
表1 超参数设置

Tab. 1 Hyper parameter configuration

参数 WHU数据集 Vaihingen数据集
优化器 Adam Adam
损失函数 标准交叉熵损失函数 标准交叉熵损失函数
训练次数 100 300
批次大小 5 5
初始学习率 0.0001 0.0001
学习率衰减 0.5倍/50次 0.5倍/50次
此外,需要在网络培训前需要生成距离分类图,在所有实验中,如图6所示,基于地面建筑物真值样本,通过Canny边缘检测算子生成建筑物边界图。然后,对于每个建筑物区域,使用式(4)计算每个像素的截断符号距离。最后,为了便于训练,将截短符号距离描述的每个建筑物面片分为11类,即距离类别图(图6(d))。特别是,在我们的实验中,通过在区间[10,40]中重复测试,最终得到最佳截断阈值为20,并且通过在区间[5,30]中重复测试,得到最佳将截断符号距离类数设置为11。

3.3 精度评价指标

本文采用召回率(Recall)、精度(Precision)、F1分数和交叉比(IoU)4个指标来评价建筑物提取的精度。其中,召回率是指预测正确的建筑物像素数量所占真实的建筑物像素的比例,精度是指预测正确的建筑物像素数量所占预测的建筑物像素数量的比例,F1分数综合考虑了精度和召回率的比例,IoU是指预测的建筑物像素数量与真实的建筑物像素的交集和并集的比值,所使用的4个指标定义如下:
r e c a l l = T P T P + F N
p r e c i s i o n = T P T P + F P
F 1 = 2 × p r e c i s i o n × r e c a l l p r e c i s i o n + r e c a l l
I o U = T P T P + F P + F N
式中:TP为真实建筑物像素被预测为建筑物的数量;TN为背景像素被预测为建筑物的数量;FP为背景像素被预测为建筑物的数量;FN为真实建筑物像素被预测为背景像素的数量。

3.4 实验结果分析

本实验中将本文的方法与UNet、UNet++、PSPNet和HRNetV2提取的建筑物的性能进行对比分析,其中,UNet和UNet++使用了默认的设置,PSPNet的基本框架设置为50层的ResNet,HRNetV2使用了W48版本。最后,为进一步了解和验证所提出的MAEU-CNN模型的性能,我们进行了消融实验。

3.4.1 ISPRS Vaihingen语义标记数据集实验结果分析

图9给出了在ISPRS Vaihingen数据集上,本文方法与UNet、UNet++、PSPNet和HRNetV2提取的建筑物的部分可视化结果。从图9中的UNet和UNet++分割结果中可以发现UNet和UNet++建筑物提取中存在部分空洞,其原因如下:由于UNet和UNet++仅利用卷积核提取特征,而且最终得到特征图尺寸仅为原始影像的1/16,所以获取的感受野范围相对较小,在对大型建筑物进行提取的时候,容易出现空洞现象。而图9中PSPNet和HRNetV2分割结果中的空洞现象不明显,其主要原因为:PSPNet加入了金字塔池化,感受野范围增大,HRNetV2通过深度卷积,也可使得其感受野增大,这两种方法在一定程度上弥补大型建筑物出现空洞的现象。而本文所提出的方法MAEU-CNN中加入了多尺度特征增强模块(MFEM)来增强高级语义特征的表达。空洞卷积以级联的方式堆叠,通过组合不同扩张率的空洞卷积,MFEM块能够提取具有各尺寸目标的特征,所以在图9中MAEU-CNN的分割结果中基本没有空洞现象。从图9中的5幅图像的分类结果可以看出,UNet、UNet++、PSPNet和HRNetV2都存在错分和漏分的情况,其中UNet和UNet++尤为严重,原因是这2种方法仅利用卷积核去提取特征导致其提取的特征尺度及高级语义信息不够丰富,PSPNet和HRNetV2通过不同的方法提取了高级语义信息并丰富了多尺度信息,所以结果相对好些,但PSPNet多尺度池化会造成空间信息损失,HRNetV2中第一步进行4倍的下采样及深度卷积都会造成空间信息的损失。本文所提出的MAEU-CNN方法通过加入了3个模块(多尺度影像输入、多尺度特征增强和双重注意力模块),不仅增强了其多尺度和高级语义信息的表达能力,并可抑制其他不必要的特征表达和噪声,所以在其分割结果中,错分和漏分的情况较少。再者,可以发现在图9中列举的各种分割结果中,UNet、UNet++、PSPNet和HRNetV2所提取的建筑物边界都相对模糊,而在MAEU-CNN的提取结果中,建筑物边界相对精确。其原因是前4种方法中存在大量的卷积和池化操作,这样会造成空间信息的损失,就算进行了特征融合,效果有所改善,但依然存在边界模糊的情况,因为在融合过程中没有进行选择,由于不同层次特征之间的语义差距,有可能引入冗余信息或者噪声,降低分割精度。而在MAEU-CNN中,为了加强不同层级特征图之间的语义一致性,利用注意力机制在通道和空间2个维度优化浅层特征,增强浅层特征图中与深层特征图一致的部分,抑制其他不必要的特征表达和噪声,再通过多任务学习机制将建筑物边界几何属性融入到网络中,对最终的提取结果进行了优化,从而得到较为精确的建筑物边缘。
图9 在ISPRS Vaihingen数据集上各种方法的建筑物提取结果

注:红圈为区别比较大的区域。

Fig. 9 Visualization results of building extraction based on different methods using the ISPRS Vaihingen semantic labeling data set

在ISPRS Vaihingen数据集上对各种方法的提取结果进行了定量评价,结果如表2所示。从表2可以看出:与其他方法相比,本文所提出的MAEU-CNN在精度、F1分数和IoU指标中获得了最高精度,分别达到了93.4%、93.62%和88.01%,与UNet、UNet++、PSPNet和HRNetV2相比IoU分别提高了2.47%、1.15%、0.88%和0.11%,在精度上分别提高了0.32%、1.32%、0.19%和0.37%。
表2 ISPRS Vaihingen数据集上各种方法精度对比

Tab. 2 Quantitative comparison of precisions of different methods on the ISPRS Vaihingen data set

方法 精度/% 召回率/% F1分数/% IoU/%
UNet 93.12 91.31 92.21 85.54
UNet++ 92.12 93.83 92.97 86.86
PSPNet 93.25 92.98 93.12 87.13
HRNetV2 93.07 94.07 93.56 87.91
MAEU-CNN 93.44 93.81 93.62 88.01

3.4.2 WHU航空影像数据集实验结果分析

UNet、UNet++、PSPNet、HRNetvV2和本文的MAEU-CNN在WHU航空影像数据集上提取的建筑物部分可视化结果如图10所示。可以发现,相对于ISPRS Vaihingen数据集中的建筑物尺度,本数据集中的建筑尺寸较小,可以说明本文所提出的方法在不同尺度建筑物上的性能。从第1行数据中我们可以看出,UNet、UNet++、PSPNet和HRNetV2的错分现象特别严重,特别是对于颜色和纹理相似的地面和建筑物像素,存在很多地面错误识别成建筑物,而本文的MAEU-CNN能够较为准确地区分颜色和纹理相近的地面及建筑物。此外在第2行至第5行中,影像中颜色不一致的建筑物,UNet、UNet++、PSPNet和HRNetV2的漏分现象较严重,把很多建筑物错误分成了背景,而本文方法可以准确地进行提取,表明本文方法较其他方法更能够获取丰富的上下文信息。再者,通过观察发现,上述5幅影像中,本文的MAEU-CNN方法提取的建筑物边界最为准确合理。总体来说,UNet的提取效果最差,因为此方法仅使用普通卷积去获取多尺度特征,虽然进行了跳跃连接以弥补空间信息的损失,但它没有考虑不同层级特征图之间的语义一致性。UNet++在UNet基础上加入了深监督,在一定程度上弥补了多尺度特征不丰富及空间信息损失,得到了相对较高的分割精度,但过多的连接会引入冗余信息或者噪声,降低分割精度。PSPNet引入了金字塔池化丰富了多尺度特征和语义信息,提高分割结果的精度,但同时也引入了不必要的特征表达和噪声。HRNetV2通过深度卷积及连续特征融合,提高了其语义表达能力,但大量的卷积也引入了空间特征信息的损失,造成所提取的建筑物边界的模糊。本文所提出的MAEU-CNN方法在编码、解码及最终的损失函数部分都加入相应的改进措施,增强了其多尺度和高级语义信息的表达能力,并对最终的输出结果进行了边界约束,最后得到了具有较精确边界的建筑物,提取结果优于其他几种方法。
图10 在WHU航空影像数据集上各种方法的建筑物提取结果

Fig. 10 Visualization results of building extraction based on different methods using the WHU aerial image data set

表3给出给出了上述方法在WHU数据集上的提取结果定量评价结果。由表3可以看出,与UNet、UNet++、PSPNet和HRNetV2相比,本文所提出的在召回率、F1分数和IoU指标中获得了最高精度,分别达到了95.45%、95.58%和91.54%,相应的IoU分别提高了3.39%、1.18%、1.82%和0.6%。
表3 WHU航空影像数据集上各种方法精度对比

Tab. 3 Quantitative comparison of precisions of different methods on the WHU aerial image data set (%)

方法 精度 召回率 F1分数 IoU
UNet 92.72 94.71 93.70 88.15
UNet++ 95.23 94.64 94.94 90.36
PSPNet 94.94 94.23 94.58 89.72
HRNetV2 96.53 94.01 95.26 90.94
MAEU-CNN 95.73 95.45 95.58 91.54
综上,从图9图10可以得出结论,无论是WHU数据集中密集和小规模的建筑物分布需要更小和更窄的感受野,还是ISPRS数据集中稀疏和大规模的建筑物分布需要更大和更宽的感受野,MAEU-CNN模型对在不同尺度和不同分布下可以准确提取的建筑信息具有很好的鲁棒性。从表1表2的定量评价结果也得出了本文提出的MAEU-CNN相比其他4中方法具有较高的提取精度。总之,从目视和定量评价上均验证了本文方法的优越性,表明了MAEU-CNN在UNet框架基础上加入的几个模块使得模型能够更好地提取建筑物多尺度特征及语义信息,特别是建筑物的边缘细节信息。

3.4.3 消融实验

为进一步地了解MAEU-CNN的性能,对模型中加入的各子模块进行试验和精度评价,分别分析了UNet、UNet + Attention(双重注意力)、UNet + Attention + MF(多尺度影像输入)、UNet + Attention + MF + MFEM(多尺度特征增强)和UNet + Attention + MF + MFEM + ECM(边界约束)(MAEU-CNN)在ISPRS数据集和WHU数据集分类效果。表4给出了在ISPRS Vaihingen数据集上的消融实验结果,相对于基础框架UNet,各种加入了子模块后的模型在IoU上分别提高了1.52%、1.88%、2.31%和2.47%,其中加入双重注意力模块的效果最好,达到1.52%,其次为加入多尺度特征增强模块、多尺度影像输入和边界约束模块,分别提高了0.43%、0.36%和0.16%。从表5中也可发现相同的规律,加入各子模块后在IoU上分别提高了1.62%、2.63%、3.27%和3.39%。各子模块的效果排序为加入双重注意力模块、多尺度特征增强模块、多尺度影像输入和边界约束模块,分别达到了1.62%、1.01%、0.64%和0.12%。加入边界约束模块效果最不明显的原因如下:边界约束主要是对最终的建筑物提取模块进行优化,而建筑物的边界像素占整幅影像的总像素个数相对比例较小,所以这部分像素的正确分类与否对精度数值影响很小,但从视觉角度来说,其大大提高了建筑的边缘精度。
表4 MAEU-CNN在ISPRS Vaihingen数据集上的消融实验

Tab. 4 Ablation experiment of MAEU-CNN with the ISPRS Vaihingen data set (%)

方法 精度 召回率 F1分数 IoU
UNet 93.12 91.31 92.21 85.54
UNet + Attention 92.42 93.76 93.08 87.06
UNet + Attention + MF 93.15 93.43 93.29 87.42
UNet + Attention + MF+ MFEM 92.80 94.29 93.53 87.85
UNet + Attention+ MF + MFEM + ECM(MAEU-CNN) 93.44 93.81 93.62 88.01
表5 MAEU-CNN在WHU航空影像数据集上的消融实验

Tab. 5 Ablation experiment of MAEU-CNN with the WHU aerial image data set (%)

方法 精度 召回率 F1分数 IoU
UNet 92.71 94.71 93.70 88.15
UNet + Attention 94.30 94.92 94.61 89.77
UNet + Attention + MF 95.55 94.78 95.18 90.78
UNet + Attention + MF+ MFEM 95.80 95.25 95.52 91.42
UNet + Attention + MF + MFEM + ECM(MAEU-CNN) 95.73 95.45 95.58 91.54

4 结论

针对高分辨遥感影像建筑物自动提取精度低以及容易出现边界模糊、空洞现象、错分和漏分等问题,本文提出一种MAEU-CNN模型用于高分辨率影像建筑物提取。MAEU-CNN是一种端到端的编码器-解码器神经网络模型,为提高模型对影像中多尺度上下文信息及建筑物边界的提取能力,引入了多尺度数据增强模块、双重注意力模块和边界约束模块。本文提出的模型在ISPRS Vaihingen语义标记数据集和WHU航空影像数据集2种不同尺度建筑物数据集上进行了验证,并与几种经典的网络模型进行了对比分析,结果表明:
(1)在MAEU-CNN中引入多尺度特征输入模块,通过对原始图像进行预处理得到不同尺寸图像,然后分别进行特征提取,其结果分别与编码部分相应层次的特征进行融合以减少空间信息的损失。
(2)MAEU-CNN中的多尺度增强模块通过级联的方式堆叠空洞卷积,并设计了一个类似残差映射,可达到和增强对建筑物不同尺度特征及高级语义信息的提取。
(3)在模型的跳跃连接时引入了本文设计的双重注意力模块,可在通道和空间2个维度优化高低层融合后的特征,增强特征中有用的信息表达,抑制其他不必要的特征表达和噪声,提高特征表达的准确性。
(4)模型通过引入多任务学习,将建筑物的边界几何信息融合网络中以优化提取的建筑边界,最终获得具有较高精度边界信息的建筑物信息。
(5)在ISPRS Vaihingen语义标记数据集上,MAEU-CNN在精度、F1分数和IoU指标中获得了最高精度,分别达到了93.4%、93.62%和88.01%,与UNet、UNet++、PSPNet和HRNetV2相比IoU分别提高了2.47%、1.15%、0.88%和0.11%,在精度上分别提高了0.32%、1.32%、0.19%和0.37%。在WHU航空影像数据集上,与UNet、UNet++、PSPNet和HRNetV2相比,MAEU-CNN在召回率、F1分数和IoU指标中获得了最高精度,分别达到了95.45%、95.58%和91.54%,相应的IoU分别提高了3.39%、1.18%、1.82%和0.6%。表明本文所提出的方法相对其他几种方法具有更高的IoU和更精确的边界信息,且对于不同尺度和场景的建筑物都能得到较好的分割结果,具有较好的泛化能力。
本文所提出的方法能够较好提取遥感影像中的建筑物信息,但需要大量的训练样本,模型的训练时间较长,参数量较大。模型需要对输入图像进行处理得到多个尺寸的输入影像,也会增加训练时间成本。再者,本文方法是基于像素级别的建筑物提取,结果会存在一些漏分及误分建筑物像素,如何将面向对象思想引入到模型中,将建筑物实体作为对象进行整体分类。这些需要进一步研究。
[1]
Wang J, Yang X C, Qin X B, et al. An efficient approach for automatic rectangular building extraction from very high-resolution optical satellite imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(3):487-491. DOI: 10.1109/LGRS.2014.2347332

DOI

[2]
Sirmacek B, Unsalan C. Urban-area and building detection using SIFT key points and graph theory[J]. IEEE Transactions on Geoscience and Remote Sensing, 2009, 47(4):1156-1167. DOI: 10.1109/TGRS.2008.2008440

DOI

[3]
Huang X, Zhang L P. Morphological building/shadow index for building extraction from high-resolution imagery over urban areas[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2012, 5(1):161-172. DOI: 10.1109/JSTARS.2011.2168195

DOI

[4]
Li E, Xu S B, Meng W L, et al. Building extraction from remotely sensed images by integrating saliency cue[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(3):906-919. DOI: 10.1109/JSTARS.2016.2603184

DOI

[5]
Du S H, Zhang F L, Zhang X Y. Semantic classification of urban buildings combining VHR image and GIS data: An improved random forest approach[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 105:107-119. DOI: 10.1016/j.isprsjprs.2015.03.011

DOI

[6]
Shi Y L, Li Q Y, Zhu X X. Building segmentation through a gated graph convolutional neural network with deep structured feature embedding[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 159:184-197. DOI: 10.1016/j.isprsjprs.2019.11.004

DOI

[7]
Zhu X X, Tuia D, Mou L C, et al. Deep learning in remote sensing: A comprehensive review and list of resources[J]. IEEE Geoscience and Remote Sensing Magazine, 2017, 5(4):8-36. DOI: 10.1109/MGRS.2017.2762307

DOI

[8]
Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015, 1:3431-3440. DOI: 10.1109/CVPR.2015.7298965

DOI

[9]
Ji S P, Wei S Q, Lu M. Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(1):574-596. DOI: 10.1109/TGRS.2018.2858817

DOI

[10]
Yi Y N, Zhang Z J, Zhang W C, et al. Semantic segmentation of urban buildings from VHR remote sensing imagery using a deep convolutional neural network[J]. Remote Sensing, 2019, 10(15):1774-1792. DOI: 10.3390/rs11151774

DOI

[11]
Xia L G, Zhang X B, Zhang J X, et al. Building extraction from very-high-resolution remote sensing images using semi-supervised semantic edge detection[J]. Remote Sensing, 2021, 13(11):2187-2206. DOI: 10.3390/rs13112187

DOI

[12]
Liu Y Y, Chen D Y, Ma A L, et al. Multiscale U-shaped CNN building instance extraction framework with edge constraint for high-spatial-resolution remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(7):6106-6120. DOI: 10.1109/TGRS.2020.3022410

DOI

[13]
Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C]// International Conference on Medical image computing and computer assisted intervention. Springer, Cham, 2015:234-241. DOI: 10.1007/978-3-319-24574-4_28

DOI

[14]
Liu J Y, Wang S S, Hou X W, et al. A deep residual learning serial segmentation network for extracting buildings from remote sensing imagery[J]. International Journal of Remote Sensing, 2020, 41(14):5573-5587. DOI: 10.1080/01431161.2020.1734251

DOI

[15]
Diakogiannis F I, Waldner F, Caccetta P, et al. ResUNet-a: A deep learning framework for semantic segmentation of remotely sensed data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 162:94-114. DOI: 10.1016/j.isprsjprs.2020.01.013

DOI

[16]
Zhang X Q, Xiao Z H, Li D Y, et al. Semantic segmentation of remote sensing images using multiscale decoding network[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(9):1492-1496. DOI: 10.1109/LGRS.2019.2901592

DOI

[17]
徐佳伟, 刘伟, 单浩宇, 等. 基于PRCUnet的高分遥感影像建筑物提取[J]. 地球信息科学学报, 2021, 23(10):1838-1849.

DOI

[ Xu J W, Liu W, Shan H Y, et al. High-resolution remote sensing image building extraction based on PRCUnet[J]. Journal of Geo-information Science, 2021, 23(10):1838-1849. ] DOI: 10.12082/dqxxkx.2021.210283

DOI

[18]
张玉鑫, 颜青松, 邓非. 高分辨率遥感影像建筑物提取多路径RSU网络法[J]. 测绘学报, 2021, 50(10):1-10.

[ Zhang Y X, Yan Q S, Deng F. Multi-path RSUnetwork method for high-resolution remote sensing image building extraction[J]. Acta Geodaetica Sinica, 2021, 50(10):1-10. ] DOI: 10.11947/j.AGCS.2021.20200508

DOI

[19]
Rastogi K, Bodani B, Sharma S A. Automatic building footprint extraction from very high-resolution imagery using deep learning techniques[J]. Geocarto International [online]. DOI: 10.1080/10106049.2020.1778100

DOI

[20]
唐璎, 刘正军, 杨懿, 等. 基于特征增强和ELU的神经网络建筑物提取研究[J]. 地球信息科学学报, 2021, 23(4):692-709.

DOI

[ Tang Y, Liu Z J, Yang Y, et al. Research on building extraction based on neural network with feature enhancement and ELU activation function[J]. Journal of Geo-information Science, 2021, 23(4):692-709. ] DOI: 1 0.12082/dqxxkx.2021.200130

DOI

[21]
Liu Y H, Gross L, Li Z Q, et al. Automatic building extraction on high-resolution remote sensing imagery using deep convolutional encoder-decoder with spatial pyramid pooling[J]. IEEE Access, 2019, 7:128774-128786. DOI: 10.1109/ACCESS.2019.2940527

DOI

[22]
Wei S Q, Ji S P, Lu M. Toward automatic building footprint delineation from aerial images using CNN and regularization[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(3):2178-2189. DOI: 10.1109/TG RS.2019.2954461

DOI

[23]
Shrestha S, Vanneschi L. Improved fully convolutional network with conditional random fields for building extraction[J]. Remote Sensing, 2018, 10(7):1135-1155. DOI: 10.3390/rs10071135

DOI

[24]
Yuan J Y. Learning building extraction in aerial scenes with convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(11):2793-2798. DOI: 10.1109/TPAMI.2017.2750680

DOI

[25]
Pan S M, Tao Y L, Nie C C, et al. PEGNet: Progressive edge guidance network for semantic segmentation of remote sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(4):637-641. DOI: 10.1109/LGRS.2020.2983464

DOI

[26]
Xia L G, Zhang J X, Zhang X B, et al. Precise extraction of buildings from high-resolution remote sensing images based on semantic edges and segmentation[J]. Remote Sensing, 2021, 13(16):3083-3104. DOI: 10.3390/rs13163083

DOI

[27]
Sun Y, Zhang X C, Zhao X Y, et al. Extracting building boundaries from high resolution optical images and LiDAR data by integrating the convolutional neural network and the active contour model[J]. Remote Sensing, 2018, 10(9):1459. DOI: 10.3390/rs10091459

DOI

[28]
Vaihingen 2D Semantic Labeling-ISPRS. [Online]. Available:http://www2.isprs.org/commissions/comm3/wg4/semantic-labeling.html

文章导航

/