遥感科学与应用技术

融合网格注意力阀门和特征金字塔结构的高分辨率遥感影像建筑物提取

  • 于明洋 , 1 ,
  • 陈肖娴 1 ,
  • 张文焯 1 ,
  • 刘耀辉 , 1, 2, 3, *
展开
  • 1.山东建筑大学测绘地理信息学院,济南 250101
  • 2.河北省地震动力学重点实验室,三河 065201
  • 3.山东科技大学测绘与空间信息学院,青岛 266590
* 刘耀辉(1991— ),男,山东海阳人,博士,讲师,主要从事遥感大数据与模式识别、灾害管理等研究。 E-mail:

于明洋(1978— ),男,山东东阿人,硕士,副教授,主要从事地理信息工程研发、深度学习和大数据分析研究。 E-mail:

收稿日期: 2021-09-06

  修回日期: 2021-10-16

  网络出版日期: 2022-11-25

基金资助

国家自然科学基金项目(41801308)

河北省地震动力学重点实验室开放基金项目(FZ212203)

山东省自然科学基金项目(ZR2021QD074)

国家对地观测科学数据中心开放基金项目(NODAOP2020008)

Building Extraction on High-Resolution Remote Sensing Images Using Attention Gates and Feature Pyramid Structure

  • YU Mingyang , 1 ,
  • CHEN Xiaoxian 1 ,
  • ZHANG Wenzhuo 1 ,
  • LIU Yaohui , 1, 2, 3, *
Expand
  • 1. School of Surveying and Geo-Informatics, Shandong Jianzhu University, Jinan 250101, China
  • 2. Hebei Key Laboratory of Earthquake Dynamics, Sanhe 065201, China
  • 3. College of Geodesy and Geomatics, Shandong University of Science and Technology, Qingdao 266590, China
* LIU Yaohui, E-mail:

Received date: 2021-09-06

  Revised date: 2021-10-16

  Online published: 2022-11-25

Supported by

National Natural Science Foundation of China(41801308)

Hebei Key Laboratory of Earthquake Dynamics,(FZ212203)

Natural Science Foundation of Shandong Province(ZR2021QD074)

Open Research Fund of National Earth Observation Data Center(NODAOP2020008)

摘要

在高分辨率遥感影像中提取建筑物轮廓是地区基础建设信息统计的一项重要任务。适应性较强的深度学习方法已在建筑物提取研究中取得较大进展,受网络模型对影像特征表达的局限性,存在局部建筑轮廓边缘模糊的问题。本研究提出一种基于注意力的U型特征金字塔网络(AFP-Net)可以聚焦高分遥感影像中不同形态的建筑物结构,实现建筑物轮廓的高效提取。AFP-Net模型通过基于网格的注意力阀门Attention Gates模块抑制输入影像中的无关区域,凸出影像中建筑物的显性特征;通过特征金字塔注意力Feature Pyramid Attention模块增加高维特征图的感受野,减少采样中的细节损失。基于WHU建筑物数据集训练优化AFP-Net模型,测试结果表明AFP-Net模型能够较清晰地识别出建筑物轮廓,在预测性能上有更好的目视效果,在测试结果的总体精度和交并比上较U-Net模型分别提高0.67%和1.34%。结果表明,AFP-Net模型实现了高分遥感影像中建筑物提取的结果精度及预测性能的有效提升。

本文引用格式

于明洋 , 陈肖娴 , 张文焯 , 刘耀辉 . 融合网格注意力阀门和特征金字塔结构的高分辨率遥感影像建筑物提取[J]. 地球信息科学学报, 2022 , 24(9) : 1785 -1802 . DOI: 10.12082/dqxxkx.2022.210571

Abstract

Building extraction from high-resolution remote sensing images is an important task of regional infrastructure information statistics. In recent years, due to the rapid development of aviation and aerospace science and technology, the data availability of fine resolution remote sensing images increases. The traditional methods such as manual visual interpretation or expert feature construction cannot balance the high efficiency and high precision for the results generation using high-resolution images. Nowadays, the adaptive deep learning method has gradually made great progress in the study of building extraction. Typically, the U-shaped U-Net network originated from the semantic segmentation model for medical images has been widely used. Its structure has good computational performance and segmentation accuracy and has been used as the basic structure of semantic segmentation for remote sensing images. However, the use of only the basic network model has limitations on the expression of image features, which could cause blurring of local building contour when extracting buildings from high-resolution remote sensing images. This paper proposes an Attention U Feature Pyramid Network (AFP-Net) that can focus on different forms of building structures in high-resolution remote sensing images to efficiently extract the details of buildings. The AFP-Net model suppresses the irrelevant areas in the input image through the grid-based Attention Gates (AGs) module and highlights the dominant features of buildings in the image. The Feature Pyramid Attention (FPA) module increases the receptive field of high dimensional feature map and reduces the loss of detail in sampling. In this paper, the AFP-Net model is trained and optimized based on WHU building dataset. The test results show that, compared with U-Net, the accuracy and Intersection over Union of the proposed method are improved by 0.67 % and 1.34 %, respectively using the test data of WHU dataset. In addition, this paper compares the detailed features of different models for convex and concave parts of the building contour, and the AFP-Net model can clearly identify the edge of the building. The results demonstrate that the proposed method can effectively improve the prediction accuracy of building detail extraction.

1 引言

建筑物作为城市及乡村区域的不动产资源,在区域建设规划、地区人口预估、经济发展评估及地形图制作和更新等方面具有重要意义[1-2]。随着卫星传感器技术的发展,遥感影像的成像质量和空间分辨率不断提高。如何自动、准确、有效地从影像中提取建筑物信息逐渐成为了攻关难题[3]。当前,遥感影像建筑物自动提取的方法主要包括两类, ①运用数学和形态学知识通过人工设计提取目标特征的方法; ②基于深度学习技术自动提取目标特征的方法[4]
人工手动设计特征的主要原理是利用遥感影像中建筑物的纹理、光谱、形状、几何、阴影和上下文等信息,通过专业知识手动筛选、设计构建出可有效表征建筑特征的算法,完成建筑物的提取。Lin与Nevatia[5]最先通过边缘检测算法检测建筑物的屋顶、墙壁和阴影,但该方法受建筑阴影所在位置的影响较大,建筑物的提取精度有待进一步提高;黄金库等[6]通过知识规则算法先对影像预处理,再运用3种数字化方法将建筑物的形状规则化得到建筑物轮廓的提取结果,该方法的过程较复杂,需要经验丰富的专家经验辅助设计算法;方鑫等[7]通过阴影和建筑物的空间位置关系构建筛选条件,先过滤出疑似建筑物的区域,再通过“图割算法”来精确提取建筑物轮廓,该方法仅通过建筑物与其他地物的位置关系构建算法但未充分利用影像的光谱、纹理等特征。因此,基于手工特征的传统方法通常需要先验知识,适用于解决特定的任务,难以广泛应用于建筑物的自动识别。
近年来,随着计算机运算性能和计算速度的提高以及可用于深度学习网络训练的公共数据集数目的增多,深度学习特别是卷积神经网络(Convolutional Neural Network, CNN)有了更广泛、深入的发展,AlexNet、VGG、GoogLeNet和ResNet等传统的CNN网络[8-12]已经在图像分类任务中取得巨大的成功。在2014年,通过上采样层替换CNN中的全连接层而提出的全卷积神经网络(Fully Convolutional Neural Network, FCN)框架[13],可适应对原始图像的每个像素进行预测,以完成图像语义分割的任务,成为很多经典分割网络的范式,包括FCN8s[13]、SegNet[14]、U-Net[15]和DeepLab[16]系列等网络。同时,这些基于FCN的模型及其变体也广泛应用于遥感影像处理的目标提取、图像分类、变化检测和土地覆盖分类等任务中。比如,在遥感影像中、小尺度目标的高精度分类任务中,Lv等[17]利用SEEDS-CNN模型和尺度有效性分析的方法;Chen等[18]应用多尺度CNN和尺度参数估计的方法完成了土地覆被的高准确率分类的任务;Zhang等[19]使用融合OCNN模型,将光谱模式、几何特征和对象级上下文特征等信息进行融合,利用多类特征识别出高分辨率图像中的目标。
关于建筑物轮廓提取的语义分割,学者们已提出许多基于FCN的方法[20-23]。针对遥感影像中建筑物具有多样性的类别、各种规则和不规则的形状、高大植被的遮挡及易混淆的背景等特点[24],近年来学者们设计了很多方法来实现建筑物轮廓的“端到端”提取。谢跃辉等[25]结合局部二值模式表达的纹理特征和高斯金字塔提取的尺度特征构建模型的训练样本,使用SegNet网络进行样本训练,通过SoftMax分类器完成建筑物粗提取,与传统的建筑物提取方法相比,使用的经典SegNet模型取得了较高精度和有效的提取结果。刘亦凡等[26]利用残差网络和U-Net结合的深度残差网络Res-UNet进行建筑物像素级特征提取,再通过后处理进一步提高建筑物的完整性,该方法通过改善模型结构和后处理步骤提高了建筑物提取的精度,但增加了建筑物提取的复杂度。在DR-Net中[27],将基于DeepLabv3+网络的ResNet结构和密集连接的CNN相结合,将具有高空间分辨率的特征在解码器中融合,以补偿由于卷积操作造成的建筑边界内详细信息损失的问题。与传统的U-Net相比,Guo等[28]提出的基于U-Net的多损失神经网络AMUNet模型,通过注意力模块提高模型的灵敏度,抑制不相关特征区域背景的影响。Zhang等[29]将CNN与边缘检测算法融合,改进Mask R-CNN进行位置近似化和像素分类,再使用Sobel边缘检测算法进行语义分割。然而,部分深度学习模型通过增加网络参数和复杂化网络结构来提高结果的准确性,导致计算成本较高和运行速度较慢。
为解决模型层数叠加、参数累积造成的运算成本增大的问题,研究人员尝试简化模型的复杂度,提出了一些基于CNN的轻量化模型。Liu等[4]提出包括具有非对称卷积残差块的ARC-Net网络,以降低计算成本和模型大小。Yang等[30]通过使用轻量级的DenseNet和空间注意力融合模块提出密集注意力网络,可以有效地利用高级特征信息来抑制低级特征和噪声。Ye等[31]研究发现,直接通过跳跃连接将特征传递到解码器会导致计算性能下降,基于此提出基于注意力重新加权的RFU-Net。Jin等[32]研究一个边界感知细化网络,该网络由门控注意细化融合单元、密集的空洞空间金字塔池化模块和边界感知损失组成,以解决边界信息缺失的问题。尽管上述方法进行建筑物提取具有一定的优势,但仍需要进一步改善: ①建筑物的类内差异较高以及建筑物与其他非建筑物对象间的类间差异较低; ②建筑物在许多复杂场景下具有尺度不变性,造成小尺度或者形状不规则的建筑物易存在无法识别及提取不完整的问题。
用于建筑物提取的深度学习架构中,已存在多种结构块对网络的性能和精度进行完善。然而,存在结构较复杂的网络,占用过多的计算和内存资源。在高分辨率遥感影像中存在各种形状、纹理和大小与建筑物相似的物体,增大了建筑物提取的难度。为进一步提升高分辨率遥感影像建筑物提取的结果精度和稳定性,更准确地优化建筑物边界,本研究提出了高分辨率遥感影像建筑物提取模型AFP-Net。该模型将基于网格的注意力阀门模块和特征金字塔注意力模块集成于U型网络,可以增强网络对建筑物特征的学习。针对小尺度和不规则建筑物有效特征不明显的问题,该模型通过基于网格的注意力阀门模块抑制输入影像中的无关区域,凸显影像中建筑物的有效特征;针对建筑物漏检、错检的问题,该模型融合了可增加高维特征图感受野的特征金字塔注意力模块,以减少采样中的细节损失进而提升建筑物提取的效果。为了验证本模型的有效性,AFP-Net基于WHU数据集进行优化并训练,与具有经典对称结构特征的FCN8s[33]、SegNet[14]、PSPNet[34]、U-Net[15]模型以及集合通道注意力机制和位置注意力机制的DANet[35]模型分别进行遥感影像建筑物自动化提取的测试实验,在预测精度、参数量、训练耗时等方面进行了对比分析。

2 研究方法

高分辨率遥感影像具有地物类别众多、地面背景复杂、数据信息繁复等特征,很多不同的目标会出现一定的相似性,使得分割目标区域的边界模糊并产生“噪声”[36]。通过充分研究应用于高分辨率遥感影像处理的深度学习模型,本研究提出了在高性能的U型结构上融入基于网格的注意力阀门(AGs)模块和特征金字塔注意力(FPA)模块的基于注意力的U型特征金字塔网络(Attention U Feature Pyramid Network, AFP-Net)。本文的技术路线如图1所示。
图1 本研究技术路线

Fig. 1 The technical route of this research

2.1 AFP-Net模型架构

AFP-Net模型如图2所示,是在一个标准U型架构上添加AGs模块和FPA模块构建而成的注意力控制的空间金字塔模型,从一端的影像输入到另一端直接输出建筑物的提取结果,体现出深度学习“端到端”的特点。由4个注意力阀门组成的AGs模块有利于在图像多尺度特征提取任务中突出目标的有效特征并抑制冗余的无效信息,FPA模块能够在高维特征图中增加感受野有利于充分提取小目标的特征。AFP-Net模型集成U型结构、AGs和FPA三者的优势,在低维尺度上捕获上下文的广域信息,提取影像全局性粗尺度的特征,在高维尺度中提取图像抽象性细层次的特征,通过AGs突出特征图中建筑物的位置和边界。网格化、多尺度提取的特征图则通过“跳跃连接”接入解码器,将粗层次和细层次的密集建筑物特征图融合。AFP-Net架构分为三部分:
图2 AFP-Net的组成部分及模型结构

Fig. 2 The component and model structure of AFP-Net

(1)编码器。由4个卷积块组成,可以利用全局和局部上下文信息提取不同层级的特征(xi表示第i层特征)。每个卷积块包括2个卷积层(Convolutional Layer, Conv)、2个标准化层(Batch Normalization Layer, BN)和2个ReLU激活函数层,模型中的最大池化层(Maxpool Layer, Maxpool)可提取特征图中局部区域的最大值并重组为新的特征图。
(2)转换器。由4个“跳跃连接”中的AG和FPA模块组成。FPA为解决编码器中高维度抽象特征图中特征损失的问题,由多尺度的特征金字塔融入自注意力机制,在高维特征中提取精确的像素级注意力,将特征图的通道数叠加到1024、尺寸缩小到16×16,提取最高维度的抽象特征图。串入“跳跃连接”的AGs筛选出低维特征图中有利于提取建筑物的特征点,过滤并抑制无关的特征和节点。四个AG在从低到高的四个不同网格维度层级中,全方面、多维度地提取有效特征。转换器将编码器和解码器对应的特征图连通,一定程度上解决了反向传播梯度消失的问题。
(3)解码器。自底层的高维特征图依次融入编码器中对应尺寸的特征图,通过卷积操作调整相应特征图的通道数,通过上采样扩大融合特征图的尺寸,依次逐步与多层级的特征图融合并恢复到原始输入图的大小。AFP-Net的具体参数如表1所示。
表1 AFP-Net的参数统计

Tab. 1 Parameter statistics of AFP-Net

结构块 类别 核尺寸 输出通道数 输出尺寸/pixel
Block 1-4 Conv1 (3, 3) 64 256×256
Maxpool1 (2, 2) 64 128×128
Conv2 (3, 3) 128 128×128
Maxpool2 (2, 2) 128 64×64
Conv3 (3, 3) 256 64×64
Maxpool3 (2, 2) 256 32×32
Conv4 (3, 3) 512 32×32
Maxpool4 (2, 2) 512 16×16
Block 5 PPM 1024 16×16
Block 6-9 Up_conv4 Up-(3, 3)
Conv-(2, 2)
512 32×32
AG4 512 32×32
Up4 512 32×32
Up_conv3 Up-(3, 3)
Conv-(2, 2)
256 64×64
AG3 256 64×64
Up3 256 64×64
Up_conv2 Up-(3, 3)
Conv-(2, 2)
128 128×128
AG2 512 128×128
Up2 512 128×128
Up_conv1 Up-(3, 3)
Conv-(2, 2)
64 256×256
AG 1 64 256×256
Up1 64 256×256
Block 10 Conv_1x1 (1, 1) 1 256×256
Sigmoid 1 256×256

2.2 注意力阀门模块

源自人类直觉的注意力机制(Attention Mechanism, AM)旨在选择对当前任务更关键的信息,已逐渐被广泛应用于各种序列学习任务[37]。注意力机制核心步骤包括:首先计算每个候选向量的重要性分数,然后将分数归一化为权重,最后将这些权重应用于候选向量生成注意力结果。许多注意力机制模型被应用到计算机视觉领域中,以优化特征提取过程[35-38]。本研究将注意力机制应用于遥感影像信息提取方面,构建最新的注意力模块,完成精细化提取高分辨率遥感影像中的建筑物。
AG最初用于机器翻译、图像解释[39-40]等领域,通过对不同局部的文字赋予不同权重的注意力来提升文字处理的效果。Oktay等[41]为解决分割方法中过度使用计算资源和模型参数的问题,提出注意力门专注于目标区域,抑制不相关区域的特征激活。用于图像解析的AG是一种通道选择机制[42-43],通过计算效率来模拟通道之间的关系,增强整个网络的特征提取能力以更有效地提取目标特征及构筑注意力图。基于此,受到CBAM[44]和SENet[45]的启发,本研究针对高分辨率遥感图像中密集建筑物的注意力机制[28],改进了AG中“重采样”的位置,以增强每个控制门对特征图中小型建筑物的敏感性。本研究的AG属于空间注意力的一种[46],使用了双重激活函数,在双分支特征图叠加后添加ReLU激活函数是为特征归一化,“重采样”将信号映射到一个F×H×W维度的空间,Sigmoid函数将输出图在通道域中进行压缩,产生空间注意力权重的映射图 S R 1 × H x × W x
AG的参数模块包括3部分:训练阀门控制系数的矩阵 W g、训练注意力系数的矩阵 W x以及连接两部分并调整输出通道数的偏置参数。在图3中,AG中设计的注意系数[47]α∈[0,1],用于识别目标图像区域并抑制无关的特征响应,以最大程度地保留并激活仅与建筑物相关的神经元。在AGs中 α i l对应于每个网格尺度上的一个向量,本研究在每个AG子模块中,“跳跃连接”的输出是提取注意力阀门特征后完成注意力计算的特征。为减少AGs中训练参数的数量和计算复杂度,本研究去掉线性变换(1×1×1卷积),通过下采样将输入特征映射到对应的维度上。
图3 Attention Gate模块的处理流程

Fig. 3 Process of Attention Gate module

编码器端的第i层特征图 x i l和解码器端对应的阀门控制向量gi为AG的输入特征图,通过反卷积对特征图进行系数“重采样”将它们映射到与系数矩阵相同的维度空间( F i n t × H x × W x)。在相同的维度上特征图与系数矩阵相乘后相加,再通过ReLU激活函数( σ 1 x i l = m a x ( 0 , x i l ))非线性化处理。将结果进行“重采样操作”为特征图提供更准确、更灵敏的门控信息,通过式(1)运算输出中间参数 q a g l
q a g l ( x i l , g i ; Θ a t t ) = ψ T σ 1 ( W x T x i l + W g T g i + b g ) + b ψ
Sigmoid激活函数( σ 2 ( x i , c = 1 1 + e x p ( - x i , c ) ))通过式(2)计算出注意系数 α i l
α i l = σ 2 q a g l ( x i l , g i ; Θ a t t )
式中:AG的特征是一组参数 Θ a t t包含:线性变换 W x R F l × F i n t, W g R F g × F i n t, ψ R F i n t × 1以及偏置参数 b ψ R, b g R F i n t; F i n t表示输入层。
编码器中输入的特征图和注意系数在像素级别的相乘为AG的输出: x ^ i l = x i l α i l,其中 x i l R F l, F l表示第l层的特征图。

2.3 FPA模块

编码器中逐层卷积到高维特征图时会损失原始像素级场景的上下文的空间分辨率,弱化模型对小型建筑物和建筑边缘的检测的能力[48]。浅层解码器的输出具有更细粒度的特征和更精确的定位,而深层解码器的输出具有更粗粒度的特征和更丰富的语义。在融合深、浅的两方面特征时,为抑制二者的语义差距和定位差异,本研究引入一种多维度自动通道选择的FPA模块作为连通编码器和解码器的“桥梁”:① 解决编码器中高维度抽象特征图中特征损失的问题;② 在高级特征中提取精确的像素级注意力。
为了解决多尺度对象存在的类别分类困难,PSPNet[34]或DeepLab[16]模型在不同的网格尺度或扩张率下执行空间金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)。在如图4(a)所示的ASPP模块中,扩张卷积的“稀疏计算”可能会导致局部信息丢失和网格伪影(原本被扫描地域中并不存在的地物而在图像的对应区域上却出现对象)[38]。在此基础上,改进的FPA模块通过金字塔结构的“V”形结构融合了3个不同尺度下的特征。考虑到高层特征图的分辨率较小且大内核的卷积计算负担较少,在金字塔尺度的选择中为了有效地从不同的金字塔尺度中提取上下文,FPA模块分别使用了3×3、5×5、7×7卷积。金字塔结构逐步整合不同尺度的信息,更精确地结合上下文特征的相邻尺度后,将编码器的原始特征再通过1×1卷积逐像素与金字塔注意力特征相乘。本研究的FPA模块如图4(b)引入了可以输出广域特征的全局平均池化分支,先对编码器输出的高维特征图进行全局平均池化操作获取全局性的高维特征,再通过1×1卷积和“上采样”调整通道数和特征图尺寸。FPA模块将全局平均池化分支的特征图与多尺度特征融合的特征图相加后输出,进一步提高FPA模块提取抽象特性的性能并减少有效特征的损失。
图4 金字塔结构与特征金字塔注意力模块结构

注:2×2、 4×4、 8×8、 16×16表示特征图的分辨率,虚线框表示全局池化的分支,蓝线和红线分别代表下采样和上采样,所有卷积层之后都进行批量归一化。

Fig. 4 Pyramid structure and feature pyramid attention module structure

2.4 U型架构中融入AGs与FPA模块

Ronneberger等[15]在全卷积神经网络的基础上提出编码和解码对称的U-Net网络。结构对称性使模型在编码器中进行上采样、在解码器中进行下采样且两部分的对应结构块数量相等,模型编解码之间通过“跳跃连接”进行特征传递。本研究借鉴U-Net网络的结构特征,构建了如图2中包括编码器、转换器和解码器的U型对称网络,将4个AG依次加入到转换器的多层“跳跃连接”中组成AGs,引入FPA模块将U型基础架构第5个结构块中的“Conv5”替换,用于对解码器中最高维度特征图的信息解析和损失特征弥合,将有效特征传入编码器。
本研究所提APF-Net将AGs与FPA模块集成至U型架构中,实现以相对少量的计算消耗提升模型的灵敏度和预测精度。网络的跳跃连接结合了收缩和扩展路径的良好特性,如表1所示加入的AGs模块由4个AG组成,4个AG位于编码器的前4个维度的特征图后,AG的输入是具有相同尺寸的ii=1、2、3、4)维特征图和i+1维特征图的上采样图。每个AG输出的特征图与解码器中对应结构块上采样的特征图融合再输入新的AG中,重复4次,直到AG输入了原始图像与2维特征图的上采样图并输出与原始图像相同尺寸的结果图。引入AGs有利于重点提取出多维度广域上的粗尺度特征,消除其中的无关信息和噪声响应的歧义信息。
表1所示FPA模块,在编码器和解码器之间的第5个结构块中,输入编码器中通道数为512、尺寸为16×16的最高维度的特征图,一方面在金字塔结构的3个不同尺度上提取3个高维特征并融合为512×16×16的特征图,另一方面在全局平均池化分支中通过全局平均池化、1×1卷积和上采样生成512×16×16的特征图,将2个特征图叠加输出尺寸为1024×16×16的结果特征图。FPA模块的结果特征图实现高维特征的传递,模型在解码器中继续特征解析。FPA模块对高维度的特征图的信息敏感,在多个尺度上获取抽象特征以弥合编码器中上采样造成的特征损失。同时,AGs与FPA在向前传播和反向传播中有针对性地过滤无需激活的神经元,从背景区域开始的梯度在反向传播中不断向下加权,浅层的模型参数可以基于与建筑物提取任务相关的空间区域不断进行更新。

3 实验数据集和评价标准

3.1 实验数据集

WHU建筑物数据集[40]由航空数据集和卫星数据集组成,本研究使用其中的航空影像数据集,来自新西兰土地信息服务网站( http://gpcv.whu.edu.cn/data/building_dataset.html),覆盖地面450 km2的土地,影像的地面分辨率为0.3 m,选取克赖斯特彻奇地区大约2.2万栋独立建筑。在航空影像数据集中,有8189幅像素为512×512的高分辨率遥感影像。本研究使用Python中的PIL模块,将原始数据通过随机旋转扩充至11 642幅影像,并将样本分为训练集(8679幅)、验证集(1927幅)和测试集(1036幅)。图5(a)和图5(b)展示的是数据集中原始影像的图像和标签,图5(c)和图5(d)展示的是随机旋转后的图像和标签。
图5 WHU数据集的原始影像和标签及旋转后的影像和标签

注:黑色的代表背景,红色的代表建筑物。

Fig. 5 The original image and label of WHU dataset and the rotated image and label

Massachusetts建筑物数据集[49]由训练集、测试集和验证集组成,该数据集由137张训练图像、4张验证图像和10张测试图像组成,单张图像的尺寸为1500像素×1500像素,空间分辨率为1 m,覆盖美国波士顿市区和郊区2.25 km2的表面。每张图像为对训练模型的精度和效果进行验证,本研究选取Massachusetts建筑物数据集中的3张图像进行测试,将测试图片的尺寸裁剪为512像素×512像素,测试结果在4.2.2节。用OA表示正确分类的像素数与测试像素总数之比;Precision表示正确分类为正的像素数在所有预测为正的像素数的百分比;IoU描述分段级的准确性,具体公式如下:
O A = T P + T N T P + T N + F P + F N
P r e c i s i o n = T P T P + F P
I o U = T P T P + F P + F N
式中:TP表示正确的正例;FP表示错误的正例;FN表示错误的负例;TN表示正确的负例。

3.2 模型性能评价指标

本研究通过实验测试各个模型的有效性和准确性,将总体精度(Overall Accuracy, OA)、精密度(Precision)和交并比(Intersection over Union, IoU)作为模型性能评估的指标。

3.3 模型复杂度评价指标

本研究通过统计模型的参数量和计算量来评估模型的复杂度[42-43]。模型参数量(Params)是指定义模型所需参数的全部数量,即存储该模型所需的存储空间。模型的计算量是指特定量级的数据过一遍网络所需的计算量,即使用该模型时所需的计算力。参数量计算权重和偏置的权值个数之和,公式(6)用于卷积层上参数量的计算。
P a r a m s = ( K h × K w × C i n ) × C o u t × C o u t
式中: K h表示卷积核的长度; K w表示卷积核的宽度; C i n表示输入的通道数; C o u t表示输出通道数。
神经网络运算时存在大量的乘加运算,本研究应用“乘加运算指标”度量模型的计算量,一层卷积所需计算量的计算公式为该层的参数数目乘以该层输出特征图的尺寸。因此,一个3×3的卷积核在特征图上一次运算包括9次乘加,记为9 Mac,计算公式为:
y = w [ 0 ] × x [ 0 ] + w [ 1 ] × x [ 1 ] + w [ 2 ] × x [ 2 ] + + w [ 8 ] × x [ 8 ]

4 实验过程与结果

4.1 实验条件及配置

实验基于PyTorch深度学习框架,使用TorchVision、Scikit-Image、Matplotlib等开源Python库处理影像。计算机硬件中搭配显卡NVIDIA GeForce RTX 3070 Ti,8GB显存,CUDA 11.0用于加速计算。受计算机GPU内存的限制,本研究对数据增强处理后的全部图像随机裁剪为256×256像素,用于每个epoch的模型训练和交叉验证。
实验超参数设置过程中,本研究进行多次实验,选择AFP-Net模型训练中损失值最低的模型参数。另外5个对比模型的参数设置与本模型训练的超参数及软、硬件环境一致。模型训练使用初始学习率为0.0001的Adam优化器[50-51]。为了避免过拟合,在所有卷积中引入L2正则化,并设置权值衰减为0.0001[52-53]。为适应计算机GPU内存的限制,模型训练时每批次输入8幅图像,训练200个epoch。其中,AFP-Net的训练精度和损失值的变化情况如图6所示,训练200个epoch中模型精度在波动中逐渐收敛保持在0.95以上,在准确率增加的同时,损失值逐渐减少并趋于平稳。
图6 AFP-Net的训练精度和损失值的变化情况

Fig. 6 The change of training accuracy and loss value of AFP-Net

4.2 预测结果对比

4.2.1 小尺度生活区验证结果

为验证AFP-Net模型的建筑物提取效果,本研究基于WHU航空影像数据集,将SegNet、FCN8s、DANet、PSPNet和U-Net网络模型完成建筑物提取后的结果进行对比,如图7所示。相较于SegNet、FCN8s、DANet模型,U-Net和AFP-Net在测试数据上建筑物边缘的平滑性较好,AFP-Net提取的建筑物有更加准确的边缘,AGs和FPA模块可聚合有效特征有利于建筑物内部空洞现象减少。分析验证集中第一幅影像,选取影像左上角由紫色矩形框住的建筑物,计算资源占用最高的SegNet模型提取建筑物的完整性比FCN8s和DANet更好,U-Net模型提取建筑物有内部空洞化及边缘细碎模糊的问题,AFP-Net模型提取出建筑物轮廓的边缘较为流畅、准确且建筑物内部的完整性较高取得了最好的提取效果。
图7 FCN8s、SegNet、DANet、PSPNet、U-Net和AFP-Net模型在WHU数据集的验证集上的建筑物提取结果

注:框出的多边形内为重点描述的区域。

Fig. 7 Comparison of building results extracted from FCN8s, SegNet, DANet, PSPNet, U-Net and AFP-Net models on the validation set in the WHU dataset

验证集中的第二幅影像中选取由橘色框标选中的整栋建筑物,包括外延的凸局部和内陷的凹局部两处细节,SegNet模型预测图中未能完整地提取出建筑物的凸局部,在凹局部区域产生较大的空洞现象。FCN8s和DANet都未能准确提取出该建筑物凸局部的边界,对于凹局部特征区域FCN8s模型缺失的较少,相对表现出更好的预测效果。PSPNet模型在凸局部信息提取中连接性较差,在凹局部特征建筑物提取时轮廓边界较模糊、准确性较低。U-Net模型提取出建筑物凸局部信息,但在凹局部区域存在目标预测不完整的问题。AFP-Net模型较为准确地提取出凸局部和凹局部两处细节信息。根据测试集数据的整体分析,SegNet、FCN8s模型提取建筑物的完整性和边缘流畅度较低。在大量小型建筑物分散分布的第三幅影像中,只有AFP-Net的整体效果较好,较少有极细碎的局部图斑。因此,AFP-Net模型可提取出建筑物较准确的轮廓以及较完整的内部结构,与实验的其他模型相比具有最好的效果。
表2为各模型在总体精度、精密度和平均交并比上的结果对比,AFP-Net在总体精度和交并比两个指标上取得较好结果,尤其在交并比指标上本模型比SegNet模型提升8.45%,比FCN8s模型提升9.41%,比DANet模型提升11.83%,比PSPNet模型提升0.21%,比U-Net模型提升1.34%,总体提升效果显著。
表2 各模型定量指标的验证集精度统计

Tab. 2 Validation set precision statistics table of models quantitative indexes(%)

模型 总体精度 精密度 交并比
FCN8s 0.9574 0.9439 0.7857
SegNet 0.9487 0.9102 0.7761
DANet 0.9207 0.9555 0.7519
PSPNet 0.9661 0.9491 0.8681
U-Net 0.9601 0.9582 0.8568
AFP-Net 0.9668 0.9490 0.8702

4.2.2 大尺度复杂区验证结果

为验证本模型在其他数据集以及在大尺度复杂区域中的有效性,本研究将各个模型(由WHU数据集训练的SegNet、FCN8s、DANet、PSPNet、U-Net及AFP-Net模型)迁移到Massachusetts数据集上进行对比验证的实验,验证结果如图8所示。Massachusetts建筑物数据集中每张影像都覆盖了美国波士顿州25万m2的表面,覆盖的实地范围较大。其中,影像1和影像2中分布众多且形态复杂的建筑物,可用于测试其在大尺度复杂区的应用效果。影像3中建筑物分布集中且单个大型建筑物占主体,与大尺度复杂区做比对,验证已训练模型在大尺度简单区的应用效果及泛化能力[21]
图8 FCN8s、SegNet、DANet、PSPNet、U-Net和AFP-Net模型在Massachusetts数据集中建筑物提取的结果

Fig. 8 Comparison of building results extracted from FCN8s, SegNet, DANet, PSPNet, U-Net and AFP-Net models in Massachusetts dataset

整体分析可知:SegNet模型的预测效果最差,在复杂场景下提取小型建筑物目标时DANet模型的效果最好。对第3张影像中的大型建筑物提取时AFP-Net模型的效果最好,与U-Net和PSPNet模型相比,本模型在Massachusetts数据集的验证影像中的误检和漏检都有减少,在一定程度上提高了模型预测图的可视化效果。总体分析,在尺度复杂区域场景的遥感影像中提取建筑物目标时,DANet模型取得最好的提取效果和较高的泛化能力,而AFP-Net与U-Net和PSPNet等模型相比具有更好的效果。

5 讨论

5.1 模型复杂度对比

本研究按照3.3节中评估模型的复杂度的方法,在数据尺度为3×256×256的量级下,对各模型的计算量和参数量进行统计。本研究将模型训练一个epoch所需的平均时间作为衡量该模型训练而花费的时间成本,计算结果如表3所示,参数量最多的是FCN8s占134.27 M,AFP-Net模型的参数量在此五个模型中处于中等。FCN8s所需的计算量和训练时间也是最高的,AFP-Net模型的参数量为24.38 M,与U-Net和PSPNet的精度相比有一定提高,但每个epoch所需的训练时间分别增加83 s和70 s;与FCN8s和DANet相比,AFP-Net占用少量的参数量和计算量,在精度和交并比上有更好的效果。
表3 不同模型的参数量、计算量和训练时间的统计

Tab. 3 Statistical table of parameters, calculation and training time of six models

模型 参数量/M 计算量/(G Mac) 训练时间(s/epoch)
SegNet 16.31 23.77 222
FCN8s 134.27 62.81 393
DANet 49.48 10.93 335
PSPNet 31.2 11.03 225
U-Net 13.4 23.77 212
AFP-Net 27.95 48.76 295

注:加粗值为各列最优值。

同时,本研究统计AFP-Net模型自编码器、转换器到解码器中各结构块具有的参数量和消耗的计算量,结果如图9所示。转换器中的FPA与AGs的参数量之和为4.02 M,占总参数量的16.49%,计算量之和为1.70 G Mac,占总计算量的2.82%, 表明占用参数量约1/6的转换器仅占有很少的计算量(不到3%)。由图9(b)所示计算量主要消耗在编码器的上采样阶段,平均每次“上采样”消耗5.5 G Mac,占比10.90%,共有4次“上采样”占比超40%。本研究构建的基于网格AGs模块参数量共需0.35 M,仅占比1.44%,计算量消耗0.85 G Mac,占比1.74%。因此,AFP-Net模型中AGs与FPA模块通过少量资源占用和计算消耗提升模型对高分遥感影像中建筑物的提取精度和可视化效果。
图9 AFP-Net组成结构的参数量和计算量的统计

注:参数量单位为M;计算量单位为G Mac。外圈白色数据表示具体的值,内圈黑色数据表示对应的比例。

Fig. 9 Statistics of parameters and calculation of AFP-Net structure blocks

5.2 消融实验

本研究设置消融实验包括:①U型基础架构; ②仅加入AGs模块的AFP-Net;③仅加入FPA模块的AFP-Net;④加入AGs模块和FPA模块的AFP-Net。在4.1节中计算机软、硬件及超参数设置相同的条件下,将4个模型各自训练100个epoch,训练完成的4个模型在WHU建筑物数据集的验证集中选取3张影像验证,实验的精度和模型复杂度对比结果如表4所示。在总体精度和交并比上引入AGs和FPA模块的AFP-Net精度最高,因为U型基础架构中第5个结构块中“Conv5”的资源消耗大,在参数量、计算量和训练时间上只引入AGs的第2个模型的是最高的。在交并比精度上,本模型比U型基础架构、只引入AGs和只引入FPA的模型分别提高了7.76%、0.78%和3.01%。同时,通过FPA模块将仅加入AGs模块的AFP-Net中的“Conv5”替换,简化了参数量、减少了计算量和运算时间,在一定程度上提高了模型的精度和预测效果。
表4 模型实验结果对比

Tab. 4 Comparison of models' experiment results

模型 总体精度/% 精密度/% 交并比/% 参数量/M 计算量/(G Mac) 训练时间/(s/epoch)
U型基础架构 0.9410 0.9745 0.8336 34.53 50.65 312
AFP-Net (AGs) 0.9701 0.9616 0.9034 34.88 51.76 316
AFP-Net (FPA) 0.9613 0.9862 0.8811 27.6 47.65 287
AFP-Net (AGs + FPA) 0.9731 0.9723 0.9112 27.95 48.76 295

注:加粗值为各列最优值。

使用WHU数据集进行验证,结果如图10所示。整体分析第1、2张影像的结果图可知:相比前3个模型,本模型在密集分布的小型建筑物提取上呈现最好的可视化效果,影像中分散的细碎红色局部(误检建筑物)最少,小型建筑物的提取较完整。分析第3张影像可知:在影像上半部分并排分布的建筑物中,U型基础框架的网络未能精准地提取出并排分布建筑物的边界,加入AGs的模型通过注意力阀门有效提高了建筑物特征的获取进而提升建筑物边界提取的精确性,加入FPA的模型在一定程度上减少了建筑物边界外突出局部的误检,引入AGs和FPA 2个模块的本模型在提取建筑物精确边界和减少误检和漏检上均达到最好。
图10 模型消融实验中的建筑物提取结果

Fig. 10 Building Extraction Results in Model Ablation Experiment

6 结论

针对高分辨率遥感影像建筑物提取边缘模糊的问题,本研究提出一种集成注意力控制机制与特征金字塔的深度学习模型:AFP-Net。该模型是将基于网格的注意力阀门模块与特征金字塔注意模块集成到U型架构中,提高了模型对图像像素的敏感性。在WHU建筑物数据集上进行模型训练实验,在WHU和Massachusetts数据集上进行验证并与多个经典模型进行精度对比分析,结果显示在WHU验证集中AFP-Net与U-Net相比在总体精度和交并比上分别提高0.67%和1.34%,比DANet分别提高4.61%和11.83%,表明本方法在高分影像建筑物提取中的进步性和有效性。相关结论如下:
(1)将AGs与FPA模块集成至转换器中提升了AFP-Net模型的特征融合能力,有利于编码器更有效地提取建筑物轮廓信息。与SegNet、FCN8s、DANet、PSPNet和U-Net模型相比,AFP-Net可有效地减少建筑物边缘假阳性和假阴性像素的数目,较为精确地提取出建筑物。
(2)本研究提出了基于网格的控制门模块,使注意系数更具体地针对局部区域,实现了一个应用于遥感影像建筑物提取任务的前向CNN模型中注意机制的具体用例。转换器中共占用16.49%参数量的FPA与AGs模块,仅消耗2.82%的计算量。与U-Net相对,AFP-Net以少量计算量的增加,将总体精度和交并比分别提升了0.67%和1.34%。
(3)为验证本模型在其他数据集以及在大尺度复杂区域中的有效性,通过已训练的模型直接测试Massachusetts建筑物数据集,结果表明在预测的小型建筑物中DANet模型取得较好的结果、具有更好的泛化能力,而AFP-Net模型在大型建筑物的预测中获得较好的可视化效果。
在提升模型泛化能力上,下一步研究可以借鉴双通道注意力模型,将通道注意力模块和位置注意力模块进行有效融合。在完善模型结构上,将考虑与其他算法融合,进一步提升对稀疏建筑物的提取效果,并提升建筑物提取方法的适用性。
[1]
吴炜, 骆剑承, 沈占锋, 等. 光谱和形状特征相结合的高分辨率遥感图像的建筑物提取方法[J]. 武汉大学学报·信息科学版, 2012, 37(7):800-805.

[ Wu W, Luo J C, Shen Z F, et al. Building extraction from high resolution remote sensing imagery based on spatial-spectral method[J]. Geomatics and Information Science of Wuhan University, 2012, 37(7):800-805. ] DOI: 10.13203/j.whugis2012.07.022

DOI

[2]
Lunetta R S, Johnson D M, Lyon J G, et al. Impacts of imagery temporal frequency on land-cover change detection monitoring[J]. Remote Sensing of Environment, 2004, 89(4):444-454. DOI: 10.1016/j.rse.2003.10.022

DOI

[3]
杜培军, 夏俊士, 薛朝辉, 等. 高光谱遥感影像分类研究进展[J]. 遥感学报, 2016, 20(2):236-256.

[ Du P J, Xia J S, Xue Z H, et al. Review of hyperspectral remote sensing image classification[J]. Journal of Remote Sensing, 2016, 20(2):236-256. ] DOI: 10.11834/jrs.20165022

DOI

[4]
Liu Y H, Zhou J, Qi W H, et al. ARC-net: An efficient network for building extraction from high-resolution aerial images[J]. IEEE Access, 2020, 8:154997-155010. DOI: 10.1109/ACCESS.2020.3015701

DOI

[5]
Lin C G, Nevatia R. Building detection and description from a single intensity image[J]. Computer Vision and Image Understanding, 1998, 72(2):101-121. DOI: 10.1006/cviu.1998.0724

DOI

[6]
黄金库, 冯险峰, 徐秀莉, 等. 基于知识规则构建和形态学修复的建筑物提取研究[J]. 地理与地理信息科学, 2011, 27(4):28-31.

[ Huang J K, Feng X F, Xu X L, et al. A study of building extraction based on morphological rehabilitation and rule-oriented classification[J]. Geography and Geo-Information Science, 2011, 27(4):28-31. ]

[7]
方鑫, 陈善雄. 密集城区高分辨率遥感影像建筑物提取[J]. 测绘通报, 2019(4):79-83.

[ Fang X, Chen S X. High resolution remote sensing image building extraction in dense urban areas[J]. Bulletin of Surveying and Mapping, 2019(4):79-83. ] DOI: 10.13474/j.cnki.11-2246.2019.0117

DOI

[8]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2016:770-778. DOI: 10.1109/CVPR.2016.90

DOI

[9]
Huang G, Liu Z, van der Maaten L, et al. Densely connected convolutional networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2017:2261-2269. DOI: 10.1109/CVPR.2017.243

DOI

[10]
Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6):84-90. DOI: 10.1145/3065386

DOI

[11]
Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-ResNet and the impact of residual connections on learning[C]// AAAI'17:Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. 2017:4278-4284.

[12]
Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: arXiv: 1409.1556. https://arxiv.org/abs/1409.1556

[13]
Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation[C]// IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE,: 640-651. DOI: 10.1109/TPAMI.2016.2572683

DOI

[14]
Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12):2481-2495. DOI: 10.1109/TPAMI.2016.2644615

DOI PMID

[15]
Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[M]// Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015:234-241. DOI: 10.1007/978-3-319-24574-4_28

DOI

[16]
Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848. DOI: 10.1109/TPAMI.2017.2699184

DOI

[17]
Lv X W, Ming D P, Chen Y Y, et al. Very high resolution remote sensing image classification with SEEDS-CNN and scale effect analysis for superpixel CNN classification[J]. International Journal of Remote Sensing, 2019, 40(2):506-531. DOI: 10.1080/01431161.2018.1513666

DOI

[18]
Chen Y Y, Ming D P, Lv X W. Superpixel based land cover classification of VHR satellite image combining multi-scale CNN and scale parameter estimation[J]. Earth Science Informatics, 2019, 12(3):341-363. DOI: 10.1007/s12145-019-00383-2

DOI

[19]
Zhang C X, Yue P, Tapete D, et al. A multi-level context-guided classification method with object-based convolutional neural network for land cover classification using very high resolution remote sensing images[J]. International Journal of Applied Earth Observation and Geoinformation, 2020, 88:102086. DOI: 10.1016/j.jag.2020.102086

DOI

[20]
Chen S X, Shi W Z, Zhou M T, et al. Automatic building extraction via adaptive iterative segmentation with LiDAR data and high spatial resolution imagery fusion[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13:2081-2095. DOI: 10.1109/JSTARS.2020.2992298

DOI

[21]
陈凯强, 高鑫, 闫梦龙, 等. 基于编解码网络的航空影像像素级建筑物提取[J]. 遥感学报, 2020, 24(9):1134-1142.

[ Chen K Q, Gao X, Yan M L, et al. Building extraction in pixel level from aerial imagery with a deep encoder-decoder network[J]. Journal of Remote Sensing, 2020, 24(9):1134-1142. ]

[22]
Guo H N, Shi Q, Du B, et al. Scene-driven multitask parallel attention network for building extraction in high-resolution remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(5):4287-4306. DOI: 10.1109/TGRS.2020.3014312

DOI

[23]
朱盼盼, 李帅朋, 张立强, 等. 基于多任务学习的高分辨率遥感影像建筑提取[J]. 地球信息科学学报, 2021, 23(3):514-523.

DOI

[ Zhu P P, Li S P, Zhang L Q, et al. Multitask learning-based building extraction from high-resolution remote sensing images[J]. Journal of Geo-information Science, 2021, 23(3):514-523. ] DOI: 10.12082/dqxxkx.2021.190805

DOI

[24]
Alshehhi R, Marpu P R, Woon W L, et al. Simultaneous extraction of roads and buildings in remote sensing imagery with convolutional neural networks[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017, 130:139-149. DOI: 10.1016/j.isprsjprs.2017.05.002

DOI

[25]
谢跃辉, 李百寿, 刘聪娜. 结合多种影像特征与CNN的城市建筑物提取[J]. 遥感信息, 2020, 35(5):80-88.

[ Xie Y H, Li B S, Liu C N. Urban building extraction by combining multiple image features and CNN[J]. Remote Sensing Information, 2020, 35(5):80-88. ] DOI: 10.3969/j.issn.1000-3177.2020.05.010

DOI

[26]
刘亦凡, 张秋昭, 王光辉, 等. 利用深度残差网络的遥感影像建筑物提取[J]. 遥感信息, 2020, 35(2):59-64.

[ Liu Y F, Zhang Q Z, Wang G H, et al. Building extraction in remote sensing imagery based on deep residual network[J]. Remote Sensing Information, 2020, 35(2):59-64. ] DOI: 10.3969/j.issn.1000-3177.2020.02.010

DOI

[27]
Chen M, Wu J J, Liu L Z, et al. DR-net: An improved network for building extraction from high resolution remote sensing image[J]. Remote Sensing, 2021, 13(2):294. DOI: 10.3390/rs13020294

DOI

[28]
Guo M Q, Liu H, Xu Y Y, et al. Building extraction based on U-net with an attention block and multiple losses[J]. Remote Sensing, 2020, 12(9):1400. DOI: 10.3390/rs12091400

DOI

[29]
Zhang L L, Wu J S, Fan Y, et al. An efficient building extraction method from high spatial resolution remote sensing images based on improved mask R-CNN[J]. Sensors (Basel, Switzerland), 2020, 20(5):1465. DOI: 10.3390/s20051465

DOI

[30]
Yang H, Wu P H, Yao X D, et al. Building extraction in very high resolution imagery by dense-attention networks[J]. Remote Sensing, 2018, 10(11):1768. DOI: 10.3390/rs10111768

DOI

[31]
Ye Z R, Fu Y Y, Gan M Y, et al. Building extraction from very high resolution aerial imagery using joint attention deep neural network[J]. Remote Sensing, 2019, 11(24):2970. DOI: 10.3390/rs11242970

DOI

[32]
Jin Y W, Xu W B, Zhang C, et al. Boundary-aware refined network for automatic building extraction in very high-resolution urban aerial images[J]. Remote Sensing, 2021, 13(4):692. DOI: 10.3390/rs13040692

DOI

[33]
Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4):640-651. DOI: 10.1109/TPAMI.2016.2572683

DOI PMID

[34]
Zhao H S, Shi J P, Qi X J, et al. Pyramid scene parsing network[C]// 2017. IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2017:6230-6239. DOI: 10.1109/CVPR.2017.660

DOI

[35]
Fu J, Liu J, Tian H J, et al. Dual attention network for scene segmentation[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019:3141-3149. DOI: 10.1109/CVPR.2019.00326

DOI

[36]
唐璎, 刘正军, 杨懿, 等. 基于特征增强和ELU的神经网络建筑物提取研究[J]. 地球信息科学学报, 2021, 23(4):692-709.

DOI

[ Tang Y, Liu Z J, Yang Y, et al. Research on building extraction based on neural network with feature enhancement and ELU activation function[J]. Journal of Geo-Information Science, 2021, 23(4):692-709. ]

[37]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all You need[EB/OL]. 2017: arXiv: 1706.03762. https://arxiv.org/abs/1706.03762

[38]
Li H C, Xiong P F, An J, et al. Pyramid attention network for semantic segmentation[EB/OL]. 2018: arXiv: 1805. 10180. https://arxiv.org/abs/1805.10180

[39]
Zhao W, Ivanov I, Persello C, et al. Building outline delineation: From very high resolution remote sensing imagery to polygons with an improved end-to-end learning framework[J]. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2020,: 731-735. DOI: 10.5194/isprs-archives-xliii-b2-2020-731-2020

DOI

[40]
Ji S P, Wei S Q, Lu M. Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(1):574-586. DOI: 10.1109/TGRS.2018.2858817

DOI

[41]
Oktay O, Schlemper J, Folgoc L L, et al. Attention U-net: Learning where to look for the pancreas[EB/OL]. 2018: arXiv: 1804.03999. https://arxiv.org/abs/1804.03999

[42]
Sandler M, Howard A, Zhu M L, et al. MobileNetV2:inverted residuals and linear bottlenecks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:4510-4520. DOI: 10.1109/CVPR.2018.00474

DOI

[43]
Han S, Pool J, Tran J, et al. Learning both weights and connections for efficient neural networks[EB/OL]. 2015: arXiv: 1506.02626. https://arxiv.org/abs/1506.02626

[44]
Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018:3-19. DOI: 10.1007/978-3-030-01234-2_1

DOI

[45]
Hu J, Shen L, Albanie S, et al. Squeeze-and-excitation networks[C]// IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE,: 2011- 2023. DOI: 10.1109/TPAMI.2019.2913372

DOI

[46]
Guo M H, Xu T X, Liu J J, et al. Attention mechanisms in computer vision: A survey[EB/OL]. 2021: arXiv: 2111.07624. https://arxiv.org/abs/2111.07624

[47]
Shen Y, Fang Z J, Gao Y B, et al. Coronary arteries segmentation based on 3D FCN with attention gate and level set function[J]. IEEE Access, 2019, 7:42826-42835. DOI: 10.1109/ACCESS.2019.2908039

DOI

[48]
刘耀辉. 面向地震风险评估的高分辨率遥感影像建筑物信息提取与研究[D]. 北京: 中国地震局地质研究所, 2020.

[ Liu Y H. Extraction and research on building information from high-resolution remote sensing image for seismic risk assessment[D]. Beijing: Institute of Geology, China Earthquake Administration, 2020. ] DOI: 10.27489/d.cnki.gzdds.2020.000001

DOI

[49]
Mnih V. Machine Learning for Aerial Image Labeling[D]. Toronto: University of Toronto, Graduate Department of Computer Science, 2013.

[50]
Liu Y H, Gross L, Li Z Q, et al. Automatic building extraction on high-resolution remote sensing imagery using deep convolutional encoder-decoder with spatial pyramid pooling[J]. IEEE Access, 2019, 7:128774-128786. DOI: 10.1109/ACCESS.2019.2940527

DOI

[51]
Xing H Q, Zhu L Y, Feng Y Y, et al. An adaptive change threshold selection method based on land cover posterior probability and spatial neighborhood information[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14:11608-11621. DOI: 10.1109/JSTARS.2021.3124491

DOI

[52]
Dixit M, Chaurasia K, Mishra V K. Automatic building extraction from high-resolution satellite images using deep learning techniques[C]// Proceedings of the International Conference on Paradigms of Computing, Communication and Data Sciences. Singapore: Springer Singapore, 2021:773-783. DOI: 10.1007/978-981-15-7533-4_61

DOI

[53]
Xing H Q, Zhu L Y, Hou D Y, et al. Integrating change magnitude maps of spectrally enhanced multi-features for land cover change detection[J]. International Journal of Remote Sensing, 2021, 42(11):4284-4308. DOI: 10.1080/01431161.2021.1892860

DOI

文章导航

/