基于特征增强和ELU的神经网络建筑物提取研究

唐璎; 刘正军; 杨懿; 顾海燕; 杨树文

doi:10.12082/dqxxkx.2021.200130

地球信息科学学报 >

2021 , Vol. 23 >Issue 4: 692 - 709

DOI: https://doi.org/10.12082/dqxxkx.2021.200130

遥感科学与应用技术

基于特征增强和ELU的神经网络建筑物提取研究

唐璎 ¹^,²^,³^,⁴ ,
刘正军 ¹^,^* ,
杨懿 ¹ ,
顾海燕 ¹ ,
杨树文 ²^,³^,⁴

展开

1.中国测绘科学研究院摄影测量与遥感研究所,北京 100830
2.兰州交通大学测绘与地理信息学院,兰州 730070
3.地理国情监测技术应用国家地方联合工程研究中心,兰州 730070
4.甘肃省地理国情监测工程实验室,兰州 730070

*刘正军（1974— ）,男,湖南湘潭人,研究员,主要从事遥感影像信息提取与生态环境遥感监测、突发事件应急地理信息技术等研究。E-mail: zjliu@casm.ac.cn

收稿日期: 2020-03-21

要求修回日期: 2020-06-21

网络出版日期: 2021-06-25

基金资助

国家重点研发计划项目(2018YFB0504504)

国家自然科学基金项目(41701506、41371406)

中央级公益性科研院所基本科研业务费专项资金项目(AR1923)

版权

收起

Research on Building Extraction based on Neural Network with Feature Enhancement and ELU Activation Function

TANG Ying ¹^,²^,³^,⁴ ,
LIU Zhengjun ¹^,^* ,
YANG Yi ¹ ,
GU Haiyan ¹ ,
YANG Shuwen ²^,³^,⁴

Expand

1. Institute of Photogrammetry and Remote Sensing, Chinese Academy of Surveying and Mapping, Beijing 100830, China
2. Faculty of Geomatics, Lanzhou Jiaotong University, Lanzhou 730070, China
3. National-Local Joint Engineering Research Center of Technologies and Applications for National Geographic State Monitoring, Lanzhou 730070, China
4. Gansu Provincial Engineering Laboratory for National Geographic State Monitoring, Lanzhou 730070, China

*LIU Zhengjun, E-mail: zjliu@casm.ac.cn

Received date: 2020-03-21

Request revised date: 2020-06-21

Online published: 2021-06-25

Supported by

The National Key R&D Program of China, No.2018YFB0504504(2018YFB0504504)

N-ational Natural Science Foundation of China, No.41701506, 41371406(41701506、41371406)

Central Public-interest Scientific Institution Basal Research Fund, No.AR1923(AR1923)

Copyright

Fold

摘要

近年来,城市发展快速,大量人口奔向城市工作生活,城市建筑物的数量有如雨后春笋般扩张,需要合理地规划城市土地资源,遏制违规乱建现象,因此基于高分辨率遥感影像,对建筑物进行准确提取,对城市规划和管理有着重要辅助作用。本文基于U-Net网络模型,使用美国马萨诸塞州建筑物数据集,对网络模型结构进行探究,提出了一种激活函数为ELU、“编码器-特征增强-解码器”结构的网络模型FE-Net。实验首先通过比较不同网络层数的U-Net5、U-Net6、U-Net7的建筑物提取效果,找到最佳的基础网络模型U-Net6;其次,基于该模型,加入特征增强结构得到“U-Net6+ReLU+特征增强”的网络模型;最后,考虑到ReLU容易产生神经元死亡,为优化激活函数,将激活函数替换为ELU,从而得到网络模型FE-Net（U-Net6+ELU+特征增强）。比较3个网络模型（U-Net6+ReLU、U-Net6+ReLU+特征增强、FE-Net（U-Net6+ELU+特征增强））的建筑物提取结果,表明FE-Net网络模型的建筑物提取效果最好,精度放松F1值达到97.23%,比“U-Net6+ReLU”和“U-Net6+ReLU+特征增强”2个网络模型分别高出0.36%和0.12%,且与其他具有相同数据集的研究成果比较,具有最高的提取精度,它能较好地提取出多尺度的建筑物,不仅对小尺度建筑物有较好的提取效果,而且能大致、较完整地提取出形状不规则的建筑物,有相对更少的漏检和错检,较准确地实现了端到端的建筑物提取。

关键词： 高分辨率遥感影像; 卷积神经网络; 建筑物提取; 特征增强; 激活函数ELU; FE-Net网络模型; 端到端; 深度学习

本文引用格式

唐璎 , 刘正军 , 杨懿 , 顾海燕 , 杨树文 . 基于特征增强和ELU的神经网络建筑物提取研究[J]. 地球信息科学学报, 2021 , 23(4) : 692 -709 . DOI: 10.12082/dqxxkx.2021.200130

Abstract

In recent years, with the rapid development of the city, a large number of people turn to work and live in the city, resulting in an increasing number of urban buildings. Land resources and urban ecological environment (such as green space) are threatened to some extent. Thus, it is urgent to plan urban land resources and space reasonably, prevent illegal construction, improve urban living environment, and make the city sustainable, orderly, healthy, and green. With the high-resolution remote sensing image data becoming more and more abundant, accurate building extraction using high-resolution remote sensing images plays an important role in urban planning, urban management, and change detection of urban buildings. Based on the U-Net network model, using the Massachusetts building dataset, this paper explored the network model structure and proposed a network model called FE-Net with "encoder-feature enhancement-decoder" structure and ELU activation function. First, the best basic network model called U-Net6 was found by comparing the building extraction results using U-Net5, U-Net6, and U-Net7 with different number of network layers. Based on the U-Net6, the network model of "U-Net6+ReLU+feature enhancement" was established by adding the structure of feature enhancement. In order to optimize the activation function, the ReLU activation function was replaced by the ELU activation function, and then the network model called FE-Net (U-Net6+ELU+feature enhancement) was created. The FE-Net network model was compared with the building extraction results from the other two network models (U-Net6+ReLU and U-Net6+ReLU+feature enhancement). Results show that the FE-Net network model had the best building extraction performance. Its relaxed F1-measure reached 97.23%, which was 0.36% and 0.12% higher than the other two network models. Meanwhile, FE-Net also had the highest extraction accuracy compared with other studies using the same dataset of Massachusetts. The FE-Net network model can extract multi-scale buildings better, which can not only extract small-scale buildings accurately, but also roughly and completely extract buildings with irregular shape with relatively less missing and wrong detections. Thus, the FE-Net network model can be used to achieve end-to-end building extraction with a high accuracy.

Key words： high-resolution remote sensing image; convolutional neural network; building extraction; feature enhancement; Exponential Linear Units (ELU); Feature Enhancement Network (FE-Net); end-to-end; deep learning

1 引言

如今在城市遥感方面,数据源虽然已经得到大大改善,越来越多的高分辨率遥感影像可以获得并用于城市规划方面的研究,但随着城市发展的日新月异,建筑物建造速度迅猛,简单依靠传统方法人工去目视判别并勾绘建筑物耗时费力,制约了高分辨率遥感影像在城市建设贡献中的大范围应用。因此,从遥感影像中快速、准确、实时地获得建筑物的准确信息,对城市规划和管理具有十分重要的借鉴和指导意义。

建筑物提取一直以来都是遥感领域的重要研究内容,近年来,研究学者们提出了很多建筑物提取方法^[1]。如黄金库等^[2]基于知识规则库对建筑物的轮廓进行了粗提取,结合形态学修复以及边缘检测算法得到的轮廓矢量图以获得建筑物轮廓的精细提取结果。林雨准等^[3]综合目标地物的形状、纹理和光谱特征,提出了一种建筑物多尺度分级提取方法。林祥国等^[4]使用面向对象的形态学建筑物指数（Morphology Building Index, MBI）对高分辨率遥感影像进行了建筑物提取,该方法在应用范围上具有一定局限性。田昊等^[5]提出了一种基于形状先验知识约束的建筑物提取方法,该方法需要一定的先验知识来预定义建筑物形状,对大范围信息丰富的高分辨率遥感影像的应用具有一定局限性。黄昕^[6]提出了基于自适应均值移动的多尺度分割方法,它能够对不同的地物确定不同的带宽。Stephen等^[7]提出了一种基于纹理的方法在灰度影像中提取人工地物,提取过程需要依赖纹理特征。Lin等^[8]利用感知分组技术收集低级分割产生的碎片,通过建筑物的形状属性排除其他来源的碎片,使用阴影帮助实现建筑物的提取及验证^[8]。Kim^[9]根据提取出的线段特征,采用基于图搜索的策略,提取了建筑物结构。Katartzis等^[10]将单一机载彩色光学影像与马尔科夫模型进行了结合,实现了建筑物边缘的自动提取。Jung等^[11]结合建筑物的角点特征,并利用建筑物呈矩形的几个特征对房屋的中心点以及方向做出判断,从而实现对建筑物的提取。以上传统提取方法虽然取得了一定成果,但仍存在不足：提取方法十分依赖建筑物的几何特征（如边缘特征、角点特征、线性特征）、纹理特征、颜色特征等低层次特征来对建筑物进行判断,依赖人工操作,虽然在少量的数据集上取得了较好效果,但并没有实验证明它们在大数据量中的实用性,在提取速度和应用范围上具有一定局限性,同时上述方法多为分步骤的建筑物提取方法,提取过程繁杂,没有实现端到端的建筑物提取。

相比以上传统提取方法,基于深度学习的建筑物提取方法开启了遥感影像提取的新纪元,不仅不依赖建筑物的几何特征等,还能够自主学习图像多层特征,提高建筑物提取效率。Mnih^[12]提出了一种基于图像块的学习网络来实现对遥感影像的自动分割,提取建筑物的最高精度达92.03%。之后,Saito等^[13]使用Mnih提供的美国马萨诸塞州建筑物和道路公开数据集做了进一步研究,提高了提取精度,不仅改进了提取的卷积神经网络结构,同时创建了一个新的损失函数CIS,并通过将数据集中的建筑物、道路和背景标签影像进行叠加创建了一个新的拥有3个通道数的影像标签数据集。其中,单通道影像提取的建筑物精度提高到了94.18%,多通道影像提取的建筑物精度为96.86%,可见取得了较好的建筑物提取效果。刘文涛等^[15]提出了一个级联式的全卷积神经网络结构,取得了较好效果。为了解决建筑物检测边界不清晰、影像椒盐噪声无法有效去除以及相似光谱值像素被误分类的问题,Xu等^[16]提出了卷积神经网络模型 Res-U-Net,虽然使用该网络模型取得了较好的建筑物提取效果,但对于一些被树覆盖的建筑物,其形状不能被精确检测以及一些模糊的、不规则的建筑物边界几乎不能被分类。为了对处于稠密城区环境的建筑物进行有效的语义分割,Qin等^[17]使用中国范围的（包括北京、沈阳、成都、广州、武汉、上海和乌鲁木齐）GF2遥感影像数据,建立了基于高分辨率卫星影像的能够逐像素标记的DCNN网络模型,并使用VGG-16作为基本的深度卷积神经网络,最后利用条件随机场来优化建筑物语义分割的结果,但是该后处理并没有很好的改变分割的结果。Ye等^[18]基于超高分辨率航空影像使用联合注意力深度神经网络方法对建筑物进行了自动提取,基于卷积神经网络RFA-UNet进行了网络训练,自动提取的建筑物总体精度达94%以上,取得了较好结果。王宇等^[19]提出了一种以Encoder-Decoder为框架、ResNet为基础网络,并结合全连接条件随机场的深度神经网络分割算法ResNetCRF,该算法可以有效克服建筑物的错层结构、阴影和道路的影响,建筑物的边缘信息可以被精确提取,但其无法识别较小的建筑物,而且对于颜色信息与背景相似、边缘信息不明显的建筑物存在漏分现象。范荣双等^[20]基于高分辨率遥感影像,提出了一种自适应池化模型,该方法中使用的激活函数无法激活所有的神经元,网络结构比较单一。Liu等^[21]提出了一个light-weight深度学习模型,该模型将空间金字塔池化（Spatial Pyramid Pooling）与编码-解码结构整合在一起,取得了较好效果。杨嘉树等^[22]提出了一种基于局部特征的卷积神经网络建筑物提取方法,通过深度学习的方法将建筑物从图像中分离出来,接着输入分离出的建筑物块进行识别,降低了模型的复杂度,但该模型十分依赖分离得到的图像。

虽然以上深度学习方法能够自主学习建筑物高层次特征,有效解决传统建筑物提取方法依赖建筑物几何特征、颜色特征等低层次特征的问题,但仍存在部分不足：① 一些网络结构比较复杂,存在对尺度较小的建筑物无法识别的情况;② 针对形状不规则建筑物的提取,存在提取不完整或无法分类的现象;③ 提取结果对后处理比较依赖,建筑物提取精度有待进一步提高以减少漏检、错检的情况。因此,针对高分辨率遥感影像建筑物提取,其提取的准确度需要进一步的提高以更好地解决上述问题。由于卷积神经网络具有自主学习高级语义信息的能力,因此本文基于U-Net^[23]网络模型,通过探究网络模型结构,提出了一种基于激活函数ELU（Exponential Linear Units）^[24]、“编码器-特征增强-解码器”结构的网络模型FE-Net（Feature Enhancement Network）。本文首先通过比较不同网络层数的网络模型U-Net5、U-Net6、U-Net7的建筑物提取效果来找到最佳的基础网络模型U-Net6,基于U-Net6,通过添加特征增强结构以及替换激活函数ReLU（Rectified Linear Unit）^[25]的方式得到了2个网络模型（“U-Net6+ReLU+特征增强”模型和FE-Net模型（U-Net6+ReLU+特征增强））,研究表明,FE-Net网络模型具有较高的建筑物提取精度,能较好地提取出多尺度建筑物,不仅对小尺度建筑物有较好的提取效果,而且能大致、较完整地提取出形状不规则的建筑物,具有更少的漏检和错检,有效实现了端到端的建筑物提取。

2 研究方法

2.1 技术路线

本文设计的语义分割网络模型是一个“编码器-特征增强-解码器”结构的模型,可以实现端到端的遥感影像建筑物提取。编码器的作用是用来提取影像各分辨率的特征;特征增强的作用是通过空洞卷积保留详细信息,并通过融合多尺度特征图来实现特征增强;解码器的作用一方面是为了将经过池化运算分辨率减小的影像上采样至原始图像大小,一方面是为了将编码器中所得特征图与上采样图拼接,并最终得到建筑物的分割结果。本文技术路线如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 技术路线

Fig. 1 The workflow of technology

首先,基于U-Net网络模型,对网络结构层数分别为5层、6层、7层的基础网络模型（U-Net5、U-Net6、U-Net7）进行探究,通过结果对比找出最佳的基础网络模型（U-Net6）。（注意：8层的基础网络模型U-Net8由于电脑的实验条件不允许,在网络训练过程中因数据量太大导致内存崩溃,因此停止了对8层网络深度的探究。）;其次,基于最佳基础网络模型（U-Net6）,对模型结构作进一步探究,通过加入特征增强结构的方式（U-Net6+ReLU+特征增强）提高建筑物提取精度;前面模型中使用的激活函数均为ReLU,由于它容易产生神经元死亡、权重无法更新的现象,因此,针对“编码器-特征增强-解码器”结构的网络模型（U-Net6+ReLU+特征增强）,将该结构的激活函数ReLU替换为ELU,以保证神经网络中每一个神经元活跃,避免其出现死亡、权重无法更新的情况,该模型即为本文提出的建筑物提取效果最佳的FE-Net网络模型（U-Net6+ELU+特征增强）,FE-Net网络模型的结构简图见图2。

显示原图|下载原图ZIP|生成PPT

图2 FE-Net网络模型

Fig. 2 FE-Net network model

2.2 编码

在编码器端输入RGB遥感影像,对其进行下采样并提取各分辨率的特征。进入编码器的影像需要经过卷积运算和池化运算,如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 编码器端结构

注：n表示所处位置对应上一层特征图的通道数;m表示上一层特征图尺寸。

Fig. 3 Structure of encoder

卷积过程（Convolutions Layer）是卷积神经网络重要的核心组成部分。它使用一定数量的卷积核,在图像上通过滑动的方式提取图像特征,得到相应的特征图,且每次提取的特征只针对卷积核大小覆盖的图像区域。卷积计算包括2部分,即输入图像（Input Image）和卷积核（Filter）,卷积核与其在输入图像上滑动时所覆盖的区域进行计算,计算的结果即得到一个特征图。卷积运算的过程,可用式（1）表示。

（1）

O n, m = f ∑ v = 1 V ∑ u = 1 U w v, u × x i + v, j + u + b

式中：

w v, u

表示第v行、第u列的卷积核权重参数;b表示偏置项参数;V、U分别表示卷积核的宽和高;

x i + v, j + u

表示图像或特征图的第i+v行、第j+u列的元素;i、j表示卷积核在图像或者特征图上滑动了i行和j列;f(·)表示非线性运算,即激活函数;

O n, m

表示输出特征图的第n行与第m列元素。

池化过程也称为空间降采样,它能够提取到不随尺度变化的特征,正是因为其多尺度特征提取的特点让卷积神经网络在图像分类中能够对不同分辨率的输入图像做出较好地分类结果,池化的优点就是能够在保留不随尺度变化特征的前提下,减少网络参数量,防止过拟合。

图3（a）是卷积运算过程。遥感影像经过第一个卷积运算,通道数由原来的3个变为32个（此处通道数可调节为别的值）,并进行激活函数运算,加入激活函数的目的是给神经网络加入一些非线性因素以使网络具备模拟非线性函数的能力来解决一些更复杂的问题。卷积运算中卷积核的大小为3×3尺寸,虽然遥感影像经过第一个卷积运算操作增加了通道数,但由于在网络中加入了1个padding,即在影像的周围向外均填充了值为0的一个像素点,因此尺寸大小没有改变。加入padding参数,既可以保持图像大小,避免经卷积运算后输出特征图尺寸缩小的情况,也可以保持边界信息,减少影像中边缘信息的损失。图3（a）中第二个卷积运算操作“Conv(3×3),n×1”,其卷积核大小为3×3,输出影像的通道数等于上一层影像通道数,其中,n代表上一层特征图的通道数,“n×1”表示上一层通道数的1倍。因此,通过第二个卷积运算操作得到的特征图通道数也为32个通道数。同样,特征图没有缩小,等于上一层图像尺寸大小。

图3（b）是池化和卷积运算。遥感影像经过2个卷积运算后得到的特征图,马上进入池化运算,然后再进行类似于图3（a）的卷积运算。由图3（b）可知,池化运算中的池化核大小为2×2,经过池化运算的影像大小为上一层特征图尺寸的一半,通道数不发生改变。“Conv(3×3),n×2”是卷积操作,卷积核大小为3×3,“n×2”表示特征图的通道数是上一层特征图的2倍,并紧跟激活函数操作,“Conv(3×3),n×1”也是卷积操作,卷积后的特征图通道数以及图像尺寸跟上一层特征图一样,保持不变。

假设基础网络模型的层数为k层,那么进行下采样操作“Maxpool(2×2),m×(1/2)”的次数将会是 k-1次,最后特征图的大小会缩小至原始输入图像大小的

12 k - 1 倍

,同时,卷积运算的总次数将会是2k次,其中卷积运算“Conv(3×3),n×2”k-1次,卷积运算“Conv(3×3),n×1”k次,经过卷积运算“Conv(3×3),n×2”得到的最后的特征图,通道数会增加为经过第一个卷积操作后获得的特征图通道数的

2 k - 1

倍,经过卷积运算“Conv(3×3),n×1”的特征图,通道数等于前一层特征图的通道数。本文为了找到合适的基础网络层数以实现最佳的建筑物提取效果,因此设置了不同的k值,具体见图4。

显示原图|下载原图ZIP|生成PPT

图4 编码器端不同k值对应的各个特征图参数

Fig. 4 The parameters of each feature map corresponding to different k values in encoder

图4列出了不同网络层数的基础网络模型中所对应的编码部分中各个特征图的参数,其中,网络层数k值分别为5层、6层、7层,针对不同的网络层数,利用建筑物遥感影像数据集分别对其进行了网络训练。

2.3 解码

该网络模型的解码部分包括上采样、特征图拼接和影像输出。经过编码器端下采样操作缩小后的特征图需要经过上采样操作才可以恢复其尺寸大小,同时经过编码器端获得的特征图通道数也需要经过上采样操作以及相应的卷积运算才可以实现通道数的减少,该部分的操作包括上采样和卷积运算,具体如图5所示。

显示原图|下载原图ZIP|生成PPT

图5 解码器端结构

注：n表示所处位置对应上一层特征图的通道数;m表示上一层特征图尺寸。

Fig. 5 Structure of decoder

图5(a)是解码器端的上采样操作和卷积运算。经过编码器端输出的特征图进入解码器端,首先需要进行上采样,此处所说的上采样就是转置卷积运算（Transposed Convolution）,图5(a)中“Transposed Conv(2×2),m×2”表示卷积大小为2×2的转置卷积,“m×2”表示经过转置卷积后的特征图尺寸大小变为前一个特征图的2倍。经过转置卷积运算后的特征图,不仅图像尺寸会成为前一个特征图的2倍,而且特征图的通道数会缩小为前一个特征图的二分之一。经过上采样运算后,紧接着会进行图像拼接操作,所谓图像拼接,就是将该特征图与其对应层数编码器端输出的特征图这2张图像拼接在一起,因此对于图像拼接后的特征图,其通道数等于对应层数编码器端的输出特征图通道数加上经过上采样后特征图的通道数,一般上采样后特征图的大小和通道数会等于对应编码器端输出特征图的大小和通道数。图像拼接完后,特征图进行卷积运算,图中“Conv(3×3),n×(1/2)”表示卷积核大小为3×3的卷积,“n×(1/2)”表示卷积后特征图的通道数是前一个特征图通道数的一半,图像大小保持不变,并进行相应的激活函数运算。“Conv(3×3),n×1”表示卷积核大小为3×3的卷积,“n×1”表示卷积后特征图的通道数等于前一个特征图的通道数,图像大小保持不变。

图5（b）是解码器输出端的卷积运算,“Conv(3×3),32”是一个卷积操作,表示特征图通过了一个卷积核大小为3×3的卷积运算,32表示通过卷积运算后通道数变为32个,此处的32可调节为别的值。解码器中最后一个卷积运算是“Conv(3×3),1”,该卷积运算也是一个卷积核大小为3×3的卷积,但不同的是,经过该运算后,特征图由多通道数变为单通道数,也就是说最后输出的特征图有1个通道数。卷积后紧接着进行sigmoid函数运算,得到提取出的建筑物预测结果图。Sigmoid函数一般用于图像分割中的二分类问题,它可把图像映射到[0,1]的范围。

假设基础网络模型的层数为k层,则上采样的次数等于k-1次,卷积运算的次数一共为2(k-1)+1次,其中“Conv(3×3),n×(1/2)”卷积运算k-1次,“Conv(3×3),n×1”卷积运算k-1次,“Conv(3×3),1”卷积运算1次。对于不同的网络层数,其对应解码器端的各个特征图参数如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 解码器端不同k值对应的各个特征图参数

Fig. 6 The parameters of each feature map corresponding to different k values in decoder

图6陈列了解码器中不同网络层数对应各特征图的参数,它们最终都输出大小为384×384,通道数为1的预测结果图。

2.4 特征增强

在高分辨率遥感影像上,建筑物存在多尺度特征,影像上尺寸较大、形状规则的建筑物比较容易提取,但针对形状不规则建筑物和小尺度建筑物来说,保留详细的空间信息至关重要,若一味地使用池化运算,很容易致使影像上细节信息丢失。因此,在保证增大感受野的同时,为了避免特征图分辨率减小和空间信息损失的情况,本文在网络结构的中间添加了空洞卷积以替代池化运算。所谓空洞卷积（Dilated Convolution）就是在标准卷积核上插入零值以实现卷积扩张的操作,使用空洞卷积既可以像池化运算一样扩大特征图中单个像素的感受野,也可以保持特征图分辨率不变。由于遥感影像中建筑物具有多尺度特征,为了进一步准确地获取建筑物的多尺度信息,以空洞卷积为基础,在网络结构的中间部分添加了图7所示的结构,用于特征增强,该结构于2018年由Zhou等^[26]提出,用于提取道路特征。

显示原图|下载原图ZIP|生成PPT

图7 本文特征增强结构

注：图中绿色的箭头表示空洞卷积运算,箭头中的数字表示空洞率（Dilation rate）大小。

Fig. 7 Structure of feature enhancement

特征增强结构是一个串联与并联共存的网络结构,它将经过空洞率不一样的空洞卷积运算所得到的特征图使用串联和并联的方式连接起来。如图7所示,编码器端输出特征图的大小为12×12,通道数为1024。注意：输入特征增强部分的特征图,其通道数和尺寸大小取决于编码器中的运算,并不是固定的。该结构中共有4种空洞卷积运算,空洞率的大小分别为1、2、4、8,因此在大小为3×3的标准卷积上进行扩张后可分别得到大小为3×3、5×5、9×9、17×17的空洞卷积,对应每个特征图的感受野将分别是3、7、15、31,因此特征增强中最后输出的特征图在第一个中间特征图上的感受野大小是31×31。通过空洞卷积运算得到的特征图,分辨率不会降低,由于具有不同空洞率的空洞卷积,因此通过该结构可以获得多尺度的特征信息,通过跳跃连接的方式将多尺度特征进行相加融合,从而实现了特征信息的增强。

2.5 FE-Net网络模型

在“编码器-特征增强-解码器”网络结构的基础上（即U-Net6+ReLU+特征增强）,对网络模型的激活函数进行了替换,即将使用的激活函数ReLU替换为激活函数ELU,从而得到了激活函数为ELU、特征增强的网络模型FE-Net。

ReLU激活函数于2010年提出,表达式^[25]如下：

（2）

f (x) = max 0, x

ReLU可以有效解决梯度消失的问题,由于该函数为非指数函数,只有线性关系,因此它的计算量大大减小,有较快的计算速度,而且它能够使神经网络在随机梯度下降中更快速的收敛。虽然激活函数ReLU具有很多优点,但仍存在不足：该函数在训练时,容易使神经元死亡,导致无法进行权值更新。为了弥补ReLU的不足,使用了ELU函数。

ELU为指数线性单元^[24],表达式如下：

（3）$f(x)=\left\{\begin{array}{l}x, x>0 \\\alpha\left(e^{x}-1\right), \quad x \leqslant 0\end{array}\right.$

ELU函数解决了神经元死亡的问题,它对ReLU激活函数的负值部分进行了相应的指数修正,从而减少了梯度之间的差距,使得当输入值为负数时,其对应区域的稳定性明显增强。它的优点是既能避免神经元死亡,还具备ReLU函数的所有优点,同时输出值均值接近0值,能够加快网络的收敛速度。

FE-Net网络模型的结构如图8所示。它将编码部分、特征增强部分、解码部分3部分结合在一起,形成“编码器-特征增强-解码器”的网络结构。

显示原图|下载原图ZIP|生成PPT

图8 网络模型FE-Net结构

注：图中A表示编码器结构,B表示特征增强结构,C表示解码器结构。

Fig. 8 Detailed structure of FE-Net

由图可知,网络一共为6层,从编码器端输入大小为384×384的影像,然后经过了12次卷积运算和5次池化运算,紧接着进入特征增强部分,进行了空洞卷积运算,该空洞卷积通过串联模式和并联模式将不同空洞率的空洞卷积连接起来,获得不同尺度大小的特征图,保留了详细信息,并对不同尺度的特征图相加以实现特征信息的增强。特征增强后的特征图接着进入解码器部分,经过了5次转置卷积运算、5次图像拼接运算和11次卷积运算,最后利用sigmoid函数将特征图的范围缩小至0~1区间,输出建筑物提取的结果图。针对FE-Net网络模型,其对应的特征图参数如表1所示。

表1 FE-Net网络模型中各个特征图的对应参数

Tab. 1 Corresponding parameters of each feature map in FE-Net network model

编码器部分		解码器部分
名称	尺寸和通道数	名称	尺寸和通道数
输入影像	384×384×3	特征图	12×12×1024
Conv(3×3), 32	384×384×32	Transposed Conv(3×3), m×2+拼接	24×24×1024
Conv(3×3), n×1	384×384×32	Conv(3×3), n×(1/2)	24×24×512
Maxpool(2×2), m×(1/2)	192×192×32	Conv(3×3), n×1	24×24×512
Conv(3×3), n×2	192×192×64	Transposed Conv(3×3), m×2+拼接	48×48×512
Conv(3×3), n×1	192×192×64	Conv(3×3), n×(1/2)	48×48×256
Maxpool(2×2), m×(1/2)	96×96×64	Conv(3×3), n×1	48×48×256
Conv(3×3), n×2	96×96×128	Transposed Conv(3×3), m×2+拼接	96×96×256
Conv(3×3), n×1	96×96×128	Conv(3×3), n×(1/2)	96×96×128
Maxpool(2×2), m×(1/2)	48×48×128	Conv(3×3), n×1	96×96×128
Conv(3×3), n×2	48×48×256	Transposed Conv(3×3), m×2+拼接	192×192×128
Conv(3×3), n×1	48×48×256	Conv(3×3), n×(1/2)	192×192×64
Maxpool(2×2), m×(1/2)	24×24×256	Conv(3×3), n×1	192×192×64
Conv(3×3), n×2	24×24×512	Transposed Conv(3×3), m×2+拼接	384×384×64
Conv(3×3), n×1	24×24×512	Conv(3×3), n×(1/2)	384×384×32
Maxpool(2×2), m×(1/2)	12×12×512	Conv(3×3), n×1	384×384×32
Conv(3×3), n×2	12×12×1024	Conv(3×3), 1	384×384×1
Conv(3×3), n×1	12×12×1024

注：在特征增强部分,经过空洞卷积后得到的特征图,它们的大小和通道数均为12×12×1024。

该网络结构中使用的特征增强部分,虽然利用了多个空洞卷积进行运算,但是该卷积与普通卷积运算相比,虽然增加了感受野的范围,但是并不会增加训练参数的量,而是选择性地跳过一些像素值进行卷积运算。

3 实验数据及评价指标

3.1 数据与预处理

实验使用由Mnih^[12]提出的美国马萨诸塞州的建筑物数据集。遥感数据集由151张高分辨率遥感影像组成,每一张影像为1 m的空间分辨率,每幅图像为1500像素×1500像素,对应波士顿城区及郊区范围2.25 km²,因此所有数据集覆盖的范围约为340 km²,,将建筑物数据集随机分成训练集（137幅）,验证集（4幅）和测试集（10幅）3组,由于对应的标签影像为包含3个波段的彩色影像,为了适应网络环境,更好地完成网络训练,将遥感影像对应的标签影像转换为单波段的灰度图像,灰度值范围为0~255,并转换遥感影像及标签图像的格式,遥感影像与其对应标签图像的格式分别为JPG与PNG格式。图9为美国马萨诸塞州建筑物数据集的高分辨率遥感影像及对应影像的标签。

显示原图|下载原图ZIP|生成PPT

图9 数据集示例（美国马萨诸塞州建筑物)

Fig. 9 Example of dataset (Buildings in Massachusetts, USA)

为了更好地训练网络,使用裁剪滑动窗口将数据的训练集和验证集进行裁剪,将其裁剪为尺寸大小为384×384的影像块。除此之外,由于该数据集中有些影像存在大量的空白区域,故在裁剪时将存有空白区域的影像及其对应的标签图像进行剔除。因此,最终得到包含10 600张影像块的训练集和400张影像块的验证集。同时,为了方便与前人方法做相应比较,未对测试集进行裁剪。在样本裁剪时需要注意的是裁剪后影像的名称要与其对应标签图像的名称一致。

3.2 实验环境

本文的实验环境具体如表2所示。

表2 实验环境

Tab. 2 Experimental environment

项目	参数
中央处理器	Intel® Xeon(R) CPU E5-2620 v2 @2.10GHz × 24
内存	62.8 GB
硬盘	2 TB
显卡	GeForce GTX 1080/PCIe/SSE2
操作系统	Ubuntu 16.04
开发语言	Python
深度学习框架	PyTorch

在训练中,使用Adam作为权重优化算法,同时初始学习率设置为2e-4,且批次大小设置为固定值3,动量设置为0.9,同时训练周期为300次,损失函数为二值交叉熵和Dice系数损失函数。

3.3 精度评价指标

精准率（Precision）又名查准率,指预测正确的样本占所有预测为正样本总和的比例,它与错检率有关,精准率的值越接近于1,表示预测值的错检率越低。召回率（Recall）又名查全率,指预测正确的样本占所有真值为正样本总和的比例,它与漏检率有关,召回率的值越接近于1,表示预测值的漏检率越低。而F1值（F1-measure）是精准率和召回率的调和平均,精准率和召回率中任何一个数值减小,F1值都会减小,反之亦然。它们的公式如下：

（4）

Precision = TP TP + FP

（5）

Recall = TP T P + FN

（6）

F 1 = 2 × Precision × Recall Precision + Recall

式中：TP表示实际为正样本且预测也为正样本的样本数;FP表示实际为负样本却误预测为正样本的样本数;FN表示实际为正样本却误预测为负样本的样本数。

为了方便与他人相关的实验结果作对比,本文利用放松精准率（Relaxed Precision）、放松召回率（Relaxed Recall）、放松F1值（Relaxed F1-measure）作精度评价。其中,放松精准率是指预测结果占标签缓冲区ρ范围内的百分比,放松召回率是指标签占预测结果缓冲区ρ范围内的百分比,放松F1值为二值的调和平均,其中ρ表示缓冲区大小,详细定义见Wiedemann等^[27]的参考文献,为与相关实验结果的精度评价保持一致,本文将ρ值设置为3。

4 实验结果与分析

4.1 网络结构层数对提取效果的影响

首先基于编码-解码结构的U型网络模型,对其深度进行了探究。图10比较了U-Net5、U-Net6、U-Net7提取建筑物的效果,从红色椭圆里提取的建筑物可以看出,对于一些尺度较小、形状规则的建筑物,U-Net5和U-Net6能够取得较好效果,基本上能实现单个建筑物提取,且与相邻建筑物存在较少的建筑物边界融合现象,而U-Net7并不能很好地提取小尺度建筑物,不仅不能有效地提取出单个建筑物,而且提取出的相邻建筑物之间存在严重的边界融合现象,导致相邻的单个建筑物拼接在一起,产生严重的误差。图10中黄色椭圆中的建筑物是相比红色椭圆中建筑物尺度更小一些的建筑物群,可以看出,3个基础网络模型中提取效果最好的是U-Net6,它可以提取出大部分更小尺度的建筑物信息,U-Net5只能提取出一点,漏检了大部分建筑物,而U-Net7却一点建筑物信息都没有检测到,只有背景信息。因此可见,针对规则的、小尺度建筑物,选择网络层数为6层的U-Net6作为基础网络模型可以取得最佳效果,它不仅可以区分单个建筑物,提取出单个建筑物边界,而且能够检测出尺度很小的建筑物信息,不会将其遗漏掉。

显示原图|下载原图ZIP|生成PPT

图10 各网络模型对于小尺度建筑物的提取效果

Fig. 10 The extraction effect of each network model for small-scale buildings

为了更好地比较U-Net5、U-Net6、U-Net7这3个基础网络模型提取建筑物的效果,将提取的建筑物结果进行了展示（图11）,其中,基础图像是原始的RGB高分辨率遥感影像。由图可知,U-Net6提取的建筑物信息精准率最高,漏检、错检的建筑物较少;对于尺度较大、规则的建筑物,3个网络模型的提取效果均较好;然而对于尺度较小的建筑物,U-Net7则存在大量的漏检,并不能提取出其信息,U-Net5虽然能提取出部分小尺度建筑物,但相对于U-Net6的提取效果,漏检的建筑物较多;针对形状不规则的建筑物,3个基础网络模型均存在无法提取出完整的建筑物信息的情况,但由图可以看出,提取正确的建筑物信息最多、遗漏最少的网络模型是U-Net6,U-Net7遗漏的最多,U-Net5次之。

显示原图|下载原图ZIP|生成PPT

图11 各网络模型提取建筑物效果

Fig. 11 The building extraction effect of each network model

通过定性比较可以发现,3个网络模型中建筑物提取效果最好的是U-Net6,为了能够更好地评估3个模型,作了以下定量比较。由表3可知,U-Net6的放松精准率、放松召回率、放松F1值均最高,其中放松F1值达到了96.87%,U-Net5次之,为94.10%,U-Net7效果最差,为93.89%,且U-Net6的精度比U-Net5高出2.77%,比U-Net7高出2.98%。但是,不足的是,U-Net6训练的时间比较长,训练完数据大概需要33 h,而U-Net7需要更长的时间,相比U-Net6和U-Net7,U-Net5训练的时间最短,大概23 h就可以完成训练。

表3 不同网络结构层数实验结果对比

Tab. 3 Comparison of experimental results of different network layers

模型	网络层数	放松精准率（ρ=3）/%	放松召回率（ρ=3）/%	放松F1值（ρ=3）/%	训练时间/s
U-Net5	5	95.43	92.97	94.10	85 761
U-Net6	6	98.31	95.46	96.87	119 610
U-Net7	7	96.58	91.33	93.89	193 152
U-Net8	8	训练崩溃,训练时间太长

因此,综合定性和定量分析结果,可以得出,针对编码器-解码器结构的网络模型,网络结构层数并不是越深越好,网络层数越深,虽然会有更大的感受野,但是下采样的次数会更多,这样会损失更多的详细信息,从而减小建筑物的提取精度。而且,随着网络层数的增加,网络训练的参数也会大幅增加,网络训练的时间会更长。综合以上考虑,本文选择U-Net6作为最佳的基础网络模型用于实验。

4.2 特征增强和激活函数对提取效果的影响

根据以上网络层数对建筑物提取效果影响的探究,选择了U-Net6作为基础网络模型,基于该模型,该部分通过加入特征增强和改变激活函数的方式,探究了它们对建筑物提取效果的影响。

基础网络模型U-Net6的激活函数是ReLU,虽然U-Net6提取建筑物的效果较好,可以实现大部分小尺度、形状规则的建筑物提取,但对于一些形状不规则的建筑物,并不能提取它们的完整信息,提取效果不理想。因此,为了可以提高U-Net6的提取精度,在模型中加入了基于空洞卷积的特征增强结构,该结构可以获取多尺度特征,且不会损失特征图的细节信息,U-Net6模型（U-Net6+ReLU）与加入了特征增强结构的网络模型（U-Net6+ReLU+特征增强）的提取效果分别见图12（c）和图12（d）。激活函数ReLU虽然使用广泛,但很容易导致神经元死亡,为避免该问题,本文使用ELU激活函数替代ReLU,激活函数为ELU且为“编码器-特征增强-解码器”结构的网络模型即为FE-Net模型（U-Net6+ELU+特征增强）,其提取效果见图12（e）。

显示原图|下载原图ZIP|生成PPT

图12 各网络模型提取小尺度建筑物以及不规则建筑物效果

Fig. 12 The effect of extracting small-scale buildings and irregular buildings from each network model

图12中第一行主要比较了网络模型“U-Net6+ReLU”、“U-Net6+ReLU+特征增强”和“U-Net6+ELU+特征增强（FE-Net）”提取小尺度建筑物的效果。可以看出,3种网络模型对小尺度建筑物的提取效果均较好,对绿色圈出部分,3种网络模型提取的建筑物没有太大区别;但是U-Net6和特征增强后的U-Net6对小尺度建筑物还是存在一些漏检,如红色圈出部分所示,但是激活函数为ELU的特征增强后的U-Net6（FE-Net）可以将其提取出来;虽然FE-Net网络模型能够将小尺度建筑物信息提取的比较详细,但是若影像上有类似建筑物的地物目标,也很容易将其误检为建筑物,如黄色圈出部分。对于不规则建筑物的提取效果,见图12中第二行。由图可知,U-Net6正如前面提到的那样,其对不规则建筑物提取的效果并不理想,从红色圈出部分可以看出,U-Net6只提取出了不规则建筑物的部分信息,还剩有大概一半的信息没有提取出来,而加了特征增强的U-Net6网络模型和激活函数为ELU的FE-Net网络模型均可以较好地提取出不规则建筑物信息,应该是由于特征增强部分减少了建筑物不规则轮廓信息的损失,通过融合不同尺度的特征图,增强了图像特征导致的,因此可以较好地识别出不规则的建筑物;而对于圈出的黄色部分,主要是对细节信息的比较,可以看出,FE-Net网络模型能够较好地提取出细节信息,而网络模型U-Net6和加了特征增强结构的U-Net6难以提取出细节信息。对于红色部分提取出的不规则建筑物形状,明显可以看出激活函数为ELU的FE-Net网络模型提取的建筑物轮廓信息比只加了特征增强结构的U-Net6网络模型更贴近实际的建筑物形状,提取出的信息更全面。

为更清楚地了解3个网络模型对形状不规则建筑物的提取效果,对形状不规则建筑物提取结果进行了局部放大,具体见图13。可见,针对形状不规则建筑物,FE-Net网络模型能够更好地提取出不规则建筑物信息,相比U-Net6和仅加了特征增强结构的U-Net6,激活函数为ELU的FE-Net网络模型漏检、错检的不规则建筑物信息更少,可以大致、较完整地提取出形状不规则的建筑物。

显示原图|下载原图ZIP|生成PPT

图13 各网络模型提取不规则建筑物效果

Fig. 13 The effect of extracting irregular buildings from each network model

为更好地分析3个网络模型对建筑物提取的综合效果,将各模型的提取结果展示（图14）。从图14中可以看出,对尺度较大的建筑物,3种模型均有较好的提取效果;对形状不规则的建筑物,FE-Net网络模型提取的信息更完整,遗漏的信息更少,而3个模型中,U-Net6遗漏的建筑物信息最多;针对小尺度建筑物,3个模型的提取效果较好,但也存在一些漏检和错检的情况。

显示原图|下载原图ZIP|生成PPT

图14 各网络模型提取建筑物效果

Fig. 14 The building extraction effect of each network model

为更清楚地了解3种网络模型对建筑物的提取效果,作以下定量分析。由表4可知,3种模型中,FE-Net的放松精准率最高,为98.59%,说明激活函数为ELU的FE-Net模型提取出的建筑物信息错检率最低,准确度最高,而激活函数为ReLU的U-Net6模型的放松精准率最低,为98.31%,作了特征增强且激活函数为ReLU的U-Net6模型的放松精准率为98.50%,比FE-Net模型略低0.09%;同时, 3个模型中FE-Net模型的放松召回率最高,达到了96.11%,说明利用该模型提取的建筑物漏检率最低,且它的放松召回率比“U-Net6+ReLU”模型和“U-Net6+ReLU+特征增强”模型均高出0.65%和0.18%,在提取建筑物信息时,一般是要求宁可误检也不要漏检,可见较低的漏检率对建筑物信息的提取十分重要;对放松F1值,FE-Net模型为97.23%,“U-Net6+ReLU+特征增强”模型为97.11%,“U-Net6+ReLU”模型为96.87%,可见FE-Net模型的放松F1值最高,“U-Net6+ReLU+特征增强”模型次之。虽然FE-Net模型提取的建筑物信息效果较好,漏检率和错检率均较低,但是由训练时间可以看出,FE-Net模型在训练数据时花费的时间最长,大概需要38个小时,这主要有2个原因：① 因为特征增强结构的加入,增加了网络训练的参数,同时特征增强部分空洞卷积的使用,可以保留特征图的详细信息,让特征图的分辨率保持不变,因此细节信息的保留也导致了训练参数的增加,从而增加了训练时间;② 因为ELU激活函数的使用,虽然该函数可以避免神经元死亡的现象,弥补了ReLU的缺陷,但是由于该函数中存在一个指数函数,因此会影响计算效率,增加计算时间。

表4 网络模型实验结果对比

Tab. 4 Comparison of network models' experiment results

模型	放松精准率（ρ=3）/%	放松召回率（ρ=3）/%	放松F1值（ρ=3）/%	训练时间/s
U-Net6+ ReLU	98.31	95.46	96.87	119 610
U-Net6+ ReLU+特征增强	98.50	95.93	97.11	136 487
U-Net6+ ELU+特征增强（FE-Net）	98.59	96.11	97.23	138 135

综合定性分析和定量评价可以发现,3个网络模型中,FE-Net模型的建筑物提取效果最好,除了训练时间比较长（训练时长在可接受范围内）,它对形状不规则的建筑物、小尺度建筑物、大尺度建筑物提取的效果均较好,提取结果中存在较少的错检和漏检信息,准确度较高。

4.3 网络模型FE-Net与其他研究成果比较

基于本文使用的Mnih^[12]提出的美国马萨诸塞州建筑物数据集,很多研究学者使用该数据集进行了相关实验,为了进一步验证本文网络模型FE-Net提取建筑物的精度,将该实验结果与其他相关的实验结果进行了比较。

由表5可知,2013年,Mnih使用神经网络模型对其进行了训练,得到最好的提取精度是92.11%,之后大家纷纷使用此数据集进行了研究。2018年,Marcu等^[28]使用多任务多级别的神经网络对该数据进行了实验,得到96.04%的建筑物提取精度。接着,Khalel等^[29]基于多个U-Net网络模型进行叠加,形成一个流水线,每一个网络是前一个网络的后处理器,经过一个网络得到的结果将会再次进行训练得到新的结果,他们使用该训练方法得到的建筑物提取精度为96.33%,使精度得到了提升。2019年,Pan等^[30]将GAN网络模型与带有空间和通道注意力机制的U-Net网络模型结合起来对数据集进行了训练,得到的建筑物提取精度为96.36%,比Khalel等^[29]的结果高了0.03%。与他们的提取精度相比,本文基于美国马萨诸塞州的建筑物数据集,使用FE-Net网络模型提取的建筑物精度为97.23%,具有较高的提取精度。

表5 基于美国马萨诸塞州建筑物数据集的实验结果

Tab. 5 Experimental results based on Massachusetts building dataset

方法	年份	放松F1值(ρ=3)/%
Mnih^[12]	2013	92.11
Marcu等^[28]	2018	96.04
Khalel等^[29]	2018	96.33
Pan等^[30]	2019	96.36
Ours	2020	97.23

5 结论

本文针对高分辨率遥感影像建筑物提取问题,使用美国马萨诸塞州建筑物数据集,基于U-Net网络模型,对网络模型结构进行了研究,提出了一种新的端到端的语义分割网络模型FE-Net,很好实现了高分辨率遥感影像的建筑物提取。具体结论如下：

（1）为找到合适的基础网络模型,本文基于U-Net网络结构,对网络结构层数作相应探究,分别利用网络模型U-Net5、U-Net6、U-Net7提取建筑物,提取精度放松F1值分别为94.10%,96.87%,93.89%,得到网络模型U-Net6具有最佳的提取效果,因此将其作为基础网络模型。

（2）基于U-Net6（U-Net6+ReLU）,本文在模型结构的中间加入基于空洞卷积的特征增强结构,该结构可以实现多尺度特征的获取,保留特征图的详细信息,通过多尺度特征融合来增强特征,该模型即为“U-Net6+ReLU+特征增强”网络模型。为弥补ReLU容易产生神经元死亡、权重无法更新的缺点,在特征增强的基础上（U-Net6+ReLU+特征增强）,将激活函数ReLU替换为ELU,因此得到最终的网络模型FE-Net（U-Net6+ELU+特征增强）。定量比较3个网络模型（U-Net6+ReLU、U-Net6+ReLU+特征增强、FE-Net（U-Net6+ELU+特征增强））可知,FE-Net网络模型提取建筑物的精度最高,其放松F1值为97.23%,比U-Net6和仅加了特征增强结构的网络模型（U-Net6+ReLU+特征增强）分别高出0.36%和0.12%。同时,由定性分析发现,FE-Net网络模型能较好地提取出多尺度的建筑物,不仅能较好地提取出小尺度建筑物,而且能大致、较完整地提取出形状不规则的建筑物,有相对更少的漏检和错检情况。

（3）FE-Net网络模型具有“编码器-特征增强-解码器”的网络结构,可以自主学习多层次特征,不依赖手工设计,通过融合多尺度特征的方式增强特征,且能保证神经元的活跃。将该模型与具有相同数据集的研究结果作对比可知,放松F1值为97.23%的FE-Net网络模型超过其他研究的建筑物提取精度。

虽然FE-Net网络模型能够很好地实现端到端的高分辨率遥感影像建筑物提取,但它仍有不足之处,该模型训练的时间比较长,需要花费30多个小时来训练数据,因此可以思考一下除了增强实验环境的设备性能外,可不可以通过再次改造网络模型的方法来缩短训练时间,提高建筑物的提取效率。同时,可以考虑拓宽FE-Net的应用范围,将其用于国内地区高分辨率遥感影像建筑物数据集的提取,进一步考察它的适用性。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Han J W, Zhang D W, Cheng G, et al. Object detection in optical remote sensing images based on weakly supervised learning and high-level feature learning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2015,53(6):3325-3337.

[2]	黄金库, 冯险峰, 徐秀莉, 等. 基于知识规则构建和形态学修复的建筑物提取研究[J]. 地理与地理信息科学, 2011,27(4):28-31. [ Huang J K, Feng X F, Xu X L, et al. Research on building extraction based on knowledge rule construction and morphological restoration[J]. Geography and Geo-Information Science, 2011,27(4):28-31. ]

[3]	林雨准, 张保明, 徐俊峰, 等. 多特征多尺度相结合的高分辨率遥感影像建筑物提取[J]. 测绘通报, 2017(12):53-57. [ Lin Y Z, Zhang B M, Xu J F, et al. High resolution remote sensing image building extraction based on multi feature and multi-scale[J]. Bulletin of Surveying and Mapping, 2017(12):53-57. ]

[4]	林祥国, 张继贤. 面向对象的形态学建筑物指数及其高分辨率遥感影像建筑物提取应用[J]. 测绘学报, 2017,46(6):724-733. [ Lin X G, Zhang J X. Object oriented morphological building index and its application in building extraction from high-resolution remote sensing image[J]. Acta Geodaetica et Cartographica Sinica, 2017,46(6):724-733. ]

[5]	田昊, 杨剑, 汪彦明, 等. 基于先验形状约束水平集模型的建筑物提取方法[J]. 自动化学报, 2010,36(11):1502-1511. [ Tian H, Yang J, Wang Y M, et al. Building extraction method based on prior shape constraint level set model[J]. Acta Automatica Sinica, 2010,36(11):1502-1511. ]

[6]	黄昕. 高分辨率遥感影像多尺度纹理、形状特征提取与面向对象分类研究[D]. 武汉:武汉大学, 2009. [ Huang X. Research on multi-scale texture, shape feature extraction and object-oriented classification of high-resolution remote sensing image[D]. Wuhan: Wuhan University, 2009. ]

[7]	Levitt S, Aghdasi F. Texture measures for building recognition in aerial photographs[J]. Communications and Singnal Processing, 1997:75-80.

[8]	Lin C. Detection of buildings using perceptual grouping and shadows[J]. IEEE Computer Vision & Pattern Recognition, 1994:62-69.

[9]	Kim T, Muller J P. Development of a graph-based approach for building detection[J]. Image and Vision Computing, 1999,17(1):3-14.

[10]	Katartzis A, Sahli H, Nyssen E, et al. Detection of buildings from a single airborne image using a markov random field model[J]. Geoscience and Remote Sensing Symposium, 2001,6:2832-2834.

[11]	Jung C R, Schramm R. Rectangle detection based on a windowed hough transform[J]. Computer Graphics and Image Processing, 2004:113-120.

[12]	Mnih V. Machine learning for aerial image labeling[D]. Toronto: University of Toronto, 2013.

[13]	Saito S, Yamashita Y, Aoki Y. Multiple object extraction from aerial imagery with convolutional neural networks[J]. Journal of Imaging Science & Technology, 2016,60(1):10402-1/10402-9. DOI PMID

[14]	Saito S, Aoki Y. Building and road detection from large aerial imagery[C]. Proceedings of SPIE/IS&T Electronics Imaging. International Society for Optics and Photonics, 2015:94050K-94050K.

[15]	刘文涛, 李世华, 覃驭楚. 基于全卷积神经网络的建筑物屋顶自动提取[J]. 地球信息科学学报, 2018,20(11):1562-1570. [ Liu W T, Li S H, Qin Y C. Automatic building roof extraction with fully convolutional neural network[J]. Journal of Geo-information Science, 2018,20(11):1562-1570. ]

[16]	Xu Y Y, Wu L, Xie Z, et al. Building extraction in very high resolution remote sensing imagery using deep learning and guided filters[J]. Remote Sensing, 2018,10:144-161.

[17]	Qin Y C, Wu Y C, Li B, et al. Semantic segmentation of building roof in dense urban environme-nt with deep convolutional neural network: A case study using GF2 VHR imagery in China[J]. Sensors, 2019,19:1164-1175.

[18]	Ye Z R, Fu Y Y, Gan M Y, et al. Building extraction from very high resolution aerial imagery using joint attention deep neural network[J]. Remote Sensing, 2019,11:2970-2990.

[19]	王宇, 杨艺, 王宝山, 等. 深度神经网络条件随机场高分辨率遥感图像建筑物分割[J]. 遥感学报, 2019,23(6):1194-1208. [ Wang Y, Yang Y, Wang B S, et al. Building segmentation of high-resolution remote sensing image of random airport under the condition of deep neural network[J]. Journal of Remote Sensing, 2019,23(6):1194-1208 ]

[20]	范荣双, 陈洋, 徐启恒, 等. 基于深度学习的高分辨率遥感影像建筑物提取方法[J]. 测绘学报, 2019,48(1):34-41. [ Fan R S, Chen Y, Xu Q H, et al. Building extraction method of high-resolution remote sensing image based on deep learning[J]. Acta Geodaetica et Cartographica Sinica, 2019,48(1):34-41. ]

[21]	Liu Y H, Gross L, Li Z Q, et al. Automatic building extraxtion on high-resolution remote sensing i-magery using deep convolutional encoder-decoder with spatial pyramid pooling[J]. IEEE Access, 2019,7:128774-128786.

[22]	杨嘉树, 梅天灿, 仲思东. 顾及局部特性的 CNN 在遥感影像分类的应用[J]. 计算机工程与应用, 2018,54(7):188-195. [ Yang J S, Mei T C, Zhong S D. Application of CNN considering local characteristics in remote sensing image classification[J]. Computer Engineering and Application, 2018,54(7):188-195. ]

[23]	Ronneberger O, Fischer P, Brox T. U-net: convolutional networks for biomedical image segmentation[C]. International Conference on Medial Image Computing and Computer-Assisted Intervention, Cham: Springer International Publishing, 2015:234-241.

[24]	Clevert D A, Unterthiner T, Hochreiter S. Fast and accurate deep network learning by exponential linear units (elus)[J]. Computer Science, 2015:334-337.

[25]	Nair V, Hinton G E. Rectified linear units improve restricted boltzmann machines[C]. International Conference on Machine Learning, 2010.

[26]	Zhou L C, Zhang C, Wu M. D-LinkNet: LinkNet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction[C]. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW) IEEE, 2018:182-186.

[27]	Wiedemann C, Heipke C, Mayer H. Empirical evaluation of automatically extracted road axes[J]. Empirical Evaluation Techniques in Computer Vision, 1998:172-187.

[28]	Marcu A, Costea D, Slusanschi E, et al. A multi-stage multi-task neural network for aerial scene in-terpretation and geolocalization[J]. ArXiv:1804.01322v1, 2018.

[29]	Khalel A, El-Saban M. Automatic pixelwise object labeling for aerial imagery using stacked u-nets[J]. ArXiv:1803.04953, 2018.

[30]	Pan X, Yang F, Gao L, et al. Building extraction from high-resolution aerial imagery using a generative adversarial network with spatial and channel attention mechanisms[J]. Remote Sensing, 2019,11(8):917-934.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 研究方法

2.1 技术路线

图1 技术路线

图2 FE-Net网络模型

2.2 编码

图3 编码器端结构

图4 编码器端不同k值对应的各个特征图参数

2.3 解码

图5 解码器端结构

图6 解码器端不同k值对应的各个特征图参数

2.4 特征增强

图7 本文特征增强结构

2.5 FE-Net网络模型

图8 网络模型FE-Net结构

表1 FE-Net网络模型中各个特征图的对应参数

3 实验数据及评价指标

3.1 数据与预处理

图9 数据集示例（美国马萨诸塞州建筑物)

3.2 实验环境

表2 实验环境

3.3 精度评价指标

4 实验结果与分析

4.1 网络结构层数对提取效果的影响

图10 各网络模型对于小尺度建筑物的提取效果

图11 各网络模型提取建筑物效果

表3 不同网络结构层数实验结果对比

4.2 特征增强和激活函数对提取效果的影响

图12 各网络模型提取小尺度建筑物以及不规则建筑物效果

图13 各网络模型提取不规则建筑物效果

图14 各网络模型提取建筑物效果

表4 网络模型实验结果对比

4.3 网络模型FE-Net与其他研究成果比较

表5 基于美国马萨诸塞州建筑物数据集的实验结果

5 结论

参考文献