Building Extraction by Deep Learning Method Combined with Ambiguity and Morphological Index Constraints

  • XU Zeyu , 1, 2 ,
  • SHEN Zhanfeng , 1, 4, * ,
  • LI Yang 1, 3 ,
  • KE Yingming 1, 4 ,
  • LI Shuo 1, 4 ,
  • WANG Haoyu 1, 2 ,
  • JIAO Shuhui 1, 2
Expand
  • 1. National Engineering Research Center for Geomatics, Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100101, China
  • 2. School of Electronic, Electrical and Communication Engineering, University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. State Key Laboratory of Remote Sensing Science, Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100101, China
  • 4. College of Resources and Environment, University of Chinese Academy of Sciences, Beijing 100049, China
*SHEN Zhanfeng, E-mail:

Received date: 2020-07-26

  Request revised date: 2020-11-23

  Online published: 2021-07-25

Supported by

National Key Research and Development Project(2018YFB0505000)

National Key Research and Development Project(2017YFB0504204)

National Key Research and Development Project(2016YFC0803109)

National Natural Science Foundation of China(41971375)

National Natural Science Foundation of China(41871283)

Copyright

Copyright reserved © 2021

Abstract

Extraction of buildings from high-resolution remote sensing images has been a hot topic. It is important to quickly and accurately extract the location and outline of buildings from high-resolution remote sensing images for earthquake disaster assessment, urban and rural planning management, smart city construction, and other fields. However, it is challenging to extract buildings accurately from high-resolution remote sensing images due to the complexity of ground features and the occlusion phenomenon. The classic building extraction algorithms usually have incomplete results with many wrong detections and missed detections. The deep-level feature extraction method of deep learning is very suitable for the extraction of buildings from high-resolution images. However, for the existing researches using deep learning algorithms, most algorithms are optimized by changing the network structure and are rarely combined with other methods. The pertinence of building extraction is not strong. This paper not only studies the influence of the internal structure of the convolutional neural network in deep learning on the extraction results, but also studies the combination of ambiguity, Morphological Building Index (MBI) with deep learning. The main improvements in this paper are as follows: (1) Based on the DeepLab v3+ network structure, we propose the PwDeepLab network which improves feature fusion methods and loss functions; (2) We propose a blur degree constraint method. We define a new blur degree formula to evaluate the image blur degree. In the case of a fixed image block size, the image is upsampled and enhanced by the image blur degree constraint; (3) We propose a morphological index constraint method. The pixels of the original image are stretched and enhanced where the Morphological Building Index (MBI) is above the threshold. Therefore, the building information can be highlighted with less changes to the original image characteristics. Our method is verified using the Massachusetts dataset and the satellite dataset II (East Asia) of Wuhan University. The main building types of the two datasets are quite different. As a result, the accuracy of the proposed method on the two datasets increases by 10.9% and 3.8%, respectively, compared with DeepLab v3+, and increases by 10.0% and 9.6%, respectively, compared with U-Net. The higher accuracy reflects the superiority and robustness of our method. Moreover, the extracted results match the real labels very well in details. The experimental results show that the method proposed in this paper can significantly improve the building extraction results.

Cite this article

XU Zeyu , SHEN Zhanfeng , LI Yang , KE Yingming , LI Shuo , WANG Haoyu , JIAO Shuhui . Building Extraction by Deep Learning Method Combined with Ambiguity and Morphological Index Constraints[J]. Journal of Geo-information Science, 2021 , 23(5) : 918 -927 . DOI: 10.12082/dqxxkx.2021.200397

1 引言

遥感影像中建筑物信息提取很多年来一直是热门课题[1],从高分辨率遥感影像中快速、准确提取建筑物的位置、轮廓等信息,在地震灾害评估、城乡规划管理、智慧城市建设等领域有着重要价值[2],但由于高分辨率遥感影像地物特征复杂、存在遮挡现象等原因,高精度建筑物提取存在困难。目前高分辨率影像建筑物提取方法中,常用的有基于直接利用建筑物特征的方法、建筑物指数的方法、面向对象的方法、基于深度学习的方法等。
直接利用建筑物特征的方法通获取建筑物光谱、形状特征等对建筑物进行提取[3,4],这种方法易于实现但结果中斑点较多,对复杂地物情况适应性较差。常用的建筑物指数有基于光谱特征的归一化建筑指数NDBI(Normalized Difference Built-up Index)[5,6]和基于形态学的建筑指数MBI(Morphological Building Index)[7]等。其中NDBI及其改进指数常用于中分辨率城镇用地信息提取[8,9],但只使用了光谱信息,在高分辨率复杂影像中提取效果有待进一步提高。MBI及相关形态学指数可以用于高分辨率影像中提取建筑物[10],但其提取结果中边缘不够平滑,噪声较多,因此也难以达到较完整的提取效果。面向对象的方法是一般以多尺度分割为基础,是一种先分割后分类的方法,常与特征检测、指数提取等方法结合。贺晓璐等[11]使用worldview-2数据,通过面向对象的方法,对建筑物进行了较好的提取,其研究结果表明DSM数据和红色边缘波段对其分类精度的影响大,但这2种数据源获取不易,且该方法分割尺度和规则的确定较为复杂。 游永发等[12]提出一种基于面向对象与形态学结合的方法,在高分辨率复杂场景下的建筑物信息提取中有较好的效果,但其结果仍存在破碎多、漏检多等问题。
近些年来,深度学习广泛用于遥感图像的分类、识别、检索和提取[1]。深度学习中的卷积神经网络可以同时提取地物的光谱、纹理、形状等信息,并且其深度特征提取的特点非常适合建筑物信息的识别,很多学者使用深度学习方法对遥感建筑物提取进行了研究。Guo等[13]在U-Net网络[14]基础上,与注意力机制和多重损失方法结合,在公开数据集上实验证明其方法可以提高建筑物提取精度。Kang等[16]通过密集空间金字塔池提取多尺度等特征,并通过focal loss[15]抑制错误标签的影响,得到了高精度的网络提取模型。Liu等[17]通过减少下采样层,与密集上采样模块结合等方法,建立了新的网络结构,在多个数据集上验证,得到了很好的提取效果。朱光亚等[18]在使用深度学习网络前中对原始数据进行了增强,但仅用了基本的高斯滤波、直方图均衡化等方法,对提取精度和效果影响有限。这些研究与基于建筑物指数、面向对象等方法相比,虽然在提取效果和精度上都有进一步的提高,但主要关注于卷积神经网络结构的优化,很少与其他建筑物提取方法的结合,对建筑物提取针对性不强。
本文在改进和优化深度学习内部结构的同时,也通过模糊度、形态学建筑指数(MBI)等与深度学习的结合,进一步提高建筑物提取精度。首先改进现有的DeepLab v3+网络结构[19],得到对轮廓等信息提取更完整的PwDeepLab网络。在此基础上,从通过模糊度约束增强,突出影像细节信息;通过形态学指数约束增强,突出建筑物区域信息,综合提高建筑物提取效果。

2 研究方法

本文研究以改进后的PwDeepLab为核心,通过模糊度约束和形态学指数约束增强提高建筑物的提取效果(图1)。首先计算样本模糊度,并根据模糊度进行上采样增强。增强后的图像计算MBI指数,以该指数计算结果对影像进行窗口增强,增强后的影像进入PwDeepLab网络模型,得到建筑物提取结果。
图1 结合模糊度和形态学指数约束的建筑物提取总体流程

Fig. 1 Overall flow chart of building extraction combined with ambiguity and morphological index constraints

2.1 PwDeepLab网络

本文以DeepLab v3+网络为基础,改进得到PwDeepLab网络,DeepLab v3+综合运用了深度学习语义分割领域算法中的多种优秀结构,包括编码器-解码器、空洞卷积、金字塔池化、级联、Xception[20]等,可以对多尺度影像特征进行提取,并获得很好的语义分割效果,但由于建筑物提取对结果的轮廓信息等要求较高,本文在DeepLab v3+基础改进得到PwDeepLab网络。主要改进原来的特征融合方式,原DeepLab v3+网络通过第一次卷积压缩,减少低层特征的比重,以突出高层特征,利于图像类别等信息的判断,但对于建筑物提取,不需要分出很多类别,因此取消了第一次卷积操作。同时由于低层特征没有被压缩,其与高层特征有相同的通道数,因此可以直接使用逐位相加(Point-wise addition)方法结合低层特征和高层特征。原DeepLab v3+网络中需要将2个特征先拼接,再进行卷积操作,才能得到融合后的特征,而逐位相加对两个特征直接逐点位相加,无需后续卷积过程,在精简结构的同时,可以更好地获取建筑物轮廓信息[21,22]。修改后的特征融合结构如图2所示。
图2 特征融合结构对比

Fig. 2 Preprocessed images of this study

PwDeepLab使用了更精简的特征融合方式,减少了卷积操作,并通过逐位相加保留更多的轮廓信息,在改善提取效果的同时,减少了计算资源损耗。由于样本中建筑物和背景数量和分布不均匀,本文采用加权交叉熵损失函数,根据样本确定权重系数,对建筑物和背景使用不同的损失权重。

2.2 模糊度约束增强

研究人工建筑物勾绘过程,通常需要适度放大影像,才能进行准确勾绘。一方面,影像放大后,建筑物边缘更容易准确勾绘;另一方面,影像放大后,显示的地理范围缩小,对所勾绘目标更专注。而深度学习中的卷积神经网络是模拟人脑识别的模型,因此也可以通过类似过程优化提取结果。本文模拟该过程,在影像进入卷积神经网络之前,进行上采样增强处理,同时固定影像输入尺寸(500像素×500像素),使上采样增强后,每个输入神经网络的影像块所表示的地理范围也发生变化。
影像通过上采样放大时,其模糊度也会逐渐增大,当模糊到一定程度时,会对提取效果产生影响。另外,如果放大后每个影像子区域地理范围太小,也会影响提取精度。因此需要对上采样增强过程进行约束,本文通过计算影像的模糊度对影像的上采样过程进行约束限制。基于Pech-Pacheco等提出的通过Laplacian 梯度函数计算图片清晰度的方法[23],本文定义模糊度如下:
Am = α 1 S Laplacian X
式中: X 表示影像; S 表示方差; α 为缩放参数。本文中取 α =100, Am 为模糊度,其值越大表示影像越模糊。基于模糊度 Am ,本文提出影像的模糊度约束增强方法(图3),具体过程为:首先计算影像模糊度,如果影像本身模糊度过大( Am 1 ),则不进增强处理,如果影像本身模糊度不大( Am < 1 ),则进行上采样增强,增强后再次检测模糊度,如果模糊度小于1,则输出影像,如果模糊度不小于1,则重复上采样增强过程,根据此流程,当模糊度首次小于1时,该次影像作为增强后影像。为避免上采样过程过于复杂,使用双线性插值算法,每次上采样后影像行、列均放大为原影像的2倍。通过这样的方法,使影像得以适度上采样放大增强,与PwDeepLab网络内部的多尺度特征提取结构(金字塔池化等)结合,可以对影像中建筑物更精细地提取。
图3 模糊度约束增强流程

Fig. 3 Flow chart of ambiguity constraint enhancement

2.3 形态学建筑物指数约束

数学形态学作为区域特征描述中的一个有效工具,经常被用来提取影像中的感兴趣区域。形态学建筑指数MBI主要用于高分辨率影像中的建筑物提取,将建筑物的亮度、大小、对比度等特征与形态学相结合,可以在一定程度上对提取出建筑物信息,形态学建筑物指数主要提取步骤如下:
(1)计算亮度值
b ( x ) = max 1 k K ( M k ( x ) )
式中: M k ( x ) 是在像素 x 处波段 k 的亮度值; K 为输入的波段数。
(2)形态学白帽重构
WTH = b - MO ( b , d , s )
式中: MO ( b , d , s ) 是对第一步中得到的影像b进行形态学开运算,其中 d s 分别代表线性结构元素的方向和尺度。
(3)计算微分形态学剖面DMP
DMP = WTH ( d , ( s + Δ s ) ) - WTH ( d , s )
(4)计算形态学建筑物指数MBI
MBI = mean ( DMP )
通过上述的形态学建筑指数算法,得到影像的形态学建筑指数,再通过阈值分割,得到MBI提取结果图(图4)。由图4可以看出,MBI提取结果与真值图相比虽然存在漏检、误检等多种问题,但仍在一定程度上提取了建筑物信息。
图4 MBI提取结果

Fig. 4 Result diagram of MBI extraction

由于深度学习网络本身可以提取影像中的光谱、纹理、形状等多种信息,如果直接将MBI结果作为输入数据,或直接叠加到原始图像中,则会造成信息冗余,甚至影响或干扰部分特征的表达,因此本文通过MBI对原始影像进行约束增强,以在较少改变原始影像特征的情况下,融入形态学建筑物信息。具体方法为,以MBI提取结果为窗口,在该结果为建筑物的区域,对原影像(原多光谱影像)线性拉伸增强,而其它区域保持不变。因此得到的影像在较大限度保留原始影像信息的基础上,突出了建筑物区域的信息。

3 实验与分析

3.1 数据集和研究环境

本文使用2个不同数据集进行研究,分别为Massachusetts数据集[24](美国马萨诸塞州建筑物公开数据集,https://www.cs.toronto.edu/~vmnih/data/)和武汉大学发布的Satellite dataset Ⅱ(East Asia)数据集(https://study.rsgis.whu.edu.cn/pages/download/[25]。其中Massachusetts数据集影像分辨率为1 m,其建筑以城市建筑为主,该区域有训练集影像137景,测试集影像10景,大小均为1500像素×1500像素。武汉大学数据集空间分辨率为0.45 m,其建筑以农村建筑为主,有少部分城市建筑(图5),该区域有训练集3135景,测试集903景,大小均为512像素×512像素。2个数据集中影像均为红、绿、蓝3个波段影像,并有对应建筑物信息的标记数据,本文中作为真实标签数据,本文使用两个数据集已划分好的训练集和测试集进行研究2个数据集在影像区域、内容等方面有较大区别,可以验证本文算法的通用性和适应性。本文采用Windows 10操作系统和TensorFlow深度学习框架,GPU采用NVIDIA GeForce TITAN X(Pascal)。
图5 研究数据集示意图

Fig. 5 Schematic diagram of the research dataset

本文采用精确度(Precision)、召回率(Recall)、F1得分和精度等值点作为结果的评价指标,以样本标签为参考标准影像,以正类表示建筑物,负类表示背景。TP(True Positive)表示实际为正类,提取为正类的个数,FP(False Positive)表示实际为负类,提取为正类的个数,FN(False Negative)表表示实际为正类,提取为负类的个数。由此,得到评价指标:
Precision = TP TP + FP
Recall = TP TP + FN
F 1 = 2 × Precision × Recall Precision + Recall
精确度 Precision 表示提取正确的像素占所有预测结果的比值,召回率 Recall 表示提取正确的像素占所有正确建筑物区域的比值。 F 1 表示精度的综合评估。深度学习得到的结果是各类别的概率值,通过阈值提取建筑物信息,随着阈值的提高,精确度逐渐上升,召回率逐渐下降,拟合计算阈值变化过程中精确度和召回率的等值点,以综合评估模型精度。为了更精确地表示建筑物提取精度,本文不采用松弛等值点的方法[22],严格按每个像素的值计算精度等值点。由于本文算法中涉及到影像尺度的改变,评价时均还原到原始尺度以进行客观的评价。

3.2 Massachusetts数据集提取结果

为更好地评估模型,使用经典的U-Net网络[26]进行对比,使用全部测试集进行逐像素精度评价,评价表如表1所示,其中PwDeepLab.A表示使用模糊度约束方法,在Massachusetts数据集中,原始影像模糊度为0.019,根据模糊度限制,影像的行、列尺寸变为了原来的4倍。PwDeepLab.A.M表示使用模糊度约束和形态学建筑指数约束方法,其尺寸变化与PwDeepLab.A相同,形态学指数约束增强设置为10%线性拉伸增强。
表1 Massachusetts数据集各算法提取精度

Tab. 1 The extraction accuracy of each method on Massachusetts dataset

精确度 召回率 F1 等值点
U-Net 0.7455 0.7988 0.7712 0.7712
DeepLab v3+ 0.7826 0.7417 0.7616 0.7649
PwDeepLab 0.7853 0.7783 0.7818 0.7821
PwDeepLab.A 0.8271 0.8414 0.8342 0.8339
PwDeepLab.A.M 0.8459 0.8513 0.8486 0.8483

注:红色加粗数值为各列最优值。

根据表1,PwDeepLab算法相对于DeepLab v3+算法提升了精度,使用模糊度约束算法后,精度有更明显的提升,而加入形态学指数约束后的PwDeepLab.A.M方法后精度达到最优,比原始DeepLab v3+等值点精度提高了10.9%,比U-Net等值点精度提高了10.0%,在精确度、召回率、F1得分等方面也展现了更好的提取效果。图6展示了不同方法的典型区域细节对比,在图6(a)中对红框内建筑物的提取,PwDeepLab.A和PwDeepLab.A.M效果较好,而对于红框右侧细长型建筑物的提取, U-Net、DeepLab v3+、PwDeepLab没有检测出来,PwDeepLab.A中有过多提取,而PwDeepLab.A.M提取效果更好。图6(b)中,右上角建筑区PwDeepLab.A.M提取效果最好。图6(c)中,U-Net网络出现多处误提区域,DeepLab v3+、PwDeepLab、PwDeepLab.A等方法在提取的建筑物间均有不同程度的粘连,其中PwDeepLab.A粘连最少,而PwDeepLab.A.M方法由于使用了MBI约束增强,很好地避免了粘连现象。图6(d)中红框部分PwDeepLab.A和PwDeepLab.A.M均有很好的效果,PwDeepLab.A.M效果更好而在下面部分较大型建筑物部分,PwDeepLab.A.M方法有更好的细节提取效果。图6(e)中,左上角区域PwDeepLab.A.M的提取结果最接近样本标签值,而其他方法均有较大的提取错误。综合可以看出,U-Net网络有较好的细节、轮廓提取效果,但漏检、误检过多,由于其特征提取部分使用的是VGG16网络结构[24],提取能力较差,但其包含更多特征融合过程,因此细节提取较好。而DeepLab v3+ 网络特征提取使用的是Xception网络结构,以及特征金字塔池化等,特征提取能力更强,因此漏检、错检更少,但其特征融合效果不如U-Net,在结果轮廓、细节方面表现不佳。PwDeepLab则优化了特征融合结构,使其在特征提取和融合方面都有所提升。在加入模糊度约束增强后,细节提取效果有了进一步提升,但该增强方法没有针对建筑区信息,仍存在错检漏、检现象,而加入形态学建筑指数增强后,由于突出了建筑信息,得到了最好的提取效果。
图6 Massachusetts数据集提取效果细节

注:红框部分PwDeepLab.A和PwDeepLab.A.M均有很好的效果,PwDeepLab.A.M效果更好而在下面部分较大型建筑物部分,PwDeepLab.A.M方法有更好的细节提取效果。

Fig. 6 Details of the extraction effect of the Massachusetts dataset

3.3 Satellite dataset Ⅱ(East Asia)数据集提取结果

使用与Massachusetts数据集相同的算法进行实验和评估。在Satellite dataset Ⅱ(East Asia)数据集中,原始图像模糊度为0.654,模糊度比Massachusetts数据集更大,根据模糊度限制,PwDeepLab.A和PwDeepLab.A.M方法影像的行、列尺寸变为了原来的2倍,PwDeepLab.A.M中的形态学指数约束中同样设置为10%线性拉伸增强。多种方法结果精度见表2
表2 Satellite dataset Ⅱ(East Asia)各方法提取精度

Tab. 2 The extraction accuracy of each method on Satellite dataset Ⅱ (East Asia) dataset

精确度 召回率 F1 等值点
U-Net 0.7584 0.7377 0.7479 0.7490
DeepLab v3+ 0.7848 0.7969 0.7908 0.7907
PwDeepLab 0.8247 0.8072 0.8159 0.8168
PwDeepLab.A 0.8285 0.8062 0.8172 0.8175
PwDeepLab.A.M 0.8224 0.8198 0.8211 0.8209

注:红色加粗值为各列最优值。

根据表2,在Satellite dataset Ⅱ(East Asia)数据集的实验中,PwDeepLab.A.M方法也有最优的精度,比原始DeepLab v3+等值点精度提高了3.8%,比U-Net等值点精度提高了9.6%。PwDeepLab比DeepLab v3+精度提高了3.3%,由于该数据集本身模糊度高,模糊度约束增强方法提升幅度不如Massachusetts数据集明显,但仍改善了提取精度虽然加入形态学指数约束后,PwDeepLab.A.M的精确度略有降低,但其召回率、F1得分和等值点都有明显提升,体现了最优的提取结果。
图7展示了典型区域不同方法的细节对比图,在图7(a)中,红框内的建筑存在部分植被遮挡, U-Net只提取了小部分,DeepLab v3+和PwDeepLab算法提取也不完全,而PwDeepLab.A和PwDeepLab.A.M的提取效果则非常接近真实标签图,其中PwDeepLab.A.M效果最好。图7(b)中,中部建筑U-Net提取缺失,PwDeepLab.A.M提取较为完整,且轮廓与真实标签图相近。右下角部分建筑由于本身的折弯等原因,不易于分辨,除PwDeepLab.A.M外,其他方法都没有提取完全。图7(c)中存在合院式建筑,中部和四周为地面,在卷积神经网络轮廓信息恢复时存在困难。PwDeepLab提取结果中轮廓信息明显优于DeepLab v3+结构,体现出本文对特征融合部分的改进可以明显提高轮廓信息提取效果。而PwDeepLab.A和PwDeepLab.A.M则对轮廓信息效果进一步优化,尤其是PwDeepLab.A.M方法,得益于其中形态学建筑指数对建筑物的突出增强,其轮廓信息与真实标签图最为接近。图7(d)中建筑物比较单一,但其光谱信息与周围地物很接近,因此提取存在难度。U-Net、DeepLab v3+、PwDeepLab均存在不完整提取,PwDeepLab.A将建筑物右侧部分地物误提取为了建筑,而PwDeepLab.A.M则较为完整地提取了建筑类型,也体现出形态学指数约束增强的作用。图7(e)建筑物较多且复杂,受光照影响屋顶亮度差异。其中PwDeepLab.A.M效果最好,其他方法则不同程度地出现了轮廓边界模糊、建筑物信息缺失等问题。可以看出,在Satellite dataset Ⅱ(East Asia)数据集中,由于数据模糊度高,U-Net网络的漏检问题更为明显。而由于该数据集本身建筑稀疏,其轮廓信息更易识别,DeepLab v3+的细节、轮廓提取错误相比Massachusetts数据集中较少,但仍可看出在轮廓效果上的不足。PwDeepLab在整体上有明显的效果提升,而加入模糊度约束增强后,细节提取更好,但其误检等问题仍明显存在,加入形态学指数增强后,该方法在此数据集上也体现了最好的提取效果,在建筑细节、轮廓上达到了最优,漏检、误检也最少。
图7 Satellite dataset Ⅱ(East Asia)数据集提取效果细节

注:红框内的建筑存在部分植被遮挡。

Fig. 7 Details of the extraction effect of the Satellite dataset Ⅱ (East Asia) dataset

3.4 结果综合分析

综合3.2节和3.3节的结果分析可得出,本文提出的PwDeepLab网络以及模糊度约束增强、形态学指数约束增强等方法均明显提高了建筑物提取精度,根据图6图7中建筑物提取效果的细节分析,本文提出的方法也得到了最接近真实标签的提取结果。图8为对本文提出的方法与U-Net、DeepLab v3+等方法进行综合对比,本文使用的Massachusetts数据区域位于美国,以城市建筑为主,Satellite dataset Ⅱ(East Asia)数据区域位于东亚,以农村建筑为主,有少量城市建筑。在Massachusetts数据集中,建筑形状复杂且密集,对细节还原较好的U-Net网络有更好的提取效果,DeepLab v3+在特征融合时没有得到更多的细节信息,因此效果较差。在Satellite dataset Ⅱ(East Asia)数据集中,由于其模糊度较大,U-Net网络提取效果不佳,但DeepLab v3+算法使用了Xception等结构,其特征提取能力更强,提取精度有所提升。而本文提出的PwDeepLab.A.M方法则通过改进特征融合方式、模糊度约束增强和形态学建筑指数约束增强的方法,结合了特征提取和特征融合的优势,突出了建筑物区域的信息, 2个不同研究区域都得到了最高的提取精度和最优的提取效果,也体现出本文算法的适应性和通用性。
图8 2个数据集测试精度综合分析统计

Fig. 8 Comprehensive analysis statistics of the test accuracy in the two datasets

在运行时间方面,统计对比2个数据集上不同方法的平均训练时间(图9)。可以得出PwDeepLab方法由于其精简高效的特种融合结构,明显降低了训练时间,提高了训练速度。虽然在加入模糊度约束增强和形态学建筑指数约束增强后,训练时间略有增长,但仍低于原始DeepLab v3+的时间,且考虑到提取精度和效果的明显提升,模型的训练时间是可以接受的。
图9 不同网络结构训练时间对比

Fig. 9 Training time comparison chart in different network structures

4 结论与讨论

本文针对高分辨率遥感影像中建筑物的提取,研究深度学习结构的优化,以及和模糊度约束、形态学指数约束等方法的结合,在城市建筑为主的数据集Massachusetts和农村建筑为主的数据集Satellite dataset Ⅱ(East Asia)数据集上进行实验和精度分析,结果表明本文方法相对于DeepLab v3+网络精度分别提高了10.9%和3.8%,相对于U-Net分别提高了10.0%和9.6%,体现出本文方法的有效性和通用性,基于研究得到如下结论:
(1)基于DeepLab v3+网络,通过改进特征融合方式和损失函数,得到的PwDeepLab网络可以更好地提取建筑物轮廓信息。
(2)在深度学习的卷积神经网络处理前,在固定影像块尺寸的情况下对图像进行一定程度地上采样增强,可以提高建筑物提取效果,其中上采样程度通过图像模糊度进行约束。
(3)通过计算影像形态学建筑物指数(MBI),以MBI提取的建筑区为窗口对影像进行拉伸增强,可以在基本保持原有影像特征的情况下突出建筑物信息,提高建筑物提取效果。
基于本文中的结合模糊度和形态学指数约束的深度学习建筑物提取方法,对城市和农村等多种建筑有很好的提取效果,但仍有改进空间,如对模糊度本身较大、质量较差的影像处理时,模糊度约束增强可能无法发挥足够的效果。因此今后将进一步将深度学习与其他算法的结合,拓宽建筑物提取方法的适应范围。
[1]
龚健雅, 季顺平. 摄影测量与深度学习[J]. 测绘学报, 2018,47(6):693-704.

[ Gong J Y, Ji S P. Photogrammetry and deep learning[J]. Acta Geodaetica et Cartographica Sinica, 2018,47(6):693-704. ]

[2]
李军军, 曹建农, 朱莹莹 等. 高分辨率遥感影像建筑区域局部几何特征提取[J]. 遥感学报, 2020,24(3):233-244.

[ Li J J, Cao J N, Zhu Y Y, et al. Built-up area detection from high resolution remote sensing images using geometric features[J]. Journal of Remote Sensing, 2020,24(3):233-244. ]

[3]
Wang J, Yang X C, Qin X B, et al. An efficient approach for automatic rectangular building extraction from very high resolution optical satellite imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2015,12(3):487-491.

DOI

[4]
张浩, 赵云胜, 陈冠宇, 等. 基于支持向量机的遥感图像建筑物识别与分类方法研究[J]. 地质科技情报, 2016,35(6):194-199.

[ Zhang H, Zhao Y S, Chen G Y, et al. Remote sensing image building recognition and classification based on the support vector machine[J]. Geological Science and Technology Information, 2016,35(6):194-199. ]

[5]
杨山. 发达地区城乡聚落形态的信息提取与分形研究——以无锡市为例[J]. 地理学报, 2000,55(6):671-678.

DOI

[ Yang S. On extraction and fractal of urban and rural residential spatial pattern in developed area[J]. Acta Geographica Sinica, 2000,55(6):671-678. ]

[6]
查勇, 倪绍祥, 杨山. 一种利用TM图像自动提取城镇用地信息的有效方法[J]. 遥感学报, 2003,7(1):37-40.

[ Zha Y, Ni S X, Yang S. An effective approach to automatically extract urban land-use from TM imagery[J]. Journal of Remote Sensing, 2003,7(1):37-40. ]

[7]
Huang X, Zhang L. A Multidirectional and multiscale morphological index for automatic building extraction from multispectral GeoEye-1 imagery[J]. Photogrammetric Engineering and Remote Sensing, 2011,77(7):721-32.

DOI

[8]
陈志强, 陈健飞. 基于NDBI指数法的城镇用地影像识别分析与制图[J]. 地球信息科学, 2006,8(2):137-140.

[ Chen Z Q, Chen J F. Investigation on extracting the space information of urban land-use from high spectrum resolution image of ASTER by NDBI method[J]. Journal of Geo-information Science, 2006,8(2):137-140. ]

[9]
杨智翔, 何秀凤. 基于改进的NDBI指数法的遥感影像城镇用地信息自动提取[J]. 河海大学学报(自然科学版), 2010,38(2):181-184.

[ Yang Z X, He X F. Automatic extraction of urban land-use information from remote sensing hnages based on improved NDBI method[J]. Journal of Hohai University (Natural Sciences), 2010,38(2):181-184. ]

[10]
陈行, 卓莉, 陶海燕. 基于MMBI的高分辨率影像建筑物提取研究[J]. 遥感技术与应用, 2016,31(5):930-938.

[ Chen H, Zhuo L, Tao H Y. Study on building extraction from high spatial resolution images using MMBI[J]. Remote Sensing Technology and Application, 2016,31(5):930-938. ]

[11]
贺晓璐, 刘振华, 胡月明. 基于面向对象的建筑物信息提取方法研究[J]. 河南理工大学学报(自然科学版), 2020,39(2):53-61.

[ He X L, Liu Z H, Hu Y M. Research on object-oriented building information extraction method[J]. Journal of Henan Polytechnic University (Natural Science), 2020,39(2):53-61. ]

[12]
游永发, 王思远, 王斌 等. 高分辨率遥感影像建筑物分级提取[J]. 遥感学报, 2019,23(1):125-136.

[ You Y F, Wagn S Y, Wang B, et al. Study on hierarchical building extraction from high resolution remote sensing imagery[J]. Journal of Remote Sensing, 2019,23(1):125-136. ]

[13]
Guo M Q, Liu H, Xu Y Y, et al. Building extraction based on U-Net with an attention block and multiple losses[J]. Remote Sensing, 2020,12(9):1400.

DOI

[14]
Ronneberger O, Fischer P, Brox T. U-Net: Convolutional networks for biomedical image segmentation[C]. Proceeding of 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015: 234-241.

[15]
Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]. Proceeding of 16th IEEE International Conference on Computer Vision. 2017: 2999-3007.

[16]
Kang W C, Xiang Y M, Wang F, et al. EU-Net: An efficient fully convolutional network for building extraction from optical remote sensing images[J]. Remote Sensing, 2019,11(23):2813.

DOI

[17]
Liu H, Luo J C, Huang B, et al. DE-Net: Deep encoding network for building extraction from high-resolution remote sensing imagery[J]. Remote Sensing, 2019,11(20):2380.

DOI

[18]
朱光亚. 基于深度学习的遥感影像建筑物提取方法研究[D]. 杭州:浙江大学, 2019.

[ Zhu G Y. Research on building extraction from remote sensing images based on deep learning[D]. Hangzhou: Zhejiang University, 2019. ]

[19]
Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]. Proceeding of 15th European Conference on Computer Vision, 2018, 833-851.

[20]
Chollet F. Xception: Deep learning with depthwise separable convolutions[C]. Proceeding of 30th IEEE Conference on Computer Vision and Pattern Recognition, 2017: 1800-1807.

[21]
Chaurasia A, Culurciello E. LinkNet: exploiting encoder representations for efficient semantic segmentation[C]. Proceeding of 2017 IEEE Visual Communications and Image Processing, 2017.

[22]
Zhou L, Zhang C, Wu M. D-LinkNet: LinkNet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction[C]. Proceeding of 31st Meeting of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, 2018: 192-196.

[23]
Pech-pacheco J L, Cristobal G, Chamorro-martinez J, et al. Diatom autofocusing in brightfield microscopy: A comparative study[C]. Proceeding of 15th International Conference on Pattern Recognition, 2000, 314-317.

[24]
Mnih V. Machine learning for aerial image labeling[D]. Toronto: University of Toronto, 2013.

[25]
Ji S, Weu S, Lu M. Fully convolutional networks for multisource building extraction from an open aerial and satellite imagery data set[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019,57(1):574-586.

DOI

[26]
Karen S, Andrew Z. Very deep convolutional networks for large-scale image recognition[C]. Proceeding of 3rd International Conference on Learning Representations, 2019.

Outlines

/