遥感科学与应用技术

基于PRCUnet的高分遥感影像建筑物提取

  • 徐佳伟 , 1 ,
  • 刘伟 , 2, * ,
  • 单浩宇 1 ,
  • 史嘉诚 1 ,
  • 李二珠 1 ,
  • 张连蓬 1 ,
  • 李行 1
展开
  • 1.江苏师范大学地理测绘与城乡规划学院,徐州 221116
  • 2.中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101
* 刘 伟(1983— ),男,安徽宿州人,副教授,主要从事空间数据质量检查、遥感图像处理以及GIS开发与应用研究。E-mail:

徐佳伟(1997— ),男,江苏南京人,硕士生,主要从事深度学习、遥感图像分析处理研究。E-mail:

收稿日期: 2021-05-21

  要求修回日期: 2021-07-09

  网络出版日期: 2021-12-25

基金资助

江苏省研究生科研与实践创新计划项目(KYCX20_2364)

江苏高校优势学科建设工程资助项目

徐州市重点研发计划(社会发展)项目(KC20172)

徐州市重点研发计划(社会发展)项目(KC20172)

资源与环境信息系统国家重点实验室开放基金项目

江苏省自然资源厅科技创新项目(2021046)

江苏省地质矿产勘查局科研项目(2020KY11)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

High-Resolution Remote Sensing Image Building Extraction based on PRCUnet

  • XU Jiawei , 1 ,
  • LIU Wei , 2, * ,
  • SHAN Haoyu 1 ,
  • SHI Jiacheng 1 ,
  • LI Erzhu 1 ,
  • ZHANG Lianpeng 1 ,
  • LI Xing 1
Expand
  • 1. School of Geographic Mapping and Urban Rural Planning, Jiangsu Normal University, Xuzhou 221116, China
  • 2. State Key Laboratory of Resources and Environmental Information Systems, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
* LIU Wei, E-mail:

Received date: 2021-05-21

  Request revised date: 2021-07-09

  Online published: 2021-12-25

Supported by

Postgraduate Research & Practice Innovation Program of Jiangsu Province(KYCX20_2364)

A Project Funded by the Priority Academic Program Development of Jiangsu Higher Education Institutions

Xuzhou Science and Technology Key R&D Program (Social Development) under Project(KC20172)

Xuzhou Science and Technology Key R&D Program(KC20172)

Open Fund of National Key Laboratory of Resource and Environment Information System

Jiangsu Province Land and Resources Science and Technology Plan Project(2021046)

Jiangsu Geology&Mineral Exploration Bureau Science and Technology Plan Project(2020KY11)

Copyright

Copyright reserved © 2021

摘要

基于高分辨率遥感影像的建筑物提取具有重要的理论与实际应用价值,深度学习因其优异的深层特征提取能力,已经成为高分影像提取建筑物的主流方法之一。本文在改进深度学习网络结构的基础上,结合最小外接矩形与Hausdorff距离概念,对建筑物提取方法进行改进。本文主要改进内容为:① 基于Unet网络结构,利用金字塔池化模块 (Pyramid Pooling Module, PPM )的多尺度场景解析特点,残差模块(Residual Block, RB)的特征提取能力以及卷积块注意力模块(Convolutional Block Attention Module, CBAM)对空间信息和通道信息的平衡能力。将金字塔池化、残差结构以及卷积块注意力模块引入到Unet模型中,建立PRCUnet模型。PRCUnet模型更关注语义信息和细节信息,弥补Unet对小目标检测的欠缺;② 基于最小外接矩形与Hausdorff距离,改进建筑物轮廓优化算法,提高模型的泛化能力。实验表明,本文的建筑物提取方法在测试集上准确率、IoU、召回率均达到0.85以上,精度显著优于Unet模型,提取出的建筑物精度更高,对小尺度及不规则的建筑物有较好的提取效果,优化后的建筑物轮廓更接近真实的建筑物边界。

本文引用格式

徐佳伟 , 刘伟 , 单浩宇 , 史嘉诚 , 李二珠 , 张连蓬 , 李行 . 基于PRCUnet的高分遥感影像建筑物提取[J]. 地球信息科学学报, 2021 , 23(10) : 1838 -1849 . DOI: 10.12082/dqxxkx.2021.210283

Abstract

Building extraction based on high-resolution remote sensing images has important theoretical and practical applications. Deep learning has become one of the mainstream methods for extracting buildings from high-resolution images because of its excellent deep feature extraction ability. In this paper, based on an improved structure of deep learning network, we combined the concept of minimum outer rectangle and Hausdorff distance to improve the building extraction method. The main improvements in this paper are: ① Based on the Unet network structure, we employed the multi-scale feature detection ability of Pyramid Pooling Module (PPM), the great feature extraction capability of Residual Block (RB), and the ability to balance spatial and channel information of Convolutional Block Attention Module (CBAM). The PPM, RB, and CBAM were introduced to the Unet model to build the PRCUnet model, which focuses more on semantic and detailed information and overcomes the limitation of Unet in small target detection; ② We improved the building contour optimization algorithm based on the minimum outer rectangle and Hausdorff distance to improve the generalization ability of the model. Experiments show that the accuracy, IoU, and recall of the building extraction method proposed in this paper reached above 0.85 using the test set, significantly higher than those of the Unet model. The PRCUnet model also had better extraction effect on small-scale and irregular buildings than Unet, and the optimized building contours were close to the real building boundaries.

1 引言

随着对地观测技术的迅速发展,遥感影像空间分辨率显著提高,人们可从遥感影像上获得更准确的几何结构、纹理特征及更丰富的地物信息[1]。建筑物数据不仅对城市规划、变化检测、灾害管理具有重大意义,也是基于位置服务的重要基础数据[2]。因此,基于高分辨率遥感影像的建筑物提取具有重要的理论与实际应用价值。虽然高分辨率遥感影像为建筑物提取提供了很好的数据基础,但建筑物的识别与提取依然是一项繁琐而又昂贵的任务,十分依赖于人工解译以及建筑物矢量化,耗费了大量的人力物力。实现从遥感影像中自动提取建筑物,并保证其精度,需要一套灵活、鲁棒的自动提取算法[3,4]
近年来,深度学习成为遥感图像解译的新热点[5],深度卷积神经网络(Deep Convolutional Neural Networks,DCNN)因其优异的深层特征提取能力,在场景分类[6,7]、变化检测[8]和目标提取[9]中已超越了常用的图像解译方法[10]。然而,探索较优的深度卷积神经网络架构依旧是一个巨大的挑战。Mnih[11]公布了马萨诸塞州建筑物数据集,在该数据集上实验了一个新型的深度神经网络,该网络可以同时处理上下文、噪声标签和结构化输出的问题,提取建筑物的最高精度达0.92。Saito等[12]在Mnih提供的数据集基础上,改进了卷积神经网络结构,同时提出了一个新的通道抑制函数来代替原有的损失函数,进一步提高了提取精度。Maggiori等[13]使用卷积神经网络对遥感影像进行了密集的像素分割,利用上下文信息提取细粒度的分类图,并在输出中自动生成分类图,在ImageNet数据集上进行测试,取得了较好的精度。Jonathan等[14]提出了一个全卷积神经网络(Fully Convolutional Network,FCN),通过端到端的编码-解码方式,执行基于像素的图像分割。然而,FCN的低分辨率输出忽略了定位精度,导致语义分割结果不够准确。
Ronneberger等[15]提出的Unet是对FCN的改进,Unet在FCN的编码-解码之间添加了跳跃连接,通过跳跃连接,解码器可以从编码器接收低层次特征,形成输出并保留边界信息。该网络通过对图像特征的编码与解码,融合网络高低层语义特征,可以实现较好的提取效果。Guo等[16]基于Unet网络基础,将多重损失方法与注意力机制结合,在公开数据集上证明了其方法的有效性。Kang等[17]通过密集空间金字塔池化(DSPP)提取多尺度特征,并通过focal loss[18]来抑制错误标签对训练的影响,将预测效率提高了2~4倍。Ye等[19]提出了RFA-Unet,联合注意力机制对建筑物进行了自动提取,总体精度达到0.94以上。Liu等[20]基于残差特征和特征金字塔多尺度预测的特点,提高了对小目标建筑物检测的精度。虽然以上深度学习方法一定程度上提高了建筑物提取精度,但依旧存在以下不足:① 提取细节特征的能力不足,难以从大量特征中筛选出有效特征;② 针对不同尺度,不同形状的建筑物,无法提取出精准的的建筑物边界。
本文将卷积神经网络与建筑物轮廓优化算法结合,挖掘高分遥感影像的潜在价值。基于Unet网络基础,建立PRCUnet网络模型,其中PRC为金字塔池化模块(Pyramid Pooling Module, PPM)、残差模块(Residual Block, RB)以及卷积块注意力模块(Convolutional Block Attention Module, CBAM)首字母缩写的组合。本文主要贡献在4个方面:① 为充分获取多尺度建筑物的全局信息,增强不同尺度、不同形状建筑物的提取能力,迁移了多尺度语义特征解析的金字塔池化模块;② 为提高卷积层的提取能力,一定程度上消除Unet低层-高层特征直连导致的语义鸿沟,使用残差跳跃路径代替原有网络的跳跃直连方式;③ 为去除无效特征对网络模型产生的影响,嵌入卷积块注意力模块对空间(spatial) 信息和通道(channel)信息进行权重分配,在大量信息中筛选出有效特征;④ 针对建筑物轮廓不规整问题,基于最小外接矩形和Hausdorff距离改进了建筑物轮廓优化算法。实验表明:PRCUnet网络模型及建筑物轮廓优化算法具有较强的泛化能力,性能稳定、鲁棒性强。

2 研究方法

2.1 PRCUnet网络模型

图1所示,PRCUnet基于Unet网络架构,引入卷积块注意力模块(CBAM)、残差模块(Res Block)及金字塔池化模块(PPM),提升网络性能。PRCUnet网络对称进行4次上、下采样,左半部分为编码路径,通过下采样减少数据的空间维度,从浅层至深层获取高层语义特征。特征图从256×256×3逐渐下采样为为16×16×512,过滤掉噪声和不重要的高频信息。Res Block是批处理规范化(Batch Normalization)、校正线性单元(ReLU)激活、卷积层和CBAM的组合,利用BN (Batch norm) 层进行归一化处理,加快模型收敛速度,提升模型的泛化性能,利用ReLU激活函数消除深度网络中的梯度消失问题[21]。PPM连接编码路径与解码路径,在网络中起到了桥梁的作用,扩大了过滤器的视野。
图1 PRCUnet模型结构

Fig. 1 The structure of PRCUnet

PRCUnet网络右半部分为解码路径,由自底向上的反卷积层组成,把提取的深层次特征最近邻上采样到需要的尺寸。在解码开始前加入Dropout层,可以在一定程度上提高模型的泛化能力并减少过拟合。右半部分每一个解码器模块包括两部分输入:上一层反卷积获取的深层特征,以及相应的网络左半部分提取的浅层特征。利用残差跳跃路径将两部分特征进行融合,逐步恢复建筑物的细节特征和空间维度。在每次上采样后,对数据进行加深处理,即利用3×3的卷积核进行2次卷积消除上采样过程中的混淆效应。当特征图上采样为输入图片大小后,输入到1×1的卷积和sigmoid激活函数模块中,从而提供建筑物提取图。
2.1.1 卷积块注意力模块
原始Unet网络认为在经过卷积池化操作后得到的特征通道具有同等重要性,但针对特定提取任务,各通道的特征重要程度并不相同。为避免无效特征对网络模型产生影响,嵌入CBAM对空间信息和通道信息进行权重分配。CBAM是一种轻量高效的卷积注意力模块,相比于挤压和激励模块(Squeeze-and-Excitation Module)中提出的通道注意力,CBAM在其基础上引入了空间注意力。输入任意一个特征图(Feature map),CBAM在特征图的空间和通道2个维度注入注意力映射,再将特征映射乘以注意力,从而对输入的特征图自适应特征细化[22]。本文CBAM结构如图2所示。
图2 卷积块注意力模块

Fig. 2 Convolutional block attention module

给定一个特征图F后,首先通道注意力模块利用全局最大池化和全局平均池化对特征图F进行压缩,再将压缩后的特征输入到多层感知器(MLP)中进行升维降维操作,最后将MLP输出的2个一维向量进行求和运算并通过sigmoid函数得到通道注意力系数 M c M c定义如式(1)所示。
M c = sigmoid ( MLP ( AvgPool ( F ) ) + MLP ( MaxPool ( F ) ) ) = sigmoid W 1 W 0 F a vg c + W 1 W 0 F max c
式中:W0W1为MLP模型中的2层参数;sigmoid为激活函数;AvgPool为均值池化;MaxPool为最大值池化。
CBAM把输入特征图F与通道注意力系数 M c相乘得到新特征F′,再将F′输入到空间注意力模块中,使用均值池化和最大值池化得到2个不同的二维向量,然后使用Concatenation将2个特征合并,并使用卷积操作生成空间注意力系数 M s,将 M s与F′相乘得到最终的注意力特征F″。 M s定义如式(2)所示。
M s = sigmoid ( f 7 × 7 ( [ AvgPool ( F ) ; MaxPool ( F ) ] ) ) = sigmoid f 7 × 7 F avg s ; F max s
式中: f 7×7为卷积核大小为7×7的卷积层。
2.1.2 残差模块
在ResNet提出之前,研究者普遍认为随着网络深度的增加,学习的特征越多,模型的表现就会越好。但随着神经网络深度的不断增加,简单地叠加浅层网络来构建深层网络,并不会提升网络的性能,且常常会带来以下2个问题且常常会带来以下2个问题:① 在经过较长时间的训练后,网络仍然收敛困难甚至无法收敛;② 网络性能在达到一个峰值后,甚至还会出现下降,ResNet的出现有效解决了上述问题[23]
Ibtehaz等[24]认为改进过的残差模块不仅可以克服深层网络学习性能退化以及梯度爆炸等问题,还可以一定程度上消除原始Unet网络中低层-高层特征直连导致的语义鸿沟,保护信息的完整性。本文在PRCUnet网络中借鉴Ibtehaz等[24]的残差连接思想,把残差跳跃路径集成到PRCUnet网络模型中,把CBAM注意力机制嵌入到单个残差模块中,其结构如图3所示。
图3 残差模块

Fig. 3 Residual block

2.1.3 多尺度语义特征解析
网络在指定大小窗口下进行下采样的过程中,传统的池化方法容易漏掉小建筑物的特征信息。为解决建筑物多尺度问题,Liu等[25]通过高斯金字塔技术构建多级训练样本,输入模型以学习不同尺度和不同空间分辨率下建筑物的特征,但该方法遇到复杂建筑物时提取效果较差。另一种是使用多尺度特征提取模块,如ASPP[26]、SPP[27]和Vortex[28]等,这些多尺度特征提取模块在自然图像和遥感图像分割中表现优异。然而,ASPP、SPP和Vortex等难以获取建筑物周围的全局信息。本文在网络中加入金字塔池化模块PPM(Pyramid Pooling Module),对不同区域的场景进行聚合,解析多尺度场景特征信息,获得有效的像素级场景标注的全局信息,避免丢失表征不同子区域关系的场景信息,比全局池化带来更好的特征表示能力。PPM由一组不同尺度的池化块组成,对输入的特征图F进行多次不同尺寸的池化操作得到多个尺寸的特征图,利用1×1的卷积减少特征图的通道数,将不同尺寸的池化结果上采样到输入图像的大小,并在通道上进行拼接,充分获取多尺度建筑物的全局信息。PPM结构如图4所示。
图4 金字塔池化模块

Fig. 4 Pyramid pooling module

2.2 建筑物轮廓优化

现实中的建筑物多为规则多边形,轮廓棱角分明,可归为矩形或者矩形的组合,但建筑物边缘邻近地物的错误分类,导致建筑物提取结果与原始建筑物形状不一致、结构不完整,提取出的建筑物轮廓完整度低且存在较多锯齿。因此,进一步研究建筑物轮廓优化方法对于提高建筑物提取精度具有较强的应用价值。
目前,高分遥感影像中常用的建筑物轮廓优化方法为以下3种:① 最小外接矩形法:根据建筑物轮廓生成最小外接矩形,并用矩形区域无差别覆盖轮廓。该方法简单高效,但生成的建筑物千篇一律,不贴合建筑物的原始轮廓,精度较差;② 凸包拟合法:根据轮廓上的凸点构建一个可以将所有轮廓点包含在内的一个凸多边形。但该方法建模复杂,虽然会生成一个较为贴合的建筑物边界,但生成的边界无法处理丢失的凹陷,完整度低且存在较多锯齿;③ 角点检测法:对提取出的轮廓提取出角点,根据顺序将角点连接起来得到规则的建筑物边界,算法过于复杂,适用性差,且无法修复不规则的建筑物轮廓。
本文基于建筑物轮廓特征出发,基于最小外接矩形和Hausdorff距离改进了建筑物轮廓优化算法。该方法基于最小外接矩形建立新的笛卡尔坐标系,在新的坐标系里计算建筑物轮廓与最小外接矩形的Hausdorff距离,判断出建筑物轮廓的不规则程度,修复原始轮廓的局部凹陷。最后将新得到的边界进行基于道格拉斯-普克算法进行简化,去除冗余角点,从而得到优化后的建筑物轮廓。
2.2.1 基于最小外接矩形的局部笛卡尔坐标系
PRCUnet预测结果为256×256的二值图,建筑物由有限个密集像素点组成,建筑物的轮廓是一 条由顺序相连的坐标点集合表示的闭合曲线。设Z={(x0, y0),(x1, y1),…,(xn, yn)},其中nN*,(x0, y0)=(xn, yn)。曲线Z是以(x0, y0)为起点,(xn, yn)为终点,按照逆时针方向首尾闭合的曲线。
最小外接矩形是带有旋转角度的最贴合建筑物轮廓的外接矩形。Opencv中的最小外接矩形求法是首先对轮廓曲线上的点进行Sklansky运算,从而得到一个包含所有轮廓点的凸包。再进一步对凸包运行旋转卡尺算法(Rotating Calipers),枚举多个矩形比较,面积最小的即为最小外接矩形。
在PRCUnet输入的建筑物预测图中,将图像左上角作为坐标原点O(0, 0),其中水平向右方向为X正方向,垂直向下方向为Y正方向,这是原始的XY坐标系。为了更便捷地计算对轮廓上的点,现以最小外接矩形的左上角顶点(a,b)作为新坐标系的原点,两条垂直邻边为坐标轴建立AB坐标系,两坐标系的对应关系如图5所示。
图5 坐标系转换

Fig. 5 Coordinate system conversion

其中,设AB坐标系内的点Q(A,B)和XY坐标系内的点Q(X,Y)为同一点, θ为最小外接矩形与X轴方向的夹角。经过转换公式,可以实现XY坐标系和AB坐标系内任意一点的坐标转换。坐标正转换公式如式(3)所示。
X = A sin θ - B cos θ + a Y = A cos θ + B sin θ + b
坐标逆转换公式如式(4)所示。
A = ( X - a ) sin θ + ( Y - b ) B cos θ B = - X - a cos θ + Y - b B sin θ
2.2.2 建筑物轮廓区域的划分
在得到包围轮廓的最小外接矩形后,其求法决定了轮廓与矩形的每条边必有一个交点。为了更好的量化轮廓的凹陷程度[29],以及方便计算Hausdorff距离,本文将建筑物轮廓划分为上下链或左右链进行计算。如图6所示。设在新坐标系的AB方向轴,轮廓点上A方向坐标最大的点为E点,最小的为F点,B方向坐标最小的为D点,最大的为C点。当E点B坐标小于b/2时,轮廓以CD点为界,分为上下链。以逆时针为方向,其中CED为上链,DFC为下链。当E点B坐标大于b/2时,轮廓以EF点为界,分为左右链。以逆时针为方向,其中EDF为左链,FCE为右链。
图6 建筑物轮廓链划分

Fig. 6 Building contour chain division

2.2.3 基于Hausdorff距离的建筑物轮廓规整
Hausdorff距离可以用来计算2条轮廓链之间的距离关系。在给定的欧氏空间中存在2个点集,P={P0, P1, P2, P3,…,Pn},Q={Q0, Q1, Q2, Q3,…,Qn},其中P,Q同属于转换后的AB坐标系内。Hausdorff距离定义公式如式(5)、式(6)所示。
H P , Q = max h P , Q , h Q , P
h P , Q = maxmin p - q ( p P , q Q ) h Q , P = maxmin q - p ( p P , q Q )
式中: h P , Q是指点集P到点集Q的单向Hausdorff距离; H P , Q为双向Hausdorff距离。那么利用此概念,通过计算轮廓链P和最小外接矩形链Q之间的Hausdorff距离,将距离与阈值 β比较,从而判断是否需要将链P替换为链Q。其中 β定义为:
β = w × L × S rect S build
式中: S build为提取出的建筑物轮廓面积; S rect为最小外接矩形面积、当轮廓分为上下链时;L则为最小外接矩形的左边界边长,当轮廓分为左右链时,L则为最小外接矩形的上边界边长; w为比例系数,一般取值[0.05, 0.20]。
本文利用Hausdorff距离进行建筑物轮廓拟合的具体步骤如图7所示[30],其中以上链为例:将上链P和最小外接矩形上边界Q等分为n等份,其中n取值为[10, 15],等分为P={P0, P1, P2, P3,…,Pn},Q={Q0, Q1, Q2, Q3,…,Qn}。从上链起点C点出发,沿着建筑物轮廓链P逆时针方向前进,沿着B的负方向前进b/n个像素后,此段为P0Q0为点(B,A)到点(B-b/n,A) 的最小外接矩形边界。计算P0段到Q0段的Hausdorff距离,若 h P 0 , Q 0 < β,则该段可以用Q0线段替换,若 h P 0 , Q 0 > β,则该段可保留。
图7 Hausdorff距离示意

Fig. 7 Hausdorff distance diagram

2.2.4基于道格拉斯-普克法的建筑物轮廓简化
在得到Hausdorff距离的规整后,建筑物轮廓链消除了凹陷部分,但锯齿以及像素点冗余还未解决。本文基于线要素压缩方法道格拉斯-普克法,将提取出的建筑物轮廓去除冗余点,简化成相对规则的多边形,尽可能贴合原始建筑物。
建筑物轮廓优化效果如图8所示,其中AB坐标系是基于最小外接矩形建立的局部笛卡尔坐标系。图8(a)为建筑物原始轮廓,可以看到建筑物轮廓形状极不规则;图8(b)中建筑物轮廓经过基于Hausdorff距离的初步轮廓规整后,与外接矩形差异较小部分,已被外接矩形边界所替换;图8(c)中右上角原始轮廓保留部分在经过道格拉斯-普克法的建筑物轮廓简化后,形成了规整的边界。
图8 建筑物轮廓拟合

Fig. 8 Building profile fitting

3 实验结果与分析

3.1 数据集及实验环境设置

本文数据集来自于住房和城乡建设部信息中心2020年9月招标《全国试点地区房屋建筑和市政设施调查底图制备项目/TC20090EN》[31],共采集了其中的21个县/区的建筑物数据。该数据集空间分辨率为0.3 m,大小为256像素×256像素,分为训练集16 000张、验证集2000张及测试集2063张。该数据集关注阴影遮盖严重及建筑物形状不规则等难分样本,更符合中国城市及乡村建筑物特色。实验环境如表1所示,实验超参数如表2所示。
表1 实验环境

Tab.1 Experimental environment

CPU GPU Memory System TensorFlow Keras Python CUDA CUDNN
Intel(R) Xeon(R) CPU E5- V4 2×Quadro P4000 16GB Ubuntu 16.04 2.0 2.1.5 3.7 9.2 7.6.5
表2 超参数设置

Tab.2 Hyper parameter configuration

Unet Unet+ResBlock Unet+ResBlock+PPM PRCUnet
迭代次数 61 63 63 58
学习率 1e-4 1e-4 1e-4 1e-4
批次大小 16 16 16 16
图像增强

3.2 提取性能指标

为了客观评价PRCUnet的提取性能,本文采用召回率(Recall)、准确率(Accuracy)和交并比(Intersection over Union, IoU) 3个常用评价指标对PRCUnet模型及轮廓优化算法评价。评价指标计算公式如式(8)—式(10)所示。
Recall = TP TP + FN
Accu r acy = TP + TN TP + TN + FP + FN
IoU = Area A B Area A B
式中:TP表示实际为正样本且预测也为正样本的样本数;TN表示实际为负样本且预测也为负样本的样本数;FP表示实际为负样本却误预测为正样本的样本数;FN表示实际为正样本却误预测为负样本的样本数;A代表网络输出的候选框(Candidate bound)、B代表真实标记框(Ground truth bound)。
为验证本文PRCUnet模型的有效性,在实验中将Unet、Unet+Res Block、Unet+ Res Block+PPM与PRCUnet模型在数据集上对比分析,每轮迭代时间分别为25、27、30及31 min。在将Res Block、PPM、CBAM迁移至Unet的过程中,每添加一个模块,则每轮迭代分别增加了2、3及1 min,网络性能提升的同时也增加了网络的参数量与计算量。因PPM包括多个维度特征的池化、卷积与拼接,增加了较多计算时间。CBAM为轻量级模块,筛选有效特征的同时少量增加计算时间。
PRCUnet模型所采用的损失函数为Focal loss,梯度下降算法为SGD(随机梯度下降),学习率为动态学习率。实验初始学习率为1e-4,每批训练16个样本,随着训练误差的变化趋势动态对学习率进行微调。
4种对比模型的训练过程如图9所示。由4种模型训练过程可以看出,随着迭代次数的增加,PRCUnet模型的IoU与Recall指标均为最高,分别收敛在0.846和0.875。
图9 训练过程

Fig. 9 Training process

3.3 PRCUnet提取结果分析

图10为各个模型在测试集上的建筑物提取结果,第一列至第二列为原图和建筑物标签,第三列至第六列分别为Unet、Unet+Res Block、Unet+Res Block +PPM及PRCUnet在测试集上的提取结果。图10中的图像1、2、3中建筑物低矮、面积较小,存在树木、建筑物粘连和阴影遮盖现象。由提取结果可以发现,Unet模型的建筑物提取存在明显的误分和漏分情况。在树木及阴影等干扰条件下,容易漏分。对相邻的建筑物提取时会出现明显的边缘粘连情况,无法得到清晰的建筑物边界,且同时存在很多细碎小斑点。低矮、密集建筑物周边存在椒盐现象,对小目标建筑物的提取效果较差。Unet+Res Block模型的提取结果相比Unet模型,Res Block可以一定程度上消除低层-高层特征直连导致的语义鸿沟,保护信息的完整性。可以看到小面积建筑物群的粘连现象、误分和漏分现象减少,但提取出的建筑物在边缘精度不高,提取结果仍然欠佳。Unet+ResBlock+PPM模型的提取结果相比以上2种模型,由于PPM在建筑物提取的过程中,不仅获取建筑物自身的特征,还获取建筑物周围的场景信息,结合上下文信息,有效提高了建筑物提取精度。建筑物粘连现象也有极大改善,基本消除了椒盐和空洞现象。细碎小斑点明显减少,对小目标建筑物有着不错的提取效果。PRCUnet模型相比以上3种模型,嵌入CBAM后,建筑物黏连现象、细碎斑点基本消失。密集的小目标建筑物群也能提取出清晰的边界,被树木遮挡或被阴影遮盖的建筑物也能提取出大致的边界。
图10 各网络模型提取结果

Fig. 10 Extraciton results of each network model

图10中的图像4、图像5中建筑物面积较大且形状规整。Unet模型对面积较大的建筑物提取时存在空洞现象,容易将道路误判为建筑物,且漏检严重。Unet+Res Block模型对道路的误分现象减少,建筑物粘连现象变少,大面积建筑物内部的空洞现象略微减少,但只能提取出部分正确的边界。Unet+ResBlock+PPM模型的提取结果相比以上2种模型,展现出更多建筑物细节信息。消除了大面积建筑物的内部空洞现象,但建筑物内部的难分边界无法区分。PRCUnet模型相比以上3种模型,提取出的大面积建筑物的外部边界更加精确,建筑物内部的难分边界也得到了正确区分,空洞现象基本消失。
综合分析发现,PRCUnet模型相比以上3种模型,嵌入CBAM,使神经网络更关注有效特征,可以展现出更多建筑物细节信息。虽增加了计算量与参数量,但它对形状不规则的建筑物、小尺度建筑物、密集建筑物、大尺度建筑物提取的效果均较好,误分漏分现象基本消失,提取出的建筑物边缘相对清晰平滑。

3.4 建筑物轮廓优化结果分析

图11为轮廓优化结果,第1列至第4列分别为原图、建筑物标签、PRCUnet提取结果及建筑物轮廓优化结果。通过建筑物轮廓优化结果可以发现,图11中的图像4、图像5等较为规整的建筑物轮廓优化后效果较好,对图像4红色框选区域修复了凹陷。图像1、图像2、图像3红色框选区域的复杂多边形,优化后的轮廓保留了原有建筑物的拐角,更贴近建筑物的真实标签。优化算法对图像2左下部分的树木、阴影干扰起到了一定的修复作用,但对图像5右上角区域的非规则建筑物的优化丢失了建筑物的形状特征,仍需改进。总的来说,本文利用最小外接矩形及Hausdorff距离对轮廓进行优化,得到最终的优化结果。与原始预测结果相比,优化过的轮廓更贴近建筑物的真实标签,进一步改善了建筑物结果的规整性,可以作为建筑物轮廓优化的一种有效方法。
图11 轮廓优化结果

Fig. 11 Contour optimization results

3.5 建筑物提取结果与优化效果评价

4种模型在测试集上的提取性能评价对比由 表3可知:在陆续向基础Unet网络迁移模块的过程中,每迁移一个模块,各项评价指标都得到了增长,表明模块的迁移给网络性能的提升带来了正向反馈。PRCUnet模型的准确率(Accuracy)、交并比(IoU)及召回率(Recall)均高于其他3种模型,分别收敛在0.921、0.851和0.877,相比于Unet模型,性能分别提高了0.048、0.098及0.076,证明了PRCUnet模型的有效性。
表3 PRCUnet评价指标

Table 3 PRCUnet Evaluation index

模型 Accuracy IoU Recall
Unet 0.873 0.753 0.801
Unet+RB 0.886 0.774 0.825
Unet+RB+PPM 0.905 0.821 0.853
PRCUnet 0.921 0.851 0.877
PRCUnet+轮廓优化 - 0.882 -
在PRCUnet模型提取结果的基础之上,采用轮廓优化算法对建筑物轮廓进行优化,IoU提升了0.031,表明优化后的轮廓更贴近建筑物真实轮廓,证明了该算法的有效性。

4 结论

针对高分辨遥感影像建筑物提取方法自动化程度低、复杂场景下精度低以及提取的轮廓不规则等问题,本文在改进深度学习网络结构的基础上,结合最小外接矩形与Hausdorff距离概念,对建筑物提取方法进行更有针对性的改进。改进的PRCUnet模型迁移了卷积块注意力模块、残差模块及金字塔池化模块。卷积块注意力模块对空间信息和通道信息进行权重分配,去除无效特征对网络的影响,使网络更专注于有效特征。残差模块用以解决深层网络学习性能退化以及梯度爆炸等问题,一定程度上消除原始Unet低层-高层特征直连导致的语义鸿沟,保护信息的完整性。金字塔池化模块对不同区域的场景进行聚合,解析多尺度场景特征信息。在遥感图像建筑物数据集的提取实验中,PRCUnet模型的Accuracy、IoU和Recall分别收敛在0.921、0.851和0.877,相比于Unet模型,性能分别提高了0.048、0.098及0.076,验证了模型的有效性。虽然PRCUet模型能够较好地提取高分遥感影像中的建筑物,但其样本制作困难、模型训练时间较长。改进的轮廓优化算法对矩形及矩形组合构成的建筑物轮廓优化具有较好的优化效果,但对一些非直角的建筑物,优化效果仍需改进。此外,如何把二者融合到一个模型中,实现端到端的建筑物高精度提取,还需要进一步研究。
[1]
林祥国, 张继贤. 面向对象的形态学建筑物指数及其高分辨率遥感影像建筑物提取应用[J]. 测绘学报, 2017, 46(6):724-733.

[ Lin X G, Zhang J X. Object-based morphological building index for building extraction from high resolution remote sensing imagery[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(6):724-733. ]

[2]
Chen Q, Wang L, Waslander S L, et al. An end-to-end shape modeling framework for vectorized building outline generation from aerial images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 170:114-126.

DOI

[3]
Cheriyadat A M. Unsupervised feature learning for aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 52(1):439-451.

DOI

[4]
Huang J F, Zhang X C, Xin Q C, et al. Automatic building extraction from high-resolution aerial images and LiDAR data using gated residual refinement network[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 151:91-105.

DOI

[5]
Zhang L P, Zhang L F, Du B. Deep learning for remote sensing data: A technical tutorial on the state of the art[J]. IEEE Geoscience and Remote Sensing Magazine, 2016Jun 7; 4(2):22-40.

DOI

[6]
Tong X Y, Xia G S, Lu Q K, et al. Land-cover classification with high-resolution remote sensing images using transferable deep models[J]. Remote Sensing of Environment, 2020, 237(11):13-22.

[7]
Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: arXiv: 1409.1556. https://arxiv.org/abs/1409.1556

[8]
胡翔云, 巩晓雅, 张觅. 变分法遥感影像人工地物自动检测[J]. 测绘学报, 2018, 47(6):780-789.

[ Hu X Y, Gong X Y, Zhang M. A variational approach for automatic man-made object detection from remote sensing images[J]. Acta Geodaetica et Cartographica Sinic, 2018, 47(6):780-789. ]

[9]
范荣双, 陈洋, 徐启恒, 等. 基于深度学习的高分辨率遥感影像建筑物提取方法[J]. 测绘学报, 2019, 48(1):38-45.

[ Fan R S, Chen Y, Xu Q H, et al. A high-resolution remote sensing image building extraction method based on deep learning[J]. Acta Geodaetica et Cartographica Sinic, 2019, 48(1):38-45. ]

[10]
龚健雅, 季顺平. 摄影测量与深度学习[J]. 测绘学报, 2018, 47(6):693-704.

[ Gong J Y, Ji S P. Photogrammetry and deep learning[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(6):693-704. ]

[11]
Mnih V. Machine learning for aerial image labeling[D]. University of Toronto (Canada), 2013.

[12]
Saito S, Yamashita Y, Aoki Y. Multiple object extraction from aerial imagery with convolutional neural networks[J]. Journal of Imaging Science & Technology, 2016, 60(1):10402.

[13]
Maggiori E, Tarabalka Y, Charpiat G, et al. High-resolution aerial image labeling with convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(12):7092-7103.

DOI

[14]
Jonathan L, Evan S, Trevor D. Fully convolutional networks for semantic segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 39(4):640-651.

DOI

[15]
Ronneberger O, Fischer P, Brox T, et al. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015:234-241.

[16]
Guo M Q, Liu H, Xu Y Y, et al. Building extraction based on U-Net with an attention block and multiple losses[J]. Remote Sensing, 2020, 12(9):1400.

DOI

[17]
Kang W C, Xiang Y M, Wang F, et al. EU-Net: An efficient fully convolutional network for building extraction from optical remote sensing images[J]. Remote Sensing, 2019, 11(23):2813.

DOI

[18]
Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]// Proceedings of the IEEE international conference on computer vision, 2017:2980-2988.

[19]
Ye Z R, Fu Y Y, Gan M Y, et al. Building extraction from very high resolution aerial imagery using joint attention deep neural network[J]. Remote Sensing, 2019, 11:2970-2990.

DOI

[20]
Liu W, Xu J W, Guo Z H, et al. Building Footprint Extraction From Unmanned Aerial Vehicle Images Via PRU-Net:Application to Change Detection[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14:2236-2248.

DOI

[21]
Glorot X, Bordes A, Bengio Y. Deep Sparse Rectifier Neural Networks[C]// Proceedings of the 14th International Conference on Artificial Intelligence and Statistics (AISTATS), 2011:315-323.

[22]
Woo S, Park J, Lee J Y, et al. Cbam: Convolutional block attention module[C]// Proceedings of the European conference on computer vision (ECCV), 2018:3-19.

[23]
He K M, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]// Proceedings of the IEEE conference on computer vision and pattern recognition, 2016:770-778.

[24]
Ibtehaz N, Rahman M S. MultiResUNet: Rethinking the U-Net architecture for multimodal biomedical image segmentation[J]. Neural Networks, 2020, 121:74-87.

DOI PMID

[25]
Liu Y B, Zhang Z X, Zhong R F, et al. Multilevel building detection framework in remote sensing images based on convolutional neural networks[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(10):3688-3700.

DOI

[26]
Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. 2017: arXiv: 1706.05587. https://arxiv.org/abs/1706.05587

[27]
He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9):1904-1916.

DOI

[28]
Xie C W, Zhou H Y, Wu J X. Vortex pooling: Improving context representation in semantic segmentation[J]. 2018: arXiv: 1804.06242, https://arxiv.org/abs/1804.06242

[29]
柳娜, 孙晓亮, 谭毅华. 基于最小外接矩形的直角多边形拟合算法[J]. 计算机科学, 2017, 44(6):294-297,305.

[ Liu N, Sun X L, Tan Y H. Polygon fitting algorithm based on minimum bounding rectangle[J]. Computer Science, 2017, 44(6):294-297,305. ]

[30]
常京新, 王双喜, 杨元维, 等. 高分遥感影像建筑物轮廓的逐级优化方法[J]. 中国激光, 2020, 47(10):249-262.

[ Chang J X, Wang S X, Yang Y W, et al. Hierarchical optimization method of building contour in high-resolution remote sensing images[J]. Chinese Journal of Lasers, 2020, 47(10):249-262. ]

[31]
住房和城乡建设部信息中心. 全国试点地区房屋建筑和市政设施调查底图制备项目公开招标公告[A/OL]. http://www.ccgp.gov.cn/cggg/zygg/gkzb/202009/t20200929_15168096.html 2020-10-20.

[ Information Center of Ministry of Housing and Urban-Rural Development. National pilot area housing construction and municipal facilities survey base map preparation project public tender announcement[A/OL]. http://www.ccgp.gov.cn/cggg/zygg/gkzb/202009/t20200929_15168096.html 2020-10-20. ]

文章导航

/