基于多任务学习的高分辨率遥感影像建筑提取

朱盼盼; 李帅朋; 张立强; 李洋

doi:10.12082/dqxxkx.2021.190805

地球信息科学学报 >

2021 , Vol. 23 >Issue 3: 514 - 523

DOI: https://doi.org/10.12082/dqxxkx.2021.190805

遥感科学与应用技术

基于多任务学习的高分辨率遥感影像建筑提取

朱盼盼 ^,¹^,² ,
李帅朋 ¹^,² ,
张立强 ^,¹^,²^,^* ,
李洋 ¹^,²

展开

1.北京师范大学地理科学学部, 北京 100875
2.北京师范大学环境遥感与数字城市北京市重点实验室, 北京 100875

*张立强（1975- ）,男,山东潍坊人,教授,主要从事深度强化学习、三维建模/重建、时空分析和遥感图像/点云识别研究。E-mail: zhanglq@bnu.edu.cn

朱盼盼（1989- ）,女,河南周口人,博士生,主要从高分辨率光学遥感影像信息提取研究。E-mail: zlyxbmsl@163.com

收稿日期: 2019-12-26

要求修回日期: 2020-04-23

网络出版日期: 2021-05-25

基金资助

国家自然科学基金项目(41371324)

版权

收起

Multitask Learning-based Building Extraction from High-Resolution Remote Sensing Images

ZHU Panpan ^,¹^,² ,
LI Shuaipeng ¹^,² ,
ZHANG Liqiang ^,¹^,²^,^* ,
LI Yang ¹^,²

Expand

1. Faculty of Geographical Science, Beijing Normal University, Beijing 100875, China
2. Beijing Key Laboratory of Environmental Remote Sensing and Digital City, Beijing Normal University, Beijing 100875, China

*ZHANG Liqiang, E-mail: zhanglq@bnu.edu.cn

Received date: 2019-12-26

Request revised date: 2020-04-23

Online published: 2021-05-25

Supported by

National Natural Science Foundation of China(41371324)

Copyright

Fold

摘要

建筑物的自动提取对城市发展与规划、防灾预警等意义重大。当前的建筑物提取研究取得了很好的成果,但现有研究多把建筑提取当成语义分割问题来处理,不能区分不同的建筑个体,且在提取精度方面仍然存在提升的空间。近年来,基于多任务学习的深度学习方法已在计算机视觉领域得到广泛应用,但其在高分辨率遥感影像自动解译任务上的应用还有待进一步发展。本研究借鉴经典的实例分割算法Mask R-CNN和语义分割算法U-Net的思想,设计了一种将语义分割模块植入实例分割框架的深度神经网络结构,利用多种任务之间的信息互补性来提升模型的泛化性能。自底向上的路径增强结构缩短了低层细节信息向上传递的路径。自适应的特征池化使得实例分割网络可以充分利用多尺度信息。在多任务训练模式下完成了对遥感影像中建筑物的自动分割,并在经典的遥感影像数据集SpaceNet上对该方法进行验证。结果表明,本文提出的基于多任务学习的建筑提取方法在巴黎数据集上建筑实例分割精度达到58.8%,在喀土穆数据集上建筑实例分割精度达到60.7%,相比Mask R-CNN和U-Net提升1%~2%。

关键词： 深度学习; 多任务学习; 语义分割; 实例分割; 遥感影像; 建筑提取; Mask R-CNN; U-Net

本文引用格式

朱盼盼 , 李帅朋 , 张立强 , 李洋 . 基于多任务学习的高分辨率遥感影像建筑提取[J]. 地球信息科学学报, 2021 , 23(3) : 514 -523 . DOI: 10.12082/dqxxkx.2021.190805

Abstract

Automatic extraction of buildings is of great significance to urban development and planning, and disaster prevention and early warning. Current researches on building extraction have achieved good results, but the existing research methods often take building extraction as a semantic segmentation problem and cannot distinguish different building individuals. Thus, there is still room of improvement in extraction accuracy. In recent years, deep learning methods based on multitask learning have been widely used in the field of computer vision, but its application in automatic interpretation of high-resolution remote sensing images has not yet further developed. The instance segmentation branch of Mask R-CNN is built on the basis of target detection, and can predict segmentation masks on each region of interest. However, some spatial details and the contextual information of the edge pixels of the region of interest will be lost inevitably. The semantic segmentation task can introduce more contextual information to the network. Therefore, the integration of semantic segmentation and instance segmentation tasks can improve the generalization performance of the whole network. Based on the classic instance segmentation method (Mask R-CNN) and a typical semantic segmentation method (U-Net), this research designs a deep neural network structure which embeds the semantic segmentation module into the instance segmentation framework, and improves the generalization performance of the model by using the information complementarity between various tasks. The bottom-up path augmentation structure shortens the path of lower layers’ information to pass up. The adaptive feature pooling makes it possible for instance segmentation network to make full use of multi-scale information. The automatic building segmentation of remote sensing images is performed in the multi-task training mode and the proposed method is verified on the classic remote sensing image data set (SpaceNet). The result shows that the building instance segmentation accuracy of our proposed method is 58.8% in the Paris data set and 60.7% in the Khartoum data set, increased by 1%~2% compared to individual Mask R-CNN and U-Net. The disadvantages of the proposed method are shown in two aspects, one is that the false extraction and missing extraction of small buildings are relatively high, and the other is that the accuracy of building boundary extraction needs to be improved.

Key words： deep learning; multi-task learning; semantic segmentation; instance segmentation; remote sensing; building extraction; Mask R-CNN; U-Net

1 引言

建筑物与人类生活息息相关,是社会地理信息数据库中最重要的构成要素之一,其变化非常频繁^[1],因此,利用高分辨率遥感影像及时检测并分割出建筑物,实时掌握建筑物动态信息具有十分重要的意义^[2]。建筑物提取的相关研究成果已广泛应用于土地利用变化的监测、城市扩张分析^[3]和灾害预警评估^[4]等方面,为管理部门的政策制定和地理信息数据库的更新提供了重要的数据支撑。

早期的建筑物提取方法大多利用手工提取的特征作为判断依据,包括基于数学形态学^[5,6]的方法和基于形状、纹理和颜色特征的方法^[7,8,9]等。例如,李青等^[10]提出了一种基于边缘检测的遥感影像建筑物提取方法。该算法根据尺度不变特征转换（Scale-Invariant Feature Transform, SIFT）算子提取特征点作为候选边缘点。然而该算法仅适用于由直线线段构成的结构简单的规则建筑多边形,对几何结构复杂或形状不规则的建筑物泛化能力有限。可见,手工设计的特征对影像的表达能力有限,通常只适用于特定区域,模型泛化能力不强^[1,11]。考虑到遥感数据的多源特性,许多研究者集成多种辅助信息来改善建筑物提取精度。这些辅助信息通常包括激光雷达数据^[12]、合成孔径雷达数据^[13]、数字高程模型数据^[9]或数字表面模型数据^[14]等。例如,Pan等^[15]提出了一个综合利用激光雷达数据与光学遥感数据进行建筑物提取的深度神经网络模型。然而相比图像数据而言,这些辅助数据获取的成本十分高昂。近年来,深度学习技术在计算机视觉领域迅猛发展,给我们更好地利用遥感影像提取建筑带来了新的机遇^[11,16]。相比传统的依赖手工设计特征的方法,深度学习的优势在于其强大的特征学习能力,使之可以适应更复杂的任务。

在计算机视觉领域,建筑提取通常被当作语义分割任务。Alshehhi等^[16]在研究工作中用利用基于卷积神经网络的图像块分类方法提取道路和建筑。基于图像块的分割方法的局限性在于会产生模糊的锯齿状的物体边缘。相比基于块的分割方法,全卷积网络（Fully Convolutional Networks,FCN）方法消除了由块状区域带来的锯齿边缘,分割精度得到了很大的改善。例如,Yuan等^[11]和Maggiori等^[18]分别使用全卷积网络及其变体进行建筑物自动提取,提高了提取的精度。Kaiser等^[19]为了同时表达边界和区域,在FCN的基础上引入了具有增强表示能力的边界符号距离表达,改善了建筑和道路的语义分割精度。Ronneberger等^[20]对FCN进行改进,提出了U-Net方法。U-Net方法在FCN的基础上增加了横向连接以融合多尺度的图像特征。考虑到遥感影像的多尺度特性,Wu等^[21]在 U-Net网络的基础上为中间层添加了约束,以增强深度神经网络的多尺度特征表示。

虽然基于深度神经网络技术和高分辨率遥感影像的建筑物提取结果表现良好,但是目前大多数研究将遥感影像的像素点分为建筑与非建筑两类,没有对不同的建筑物个体进行区分^[22]。在大多数实际应用中,不仅希望区分出建筑和非建筑,还希望能分割出不同的建筑物个体进而得到精细的建筑物分布图。这促使我们发展一个面向实例分割的建筑物提取算法。

多任务学习方法利用多种相关任务间的信息互补性,跨任务的资源和参数共享,来提升系统的整体泛化能力^[23,24,25]。多任务学习方法已广泛应用于遥感图像的自动解译,包括地物分类、目标检测和语义分割等。如Bischke等^[23]利用多任务学习框架联合学习边界和语义信息以改善建筑边界的语义分割结果。惠健等^[22]通过在U-Net模型的基础上添加聚类任务来实现建筑物语义分割结果的实例化。经典的实例分割框架Mask R-CNN^[27]也是一种多任务学习框架,其基本思路是在目标探测框架Faster R-CNN^[28]的基础上加上一个小的全卷积网络,先对图像中的物体进行定位,再对定位框中的目标物体进行分割。

Mask R-CNN本身包含的分割分支建立在目标探测的基础上,只依据检测框内的特征进行分割,在此过程中不可避免地会丢失一些空间细节信息和检测框边缘像素的上下文信息。而语义分割任务则可以为网络引入更多的上下文信息,因此,语义分割与实例分割任务的融合可以提高网络整体的泛化性能。因此,本文在Mask R-CNN的基础上添加了一个类似语义分割网络U-Net的分支,通过融合基于U-Net的语义分割结果和Mask R-CNN中检测框的分割结果来改善检测框内建筑分割精度。另外,借鉴PANet^[29]的思想,引入了一个自底向上的路径增强结构以缩短浅层特征传递至高层的路径和自适应的特征池化以在分割分支中充分利用多尺度特征。本文提出了一个多任务的深度神经网络建筑物提取模型,通过语义分割任务和实例分割任务的信息互补性来改善网络的泛化性能,并且以端对端的方式进行训练。该模型不仅可以区分建筑和非建筑,还能区分出不同的建筑物个体,表现优于Mask R-CNN。自底向上路径增强结构的引入缩短了浅层特征传递至高层的路径,使我们的网络可以充分利用浅层特征所包含的空间细节信息。自适应的特征池化融合了多尺度特征,相比空间金字塔池化增强了特征的表达能力。

2 研究方法

Mask R-CNN可实现遥感图像的分类、检测与分割任务。Mask R-CNN原有的分割分支是一个小的全卷积网络,为每一个检测框输出一个二值掩码。由于分割只针对提议检测框进行,未能充分考虑提议检测框边界像素的上下文信息,限制了分割精度。为了改善这个问题,本文在特征金字塔网络^[30]（Feature Pyramid Network, FPN）基础上,添加了一个反卷积层,输出全局的语义分割掩码。最后将全局的语义分割结果与Mask R-CNN基于单个检测框的实例分割结果进行融合以改善分割精度。Mask R-CNN的分类、目标探测、实例分割分支与新添加的语义分割分支共享底层卷积（图1）。该网络由于实例分割与语义分割的互补使得分割结果更加精确。

显示原图|下载原图ZIP|生成PPT

图1 多任务建筑提取模型

Fig. 1 Multitask building extraction model

2.1 语义分割网络

语义分割网络采用类似U-Net的“编码-解码”结构,包括“编码器”和“解码器”2个部分,每个部分都由全卷积层构成（图2）。“编码器”部分采用ResNet50^[31]的卷积模块,从C2-C5,由于一系列的卷积和池化操作,输出的特征图抽象程度不断提高,与此同时特征的空间分辨率逐渐降低。“解码器”部分对来自FPN的特征图P5-P2自上而下进行上采样融合,逐步恢复图像的细节和空间分辨率,然后对P2层进行步长为（4, 4）的上采样得到全局的语义分割掩码。“编码器”和“解码器”之间通过横向连接来融合多尺度的特征,最后采用sigmoid激活函数将输出结果归一化到0~1之间。语义分割网络的损失函数采用二值交叉熵损失函数,如式（1）所示。

（1）

L smask = 1 mn ∑ i = 1 m ∑ j = 1 n (p ij log p ˆ ij + (1 - p ij) log (1 - p ˆ ij))

显示原图|下载原图ZIP|生成PPT

图2 语义分割网络

Fig. 2 Semantic segmentation network

式中：m, n表示图像的长和宽;

p ij

表示图像中建筑二值掩码的像素值;

p ˆ ij

表示语义分割预测结果的像素值。

2.2 实例分割网络

为了使底层信息更易于向上传播,本文借鉴PANet的思想,在网络结构中增加了一个自底向上的路径增强结构以充分利用底层特征包含的空间细节信息。另外,在提取提议检测框特征的时候,为了能够充分利用多个尺度的特征,本文还采用PANet所提出的自适应特征池化（Adaptive Feature Pooling）代替Mask R-CNN原有的金字塔特征池化。自底向上的路径增强结构,产生了一组特征图N2-N5。将由RPN网络产生的感兴趣区（Region of Interest, ROI）映射到特征图N2-N5上,并采用自适应特征池化方法处理成固定尺寸的特征图。本文在实例分割分支中采用两层步长为1、卷积核大小为3的卷积结合一层步长为2、卷积核大小为2的反卷积,生成预设定类别数目的大小为28×28的实例掩码,结合目标探测的分类结果,将实例掩码依据其所对应的检测框位置反映射到原图,形成最终的实例分割结果。

2.3 实例分割与语义分割的融合

为了提高建筑分割的精度,对全局的语义分割结果和基于检测框的分割结果进行融合。语义分割头输出了一个概率预测图,实例分割头输出了一系列修正后的建筑检测框和检测框对应的物体类别以及固定大小的分割掩码。对于任意一个实例个体i,实例分割分支输出它的检测框B_i,类别C_i,和大小为28×28掩码概率图M_i。将掩码概率图M_i根据检测框的实际大小进行缩放,并对检测框以外的部分进行补零形成原图大小的图像。将修正后的检测框依次映射到语义分割产生的分割结果图上,取出检测框对应的部分,并将检测框外部的特征值设置成0,得到特征图S_i。将I_i与S_i依据一定的权重对应相加,产生最终的输出结果,即

F i = α I i + (1 - α) S i

,其中α是平衡参数。融合过程如图3所示。对融合结果添加二值交叉熵损失函数进行约束。

显示原图|下载原图ZIP|生成PPT

图3 语义分割与实例分割预测掩码的融合

Fig. 3 The fusion of semantic segmentation and instance segmentation predictive mask

2.4 实现细节

由于添加了类似U-Net的结构,使得网络模型过于庞大,为了减少计算复杂性,提高计算效率,对上述网络模型做了如下处理：

（1）将残差块的3×3卷积核替换为叠层的3×1和1×3卷积操作;

（2）FPN的残差基网络采用ResNet50;

（3）将网络最下面两层C1和C2的卷积核数量减半后,直接拷贝取反;

（4）将实例分割与语义分割的底层卷积操作共享,最后将基网络的批量归一化层^[32]权重在训练过程中全部固定,并降低批处理数量到1。

模型中FPN的基网络ResNet50的初始化权重来自在ImageNet 2012数据集^[33]上训练20个轮次（Epoch）的预训练模型权重,其他部分采用Xavier^[34]方法进行模型初始化。

超参数设置：来自FPN的每一个特征图都设定多尺度,多比例的锚点（Anchor）。若把特征图步长记为stride_feature,其计算方式如式（2）所示,则尺度（scale）计算如式（3）所示。

（2）

strid e feature = 输入图像大小 特征图大小

（3）

scale = strid e feature × 16 / 2,4, 8

以特征图P2为例,P2是输入图像大小的1/4,那么P2的步长为1/4,在P2上设置的anchor尺寸为4×16/（2, 4, 8）=（8, 16, 32）。Anchor的比例采用（0.5, 1, 2）。训练过程中提取建议框（Anchor Proposal）过程的非极大值抑制（Non-Maximum Suppression, NMS）的阈值设定为0.7。ROI与真值建筑框（Ground Truth, GT）的交并比（Intersection-over-Union, IoU）>0.5的被认定为正样本,介于0.3~0.5之间被认定为负样本,其余部分舍弃。检测模块中,RoI与GT的IoU>0.8才被认定为正样本,IoU<0.3被认为是负样本,其余部分舍弃。训练过程中正负样本比率维持在1:3,当比率失衡时采用随机采样策略进行修正,测试过程中检测结果的NMS阈值设定为0.85。分割模块中的实例分割网络测试过程中阈值选定为0.3,语义分割网络测试过程中的阈值设定为0.45。

为了提高模型在测试集上的表现,本文采用多阶段的训练方法。按照上述初始化方式,初始化模型的类Mask R-CNN部分,然后在COCO2014^[35]上预训练模型。训练过程中,首先固定FPN最底下两层的参数和所有批标准化（Batch Normalization）的参数,然后训练模型直至稳定。保存在COCO上训练好的模型权重,再用其重新初始化整个网络,并在SpaceNet数据集^[36]上训练语义分割头,该过程中网络其他部分的权重固定。当语义分割头训练稳定后,只保存语义分割头部分的权重,然后用所有保存的权重重新初始化网络,并在SpaceNet上联合训练。参数优化过程中采用动量优化器,动量值设定为0.9,学习率设定采用预热机制,第1个轮次的学习率设置为10^-4,在第2个轮次内线性递增到10^-3。

2.5 多波段数据处理

上述方法从结构上仅能处理3通道的图像数据,对多波段遥感影像的分类、探测和分割,需要重新训练整个网络结构。为此,可以采用主成分分析算法将通道数目压缩到3。为了尽可能多的保留与任务相关的信息,本文在上述结构前面添加一组适配层,通过底层网络重训技术,让适配层自适应的保留关键信息。

2.6 后处理

遥感影像的分割处理任务中,多数为有实际含义、边界明确的实体,故得到分割结果后,通过边缘检测算法对结果进行后期修正。同时对于建筑检测等目标地物规则的分割任务,本文用边缘检测部分提取的置信度大于0.98的检测框对分割结果的边缘进行匹配,选取最接近的检测框的边作为分割界限,以提高模型最终分割效果。

3 实验结果与讨论

3.1 SpaceNet数据集基本信息

本文采用的数据集为SpaceNet卫星影像数据集^[36],其影像数据源自Digital Global公司的WorldView-3卫星。选用了其中2个城市巴黎（Paris）和喀土穆（Khartoum）的分辨率为0.3 m的8通道数据,数据统计信息见表1,数据样例参见图4。在每个数据集中,随机采样了80%的数据作为训练集,10%作为验证集,剩下的10%作为测试集。

表1 SpaceNet数据集信息

Tab. 1 Information of the SpaceNet dataset

地区	面积/km²	建筑物数目/个
巴黎	1030	23 816
喀土穆	765	35 503

显示原图|下载原图ZIP|生成PPT

图4 数据样例

Fig. 4 Data samples

3.2 评价指标

模型评估标准分为检测部分和分割部分,AP_DET代表目标检测结果的平均精度值（Average Precision, AP）。AP值计算方法与PASCAL VOC2012^[37]数据集一致,首先根据模型输出结果的置信度进行排序,排序后的结果与建筑真值框进行比较,按置信度从高到低,依次计算精度（Precision）和召回率（Recall）,然后按照Recall_r={0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0}分段计算阈值下的最高召回率,绘制AP曲线,并求AP曲线沿着横轴方向的定积分即为AP值。AP_INS代表实例分割的AP值,其计算方式是用掩码的IoU代替检测框IoU来评估检测结果。当预测掩码与真实掩码的IoU<0.5时,认为分割失败,反之,分割成功,其他环节与检测评估算法一致。AP_SEG代表语义分割的AP值,其计算方式是根据像素计算精度和召回率来评估分割结果。此外为了提高最终模型的性能,测试阶段对单张图像分别进行90°、180°和270°旋转,分别进行测试,并对测试结果进行旋转对齐后求平均值融合。其中,输入原图进行测试的实验组记为S实验组,进行了多角度融合实验的记为M实验组。

3.3 COCO预训练

在COCO的预训练实验中,实验进行了25个Epoch的迭代。训练后的模型在COCO测试集上的表现如表2所示。预训练模型已基本达到Mask R-CNN原论文中的表现后,将模型权重固定用于SpaceNet数据集的预训练权重。从表2可以看出,无论是目标探测还是实例分割,总体上,多角度融合实验（M实验组）的结果优于单图像实验（S实验组）。例如,M组目标探测的类别平均精度相比S组提高了0.5%,实例分割的类别平均精度相比S组提高了0.9%。

表2 COCO预训练模型评测结果

Tab. 2 Results on COCO dataset (%)

	实验组	平均值	人	骑手	汽车	卡车	公交车	火车	摩托车	自行车
AP_DET	S	37.8	33.5	29.5	50.1	33.3	41.3	30.0	25.6	22.4
AP_DET	M	38.3	34.5	30.1	51.3	32.7	41.9	33.3	26.9	20.1
AP_MASK	S	34.7	31.4	28.7	49.0	30.6	39.9	29.2	23.1	17.9
AP_MASK	M	35.6	33.3	28.5	49.2	29.1	40.1	30.4	23.9	19.1

3.4 对比试验

在得到预训练模型后,用在COCO数据集上的预训练权重初始化模型,使用SpaceNet 中的巴黎和喀土穆的数据集进行模型联合训练。为了增强模型泛化性能,本文采用课程学习方法对模型进行训练,训练总计35个Epoch,前10个Epoch内随机数据增强概率设置为0,随后的15个Epoch中,将随机数据增强概率线性递增到0.5,最后的10个Epoch保持随机数据增强概率为0.5。模型训练完毕后,分别在SpaceNet中巴黎与喀土穆的测试集进行模型评估,评价结果见表3。

表3 SpaceNet测试集模型评估结果

Tab. 3 Results on SpaceNet dataset (%)

方法	巴黎			喀土穆
方法	AP_DET	AP_SEM	AP_I_NS	AP_DET	AP_SEM	AP_INS
U-Net	-	60.8	-	-	60.1	-
Mask R-CNN	88.2	-	57.9	88.0	-	58.9
本文的方法（S）	88.8	61.3	58.4	87.6	59.8	60.7
本文的方法（M）	90.1	62.9	58.8	89.0	61.3	59.0
ALL	91.8	63.4	60.7	90.6	62.7	61.5

注：ALL代表将所有模型结果进行投票融合的结果。S代表测试时使用单张图像的结果值;M代表测试时使用不同角度的多张图像进行融合的结果值。AP_DET代表目标检测结果的AP值;AP_SEM代表语义分割结果的AP值;AP_INS代表实例分割结果的AP值。

从目标探测实验结果看出,多任务建筑提取模型多角度融合测试组（M实验组）的目标探测精度在巴黎数据集上相比Mask R-CNN方法提高了1.9%,在喀土穆数据集上高于Mask R-CNN方法1.0%。就实例分割结果来看,多任务建筑提取模型多角度融合测试组（M实验组）的分割精度在巴黎数据集和喀土穆数据集上分别提升了0.9%和0.1%。就语义分割结果来看,M实验组的语义分割精度在巴黎数据集上相比U-Net方法提高了2.1%,在喀土穆数据集上高于U-Net方法1.2%。多任务建筑提取模型多角度融合测试实验的结果无论是在目标探测、语义分割或是实例分割问题上表现都优于Mask R-CNN。在大部分情况下,单图像测试组（S实验组）的结果也超过了Mask R-CNN。比如,在实例分割问题上,S实验组相比Mask R-CNN在巴黎数据集上的分割精度提高了0.5%,在喀土穆数据集上的分割精度提高了1.8%。综上所述,本文提出的方法完全有能力胜任多种遥感影像的解析处理任务。从模型设计角度上看,本文采用的融合实例分割与语义分割结构的做法,在一定程度上提高了模型泛化到测试集上的能力,并且多任务的训练方式提升了共享卷积层的特征表达能力,这也是使得模型达到当前实验效果的原因之一。值得注意的是,多模型集成的方法（ALL实验组）相比单个方法获得了最高的目标探测、语义分割和实例分割精度。这说明不同的模型有一定的信息互补性,模型的集成有利于提高测试精度。

为了更直观的对比分析,从巴黎和喀土穆数据集中分别选取3幅图像进行可视化,可视化结果见图5-图6。图中从左到右依次是原图、真值、Mask R-CNN方法预测结果可视化图和本文方法（M实验组）的可视化图。观察图5（a）红框中的部分,Mask R-CNN方法把一个大建筑的一部分重复预测成了一个小建筑。图5（b）红框中的部分,Mask R-CNN把一个建筑的不同部分预测成了独立的2个建筑。图5（c）红框中的部分,Mask R-CNN误提取了一个建筑。再观察图6（a）和图6（b）红框中的部分,Mask R-CNN把两栋建筑之间的地面虚报成了一栋建筑。图6（c）中,Mask R-CNN则把沿道路的一部分地面虚报了一栋建筑。综上所述,本文所提出方法的建筑实例分割结果比Mask R-CNN更精确,主要表现在2个方面,一个是建筑的误提取率低,另一个是建筑的完整度高,不容易把同一栋建筑的不同部分预测成不同的建筑个体,这主要是因为语义分割头引入了更多的上下文信息。尽管如此,本文的方法仍然存在一些局限性。如图7所示,将本文方法的预测结果与真值叠加在一起,绿色表示建筑真值掩码,红色表示预测结果。本文方法的不足之处表现在2个方面,一个是小建筑的误提取和漏提取率比较高（如图7蓝圈）,另一个是建筑的边界提取精度有待改善（如图7红圈）。

显示原图|下载原图ZIP|生成PPT

图5 巴黎数据样例建筑实例分割可视化结果

注：边界框指示每栋建筑的位置,颜色块指示框内哪些像素是建筑。

Fig. 5 Visualization results of building instance segmentation of Paris data samples

显示原图|下载原图ZIP|生成PPT

图6 喀土穆数据样例建筑实例分割可视化结果

注：边界框指示每栋建筑的位置,颜色块指示框内哪些像素是建筑。

Fig. 6 Visualization results of building instance segmentation of Khartoum data samples

显示原图|下载原图ZIP|生成PPT

图7 本文方法预测结果与真值差异可视化结果

注：蓝圈为误提取和漏提取率较高处;红圈为边界提取有待改善处。

Fig. 7 Visualization of the difference between the prediction results of our method and the ground truth masks

3.5 参数敏感性分析

本文分析了锚框多尺寸设置（anchor size）对分割精度的影响,也就是式（3）中的分母分别取（2）、（2, 4）和（2, 4, 8）对结果的影响。如图8(a)所示,锚框设置为多尺寸可以显著提高AP值,当锚框设置3个尺寸即（2, 4, 8）时可以取得最高的分割精度,相比2个尺寸（2, 4）提高了2.35%,相比单个尺寸（2）提高了5.61%。本文还分析了语义分割与实例分割结果融合的平衡参数α对分割精度的影响。AP值随α的增加缓慢增加,当α取0.9时可以获得最好的分割精度。

显示原图|下载原图ZIP|生成PPT

图8 超参数选择对AP的影响

Fig. 8 Effects of parameter selection on AP

4 结论与展望

考虑到多种任务间的信息互补性,本文提出一种基于深度学习方法的集遥感影像分类、检测和分割于一体的建筑提取框架,将Mask R-CNN与U-Net算法进行融合,在公开的数据集SpaceNet上取得了良好的实验结果。本文就该数据集上与当前视觉领域内最佳的算法MaskR-CNN和U-Net进行比较,目标探测AP提升1.0%~1.9%,语义分割AP提升1.2%~2.1%,实例分割AP提升0.9%~1.8%,并对这些模型进行了多模型融合实验,AP提升0.5%~2.5%。实验结果证明,本文设计的网络结构无论从创新性还是从实用性上,都足以满足日常的遥感数据处理任务所需的要求。下一步研究考虑通过在网络中引入空洞卷积来改善小建筑的提取精度,通过引入边界损失来改善建筑边界的分割精度。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	王俊, 秦其明, 叶昕, 等. 高分辨率光学遥感图像建筑物提取研究进展[J]. 遥感技术与应用, 2016,31(4):653-662. [ Wang J, Qin Q M, Ye X, et al. A survey of building extraction methods from optical high resolution remote sensing imagery[J]. Remote Sensing Technology and Application, 2016,31(4):653-662. ]

[2]	刘帆. 一种高分辨率遥感影像建筑物提取方法研究[J]. 中国新技术新产品, 2018,13(7):18-19. [ Liu F. A method of building extraction from high resolution remote sensing image[J]. New Technology & New Products of China, 2018,13(7):18-19. ]

[3]	杨安妮, 许亚辉, 苏红军. 结合建筑指数的城市建筑用地提取与变化检测分析[J]. 测绘与空间地理信息, 2014,37(8):30-34. [ Yang A N, Xu Y H, Su H J. Urban built-up land extraction and change detection analysis using built -up indexes[J]. Geomatics & Spatial Information Technology, 2014,37(8):30-34. ]

[4]	Boonpook W, Tan Y M, Ye Y H, et al. A deep learning approach on building detection from unmanned aerial vehicle-based images in riverbank monitoring[J]. Sensors, 2018,18(11):3921.

[5]	Gavankar N L, Ghosh S K. Automatic building footprint extraction from high-resolution satellite image using mathematical morphology[J]. European Journal of Remote Sensing, 2018,51(1):182-193.

[6]	Huang X, Zhang L P. Morphological building/shadow index for building extraction from high-resolution imagery over urban areas[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2011,5:161-172.

[7]	Jabri S, Zhang Y, Alaeldin S. Stereo-based building detection in very high resolution satellite imagery using IHS color system[J]. Geoscience and Remote Sensing Symposium (IGARSS), 2014: 2301-2304.

[8]	Sirmacek B, Unsalan C. Urban-area and building detection using sift keypoints and graph theory[J]. IEEE Transactions on Geoscience & Remote Sensing, 2009,47(4):1156-1167.

[9]	Tournaire O, Brédif M, Boldo D, et al. An efficient stochastic approach for building footprint extraction from digital elevation models[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2010,65(4):317-327.

[10]	李青, 李玉, 王玉, 等. 利用格式塔的高分辨率遥感影像建筑物提取[J]. 中国图象图形学, 2017,22(8):1162-1174. [ Li Q, Li Y, Wang Y, et al. Building extraction from high resolution remote sensing image by using Gestalt[J]. Journal of Imageand Graphics, 2017,22(8):1162-1174. ]

[11]	Yuan J Y.Automatic building extraction in aerial scenes using convolutional networks[J]. arXiv Preprint arXiv: 1602. 06564, 2016.

[12]	Sohn G, Dowman I. Data fusion of high-resolution satellite imagery and LiDAR data for automatic building extraction[J]. ISPRS Journal of Photogram metry and Remote Sensing, 2007,62(1):43-63.

[13]	Zhai W, Shen H F, Huang C L, et al. Fusion of polarimetric and texture information for urban building extraction from fully polarimetric SAR imagery[J]. Remote Sensing Letters, 2016,7(1):31-40.

[14]	Maruyama Y, Tashiro A, Yamazaki F. Use of digital surface model constructed from digital aerial images to detect collapsed buildings during earthquake[J]. Procedia Engineering, 2011,14:552-558.

[15]	Pan X R, Gao L R, Marinoni A, et al. Semantic labeling of high resolution aerial imagery and Lidar data with fine segmentation network[J]. Remote Sensing, 2018,10(5):743.

[16]	Alshehhi R, Marpu P R, Woon W L, et al. Simultaneous extraction of roads and buildings in remote sensing imagery with convolutional neural networks[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017,130:139-149.

[17]	Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.

[18]	Maggiori E, Tarabalka Y, Charpiat G, et al. High-resolution aerial image labeling with convolutional neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing. 2017,55(12):7092-7103.

[19]	Kaiser P, Wegner J D, Lucchi A, et al. Learning aerial image segmentation from online maps[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017,55(11):6054-6068.

[20]	Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation [C]//International Conference on Medical Image Computing and Computer-assisted Intervention. Springer, Cham, 2015: 234-241.

[21]	Wu G, Shao X, Guo Z, et al. Automatic building segmentation of aerial imagery using multi-constraint fully convolutional networks[J]. Remote Sensing, 2018,10(3):407.

[22]	惠健, 秦其明, 许伟, 等. 基于多任务学习的高分辨率遥感影像建筑实例分割[J]. 北京大学学报(自然科学版), 2019,55(6):1-12. [ Hui J, Qin Q M, Xu W, et al. Instance segmentation of buildings from high-resolution remote sensing images with multitask learning[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2019,55(6):1-12. ]

[23]	Bischke B, Helber P, Folz J, et al. Multi-task learning for segmentation of building footprints with deep neural networks [C]//2019 IEEE International Conference on Image Processing (ICIP). IEEE, 2019: 1480-1484.

[24]	Lounici K, Pontil M, Tsybakov A B, et al. Taking advantage of sparsity in multi-task learning[J]. arXiv preprint arXiv: 0903. 1468, 2009.

[25]	Zhang Y, Yeung D Y. A convex formulation for learning task relationships in multi-task learning[J]. arXiv preprint arXiv: 1203. 3536, 2012.

[26]	Mou L C, Zhu X X. Vehicle instance segmentation from aerial image and video using a multitask learning residual fully convolutional network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018,56(11):6699-6711.

[27]	He K M, Gkioxari G, Dollár P, et al. Mask r-cnn [C]//Proceedings of the IEEE International Conference on Computer Vision, 2017: 2961-2969.

[28]	Ren S Q, He K M, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks [C]//Advances in Neural Information Processing Systems, 2015: 91-99.

[29]	Liu S, Qi L, Qin H F, et al. Path aggregation network for instance segmentation [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018: 8759-8768.

[30]	Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017: 2117-2125.

[31]	He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.

[32]	Sergey I, Christian S. Batch normalization: Accelerating deep network training by reducing internal covariate shift [C]// International Conference on International Conference on Machine Learning. JMLR.org, 2015.

[33]	Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database [C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2009: 248-255.

[34]	Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks [C]//Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics, 2010: 249-256.

[35]	Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: Common Objects in Context[J]. Lecture Notes in Computer Science, 2014: 740-755.

[36]	Adam V E, Dave L, Bacastow T. Spacenet: A remote sensing dataset and challenge series. 2019. arXiv preprint arXiv:1807.01232. http://explore.digitalglobe.com/spacenet.

[37]	Everingham M, Van G L, Williams C K I, et al. The pascal visual object classes (voc) challenge[J]. International Journal of Computer Vision, 2010,88(2):303-338.

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 研究方法

图1 多任务建筑提取模型

2.1 语义分割网络

图2 语义分割网络

2.2 实例分割网络

2.3 实例分割与语义分割的融合

图3 语义分割与实例分割预测掩码的融合

2.4 实现细节

2.5 多波段数据处理

2.6 后处理

3 实验结果与讨论

3.1 SpaceNet数据集基本信息

表1 SpaceNet数据集信息

图4 数据样例

3.2 评价指标

3.3 COCO预训练

表2 COCO预训练模型评测结果

3.4 对比试验

表3 SpaceNet测试集模型评估结果

图5 巴黎数据样例建筑实例分割可视化结果

图6 喀土穆数据样例建筑实例分割可视化结果

图7 本文方法预测结果与真值差异可视化结果

3.5 参数敏感性分析

图8 超参数选择对AP的影响

4 结论与展望

参考文献