遥感科学与应用技术

基于特征压缩激活Unet网络的建筑物提取

  • 刘浩 1, 2 ,
  • 骆剑承 , 1, 2, * ,
  • 黄波 3 ,
  • 杨海平 4 ,
  • 胡晓东 1 ,
  • 徐楠 1, 2 ,
  • 夏列钢 4
展开
  • 1. 中国科学院遥感与数字地球研究所 遥感科学国家重点实验室,北京 100101
  • 2. 中国科学院大学,北京 100049
  • 3. 香港中文大学 地理与资源管理学系,香港 999077
  • 4. 浙江工业大学 计算机科学与技术学院,杭州 310024
骆剑承(1970-),男,浙江临安人,博士,研究员,研究方向为遥感大数据协同计算。E-mail:

刘 浩(1995-),男,湖南常德人,硕士生,研究方向为遥感图像信息提取。 E-mail: liuhao@radi.ac.cn

收稿日期: 2019-06-09

  要求修回日期: 2019-08-12

  网络出版日期: 2019-12-11

基金资助

国家自然科学基金项目(No.41631179)

浙江省自然科学基金(No.LQ19D010006)

国家重点研发计划项目(No.2017YFB0503600)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Building Extraction based on SE-Unet

  • LIU Hao 1, 2 ,
  • LUO Jiancheng , 1, 2, * ,
  • HUANG Bo 3 ,
  • YANG Haiping 4 ,
  • HU Xiaodong 1 ,
  • XU Nan 1, 2 ,
  • XIA Liegang 4
Expand
  • 1. State Key Laboratory of Remote Sensing Science, Institute of Remote Sensing and Digital Earth, Chinese Academy of Sciences, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Department of Geography and Resource Management, The Chinese University of Hongkong, Hongkong 999077, China
  • 4. College of Computer Science and Technology, Zhejiang University of Technology, Hangzhou 310024, China
LUO Jiancheng, E-mail:

Received date: 2019-06-09

  Request revised date: 2019-08-12

  Online published: 2019-12-11

Supported by

National Natural Science Foundation of China(No.41631179)

Zhejiang Provincial Natural Science Foundation of China(No.LQ19D010006)

National Key Research and Development Program of China(No.2017YFB0503600)

Copyright

Copyright reserved © 2016

摘要

自动提取城市建筑物对城市规划、防灾避险等行业应用具有重要意义,当前利用高空间分辨率遥感影像进行建筑物提取的卷积神经网络在网络结构和损失函数上都存在提升的空间。本研究提出一种卷积神经网络SE-Unet,以U-Net网络结构为基础,在编码器内使用特征压缩激活模块增加网络特征学习能力,在解码器中复用编码器中相应尺度的特征实现空间信息的恢复;并使用dice和交叉熵函数复合的损失函数进行训练,减轻了建筑物提取任务中的样本不平衡问题。实验采用了Massachusetts建筑物数据集,和SegNet、LinkNet、U-Net等模型进行对比,实验中SE-Unet在准确度、召回率、F1分数和总体精度 4项精度指标中表现最优,分别达到0.8704、0.8496、0.8599、0.9472,在测试影像中对大小各异和形状不规则的建筑物具有更好的识别效果。

本文引用格式

刘浩 , 骆剑承 , 黄波 , 杨海平 , 胡晓东 , 徐楠 , 夏列钢 . 基于特征压缩激活Unet网络的建筑物提取[J]. 地球信息科学学报, 2019 , 21(11) : 1779 -1789 . DOI: 10.12082/dqxxkx.2019.190285

Abstract

Automatic extraction of urban buildings has great importance in applications like urban planning and disaster prevention. In this regard, high-resolution remote sensing imagery contain sufficient information and are ideal data for precise extraction. Traditional approaches (excluding visual interpretation) demand researchers to manually design features to describe buildings and distinguishing them from other objects. Unfortunately, the complexity in high-resolution imagery makes these features fragile due to the change of sensors, imaging conditions, and locations. Recently, the convolutional neural networks, which succeeded in many visual applications including image segmentation, were used to extract buildings in high spatial resolution remote sensing imagery and achieved desirable results. However, convolutional neural networks still have much to improve regarding especially network architecture and loss functions. This paper proposed a convolutional neural network SE-Unet. It is based on U-Net architecture and employs squeeze-and-excitation modules in its encoder. The squeeze-and-excitation modules activate useful features and deactivate useless features in an adaptively weighted manner, which can remarkably increase network capacity with only a few extra parameters and memory cost. The decoder of SE-Unet concatenates corresponding features in the encoder to recover spatial information, as the U-Net does. Dice and cross-entropy loss function was applied to train the network and successfully alleviated the sample imbalance problem in building extraction. All experiments were performed on the Massachusetts building dataset for evaluation. Comparing to SegNet, LinkNet, U-Net, and other networks, SE-Unet showed the best results in all evaluation metrics, achieving 0.8704, 0.8496, 0.8599, and 0.9472 in terms of precision, recall, F1-score, and overall accuracy, respectively. Also, SE-Unet presented even better precision in extracting buildings that vary in size and shape. Our findings prove that squeeze-and-excitation modules can effectively strengthen network capability, and that dice and cross-entropy loss function can be useful in other sample imbalanced situations that involve high-resolution remote sensing imagery.

1 引言

高空间分辨率遥感影像(后文简称高分辨率影像)在大尺度下提供了丰富的地物光谱信息,是用于城市建筑物提取的理想数据源。长期以来,从遥感影像上得到精确的地物信息都依赖于人工目视解译,或结合地面实地考察,极其耗费时间、人力和物力,因此如何使用计算机算法快速准确地提取建筑物一直是研究热点之一。从遥感影像提取建筑物的传统方法分为基于像素和面向对象2种思路。基于像素的思路是以影像中单个像素或其空间邻域为基本单元,依据其光谱、纹理等信息进行分类提取,常用ISODATA[1]、K均值聚类[2]、自组织映射网络[3]等,但这种方法对空间特征的表达有限,也无法应对高分辨率影像中精细的纹理信息。面向对象的思路是采用基于多尺度分割技术得到同质的多边形对象进行分类,再人为设计对象特征,包括光谱[4]、阴影[5,6]、几何特征[7]等,对特定地物类别利用这些特征建立规则以融合分割出的对象形成分类结果[8],已成功用于农作物分类[9]、滑坡提取[10]、湿地提取[11]和建筑物提取[12]等应用。这类根据经验设计的特征适用于特定小范围的高分辨率影像,但不能鲁棒地应对大范围高分辨率影像中建筑物在不同成像条件下光谱和空间特征的敏感变化,造成了算法在不同时间和空间的影像上适应性差的问题;且地物和分割对象之间的空间关系不准确,不能满足建筑物精准提取对空间形态的要求。
高分辨率影像下建筑物提取的复杂性在于各种建筑物的材质和结构表现为多样、复杂的纹理信息和空间信息。近年来深度卷积神经网络在这类困难的视觉任务上取得了巨大的成功,其基于样本数据集自动学习层级式视觉特征的强大表达能力超过了其他机器学习算法,且效果还在逐年提 高[13,14,15,16,17]。值得一提的是SE-Net[18]设计的特征压缩激活模块对特征维进行加权优化,从而提高模型的特征学习能力,即使用特征压缩激活模块的SE-ResNet 101在ImageNet上的分类精度超过了更深的ResNet 152。在遥感影像上进行建筑物提取是将每个属于建筑物的像素进行识别分类的过程,是语义分割的应用之一。运用深度卷积神经网络可以从建筑物样本中自动学习建筑物提取所需要的特征,不再需要人工进行设计。高分辨率影像内部的复杂性和多样性同样会驱使网络学习更通用的特征表达,实现有效的建筑物提取。
最开始将深度卷积神经网络用于遥感影像建筑物提取的算法是基于图块的思路,输入滑窗中的图像数据,对中间部分图块像素的类别进行预测。Mnih等[19]和Saito等[20]将卷积神经网络全连接层的输出转成预测的图块以实现建筑物提取。Alshehhi 等[21]使用全局池化层替换全连接层得到的分类结果,并和分割得到的超像素结合进行后处理优化。基于图块的方法在识别独栋建筑方面表现出色,然而由于图块只能覆盖有限空间范围内的建筑,导致网络只能接收大型和复杂的建筑的部分信息,在城市区域中部分建筑物识别能力不足[23]。Maggiori等[22]指出基于图块的网络结构对全连接层的使用不正确以及其在边界的上的断裂都限制了网络的识别能力,设计了使用反卷积层进行上采样替换全连接层的方法,得到更好的建筑物分类结果。另一种是基于像素的思路,输入整幅影像,以端到端的方式,对影像中全部像素进行分类。Huang等[23]首次使用DeconvNet在Vancouver建筑数据集上实现端到端的建筑物提取。Zuo等[24]提出HF-FCN对VGG[25]网络进行多尺度特征融合,以有效提取不同大小的建筑物。Shrestha等[26]使用ELU激活函数替换ReLU提高FCN的预测能力,并使用条件随机场优化网络预测结果的空间结构。刘文涛等[27]设计了全卷积网络在Massachusetts数据集上取得了92.3%的总体精度。
尽管上述研究都能实现对高分辨率影像中建筑物的提取,但其提取精度仍然有提升的空间,本文从以下二个方面展开研究:
(1)网络的深度和结构。许多研究表明不仅越深的网络具有越强的特征学习能力,而关乎信息流的网络结构同样影响着网络的预测能力。基于图块的神经网络一般只有5~8层,基于像素方法的DeconvNet和FCN虽然更深,但目前新提出的SegNet[28]、U-Net[29]、LinkNet[30]等网络已经达到20层以上,在特定的图像分割任务上表现出更高的精度和效率。它们在建筑物提取上能否取得好的效果,以及在网络结构中加入SE-Net提出的特征压缩激活模块能否进一步提高模型的分类能力都是值得探索的方向。
(2)样本不均衡问题。当各类别样本不均衡时,分类常用的交叉熵损失函数会使神经网络倾向于识别多样本的类别而忽视少样本的类别,而在遥感影像中建筑物的像素数量远少于非建筑物像素数量,造成网络建筑物类别的学习和识别被抑制。
本研究创新点主要在网络结构和损失函数二方面:本研究结合U-Net结构特点和SE-Net提出的特征压缩激活模块,设计基于特征压缩激活模块改进的Unet网络(SE-Unet)结构,在不需要任何后处理的情况下,在Massachusetts数据集上取得了相比于SegNet、U-Net、LinkNet更高的分类精度,同时也优于Mnih等[17]、Saito等[20]和Zuo等[24]的结果; 实验中应用dice和交叉熵结合的复合损失函数训练多种网络,相比交叉熵损失函数均得到更高的召回率和F1分数,有效减轻了样本不均衡的影响。

2 研究方法

2.1 实验流程

本部分对SE-Unet的理论设计部分进行解释:首先阐释了特征压缩激活模块的原理和作用,进而描述在此基础上网络总体结构的设计、特征压缩激活模块如何发挥作用以及内部特征数据流,最后从数学上表达训练使用的dice和交叉熵结合的复合损失函数和精度评价指标。实验总流程如图1所示。
图1 卷积神经网络训练流程

Fig. 1 The convolutional neural network training workflow

2.2 特征压缩激活模块

卷积神经网络具有强大的特征学习功能,特征压缩激活模块可以对这些特征进行加权激活,学习特征之间的相关性,强化有用的特征,抑制无用的特征。特征压缩激活模块只会给模型增加很少的参数和内存负担,却能显著提升模型的预测能力[18]
特征压缩激活模块由压缩模块和激活模块两部分组成。压缩模块使用全局平均池化函数对输入该模块的特征图在空间维进行压缩,得到各个特征维的全局信息,该模块如式(1)所示。
y c = S x = 1 HW i = 1 H j = 1 W x c ( i , j )
式中 : x c 是输入特征图的第 c 维特征; H W 是输入特征图在空间维的高和宽; i j 是特征图在空间维的坐标; S 是压缩函数; y c 是压缩后得到的特征图。
激活模块由2个全连接层进一步对特征在特征维进行压缩和重构,并使用Sigmoid激活函数得到特征维的权重信息,该模块表示如下:
E x = σ ( W s ( δ W r x )
σ ( x ) = 1 1 + e - x
式中 : x 为输入特征图; W s W r 分别是进行压缩和重构的全连接函数; δ 是ReLU激活函数; σ 是Sigmoid激活函数; E 为激活函数。特征压缩激活模块结构如图2所示。
图2 特征压缩激活模块[18]

Fig. 2 Structure of the Squeeze-and-Excitation module[18]

2.3 特征压缩激活Unet(SE-Unet)

本研究采取端到端的全卷积神经网络结构,由一个编码器和一个解码器组成,其中编码器在空间分辨率逐渐减少、感受野逐渐增大的过程中层级式地学习目标特征。在编码器学到的特征中,浅层特征具有更多的空间信息,包含边缘、轮廓和位置信息,而深层特征具有更多的语义类别信息。解码器将编码器学习的特征进行空间分辨率的恢复,输出和输入图像相同空间分辨率的预测结果。考虑到遥感影像中建筑物目标尺度差别较大,同一影像中既存在大型的办公楼,也存在小型的住宅楼,在设计网络的过程中应弥补编码过程损失的空间信息,将不同尺度的特征用于解码。
本文基于U-Net的特征复用思想,提出了SE-Unet。和U-Net一样,在解码器中通过特征连接的方式利用编码器中对应相同空间分辨率的特征,但编码器在卷积过程中插入特征压缩激活模块,对每一个卷积得到的特征进行压缩激活处理,从而提高对有效特征的利用能力。图3表示网络的宏观结构,图4为网络中各个模块的内部结构。
图3 SE-Unet网络结构示意

Fig. 3 Architecture of SE-Unet

图4 SE-Unet各模块详细结构

Fig. 4 Details of SE-Unet modules

在组成的网络4种模块里,模块1使用2个卷积层对输入影像进行特征的初步提取,得到64维特征图;模块2使用最大池化函数进行降采样,再输入2个带特征压缩激活模块的卷积层,经过4次模块2的叠加,编码器输出空间分辨率降采样16倍的512维特征图;模块3开始对特征进行解码,先使用转置卷积进行上采样恢复空间分辨率,再和同分辨率的模块2输出的特征图在特征维进行连接,由两个带特征压缩激活模块的卷积层对特征进行进一步解码,最终得到和原输入影像相同空间分辨率的64维特征图;模块4使用2个卷积层将特征图在特征维压缩到1维,得到每个像素的建筑物类别分数,再用Sigmoid激活函数将其转化为0到1的建筑物类别概率。SE-Unet和其他网络的结构特点对比如表1所示。
表1 SE-Unet和其他网络结构对比

Tab. 1 Comparison between SE-Unet and other networks

网络 全卷积 编码器结构 解码器结构
SE-Unet 五次双层带特征压缩激活的卷积 同U-Net
U-Net 五次双层卷积 和编码器连接的反卷积
Mnih[19] - -
Saito[20] - -
HF-FCN[24] VGG16 多层特征融合的反卷积
刘文涛[27] VGG16+输入信息融合 和编码器连接的反卷积,最后两组空洞卷积
SegNet VGG16 带池化坐标的反池化和卷积
LinkNet ResNet34 和编码器相加的反卷积

2.4 dice损失函数

二分类图像分割问题中常使用交叉熵损失函数(式(4))。交叉熵的优点在于容易计算梯度,但用于建筑物提取问题时,会因样本的不平衡更侧重识别比例高的类别,造成少样本类别不易提取。经过统计,Massachusetts数据集中建筑物像素和非建筑物像素的比例约为1:10。针对这个问题,本研究选择dice损失函数作为交叉熵损失函数的补充,减轻样本不平衡对建筑物提取的影响,其定义如式(5)。
L 1 = - n = 1 N ( y n ' log y n + ( 1 - y n ' ) log ( 1 - y n ) )
式中: y n ' 表示真实标签类别,建筑物像素为1,非建筑物为0; y n 0 , 1 表示预测的类别概率; N 是一个样本中的像素总数;n是其中一个像素。
L 2 = 1 - 2 n = 1 N p n × t n n = 1 N p n + n = 1 N t n
L 3 = L 1 + L 2
式中: p n t n 分别表示像素的预测类别和真实标签类别,其余参数定义同式(4)。
根据式(4)、(5)可以看出,当非建筑物像素过多时,交叉熵函数会使网络倾向于强化对非建筑物的学习,增加非建筑物像素的预测类别概率来降低损失,而dice损失函数只关注建筑物像素是否被正确分类。因此本研究将dice损失函数L1(式(4))和交叉熵损失函数L2(式(5))相加得到dice和交叉熵结合的复合损失函数L3(式(6)),提高对网络在建筑物像素较少时的分类能力。

2.5 评价指标选取

正确率、召回率和F1分数是图像分割中常用的评价指标,三者的数学定义分别如式(7)-式(9)所示。
Precision = TP TP + FP
Recall = TP TP + FN
F 1 = 2 × Precision × Recall Precision + Recall
式中:TP表示正确分类的正类别数;FP表示错误分类的正类别数;TN表示正确分类的负类别数;FN表示错误分类的负类别数。在本实验中,正类别是建筑物像素,负类别是非建筑物像素。
标签中每个像素被设置为0和1来表示负类别和正类别,预测结果是范围在0到1中的小数,小于某个阈值则为负类,大于该阈值则为正类,阈值通常取为0.5,并以此时得到的分类结果计算正确率、召回率和 F 1 分数。另一个可用来衡量分类效果的综合性指标是等值点,即在某一个阈值下正确率和召回率相等时的值。为了和其他文献[19-20,24]中的相关研究进行对比,本文也采用了松弛等值点。松弛等值点是某一个阈值下松弛正确率和松弛召回率相等时的值。松弛正确率是指预测像素在标签外 ρ 像素内的比例,松弛召回率是指标签在预测像素外 ρ 像素内的比例, ρ 被称为松弛参数,详细定义可参考文献[31],本文对该参数的设置和其他文献[19-20,24]保持一致,均为3。除了数值指标外,本文还将预测结果和真实标签结果对比。

3 实验数据及处理

3.1 数据集介绍

Massachusetts数据集由Mnih[19]建立,影像拍摄于美国马萨诸塞州,包含了建筑物和道路的标签,本实验仅用其进行建筑物提取的研究。该数据集包含了137张训练影像、4张验证影像和10张测试影像,具有红绿蓝3个波段,长宽均为1500像素,空间分辨率为1 m,覆盖地表区域约340 km2。影像数据和标签数据如图5所示,以楼房屋顶为标签1,其余像素为标签0。考虑到显存大小的限制,我们将每张影像用512像元 × 512像元的滑窗进行裁剪,每张原始影像产生25张小图像,相邻图像具有265个像元重叠,最终训练集、验证集和测试集分别包含3425、100和250张图像。
图5 Massachusetts建筑影像和标签数据示例

Fig. 5 An example of Massachusetts images and labels

3.2 影像数据增强

深度学习是数据驱动的算法。一般来说,数据量越大,模型越容易学习到具有代表性的特征。由于获取新数据的成本高,有多种数据增强技巧可实现数据量的扩充,如放大、缩小、旋转、翻转、颜色变化等。本实验采用随机放大、旋转和翻转对数据进行增强,结果如图6所示:其中图6(a)为未经处理的原始影像,图6(b)-(e)分别为以垂直、水平、主对角线和副对角线镜像翻转,图6(f)-(h)为逆时针旋转90º、180º和270º,图6(i)为随机放大。
图6 数据增强预处理结果示例

Fig. 6 Examples of data augmentation pre-processing

3.3 网络实现设置

神经网络内部参数可通过优化算法迭代获得,而在训练时还需要人为设置一些超参数来指导模型进行学习,如学习率、优化函数、权重衰减参数等。经过多次实验,本文最终设置的初始学习率为0.01,使用自适应学习率的Adam优化函数,权重衰减参数为10-7,批大小为6。本实验通过PyTorch框架实现,使用英伟达GTX1080Ti显卡进行训练,共训练100个epoch,时长为12 h。

4 实验结果及分析

本实验和多种网络进行分类精度对比,包括Mnih等[19]、Saito等[20]提出的非全卷积网络(利用全连接层进行分类)和U-Net、SegNet、LinkNet这些全卷积神经网络(利用卷积层进行分类)。其中Mnih等[19]和Saito等[20]的文献中精度较低,故只引用其在文献中提供的松弛等值点的数据,而本研究实验了SE-Unet、U-Net、SegNet和LinkNet四种网络,进行了更全面的精度评价,包括等值点、松弛等值点、精确度、召回率、F1分数和总体精度,结果如表2所示。
表2 网络在Massachusetts数据集测试数据上的精度评价对比

Tab. 2 Rerformance comparison of the networks on the testing set of Massachusetts building dataset

网络 等值点 松弛等值点 精确度 召回率 F1分数 总体精度
Mnih[19] - 0.9211 - - - 0.7638
Saito [20] - 0.9426 - - - 0.8087
HF-FCN[24] 0.8424 0.9643 - - - -
刘文涛[27] - - - - - 0.9239
SegNet 0.8095 0.9520 0.8494 0.7567 0.8004 0.9326
SegNet* 0.8259 0.9577 0.8306 0.8201 0.8253 0.9348
LinkNet 0.8131 0.9552 0.8429 0.7736 0.8068 0.9338
LinkNet* 0.8285 0.9592 0.8270 0.8307 0.8288 0.9353
U-Net 0.8513 0.9687 0.8727 0.8316 0.8370 0.9458
U-Net* 0.8528 0.9689 0.8636 0.8447 0.8540 0.9461
SE-Unet 0.8549 0.9701 0.8813 0.8250 0.8521 0.9468
SE-Unet* 0.8607 0.9710 0.8704 0.8496 0.8599 0.9472

注:带*表示使用dice和交叉熵复合的损失函数训练;不带*表示由交叉熵损失函数训练;-表示引用文献中缺少该指标数据。

在网络结构方面, Mnih等[19]和Saito等[20]使用的非全卷积网络在容错率较高的松弛等值点上比结果最差的全卷积网络SegNet分别低4.2%和1.5%,说明全卷积网络在高分辨率影像的建筑物提取上是更有效的结构。为了保证结果只体现网络结构的差异而不受其他数据影响,LinkNet在复现时只使用ResNet34的网络结构作为编码器,没有使用在ImageNet上的预训练参数作为初始值,虽然其精确度略低于SegNet,但召回率比SegNet高1%,在综合性的F1分数和等值点指标上优于SegNet。U-Net在各项指标上都明显高于SegNet和LinkNet,等值点和松弛等值点上也优于HF-FCN,而四者最大的差异在于编码器和解码器之间信息传递的方式:SegNet通过标记最大池化的坐标用于解码器中的上采样,LinkNet是将相应尺度的特征图相加,HF-FCN是统一将编码器各输出压缩,再上采样到最大尺度后在特征维进行连接后分类,U-Net是在解码器中对相应尺度的编码器输出在特征维进行连接复用,逐层解码恢复空间信息。表2中的各项评价指标表明U-Net对编码器和解码器的设计相比于其他网络更适合进行建筑物提取。
本研究提出的SE-Unet参考U-Net的网络结构,加入了特征压缩激活模块,在各评价指标上比U-Net更高,证明特征压缩激活模块在建筑物提取的问题上可以有效提升模型能力。此外,从4种网络使用交叉熵损失函数与dice和交叉熵结合的复合损失函数的结果可见,使用前者训练的网络的精确度较高,召回率较低,证明了2.3节中对交叉熵函数的分析,即数据中大量的非建筑物像素使网络会更倾向于预测像素为非建筑物类别,建筑物的TP和FP变少;而后者略微牺牲精确度的同时具有更高的召回率和F1分数,可见dice损失函数对过多的非建筑物像素具有一定的制衡作用。
图7为4种全卷积网络用dice和交叉熵结合的复合损失函数训练后在测试集中部分影像的预测结果。在图7第(1)行中的建筑物都是小型住宅楼,所有网络都得到了较好的分类结果,但U-Net和SE-Unet仍然具有更高的精确度。图7第(2)行中右侧的大型建筑物只有LinkNet和SE-Unet提取出了完整的形状,而在某些非矩形的建筑物提取上,只有SE-Unet正确提取出了建筑物的形状。图7第(3)行中操场右侧的看台被LinkNet和U-Net遗漏,但SegNet在图7第(3)行上方的大型建筑物仍然存在形状缺失的问题,SE-Unet则将二者都明确识别。图7第(4)行中建筑物阴影较多,SegNet、LinkNet和SE-Unet都将阴影错认为建筑,但在建筑物的完整性上SE-Unet做的更好,而U-Net虽然识别出了部分阴影,但建筑物的完整性较差。图7第(5)行中左上角存在不规则建筑,只有SE-Unet能提取出来,其他建筑物U-Net和SE-Unet都具有更高的精确度和完整性,但U-Net错提了一部分道路。图7第(6)行中大型建筑只有SE-Unet得到了较好的形状,其他网络都漏提了部分边界。
图7 网络在Massachusetts数据集的预测结果可视化对比

注:绿色表示正确分类的建筑物;红色表示错误分类的建筑物;蓝色表示遗漏的建筑物;红色矩形框表示着重分析的区域。

Fig. 7 Contrasting visualizations of the networks' predictions on Massachusetts building dataset

图7可以看出,各个网络都能取得较好的识别效果,但SE-Unet的优势在于对形状不规则的大型建筑上取得了最精确的提取。这是因为高分辨率影像中的建筑物的大小和形状复杂,要完整描述大型建筑的特征需要具有较大的感受野,需要网络具有更强表达力的深层特征,而特征压缩激活模块能够通过对特征进行加权强化,进一步提高对特征的学习能力。本实验验证了以SE-Unet为代表的深度学习方法适用于有大量精确标注数据的建筑物提取任务,但需要指出的是此类方法在训练数据量较少时效果会倾向过拟合,这也是以数据驱动的深度学习方法的不足之处。

5 结论与讨论

本研究面向高空间分辨率遥感影像中的建筑物提取问题,基于U-Net的特征复用思想设计并采用了特征压缩激活模块,提出了SE-Unet网络,使用dice和交叉熵函数复合的损失函数进行训练,在Massachusetts建筑物数据集上和多种网络结构进行了对比,得出如下结论:
(1)SE-Unet根据特征的有效性自适应地对特征进行激活,强化特征学习的过程,同时还在解码的过程中连接编码特征,提高网络对空间信息的恢复。SE-Unet在Massachusetts测试集上的实验结果在准确度、召回率,F1分数和总体精度上分别达到0.8704,0.8496,0.8599,0.9472,超过了本文引用的SegNet、LinkNet、U-Net等其他网络;
(2)在Massachusetts数据集上,全卷积神经网络可以实现端到端的建筑物提取,在定量精度指标上都超过了非全卷积神经网络。从影像预测结果看,各个全卷积神经网络都可以对小型建筑物实现较准确的提取,而U-Net和SE-Unet得到的总体结果明显优于SegNet和LinkNet,且只有SE-Unet能同时准确地提取出大型的和形状不规则的建筑物。
(3)本研究使用的dice和交叉熵函数复合的损失函数则一定程度上减轻了建筑物提取任务中样本不平衡问题的影响,而遥感影像的分类往往存在类似的样本不平衡问题,该损失函数可能具有一定的适用性。
本实验中SE-Unet虽然在Massachusetts建筑物数据集上取得了较好的结果,但仍然有进一步改进的空间:
(1)本文所有网络都是将所有参数初始化后训练,可以尝试使用预训练模型作为编码器,在一般情况下可以提高网络特征提取的能力。
(2)本文SE-Unet在设计时沿用了U-Net的网络深度和宽度,但并不能确定这种结构是最优解,可以探讨网络深度和宽度对建筑物提取的精度影响。
(3)可以研究深度卷积网络得到的建筑物提取结果如何通过合适的后处理优化分类结果。
(4)本文实验只是在标注好的公开数据集上进行, SE-Unet的应用范围可以进一步拓展,将网络用于国内地区的高空间分辨率遥感影像下的建筑物提取,尝试在实际应用中发挥价值。
[1]
Ball G H, Hall D J . ISODATA, a novel method classification[R]. Stanford research inst Menlo Park CA, 1965.

[2]
钟燕飞, 张良培 . 遥感影像K均值聚类中的初始化方法[J]. 系统工程与电子技术, 2010,32(9):2009-2014.

DOI

[ Zhong Y F, Zhang L P . Initialization methods for remote sensing image clustering using K-means algorithm[J]. Systems Engineering and Electronics, 2010,32(9):2009-2014. ]

[3]
Kohonen T . The self-organizing map[J]. Proceedings of the IEEE, 1990,78(9):1464-1480.

DOI PMID

[4]
Sirmacek B, Unsalan C . Building detection from aerial images using invariant color features and shadow information[C]. International Symposium on Computer and Information Sciences, 2008: 1-5.

[5]
Liow Y T . Use of shadows for extracting buildings in aerial Images[J]. Computer Vision Graphics & Image Processing, 1989,49(2):242-277.

DOI PMID

[6]
方鑫, 陈善雄 . 密集城区高分辨率遥感影像建筑物提取[J].测绘通报, 2019(4):79-83.

[ Fang S, Chen S X . High resolution remote sensing image building extraction in dense urban areas[J]. Bulletin of Surveying and Mapping, 2019(4):79-83. ]

[7]
Ferraioli G . Multichannel InSAR Building Edge Detection[J]. IEEE Transactions on Geoscience & Remote Sensing, 2010,48(3):1224-1231.

DOI PMID

[8]
陈云浩, 冯通, 史培军 , 等. 基于面向对象和规则的遥感影像分类研究[J]. 武汉大学学报·信息科学版, 2006,36(4):316-320.

[ Chen Y H, Feng T, Shi P J , et al. Classification of remot sensing image based on object oriented and class rules[J]. Geomatics and Information Science of Wuhan University, 2006,36(4):316-320. ]

[9]
单治彬, 孔金玲, 张永庭 , 等. 面向对象的特色农作物种植遥感调查方法研究[J]. 地球信息科学学报, 2018,20(10):1509-1519.

DOI

[ Shan Z B, Kong J L, Zhang Y T , et al. Remote sensing investigation method of object-oriented crops with special characteristics[J]. Journal of Geo-information Science, 2018,20(10):1509-1519. ]

[10]
王宁, 陈方, 于博 . 基于形态学开运算的面向对象滑坡提取方法研究[J]. 遥感技术与应用, 2018,33(3):520-529.

[ Wang N, Chen F, Yu B . A object-oriented landslide extraction method based on morphological opening operation[J]. Remote Sensing Technology and Application, 2018,33(3):520-529. ]

[11]
张猛, 曾永年, 朱永森 . 面向对象方法的时间序列MODIS数据湿地信息提取——以洞庭湖流域为例[J]. 遥感学报, 2017,21(3):479-492.

[ Zhang M, Zeng Y N, Zhu Y S . Wetland mapping of donting lake basin based on time-series MODIS data and object-oriented method[J]. Journal of Remote Sensing, 2017,21(3):479-492. ]

[12]
林祥国, 张继贤 . 面向对象的形态学建筑物指数及其高分辨率遥感影像建筑物提取应用[J]. 测绘学报, 2017,46(6):724-733.

[ Lin X G, Zhang J X . Object-based morphological building index for building extraction from high resolution remote sensing Imagery[J]. Acta Geodaetica et Cartographica Sinica, 2017,46(6):724-733. ]

[13]
Krizhevsky A, Sutskever I, Hinton G E , et al. Imagenet classification with deep convolutional neural networks[J]. Neural Information Processing Systems, 2012,141(5):1097-1105.

DOI PMID

[14]
Simonyan K, Zisserman A . Very deep convolutional networks for large-scale image recognition[J]. International Conference on Learning Representations, 2015.

DOI PMID

[15]
Szegedy C, Liu W, Jia Y , et al. Going deeper with convolutions[J]. Computer Vision and Pattern Recognition, 2015: 1-9.

[16]
Szegedy C, Vanhoucke V, Ioffe S , et al. Rethinking the inception architecture for computer vision[J]. Computer Vision and Pattern Recognition, 2016: 2818-2826.

[17]
He K, Zhang X, Ren S , et al. Deep Residual Learning for Image Recognition[J]. Computer Vision and Pattern Recognition, 2016: 770-778.

DOI PMID

[18]
Hu J, Shen L, Sun G , et al. Squeeze-and-excitation Networks[J]. Computer Vision and Pattern Recognition, 2018: 7132-7141.

DOI PMID

[19]
Mnih V . Machine learning for aerial image labeling[D]. Toronto: University of Toronto, 2013.

[20]
Saito S, Yamashita T, Aoki Y . Multiple object extraction from aerial imagery with convolutional neural Networks[J]. Electronic Imaging, 2016,60(1):10402-1/10402-9.

[21]
Alshehhi R, Marpu P R, Woon W L , et al. Simultaneous extraction of roads and buildings in remote sensing imagery with convolutional neural networks[J]. Isprs Journal of Photogrammetry and Remote Sensing, 2017: 139-149.

[22]
Maggiori E, Tarabalka Y, Charpiat G , et al. Convolutional neural networks for large-scale remote-sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017,55(2):645-657.

DOI PMID

[23]
Huang Z, Cheng G, Wang H , et al. Building extraction from multi-source remote sensing images via deep deconvolution neural networks[C]. Geoscience & Remote Sensing Symposium. IEEE, 2016: 1835-1838

[24]
Zuo T, Feng J, Chen X, et al. HF-FCN: Hierarchically fused fully convolutional network for robust building extraction[C]. Asian Conference on Computer Vision, 2016: 291-302.

[25]
Long J, Shelhamer E, Darrell T , et al. Fully convolutional networks for semantic segmentation[J]. Computer Vision and Pattern Recognition, 2015: 3431-3440.

DOI PMID

[26]
Shrestha S, Vanneschi L . Improved fully convolutional network with conditional random fields for building extraction[J]. Remote Sensing, 2018,10(7):1135-1156.

DOI

[27]
刘文涛, 李世华, 覃驭楚 . 基于全卷积神经网络的建筑物屋顶自动提取[J]. 地球信息科学学报, 2018,20(11):26-34.

[ Liu W T, Li S H, Qin Y C . Automatic building roof extraction with fully convolutional neural network[J]. Journal of Geo-information Science, 2018,20(11):1562-1570. ]

[28]
Badrinarayanan V, Kendall A, Cipolla R , et al. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017,39(12):2481-2495.

DOI PMID

[29]
Ronneberger O, Fischer P, Brox T , et al. U-Net: Convolutional networks for biomedical image segmentation[J]. Medical Image Computing and Computer Assisted Intervention, 2015: 234-241.

DOI PMID

[30]
Chaurasia A, Culurciello E . LinkNet: Exploiting encoder representations for efficient semantic segmentation[J]. Visual Communications and Image Processing, 2017: 1-4.

[31]
Wiedemann C, Heipke C, Mayer H . Empirical evaluation of automatically extracted road axes[J]. Empirical Evaluation Techniques in Computer Vision, 1988: 172-187.

文章导航

/