Building Extraction from High-Resolution Remote Sensing Image based on Res_AttentionUnet

LI Chuanlin; HUANG Fenghua; HU Wei; ZENG Jiangchao

doi:10.12082/dqxxkx.2021.210008

Journal of Geo-information Science >

2021 , Vol. 23 >Issue 12: 2232 - 2243

DOI: https://doi.org/10.12082/dqxxkx.2021.210008

Building Extraction from High-Resolution Remote Sensing Image based on Res_AttentionUnet

LI Chuanlin ^,¹^,³^,⁴ ,
HUANG Fenghua ^,²^,^* ,
HU Wei ¹^,³^,⁴ ,
ZENG Jiangchao ¹^,³^,⁴

Expand

1. Key Laboratory of Spatial Data Mining &Information Sharing of Ministry of Education, Fuzhou University, Fuzhou 350108, China
2. Fujian University Engineering Research Center of Spatial Data Mining and Application, Yango University, Fuzhou 350015, China
3. National Engineering Research Centre of Geospatial Information Technology, Fuzhou University, Fuzhou 350108, China
4. The Academy of Digital China, Fuzhou University, Fuzhou 350108, China

*HUANG Fenghua, E-mail: fenghuait@sina.com

Received date: 2021-01-07

Request revised date: 2021-04-03

Online published: 2022-02-25

Supported by

Fujian Natural Science Foundation(2019J01088)

Copyright

Fold

Abstract

To contribute to the current research of building extraction based on deep learning and high-resolution remote sensing images, we propose an improved Unet network (Res_AttentionUnet), which combines the Residual module of ResNet and Attention mechanism. We apply the Unet network to the extraction of buildings from high-resolution remote sensing images, which effectively improves the extraction accuracy of buildings. The specific optimization method can be divided into three parts. Firstly, in the traditional Unet semantic segmentation network convolution layer, the ResBlock module is added to enhance the extraction of low-level and high-level features. Meanwhile, the Attention mechanism module is added to the network step connection part. Secondly, in the whole net, the ResBlock module enables the convoluted feature map to obtain more bottom information and enhance the robustness of the convolution structure, so as to prevent underfitting. Thirdly, the Attention mechanism can enhance the feature learning of building area pixels, making feature extraction more complete, so as to improve the accuracy of building extraction. In this study, we use the open data set (WHU Building Dataset), provided by Ji Shunping team of Wuhan University, as the experimental data and select three experimental areas with different building characteristics and representativeness. Then, we preprocess the different experimental areas (including sliding, cropping, and image enhancement, etc.). Finally, we use four different network models of Unet, ResUnet, AttentionUnet, and Res_AttentionUnet to extract buildings from three different experimental areas. The experimental results are cross-compared and analyzed. The experimental results show that, compared with the other three networks, the Res_AttentionUnet proposed in this paper has higher accuracy in the building extraction from high-resolution remote sensing images. The average extraction accuracy of Res_AttentionUnet is 95.81%, which is 17.94% higher than the original Unet network, and 2.19% higher than ResUnet (the Unet with only residual module). The results demonstrate that Res_AttentionUnet can significantly improve the effectiveness of building extraction in high-resolution remote sensing images.

Key words： deep learning; remote sensing image; building extraction; residual module; attention module; convolution neural network; unet network; Res_AttentionUnet

Cite this article

LI Chuanlin , HUANG Fenghua , HU Wei , ZENG Jiangchao . Building Extraction from High-Resolution Remote Sensing Image based on Res_AttentionUnet[J]. Journal of Geo-information Science, 2021 , 23(12) : 2232 -2243 . DOI: 10.12082/dqxxkx.2021.210008

1 引言

遥感图像作为地物信息的有效载体,其中的信息蕴含着巨大的经济社会价值,挖掘并使用图像中所包含的信息是遥感图像分析领域的重要研究内容^[1]。使用数字图像解析方法可以将图像中富含的信息有效地解析出来,其中,遥感图像解译是数字图像分析的重要组成部分,广泛应用于地籍测绘、生态监测、城市规划等领域。图像语义分割,即将图像分解成各具特色的区域并提取出感兴趣目标的技术和过程,在GIS应用、遥感图像解译、自动驾驶、自动化机器人和医疗影像识别中都取得了良好的应用效果。使用语义分割方法来进行遥感图像解译可将遥感图像中的重要信息提取出来,是低高层遥感图像处理及分析的重要衔接。由于遥感影像本身包括丰富的类别和细节特征,不同的光谱波段间具有极大的冗余性,使用传统浅层结构模型来进行遥感影像特征提取时无法达到理想效果^[2],同时这些传统遥感影像语义分割方法准确率较低,相对于基于GPU设备的深度学习算法计算时效性较差,难以在大规模部署和实时环境下进行有效的应用^[3]。因此,如何有效提高遥感图像地物提取的准确性是目前遥感领域最具价值和挑战性的研究方向之一。

在遥感和计算机视觉领域,深度学习技术是使用非常广泛的一种前沿机器学习技术。众多学者在计算机视觉和遥感领域使用深度学习技术做了众多工作。Krizhevsky等^[4]提出了AlexNet,首次在CNN中应用Relu激活函数、Dropout,并成功将GPU加速技术应用于网络的训练、测试过程。Long等^[5]在针对尺度大小不同的图像分割问题中提出了全卷积神经网络（Fully Convolution Network, FCN）,首次在神经网络进行图像分割中采用特征图像输入并端对端输出的方法,提高了图像语义分割的速度和准确率。但FCN网络只考虑像素的独立分类问题,其在像素与像素之间空间和值的关系对最终分类结果的影响上考虑不充分,缺乏空间一致性^[6]。针对这个问题,在解决像素间空间和值的关系上学者们对网络结构进行了进一步深化改进。Unet是FCN的变体,由Ronneberger等^[7]在2015年提出,采用左右对称的网络结构分别实现低层次特征和高层特征的提取,使用跳跃连接方案在编码器和解码器网络中通过相同尺度特征映射进行聚合,但对尺度相同性要求较高,同时无法直接获取其最优深度。针对这2个问题,Zhou等^[8]提出了Unet++,提高了不同尺度对象的分割质量,实现了显著的加速但性能有所下降。此外,除了在网络结构上进行改进外,部分学者尝试引入新方法与Unet相结合。例如,Tang等^[9]针对Unet出现的分割结果上出现过拟合问题,提出了一种基于随机加权平均的方法,得到了更广泛的最优解和更好的泛化效果;He等^[10]针对CNN在建筑物分割时出现忽略中间特性之间的相关性,提出了一种混合的一阶和二阶注意网络（HFSA）,利用不同信道间的全局平均值和内积来自适应地重新缩放中间特征,使得特征更加具有代表性;刘文涛等^[11]提出了一种级联式全卷积神经网络,在网络的设计中使用了特征复用和特征增强,实现了建筑物的自动精确提取。张华博^[12]将空洞卷积与Unet相结合,获取表现力更强的特征描述;唐文博^[13]将FPN结构与Unet结构进行结合,让每一层特征图与金字塔进行逐层的横向连接,提取出基于深层特征的特征图,有效地提高了遥感图像中建筑物边缘的提取精度。在众多学者的探索中,深度学习在计算机视觉和遥感领域取得了优秀的应用成果,但如何有效的进一步提高图像分割的准确率仍是值得深入研究的问题。

本文将深度学习应用于遥感影像建筑物提取,提出了一种基于Res_AttentionUnet的建筑物分割网络。网络以Unet为原型,具体优化方法主要分为2个方面：① 将Unet的传统3×3和1×1卷积块替换为Res残差模块,加深了网络结构,缓解梯度消失,将前一层特征有效传递给下一层特征,充分提取更加深层次的语义信息;② 将直接跳跃连接部分替换为Attention注意力模块,在引进权值的基础上以最小的计算开销对网络低高层连接处理时的噪声信息进行充分过滤,抑制图像中的无关区域,对有用的低级特征进行增强,同时避免过度使用,增加模型的灵敏度和预测精度,从而提高建筑物检测精确度。

2 研究方法

2.1 传统卷积神经网络

卷积神经网络（Convolutional Neural Network,CNN）是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一^[14]。卷积神经网络通过将底层特征进行组合形成抽象的高层特征,通常数据的属性类别越多,使用激活函数等非线性操作也就越多。深度卷积神经网络通过一系列的卷积、反卷积、池化处理对输入神经网络的原始数据进行逐层特征提取变换,自动学习层次化的特征表示,使得在图像分割或特征可视化上效果更好^[15]。Unet作为深度卷积神经网络中的一种,其采用左右对称的网络结构来对浅层特征和深层特征进行逐层提取,由一系列卷积操作和池化操作所构成的编码器和解码器分别位于左右两边,在神经网络的编码器部分对图像矩阵进行升维和浅层特征提取后,通过与解码器逐步降维和上采样得到的深层特征进行左右同一层的跃阶跳连,最后进行二分类或多分类的输出。由于网络结构的有限性,Unet在进行语义分割,特别是前期的浅层特征提取时,无法将前层特征充分表达到下一层特征,同时在网络的越阶跳连处理中,采用直接连接的方法无法有效去除网络误判所产生的随机噪声,因此,分别在这两部分引入如下Residual残差模块和Attention注意力模块。

2.2 Res_AttentionUnet模型结构设计

传统的Unet因其清晰的结构和在小样本数据集上的优异表现而广受好评。原始Unet包含18个 3×3的卷积层、1个1×1的卷积层、4个2×2的下采样层、4个2×2的上采样层,使用Relu作为激活函数。但在模型的左半边也即是初级特征提取部分在经历过多次卷积之后特征的损失元素较多,无法完全有效提取初级特征,同时对噪声处理无法做到最优。由于本研究是在遥感图像数据集中对建筑物进行有效检测,因此提出一种Res_AttentionUnet网络优化模型。模型的具体结构设计如图1所示。网络的具体优化方案主要包括如下2个部分。

显示原图|下载原图ZIP|生成PPT

图1 Res_AttentionUnet模型结构

Fig. 1 Res_AttentionUnet model structure

（1）在左边的编码网络和右边的解码网络同时引入ResBlock模块,在前后层通道数一样的情况下,直接进行x特征映射完全连接;在通道数不一样的情况下使用1×1无偏置全填充卷积进行维度调整,得到新的W(x)并将其与卷积后的特征图进行相加,充分保留初级特征。

（2）在解码结构的阶跃跳连阶段,使用Attention模块替换传统的直接连接,将每一层获取的特征图进行权重提取,使用权重的方法来对编码部分得到的不同深度的特征图进行引导,再与上采样得到的维度减半的特征图进行连接,恢复像素定位具体细节,从而达到特征的选择性充分提取。

2.3 ResBlock残差模块

Residual Network诞生于2015年,由He-Kaiming等^[16]提出,在AlexNet取得 ILSVRC 2012（ImageNet Large Scale Visual Recognition Challenge 2012）分类竞赛冠军之后,深度残差网络（Residual Network,ResNet）,网络结构如图2（b）所示,可以说是过去几年中计算机视觉和深度学习领域最具开创性的工作。Residual Network缓解了自从AlexNet诞生以来层出不穷的梯度消失问题。

显示原图|下载原图ZIP|生成PPT

图2 残差结构和ResNet网络结构

Fig. 2 Residual structure and ResNet structure

Residual Network 的核心思想是引入一个恒等快速连接（Identity Shortcut Connection）,直接跳过一个或多个层,如图2（a）所示组成一个残差模块（ResBlock）。其中x为每一个ResBlock块中主要输入,当期望输出值为H(x)时,模型的学习目标就是 H(x),但是这种结构会导致在信息传递时候产生信息不断丢失的问题,而ResBlock则将输入的x通过恒等映射传递到输出,其中当输入和输出维度相同时即输入的通道数等于输出的通道数时,H(x)= F(x)+x;当输入和输出通道不同时,如Unet网络中的第3个卷积层,通道数就由第一池化层的64变成128,对于这种情况,使用H(x)=F(x)+W(x)进行残差连接,其中W(x)具体表现为n个1×1的卷积核,其中n为输出通道数,无偏置项。经过以上的改进,学习目标从F(x)变成H(x)-x或者H(x)-W(x),即残差。该模块通过将输入信息直接绕道传递到输出,这样更能保证输出特征的原始完整性。

2.4 Attention Block注意力机制模块

Attention机制的灵感来源于人类视觉注意力机制,其本质是在神经网络中通过一系列的注意力权重分配系数将具体特征更加精确的提取出来。Mnih等^[17]首次将Attention机制引入到RNN模型中,并用来进行图像分类任务,取得了良好的性能表现。此后Attention机制也被用于文本处理机器翻译等具体任务中,Vaswani等^[18]提出了一种完全基于Attention机制的网络结构Transformer,在质量上和并行性上都表现出很强的优越性,将Attention机制的应用推向高潮。Ozan等^[19]提出了一种新的注意力模块用于医学影像,该模型能自动学习聚焦于不同形状和大小的目标结构。在文所使用的数据集中的某些区域中建筑和非建筑区在像素所表现出的无明确对比情况下,如果直接连接编码块的输出特征与反卷积上采样之后生成的特征图,未消除噪声的初级特征会对模型最后的输出结果产生影响,降低预测精度。因此在本文中把Unet的越阶跳连模块引入注意力机制来抑制非建筑类像素对每层特征提取结果的干扰。将建筑类特征与非建筑类特征采用权值不同分配方法进行对建筑类特征的重点学习,减少非建筑类特征如背景和其他地物的随机干扰噪声,提高建筑物分割选择性从而提高精度。Attention机制的具体结构原理如下图3所示。

显示原图|下载原图ZIP|生成PPT

图3 注意力机制模块

Fig. 3 Attention mechanism module

注意力机制模块主要分为3个部分：

（1）特征提取。在图3中g和x分别为解码图矩阵和编码图矩阵,H、W为特征图的高和宽,C为通道数,

W x

和W_g为特征权重矩阵,如式（1）、式（2）所示。即通过均值池化得到特征图包括C个通道信息的权重矩阵

W x

和W_g。

（1）

W x = 1 H × W ∑ i = 0 H ∑ j = 0 W x i, j

（2）

W g = 1 H × W ∑ i = 0 H ∑ j = 0 W g i, j

（2）特征权重更新。

（3）

q att = Φ T σ 1 W x T x + W g T g

（4）

α = σ 2 (q att (x; ℵ att))

式中：

σ 1

表示Relu激活函数;

σ 2

表示sigmod激活函数,再通过

W x

点乘x、W_g点乘g实现一次编码部分特征图和解码部分特征图的全连接操作,减少参数计算量;然后,将全连接层结果求和后经过Relu层,将结果与

Φ

点乘做一次全连接,得到

q att

,即Attention中间矩阵,式（4）表示中间结果再经过

σ 2

激活函数,

ℵ att

表示一组包含

W x

、W_g和

Φ

的参数,

W x

和W_g通过式（3）和式（4）完成权重反向传播学习,完成g和x特征图特征权重的更新,得到g和x中每个元素的重要程度,之后将更新后的权重映射到特征图。

（5）

output = x × α

（3）特征图更新。将更新后的权重矩阵

α

与特征图x点乘如式（5）所示,使建筑类像素通道权重加大,其他背景相关的权重减小,得到output即注意力机制特征图。之后将其阶跃连接到解码网络中进行上采样。

3 实验分析

3.1 实验环境

本研究在64位windows10环境下进行,深度学习框架为Tensorflow2.1,编程语言为Python 3.7。在硬件支撑方面,CPU采用Intel Xeon E5-2680,内存大小为160 GB,GPU采用英伟达 GeFore GTX 1080（8G显存）,机械硬盘容量为1 T,测试结果图像采用ArcGIS 10.2进行可视化。

3.2 实验数据源

本次实验所选取的数据源来自于武汉大学季顺平教授团队通过近一年时间手工编辑的一套基于大场景、高分辨率遥感影像的建筑物检测数据集：WHU Building Dataset (http://study.rsgis.whu.edu.cn/pages/download/)^[20]。该数据集经过该团队前后3次的交叉检查和修订最后完成了一份高质量的建筑物检测数据集。该数据集主要覆盖新西兰Christchurch市部分区域,总体覆盖面积为450 km²,整个影像分为RGB 3个波段,影像的分辨率为 0.2 m,本文所使用的影像大小为15 354

×

32 507。由于实验条件限制,本研究从上述数据集中随机选择3个具有代表性的区域进行实验,3个实验区域的具体参数和位置如表1和图4所示。

表1 研究区域1-3分布与特征

Tab. 1 Distribution and characteristics of Region 1-3

	区域方框颜色	大小/像素×像素	特征
区域1	Green	2683×2580	小面积规则建筑物较多
区域2	Blue	4591×2455	大面积不规则建筑物较多
区域3	Red	2641×3958	大小面积建筑物,规则与不规则混合

显示原图|下载原图ZIP|生成PPT

图4 实验区位置分布

Fig. 4 Location map of the study area

3.3 精度评价指标

建筑物提取的最后结果是是否正确判定出建筑物像素的依据,本文所使用的精度评定指标是基于混淆矩阵。混淆矩阵如表2所示。

表2 混淆矩阵

Tab. 2 obfuscation matrix (个)

	检测建筑像元数	检测非建筑像元数
实际建筑像元数	TP	FN
实际非建筑像元数	FP	TN

在实际建筑物检测中分别选取准确率（Precision）、召回率（Recall）、F1-Score、交并比（IoU）、平均交并比（mIoU）作为检测精度的评判标准。在以下的表示中正类表示建筑,负类表示背景。

（1）准确率（Precision）表示被准确分类为正类的样本数与所有被分类为正类样本数之比,即预测样本为正类中实际正类的比例。其计算方法如下（式（6））。

（6）

Precision = TP TP + FP

（2）召回率（Recall）表示被分类为正类的样本数与测试集中的实际正类的样本数之比,即在测试集中多少正类被正确分类,计算方法如下（式（7））。

（7）

Recall = TP TP + FN

（3）F1分数（F1-Score）同时考虑了准确率和召回率,使得2个指标在平衡状态下同时达到最高,计算方法如下（式（8））。

（8）

F 1 - Score = 2 × Precision × Recall Precision + Recall

（4）整体精度（Total- Precision）是考虑了图像分类过程中所有类别的整体精度,在本文中具体表现为判定建筑物类别和非建筑物类别的整体分割精度,其计算方法如下（式（9））。

（9）

Total - Precision = TP + TN TP + FP + TN + FN

（5）交并比（Intersection-over-Union, IoU）表示实际类别样本和预测类别样本的交集和并集之比,即分类准确的正样本数和分类准确的正样本数与被错分为负类的正类样本数及被错分为正类的负类样本之和的比值,计算如下（式（10））。

（10）

IoU = TP TP + FN + FP

（6）平均交并比（Mean Intersection-over-Union, mIoU）是对每一类交并比求和平均的结果。计算方法如下（式（11））。

（11）

mIoU = ∑ i n IoU n

3.4 数据处理

由于计算机硬件性能的限制,将一整张数据集全部输入神经网络进行检测实验会导致内存溢出,并且由于各个区域建筑物分布大小不尽相同,区域2中大面积建筑物较多,为避免网络无法识别出不同小图片中的相同建筑,因此采用区域1和区域3的256像素×256像素和区域2的512像素×512像素的滑动窗口检验法进行数据的裁剪。同时为了防止网络对边缘的误判,相邻图片采用10%的重叠率进行裁剪。部分相邻建筑物图像数据和建筑物的标签数据裁剪结果如表3所示。

表3 3个试验区滑动裁剪后部分影像与建筑物标签

Tab. 3 Images and building labels in three test regions after sliding clipping

	区域影像		实际参考建筑物Label
区域1
区域2
区域3

将整个数据裁剪成大小为256像素×256像素或512像素×512像素的子图像之后3个实验区数据集分别共生成了115、143、216张子图片,在进行裁剪之后由于整个数据集的总量内容限制,因此将训练集和测试集进行数据增强,数据增强方式为水平翻转、垂直翻转和对角镜像,所有的数据集增强后的小图像个数分别为460、572、864,按照训练集验证集和测试集6:2:2的比例进行分组。部分子图像增强前后效果如表4所示。

表4 原始影像及建筑物标签与增强后影像及建筑物标签

Tab. 4 Original images and building labels and enhanced images and building labels

	原始影像	水平翻转	垂直翻转	对角镜像
影像
参考建筑物标签

3.5 网络训练细节

本研究中,Res_AttentionUnet的训练超参数设置如表5所示。在4种不同的网络和3个不同区域数据集中都使用60轮（Epoch）进行训练,每个网络的具体Batchsize设置为2,每经过一个Batchsize整个网络参数更新一次,每经过一个Epoch的训练整个模型保存一次,根据每个子数据集训练集样本数量,3个区域的网络总体迭代次数分别为20 640、 31 560和30 960次。经过多次试验,在所有的网络中使用最优学习率0.001,优化器采用Adam。

表5 4种网络训练超参数设定

Tab. 5 Super parameter setting of four kinds of network training

参数	具体设定
Epoch/轮	60
Batchsize/张	2
学习率	0.001
优化器	Adam
迭代次数/次	区域1: 20 640 区域2: 31 560 区域3: 30 960

3.6 结果提取

图5分别表示了区域1—3不同网络模型的实验结。从4种不同网络模型对不同区域的建筑物提取情况可以看出,4种方法在相同环境,不同的实验数据集情况下对于建筑物提取表现出不同的效果和精度。在区域1的实验环境中,可以看出4种网络结构对于规则建筑物的提取都表现了较好的精度,但从图区域1-C来看传统的Unet网络在建筑物边缘提取上出现了过拟合的情况,将建筑物边缘区域的草地类型误判为建筑物类型,从区域1-D来看单独的使用Attention注意力模块对于规则建筑群提取也会出现误判过多的情况,将道路和周边地物错误识别为建筑物。Unet+Residual模块与前二者相比对于建筑物的提取精度得到有效提高,但在非建筑区域会出现噪点过多,即微小误判的问题,同时在建筑物的边缘部分无法充分提取如区域1-E。Res_AttentionUnet将以上的问题很好的解决,在有效提取出建筑物本体边缘规模外,在非建筑区域分割未出现细微噪点情况,在观感上表现良好。同样的,在区域2和区域3实验区域中,Unet在准确提取到建筑物有效区域中的效果是有限的,在区域2中,从区域2-C中出现建筑物提取不完整,同时将建筑物周边光谱值类似的细小区域误判为建筑物区域。从区域2-D可以看出Attention模块的加入使得Unet网络的建筑物提取效果有所加强,但在非建筑物区域仍然出现了误判的现象,Residual残差模块和Attention模块的同时加入使得在建筑物检测中精度达到显著提高,弥补了区域2-E上方建筑物提取不完整的缺陷。在区域3中,从图区域3-F对比于区域3-D可以看出,在进行初级特征权值优化后,残差模块的作用达到了更好地发挥,其中Attention模块将边缘建筑物整体特征更有效提取。优化后网络模型在建筑物大小规模不同的实验环境下在有效提取建筑物边缘的同时能有效抑制非建筑类像素的随机干扰。表6—表8表示各个不同建筑风格区域环境下4种网络的具体精度指标。

显示原图|下载原图ZIP|生成PPT

图5 4种网络在区域1—3测试影像中的建筑物提取效果

注：A为测试影像;B为真实建筑物参考;C为Unet建筑物提取效果;D为AttentionUnet建筑物提取效果;E为ResUnet建筑物提取效果;F为Res_AttentionUnet建筑物提取效果。

Fig. 5 Building extraction results of four networks in Region1-3 experimental areas

表6 区域1建筑物提取精度指标

Tab. 6 Region1 building extraction accuracy index

	Unet	ResUnet	AttentionUnet	Res_AttentionUnet
Precision	0.7780	0.8787	0.9214	0.8541
Recall	0.3743	0.8980	0.3158	0.9173
F1	0.5055	0.8883	0.4704	0.8846
Total Precision	0.6629	0.9510	0.5407	0.9506
IoU	0.3382	0.7990	0.3075	0.7931
mIoU	0.4655	0.8691	0.3652	0.9068

表7 区域2建筑物提取精度指标

Tab. 7 Region 2 Indexes of Building extraction accuracy

	Unet	ResUnet	AttentionUnet	Res_AttentionUnet
Precision	0.6344	0.9118	0.8597	0.9600
Recall	0.8961	0.9753	0.7209	0.9636
F1	0.7429	0.9425	0.7842	0.9618
Total Precision	0.8508	0.9621	0.8392	0.9740
IOU	0.5910	0.8912	0.6450	0.9264
mIOU	0.7003	0.9183	0.7090	0.9440

表8 区域3建筑物提取精度指标

Tab. 8 Region 3 Building extraction accuracy Index

	Unet	ResUnet	AttentionUnet	Res_AttentionUnet
Precision	0.7781	0.6203	0.9403	0.8734
Recall	0.6341	0.9770	0.3921	0.9327
F1	0.6988	0.7588	0.5534	0.9021
Total Precision	0.8223	0.8956	0.5981	0.9498
IOU	0.5370	0.6114	0.3826	0.8216
mIOU	0.6566	0.7433	0.4237	0.8782

通过以上的对比可以看出,在区域1的建筑物规则状的实验数据集中,Unet在Precision准确率方面保持不错,在召回率方面表现较差。将Unet分别先后加入Residual残差模块和Attention注意力模块后,改进的Unet网络精度出现了显著地变化,其中Unet+Residual模块相较于Attention注意力模块在初高级特征的提取中保持了更好的精确度,其中将2种模块都加入到Unet的改进中时,Res_AttentionUnet在区域1中Recall值在4种网络中达到了最高,相对于Unet 的Total Precision整体精度提高了28.77%,同时与ResUnet相比也在具体建筑物的边缘部分显现出更高的精确度。在区域2这样的大小面积建筑物都呈现不规则分布时,神经网络对于建筑物的提取精度是有限的,在256像素×256像素大小图片中无法达到最高精确度,因此将样本的滑动窗口设置为512像素×512像素,将512像素×512像素的小规模影像输入神经网络中时候发现相较于256像素×256像素窗口的4种网络均表现更高的精确度,Unet在整体的提取精度中精确度达到了85.08%,其中IoU表现较低,IoU即使用定量方法来评估总体提取性能。相较于Unet而言,使用2种方法改进后到Res_AttentionUnet网络在Precision准确率值、F1值、Total Precision整体精度和IoU交并比以及平均交并比mIoU均具有较大的提升,其中召回率、F1值和整体精度分别提高了6.75%,21.89%,12.35%,其中在准确率和交并比指标中,精度都有较大提升,在区域2中,虽然Res_AttentionUnet的召回率Recall略低于ResUnet,但其他指标均高于Unet、ResUnet和AttentionUnet,表明改进后的网络在在区域2中建筑物提取精度上相对于原始网络都有较大提升。在区域3中可以看出,Res_AttentionUnet在规则建筑和不规则建筑物呈现随机分布时候相较于其他3种网络仍然可以保持较好的精确度,其中整体精度达到最高94.98%,相较于其他3种网络都有较大提升。表9是3种不同建筑物分布特征区域的精度均值,从表中可以得到,Res_AttentionUnet在3个试验区的整体精度达到了95.81%,在其他方面也高于Unet和未完全优化后的其他网络。通过以上的实验表明,Res_AttentionUnet是Unet在建筑物提取实际应用当中的一次非常有效的提高。

表9 区域 1-3建筑物提取精度指标均值

Tab. 9 Region 1-3 average accuracy index of building extraction

	Unet	ResUnet	AttentionUnet	Res_AttentionUnet
Precision	0.7302	0.8036	0.9071	0.8958
Recall	0.6348	0.9501	0.4763	0.9379
F1	0.6491	0.8632	0.6027	0.9162
Total Precision	0.7787	0.9362	0.6593	0.9581
IOU	0.4887	0.7672	0.4450	0.8470
mIOU	0.6075	0.8436	0.4993	0.9097

4 结语

本文提出了一种基于Res_AttentionUnet的遥感影像建筑物提取方法,用于采用特征图输入和输出端对端的方式实现对高分遥感影像的建筑物检测提取。在Unet原始网络的基础上,采用Residual残差模块对输入影像的初级特征进行更多信息的有效提取,并采用Attention注意力模块代替Unet网络中直接越阶连接的传统方式,在初级特征和高级特征的有效连接中增强了连接的有效性和选择性。同时,采用3种不同风格的实验区域进行了对比实验,实验证明,相较于传统的Unet结构和部分改进的Unet结构,Res_AttentionUnet建筑物检测的稳定性强于其他网络,并且在各指标方面都有较大提升。主要结论如下：

（1）使用残差模块代替传统的3×3与1×1卷积模块可以充分利用特征图的有效信息,在网络的不同层级中将建筑物特征有效的传递到下一层,通过有效特征的层层传递,网络可以更加有效的提取出建筑物的细节部分,在3个试验区的测试数据中,平均准确率相对于Unet网络提升7.34%,平均整体精度相对于Unet提升15.75%,残差模块的加入使得影像建筑物提取方法的精度得到有效地提升。

（2）Attention模块与Residual模块的有效结合使网络在充分利用特征图信息的同时有效地识别了建筑物邻近的非建筑物像素,有效消除随机噪声对建筑物提取整体精度的影响。

（3）Res_AttentionUnet对于遥感影像的广泛适用性相较于优化前的网络有较大提高。通过测试,在精度指标上,Res_AttentionUnet在试验区的整体平均精度达到了95.81%,相较于优化前的Unet网络整体平均精度提高了17.94%,同时相较于仅加入Residual残差模块的Unet网络在平均整体精度上进一步提高了2.19%;在影像光谱值与建筑物接近的情况下,如道路,Res_AttentionUnet可以更好将其区分并提取出正确的建筑物区域。

同时,随着Residual模块和Attention注意力模块的实际引入,网络中需要训练的参数数量随之增加,使得网络整体的训练时间增加,未来可以在提升Res_AttentionUnet网络的训练效率方面进行深入研究。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	杨州, 慕晓冬, 王舒洋, 等. 基于多尺度特征融合的遥感图像场景分类[J]. 光学精密工程, 2018, 26(12):3099-3107. [ Yang Z, Mu X D, Wang S Y, et al. Scene classification of remote sensing images based on multiscale features fusion[J]. Optics and Precision Engineering, 2018, 26(12):3099-3107. ]

[2]	付秀丽, 黎玲萍, 毛克彪, 等. 基于卷积神经网络模型的遥感图像分类[J]. 高技术通讯, 2017, 27(3):203-212. [ Fu X L, Li L P, Mao K B, et al. Remote sensing image classification based on CNN model[J]. Chinese High Technology Letters, 2017, 27(3):203-212. ]

[3]	苏健民, 杨岚心, 景维鹏. 基于U-Net的高分辨率遥感图像语义分割方法[J]. 计算机工程与应用, 2019, 55(7):207-213. [ Su J M, Yang L X, Jing W P. U-net based semantic segmentation method for high resolution remote sensing image[J]. Computer Engineering and Applications, 2019, 55(7):207-213. ]

[4]	Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6):84-90. DOI

[5]	Long J, Shelhamer E, Darrell T. Fully convolutional networks for semantic segmentation[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015:3431-3440.

[6]	顾炼, 许诗起, 竺乐庆. 基于FlowS-Unet的遥感图像建筑物变化检测[J]. 自动化学报, 2020, 46(6):1291-1300. [ Gu L A, Xu S Q, Zhu L Q. Detection of building changes in remote sensing images via FlowS-unet[J]. Acta Automatica Sinica, 2020, 46(6):1291-1300. ]

[7]	Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]// Medical Image Computing and Computer-Assisted Intervention - MICCAI 2015, DOI: 10.1007/978-3-319-24574-4_28. DOI

[8]	Zhou Z W, Siddiquee M M R, Tajbakhsh N, et al. UNet: Redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE Transactions on Medical Imaging, 2020, 39(6):1856-1867. DOI

[9]	Tang P, Liang Q K, Yan X T, et al. Efficient skin lesion segmentation using separable-Unet with stochastic weight averaging[J]. Computer Methods and Programs in Biomedicine, 2019, 178:289-301. DOI

[10]	He N J, Fang L Y, Plaza A. Hybrid first and second order attention Unet for building segmentation in remote sensing images[J]. Science China Information Sciences, 2020, 63(4):1-12.

[11]	刘文涛, 李世华, 覃驭楚. 基于全卷积神经网络的建筑物屋顶自动提取[J]. 地球信息科学学报, 2018, 20(11):1562-1570. DOI [ Liu W T, Li S H, Qin Y C. Automatic building roof extraction with fully convolutional neural network[J]. Journal of Geo-information Science, 2018, 20(11):1562-1570. ]

[12]	张华博. 基于深度学习的图像分割研究与应用[D]. 成都:电子科技大学, 2018. [ Zhang H B. Research and application of image segmentation by deep learning[D]. Chengdu: University of Electronic Science and Technology of China, 2018. ]

[13]	唐文博. 基于卷积神经网络的高分辨率多光谱遥感图像上的城区建筑物变化检测技术[D]. 杭州:浙江大学, 2019. [ Tang W B. Building change detection technology based on convention neural network in high resolution multispectral remote sensing images[D]. Hangzhou: Zhejiang University, 2019. ]

[14]	Gu J X, Wang Z H, Kuen J, et al. Recent advances in convolutional neural networks[J]. Pattern Recognition, 2018, 77:354-377. DOI

[15]	Liu W B, Wang Z D, Liu X H, et al. A survey of deep neural network architectures and their applications[J]. Neurocomputing, 2017, 234:11-26. DOI

[16]	He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:770-778.

[17]	Mnih V, Heess N, Graves A, et al. Recurrent models of visual attention[EB/OL]. 2014: arXiv: 1406.6247[G]. https://arxiv.org/abs/1406.6247.

[18]	Vaswani A, Shazeer N, Parmar N, et al. Attention Is All You Need[C]. Advances in Neural Information Processing Systems, Long Beach, 2017:6000-6010.

[19]	Oktay O, Schlemper J, Folgoc L L, et al. Attention u-net: Learning where to look for the pancreas[J]. arXiv preprint arXiv: 1804. 03999, 2018.

[20]	季顺平, 魏世清. 遥感影像建筑物提取的卷积神经元网络与开源数据集方法[J]. 测绘学报, 2019, 48(4):448-459. [ Ji S P, Wei S Q. Building extraction via convolutional neural networks from an open remote sensing building dataset[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(4):448-459. ]

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 研究方法

2.1 传统卷积神经网络

2.2 Res_AttentionUnet模型结构设计

图1 Res_AttentionUnet模型结构

2.3 ResBlock残差模块

图2 残差结构和ResNet网络结构

2.4 Attention Block注意力机制模块

图3 注意力机制模块

3 实验分析

3.1 实验环境

3.2 实验数据源

表1 研究区域1-3分布与特征

图4 实验区位置分布

3.3 精度评价指标

表2 混淆矩阵

3.4 数据处理

表3 3个试验区滑动裁剪后部分影像与建筑物标签

表4 原始影像及建筑物标签与增强后影像及建筑物标签

3.5 网络训练细节

表5 4种网络训练超参数设定

3.6 结果提取

图5 4种网络在区域1—3测试影像中的建筑物提取效果

表6 区域1建筑物提取精度指标

表7 区域2建筑物提取精度指标

表8 区域3建筑物提取精度指标

表9 区域 1-3建筑物提取精度指标均值

4 结语

References