遥感科学与应用技术

利用基于残差多注意力和ACON激活函数的神经网络提取建筑物

  • 吴新辉 , 1, 2 ,
  • 毛政元 , 1, 2, * ,
  • 翁谦 3, 4 ,
  • 施文灶 5, 6
展开
  • 1.福州大学数字中国研究院(福建),福州 350108
  • 2.福州大学空间数据挖掘与信息共享教育部重点实验室,福州 350108
  • 3.福州大学计算机与大数据学院,福州 350108
  • 4.福建省网络计算与智能信息处理省重点实验室(福州大学),福州 350108
  • 5.福建师范大学光电与信息工程学院,福州 350007
  • 6.福建师范大学福建省光电传感应用工程技术研究中心,福州 350007
*毛政元(1964— ),男,湖南邵阳人,博士,教授,博士生导师,主要从事时空系统认知与测度、高分影像信息提取与地表变化检测、地理空间数据不确定性分析及其应用、土地资源信息化管理与决策服务研究。 E-mail:

吴新辉(1995— ),男,福建莆田人,硕士生,主要从事深度学习、遥感影像的分析与应用研究。E-mail:

收稿日期: 2021-09-02

  修回日期: 2021-10-10

  网络出版日期: 2022-06-25

基金资助

国家自然科学基金项目(41801324)

国家自然科学基金项目(41701491)

福建省自然科学基金面上项目(2019J01244)

福建省自然科学基金面上项目(2019J01791)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

A Neural Network based on Residual Multi-attention and ACON Activation Function for Extract Buildings

  • WU Xinhui , 1, 2 ,
  • MAO Zhengyuan , 1, 2, * ,
  • WENG Qian 3, 4 ,
  • SHI Wenzao 5, 6
Expand
  • 1. Academy of Digital China, Fuzhou University, Fuzhou 350108, China
  • 2. Key Laboratory of Spatial Data Mining & Information Sharing of Ministry of Education, Fuzhou University, Fuzhou 350108, China
  • 3. College of Computer and Data Science, Fuzhou University, Fuzhou 350108, China
  • 4. Fujian Provincial Key Laboratory of Network Computing and Intelligent Information Processing (Fuzhou University), Fuzhou 350108, China
  • 5. College of Opto-Electronic and Information Engineering, Fujian Normal University, Fuzhou 350007, China
  • 6. Fujian Engineering Technology Research Center of Photoelectric Sensing Application, Fujian Normal University, Fuzhou 350007, China
*MAO Zhengyuan, E-mail:

Received date: 2021-09-02

  Revised date: 2021-10-10

  Online published: 2022-06-25

Supported by

Youth Project of National Natural Science Foundation of China(41801324)

Youth Project of National Natural Science Foundation of China(41701491)

General project of Natural Science Foundation of Fujian Province(2019J01244)

General project of Natural Science Foundation of Fujian Province(2019J01791)

Copyright

Copyright reserved © 2022

摘要

针对目前主流深度学习网络模型应用于高空间分辩率遥感影像建筑物提取存在的内部空洞、不连续以及边缘缺失与边界不规则等问题,本文在U-Net模型结构的基础上通过设计新的激活函数(ACON)、集成残差以及通道-空间与十字注意力模块,提出RMAU-Net模型。该模型中的ACON激活函数允许每个神经元自适应地激活或不激活,有利于提高模型的泛化能力和传输性能;残差模块用于拓宽网络深度并降低训练和学习的难度,获取深层次语义特征信息;通道-空间注意力模块用于增强编码段与解码段信息的关联、抑制无关背景区域的影响,提高模型的灵敏度;十字注意力模块聚合交叉路径上所有像素的上下文信息,通过循环操作捕获全局上下文信息,提高像素间的全局相关性。以Massachusetts数据集为样本的建筑物提取实验表明,在所有参与比对的7个模型中,本文提出的RMAU-Net模型交并比与F1分数2项指标最优、查准率和查全率两项指标接近最优, RMA-UNet总体效果优于同类模型。通过逐步添加每个模块来进一步验证各模块的有效性以及本文所提方法的可靠性。

本文引用格式

吴新辉 , 毛政元 , 翁谦 , 施文灶 . 利用基于残差多注意力和ACON激活函数的神经网络提取建筑物[J]. 地球信息科学学报, 2022 , 24(4) : 792 -801 . DOI: 10.12082/dqxxkx.2022.210530

Abstract

Current mainstream deep learning network models have many problems such as inner cavity, discontinuity, missed periphery, and irregular boundaries when applied to building extraction from high spatial resolution remote sensing images. This paper proposed the RMAU-Net model by designing a new activation function (Activate Customized or Not, ACON) and integrating residuals block with channel-space and criss-cross attention module based on the U-Net model structure. The ACON activation function in the model allows each neuron to be activated or not activated adaptively, which helps improve the generalization ability and transmission performance of the model. The residual module is used to broaden the depth of the network, reduce the difficulty in training and learning, and obtain deep semantic feature information. The channel-spatial attention module is used to enhance the correlation between encoding and decoding information, suppress the influence of irrelevant background region, and improve the sensitivity of the model. The cross attention module aggregates the context information of all pixels on the cross path and captures the global context information by circular operation to improve the global correlation between pixels. The building extraction experiment using the Massachusetts dataset as samples shows that among all the 7 comparison models, the proposed RMA-UNET model is optimal in terms of intersection of union and F1-score, as well as indexes of precision and recall, and the overall performance of RMAU-Net is better than similar models. Each module is added step by step to further verify the validity of each module and the reliability of the proposed method.

1 引言

建筑物是城市下垫面主要的地物类型,从高空间分辨率遥感影像(以下简称高分影像)中精确、高效地提取建筑物在城市基础地理数据生产与更新、土地管理及其信息化建设等方面具有十分重要的作用。深度卷积神经网络(Convolutional Neural Networks,CNN)通过自主学习获得的深度特征,表征和泛化能力强,用于提取建筑物的效果优于传统方法[1,2,3,4],已经成为相关研究与工程实践的主流。但现有基于CNN的建筑物提取方法存在以下局限性:① 建筑物特征提取过程中存在全局语义特征和局部细节特征不能兼顾的基本矛盾,即在下采样过程中不可避免地存在空间信息丢失[5];② 尺度较大的建筑物提取结果中存在内部空洞(或不连续现象)、边界不精细等问题[6,7,8];③ 位于图像边缘部分或复杂场景下的建筑物漏提。
针对上述问题,研究者纷纷以U-Net模型为基准进行改进[9,10,11,12],通过集成多模块设计适应建筑物尺度、结构和背景复杂性的模型架构,以提高建筑物提取精度。如季顺平等[13]结合U-Net具有多尺度和特征金字塔多预测输出的特点提出了SU-Net,实现跨尺度特征聚合,提高了对多尺度建筑物的分析能力,但是依然存在建筑物边界不规则现象;而Guo等[14]提出了基于注意力块的多重损失神经网络,突显建筑物特征、抑制无关背景区域的影响,提高了模型的灵敏度,改善了建筑物边界不规则现象,然而该方法对于尺度较小的建筑物存在误分类现象;Huang等[15] 针对误分类问题提出了CC-Net,通过聚合交叉路径上像素间的上下文信息加强像素间的联系,减小误分类带来的精度损失,在完成图像分类任务过程中取得了较好的效果;另外,Zhang等[16,17]将残差结构与U-Net集成提出Res-Unet,在降低训练与学习难度的同时增强了网络传递的能力,提升了道路提取精度,但是该方法需要结合实验数据的特点进行综合设计;而Alom等[18]提出了R2U-Net,采用循环残差卷积实现特征积累及其表征能力提升。
本文针对现有高分影像建筑物提取方法存在的不足,通过设计新的ACON(Activate Customized or Not)激活函数,集成U-Net模型架构中的残差模块(Residual Block, RB),在拓宽网络深度的同时减缓因网络过深导致的梯度消失问题;设计通道和空间注意力模块(Channel and Spatial Attention, CSA)、十字注意力模块(Criss-Cross Attention, CCA)增强底层特征与高层特征信息之间以及远距离像素间的联系;提出一种新的解决方案,并利用相对有限的计算资源,在Massachusetts数据集上进行建筑物提取实验,验证该方案的有效性。

2 研究方法

2.1 基于RMAU-Net的建筑物提取

基于RMAU-Net ( Residual Multi-Attention U-Net)的建筑物提取流程如图1所示,包括数据集构建、模型训练与预测、精度分析3个部分。在数据集构建过程中,依次完成训练集、验证集和测试集的重叠裁剪[19](Overlap Cropping),其中对训练集采用旋转、翻转和镜像、彩色变换等手段实现数据增广。在模型训练与预测过程中,首先分别将训练集和验证集输入到RMAU-Net得到最优的模型权重参数,然后将测试集输入到最优模型权重参数中得到最终的预测值。在精度分析过程中通过比对预测值与真值,采用目前常用的精度指标验证模型的有效性,具体细节见3.3节中的介绍。
图1 基于RMAU-Net的建筑物提取流程

Fig. 1 The overall flowchart of building extraction based on RMAU-Net

U-Net模型最初被用于医学影像分割并取得了良好的效果。该模型不仅具有多尺度特征,而且高度对称、结构简单,但直接使用U-Net结构提取建筑物存在空洞和边界不规则问题。因此,本文在U-Net的基础上提出了RMAU-Net,它是在原始U-Net模型架构上将激活函数ReLu替换为ACON并集成残差结构、通道和空间注意力以及十字注意力3个模块所得,模型结构如图2所示。其中残差结构用于拓宽网络深度,同时克服因网络过深导致的网络学习性能“退化”和梯度“消失”问题。图2中B为多注意力模块,分别是通道和空间注意力模块以及十字注意力模块。前者用于加强编码层与解码层信息的联系,提高模型灵敏度,突出建筑物特征;后者用于增强远距离像素间的联系,从而捕获全局信息的相关性,提升模型的效果。本节以下将依次介绍ACON激活函数的原理与各模块实现的具体细节。
图2 RMAU-Net结构示意图

注:A、B、C分别表示编码器结构、多注意力结构与解码器结构。

Fig. 2 Schematic diagram of our proposed RMAU-Net

2.2 ACON激活函数原理

激活函数在神经网络中的作用是加入非线性因素和充分组合特征,提高模型的表达能力。语义分割视角下的建筑物提取属于二分类问题,即将每个像素分为建筑物和非建筑物类。对于二分类问题通常使用Sigmoid激活函数,但是Sigmoid函数存在“杀死”梯度的饱和神经元等问题且计算耗时,而ReLu激活函数虽然能有效地解决梯度消失问题和大幅度减少计算量,但存在因稀疏处理导致的神经元“坏死”和无负值等问题。为了弥补上述激活函数的不足,本文使用ACON激活函数,它可以决定是否要激活神经元。具体原理如下:
对于最大函数 max x 1 , , x n,其平滑近似为:
S β x 1 , , x n = i = 1 n x i e β x i i = 1 n e β x i
式中: x i表示输入样本; n表示样本数; β表示连接系数。当 β 时, S β max,此时该激活函数呈现为非线性(激活);当 β 0时, S β mean,此时该激活函数呈现为线性(不激活)。当n=2时,最大函数为 max η a ( x ) , η b ( x ),以Sigmoid表示的函数解释表达式为:
S β η a ( x ) , η b ( x ) = ( η a x - η b x ) × σ β η a x - η b x + η b x
式中: η a ( x ) η b ( x )选取不同的值时,分别对应ACON-A(也称Swish激活函数[20])、ACON-B和ACON-C激活函数,其表达式为:
f x = S β η a ( x ) , η b ( x ) = x × σ βx η a x = x , η b x = 0 1 - p x × σ β 1 - p x + px η a x = x , η b x = px p 1 - p 2 x × σ β p 1 - p 2 x + p 2 x η a x = p 1 x , η b x = p 2 x
式中: p p 1 p 2 β均为待训练参数,且 p 1 p 2。学习开关因子 β是以输入样本 x R C × H × W满足 β = G x为条件,控制非线性或线性激活,当 β 时, f ACON - C ( x ) max ( p 1 x , p 2 x );当 β 0时, f ACON - C ( x ) mean p 1 x , p 2 x。其计算表达式为:
β = σ c = 1 C h = 1 H w = 1 W x c , h , w
式中:C表示通道数;H和W分别表示输入样本的高和宽;参数 β是随着选取的样本不同而相应发生变化,表现出激活状态也不同。因此,ACON不同于ReLu等传统的激活函数,它允许每个神经元自适应地激活或不激活,有利于提高模型的泛化能力和传输性能。ACON只需付出小幅增加计算量的代价即可有效地解决ReLu激活函数存在的神经元“坏死”和无负值问题。本文采用ACON-C作为模型的激活函数(图3),它的精度随着模型网络层加深能持续提高,效果优于ACON-A和ACON-B。
图3 残差块结构示意图

Fig. 3 Schematic diagram of Residual Block

2.3 残差块构建

卷积神经网络模型的深度对于实现精确预测具有重要意义,但网络层数增加也伴随相应的问题: ① 模型参数随着网络层数加深呈几何级数增加,导致网络难以收敛;② 训练误差和验证误差与网络深度同步增加导致模型性能饱和甚至下降(也称“退化”)。为了解决上述问题,何凯明等[21]提出了深度残差网络结构,其优势为:① 复杂度低、训练计算量少;② 能有效缓解因网络过深而带来的“退化”与梯度“消失”问题;③ 精度随着网络层数加深持续提高。
为了提取深层次的语义特征信息,本文引入深度残差网络中的残差块结构与U-Net模型集成并进行优化,防止在拓宽网络深度时出现“退化”与梯度“消失”同时降低训练难度。图3为模型编码段各残差块的结构示意图,与卷积块(主干路线)相比,残差块添加了残差捷径路线。主干路线在每个卷积层后均包含批归一化处理,可减少网络的训练时间;残差捷径使得网络的训练变得更容易并且弥补了低层次和高层次之间的语义差异。残差结构通过引入残差捷径,跳过一些层的连接,直接将输入信息传到输出层,在积累特征复用性的同时保证信息的完整性。

2.4 通道和空间注意力模块构建

U-Net网络结构通过裁切和融合编码层特征图信息加强浅层特征与深层特征间的联系,但仍不能有效突出建筑物特征信息,导致结构复杂的建筑物提取效果不理想。因此,本文提出CSA模块来抑制无关背景区域的影响,加强对建筑物信息的关注度,增强编码层与解码层信息之间的相关性。如 图4所示,CSA由通道注意力和空间注意力2个部分组成。通道注意力模块内部的处理流程如下:对于给定编码层特征图 F,利用全局最大池化和全局平均池化进行压缩;接着采用1×1卷积(图4中绿色,下同)实现降维升维度操作后相加;再通过Simiod激活函数得到通道注意力系数,并与原始特征图 F做卷积运算后相加得到中间层 F M图4中黄色)。空间注意力模块内部的处理流程如下:将中间层 F M和解码层 X图4中深蓝色)作为该模块的输入,分别通过1×1卷积得到相同的维度;然后利用ReLu激活函数增加非线性操作再做一次1×1卷积;最后利用Simiod激活函数得到空间注意力系数,并与原始特征图 X做卷积运算后与 F相加,得到校正后的特征图 X '图4中红色)。CSA结构不仅抑制了无效通道对建筑物信息的影响,而且加强了编码层和解码层的远距离相关性。
图4 通道-空间注意力的结构示意图[7]

Fig. 4 Schematic diagram of channel-spatial attention

CSA针对输入特征图从通道和空间2个维度来学习有用的特征,提高分析和判别建筑物特征的能力。前者关注的重点是“哪个通道”,从异构特征图中学习有用的特征信息;后者关注的重点是“哪个区域”,从组合特征中学习有用的特征信息。CSA模块通过自主探索不同层次特征的重要性,有效解决了跨通道维度的异构问题和跨空间维度的像素权重分配问题,并且消除了底层与高层特征之间的语义鸿沟,提高了区分建筑物和背景的能力。

2.5 十字注意力

随着网络层次的不断加深,单个像素的感受野不断变大,为了增强像素之间的相关性,本文在 U-Net编码器末端引入CCA模块用于捕获当前像素与其水平和垂直方向的上下文信息,其计算量明显远小于大核卷积[22]。CCA的实现细节如 图5所示,给定特征图H∈ R C × W × H,首先对H采用 2个1×1卷积降维,分别生成2个特征图Q和图K,其中{Q, K}∈ R C ' × W × H, C '为降维后通道数。对特征图Q和图K通过Affinity运算生成注意力图A R ( H + W - 1 ) × W × H。在特征图Q空间维度上的每个位置u可以得到向量 Q u R C '。同理,从K中获取集合 Ω u,Ku处于同行或同列,得到Affinity计算公式,如式(5)所示。
d i , u = Q u Ω i , u T
式中: Ω u R H + W - 1 × C ';u R C ' Ω u的第i个元素; d i , uD表示特征 Q u Ω i , u的相关度,i=[1,…,| Q u|], D∈ R H + W - 1 × W × H。对D采用softmax层计算得到注意力图A。
图5 十字注意力模块细节

Fig. 5 The details of criss-cross attention module

对特征图H采用1×1卷积生成特征自适应图V∈ R C × W × H,在其空间维度上的每个位置u,可以获得向量 V u R C和集合 Φ u R H + W - 1 × C Φ u是V中特征向量的集合,与位置u同行或同列。聚合上下文信息Aggregation运算的公式为:
H u ' = i | Φ u | A i , u Φ i , u + H u
式中: H u '表示输出特征图 H u ' R C × W × H在位置u处的特征向量; A i , u是通道i和位置u处的变量值。将上下文信息添加到局部特征H中以增强局部特征表示。
由于使用单次CCA不能获取当前像素与不在其十字路径上的其他像素之间的相关信息,因此采用循环策略来捕获当前像素与任意像素间的相关性,提高相关信息的全局性。如图6所示,图5实现过程对应图6中的H(中心为蓝色)到 H '(中心为黄色)部分,循环操作对应图6中的 H ' H ''(中心为红色),其作用是实现从低全局性H到高全局性 H ''的转换。通过CCA模块建立的特征图可以连接图中的任意2个像素,使得当前像素与其远距离像素间的联系更紧密,提高模型的推理能力,减小漏提取带来的精度损失。
图6 十字注意力模块结构示意图

Fig. 6 Schematic diagram of criss-cross attention

3 实验数据及评价指标

3.1 Massachusetts数据集介绍

实验数据源于Minh建立的美国马萨诸塞州建筑物数据集[23]。该数据集由151张高分辨率遥感影像组成,影像空间分辨率为1 m,覆盖地表范 围约为340 km2,对应波士顿市城区与郊区。将 Massachusetts数据集划分成训练集、验证集和测试集3个部分,图像数量分别为137张、4张、10张,每张图像尺寸大小均为1500像素×1500像素。由于该数据空间分辨率相对较低,建筑物较为密集且尺度不一致(图7),同时部分影像中有空白区域且标签数据中存在错误,故对模型设计提出了更高的要求。
图7 数据集示例(马萨诸塞州建筑物)

Fig. 7 Example of dataset(Building in Massachusetts)

3.2 训练策略和实验设置

原始影像尺寸过大,不能直接输入,需要裁切成特定的尺寸。考虑到图像预测结果图中心部分精度相对较高,而边缘存在退化现象,故将1500像素×1500像素的原始影像按照一定的重叠度裁切成9张512像素×512像素的子图,得到训练集、验证集和测试集的数量分别为1233张、36张、90张影像。训练集采用随机旋转、翻转和镜像、彩色变换策略实现数据扩充,最终得到训练样本数量为7150。
表1为本文的实验环境。由于显存限制,批次大小最大只能设置为4进行训练;初始学习率设置为0.0001;采用Adam作为优化器;采用二分类交叉熵作为损失函数。此外,为了更好地训练模型参数,将训练轮数设置为250,保证充分拟合。
表1 实验环境

Tab. 1 Experimental environment

项目 参数
中央处理器 Intel(R) Core(TM) i5-10600KF CPU @4.10 GHz
显存 8 G
硬盘 2 T
显卡 NVIDIA GeForce RTX 3070
操作系统 Window10
开发语言 Python
深度学习框架 PyTorch

3.3 评价指标

本文采用交并比(IOU)、查准率(Precision)、查全率(Recall)和F1分数(F1-score)4个指标衡量现有主流建筑物提取方法的优劣,评价所提出模型的可靠性。上述指标中的查准率又称精确率,指预测正确的样本占所有预测正样本总和的比值,对应误检率;查全率又称召回率,指预测正确的样本占所有真值为正样本总和的比例,对应漏检率;F1分数是查准率和查全率的调和平均,F1值越高模型性能越好。各指标计算公式如下:
IOU = TP TP + FP + FN
Precision = TP TP + FP
Recall = TP TP + FN
F 1 - score = 2 × Precision × Recall Precision + Recall
式中: TP表示被正确分类为建筑物的像素个数; FP表示被误分为建筑物的像素个数; FP表示被误分为背景的像素个数。

4 实验结果与分析

4.1 同类模型对比分析

图8为同类模型(Res-Unet[17]、Attention-Unet[11]、Res-Attention-Unet[24])在Massachusetts数据集上得到的部分具有代表性的建筑物提取结果,其中选取的模型都是基于U-Net模型基础上改进与集成,是目前建筑物提取的主流方法之一。由图8可知, U-Net和Res-Unet的分割结果中存在大型建筑物内部空洞(红圈)和不规则结构的建筑物不连续现象(蓝圈)、建筑物边界不规则(紫圈)和建筑物缺失(粉圈和绿圈)等问题,其原因是在下采样过程中部分细节信息丢失、而粗糙的上采样又不能完全恢复被丢失的细节信息,导致大型建筑物像素间缺乏联系。而添加了空间注意力模块的Attention-Unet和Res-Attention-Unet的分割结果中大型建筑物内部空洞和不连续问题已经得到有效缓解,但仍然存在建筑物边界不精细(紫圈)和边缘处建筑物缺失现象(黄圈和绿圈)。而本文提出的RMAU-Net得到的分割结果在建筑物内部完整性与边界的精细程度等方面均有明显提升。此外,在运行效率方面,RMAU-Net与同类模型在Massachusetts数据集上的训练和测试时间如表2所示。结果表明:对于同一数据集,模型结构简单的U-Net和Res-Unet执行过程更快;RMAU-Net、Attention-Unet与Res-Attention-Unet训练和测试时间相近,表明本文设计的多注意力模块在模型效率方面与空间注意力模块并无显著差异,而本文提出的方法精度更高。
图8 Massachusetts数据集同类模型的结果图对比

Fig. 8 Comparison of results from similar models in the Massachusetts dataset

表2 RMAU-Net与同类模型在Massachusetts数据集上的训练和测试时间

Table 2 The training time and testing time of RMAU-NET and similar models on Massachusetts dataset

模型 U-Net Res-Unet Attention-Unet Res-Attention-Unet RMAU-Net
训练时间/h 30.6 32.6 38.3 40.1 39.2
测试时间/s 5.3 5.6 6.8 7.3 6.9
表3为采用3.3节的指标针对本文方法与同类主流模型处理Massachusetts数据集的评价结果,表中各项指标的值更加直观地揭示了注意力模块的效果与RMAU-Net模型的相对优势。Attention-Unet与Res-Attention-Unet具有较高的查准率,IOUF1分数2项指标较U-Net分别提高了0.65%和0.63%、0.72%和0.64%,表明空间注意力通过突出建筑物特征,有效降低了误检率;而RMAU-Net的IOUF1分数2项指标均高于其他同类方法(其中SA-Net与本文具有相同的裁切策略和输入尺寸),较U-Net具有更明显提升,提升幅度分别为2.99%和2.27%,表明RMAU-Net应用于建筑提取中的有效性。
表3 在Massachusetts数据集上RMAU-Net和同类模型提取结果的定量评价

Tab. 3 Quantitative evaluation on results of RMAU-Net and similar models for the Massachusetts dataset (%)

模型 IOU F1-score Precision Recall
U-Net 70.69 82.48 85.99 79.61
Res-Unet 70.51 82.06 85.98 79.04
Attention-Unet 71.34 83.11 87.09 79.69
Res-Attention-Unet 71.41 83.12 87.63 79.37
SA-Net[5] 73.45 84.69 86.78 82.70
RMAU-Net 73.68 84.75 87.10 82.69

4.2 激活函数对提取效果的影响

为了验证激活函数对模型的影响,将U-Net和RMAU-Net分别采用ReLu和ACON-C激活函数进行实验。如表4所示,含有ACON激活函数的U-Net和RMAU-Net在各项精度指标上均有提升,其原因是ACON-C激活函数中的 β参数在训练过程中通过自主学习方式获取相应的值,在不同样本表现出不同的非线性程度,对于建筑物特征表现为非线性组合,组合后的特征强化了建筑物的表征能力;而对于非建筑物特征则表现为线性组合,组合后的特征弱化了背景信息的干扰。综上所述,ACON-C激活函数的自适应激活与不激活机制可优化模型、提升模型的传输性能和泛化能力。
表4 ACON激活函数实验评估结果及对比

Tab. 4 The evaluation results and comparisonof ACON activation function experiment (%)

模型 IOU F1-score Precision Recall
U-Net+ReLu 70.69 82.48 85.99 79.61
U-Net+ACON-C 71.33 83.09 86.65 80.09
RMAU-Net+ReLu 73.16 84.40 86.89 82.21
RMAU-Net+ACON-C 73.68 84.75 87.10 82.69

4.3 各模块效果分析

为了分析各模块对提取效果的影响,进一步验证本文提出的RB、CSA和CCA的有效性,实验过程以U-Net为基准模型并使用ACON激活,逐步添加RB、CSA和CCA共3个模块,实验设置与3.2节保持一致。实验结果(表5)如下:① U-Net+RB的各项指标项中除Precision指标项外均优于U-Net;② U-Net+RB+CSA优于U-Net+RB和U-Net,添加了CSA模块后模型精度明显提升,表明经过CSA加权校准后得到的特征图提高区分建筑物与背景之间的能力,能有效抑制提取结果中的大型建筑物的空洞和不连续现象;③ U-Net+RB+CSA+CCA优于U-Net+RB+CSA、U-Net+RB与U-Net,引入了CCA模块后模型的各项指标亦有较大提升,说明CCA通过连接任意2个像素的方式能有效提升所获相关信息的全局性,改善边界提取质量和边缘遗漏。
表5 RB、CSA、CCA模块实验评估结果及对比

Tab. 5 The experiments evaluation results and comparison of RB, CSA and CCA module (%)

模型
IOU F1-score Precision Recall
U-Net(基准) 71.33 83.09 86.65 80.09
U-Net(基准)+RB
71.61 83.33 85.78 81.22
U-Net(基准)+RB+CSA 72.76 84.11 86.73 81.78
U-Net(基准)+RB+CSA+CCA 73.68 84.75 87.10 82.69

5 结论与讨论

5.1 结论

本文针对现有高分影像建筑物提取主流深度学习网络模型存在的内部空洞、不连续以及边缘缺失和边界不规则等问题,从拓宽网络深度和设计注意力模块2个方面优化U-Net模型,提出了基于残差多注意和ACON的RMAU-Net模型,并在Massachusetts数据集上验证了该模型相对于同类模型的优势结论如下:
(1)本文采用ACON激活函数取代存在神经元“坏死”和无负值问题的ReLu激活函数,实验表明此举提升了模型的泛化能力和传输性能。
(2)为了克服深层网络学习性能“退化”和梯度“消失”问题、抑制背景区域的干扰以及强化远距离像素间的联系,本文分别设计与引入了RB模块、CSA模块与CCA模块,得到RMAU-Net模型。实验表明该模型针对Massachusetts数据集提取建筑物的总体效果优于同类模型(在所有参与比对的 6个模型中,本文提出的模型交并比与F1分数2项指标最优、查准率和查全率两项指标接近最优);较原始U-Net具有明显提升,在交并比与F1分数2项指标上分别提升了2.99%和2.27%,本文设计与引入RB、CSA与CCA 共3个模块达到了预期的目的,提升了基于高分影像提取建筑物的效果。
(3)在U-Net模型中依次集成RB模块、CSA模块和CCA模块并用于处理Massachusetts数据集,结果表明,U-Net+RB+CSA+CCA优于U-Net+RB+CSA、U-Net+RB和U-Net, U-Net+RB+CSA优于 U-Net+RB和U-Net,并且较基准U-Net在交并比与F1分数2项指标上分别提升了0.28%、1.43%、2.35%和0.24%、1.02%、1.66%。

5.2 讨论

本文提出的RMAU-Net模型能有效改善建筑物提取结果中存在的内部空洞、不连续以及边缘缺失与边界不规则等问题,但针对建筑物密集的复杂场景,提取效果仍有待提升,需要进一步探索。同时,由于RMAU-Net模型在训练过程中花费的时间较长,为了缩短模型的训练时间并提升精度,如何设计出性能更好的损失函数是后续研究需要重点关注的内容。另外,如何集成深度学习与传统建筑提取方法的相对优势设计出具有更强大表征能力的特征是后续研究的重要方向。
[1]
施文灶, 毛政元. 基于图割与阴影邻接关系的高分辨率遥感影像建筑物提取方法[J]. 电子学报, 2016,44(12):2849-2854.

DOI

[ Shi W Z, Mao Z Y. Building extraction from high resolution remotely sensed imagery based on shadows and graph-cut segmentation[J]. Acta Electronica Sinica, 2016,44(12):2849-2854. ] DOI: 10.3969/j.issn.0372-2112.2016.12.006

DOI

[2]
Kim T, Muller J. Development of a graph-based approach for building detection[J]. Image and Vision Computing, 1999,17(1):3-14. DOI: 10.1016/S0262-8856(98)00092-4

DOI

[3]
Jung C R, Schramm R. Rectangle detection based on a windowed Hough transform[C]//17th Brazilian Symposium on Computer Graphics and Image Processing. IEEE, 2004:113-120. DOI: 10.1109/SIBGRA.2004.1352951

DOI

[4]
Huang X, Zhang L. A multidirectional and multiscale morphological index for automatic building extraction from multispectral GeoEye-1 imagery[J]. Photogrammetric Engineering & Remote Sensing, 2011,77(7):721-732. DOI: 10.14358/PERS.77.7.721

DOI

[5]
冯凡, 王双亭, 张津, 等. 基于尺度自适应全卷积网络的遥感影像建筑物提取[J]. 激光与光电子学进展, 2021:1-20.

[ Feng F, Wang S T, Zhang J, et al. Building extraction from remote sensing imagery based on scale-adaptive fully convolutional network[J]. Laser & Optoelectronics Progress, 2021:1-20. ]

[6]
Shao Z, Tang P, Wang Z, et al. BRRNet: A fully convolutional neural network for automatic building extraction from high-resolution remote sensing images[J]. Remote Sensing, 2020,12(6):1050. DOI: 10.3390/rs12061050

DOI

[7]
Zhao W, Persello C, Stein A. Building outline delineation: From aerial images to polygons with an improved end-to-end learning framework[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021,175:119-131. DOI: 10.1016/j.isprsjprs.2021.02.014

DOI

[8]
崔卫红, 熊宝玉, 张丽瑶. 多尺度全卷积神经网络建筑物提取[J]. 测绘学报, 2019,48(5):597-608.

[ Cui W H, Xiong B Y, Zhang L Y. Multi-scale fully convolutional neural network for building extraction[J]. Acta Geodaetica et Cartographica Sinica, 2019,48(5):597-608. ] DOI: CNKI:SUN:CHXB.0.2019-05-008

DOI

[9]
Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]//International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015:234-241. DOI: 10.1007/978-3-319-24574-4_28

DOI

[10]
Jha D, Smedsrud P H, Riegler M A, et al. Resunet++: An advanced architecture for medical image segmentation[C]//2019 IEEE International Symposium on Multimedia (ISM). IEEE, 2019:225-2255. DOI: 10.1109/ISM46123.2019.00049

DOI

[11]
Oktay O, Schlemper J, Folgoc L L, et al. Attention u-net: Learning where to look for the pancreas[J]. arXiv preprint arXiv:1804.03999, 2018.

[12]
Pan X, Yang F, Gao L, et al. Building extraction from high-resolution aerial imagery using a generative adversarial network with spatial and channel attention mechanisms[J]. Remote Sensing, 2019,11(8):917. DOI: doi.org/10.3390/rs11080917

DOI

[13]
季顺平, 魏世清. 遥感影像建筑物提取的卷积神经元网络与开源数据集方法[J]. 测绘学报, 2019,48(4):448-459.

[ Ji S P, Wei S Q. Building extraction via convolution neural networks from an open remote sensing building dataset[J]. Acta Geodaetica et Cartographica Sinica, 2019,48(4):448-459. ] DOI: 10.11947/j.AGCS.2019.20180206.

DOI

[14]
Guo M, Liu H, Xu Y, et al. Building extraction based on U-Net with an attention block and multiple losses[J]. Remote Sensing, 2020,12(9):1400. DOI: 10.3390/rs12091400

DOI

[15]
Huang Z L, Wang X G, Huang L C, et al. Ccnet: Criss-cross attention for semantic segmentation[C]//The IEEE/CVF International Conference on Computer Vision. 2019:603-612. DOI: 10.1109/tpami.2020.3007032

DOI

[16]
Zhang Z, Wang Y. JointNet: A common neural network for road and building extraction[J]. Remote Sensing, 2019,11(6):696. DOI: 10.3390/rs11060696

DOI

[17]
Zhang Z, Liu Q, Wang Y. Road extraction by deep residual u-net[J]. IEEE Geoscience and Remote Sensing Letters, 2018,15(5):749-753. DOI: 10.1109/LGRS.2018.2802944

DOI

[18]
Alom M Z, Yakopcic C, Hasan M, et al. Recurrent residual U-Net for medical image segmentation[J]. Journal of Medical Imaging, 2019,6(1):14006. DOI: 10.1117/1.JMI.6.1.014006

DOI

[19]
陈凯强, 高鑫, 闫梦龙, 等. 基于编解码网络的航空影像像素级建筑物提取[J]. 遥感学报, 2020,24(9):1134-1142.

[ Chen K Q, Gao X, Yan M L, et al. Building extraction in pixel level from aerial imagery with a deep encoder-decoder network[J]. Journal of Remote Sensing (Chinese), 2020,24(9):1134-1142. ] DOI: CNKI:SUN:YGXB.0.2020-09-008

DOI

[20]
Ramachandran P, Zoph B, Le Q V. Searching for activation functions[J]. arXiv preprint arXiv:1710.05941, 2017.

[21]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//The IEEE conference on computer vision and pattern recognition. 2016:770-778. DOI: 10.1109/CVPR.2016.90

DOI

[22]
Wang X L, Girshick R, Gupta A, et al. Non-local neural networks[C]//The IEEE conference on computer vision and pattern recognition. 2018:7794-7803. DOI: 10.1109/CVPR.2018.00813

DOI

[23]
Mnih V. Machine learning for aerial image labeling[M]. University of Toronto (Canada), 2013.

[24]
Wang F, Jiang M Q, Qian C, et al. Residual attention network for image classification[C]//The IEEE conference on computer vision and pattern recognition. 2017:3156-3164. DOI: 10.1109/CVPR.2017.683

DOI

文章导航

/