AED-Net: Semantic Segmentation Model for Landslide Recognition from Remote Sensing Images

  • JIANG Weijie ,
  • ZAHNG Chunju , * ,
  • XU Bing ,
  • LUO Chenchen ,
  • ZHOU Han ,
  • ZHOU Kang
Expand
  • School of Civil Engineering, Hefei University of Technology, Hefei 230009, China
* ZHANG Chunju, E-mail:

Received date: 2023-04-03

  Revised date: 2023-06-01

  Online published: 2023-09-22

Supported by

National Natural Science Foundation of China(42171453)

National Key Research and Development Program of China(2022YFB3904200)

Abstract

Remote sensing images contain rich semantic information and play an important role in landslide disaster monitoring. Traditional landslide recognition is mainly based on remote sensing visual interpretation and human-computer interaction recognition, which is time and labor consuming, with strong subjectivity and low extraction accuracy. Semantic segmentation, as an important task in deep learning, has played an important role in automatic recognition tasks using remote sensing images due to its end-to-end, pixel-level classification capability and has great potential in automatic recognition of landslides. The existing semantic segmentation models for landslides using remote sensing images usually lack the feature information of multi-scale ground objects, and the boundary will be blurred with the increase of network depth. In this paper, Attention combined with Encoder-Decoder Network (AED-Net) is proposed for landslide recognition. A shallow feature extraction network is used to alleviate the boundary ambiguity caused by deep neural network. Multi-scale feature extraction capability of convolution pool pyramid structure in void space is utilized. Combined with the feature restoring ability of the encoder-decoder structure, the boundary information is restored, and the channel attention mechanism is used to enhance the key feature learning ability of the model. The focal-loss function is used to alleviate the imbalance of positive and negative samples. In our study, firstly, the GID-5 data set is used to conduct comparative tests on the expansion rate setting of void convolutions and the selection of channel attention mechanism in the model to get the optimal solution. Then, the feature weight is transferred to the semantic segmentation task for landslide disaster by using transfer learning method, and the hyperparameter discussion and ablation experiment are carried out. The resulting model achieves the optimal segmentation performance on the landslide disaster data set of Bijie City, with a Pixel Accuracy (PA) of 95.58%, the Mean Pixel Accuracy (MPA) of 89.24%, and the Mean Intersection over Union (MIoU) of 82.68%. Compared with classical semantic segmentation networks such as PSP-Net, Attention U-Net, DeeplabV3+ with ECA attention mechanism, and semantic segmentation models such as PA-Fov and LandsNet for classfifying landslide disasters, the pixel accuracy of our model increases by 0.73%~1.97%. The average pixel accuracy of all categories increases by 1.0%~2.84%, and the average interaction ratio increases by 2.25%~5.11%. Moreover, the edge information of landslide image is smoother and the multi-scale landslide segmentation accuracy is better than other deep learning models, which demonstrates the effectiveness of the proposed model in semantic segmentation of landslides from remote sensing images.

Cite this article

JIANG Weijie , ZAHNG Chunju , XU Bing , LUO Chenchen , ZHOU Han , ZHOU Kang . AED-Net: Semantic Segmentation Model for Landslide Recognition from Remote Sensing Images[J]. Journal of Geo-information Science, 2023 , 25(10) : 2012 -2025 . DOI: 10.12082/dqxxkx.2023.230171

1 引言

滑坡作为我国最常见的地质灾害之一[1],每年都会造成大量人员伤亡和财产损失。且近年来发生的导致灾难性后果的滑坡灾害,有超70%都不在已知的地质灾害隐患点范围内[2]。因此,滑坡识别在滑坡风险评估和管理中起着重要的作用[3-5]。随着对地观测技术的出现与发展,因遥感技术时效性好、覆盖范围大以及信息丰富等特点,在大范围自然灾害识别与预警方面发挥着越来越重要的作用。因此,从海量的遥感影像数据中迅速、准确地识别出滑坡灾害影响范围对防灾减灾工作有重要的指导意义。传统的滑坡识别主要通过对遥感图像和地形表面的目视判读,以及人机交互识别[6,7],虽然有着较高的准确率,但是存在专家知识依赖性强、时间成本高、效率低以及定量描述不准确等问题[8]
语义分割作为深度学习中的一项重要任务,因其端到端的像素级分割能力,已在影像自动化识别任务中发挥出了巨大的作用。经典的语义分割模型都针对医疗影像设计,首个全卷积神经网络[9](Fully Convolutional Networks, FCN)的提出,使医疗影像自动化识别有了新的解决方案;为提升影像边界分割精度,出现了经典编码-解码结构的高性能医疗影像语义分割网络U-Net[10];基于U-Net,Badrinarayanan [11]等提出的SegNet在编码-解码结构的基础上引入池化索引链接实现高效、准确的目标分割;Zhao等[12]提出的PSPNet(Pyramid Scene Parsing Network)利用金字塔池化结构融合了4个比例的特征使得网络能够学习不同尺度的语义特征;Chen等[13]提出的DeeplabV3+模型在PSP-Net的基础上又融合上下文信息,提高了分割目标边缘清晰度;近年随着Transformer模型的流行,Xie等[14]设计的分层Transformer编码器与轻量级MLP解码器实现了简单且高效的语义分割网络。
由于语义分割像素级的分类特征,其模型在基于遥感影像的滑坡灾害识别任务中也具有巨大的潜力,众多学者在此领域进行了深入的研究。其中 Cheng等[15]基于YOLOV4并结合Gconv、Gbneck和注意力机制,设计了基于高分遥感影像的YOLO-SA滑坡检测模型,但目标检测方法无法准确识别滑坡边界信息,显然不利于灾后评估与定损工作的进行;Ullo等[16]利用Mask R-CNN实现遥感影像中的滑坡分割,并获取滑坡边界信息,但当使用深层ResNet作为骨干网络时边界出现了更明显的模糊问题;为获取更清晰的滑坡边界,Bragagnolo等[17]利用U-Net的编码解码能力,有效地还原边界信息,但由于遥感影像地物尺度差异,导致小范围滑坡的识别效果明显逊于大范围滑坡;基于Bragagnolo的研究,Mu等[18]设计了一种基于特征图的多通道图像分割算法,可以根据像素内容调整感受野以获取不同尺度的滑坡语义信息;Yi等[19]融合残差块、注意模块和多尺度融合操作设计了针对滑坡灾害识别的模型LandsNet并取得了较高的识别准确率,但由于过多的模块组合导致模型复杂度与计算成本较高。
针对现有基于遥感影像的滑坡灾害语义分割模型,在滑坡边界区域识别模糊、遥感影像多尺度语义信息分类精度差异化的问题,本文提出了AED-Net网络模型。该模型使用空洞空间卷积池化金字塔(Atrous Spatial Pyramid Pooling,ASPP)获取不同尺度遥感影像特征,设计编码器-解码器结构强化滑坡边界,结合通道注意力机制(Channel attention mechanism)强化特征提取能力。实验证明,相比其他语义分割模型,本文模型可获取最清晰的滑坡边界特征,并且多尺度滑坡特征识别能力也更佳。

2 研究方法

2.1 技术路线

本文技术路线如图1所示。数据准备工作中,使用随机裁剪、随机翻转等数据增强方式对土地覆盖数据集和滑坡灾害数据集预处理,然后利用土地覆盖数据集对模型结构进行微调,选取最优模型结构并获得模型特征权重。将得到的特征权重迁移至滑坡灾害语义分割任务中,对耦合DEM数据的毕节市滑坡灾害数据集进行训练与测试,并调整模型超参数得到最优组合,最终在滑坡分割任务中与其他已有模型进行对比。
图1 本文技术路线

Fig. 1 Technical route of this paper

2.2 AED-Net总体框架

进行滑坡语义分割任务时,清晰的边界特征对滑坡范围的准确识别有着至关重要的作用,因此进行模型设计时,需减少特征提取阶段对边界信息的损耗,并还原因卷积计算而模糊的边界特征;同时需顾及遥感影像多尺度特点,强化模型对不同尺度滑坡特征的识别能力。编码-解码结构已在不同任务中证明其优秀的边界信息还原能力,因此本模型设计为编码器与解码器2部分:编码器中选用浅层特征提取器减少边界信息损耗并获取浅层特征,为顾及多尺度影像语义信息,引入空洞空间卷积池化金字塔提取遥感影像多尺度特征,同时为缓解因ASPP结构而造成的特征通道倍增问题,结合通道注意力机制强化模型特征学习能力,并得到含多尺度语义信息的深层特征;解码器中,将保留更多边界信息的浅层特征与含有多尺度语义信息的深层特征进行特征融合,通过注意力机制与上采样层获得语义分割结果。AED-Net的模型总体框架如图2所示。
图2 AED-Net模型总体框架

Fig. 2 Overall framework of the AED-Ne

2.3 MobileNetV2主干特征提取网络

将数据输入模型前使用特征提取器提取图片中的特征是必要的,常用的特征提取器有ResNet、Xception、VIT(Vision Transformer)等。VIT作为近年性能最佳的特征提取网络在不同的任务中都表现出了极佳的性能,但它需要庞大的数据进行训练,当数据量不足时,CNN仍具有一定的优势[20]。ResNet、Xception等大型特征提取器网络深度往往较深,由于卷积的运算特征,随着网络深度的增加,势必会丢失对于滑坡灾害范围判定具有重要意义的边界特征,因此需要网络深度较浅并且性能出色的CNN模型充当特征提取器。
MobileNetV2[21]图3)作为经典的轻量化特征提取网络,在延续使用深度可分离卷积的基础上引入反残差单元结构(Inverted Residual Block),使得模型在具有较少参数量和层数的同时能达到较高的特征提取精度,并且使用了线性瓶颈结构(Linear Bottleneck),即将模型单元结构中的ReLU激活函数替换为线性激活函数,以防止激活空间内兴趣流行完整度较高时因RelU激活函数导致的激活空间坍塌[21],从而引发的低维信息丢失。与Resnet[22]的计算顺序相反,MobileNetV2的反残差单元结构分别使用1×1卷积、3×3空间卷积、1×1卷积分别进行扩张、卷积、压缩计算,首先通过增加通道数强化特征提取能力,再改用深度卷积提取特征,最后进行降维操作,并在最后一层使用线性激活。MobilenetV2的网络模块可表示为:
F X = A × N × B x
图3 MobilenetV2网络模块

Fig. 3 The network module of MobilenetV2

式中:A是将输入的原始影像特征进行线性变换处理以得到特征矩阵;N是每个影像中每个通道的非线性变换处理;B是将提取出的特征输出时的线性变换处理。N的处理方式为:
N = R e L U 6 × d w i s e × R e L U 6
即为将每个通道的输入使用ReLU6函数激活,经过深度可分离卷积dwise的处理,再将结果进行ReLU6激活。综上所述,轻量化的MobileNetV2比ResNet等大型网络更适合作为本模型的特征提取网络。

2.4 空洞空间卷积池化金字塔

区别于常见的图片信息,遥感影像中的特征尺度范围更广,由几像素(汽车、房屋等)至上万像素(如水域、农田等)不等,滑坡灾害遥感影像也继承了这一特点,不同时期的滑坡灾害影响范围也有很大的差异,使用统一的卷积核大小提取这些尺度大相径庭的特征显然不利于模型的特征学习。因此,本模型使用顾及滑坡遥感影像多尺度特征的空洞空间卷积池化金字塔结构提取影像中不同尺度的滑坡灾害特征信息。
空洞空间卷积池化金字塔结构如图4所示,由卷积、池化金字塔以及ASPP Pooling 3部分组成。普通卷积的卷积核大小为1×1,用于提取最小尺度的图像特征。由3个空洞卷积层组成的池化金字塔,通过设置不同膨胀率控制单个空洞卷积核的感受野,从而使模型能够识别灾害影像中不同尺度的特征。其中空洞卷积可表示为:
y i = z i + r · k w [ k ]
图4 空洞空间卷积池化金字塔模块

Fig. 4 Atrous Spatial Pyramid Pooling module

式中:y为空洞卷积的输出特征图;i为特征图对应位置;z为由特征提取器得到的输入特征图;r指卷积核的膨胀率系数;k为卷积核大小;w指卷积滤波器。
最后的ASPP Pooling由3个卷积层组成,首先是池化层,通过将各通道的特征图分别压缩至 1×1大小,提取各通道的特征,进而获取全局特征;然后通过1×1 卷积对获取的特征降维,最终将特征图上采样返回原尺寸;最后ASPP将3部分的特征矩阵堆叠作为输出。为寻找出最适合遥感影像语义分割任务的ASPP结构,本文对空洞卷积的膨胀率设置进行了对比试验,并寻找出了最优组合。

2.5 通道注意力机制

特征矩阵中不同特征层代表了神经网络由滑坡灾害遥感影像中提取的不同特征,由于ASPP模块将5个特征矩阵堆叠至一起作为最终输出,导致了特征层数量的倍增,并非每个特征层都能在灾害识别任务中起到积极作用,因此神经网络需要从这些特征层中寻找出有正反馈的特征层,以提高模型的识别能力。注意力机制模仿人类对特定信息认知意识的机制,放大关键细节,让网络关注到它需要关注的地方以提高模型精度[23],在计算机视觉中获得了广泛的应用。通道注意力机制会将输入进模型的特征层赋予权重,并在反向传播的过程中更新权重以突出更重要的特征层,因此使用通道注意力机制处理由ASPP模块提取的特征层以帮助模型寻找更重要的地物特征是有必要的。
本文选用了SE-Net(Squeez and Excitation Module)[24]、CBAM(Convolutional Block Attention Module)[25]、ECA(Efficient Channel Attention)[26] 3种不同的通道注意力机制实现形式进行对比试验,选择最适合遥感影像语义分割任务的方法,最终选择ECA注意力机制作为嵌入方法。
ECA注意力机制(图5)认为模型在学习通道上的权重时避免降维操作非常重要,并不需要捕获所有通道之间的依赖关系,适当的跨信道交互不仅可以保持网络的性能还可以降低模型的参数量[27]。因此,ECA使用不降维的局部跨信道交互策略,并使用自适应一维卷积保证局部跨信道交互的覆盖率。ECA注意力机制实现跨信道交流的公式为:
w i = σ j = 1 k w i j y i j ( y i j i k )
图5 ECA注意力机制结构

Fig. 5 Structure of ECA

式中: w i表示ECA注意力机制的输出特征;k表示通道集合;j表示通道数; y i j表示输入特征矩阵的通道; Ω i k表示ASPP输出的特征矩阵中与通道y相邻的k个信道的集合。

2.6 Focal-loss损失函数

目标检测任务中,一张影像内的正样本数量一般都远少于负样本数量,而在大尺度遥感影像的目标检测任务中更是如此,数量庞大的负样本目标不仅无法对网络的训练产生正向影响,反而会使少量有助于训练的样本被淹没[27]。常用的损失函数如交叉熵函数无法解决此类正负样本失衡的问题,而常用于解决类不平衡的BCE (Binary CrossEntropy Loss)函数没有区分样本学习的难易度。针对上述问题,Focal Loss基于BCE引入了调制因子用来聚焦难分样本,从而解决正负样本不平衡以及难分样本的学习问题。Focal Loss损失函数公式如下:
F L p t = - α t 1 - p t γ l o g p t
其中:
$p_t=\begin{cases}p&y=0\\1-p&\text{其他}\end{cases}$
式中:当 p t趋近于1时样本为易区分样本,此时调制因子 1 - p t γ趋向于0,样本对损失贡献小,即减轻了易区分样本的损失比例; α t用于调节正负样本之间的比例,正样本使用 α t时,对应的负样本即为 1 - α t;γ为0~5之间的常数,当γ为0时Focal Loss即为普通的交叉熵函数。

3 数据集与实验参数指标

3.1 数据集介绍

本文使用GID-5土地覆盖数据集与毕节市滑坡灾害数据集验证模型性能。因滑坡数据集影像数量较少,无法充分训练模型的特征权重,为验证模型的鲁棒性,先使用GID-5检验模型性能,且由于两数据集任务的相似性,可以使用迁移学习的方法调用GID-5数据集中的模型特征权重以提高滑坡分割精度;然后使用包含由卫星拍摄的毕节市滑坡实例和DEM数据的毕节市滑坡灾害数据集进行模型微调并检验模型针对滑坡灾害遥感影像的分割性能。
(1)GID-5数据集
GID-5指武汉大学2021年公开的大规模高分卫星土地覆盖数据集[6](Gaofen Image Dataset,GID)中的大规模分类集GID-5,该数据集中包含建筑、 农田、森林、草地和水域5个土地覆盖类别,共计150景由遥感专家进行像素级标记的Gaofen-2卫星遥感影像,每幅影像尺寸为6 800像素×7 200像素。若直接将原始影像输入模型会造成显存崩溃,因此采用滑动窗口裁剪法对原始影像以及对应的标签影像进行裁剪,裁剪窗口大小为512 像素×512 像素,覆盖率为0.1.裁剪后获得36 001幅图片,将30 000张划分为训练集,6 001张划分为验证集。GID-5数据集如图6所示,可以看出GID-5数据集不同地物分布与占比极为不均匀,对模型的鲁棒性有一定的挑战性,可以作为遥感类语义分割模型的训练与评估参照数据集。
图6 GID-5数据集原始及裁剪后影像与标签

Fig. 6 Original and cropped images and labels of GID-5 dataset

(2)毕节市滑坡灾害数据集
毕节市位于贵州省西北部,地处西藏高原到东部丘陵的过渡带,海拔457~2 900 m之间。该市地址不稳定,山坡陡峭,雨量充沛(年平均降水量849~1 399 mm),生态环境脆弱,是中国滑坡最严重的地区之一[28]。毕节市滑坡灾害数据集[29]由卫星光学影像、滑坡边界文件以及数字高程模型组成,该数据集从2018年5—8月拍摄的TripleSat卫星图像中裁剪了770个滑坡样本,包括岩石崩落、岩滑和少量岩屑滑动,每个样本均由滑坡实例与边界框外40 m的扩展背景组成,以及2 003个覆盖各种背景的负样本。卫星RGB图像的地面分辨率为0.8 m,DEM高程精度为2 m,每个滑坡的形状矢量由研究人员使用ArcGIS结合官方资料手动划定。毕节市滑坡灾害数据集如图7所示,另在训练时采用随机裁剪的方式进行数据增强。
图7 毕节市滑坡数据集

Fig. 7 Landslide dataset in Bijie City

3.2 实验过程及评价指标

实验系统为Windows 10,采用Pytorch 1.12深度学习框架,通过OpenCV对GID-5数据集标签图像进行预处理,使其由RGB图像标签转化为灰度图像标签,并使用NVIDA GTX 1660Ti 6GB GPU加速训练。因毕节市滑坡灾害数据集影像较少,无法有效检验模型的性能与鲁棒性,因此本文首先使用GID-5土地覆盖分类数据集检验模型性能,并针对ASPP中膨胀率设置和通道注意力机制性能进行对比以获取最优模型组合。然后使用最优模型结构,结合迁移学习方法,将GID-5数据集模型权重迁移至毕节市滑坡灾害语义分割任务中,对实验中的超参数设置进行讨论与对比,并设计消融实验验证本文每个模块对于模型性能提升的有效性,最终将得到的结果与其他分割模型进行性能比较。每次训练过程均分为冻结主干网络与解冻主干网络两部分,在冻结主干网络训练时,仅对编码器和解码器进行训练,解冻阶段对模型整体进行训练。使用Adam优化器进行网络梯度更新,损失函数为Focal-loss,2部分的训练批次为50个epoch,并且在定义数据集时使用随机裁剪的方法进行数据增强。
为验证模型在滑坡灾害遥感影像识别中的性能,本文采用像素准确率(Pixel Accuracy,PA)、类别平均像素准确率(Mean Pixel Accuracy,MPA)、平均交互比(Mean Intersection over Union,MIoU)作为模型性能评估指标,最终得到的所有性能结果均基于测试集。PA表示预测类别正确的像素点占总像素点的比率,公式如下表示:
P A = i = 0 k p i i i = 0 k j = 0 k p i j
式中:k表示分类的类别数量; p i i表示将第i类分为第i类(即正确分类)的像素数量; p i j表示将第i类分为第j类(即所有像素数量)的像素数量。
MPA表示每一种类中正确分类像素点占该类像素点比率的平均值,公式如下表示:
M P A = 1 k + 1 i = 0 k p i i j = 0 k p i j
式中:变量的含义与公式7中的相同。
MIoU表示图像中像素的真实值和预测值两集合间交集与并集之比,即求出每一个分割类别的IoU值后取平均,公式如式(9)所示。
M I o U = 1 k + 1 i = 0 k p i i j = 0 k p i j + j = 0 k p j i - p i i
式中:ijk的含义均与上式(8)相同; p i j p j i表示假正和假负的像素数量。

4 结果与分析

4.1 GID-5数据集

(1)膨胀率设置
由于毕节市滑坡数据集图像数量较少,首先使用GID-5土地覆盖类型分类数据集验证模型性能,同时由于2个数据集均属于卫星遥感影像分类任务,具有一定相似性,在进行滑坡灾害遥感图像语义分割任务时也可以使用训练出的模型权重进行迁移学习,提高模型收敛速度与识别精度。为寻找出适合遥感影像语义分割任务最优的空洞空间卷积池化金字塔膨胀率组合,首先在GID-5土地覆盖类型分类数据集上进行试验,ASPP结构中空洞卷积的膨胀率组合分别设置为n=2、4、6、8进行对比实验,实验结果见表1。由表1以看出,在使用n=2的空洞卷积组合时模型有更好的性能,因此后文的实验均使用本组合。
表1 GID-5数据集中不同膨胀率下模型性能对比

Tab. 1 Model performance comparison under different expansion rates in the GID-5 dataset (%)

膨胀率 PA MPA MIOU
2 85.67 82.24 70.91
4 83.16 78.23 66.56
6 84.09 80.13 70.19
8 84.81 81.37 69.06

注:表中加粗数值表示最优模型结果。

(2)注意力机制对比
比较上文中嵌入的不同注意力机制对模型性能的影响,分割结果如表2所示。由评估结果可以看出,嵌入ECA注意力机制的模型总体性能均达到了最优,相较于不加入通道注意力机制的模型结构,像素准确率提高了1.77%,平均像素精度提高了5.8%,平均交互比提升了2.14%,并且所有类别的识别效果也最佳。由此可以看出通道注意力机制的加入可以更好地帮助模型学习对特征分类更重要的语义信息,能够有效的提升模型性能。此外,森林和草地2个类别的识别效果并不理想,主要是由于在遥感影像中这2类地物的光谱特征较为相似,因此在不引入其他外部判别条件的情况下,仅凭卷积神经网络模型自身的学习能力较难学习到良好的分类特征。
表2 不同注意力机制影响下GID-5数据集分割精度

Tab. 2 The segmentation accuracy of GID-5 data sets which affected by different attention mechanisms (%)

模型 PA MPA IoU
建筑用地 农业用地 森林 湿地 水体
Without-Attention 85.64 79.44 77.16 72.35 59.73 57.20 84.53
With-CBAM 85.06 82.21 75.55 71.0 56.61 63.79 84.37
With-SE 85.78 81.82 77.29 71.95 58.86 63.25 83.21
With-ECA 87.41 85.24 77.53 72.88 60.25 64.11 86.86

注:表中加粗数值表示最高精度。

综上所属,在进行滑坡灾害遥感影像语义分割任务时采用ECA注意力机制增强模型的特征学习能力,并且使用膨胀率n=2的空洞卷积组合。

4.2 毕节市滑坡数据集

(1)迁移学习
预训练模型Transformer已在自然语言处理的各项任务中显示出了其强大性能,但在计算机视觉中,由不同类型任务训练出的模型权重并不能盲目进行迁移,否则可能造成模型性能的下降。GID-5数据集与毕节市滑坡灾害数据集均属于基于遥感影像的土地覆盖分类数据集,任务具有一定的相似性,并且若模型从初始状态开始训练,由于权重过于随机,特征提取不明显,导致模型识别能力差,因此在训练模型时最好使用由类似任务数据集训练出的模型权重[19]。因此,基于迁移学习的思想,将GID-5数据集的模型训练权重载入毕节市滑坡数据集的训练任务中比对结果(表3)。可以看出,迁移学习对滑坡灾害语义分割任务有明显的提升效果。
表3 迁移学习对滑坡分割结果的影响

Tab. 3 The influence of transfer learning on the results of landslide segmentation

模型 F-Score
不使用迁移学习 0.842
迁移学习 0.886
(2)超参数设置
本文模型采用批量随机梯度下降算法进行优化,批量大小(Batch Size)和学习率(Learning Rate)这2个参数直接决定了模型的权重更新,它们是影响模型性能收敛最重要的参数。学习率直接影响模型的收敛状态,而批量大小则影响模型的泛化性能。在一定范围内增大批量大小可以减少训练时间,提高模型稳定性并带来一定的性能提升,但若超出范围则不仅会导致模型性能下降,还可能因显存超限导致模型崩溃。因此需要结合硬件条件设置合适的批量大小。而学习率的大小也需根据批量大小进行动态调整,否则可能会因批量大小的改变而导致模型损失不收敛。基于上述原因,本文设置了不同的Batch Size进行模型性能对比验证并使用Adam优化器对学习率大小进行动态调整。不同批量大小下的模型性能如表4所示。
表4 不同Batch Size下模型分割滑坡的性能

Tab. 4 Performance of model segmentation landslide under different batch sizes (%)

Batch Size PA MPA MIoU
2 94.44 81.43 79.84
4 94.45 84.4 80.75
8 95.47 88.57 81.56
16 95.58 89.24 82.68
由上述结果可以看出,针对本数据集增大Batch Size可以提高模型性能,但是受限于硬件条件并未达到批量大小阈值,后续可针对此项再做优化。不同学习率大小下的模型性能如表5所示,当初始学习率设置较大时会导致模型权重更新更为随机,导致训练后的模型表现较差,当初始学习率为1e-5时有最优表现。综上所述,本实验最终使用膨胀率大小为2的ASPP模块,嵌入ECA注意力机制,训练时批量大小设置为16,初始学习率设置为1e-5并使用Adam优化器在训练中自动调整。
表5 不同学习率下分割滑坡的性能

Tab. 5 Performance of segmentation landslide under different learning rates (%)

学习率 PA MPA MIoU
1e-2 91.72 78.59 69.90
1e-3 95.11 89.68 81.55
1e-4 95.48 89.04 82.34
5e-5 95.17 89.42 81.63
1e-5 95.48 89.8 82.68
(3)消融实验
为验证模型编码器与解码器部分的通道注意力机制与Focal-loss损失函数是否在模型性能的提升上起到了积极作用,因此设计消融实验对每个模块的提升性能进行验证。消融实验的结果见表6。由表中的结果可以看出Focal-loss损失函数的加入使模型的平均交互比提升了0.72%,可以证明其在解决样本正负不均衡问题时的有效性;编码端与解码端的ECA通道注意力机制分别为模型带来1.32%与1.48%的提升;最终Focal-loss与两处通道注意力机制共为模型提供了2.12%的性能提升,可以证明每个模块的有效性。
表6 消融实验结果

Tab. 6 Results of ablation experiment

Focal-loss Encoder-ECA Decoder-ECA MIoU/%
1 × × × 80.56
2 × × 81.28
3 × 81.88
4 × 82.04
5 82.68
(4)识别结果
为验证本文模型性能,选用经典语义分割网络PSP-Net,Attention U-Net,加入ECA注意力机制的DeeplabV3+,和针对滑坡灾害遥感影像识别的模型PA-Fov、LandsNet进行分割结果对比,分割精度见表7,对比结果见图8
表7 不同模型的滑坡分割性能比较

Tab. 7 Comparison of landslide segmentation performance of different models (%)

模型 PA MPA MIoU
PSP-Net[12] 93.61 88.45 77.57
PA-FoV[18] 94.26 86.4 78.37
ECA[22]&DeeplabV3+[13] 94.23 88.54 78.99
Attention U-Net[29] 94.52 86.83 79.30
LandsNet[19] 94.85 88.24 80.43
本文模型 95.58 89.24 82.68
图8 滑坡分割预测结果

Fig. 8 The landslide segmentation predicted results

由分割结果对比可以看出,本文模型相比其他模型性能有明显的性能提升。从结果看,本文模型在滑坡灾害遥感影像语义分割任务中有着最好的性能,相比PSP-Net像素准确率提升了1.97%,平均像素精度提升了1.69%,平均交互比提升了5.11%;相比PSP-Net像素准确率提升了1.97%,平均像素精度提升了1.69%,平均交互比提升了5.11%;相比加入ECA注意力机制的DeeplabV3+像素准确率提升了1.35%,平均像素精度提升了3.69%,平均交互比提升了5.11%;相比Attention U-Net像素准确率提升了1.06%,平均像素精度提升了2.41%,平均交互比提升了3.38%;。相比PA-FoV像素准确率提升了1.32%,平均像素精度提升了2.84%,平均交互比提升了4.31%;相比LandsNet像素准确率提升了0.73%,平均像素精度提升了1%,平均交互比提升了2.25%。
Attention U-Net、PSP-Net等经典语义分割模型均针对医学影像分割数据集构建网络结构,但医学影像的图像背景较为单一,图像复杂度较低。由分割结果也可以看出当滑坡灾害遥感影像背景较简单时,经典网络也可以有较好的分割结果,但当遥感影像中包含的地物类型较多,背景比较复杂时均出现了明显的像素错误分类(图9),这证明不能简单地将医学影像分割模型迁移至遥感影像分割任务中,而是要顾及遥感影像特点设计网络结构;针对滑坡灾害遥感影像识别任务的模型PA-FoV与LandsNet相较上述模型,在复杂背景中的识别结果明显更优,但在滑坡边界分割结果上与真实标签有一定出入,并且分割边界处能见由于深层卷积网络造成的锯齿状边缘(图10),相较而言本文模型的边界分割精度更高,边缘信息更平滑。
图9 背景复杂时经典语义分割网络中的像素错误分类

Fig. 9 Pixel misclassification in classical semantic segmentation network with complex background

图10 滑坡边缘分割结果对比

Fig. 10 Comparison of results of landslide edge segmentation

综上所述,本文模型使用浅层特征提取网络提取遥感影像的浅层与深层语义信息,并使用ASPP模块提取遥感影像不同空间尺度下的语义特征,结合注意力机制的特征强化与编码-解码层的边界还原能力,可以有效地完成基于遥感影像的滑坡语义分割任务,并有着较高的准确率。

5 结论

本文提出了一种针对滑坡灾害遥感图像语义分割模型AED-Net,该模型分为编码器和解码器两部分,使用轻量化网络MobileNetV2作为特征提取器,并通过空洞空间卷积池化金字塔提取不同尺度的地物特征,在编码器和解码器中加入通道注意力机制并使用Focal-loss作为损失函数更新模型权重,并采用迁移学习的方法提升模型精度。提出的模型在毕节市滑坡灾害数据集上获得了最优表现,像素准确度为95.58%,类别平均像素精度为89.24%,平均交互比为82.68%。相比经典语义分割网络PSP-Net、Attention U-Net、加入ECA注意力机制的DeeplabV3+,与针对滑坡灾害遥感影像构建的模型PA-Fov、LandsNet,PA提升了0.73%~1.97%,MPA提升了1.0%~2.84%,MIoU提升了2.25%~5.11%,达到了最优分割效果。并且相较于其他语义分割模型,本文模型在背景复杂时的边界信息更清晰,能够有效的识别滑坡边界,对不同范围的滑坡分割效果更精确,多尺度滑坡特征提取能力明显更优。
但本文模型在复杂背景下也出现了部分像素误分现象,由此可见仅以DEM高程数据为外部信息辅助模型训练是不足的。滑坡的更多参数信息,如:坡度坡向、岩层浮动力、坡体载重等信息,也应作为关键外部知识引入,而滑坡遥感影像并不蕴含这些知识,因此,如何将本文模型与滑坡知识结合是需进一步研究的关键问题。另外,毕节市滑坡灾害数据集包含的滑坡影像均为山体滑坡,当需将本文模型迁移至其他类型滑坡,如:黄土滑坡、黏土滑坡,能否有效的完成语义分割任务也是下一步研究需解决的问题。在后续研究中,一方面要继续扩大数据来源与规模,并提升数据集标注的精度,进而继续支持针对遥感影像滑坡灾害语义分割模型结构的研究;另一方面,可以尝试将数据加入到模型编码层中,联合先验知识强化模型特征学习能力,进一步提高模型的识别精度,为滑坡灾害的预警与防治提供支持。
[1]
许嘉慧, 孙德亮, 张虹. 多尺度滑坡灾害生态风险评价与风险管理研究──以三峡库区万州-巫山段为例[J/OL]. 生态学报, 2023(11):1-10.

[Xu J H, Sun D L, Zhang H, et al. Multi-scale ecological risk assessment and risk management of landslide disasters: a case study of Wanzhou-Wushan section in the Three Gorges Reservoir area. Acta Ecologica Sinica, 2023, 43(11).] http://kns.cnki.net/kcms/detail/11.2031.q.20230207.1043.023.html.

[2]
许强, 董秀军, 李为乐. 基于天-空-地一体化的重大地质灾害隐患早期识别与监测预警[J]. 武汉大学学报·信息科学版, 2019, 44(7):957-966.

[Xu Q, Dong X J, Li W L. Integrated space-air-ground early detection, monitoring and warning system for potential catastrophic geohazards[J]. Geomatics and Information Science of Wuhan University, 2019, 44(7):957-966.] DOI:10.13203/j.whugis20190088

[3]
Guzzetti F, Mondini A C, Cardinali M, et al. Landslide inventory maps: New tools for an old problem[J]. Earth-Science Reviews, 2012, 112(1/2):42-66. DOI:10.1016/j.earscirev.2012.02.001

[4]
Chen H X, Zhang S, Peng M, et al. A physically-based multi-hazard risk assessment platform for regional rainfall-induced slope failures and debris flows[J]. Engineering Geology, 2016, 203:15-29. DOI:10.1016/j.enggeo.2015.12.009

[5]
梅伟, 顾世祥, 刘鑫, 等. 基于滑坡大变形过程的滑坡定量风险评估方法[J]. 武汉大学学报·工学版, 2022, 55(5):443-453.

[Mei W, Gu S X, Liu X, et al. Quantitative risk assessment of landslides based on large deformation process of landslide[J]. Engineering Journal of Wuhan University, 2022, 55(5):443-453.] DOI:10.14188/j.1671-8844.2022-05-003

[6]
Haneberg W C, Cole W F, Kasali G. High-resolution lidar-based landslide hazard mapping and modeling, UCSF Parnassus Campus, San Francisco, USA[J]. Bulletin of Engineering Geology and the Environment, 2009, 68(2):263-276. DOI:10.1007/s10064-009-0204-3

[7]
Xu C. Preparation of earthquake-triggered landslide inventory maps using remote sensing and GIS technologies: Principles and case studies[J]. Geoscience Frontiers, 2015, 6(6):825-836. DOI:10.1016/j.gsf.2014.03.004

[8]
胡芳驰, 樊雅婧. 遥感影像滑坡灾害识别应用研究[J]. 农业灾害研究, 2021, 11(4):98-99.

[Hu F C, Fan Y J. Application of remote sensing image for landslide disaster identification[J]. Journal of Agricultural Catastrophology, 2021, 11(4):98-99.] DOI:10.3969/j.issn.2095-3305.2021.04.040

[9]
Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(4):640-651. DOI:10.1109/TPAMI.2016.2572683

PMID

[10]
Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015:234-241. DOI:10.1007/978-3-319-24574-4_28

[11]
Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12):2481-2495. DOI:10.1109/TPAMI.2016.2644615.

PMID

[12]
Zhao H S, Shi J P, Qi X J, et al. Pyramid scene parsing network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:6230-6239. DOI:10.1109/CVPR.2017.660

[13]
Chen L C, Zhu Y K, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//European Conference on Computer Vision. Cham: Springer, 2018:833-851.10.1007/978-3-030-01234-2_49

[14]
Xie E Z, Wang W H, Yu Z D, et al. SegFormer: Simple and efficient design for semantic segmentation with transformers[EB/OL]. 2021: arXiv:2105.15203. https://arxiv.org/abs/2105.15203.

[15]
Cheng L B, Li J, Duan P, et al. A small attentional YOLO model for landslide detection from satellite remote sensing images[J]. Landslides, 2021, 18(8):2751-2765. DOI: 10.1007/s10346-021-01694-6

[16]
Ullo S L, Mohan A, Sebastianelli A, et al. A new mask R-CNN-based method for improved landslide detection[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2021, 14:3799-3810. DOI: 10.1109/JSTARS.2021.3064981

[17]
Bragagnolo L, Rezende L R, da Silva R V, et al. Convolutional neural networks applied to semanticsegmentation of landslide scars[J]. CATENA, 2021, 201:105189. DOI: 10.1016/j.catena.2021.105189

[18]
Mu F, Li J N, Shen N, et al. Pixel-adaptive field-of-view for remote sensing image segmentation[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19:1-5. DOI:10. 1109/LGRS.2022.3187049

[19]
Yi Y N, Zhang W C. A new deep-learning-based approach for earthquake-triggered landslide detection from single-temporal RapidEye satellite imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13:6166-6176. DOI:10.1109/JSTARS.2020.3028855

[20]
Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: Transformers for image recognition at scale[EB/OL]. 2020: arXiv: 2010.11929. https://arxiv.org/abs/2010.11929

[21]
Sandler M, Howard A, Zhu M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:4510-4520. DOI:10.1109/CVPR.2018.00474.

[22]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:770-778. DOI:10.1109/CVPR.2016.90

[23]
Hassanin M, Anwar S, Radwan I, et al. Visual attention methods in deep learning: An In-depth survey[EB/OL]. 2022:arXiv:2204.07756. https://arxiv.org/abs/2204.07756

[24]
Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:7132-7141. DOI: 10.1109/CVPR.2018.00745

[25]
Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//European Conference on Computer Vision. Cham: Springer, 2018:3-19.10.1007/978-3-030-01234-2_1

[26]
Wang Q L, Wu B G, Zhu P F, et al. ECA-net: Efficient channel attention for deep convolutional neural networks[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:11531-11539. DOI:10.1109/CVPR42600.2020.01155

[27]
Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]. Proceedings of the IEEE international conference on computer vision. 2017:2980-2988. DOI: 10.1109/TPAMI.2018.2858826

[28]
Ji S P, Yu D W, Shen C Y, et al. Landslide detection from an open satellite imagery and digital elevation model dataset using attention boosted convolutional neural networks[J]. Landslides, 2020, 17(6):1337-1352. DOI:10.1007/s10346-020-01353-2

[29]
Oktay O, Schlemper J, Le Folgoc L, et al. Attention U-net: Learning where to look for the pancreas[EB/OL]. 2018:arXiv:1804.03999. https://arxiv.org/abs/1804.03999

Outlines

/