遥感科学与应用技术

基于局部-全局语义特征增强的遥感影像变化检测网络模型

  • 高建文 , 1 ,
  • 管海燕 , 1, * ,
  • 彭代锋 1 ,
  • 许正森 1 ,
  • 康健 1 ,
  • 季雅婷 1 ,
  • 翟若雪 2
展开
  • 1.南京信息工程大学遥感与测绘工程学院,南京 210044
  • 2.南京信息工程大学电子与信息工程学院,南京 210044
* 管海燕(1976—),女,江苏南京人,博士,教授,主要从事遥感数据智能解译。E-mail:

高建文(1998—),男,安徽亳州人,硕士生,主要从事高分辨率遥感影像变化检测研究。E-mail:

收稿日期: 2022-10-21

  修回日期: 2022-12-11

  网络出版日期: 2023-04-19

基金资助

国家自然科学基金项目(41971414)

国家自然科学基金项目(41801386)

江苏省2022年省级大学生创新创业训练计划(1514072201418)

Local-global Semantic Feature Enhancement Model for Remote Sensing Imagery Change Detection

  • GAO Jianwen , 1 ,
  • GUAN Haiyan , 1, * ,
  • PENG Daifeng 1 ,
  • XU Zhengsen 1 ,
  • KANG Jian 1 ,
  • JI Yating 1 ,
  • ZHAI Ruoxue 2
Expand
  • 1. School of Remote Sensing and Surveying Engineering, Nanjing University of Information Science and Technology, Nanjing 210044, China
  • 2. School of Electronic and Information Engineering, Nanjing University of Information Science and Technology, Nanjing 210044, China
* GUAN Haiyan, E-mail:

Received date: 2022-10-21

  Revised date: 2022-12-11

  Online published: 2023-04-19

Supported by

National Natural Science Foundation of China(41971414)

National Natural Science Foundation of China(41801386)

Provincial College Students Innovation and Entrepreneurship Training Program of Jiangsu Province, 2022(1514072201418)

摘要

尽管卷积神经网络(Convolutional Neural Network, CNN)已广泛应用于遥感影像变化检测任务,但CNN感受野有限,难以有效提取全局语义信息。针对上述问题,本文提出一种用于变化检测任务的端到端局部-全局特征增强的编-解码网络模型(Local-Global Feature Enhancement Network,LGE-Net)。在编码部分,LGE-Net利用CNN_ResNet34骨干网络分别获得双时相遥感影像局部语义特征,级联后输入Locally Enhanced Transformer(LE-Transformer)结构捕获远距离语义依赖,提取深层全局语义特征。在解码部分,嵌入语义增强模块(Context Enhancement Module,CEM)连接解码特征与多尺度局部特征,实现变化对象的准确定位与分割。此外,针对LE-Transformer各分块内部以及相邻分块序列间缺乏局部信息交互问题,设计了局部特征增强前馈网络(Locally Enhanced Feed Forward Network,LEFFN)。在LEVIR-CD和CDD变化检测数据集上的综合对比试验表明,本文提出LGE-Net模型取得的F1-score分别达到91.06%和94.78%,显著优于其他对比模型,可更加精准识别变化区域,进一步减少误检以及漏检率,且具有良好的泛化能力。

本文引用格式

高建文 , 管海燕 , 彭代锋 , 许正森 , 康健 , 季雅婷 , 翟若雪 . 基于局部-全局语义特征增强的遥感影像变化检测网络模型[J]. 地球信息科学学报, 2023 , 25(3) : 625 -637 . DOI: 10.12082/dqxxkx.2023.220809

Abstract

Convolutional Neural Network (CNN) has achieved promising results in change detection using remote sensing images. However, CNN performs poorly on global semantic information extraction due to its limited receptive field. To this end, we propose an end-to-end encoding-decoding local-global feature enhancement network, termed as LGE-Net, which introduces locally enhanced Transformers (LE-Transformer) for capturing global semantic feature representation. Specifically, the LGE-Net uses the CNN backbone network to obtain local semantic features of dual-phase remote sensing images and cascades the extracted local features into the LE-Transformer layer to extract deep global semantic features. Then, in the decoder, the features are cascaded, up-sampled, and finally connected with multi-scale local features by semantic enhancement modules (CEMs). In addition, a local feature-enhanced feed-forward network (LEFFN) is designed to enhance local information interaction in the LE-Transformer blocks and their adjacent blocks. Extensive experiments on the two publicly available datasets (i.e., LEVIR-CD and CDD) show that the proposed LGE-Net can accurately and efficiently identify changed regions, reduce false and missed detections, and thus has a better generalization ability, compared to other state-of-the-art change detection methods.

1 引言

遥感变化检测是通过在不同时间观察同一对象或现象来识别其状态差异的过程[1],已广泛应用于城市规划、自然及人类灾害监测、植被覆盖变化、地图制图和生态环境保护等诸多领域[2-4]。传统变化检测方法大多通过对同一地区不同时期的遥感影像进行代数运算获取地物时相差异结果。Wang等[5]提出一种基于双阈值指数熵的变化检测方法,解决遥感影像变化阈值选取困难的问题。Ji等[6]提出直觉模糊聚类与变化矢量分析结合的方法,对变化和未变化地物进行二分类,有效提升方法的泛化能力。传统变化检测方法虽然理论和实现较为简单,但逐像元计算浅层特征,忽略了空间上下文信息,产生大量椒盐噪声,难以准确识别影像间地物类型变化。此外,间隙较小的地物变化检测结果往往出现边缘模糊以及粘连现象[7-8]。根据某一特定区域遥感影像建立的传统变化检测模型泛化能力较差,无法实现自动化变化检测,难以应对大型变化检测任务[9]
近年来,随着计算机技术的日趋成熟,深度学习为遥感影像变化检测提供了更有力的技术支撑[10]。基于深度学习的变化检测方法自动提取遥感影像对深度变化特征,分割遥感影像,从而大量减少人工特征工程且更鲁棒地完成大型变化检测任务[11]。卷积神经网络(CNN)已成功用于具有强判别力的变化检测算法,基于CNN的方法将双时相影像转换为高层次空间深度特征,从而最大限度地减少错误传播以及由预处理导致的人为错误。Daudt等[12]提出FC-EF(Fully Convolutional Early Fusion)和孪生神经网络FC-Siam-Conc,引入与UNet[13]类似的跳跃连接,准确检测变化区域。Peng等[14]提出U-Net++_MSOF变化检测网络模型,融合深监督与密集连接机制优化变化区域边缘细节。Chen等[15]提出了基于孪生结构的多尺度时空注意力变化检测模型STA-Net,利用时空注意力机制捕捉影像不同尺度下时空依赖关系,以生成更优的特征表示,有效解决因配准误差导致的错误检测。
上述模型仅通过CNN进行局部感受野表征学习,既不能识别大型地物,也不足以在整个影像上捕捉地物与其他对象之间的关系。因此,很多学者尝试引入全局特征提取模块解决仅使用局部特征提取导致的表征学习受限问题。例如,Chen等[16]提出了基于Transformer的变化检测模型BIT_CD,通过Transformer模块增强模型时空上下文信息提取能力,解决复杂场景下检测困难问题。Bandara等[17]提出一种基于Transformer的孪生网络结构ChangeFormer,将分层结构的Transformer编码器与多层感知(MLP)解码器结合有效提取多尺度远程细节信息,用于精准变化检测任务。
尽管基于深度学习的变化检测方法获得了较高的检测性能,但高分辨率遥感图像具有明显的几何结构、复杂的纹理信息和有限的光谱信息,导致光谱变化、空间信息丢失和双时相影像几何配准误差。因此,变化检测任务中存在大量伪变化。又由于能够有效区分变化区域和未变化区域的特征较少,变化数据和未变化数据严重不平衡,即未变化的样本数远超过变化样本数,从而导致现有方法对伪变化鲁棒性较低[18-19]。变化检测任务仍面临多种挑战:①检测大型建筑物变化时,其内部结构被破坏(图1(a));②不同光照条件下,小型地物变化变化难以捕捉(图1(b));③对不同季节获取的影像,无法准确检测道路变化(图1(c));④由成像时间、天气、光照等原因导致地物在影像上光谱信息差异的伪变化带来的严重干扰(图1(d))。此外,现有变化检测模型泛化能力仍然不足,难以适用于众多变化检测场景[20]。因此,如何从不同变化场景中有效提取和学习丰富的特征信息,减少伪变化干扰,提高检测精度,是目前高分辨率遥感影像变化检测的一个重要问题[21]
图1 变化检测面临的挑战

Fig. 1 The challenges of change detection

因此基于上述模型不足以及高分辨率遥感影像变化检测任务挑战,本文结合CNN与Transformer网络,提出了一个端到端编码-解码网络的局部-全局语义增强Transformer变化检测模型(Local-Global Feature Enhancement Network,LGE-Net)。其创新点:① 针对CNN感受野有限问题,LGE-Net利用局部增强Transformer(Locally Enhanced Transformer,LE-Transformer)模块扩大模型感受野,增强全局特征提取能力;② LGE-Net嵌入语义增强模块(Context Enhanced Module,CEM),进一步增强浅层特征,弥合其与深层特征之间的语义差距,从而提升模型分割性能;③ 针对Transformer缺乏相邻分块序列中局部信息交互以及分块内部局部特征被忽略导致的复杂及密集背景下特征提取不准确和不可靠等问题,在LE-Transformer模型中嵌入了局部特征增强前馈网络(Locally Enhanced Feed Forward Network,LEFFN)模块。

2 研究方法

2.1 技术路线

如何构建深度模型是变化检测任务的关键,本文研究技术路线如图2所示。首先,为减少过拟合以及获取更优的训练模型,通过随机旋转、上下翻转、随机尺度裁剪和高斯模糊等方式对训练集数据进行数据增强,然后将时相1、2双时相影像输入双编码器提取深层次特征并通过解码器解码获得本文模型变化检测结果,最后构建对比实验和消融实验定量评价本文所提模型的优越性和模型内部不同模块的贡献。
图2 本文研究技术路线

Fig.2 This paper studies the technical route

2.2 网络整体结构

本文将1和2双时相影像作为LGE-Net模型输入,输出为二分类变化检测图。图3所示为LGE-Net变化检测网络模型整体架构,其核心组成部分为:编码-解码模块、LE-Transformer模块、语义增强模块CEM和局部特征增强前馈网络LEFFN。
图3 LGE-Net网络整体结构

Fig. 3 The framework of the LGE-Net

在编码器部分,对变化检测任务而言分为早期融合和晚期融合策略。在早期融合网络中,双时相影像作为一个整体输入到深度网络中,早期融合网络可以捕获分层差异表示,但它缺乏单个原始影像的深度特征,导致变化检测结果边缘细节被破坏。与早期融合网络不同,晚期融合网络由两个具有共享权重的网络组成,分别提取单个影像特征,然后将它们连接起来作为变化检测层的输入[12]。因此,如图3所示,本文利用ResNet34构建双编码器分别处理时相1和2双时相影像实现多尺度浅层语义特征提取。随后,将双编码器输出的双时相语义特征进行通道拼接,输入到LE-Transformer模块提取全局语义特征。此外,为解决Transformer缺乏相邻分块序列中局部信息交互以及分块内部局部特征被忽略等问题,在编码器末端构建LEFFN模块以实现局部特征增强。在解码器部分,构建相应的3级解码块,对编码器输出语义特征图逐层上采样,恢复至图像原始尺寸并逐像元预测其属于变化概率。此外,跨越连接对每一尺度的编解码特征进行连接,补充细粒度语义信息。针对编码器和解码器之间存在的显著语义差距,LGE-Net嵌入了CEM模块,通过解码器引导和注意力机制,在不损失特征图细节特征条件下,提升其语义层次,弥补语义鸿沟。下面分别详细介绍编-解码结构中用于变化检测的LE-Transformer、CEM和LEFFN 3个核心模块。

2.3 编码器结构

LGE-Net变化检测网络的编码器部分由2组ResNet34[22]骨干网络、1个LE-Transformer模块和1个LEFFN模块组成,其中ResNet34作为网络backbone用于提取输入双时相影像浅层语义特征,LE-Transformer模块用来获得双时相影像的全局上下文信息,LEFFN模块则用于获取图像块内部的语义关系。

2.3.1 ResNet骨干网络

通常卷积神经网络层数越多,其非线性表达能力越强,从而可以提取深层次语义信息。但深层卷积网络可能会出现梯度消失和梯度爆炸问题,从而极大影响模型变化检测效果。因此,本文使用ResNet34骨干编码网络构建深度网络,解决梯度消失问题,提高模型特征表示能力。ResNet34由一个7×7卷积、16个残差块和一个全卷积组成。首先,输入影像经过一个步长为2的7×7卷积得到特征图 X i。接着,特征图 X i输入至16个串联的残差块,其中第i个残差块结构如图4所示。输入特征图 X i R C × H × W首先经过一个由步长为1的3×3卷积层提取初步特征;经过Relu函数激活输入到第2个卷积层得到F(Xi)作为整个残差块的输出。将第i个残差块的输出F(Xi)与输入特征图的特征Xi叠加且Relu函数激活后为下一个残差块的输入Xi+1,以此类推。
图4 ResNet34一个残差块示意图

Fig. 4 Schematic diagram of a residual block of ResNet34

2.3.2 LE-Transformer模块

Transformer结构最初用于机器翻译[23],并取得远超CNN的性能表现。此外,由于依赖全局自注意力机制,该结构够有效捕捉输入数据的全局上下文信息,逐渐在其它自然语言处理(Natural Language Processing,NLP)和图像处理任务中得到更多关注,应用于图像分类[24]、语义分割[25]、图像识别[26]等领域。
本文提出的LE-Transformer模块主要由位置编码模块(Positional Encoding)、多头注意力模块(Multi-head Self-Attention,MSA)和前馈网络(Feed Forward Network)构成。如图5所示,首先通过位置编码操作,将输入图像转化为图像块(token)并赋予其位置编码。之后,通过多头自注意力模块计算不同图像块之间的相关性从而获得全局语义信息,并使用残差连接和线性层防止网络退化并归一化每一层激活值,加速收敛。最后,通过前馈网络变换LE-Transformer块的输出空间,其中非线性激活函数增加模块非线性性,从而提升模型变现能力。
图5 LE-Transformer结构

Fig. 5 A diagram of the LE-Transformer

图5所示,首先将输入图像 X R C × H × W分割成一系列二维图像块序列{ X p i R P 2 × c , i = 1 , , N},其中每一个图像块大小为 P × P像素,图像块数量为 N = H × W / P 2。然后,利用可训练的线性投影将 X p i映射到一个D维嵌入空间中,并对其编码位置信息:
Z 0 = X p 1 E ; X p 2 E ; ; X P N E + E p o s
式中: E R p 2 C D表示编码投影; E p o s R N × D表示嵌入位置编码。
之后,通过多层多头注意力模块计算不同图像块之间相关关系,从而获得全局语义信息。其中,第L层的输入如下:
Z l ' = M S A L N Z l - 1 + Z l - 1
Z l = L E F F N L N Z l ' + Z l '
式中: l 1 , , L L N(Layer Normalization)为层归一化算子;LEFFN为局部特征增强前馈网络; Z l为LE-Transformer第l层编码特征。在LE-Transformer结构中,每个多头自注意力模块由多个自注意力层构成,多头自注意力层的输入为QKV矩阵,可通过权重矩阵 W q W k W v分别与输入子图像块或上一层LE-Transformer块输出相乘获得,计算公式如下:
Q = T l - 1 W q
K = T l - 1 W k
V = T l - 1 W v
式中: T l - 1表示 l - 1层LE-Transformer的输出;值得注意的是,当l为1时, T为位置编码后的输入子图像块; W q W k W v分别为3层可训练线性参数层,即可训练权重矩阵。多头自注意力层计算公式为:
A t t e n t i o n ( Q , K , V ) = σ Q K T d × V
式中: σ表示softmax激活层, d表示QK权重矩阵的维度。通过将token块间互相作为Q、K和V并通过式(7),计算其相互作用,捕捉不同类型的上下文信息,从而获得多层次的长距离上下文依赖关系。最后,将多头输出拼接并做线性转换,得到该多头自注意力层的输出值,计算公式如下:
h e a d j = A t t e n t i o n T l - 1 W j q , T l - 1 W j k , T l - 1 W j v
M S A = M S A T l - 1 = C o n c a t h e a d 1 , h e a d 2 , , h e a d n W 0
式中: W j q W j k W j v分别表示第j个自注意力头的QKV权重矩阵; W 0表示可训练的线性权重矩阵;n表示自注意力头的总数。

2.3.3 局部特征增强前馈网络LEFFN模块

LE-Transformer对图像位置编码后,建模了不同图像块之间的语义依赖,从而获得全局语义信息。但是,该操作忽略了图像块内部不同像元间的语义关系。因此,本文提出局部特征增强前馈网络LEFFN替代传统MLP(Multi-Layer Perceptron)操作。通过经典卷积运算,为LE-Transformer补充局部语义特征。如图3(a)所示,首先将二维特征图块( Z l R ( h × w ) × c)变形为三维( Z l R c × h × w),其中hwc分别为特征图高、宽和特征通道数。其次,1×1卷积操作将特征图通道维数提升至2倍( Z l R ( c × 2 ) × h × w),从而引入更多参数,增强拟合能力。之后,通过步长为1的3×3卷积建模特征图块内部和不同特征图块之间的局部语义特征。最后,再经过1×1卷积将特征图通道维数降至与输入特征图大小相同,并变形为二维( Z l R ( h × w ) × c),进入下一层LE-Transformer或者输出至下一阶段模块。

2.4 解码器结构

为平衡模型复杂度和性能表现,本文使用与UNet类似的经典逐级上采样解码器。每个块由2×上采样算子和卷积块组成,其中,每个卷积块由2个3×3卷积层、批归一化(BN)层和ReLU激活函数组成。上采样方法使用双线性插值,卷积层的级联特征的维数与上采样特征的维数一致。经过3层逐级上采样,特征图与输入图像尺寸一致。最终,使用Sigmoid激活函数,逐像元预测其变化的概率。
为补充细粒度特征,本文同样使用跨越连接,即将每级编码器输出特征与其对应解码器特征在通道维拼接。值得注意的是,直接通过跨越连接融合浅层特征和深层特征,会由于二者语义差距过大而影响模型性能[27]。因此,本文提出CEM模块,通过增强浅层特征,弥合其与深层特征之间的语义差距,提升模型分割性能。该模块使用解码器特征图校正对应尺度编码器特征图并通过注意力机制,在不改变特征图尺寸条件下,进一步提升编码器语义层次。
图6所示,CEM模块首先将双编码器中某一层输出特征图(C1、C2)按通道拼接;同时,将该编码层对应的解码器层上采样输入使用sigmoid函数归一化。之后,将归一化后特征图与编码器拼接结果逐点相乘。对于相乘结果,首先通过通道注意力机制,对编码器特征图每个通道赋予不同权重,校正不同通道的重要性。具体而言,将特征图( F R h × w × c)分别经过全局最大池化(Maxpool)和全局平均池化(Avgpool),得到2个特征图 F a v g c F m a x c。全局最大池化和全局平均池化均可整合逐通道的空间语义信息,但全局平均池化通过对池化区域图像取平均值编码全局统计信息,从而对背景特征更加敏感;全局最大池化则是将池化区域的像素点取最大值编码最显著特征,有效识别显著地物变化[28]。接着,将其输入一个权值共享的2层线性层,第一层神经元个数为c/rr为减少率),激活函数为ReLu,第二层神经元个数为c。然后,将该线性层输出的特征逐像元相加,并使用sigmoid函数激活,得到特征图F每个通道的权重值,即 M c。最后将 M c和输入特征图F逐像素相乘,校正不同特征通道。计算公式如下:
F ˆ = M c F = σ W 1 W 0 F a v g c + W 1 W 0 F m a x c
式中: W 0 R c / r × c W 1 R c × c / r分别为多层感知机权重。
图6 CEM模块结构

Fig. 6 A diagram of the CEM module

之后,使用空间注意力机制,对特征图每个空间位置加权,更大程度上保留更有价值特征,抑制无效或错误特征。首先,对通道注意力输出特征图 F ˆ基于通道取全局最大池化以及全局平均池化,得到特征图 F ˆ i R h × w × 1 , { i = 1,2 }。然后将这2个特征图基于通道拼接,并通过一个7×7卷积降维为1通道,即 F ˆ i R h × w × 1。经过sigmoid激活函数生成空间注意特征 M S R h × w × 1后,将其与此模块的输入特征 F ˆ相乘得到最终的输出特征 M S F ˆ。计算公式如下:
M S ( F ) = σ ( f [ A v g P o o l ( F ) ; M a x P o o l ( F ) ] )
式中:f表示卷积核大小为 7 × 7的卷积操作。每一层双编码器输出特征经过CEM模块增强语义特征之后,与对应上采样输出特征图按特征通道拼接,作为解码器相应阶段输入特征。

3 实验和结果

3.1 实验数据

为充分验证本文提出LGE-Net模型的综合性能,针对变化检测目前面临的各种挑战,选择涵盖各种建筑类型的LEVIR-CD数据集和具有显著季节变化的CDD数据集作为本文实验数据,数据详细介绍如下。
(1)LEVIR-CD数据集
LEVIR-CD[15]数据集包含637对空间分辨率为0.5 m的谷歌影像,每张影像大小为1024像素×1024像素。该数据集涵盖了各种建筑类型,如别墅、高层公寓、小型车库和大型仓库。全标注了超过 31 000个单独变化实例(https://justchenhao.github.io/LEVIR/)。影像对的时间跨度从5年到14年不等,其中城市扩张等土地利用类型变化较为显著。为方便输入模型,本文将每一个影像对裁剪为256像素×256像素大小、互不重叠的影像块,共为 10 192对,其中7120、1024和2048个影像对分别作为训练集、验证集和测试集。
(2)CDD数据集
为了进一步验证所提方法的性能,本文同样在CDD[29]数据集进行了大量定性和定量对比实验(https://gitlab.citius.usc.es/hiperespectral/ChangeDetectionDataset)。CDD数据集包含了16 000个有季节性变化的遥感影像对,每张遥感影像为大小为256像素×256像素,空间分辨率为0.03~10 m。本文选择其中10 000对影像训练模型,测试和验证集均使用3000对影像。此外,为更好训练模型,缓解过拟合,通过左右翻转、随机旋转、上下翻转、随机尺度裁剪和高斯模糊等方式对上述2个数据集中的所有训练数据进行数据增强。

3.2 实施细节与评价指标

本文提出的LGE-Net变化检测网络基于Pytorch框架实现,硬件配置为Intel Xeon Silver 4210R CPU、NVIDIA RTX 3090 GPU和128GB运行内存,软件配置为Python 3.8+Pytorch 1.7版本。超参数设置如下:使用Kaiming初始化模型权重参数,并由AdamW优化器和二元交叉熵损失函数更新模型参数,训练轮数为100,Batchsize设置为16,所有层的初始学习率设置为2×10-4,并以 L R n + 1 = L R n × 1 - n + 1 101的方式下降(其中LRn和LRn+1分别表示第n次和n+1次迭代的学习率)。
为检验模型性能,本文选择F1-score、准确度(Precision,P)、召回率(Recall,R)和交并比(Intersection over Union,IoU)作为评价指标,上述指标定义如下:
P = T P T P + F P
R = T P T P + F N
I o U = T P T P + F P + F N
F 1 - s c o r e = 2 P R P + R
式中:TP表示正确检测未变化像素数量;FP表示未检测到未变化像素数量;FN表示未检测到变化像素数量;TN表示正确检测到变化像素数量。对变化检测任务而言,P值越高误检数量越少,R值越高漏检数量越少,F1-score值和IoU指标也可表现模型的总体性能及泛化能力。

3.3 对比实验

为证明本文提出方法的优越性,将LGE-Net与当前变化检测任务中最先进的基于卷积和基于Transformer的语义分割模型进行比较,例如 FC_EF[12]、UNet++_MSOF[14]、DSIFN[30]、STANet[15]、BIT[16]和ChangeFormer[17]。FC_EF和UNet++_MSOF模型输入为通道拼接后的双时相影像,FC_EF直接采用UNet模型实现变化检测;而UNet++_MSOF则在UNet++模型中,通过多侧面输出的融合策略融合全局和细粒度语义特征,从而组合不同语义层次的变化图,完成变化检测任务。DSIFN、STANet、BIT和ChangeFormer变化检测模型均使用一个双分支全卷积神经网络分别提取双时相遥感影像特征。DSIFN通过深度监督差异判别网络以及注意力机制融合多层次深度特征与图像差异特征,以保持检测区域的完整性;STANet变化检测模型引入自注意力机制以建模不同时相影像间的时空依赖,并通过将输入图像划分为多尺度子区域以适应尺寸多变的检测对象;BIT将Transformer编码-解码器引入卷积差分变化检测网络,实现双时相影像间的长距离语义依赖建模;ChangeFormer与目前基于全卷积网络(FCN)的变化检测模型不同,该模型将分层结构的Transformer编码器与多层感知(MLP)解码器结合在一个孪生网络结构中,以呈现变化检测所需的多尺度远程细节。为公平比较,所有模型都使用相同数据集和训练策略训练。本文提出模型和对比模型在LEVIR-CD和CDD数据集上的整体性能如表1所示。
表1 2个数据集上的变化检测性能

Tab. 1 Changes detection accuracy on two datasets (%)

模型 LEVIR-CD CDD
P R F1-score IoU P R F1-score IoU
FC-EF 87.57 78.14 82.58 70.34 76.28 71.01 73.55 58.17
STANet 85.00 91.40 88.10 78.70 88.00 94.30 91.10 83.60
BIT 90.50 89.42 89.96 81.75 95.15 92.41 93.76 88.25
UNet++_MSOF 89.08 85.37 87.19 77.28 89.36 87.22 88.27 79.00
DSIFN 93.30 86.21 89.61 81.18 88.09 96.22 91.97 85.14
ChangeFormer 92.05 88.81 90.40 82.41 94.28 94.16 94.17 92.37
LGE-Net 92.28 89.87 91.06 83.59 96.21 93.38 94.78 92.71

注:黑色加粗数值表示性能最优。

3.3.1 LEVIR-CD数据

LEVIR-CD数据集的挑战主要体现在:① 数据影像存在季节差异以及亮度引起的变化,给网络带来巨大挑战;② 传感器和大气条件多变以及影像对之间时间跨度较大等;③ 影像背景信息相对复杂。图7为本文LGE-Net算法和对比算法在该数据集中部分检测结果,其中白色表示正确检测变化像素(TP),黑色表示正确检测未变化像素(TN),红色表示误检像素(FP),绿色表示漏检像素(FN)。如图7(d)所示,FC-EF模型受伪变化影响最大,误检和漏检最多。如图7第6行所示,除FC-EF外,其它模型均可以检测到大型建筑物变化。但是,STANet模型和UNet++_MSOF模型感受野有限,BIT模型受到直接上采样过程中低层次细节信息丢失影响,导致检测结果出现伪变化和预测结果完整性不足。相较而言,DSIFN模型对于复杂建筑物检测结果完整性较好。但如图7(g)所示,该模型对细小目标变化检测不明显,这是由于DSIFN受感受野限制,无法提取丰富的全局上下文信息而导致细节信息丢失。相较于上述对比模型,由于LGE-Net模型中的CEM模块将中间阶段生成的特征进行跳跃连接,同时又引入了空间和通道双重注意力机制,有效缓解了编码、解码器之间的语义鸿沟问题,从而可以更准确检测复杂建筑物变化并对光照及亮度变化等噪声不敏感。
图7 LEVIR-CD数据集实验结果

Fig. 7 Experimental results of the LEVIR-CD dataset

定量比较如表1所示,在LEVIR-CD数据集上,LGE-Net模型在所有评价指标上几乎都优于其他对比方法。以F1-score值为例,LGE-Net与其他5种方法相比较,大约提升1.10%~8.52%。与视觉检测一致,FC-EF模型直接采用UNet模型进行变化检测,感受野受限导致特征提取能力不足,因此其各项评价指标均偏低。虽然DSIFN模型和STANet模型分别在准确度和召回率上略优于本方法,但是其F1-scoreIoU值显著较低,这是因为DSIFN模型的深度监督机制避免深层次特征未被优化,抑制伪变化影响,但其无法获取全局语义信息,导致部分细节信息丢失,因此召回率较低;而STANet模型可获得不同尺度下的时间-空间依赖关系,因此漏检率较低。BIT模型F1-score值仅次于LGE-Net,表明引入Transformer获取丰富的全局上下文信息,能有效降低模型漏检率和误检率。

3.3.2 CDD数据集

CDD数据集相较于LEVIR-CD数据集,受季节变化影响显著,如图7第3行和第6行中不同季节下的道路和建筑物变化。由图8可知,无论对象大小和季节变化,LGE-Net都可以保持检测对象的内部紧凑性和边界的完整性。与LGE-Net模型相比,FC-EF模型和UNet++_MSOF模型在检测大型变化区域时都会破坏检测结果内部结构,并且检测结果均有不同程度缺失。这是因为模型输入为拼接后的双时相遥感影像,导致模型开始提取特征时会存在影像识别差异,从而很难提取到原始深层次特征来进行影像重建。DISFN模型检测结果与真实标签相比,对复杂建筑物的边界检测有所缺失。相较而言,BIT模型在保持变化建筑物边界和内部的完整性方面性能更佳,但BIT模型直接上采样到全分辨率而导致变化区域中的细节信息丢失,从而无法检测到一些细小对象的变化。此外,如图8第3行所示,对于道路变化,只有本文LGE-Net模型能够检测到复杂道路的变化,而FC-EF和UNet++_MSOF模型都会受道路结构变化影响而造成大量漏检,这是因为Transformer模块能够学习丰富的上下文信息,消除了很多伪变化,并且更准确地表达了真实语义变化。综上可知,本文LGE-Net模型得到的变化图与实际变化结果最接近,能够完整、准确的检测出变化区域,并且能够比较有效抑制伪变化。
图8 CDD数据集实验结果

Fig. 8 Experimental results of the LEVIR-CD dataset

表1比较了LGE-Net模型和对比模型在CDD数据集中的定量验证结果,LGE-Net模型在准确度PF1-score值和IoU指标中均达到最佳水平,分别为96.21%、94.78%和92.71%。与性能略差且均使用Transformer模块的BIT相比,准确度P、召回率RF1-scoreIoU指标分别提升1.06%、0.97%、1.02%、4.46%。与FC-EF模型、UNet++_MSOF模型、DISFN模型和STANet模型相比,LGE-Net通过CNN提取深层次细节信息的同时利用LE-Transformer模块捕获丰富的全局上下文信息,故LGE-Net的各项评价指标均优于上述模型。与LGE-Net相比,BIT中的Transformer模块缺乏相邻分块序列中局部信息交互并且分块内部局部特征被忽略,而LGE-Net模型通过构建LEFFN模块有效解决该问题,因此在定量和定性分析方面均优于BIT模型。

3.4 消融实验

为进一步验证本文提出LE-Transformer模块、CEM模块和LEFFN模块对LGE-Net网络整体性能影响,在更具有挑战性的LEVIR-CD数据集上进行消融实验。以LGE-Net作为主体网络,分别移除LE-Transformer,CEM和LEFFN模块来构建对比模型A、B和C。所构建的3个模型在LEVIR-CD数据集上的消融实验结果如表2所示。
表2 消融实验结果

Table 2 Ablation experimental results

模型 LE-Transformer CEM LEFFN P/% R/% F1-score/% IoU/%
LGE-Net 92.28 89.87 91.06 83.59
A × 92.46 89.32 90.87 83.26
B × 92.21 89.56 90.87 83.27
C × 91.80 89.92 90.85 83.24

注:√表示包含本模块,×表示不包含本模块。

模型A是从LGE-Net模型上移除LE-Transformer模块,相比于LGE-Net模型,其准确度虽上升0.18%,但召回率、F1-score和IoU值分别下降0.55%、0.19%、0.33%。如图8第一行所示,与LGE-Net模型相比,模型A建筑物变化检测结果明显出现大量漏检。这主要是由于移除LE-Transformer模块,导致LGE-Net网络上下文信息提取能力受限,部分细节信息丢失,造成漏检增多。模型B是从LGE-Net模型上移除CEM模块,从表2可见,模型B所有定量指标均下降,漏检和误检都有所增加。如图9第二行所示,模型B变化检测结果中误检显著增多,这主要是由于解码时跳跃连接直接连接浅层特征与深层特征,二者语义差距大而影响模型特征表达能力,从而造成更多误检。模型C是从LGE-Net模型上移除LEFFN模块,从表2可见,除召回率R轻微波动上升0.05%外,其他指标均下降。这主要是由于Transformer相邻分块序列中局部信息交互能力不足,证明在Transformer模块中引入局部特征增强对模型整体性能有一定提升,特别是降低漏检率。
图9 消融实验结果

Fig. 9 Ablation experimental results

4 结果与讨论

本文以高分辨率遥感影像为研究对象,提出一种局部-全局语义特征增强的编码-解码网络LGE-Net变化检测模型。对LEVIR-CD和CDD数据集进行试验的结果表明:① 因引入LE-Transformer增大了感受野,本文模型较之与FC-EF模型R值提高了11.73%,大量减少了漏检,说明本文方法更能提高上下文细节信息提取能力,有效消除冗余信息且能够对特征完全建模;② 又因引入CEM模块,LGE-Net与BIT等模型相比取得了最高的F1-score,分别为91.06%和94.78%,说明与对比方法相比,本文方法整体检测效果最佳,LGE-Net更具有恢复变化区域细节以及保持变化区域边缘的能力;③ 最后引入LEFFN模块解决Transformer缺乏相邻分块序列中局部信息交互以及分块内部局部特征被忽略等问题,检测结果中P值提高了1.07%到19.93%不等,有效降低了模型误检率。
本文所提LCE-Net模型关键是CNN与Transformer结合,需要考虑Transformer内部信息交互问题,另外融合策略、特征提取骨干网络Resnet层数和Transformer层数的不同选择可能会对变化检测结果产生一定影响。此外,LGE-Net不足之处在于需要大量逐像素人工标注标签从而导致人力成本和时间成本较高,当训练数据较少时,检测精度会有所下降。由于高分辨率遥感影像光谱分辨率较低、波段较少、受树木等遮挡物以及光照影响大等,未来的工作将在以下方向展开:① 结合激光雷达或无人机点云数据消除遮挡物的影响;② 构建弱监督及无监督网络模型减少人工成本;③ 进一步研究颜色相近的伪变化、建筑物的弱化等问题。
[1]
Shafique A, Cao G, Khan Z, et al. Deep learning-based change detection in remote sensing images: A Review[J]. Remote Sensing, 2022, 14(4):871. DOI:10.3390/rs14040871

DOI

[2]
Chen Z L, Zhou Y, Wang B, et al. EGDE-Net: A building change detection method for high-resolution remote sensing imagery based on edge guidance and differential enhancement[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 191:203-222. DOI:10.1016/j.isprsjprs.2022.07.016

DOI

[3]
张良培, 武辰. 多时相遥感影像变化检测的现状与展望[J]. 测绘学报, 2017, 46(10):1447-1459.

[Zhang L P, Wu C. Advance and future development of change detection for multi-temporal remote sensing imagery[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(10):1447-1459.] DOI:10.11947/j.AGCS.2017.20170340

DOI

[4]
Chen D, Wang Y, Shen Z, et al. Long time-series mapping and change detection of coastal zone land use based on google earth engine and multi-source data fusion[J]. Remote Sensing, 2021, 14(1):1. DOI:10.3390/rs14010001

DOI

[5]
王铭佳, 黄亮. 利用指数熵的多时相遥感影像变化检测方法[J]. 遥感信息, 2017, 32(3):81-85.

[Wang M J, Huang L. Change detection method of multi-temporal remote sensing images based on dual-threshold exponent information entropy[J]. Remote Sensing Information, 2017, 32(3):81-85.] DOI:10.3969/j.issn.1000-3177.2017.03.013

DOI

[6]
季欣然, 黄亮, 陈朋弟. 结合变化向量分析和直觉模糊聚类的遥感影像变化检测方法[J]. 全球定位系统, 2020, 45(6):100-106.

[Ji X R, Huang L, Chen P D. Change detection in remote sensing images combined with intuitionistic fuzzy clustering and change vector analysis[J]. GNSS word of China, 2020, 45(6):100-106.] DOI:10.13442/j.gnss.1008-9268.2020.06.015

DOI

[7]
Ailimujiang G, Jiaermuhamaiti Y, Jumahong H, et al. A transformer-based network for change detection in remote sensing using multiscale difference-enhancement[J]. Computational Intelligence and Neuroscience, 2022, 2022:2189176. DOI:10.1155/2022/2189176

DOI

[8]
Song K, Cui F, Jiang J. An efficient lightweight neural network for remote sensing image change detection[J]. Remote Sensing, 2021, 13(24):5152. DOI:10.3390/rs13245152

DOI

[9]
梁哲恒, 黎宵, 邓鹏, 等. 融合多尺度特征注意力的遥感影像变化检测方法[J]. 测绘学报, 2022, 51(5):668-676.

[Liang Z H, Li X, Deng P. et al. Remote sensing image change detection fusion method integrating multi-scale feature attention[J]. Acta Geodaetica et Cartographica Sinica, 2022. 51(5):668-676.]

[10]
Wei D S, Hou D Y, Zhou X G, et al. Change detection using a texture feature space outlier index from mono-temporal remote sensing images and vector data[J]. Remote Sensing, 2021, 13(19):3857. DOI:10.3390/rs13193857

DOI

[11]
任秋如, 杨文忠, 汪传建, 等. 遥感影像变化检测综述[J]. 计算机应用, 2021, 41(8):2294-2305.

DOI

[Ren Q R, Yang W Z, Wang C J, et al. Review of remote sensing image change detection[J]. Journal of Computer Applications, 2021, 41(8):2294-2305] DOI:10.11772/j.issn.1001-9081.2020101632

DOI

[12]
Caye Daudt R, Le Saux B, Boulch A. Fully convolutional Siamese networks for change detection[C]// 2018 25th IEEE International Conference on Image Processing (ICIP). IEEE, 2018:4063-4067. DOI:10.1109/ICIP.2018.8451652

DOI

[13]
Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[M]// Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015:234-241. DOI:10.1007/978-3-319-24574-4_28

DOI

[14]
Peng D F, Zhang Y J, Guan H Y. End-to-end change detection for high resolution satellite images using improved UNet++[J]. Remote Sensing, 2019, 11(11):1382. DOI:10.3390/rs11111382

DOI

[15]
Chen H, Shi Z W. A spatial-temporal attention-based method and a new dataset for remote sensing image change detection[J]. Remote Sensing, 2020, 12(10):1662. DOI: 10.3390/rs12101662

DOI

[16]
Chen H, Qi Z P, Shi Z W. Remote sensing image change detection with transformers[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60:1-14. DOI: 10.1109/TGRS.2021.3095166

DOI

[17]
Bandara W G C, Patel V M. A transformer-based Siamese network for change detection[C]// IGARSS 2022-2022 IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2022:207-210. DOI: 10.1109/IGARSS46834.2022.9883686

DOI

[18]
刘博斐, 雒琛. 基于遥感数据的变化检测问题综述[J]. 电子技术与软件工程, 2021(5):160-164.

[Liu B F, Luo C. Review of change detection based on remote sensing data[J]. Electronic Technology & Software Engineering, 2021(5):160-164.]

[19]
田青林, 秦凯, 陈俊, 等. 基于注意力金字塔网络的航空影像建筑物变化检测[J]. 光学学报, 2020, 40(21):47-56.

[Tian Q L, Qin K, Chen J, et al. Building change detection for aerial images based on attention pyramid network[J]. Acta Optica Sinica, 2020, 40(21):47-56.]

[20]
Panda M K, Sharma A, Bajpai V, et al. Encoder and decoder network with ResNet-50 and global average feature pooling for local change detection[J]. Computer Vision and Image Understanding, 2022, 222:103501. DOI:10.1016/j.cviu.2022.103501

DOI

[21]
袁洲, 郭海涛, 卢俊, 等. 融合UNet++网络和注意力机制的高分辨率遥感影像变化检测算法[J]. 测绘科学技术学报, 2021, 38(2):155-159.

[Yuan Z, Guo H T, Lu J, et al. High-resolution remote sensing image change detection technology based on UNet++and attention mechanism[J]. Journal of Geomatics Science and Technology, 2021, 38(2):155-159.] DOI:10.3969/j.issn.1673-6338.2021.02.008

DOI

[22]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:770-778. DOI:10.1109/CVPR.2016.90

DOI

[23]
Vaswani A, Shazeer N, Parmar N, et al. Attention is All you Need[C]// Advances in Neural Information Processing Systems:30. Curran Associates, Inc., 2017. DOI:10.48550/arXiv.1706.03762

DOI

[24]
Jia X Z, DongYe C L, Peng Y J. SiaTrans: Siamese transformer network for RGB-D salient object detection with depth image classification[J]. Image and Vision Computing, 2022, 127:104549. DOI:10.1016/j.imavis.2022.104549

DOI

[25]
Zhang J Y, Liu Y, Wu Q H, et al. SWTRU: Star-shaped Window Transformer Reinforced U-Net for medical image segmentation[J]. Computers in Biology and Medicine, 2022, 150:105954. DOI:10.1016/j.compbiomed.2022.105954

DOI

[26]
Chen J Y, Frey E C, He Y F, et al. TransMorph: Transformer for unsupervised medical image registration[J]. Medical Image Analysis, 2022, 82:102615. DOI:10.1016/j.media.2022.102615

DOI

[27]
Wang H N, Cao P, Wang J Q, et al. UCTransNet: Rethinking the skip connections in U-net from a channel-wise perspective with transformer[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2022, 36(3):2441-2449. DOI:10.1609/aaai.v36i3.20144

DOI

[28]
Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018:3-19. DOI:10.1007/978-3-030-01234-2_1

DOI

[29]
Reulke R, Knauer U. Remote Sensing and Spatial Information Sciences[C]. 2005.

[30]
Zhang C X, Yue P, Tapete D, et al. A deeply supervised image fusion network for change detection in high resolution bi-temporal remote sensing images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 166:183-200. DOI:10.1016/j.isprsjprs.2020.06.003

DOI

文章导航

/