Remote Sensing Change Detection Model Based on Dual Temporal Feature Screening

  • WU Xiaosuo , 1, 4, * ,
  • WANG Liling , 1 ,
  • WU Chaoyang 2 ,
  • GUO Cunge 3 ,
  • YANG Le 1 ,
  • YAN Haowen 1, 4
Expand
  • 1. School of Electronic and Information Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China
  • 2. School of Civil Engineering, Lanzhou Jiaotong University, Lanzhou 730070, China
  • 3. School of Civil Engineering, Lanzhou Institute of Technology, Lanzhou 730050, China
  • 4. Academician Expert Workstation of Gansu Dayu Jiuzhou Space Information Technology Co.Ltd., Lanzhou 730050, China
*WU Xiaosuo, E-mail:

Received date: 2023-07-06

  Revised date: 2023-09-21

  Online published: 2023-11-02

Supported by

National Key Research and Development Program of China(2022YFB3903604)

Gansu Natural Science Foundation Project(21JR7RA310)

Youth Science Foundation of Lanzhou Jiaotong University(2021029)

Abstract

Real time monitoring of buildings using remote sensing image change detection is critical for the management and investigation work of land, resources, and environment departments. This study proposes a lightweight remote sensing image change detection model based on dual-temporal feature screening. This model is designed to solve the problem that the interdependency between dual-temporal images is not fully utilized in existing remote sensing image change detection tasks, and the detection accuracy is degraded due to the loss of spatial detail information. In the encoding part of the model, in order to reduce network size and improve latency, a simplified MobileNetV3 is used to extract features at different levels from dual-temporal remote sensing images. To fully utilize the spatiotemporal dependencies between dual-temporal remote sensing images in change detection tasks, a dual-temporal feature filtering module is proposed in the encoding part. The features at the same level are input into the feature filtering module to establish relationships between dual-temporal images through attention mechanisms and threshold filtering, generating more discriminative features and enhancing the model's ability to recognize changes and obtain global information. In the decoding part of the model, a position-guided upsampling module is introduced to solve the problem of incorrect assignation of boundary pixels with ordinary upsampling methods. By using the relationship between dual-temporal images to assign different weight coefficients for the feature maps output by DFSM, it is fused with the feature maps after upsampling and convolution to highlight useful information and suppress complex background information in remote sensing images. To address the issue of spatial detail information loss caused by downsampling operations, a multi-scale feature fusion module is proposed to aggregate multi-level features in the decoder and generate a change map with more spatial detail information. The effectiveness and real-time performance of our proposed model is verified based on CDD and DSIFN datasets, and compared with six advanced methods including FCN-PP, FDCNN, IFN, MSPSNet, SNUNet-CD, and DESSN for remote sensing image change detection. The experimental results show that the precision, recall, F1 scores, and IoU of the proposed model on the CDD dataset are 91.28%, 87.63%, 89.42%, and 81.34%, respectively. The parameter size, computational complexity, and prediction time are 1.89MB, 5.72GFLOPs, and 0.02s, respectively. Compared to these six models, the proposed model has significant advantages in terms of accuracy and real-time performance, making it particularly suitable for deployment on mobile devices. Also, the visualization results of the model detection in this study are more complete, and the detected change boundaries are smoother. This study demonstrates that the proposed model achieves a better balance between accuracy and real-time performance.

Cite this article

WU Xiaosuo , WANG Liling , WU Chaoyang , GUO Cunge , YANG Le , YAN Haowen . Remote Sensing Change Detection Model Based on Dual Temporal Feature Screening[J]. Journal of Geo-information Science, 2023 , 25(11) : 2268 -2280 . DOI: 10.12082/dqxxkx.2023.230377

1 引言

随着城市区域的快速扩张,人类对土地资源和空间的需求也日益增加,许多具有独特生态服务和资源环境价值的生态用地正在不断被建设用地侵占,给生态可持续发展带来负面影响[1]。轻量级遥感图像变化检测可以提供实时准确的地理数据,为加强生态环境保护与制定发展战略提供重要依据[2]。但是包含丰富地物信息的高分辨率遥感图像普遍存在地物尺度差异较大和光谱特征混淆等问题[3],可能导致遥感图像变化检测出现误检与边界模糊等现象。
为解决上述问题,基于DeepLab系列[4-6]的变化检测模型提出空洞空间金字塔池化模块来获取图像的多尺度信息。Li等[7]通过多尺度卷积核提取不同尺度地物的详细特征提高了模型对道路等小变化特征的检测能力。Lv等[8]通过多尺度膨胀卷积模块来增大感受野捕捉变化和未变化区域。FCN-PP[9]利用金字塔池化模块来扩大感受野,克服了全局池化的局限性。FDCNN[10]利用不同层级的特征差异图有效缓解了伪变化现象。ECFNet[11]利用多尺度特征图中的细粒度信息进行结果预测。但是这些网络在解决尺度差异带来误检问题的同时还会产生更多的冗余信息,注意力机制的引入可以有效缓解误检现象[12]。例如,DASNet[13]通过双重注意力机制捕获长范围依赖关系来获取更具鉴别性的特征。IFN[14]通过注意力模块将原始图像的多层次深度特征与图像差异特征融合来重构变化图,提高了变化目标的边界完备性。MSPSNet[15]利用并行卷积结构和自注意力模块有效集成多尺度特征。SNUNet-CD[16]通过集成通道注意力模块缓解了深层位置细节信息丢失的问题。LGE-Net[17]结合CNN与Transformer网络,提出了一种端到端的局部-全局语义增强变化检测模型来提高变化检测精度。以上这些模型虽然通过注意力机制和多尺度融合的方法缓解了检测结果中出现的误检和边界模糊的问题,但是未能充分利用双时相图像间的关系。邵攀等[18]利用空间引力模型改进的模糊因子自适应地集成空间上下文信息。STANet[19]通过引入自注意力模块关注双时相图像间的时空关系,DESSN[20]通过差分增强模块构建双时相图像间的关系,TSSF[21]提出了一种时间-光谱-空间耦合的多维信息变化检测框架,有效地获取和识别变化区域及变化类型。上述网络均通过注意力机制关联双时相关系,但都属于重量级网络,难以实时预测变化结果。
传统的变化检测网络模型普遍存在模型复杂度高、参数量大、推理速度慢、对终端设备计算性能要求高、难以在嵌入式设备和移动终端上部署等问题。许多研究者从参数剪枝与量化[22-24]、低秩分解[25]、参数共享[26]、知识蒸馏[27-28]等方面压缩模型。由于参数剪枝与量化、低秩分解容易造成算法性能的下降,知识蒸馏的训练过程比较繁琐,因此本文在现有轻量级网络MobileNetV3的基础上提出了一种新的变化检测模型。虽然MobileNetV3使用的空间归纳偏差可以使用更少的参数来学习图像特征[29-30],减小网络规模并改善延迟,但由于其空间归纳偏差的局部性和空间不变性使得只能获取局部空间特征,缺乏全局空间位置信息。因此,本文采用编解码结构,编码部分使用精简后的MobileNetV3提取图像特征,为充分利用变化检测任务中双时相遥感图像间的时空依赖关系,在编码部分提出了双时相特征筛选模块来获取更具辨别性的特征,增强模型对变化的识别能力和对全局信息的获取能力。为了弥补模型在编码部分所丢失的位置细节信息和获取全局信息,解码阶段提出了位置指导上采样模块来补充全局位置信息,同时引入多尺度特征融合模块将位置指导上采样模块输出的多级特征进行整合后生成具有清晰细节的变化图,提高变化检测性能。

2 研究方法

图1所示为本文提出的基于双时相特征筛选的遥感图像变化检测模型(Remote sensing image change detection model based on dual temporal feature screening, DTFSNet)结构图。该模型采用编解码结构,由双时相特征筛选、位置指导上采样、多尺度特征融合3个模块和精简轻量级特征提取网络MobileNetV3组成。
图1 基于双时相特征筛选的遥感图像变化检测模型

Fig. 1 Remote sensing image change detection model based on dual temporal feature screening

为减少模型参数量和计算量,本文在MobileNetV3网络的基础上去除了最后的池化层和3个逐点卷积层作为精简MobileNetV3提取多尺度特征,其中精简MobileNetV3所使用的残差瓶颈结构如 图1(b)中所示,该结构采用深度可分离卷积和倒置残差结构以保证模型轻量化的特性。首先将双时相遥感图像(T1,T2)分别输入到权值共享的精简MobileNetV3中提取不同层级成对的特征信息,然后通过特征筛选模块对双时相差异特征进行筛选后分别与原始特征融合,生成更有效的时空特征表示,再将筛选后的特征输入到位置指导上采样模块中获取不同尺度的上采样特征图,最后将不同尺度的特征图导入多尺度特征融合模块中聚合多层特征,并将其恢复到原始输入图像大小后获得最终的变化预测图。

2.1 双时相特征筛选模块

遥感图像变化检测数据是由时间维度和空间维度的光谱向量组成的。就时间特征而言,土地覆盖物不仅会随着时间的推移发生真实变化,还会发生伪变化(如建筑物褪色等);就空间特征而言,当目标区域只有单一的覆盖类型时空间异质性相对较低,反之亦然[31]。这些特征在确定目标是否发生变化方面发挥着重要作用,所以关注不同时空位置之间的关系可以提升遥感图像变化检测方法的性能。大多数方法通过使用注意力机制对每个时间的图像分别施加注意力以增强其特征,或者简单地利用注意力机制在通道或空间维度上对融合的双时相特征进行加权[32-34]。这些方法在一定程度上提升了变化检测的性能,但要么忽略了双时相图像的原始信息,要么没有充分利用双时相图像间的差异信息,导致变化目标间的关联性降低。理论上通过融合的方式可以关联双时相特征,但在实际过程中,简单的融合方式会产生大量冗余信息,导致检测结果变差。针对上述问题和遥感图像变化检测中图像拍摄时间、角度和光线的不同对变化检测效果的影响,受注意力机制思想的启发,本文设计了一个基于注意力机制的双时相特征筛选模块。首先将双时相遥感图像的差异特征输入到空间注意力机制中获取双时相差异特征的权重图,然后通过阈值T对差异权重图进行筛选,同时利用卷积块提取双时相原始特征图细节信息,最后根据筛选后的差异特征图权重分别对双时相特征图进行更新,生成更具鉴别性的特征。双时相特征筛选模块可以通过阈值筛选的方式学习差异特征来显式地建模双时相特征图之间的相互依赖关系,同时也可以舍弃对检测结果无益的冗余信息。
图2所示为本节提出的双时相特征筛选模块(Dual Temporal Feature Screening Module ,DFSM)。首先将T1,T2时刻得到的特征对(Ft1, Ft2)分别输入到DFSM中,获取Ft1Ft2的差异特征图,得到大小为H×W×C的差异特征图Fd,然后将Fd输入到空间注意力机制中获取空间注意力权重图Q。同时,通过3×3的卷积核分别提取双时相特征对(Ft1, Ft2)的细节信息得到新的双时相特征f1f2,如式(1)、式(2)所示。最后,通过设置阈值筛选出差异特征图的空间细节信息,并与f1f2分别进行逐像素相乘操作后得到特征图Fh
图2 双时相特征筛选模块

Fig. 2 Dual Temporal Feature Screening Module

f 1 = C o n v 3 × 3 F t 1
f 2 = C o n v 3 × 3 F t 2
式中:Ft1Ft2分别表示T1、T2时刻提取到的特征; f1f2分别表示获取的新双时相特征。
对差异特征图Fd进行通道维度加权获取空间注意力权重的过程如式(3)所示。使用空间注意力机制首先在通道维度上对 F d分别执行全局平均池化和全局最大池化,得到2个大小为H×W×1的特征图后按通道维度拼接,得到尺寸为H×W×2大小的特征图,然后通过1×1卷积核得到H×W×C大小的特征图,最后通过Sigmoid激活函数计算得到不同像素点的空间注意力权重图Q
Q = δ C o n v 1 × 1 A v g F d , M a x F d
式中:Fd表示差异特征图; δ表示激活函数 Sigmoid; AvgMax分别表示全局平均池化和全局最大池化;[·]表示通道拼接操作。
特征筛选部分是在获得空间注意力权重Q的基础上,通过设置阈值的方式整合不同时相的特征,在特征级别上实现不同时相图像间的关联,从而更大限度地提高特征集成对变化的识别能力。如式(4)、式(5)所示通过设置阈值T筛选出感兴趣的区域并给予不同权重。
b T = 1 Q i , j T 0 Q i , j < T
b F = 0 Q i , j T 1   Q i , j < T
式中:bTbF表示通过空间注意力机制筛选后得到的感兴趣的权重图;Qi,j表示特征图在 i , j处的权重值。考虑到变化检测任务在语义分割中可以理解为二分类任务,所以本文在权重矩阵Q的每个像素点位置上,将满足条件的值被设为1,其余部分被设为0。例如,在式(4)中,大于或等于阈值T的像素点被设为1,其他像素点设为0;在式(5)中,小于阈值 T的像素点被设为1,其他像素点设为0。阈值 T在初始状态被统一设置为0.5,之后会随着训练迭代进行更新。在训练过程中模型会根据损失函数的梯度信息来确定阈值T的更新方向和幅度,其中,经过Sigmoid激活函数后权重值保持在0到1之间,所以阈值T也在0到1之间进行动态更新。如式(6)、式(7)所示,通过特征筛选后将注意力权重映射回双时相特征图中得到2个尺度相同的双时相特征图O1O2。最后通过整合筛选后特征图获取双时相特征间的关系如式(8)所示。
O 1 = b T × f 1
O 2 = b F × f 2
O = O 1 + O 2
式中: bTbF表示获取的空间注意力权重图; O1O2分别为筛选后获得的双时相特征; O表示包含双时相关系的特征图。

2.2 位置指导上采样模块

在解码阶段通常使用转置卷积、双线性插值、和PixelShuffle等上采样操作来恢复特征图的尺寸。其中,转置卷积通过引入卷积核进行上采样,会增加网络的参数量和计算复杂度,另外生成图像还可能会出现棋盘效应。PixelShuffle通过对数据训练的方式将特征像素重排来提高图像的分辨率,会明显增加模型参数复杂度和时间复杂度。使用双线性插值进行上采样时生成的图像相对平滑,没有灰度不连续的特点,但会导致靠近边界的像素被分配错误,使得图像轮廓出现模糊等现象。基于深度学习的反卷积作为可学习上采样的代表,被广泛应用于变化检测任务中,但是该方式会引入许多只有“0”的行和列,只能恢复尺寸,并不能恢复数值。由于遥感图像具有地物尺度差异大,背景复杂等特征,在对遥感图像特征图进行上采样时容易模糊变化区域的边角信息和导致部分变化区域丢失。因此本节设计了一个位置指导上采样模块(Position Guide Upsampling Module, PGUM)如图3所示,该模块与DFSM共同协作,通过将DFSM输出的特征图赋予不同的权重系数后与经过上采样和卷积后的特征图融合来突出有用信息,抑制遥感图像复杂的背景信息。
图3 位置指导上采样模块

Fig. 3 Position Guide Upsampling Module

该模块借助注意力机制的思想,引入浅层空间细节信息的权重图与上采样特征融合来增加上采样操作的可学习性和弥补编解码结构中空间信息传输到深层时逐渐丢失的缺陷。其中,采用参数量相对较小的双线性插值上采样和卷积操作相结合的方式可以使得整个上采样具有可学习性并且能缓解棋盘效应。该模块有2个输入特征,一个是由特征筛选模块输出的包含双时相关系的特征图Fh,另一个是待上采样的深层特征Fi。第一个PGUM块中输入的待上采样特征Fi,由骨干网络最后一层Bneck生成的特征对与最后一个特征筛选模块拼接后,通过1×1卷积进行降维得到。其他PGUM块中的待上采样特征Fi是由上一个PGUM的输出作为其输入。首先,将特征图Fh输入到卷积块中提取Fh所包含的空间细节信息,该卷积块是由(Conv3×3)→(BN)→(ReLU)→(Conv3×3)→(BN)→(ReLU)→(Conv1×1)组成。其次,通过softmax函数获取所提取的空间细节信息的权重图M。同时,利用双线性插值方法将待上采样的特征图 F i进行2倍上采样得到与权重图M相同尺寸的特征图 F i ¯。最后,通过逐像素相乘的方法将权重图M和特征图 F i ¯融合得到包含空间细节信息的特征图Fu,如式(9)所示。上述操作使得整个上采样过程更具学习性,最终获取的上采样特征图中也包含更多位置信息,可以缓解遥感图像中检测边界模糊的现象。
F u = s o f t m a x C o n v F h × U P F i
式中:Conv表示提取Fh所包含的空间细节信息;softmax是激活函数; U P 表示对Fi进行2倍上采样操作。

2.3 多尺度特征融合模块

为了生成变化预测图,常用的方法是将上采样后的特征图通过softmax函数转换为变化图,但由于在编码阶段经过下采样提取特征后会丢失部分细节信息,使得浅层的位置细节信息没有达到充分利用而导致检测结果中出现位置差异。经过PGUM模块后会得到不同层级的多尺度特征图,若只利用最后一层特征图获取变化图,会使得变化信息不完整。为此,本节提出了一个多尺度特征融合模块(Multiscale Feature Fusion Module, MFFM)来有效地聚合多尺度信息,如图1右侧绿色虚线框中所示,该模块的作用是可以充分利用多层次特征图之间的关系,并利用变化目标边界附近的浅层空间细节信息来改进语义预测,有效的获取各尺度特征的变化信息,以此来指导变化检测结果图。具体融合方式如式(10)所示。
F g = [ F u 1 , , F u 2 , i , F u 3 , i , F u 4 , i ]
式中: Fg表示融合后的全局特征; i=2,4,6表示对第2、3、4层特征 F u 2 F u 3 F u 4分别进行2倍、4倍、6倍上采样操作;[·]表示按通道串联。
图1中可以看出,该模块首先将底层3个PGUM输出的结果分别通过双线性上采样将多级特征缩放到与高层PGUM输出特征尺寸大小,然后采用通道级联的方式将4个特征连接起来,构建一个精细化的特征图。接着将精细化的特征图通过1×1卷积获取具有全局通道相关性信息的特征图,其中1×1卷积集成了来自所有通道的每个像素的信息,其中包括浅层特征中所包含的空间细节信息,使用1×1卷积自适应地提高了特征选择能力。最后通过将特征图上采样到原始输入图像大小后使用sigmoid函数来预测变化图。通过这种方式可以在解码阶段将细节信息与语义信息相融合,有助于恢复图像的边缘信息。

3 实验与分析

3.1 实验数据

本文选择在CDD与DSIFN两个遥感数据集上进行综合实验来验证所提模型的有效性。
具有真实季节变化的CDD数据集包含空间分辨率为3~100 cm的7对大小为4 725像素×2 700像素的图像。为满足硬件需求,将原图像切分成大小为256像素×256像素的图像对,通过裁剪和旋转7对随季节变化的图像得到16 000张图像并按照训练集10 000张图像,验证集3 000张图像、测试集 3 000张图像进行划分。
DSIFN数据集由6张大型双时高分辨率图像组成,覆盖了中国的6个城市(即北京、成都、深圳、重庆、武汉、西安)。将北京、成都、深圳、重庆、武汉这5对双时间图像裁剪成大小为512像素×512像素的图像对作为训练集和验证集,其中训练集有3 600对图像,验证集有340对图像。将西安图像对裁剪成48幅图像作为测试集进行验证。

3.2 实验环境

本文提出的变化检测网络模型是在Pytorch深度学习框架下进行实现,并且在64位windows10系统的服务器上进行实验。该服务器的CPU为英特尔至强R处理器E5-2650 v4(2.20 GHz),配备80 GB的内存(RAM)。显卡为Nvidia GeForce GTX 1080 Ti,显存为11 GB。
在训练过程中,使用小批次的随机梯度下降法(SGD),批次大小为16,动量为0.9,权重衰减为0.000 1,设置初始学习率为0.001 8来训练模型。采用了“poly”的学习率衰减策略来动态调整学习率的大小,其计算方式如下:
l r = l i × 1 - e p o c h m a x _ e p o c h 0.9
式中: lr为当前学习率; li为初始学习率; epoch为当前的训练轮数; max_epoch为最大的训练轮数。

3.3 评估指标

为了定量评估所提模型的性能,本文使用精确率(Precision)、召回率(Recall)、F1分数和交并比(IoU)作为评估指标。在变化检测任务中,精确率值越高,预测结果的误检次数越少,召回率值越大,预测结果漏检次数越少。F1分数和IoU是预测结果的综合评价指标,其值越高,模型性能越好。具体表述如下:
P r e c i s i o n = T P T P + F P
R e c a l l = T P T P + F N
F 1 = 2 × P r e c i s i o n × R e c a l l P r e c i s i o n + R e c a l l
I o U = T P T P + F P + F N
式中: T P表示真阳性的样本数量; F P表示假阳性的样本数量; F N表示假阴性的样本数量。

3.4 消融实验

为了分析本文提出的双时相特征筛选模块、位置指导上采样模块和多尺度特征融合模块是否有效,在DSIFN和CDD 2个数据集上分别进行消融实验。本文使用4种常见的变化检测评估指标来衡量所提出模型的性能,包括Precision、Recall、F1分数和IoU。表1显示了在2个数据集上进行消融实验的结果,其中加粗数值表示最优实验结果,Baseline表示基于MobileNetV3的孪生特征提取网络,Baseline+DFSM表示在Baseline的基础上增加双时相特征筛选模块后的网络,Baseline+PGUM表示在Baseline的基础上增加位置指导上采样后的网络,Baseline+DFSM+PGUM表示在Baseline的基础上同时增加DFSM和PGUM后的网络, DTFSNet表示同时增加DFSM、PGUM和MFFM后的整体网络模型。图4图5分别是在2个数据集上的可视化分析,其中图像1、2、3、4分别表示在不同区域拍摄的影像;T1、T2时刻图像分别表示在同一区域不同时刻拍摄的影像,由于时间的推移和拍摄角度及光线的问题,T1、T2时刻拍摄的影像有所不同;图中白色部分表示变化区域,黑色部分表示未变化区域,红色框表示检测结果差异明显区域。
表1 DSIFN和CDD数据集上的消融实验结果

Tab. 1 Results of ablation experiments on the DSIFN and CDD datasets (%)

Model DSIFN
CDD
Precision Recall F1 IoU Precision Recall F1 IoU
Baseline 71.85 77.23 74.01 62.13 80.44 87.06 83.28 73.41
Baseline+DFSM(T=0.4) 76.31 78.39 77.79 64.76 88.72 85.54 87.08 78.72
Baseline+DFSM(T=0.5) 76.37 78.43 77.82 64.79 88.84 85.61 87.14 78.74
Baseline+DFSM(T=0.6) 76.41 78.31 77.78 64.74 88.92 85.45 87.07 78.71
Baseline+PGUM 75.25 83.07 77.96 65.74 86.03 87.30 86.65 77.97
Baseline+DFSM+PGUM 76.90 79.82 78.21 66.37 89.39 85.75 87.45 79.12
DTFSNet(our) 79.03 79.86 79.43 67.97 91.28 87.63 89.42 81.34

注:加粗数值为最优实验结果。

图4 在DSIFN数据集上的消融实验结果

Fig. 4 Results of ablation experiments on the DSIFN dataset

图5 在CDD数据集上的消融实验结果

Fig. 5 Results of ablation experiments on the CDD dataset

3.4.1 增加双时相特征筛选模块

表1中可看出,在DFSM中通过设置阈值T的初始值可以发现T初始值的设置对模型性能影响不大,且当初始值T=0.5时模型性能相对更好,所以在后续实验中将阈值T的初始值均设置为0.5。从表1定量分析中可以看到,在DSIFN数据集上, Baseline+DFSM相比于Baseline 在PrecisionRecallF1分数和IoU分别提升了4.52%、1.20%、3.81%、2.66%。在CDD数据集上,Baseline+DFSM与Baseline相比Precision、F1分数和IoU分别提升了8.40%、3.86%、5.33%,所以从定量分析上来看加入DFSM后检测精度有所提升,因为增加DFSM后可以有效地利用双时相差异特征的通道间关系,通过注意力机制筛选后将差异信息映射回双时相特征图,获取变化对象更详细的位置信息以及更好地利用上下文信息的长程依赖性。从图4 DSIFN数据集上的消融实验结果中对比第四列和第五列可以看到相比在Baseline中的变化检测结果,Baseline+DFSM可以更好的检测出变化物体的空间细节信息,但是由于双时相图像中对应物体不能完全对齐会出现误检现象。从图5 CDD数据集上的消融实验结果中可以看出Baseline+DFSM可以检测出更多的细节信息,比如第3对和第4对双时相图像中包含变化的细小信息,也可以检测出更多的轮廓细节。因此通过双时相特征筛选模块可以更好地关联双时相图像间的时空关系,并利用这些依赖关系生成更具判别性的变化特征。

3.4.2 增加位置指导上采样模块

表1所示,在Baseline的基础上引入PGUM后各个指标都得到了明显的提升。在DSIFN数据集中,相比于Baseline, Baseline+PGUM的Precision、Recall、F1分数和IoU分别提升了3.40%、5.84%、3.95%、3.61%。在CDD数据集中,相比于Baseline,Baseline+PGUM的Precision、Recall、F1分数和IoU分别提升了5.59%、0.24%、3.37%、4.56%。从图4图5中可以观察到在第六列中引入PGUM后可以检测出小尺度物体的变化,展现更多空间细节信息,这是由于增加PGUM模块后利用浅层空间细节信息指导深层信息上采样可以更好的将变化目标的边角信息检测出来,同时也缓解了部分变化区域丢失的问题。通过定量和定性分析可以证明该方法将编码阶段的空间细节信息传输到每个解码阶段使得上采样更具学习性,缓解了位置信息被稀释的问题,提高变化检测的效果。

3.4.3 同时增加DFSM和PGUM

表1所示,在Baseline的基础上同时增加DFSM和PGUM后各项指标都有了明显的提升。在DSIFN数据集中,与Baseline相比Baseline+ DFSM+ PGUM在Precision、Recall、F1分数和IoU分别提升了5.05%、2.59%、4.20%、4.24%;在CDD数据集中,与Baseline相比Baseline+DFSM+PGUM在Precision、F1分数和IoU分别提升了8.95%、4.17%、5.71%;这表明,在建筑物变化检测中通过DFSM和PGUM的协同工作,不仅可以通过注意力筛选的方式获取更具判别性的特征,还可以利用跳跃连接的方式获取浅层空间细节信息来指导上采样过程,使得模型拥有更全局的信息来避免错误的关注,从而提高检测精度。从图4图5的可视化结果中可以看出,相比于Baseline、 Baseline+DFSM、Baseline+PGUM ,Baseline+DFSM+PGUM整合了DFSM和PGUM两者的优点,在关联双时相图像时空关系的同时,利用PGUM融合每个编码阶段所丢失的位置细节信息,以此可以关注对变化目标更加有用的信息,使得对变化区域的检测更加完整,边界更加平滑,提升了变化检测的性能。

3.4.4 DTFSNet模型

表1所示,本文所提出的DTFSNet在DSIFN数据集上的Precision、Recall、F1分数和IoU分别达到了79.03%、79.86%、79.43%、67.97%,对比Baseline+DFSM+PGUM在Precision、Recall、F1和IoU上分别增加了2.13%、0.04%、1.22%、1.60%。在CDD数据集上Precision、Recall、F1分数和IoU分别达到了91.28%、87.63%、89.42%、81.34%,对比Baseline+DFSM+PGUM在Precision、Recall、F1和IoU上分别增加了1.89%、1.88%、1.97%、2.22%。这表明,本模型在关联双时相图像时空关系与提供空间位置信息的同时,通过多尺度特征融合的方式充分利用分层结构的多层次特点,有效地整合浅层空间细节信息和深层抽象语义信息,进一步提升了建筑物遥感图像变化检测的精度。从图4图5中最后一列可以看出,相比于Baseline+DFSM+PGUM增加了MFFM后的整体网络DTFSNet可以通过细化边缘、增强变化对象的完整性和内部紧凑性,有效提高建筑物遥感图像变化检测的性能。

3.5 对比实验

为了验证本文所提模型DTFSNet的有效性和性能,将DTFSNet与遥感图像变化检测领域的6种先进方法进行了比较,包括FCN-PP、FDCNN、IFN、MSPSNet、SNUNet-CD、DESSN。

3.5.1 CDD数据集

表2显示了在CDD数据集上本文所提出的模型DTFSNet与其他6种方法的定量对比,其中粗体表示各模型在CDD数据集上的最佳结果。可视化分析如图6所示,图中白色部分表示变化区域,黑色部分表示未变化区域,红色框表示检测结果差异明显区域。从表2中可以看到,本文所提出的DTFSNet在Precision、Recall、F1分数和IoU上相较于FCN-PP, IFN 2种模型都有明显的提升,对比FDCNN和MSPSNet 2种轻量级模型DTFSNet在F1分数上分别提升了4.24%和0.86%,并且具有更小的计算量(FLOPs)和参数量(Params)。DTFSNet相较于SNUNet-CD 在F1分数和IoU上分别提高了0.78%和0.50%,且计算量和参数量分别降低了5.7倍和6.4倍,预测速度提升了5倍多。DTFSNet相较于DESSN在F1分数和IoU上分别减少了0.78%和1.77%,但其计算量和参数量分别是本文所提DTFSNet的7倍多和10倍多,且预测速度比DTFSNet慢13倍。与DESSN相比,本文所提的DTFSNet在减少参数量和计算量,加快预测速度的同时获得了相对较高的精度,更适合嵌入到移动设备上进行实时变化检测。从图6中可以看出,由于日照角度和树木覆盖的影响,从而导致在一些地区的结果比较模糊,例如, FCN-PP、FDCNN和IFN的漏检率较高,原因是这3种模型的特征整合能力相对较差。图6第二、三行均为大型建筑物的变化检测结果,这些物体由于季节变化和不同部位对阳光反射率的不同,导致检测结果不完整,如图6第二行中FCN-PP、FDCNN和IFN所示。虽然MSPSNet和SNUNet-CD的检测结果相对完整,但是对变化边界的检测不够平滑,与其他网络相比,本文所提出的DTFSNet处理不规则边缘的变化效果更接近标签,使得变化对象的边缘更加平滑。从图6 CDD数据集中检测结果可以看出本文所提模型可以更好的检测大型建筑物的变化,使得其边界更加平滑,但是对于道路等细小型建筑物的检测效果没有大型建筑物的检测效果好。
表2 在CDD数据集上的对比实验

Tab. 2 Comparative experiments on the CDD dataset

Methods FLOPs/GFLOPs Params/MB Time/s Precision /% Recall/% F1s/% IoU/%
FCN-PP 34.65 28.13 0.19 82.64 80.60 81.61 70.10
FDCNN 32.40 1.86 0.08 87.51 83.20 85.18 76.07
IFN 112.15 43.50 0.15 87.90 83.34 87.44 79.77
MSPSNet 14.17 2.21 0.05 90.72 85.11 88.56 80.09
SNUNet-CD 33.04 12.03 0.11 93.26 84.39 88.64 80.84
DESSN 36.75 19.35 0.26 95.36 86.33 90.20 83.11
DTFSNet(ours) 5.72 1.89 0.02 91.28 87.63 89.42 81.34

注:加粗数值为各模型在CDD数据集上的最佳检测结果。

图6 在CDD数据集上的对比实验结果

Fig. 6 Comparative experimental results on the CDD dataset

3.5.2 DSIFN数据集

表3显示了在DSIFN数据集上本文所提出的模型DTFSNet与其他6种方法的定量对比,其中加粗数值表示在DSIFN数据集上的最佳实验结果。可视化分析如图7所示,图中白色部分表示变化区域,黑色部分表示未变化区域,红色框表示检测结果差异明显区域。从表2表3可以看出,各模型在DSIFN数据集上获得的精度普遍低于CDD数据集上的精度,这是由DSIFN数据集变化类型较多和背景复杂所引起。在DSIFN数据集上可以观察到一些类似于CDD数据集上的现象,但在DSIFN数据集上由于发生变化的对象较小且密集,检测结果更容易受到噪声的影响而出现误检和漏检现象,例如,FCN-PP、FDCNN和IFN可以检测到变化的主要区域,但相较于其他模型存在更多的漏检和误检现象,如图7红色框中所示。从图7第一行和第三行可以看出,当建筑物的变化小且密集时,FCN-PP、FDCNN、 IFN、MSPSNet、SNUNet-CD均会出现粘连和漏检现象,这是因为上述网络未能很好地筛选出有用信息,使得检测结果容易被复杂背景所影响。本文所提的DTFSNet在变化对象的完整性和边界性方面表现相对更好,这是因为本文所提出的DFSM可以根据双时相差异图更好的筛选出对检测结果有用的信息,使得模型不受复杂背景的影响,且通过PGUM和MFFM协作来获取更加详细的变化信息,使得检测结果更加完整,边界更加平滑。MSPSNet在引入多尺度特征提取的前提下以较少的参数量获得了较优的检测性能,但是相较于本文所提模型DTFSNet在参数量与检测精度上都有一定差距。从表3中可以看出, DTFSNet在F1分数和IoU这2个综合指标上比MSPSNet分别提高了2.99%和4.13%,这说明在轻量级领域中本文所提模型还是有一定的优势。从图7中可以看出, SNUNet-CD可以很好地定位变化区域,但是难以检测出完整的变化信息,DESSN在边界处理与检测完整性方面的表现与本文所提出的DTFSNet相似,但是DESSN具有更大的计算量与参数量,不适合在移动端部署。
表3 在DSIFN数据集上的对比实验

Tab. 3 Comparative experiments on the DSIFN dataset

Methods Precision/% Recall/% F1s/% IoU/%
FCN-PP 56.40 67.03 61.26 45.74
FDCNN 69.08 79.39 70.93 57.04
IFN 69.41 80.40 71.19 57.24
MSPSNet 73.77 81.95 76.44 63.84
SNUNet-CD 76.50 82.82 78.94 67.05
DESSN 78.78 83.78 80.88 69.58
DTFSNet(ours) 79.03 79.86 79.43 67.97

注:加粗数值为各模型在DSIFN数据集上的最佳检测结果。

图7 在DSIFN数据集上的对比实验结果

Fig. 7 Comparative experimental results on the DSIFN dataset

4 结论与讨论

本文提出了一种新的轻量级变化检测模型,该模型包括双时相特征筛选模块(DFSM)、位置指导上采样模块(PGUM)和多尺度特征融合模块(MFFM)。DFSM通过空间注意力机制获取差异权重图来筛选不同时相间的特征信息,以此关联时空关系; PGUM通过在上采样过程中引入编码结构中的位置细节信息使上采样操作更具学习性,提高检测位置的准确性; MFFM通过整合多尺度特征生成具有清晰细节的变化图。在CDD数据集上对本文模型的有效性和性能进行了验证,并与FCN-PP、FDCNN、IFN、MSPSNet、SNUNet CD和DESSN共6种模型进行比较。同时,在DSIFN数据集上对本文模型的泛化能力进行了验证。实验结果表明: ① 模型引入DFSM、PGUM和MFFM对MobileNetV3进行改进,通过关联双时相图像时空关系、有效融合浅层空间细节信息和深层语义信息,增强了模型获取全局信息和识别变化的能力。较基础网络模型PrecisionF1分数和IoU分别提升了10.84%、6.14%和7.93%; ② 本文模型DTFSNet与FCN-PP、FDCNN、IFN、MSPSNet、SNUNet-CD和DESSN进行比较表明: DTFSNet在参数量、计算复杂度和预测时间上均达到了最优,且Precision F1分数和IoU分别达到91.28%、89.42%和81.34%,本文模型在一定程度上提高了轻量化网络对建筑物变化检测的精度,且易于嵌入到移动端设备上。
在DSIFN数据集上进行的实验表明,本模型对于背景复杂且多变的数据检测能力相对较低,对细小物体的检测效果并不理想。此外,改进后获得的DTFSNet需要大量人工标注的数据集训练网络,当训练数据较少或超参数设置不准确时均会影响模型检测精度。未来工作将在以下几方面展开: ① 结合图像预处理和模型设计更好地提升本文模型的泛化能力; ② 引入知识提取及弱监督方法减少人工成本; ③ 进一步研究对细小物体的检测方法。
[1]
Chughtai A H, Abbasi H, Karas I R. A review on change detection method and accuracy assessment for land use land cover[J]. Remote Sensing Applications: Society and Environment, 2021, 22(2):100482. DOI:10.1016/j.rsase. 2021.100482

[2]
眭海刚, 冯文卿, 李文卓, 等. 多时相遥感影像变化检测方法综述[J]. 武汉大学学报·信息科学版, 2018, 43(12):1885-1898.

Sui H G, Feng W Q, Li W Z, et al. Review of change detection methods for multi-temporal remote sensing imagery[J]. Geomatics and Information Science of Wuhan University, 2018, 43(12):1885-1898. ] DOI: 10.13203/j.whugis20180251

[3]
Lv Z Y, Huang H T, Li X H, et al. Land cover change detection with heterogeneous remote sensing images: Review, progress, and perspective[J]. Proceedings of the IEEE, 2022, 110(12):1976-1991. DOI:10.1109/JPROC.2 022.3219376

[4]
Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4):834-848. DOI:10.1109/TPAMI.2017. 2699184

[5]
Chen L C, Papandreou G, Schroff F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. 2017: https://arxiv.org/abs/1706.05587. DOI:10arXiv:1706.05587

[6]
赵祥, 王涛, 张艳, 等. 基于改进DeepLabv3+孪生网络的遥感影像变化检测方法[J]. 地球信息科学学报, 2022, 24(8):1604-1616.

DOI

Zhao X, Wang T, Zhang Y, et al. Remote sensing image change detection based on improved DeepLabv3+Siamese network[J]. Journal of Geo-Information Science, 2022, 24(8):1604-1616. ] DOI:10.12082/dqxxk x.2022.220029

[7]
Li X H, He M Z, Li H F, et al. A combined loss-based multiscale fully convolutional network for high-resolution remote sensing image change detection[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19:1-5. DOI:10.1109/LGRS.2021.3098774

[8]
Lv Z Y, Wang F J, Cui G Q, et al. Spatial-spectral attention network guided with change magnitude image for land cover change detection using remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60:1-12. DOI:10.1109/TGRS.2022.3197901

[9]
Lei T, Zhang Y X, Lv Z Y, et al. Landslide inventory mapping from bitemporal images using deep convolutional neural networks[J]. IEEE Geoscience and Remote Sensing Letters, 2019, 16(6):982-986. DOI:10.1109/LGRS.20 18.2889307

[10]
Zhang M, Shi W Z. A feature difference convolutional neural network-based change detection method[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(10):7232-7246. DOI:10.1109/TGRS.2020.2981051

[11]
Zhu S Y, Song Y H, Zhang Y, et al. ECFNet: A Siamese network with fewer FPs and fewer FNs for change detection of remote-sensing images[J]. IEEE Geoscience and Remote Sensing Letters, 2023, 20:1-5. DOI:10.1109/LGR S.2023.3238553

[12]
田青林, 秦凯, 陈俊, 等. 基于注意力金字塔网络的航空影像建筑物变化检测[J]. 光学学报, 2020, 40(21):47-56.

[ Tian Q L, Qin K, Chen J, et al. Building change detection for aerial images based on attention pyramid network[J]. Acta Optica Sinica, 2020, 40(21):47-56. ]

[13]
Chen J, Yuan Z Y, Peng J, et al. DASNet: Dual attentive fully convolutional Siamese networks for change detection in high-resolution satellite images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 14:1194-1206. DOI:10.1109/JSTAR S.2020.3037893

[14]
Zhang C X, Yue P, Tapete D, et al. A deeply supervised image fusion network for change detection in high resolution bi-temporal remote sensing images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 166:183-200. DOI:10.1016/j.isprsjprs.2020.06.003

[15]
Guo Q L, Zhang J P, Zhu S Y, et al. Deep multiscale Siamese network with parallel convolutional structure and self-attention for change detection[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60:1-12. DOI: 10.1109/TGRS.2021.3131993

[16]
Fang S, Li K Y, Shao J Y, et al. SNUNet-CD: A densely connected Siamese network for change detection of VHR images[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19:1-5. DOI:10.1109/LGRS.2021.3056416

[17]
高建文, 管海燕, 彭代锋, 等. 基于局部-全局语义特征增强的遥感影像变化检测网络模型[J]. 地球信息科学学报, 2023, 25(3):625-637.

DOI

Gao J W, Guan H Y, Peng D F, et al. Local-global semantic feature enhancement model for remote sensing imagery change detection[J]. Journal of Geo-Information Science, 2023, 25(3):625-637. ] DOI:10.12082/dqxxkx.2023.220809

[18]
邵攀, 范红梅, 高梓昂. 基于自适应半监督模糊C均值的遥感变化检测[J]. 地球信息科学学报, 2022, 24(3):508-521.

DOI

Shao P, Fan H M, Gao Z A. An adaptive and semi-supervised fuzzy C-means clustering algorithm for remotely sensed change detection[J]. Journal of Geo-Information Science, 2022, 24(3):508-521. ] DOI:10.12082/dqxxkx.2022.210237

[19]
Chen H, Shi Z W. A spatial-temporal attention-based method and a new dataset for remote sensing image change detection[J]. Remote Sensing, 2020, 12(10):1662. DOI:10.3390/rs12101662

[20]
Lei T, Wang J, Ning H L, et al. Difference enhancement and spatial-spectral nonlocal network for change detection in VHR remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 60:1-13. DOI:10.1109/TGRS.2021.3134691

[21]
Zhu L Y, Guo Z, Xing H Q, et al. A coupled temporal-spectral-spatial multidimensional information change detection framework method: A case of the 1990-2020 Tianjin, China[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 16:5741-5758. DOI:10.1109/JSTARS.2023.3288218

[22]
Lee N, Ajanthan T, Torr P H S. SNIP: Single-shot network pruning based on connection sensitivity[EB/OL]. 2018: arXiv: 1810. 02340. https://arxiv.org/abs/1810.02340

[23]
Yang T J, Howard A, Chen B, et al. NetAdapt: platform-aware neural network adaptation for mobile applications[C]// European Conference on Computer Vision. Cham: Springer, 2018:289-304.10.1007/978-3-030-01249-6_18

[24]
Ye J B, Lu X, Lin Z, et al. Rethinking the smaller-norm-less-informative assumption in channel pruning of convolution layers[EB/OL]. 2018: arXiv: 1802. 00124. https://arxiv.org/abs/1802.00124

[25]
Wen W, Xu C, Wu C P, et al. Coordinating filters for faster deep neural networks[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017:658-666. DOI:10.1109/ICCV.2017.78

[26]
Kossaifi J, Bulat A, Tzimiropoulos G, et al. T-net: Parametrizing fully convolutional nets with a single high-order tensor[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:7814-7823. DOI:10.1109/CVPR.2019.00801

[27]
黄震华, 杨顺志, 林威, 等. 知识蒸馏研究综述[J]. 计算机学报, 2022, 45(3):624-653.

Huang Z H, Yang S Z, Lin W, et al. Knowledge distillation: A survey[J]. Chinese Journal of Computers, 2022, 45(3):624-653. ] DOI:10.11897/SP.J.1016.2022.00624

[28]
Yang C G, Zhou H L, An Z L, et al. Cross-image relational knowledge distillation for semantic segmentation[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:12309-12318. DOI:10.1109/CVPR52688.2022.01200

[29]
Mehta S, Rastegari M. MobileViT: Light-weight, general-purpose, and mobile-friendly vision transformer[EB/OL]. 2021: arXiv: 2110. 02178. https://arxiv.org/abs/2110.02178

[30]
Yin X A, Li W H, Li Z, et al. Recognition of grape leaf diseases using MobileNetV3 and deep transfer learning[J]. International Journal of Agricultural and Biological Engineering, 2022, 15(3):184-194. DOI:10.25165/j.ijabe.20221503.7062

[31]
Yang X, Lv Z Y, Atli Benediktsson J, et al. Novel spatial-spectral channel attention neural network for land cover change detection with remote sensed images[J]. Remote Sensing, 2022, 15(1):87. DOI:10.3390/rs15010087

[32]
Han M, Li R, Zhang C K. LWCDNet: A lightweight fully convolution network for change detection in optical remote sensing imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19:1-5. DOI:10.1109/LGRS.202 2.3159545

[33]
Liu Y, Pang C, Zhan Z Q, et al. Building change detection for remote sensing images using a dual-task constrained deep Siamese convolutional network model[J]. IEEE Geoscience and Remote Sensing Letters, 2021, 18(5):811-815. DOI:10.1109/LGRS.2020.2988032.

[34]
Sun H, Zheng X, Lu X, et al. Spectral-spatial attention network for hyperspectral image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 58(5):3232-3245.

DOI

Outlines

/