改进HarDNet-MSEG的遥感影像水体信息提取方法

郭慧琳; 谢元礼; 胡李发; 雍佳乐; 李云梅; 孙韶启

doi:10.12082/dqxxkx.2024.230656

地球信息科学学报 >

2024 , Vol. 26 >Issue 7: 1745 - 1762

DOI: https://doi.org/10.12082/dqxxkx.2024.230656

遥感科学与应用技术

改进HarDNet-MSEG的遥感影像水体信息提取方法

郭慧琳 ^,¹ ,
谢元礼 ^,¹^,²^,^* ,
胡李发 ¹ ,
雍佳乐 ¹ ,
李云梅 ¹ ,
孙韶启 ¹

展开

1.西北大学城市与环境学院，西安 710127
2.陕西省遥感与地理信息工程研究中心，西安 710127

*谢元礼（1968— ），男，湖南衡阳人，硕士，副教授，研究方向遥感与GIS研究。E-mail: xieyuanli@126.com

郭慧琳（1997— ），女，甘肃天水人，硕士生，研究方向为遥感信息的识别与提取。E-mail: txjg717824@163.com

Copy editor: 蒋树芳

收稿日期: 2023-11-05

修回日期: 2024-01-28

网络出版日期: 2024-06-25

收起

Water Body Extraction from Remote Sensing Images Based on Improved HarDNet-MSEG

GUO Huilin ^,¹ ,
XIE Yuanli ^,¹^,²^,^* ,
HU Lifa ¹ ,
YONG Jiale ¹ ,
LI Yunmei ¹ ,
SUN Shaoqi ¹

Expand

1. College of Urban and Environmental Science, Northwest University, Xi'an 710127, China
2. Shaanxi Remote Sensing and GIS Engineering Research Center, Xi'an 710127, China

*XIE Yuanli, Email: xieyuanli@126.com

Received date: 2023-11-05

Revised date: 2024-01-28

Online published: 2024-06-25

Fold

摘要

准确有效地提取水体信息，对于水资源监测、管理和应用等方面具有重要意义。由于水体形状、大小和分布的多样性以及场景的复杂性，如何高效准确地从遥感影像中提取出水体仍具有挑战性。传统的方法虽然可以从遥感图像中提取水体，但由于异物同谱其提取精度往往难以满足实际应用要求。因此，迫切需要先进的高性能技术来提高水体提取的效率和准确性。将深度学习与遥感技术相结合可以充分发挥深度学习的优势，有效帮助准确地提取水体信息。目前以深度学习的方法提取水体信息面临的挑战仍是多尺度特征融合、耗时长和参数多。HarDNet-MSEG (Harmonic DenseNet-MSEG)模型拥有较高的分割精度和较快的推理速度，为进一步充分利用来自通道和空间位置层面的相关信息以及提高模型的分割精度，本文以HarDNet-MSEG为网络框架，设计了一种名为HAM(Hybrid Attention Mechanism)的注意力机制，将其嵌入到HarDNet-MSEG网络中以探究其在网络中的最佳位置，在相同的实验环境下与其他注意力机制、经典网络算法以及传统的方法进行一系列的对比实验，并测试该模型在其他数据集上的通用性。结果表明， HAM模块在HarDNet-MSEG网络的较浅层处表现最出色。与其他注意力机制相比，HAM模块取得了更高的性能，MIoU、FWIoU和PA分别达到了94.068 7%、97.737 4%和99.320 5%。与DeepLabV3+、U-Net和PSPNet等经典模型相比， HarDNet-MSEG-HAM1模型不仅有最好的MIoU，参数量、计算量和训练时间各方面都表现出卓越的性能。与传统方法相比， HarDNet-MSEG-HAM1模型具有显著的优势，同时该模型在其他数据集上也表现出了良好的性能。最后，成功提取了青藏高原内流流域的2013、2016、2019和2022年4期湖泊，并对其面积变化进行了分析。一系列的实验数据表明，该模型在水体提取任务中的优越性与鲁棒性。本论文预期可以为从复杂场景的遥感影像中提取水体信息提供方法和相关数据支持。

关键词： 水体提取; 深度学习; HarDNet-MSEG; 混合注意力机制; 语义分割; 多尺度特征; 青藏高原; 遥感影像

本文引用格式

郭慧琳 , 谢元礼 , 胡李发 , 雍佳乐 , 李云梅 , 孙韶启 . 改进HarDNet-MSEG的遥感影像水体信息提取方法[J]. 地球信息科学学报, 2024 , 26(7) : 1745 -1762 . DOI: 10.12082/dqxxkx.2024.230656

Abstract

Accurately and efficiently mapping water bodies is of great significance for water resources monitoring, management, and application. It remains challenging to efficiently and accurately extract water bodies from remote sensing images due to the diversity of their shapes, sizes, distributions, and the complexity of the scenes. Although traditional methods can extract water bodies from remote sensing images, their extraction accuracy falls short of meeting the practical application requirements due to heterogeneous objects with the same spectrum. Therefore, there is an urgent demand for advanced high-performance techniques to improve the efficiency and accuracy of water body extraction. The combination of deep learning and remote sensing technology can fully exploit the advantages of deep learning and effectively contribute to the accurate extraction of water bodies. Current challenges in extracting water bodies through deep learning methods persist in issues such as multi-scale feature fusion, prolonged processing times, and the involvement of multiple parameters. The HarDNet-MSEG model possesses high segmentation accuracy and fast inference speed. In order to further fully utilize relevant information from the channel and spatial location levels, and to improve the segmentation accuracy of the model, this paper proposes a Hybrid Attention Mechanism (HAM) integrated into the HarDNet-MSEG network framework. The HAM is embedded into the HarDNet-MSEG network to explore its optimal position within the architecture, and a series of comparative experiments are conducted under the same experimental conditions, comparing it with other attention mechanisms, classical network algorithms, and traditional methods. Additionally, the generalizability of the model on other datasets is tested. The results show that the HAM module performs best at the shallower layers of the HarDNet-MSEG network. Compared with other attention mechanisms, the HAM module achieves higher performance, with MIoU, FWIoU, and PA reaching 94.0687%, 97.7374%, and 99.3205%, respectively. Compared with the classical models such as DeepLabV3+, U-Net, and PSPNet, the HarDNet-MSEG-HAM1 model not only achieves the highest MIoU but also demonstrates excellent performance in terms of parameter count, calculation volume, and training time. The HarDNet-MSEG-HAM1 model demonstrates significant advantages over the traditional methods, while also exhibiting favorable performance on other datasets. Finally, four phases of lakes in the endorheic Qinghai-Tibet Plateau in 2013, 2016, 2019, and 2022 are successfully extracted, and their area changes are analyzed. A series of experimental data demonstrate the superiority and robustness of the proposed model in water body extraction tasks. This study aims to provide a methodological framework and relevant data for extracting water bodies from complex remote sensing images.

Key words： water extraction; deep learning; HarDNet-MSEG; hybrid attention mechanism; semantic segmentation; multi-scale characteristics; Qinghai-Tibet Plateau; remote sensing image

1 引言

水资源在自然界中扮演着重要的角色，对生态平衡的维持、气候的调节和人类的生产生活等方面具有不可替代的作用与影响。快速有效地获取水体信息对于最大限度地发挥水资源的积极作用，同时减少其负面影响具有重要意义。

遥感技术因监测范围广、实时性高、成本低等优势，已经成为水域变化监测和水体信息提取的主要实现手段。许多学者提出了多种不同的遥感影像水体提取方法，大致分为传统方法和基于深度学习的方法。传统的方法如阈值法^{[1⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓⇓-13]}、分类器法^{[14⇓⇓⇓⇓-19]}。阈值法可分为单波段和多波段法，这2种方法都是利用水体和非水体在不同波段上的光谱特征值的差异，选择分割阈值获取所需要的地物信息。分类器法通常先选取具有代表性的类别作为训练样本来训练分类器，生成分类模型对水体进行提取，被广泛运用的有支持向量机（Support Vector Machine, SVM）^[14]、决策树法^[15]和面向对象法^[16]。相比较于阈值法，分类器法能够实现更加精细的水体提取。尽管这些传统方法在一定程度上提高了遥感图像水体提取的性能，但仍存在以下问题：首先，基于阈值和水体指数的方法在处理微小水体和含有杂质的水体时通常表现较差，因为随着图像分辨率的提高，光谱复杂度增加，阈值难以准确判断。其次，基于阈值和机器学习的方法严重依赖于人工设计的特征和给定的阈值，导致了不可靠的水体提取结果。此外，这些方法无法充分利用图像的空间上下文信息，导致有用的图像信息丢失，并容易受到噪声的影响^[20]。因此，迫切需要先进的高性能技术来提高水体提取的效率和准确性。

将深度学习与遥感技术相结合可以有效帮助准确提取大面积水体信息，充分发挥深度学习的优势，为复杂场景下的大规模水体提取提供了一种新的手段和方法。Wang等^[21]使用深度学习方法提取鄱阳湖流域水体，识别精度较高。Isikdogan等^[22]提出了DeepWaterMap（Deep-Learning-Based Water Model）模型来从陆地卫星图像中提取水体。结果显示，在DeepWaterMap的输出中没有观察到明显的细节损失，这表明该模型能够有效地学习融合多尺度特征，且该模型明显优于简单的改进归一化差异水体指数和传统的多层感知器方法。Li等^[23]将FCN（Fully Convolutional Network）^[24]模型应用于0.8 m的高分二号不同季节图像，对其与基于稀疏性模型的方法、基于支持向量机的方法和基于归一化差异水体指数方法在每个测试数据上进行了比较。结果表明，基于FCN的方法明显比其他三种方法更有效，这是因为它在处理水体与阴影混杂区域时优势突出。Yang等^[25]使用基于ResNet（Residual Network）^[26]的Mask R-CNN（Mask Region-based Convolutional Neural Network）模型来自动检测和提取遥感影像中的水体，避免了人工提取特征的复杂操作，实验结果表明基于ResNet-50的Mask R-CNN模型具有更高的准确性和鲁棒性。Wang等^[27]基于Landsat影像构建了一个非对称结构的多尺度卷积神经网络(Multiscale Convolutional Neural Network，MSCNN)，提取效果甚好。梁泽毓等^[28]利用密集连接结构和全卷积网络，对于大型水体和小型水体都可以精确提取。丁成等^[29]为了实现细小河流和湖泊的精确分割，利用全局平均池化注意力机制(Global Pooling Attention, GPA)融合编码和解码特征构建了多注意力机制网络(MultiAttention Mechanism Network, MA-Net)，实验证明该模型的提取精度较高。Tambe等^[30]提出一种基于CNN（Convolutional Neural Network）的端到端多特征网络架构W-Net（Water Body Extraction System），W-Net利用收缩网络来捕获图像上下文的语义信息，同时通过扩展网络实现本地化，使用非对称的网络结构减少训练参数，最终可以在较少的图像数据上训练实现水体的精准提取。Wang等^[31]提出了一种双支路编码器的混合尺度注意力网络，利用混合尺度注意力块对全局信息进行自适应权重分配，并在Google数据集和Landsat-8数据集上验证其优越性。Thati等^[32]提出了一种具有多种编码器的冰川湖U-Net架构，以实现冰川湖的有效分割。与其他深度学习技术相比，该技术在冰湖区域提取方面有了显著的改进。Qin等^[33]提出了一种有效的无监督深度梯度网络来从遥感图像中生成更高分辨率的湖泊区域。Jiang等^[34]基于Sentinel-1 SAR图像提出了一种基于注意力的新型U-Net模型，与传统的U-Net深度学习算法相比，基于注意力的U-Net显示出更高的准确性、准确性和召回率，最终获得0.971的F1分数。Liu等^[35]提出了一种新型的端到端轻量级多任务无下采样全卷积神经网络自动提取遥感图像中的湖泊和海岸线，提取效果甚好。

综上所述，以深度学习的方法提取水体信息大多数以常见的网络模型（如FCN、DeeplabV3+^[36]、U-Net^[37]、ResNet）为基础，对其改进存在2个主要趋势：一方面，以实现多尺度特征融合，提高提取精度为目标，网络结构的改进往往以牺牲效率为代价；另一方面，为了提高效率，减少训练时间和参数，但这往往会导致水体提取精度不高。目前针对同时解决这2个问题的研究工作相对较少。最近，Huang等^[38]提出了一种用于息肉分割的HarDNet-MSEG卷积神经网络。该网络的主干采用了一种名为HarDNet68^[39]的低内存流量CNN，该结构已成功应用于多个计算机视觉任务，包括图像分类、对象检测、多对象跟踪和语义分割等。该模型的解码器部分受到了级联部分解码器^[40]的启发，后者以其快速准确的显著对象检测而闻名。在5个流行的数据集（如Kvasir-SEG）上，该模型在准确性和推理速度方面均取得了最佳效果。这一研究成果为同时解决水体提取网络模型效率、多尺度特征融合和精度问题提供了新的思路。

HarDNet-MSEG在分割精度和推理速度方面优于U-Net及其变体，以及DeepLabV3+等经典网络模型^[38]。然而，由于遥感影像具备复杂的特征，将HarDNet-MSEG用于遥感影像水体提取的研究相对较少。Wang等^[41]以HarDNet-MSEG为骨干提出了一种新的水体提取网络，用于从卫星图像中自动分割冰川湖泊，相比于目前经典的深度学习模型有很大的优势。此外，HarDNet-MSEG模型未充分考虑特征通道与空间信息之间的相关性，而这一关联可能进一步提升分割精度。因此，本文设计了一种融合空间和通道注意力的注意力模块，命名为HAM，将其嵌入HarDNet-MSEG产生一种变体模型，旨在自动准确地从复杂场景的遥感影像中提取水体信息。

2 研究方法

2.1 网络框架

本文用到的网络框架为HarDNet-MSEG，这是一种用于医学影像息肉分割的网络。网络的编码器部分由HarDNet 68以及几个常用的卷积和池化层组成。HarDNet以其独特的谐波块结构和稠密连接方式，在低内存流量的前提下实现了高效的特征提取和模型训练。在利用HardBlock提取特征后，使用1×1卷积降低特征图的通道数，最后使用最大池化减少特征图尺寸。解码器以级联部分解码器和密集聚合的方式进行解码，逐步细化和提炼特征以获得更准确的分割结果。编码器和解码器之间通过感受野(Receptive Field Block, RFB)模块^[42]连接，该模块使用不同膨胀率的膨胀卷积生成不同尺度的特征图，最后应用1×1卷积合并这些特征。稠密融合(Dense Aggregation, DA)模块将来自RFB模块的不同深度特征图首先进行上采样，之后融合成为通道数为1的特征图，以有效的获取并学习特征图的全部特征。RFB与DA模块完成多尺度特征的提取与融合，以解决水体具有大小、形状和分布多样性的难点。最后，采用双线性插值的上采样方法，将特征图大小恢复到原始尺寸。

2.2 混合注意力机制（Hybrid Attention Mechanism, HAM）

遥感影像幅宽大，波段多，场景内容复杂，其包含的空间信息和通道信息对于地物的识别具有重要作用。在图像处理中，注意力机制可以使模型在处理图像时关注于图像中的特定区域，以更好地捕捉图像中的相关信息，提高模型性能和泛化能力。一般来说，注意力机制可分为通道注意力机制、空间注意力机制、空间和通道注意力机制的融合。通道注意力机制主要提取不同通道的重要信息或关联信息，空间注意力机制主要针对影像的空间位置特征，对不同的空间位置分配不同的注意力权重，以此使模型更加关注图像中的重要区域。简单来说，通道注意力集中在给定输入图像的“什么”是有意义的，空间注意力机制侧重于“哪里”是信息部分，这与通道注意力是互补的。通过应用通道和空间注意力模块，使每个分支都可以分别在通道和空间轴上学习“什么”和“在哪里”，以此强调或抑制某些信息，进而增强特征表示^[43]。对于HarDNet-MSEG模型，尽管通过调整网络结构（如其中的RFB模块）可以扩大特征感受野，从而有效地扩展特征的范围，实现多尺度特征融合，但这一改变并不能充分捕捉空间和通道维度中的特征依赖关系^[41]，因此引入注意力机制是必要的。对于空间注意力机制和通道注意力机制的组合，经典的如CBAM(Convolutional Block Attention Module)^[44]和DANet(Dual Attention Network)^[45]，提出了2种不同的集成策略。前者将通道注意力和空间注意力模块进行串联，而后者则是将输入图像分别经过空间注意力机制和通道注意力机制，最后将输出的特征图叠加，然而这样通常会需要更多的计算资源，复杂度较高。受ShuffleNetV2^[46]中残差单元的启发，组卷积可以显著降低模型的计算量，而通道混洗操作则可以防止因组卷积所带来的信息流阻塞。同时，输入和输出同等通道大小的特征图可以使内存访问量最小化，从而加速模型的训练。基于此，本文的注意力机制设计如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 混合注意力机制(HAM)

Fig. 1 Hybrid Attention Mechanism

首先特征图F′在经过HAM模块之前被按通道数均匀分割成两半[X₁, X₂]，其分别进入通道注意力和空间注意力模块。对于通道注意力部分，由于SE（Squeeze-and-Excitation）模块^[47]在相关的研究中已被证明其应用潜力，因此HAM模块中的通道注意力单元主要沿用了SE模块的整体设计。特征图X₁在经过全局平均池化F_gp后，得到一个一维特征向量（1×1×C/2），使用2个全连接层F_c对一维特征图进行挤压和激发操作，然后使用sigmoid函数σ来获取每个通道的权值，最后再用这些权值对原始特征图进行更新，计算如公式（1）所示。

（1）

X 1' = σ (F c (F g p (X 1))) * X 1

式中： X₁'表示特征图F′按通道数分割为X₁后经过通道注意力后的结果； σ表示激活函数sigmoid； F_c表示全连接层； F_gp表示全局平均池化；

*

表示矩阵的对应元素相乘。

对于空间注意力部分， HAM模块使用了CBAM中的SAM模块。该模块利用特征之间的空间关系生成空间注意力。为了计算空间注意力，首先沿着通道轴应用平均池化和最大池化操作，并将它们连接起来以生成有效的特征描述。沿着通道轴应用池化操作被证明在突出显示信息区域方面是有效的^[48]。之后应用卷积层来生成空间注意力映射，该映射对强调或抑制的位置进行编码。具体来说，首先对X₂做一个基于通道层面的全局最大池化MaxPool和全局平均池化AvgPool，得到2个H×W×1的特征图，使用通道拼接将2个特征图进行融合。然后使用一个7×7的标准卷积将特征图降为H×W×1。最后使用sigmoid函数σ得到每个元素在空间位置上的权重，以此对特征图进行权值更新，计算公式（2）所示。

（2）

X 2' = σ (f 7 × 7 ([M a x P o o l (X 2); A v g P o o l (X 2)])) * X 2

式中： X₂'表示特征图F′按通道数分割为X₂后经过空间注意力后的结果； σ表示激活函数sigmoid，f ^7×7表示卷积核为7×7的卷积； MaxPool和AvgPool分别表示全局最大池化和全局平均池化； *表示矩阵的对应元素相乘。

在2个模块分别进行通道和位置层面的权值更新后对两部分特征图进行通道拼接，将特征图还原成C×H×W。最后使用混洗操作将来自通道和位置层面的特征进行混合后重新分配，防止因通道分离所导致的信息流阻塞。

2.3 改进的HarDNet-MSEG

注意力机制一般适用于通道与空间都比较适中的网络中间层。在这里，很多特征图可以代表原图的一个特征，因此可以概括为一个权重，若某些特征比较重要，那么简单地加大对应的注意力权重即可达到目的。考虑到特征通道中存储的信息较空间位置更具主导作用，同时深层信息又能够有效地保留浅层信息的空间细节^[41]，本文将所设计的HAM插入到网络中的位置如图2所示，分别标记为HAM1、HAM2、HAM3，以确保注意力模块能够有效地提取特征。

显示原图|下载原图ZIP|生成PPT

图2 HAM在HarDNet-MSEG中的不同位置

Fig. 2 Different locations of HAM in the network

3 实验区概况与数据来源

3.1 实验区概况

青藏高原位于中国西南部（26°00'12′′N— 39°46'50′′ N，73°18'52′′E—104°46'59′′ E）。其水资源十分丰富，是亚洲许多大江大河的发源地，也是亚洲的冰川、湖泊、湿地聚集地，素有“亚洲水塔”之称。高原平均海拔大于4 000 m，是中国最大、世界平均海拔最高的高原。本文的研究区主要包括青藏高原在中国的区域，如图3所示。选取的青藏高原边界数据由国家青藏高原科学数据中心（http://data.tpdc.ac.cn/）提供^[49]。

显示原图|下载原图ZIP|生成PPT

图3 青藏高原研究区概况

Fig. 3 Overview of the Qinghai-Tibet Plateau

3.2 数据集

以青藏高原为研究区，所使用的Landsat数据包括Landsat 8和Landsat 9，分别于2013年、2021年发射。相较于Landsat 8，Landsat 9的陆地成像仪(OLI-2)的辐射分辨率有所提高，并且热红外传感器（TIRS-2）有助于减少杂散光的数量，实现更为精确的地表温度测量。Landsat 9与Landsat 8拥有相同的波段信息，这2颗卫星在轨运行且协同工作，每 8 d可覆盖全球。本文所选数据来源于 https://earthexplorer.usgs.gov/，是Collection 2 Level-2产品，时间跨度为2022年9—11月，云量均低于10%，共计获取了145景影像，所有数据已经过预处理，并在表1中列出其行列号。

表1 所获取影像的行列号

Tab. 1 Row and column numbers of acquired images

行号	130	131-134	135	136-140	141	142-144	145-146	147	148	149	150-151	152
列号	038-040	034-041	033-040	033-041	033-040	035-040	035-038	034-038	037	033-037	033-036	033-035

选取2022年青藏高原地区145景Landsat影像作为样本的原始数据源根据以下步骤进行数据集的制作。

（1）数据标注：所用到的湖泊矢量数据^[50]下载于国家青藏高原科学数据中心（https://data.tpdc.ac.cn/home），该数据集是基于Landsat数据通过水体指数与人工修正的方法绘制的面积大于1 km²湖泊边界数据。本文使用其中的2022年湖泊边界矢量数据，将其覆盖于下载的Landsat数据上进行人工修正、标注，然后再将矢量数据转为栅格数据，完成标签的制作。

（2）样本切分及数据增强：由于当前设备的限制，处理过大的图像尺寸会导致显存溢出问题并且降低推理速度。为了解决这个问题，本文将原始图像和标签数据按照尺寸为512像元×512像元，重复率为10%的要求通过Python进行滑动切分，对切分后的样本进行筛选，删除无效样本。为保证数据量充足，对样本进行诸如随机旋转、镜像等手段的数据增强，来提高样本质量。最后得到12 208张图像及对应的标签，训练集、验证集、测试集的划分比例为6:2:2。

3.3 实验细节

研究工作包括以下6个方面：① 消融实验。探究了在HarDNet-MSEG网络中合适的位置来放置HAM模块； ② 与其他注意力模块对比分析。将提出的HAM模块与经典的SE模块和CBAM模块进行对比分析，以评估它们在水体提取任务中的性能差异； ③ 与其他经典的分割算法对比分析，以验证其在水体提取任务上的优越性； ④ 与传统方法进行对比分析，以显示其在水体提取任务中的优势； ⑤ 将其应用到其他数据集上，以测试模型的通用性能； ⑥ 提取内流流域4个时期的湖泊。利用改进后的网络成功提取了青藏高原内流流域2013、2016、2019、2022年的湖泊并对这些湖泊在不同时期的面积变化进行了分析。

实验环境见表2。训练过程中采用交叉熵（Cross Entropy，CE）作为损失函数，选用Adam作为网络优化器， Poly作为学习率的动态调整策略。实验中的批量大小（batch size）为16或8，根据不同的网络使用不同的批处理大小来最大化GPU内存利用率。初始学习率（Learning rate， Lr）设置为0.005，权重衰减（weight decay）为0.000 5，所有实验的模型训练150次。

表2 实验环境

Tab. 2 Experimental environment

操作系统	CPU	内存	GPU	CUDA	深度学习框架
Windows 10	Intel (R) Core(TM) i7-12700F	16 GB	NVIDIA GeForce RTX 3060 12 GB	11.6	Pytorch1.13

为了定量评估模型的鲁棒性和有效性，选取像元准确率（Pixel Accuracy， PA），平均交并比（Mean Intersection over Union， MIoU），频权交并比(Frequency Weighted Intersection over Union，FWloU)作为评价指标，具体公式见式（3）—式（5）。

（3）

P A = ∑ i = 0 n P i i ∑ i = 0 n ∑ j = 0 n P i j

（4）

M I o U = 1 n + 1 ∑ i = 0 n P i i ∑ j = 0 n P i j + ∑ j = 0 n P j i - P i i

（5）

F W I o U = 1 ∑ i = 0 n ∑ j = 0 n P i j ∑ i = 0 n ∑ j = 0 n P i j P i i ∑ j = 0 n P i j + ∑ j = 0 n P j i - P i i

式中： n表示目标类别； i表示水体类； j表示非水体类； P_ij表示原本属于水体类但被分割为非水体类的像素数量，记为假正（FP）； P_ji表示原本属于非水体类但被分割为水体类的像素数量，记为假负（FN）；而P_ii则表示正确分类为水体的像素数量，记为真正（TP）。

4 实验结果与分析

4.1 消融实验

混合注意力机制可用于增强模型的感知能力，使其能够更好地关注输入数据中的相关信息。为了验证HAM的有效性以及确定其最佳位置，在数据集上实验，其训练过程中的Loss曲线以及验证过程中的4个指标的结果如图4(a)、图4(c)、图4(e)，图4(g)和图4(i)所示。为保证比较的合理性，实验过程中不同模型的超参数相同。对比不同模型的训练和验证Loss曲线，可以发现引入HAM模块的HarDNet-MSEG收敛速度比原始HarDNet-MSEG的收敛速度快，其中HarDNet-MSEG-HAM1的收敛速度最快。然而，不同模型在验证数据集上的Loss值波动较大，可能是因为验证数据集的随机性和数据规模相对较小，不能很好地捕捉数据的整体分布，导致模型在验证集上表现不稳定。随着实验的进行，观察不同模型MIoU曲线的变化，发现模型在初始阶段表现较差，但随着训练的进行，MIoU曲线呈现上升趋势直至稳定，表明其分割性能逐渐提升。FWIoU考虑了每个类别的频率，根据类别的出现频率赋予不同权重，从而更好地衡量整体分割性能。观察FWIoU曲线的变化，进一步表明了模型性能的逐渐提高。PA是另一个重要的指标，它衡量了模型在像素级别的预测中的准确性，观察其曲线变化，模型均取得了较高的准确率。

显示原图|下载原图ZIP|生成PPT

图4 不同模型的Loss、MIoU、 FWIoU和 PA变化曲线

Fig. 4 Loss, MIoU, FWIoU, and PA curves of different models

不同位置的混合注意力机制可以关注不同层次的特征表达。所提出的HAM作为一个独立模块，嵌在网络的3个不同位置，与HarDNet-MSEG框架兼容。如表3所示，相比于原始的HarDNet-MSEG，引入HAM模块的HarDNet-MSEG获得了较高的MIoU、FWIoU、PA，证明了HAM模块的有效性。其中HarDNet-MSEG-HAM1获得的MIoU、FWIoU、PA均最高。相比于原始HarDNet-MSEG的MIoU、FWIoU、PA， HarDNet-MSEG-HAM1分别提升了约1.13%、1.01%、1.00%， HarDNet-MSEG-HAM2分别提升了约0.02%、0.23%、0.66%， HarDNet-MSEG-HAM3分别提升了约1.04%、0.60%、0.60%。可以发现，混合注意力机制在HAM1处对网络性能和精度的提升要高于HAM2和HAM3，原因可能是随着网络层数的加深，信息的传递路径更为复杂，导致一些信息无法被RFB模块有效地传递到解码器部分，影响了网络的性能。

表3 不同模型的训练结果

Tab. 3 Training results of different models （%）

模型	MIoU	FWIoU	PA
HarDNet-MSEG	92.939 4	96.724 8	98.318 7
HarDNet-MSEG-HAM1	94.068 7	97.737 4	99.320 5
HarDNet-MSEG-HAM2	92.954 6	96.957 2	98.976 9
HarDNet-MSEG-HAM3	93.984 1	97.328 1	98.917 4
HarDNet-MSEG-CBAM	93.016 5	96.921 5	98.610 6
HarDNet-MSEG-SE	93.692 5	97.035 5	98.478 5

4.2 与其他注意力机制比较

为进一步评估HAM的性能和有效性，为HarDNet-MSEG网络引入CBAM和SE注意力机制进行训练。为保证比较的合理性，实验过程中不同模型的超参数相同。训练过程中的Loss曲线以及验证过程中的4个指标的结果如图4(b)、图4(d)、图4(f)、图4(h)和图4(j)所示。可以发现，训练过程和验证过程3个模型均能较快地收敛，且HarDNet-MSEG-HAM1的收敛速度优于其余2个模型。观察MIoU、FWIoU和PA曲线变化趋势，模型在初始阶段表现较差，随着实验的进行，曲线呈现上升趋势直至稳定，这表明模型在分割任务上表现出色。特别值得注意的是， HarDNet-MSEG-HAM1模型的性能曲线在所有模型中表现最佳。

如表3所示，相比于原始的HarDNet-MSEG，引入注意力模块的HarDNet-MSEG均获得了较好的MIoU、FWIoU、PA，证明了HarDNet-MSEG引入注意力机制的必要性。相比于原始HarDNet-MSEG的MIoU、FWIoU、PA， HarDNet-MSEG-HAM1分别提升了约1.13%、1.01%、1.00%， HarDNet-MSEG-CBAM分别提升了约0.08%、0.20%、0.30%， HarDNet-MSEG-SE分别提升了约0.75%、0.31%、0.16%。实验证明HarDNet-MSEG-HAM1的模型性能提升幅度要大于其余的 2个模型，可能是因为HAM注意力机制要比SE和CBAM更能聚焦丰富的有用信息，抑制其他无用信息，降低模型对背景的关注，突出图像中的前景物体，提升图像分割效果。

4.3 与其他经典网络的对比

由上述消融实验的结果可知， HarDNet-MSEG-HAM1的结果最好，为进一步评估其性能，本文训练了DeepLabV3+^[35]、U-Net^[36]、PSPNet^[51] 3种经典网络来对比不同语义分割算法的分割表现。考虑到遥感影像的复杂性以及模型性能，均使用ResNet101来替代这3种模型的原始骨干网，这一替代策略能更好地满足需求。所有实验均在相同的环境下训练完成。

为了直观地对比分析不同网络的提取结果，选取4种场景进行展示，如图5所示。不同的模型在相同场景下表现出不同的效果和精度。场景一中非湖泊占多数，HarDNet-MSEG-HAM1和PSPNet的湖泊提取效果与真实标签的湖泊吻合度较好，几乎无错分漏分现象，DeepLabV3+边界提取不完整且存在较多的漏分。U-Net边界提取较为完整，但存在较少的空洞现象。场景二中同时拥有较大面积的湖泊和很小面积的湖泊。HarDNet-MSEG-HAM1完整地提取出了较大面积的湖泊，但对小面积湖泊识别不敏感。DeepLabV3+边界提取不完整，在大面积湖泊内部区域出现漏提现象，导致提取的湖泊形态不完整，且很小面积的湖泊也未提取出来。U-Net完整地分割出了大面积湖泊的边界和少量很小面积的湖泊，但也存在严重的漏提现象。与DeepLabV3+相比，PSPNet的边界提取效果较为精细，但也存在漏提现象。场景三中是细小狭长的湖泊。受水中淤泥的影响，所有模型都存在错分现象，提取效果都有所下降。但HarDNet-MSEG-HAM1完整地将细长湖泊保留了下来，提取的湖泊边界效果最好，对很小面积的湖泊，HarDNet-MSEG-HAM1相较于其他模型有更好地发挥。其余的3种模型均不能完整地提取出细长湖泊，漏分现象很严重。场景四湖泊边界曲折，4种模型对于很小面积的湖泊提取均不能完整识别。HarDNet-MSEG-HAM1提取的湖泊完整，边界平滑且规整、无空洞现象，但也存在错分现象。DeepLabV3+、U-Net和PSPNet在特别细小的湖泊处存在一定的断线情况，且大量的湖泊被漏提。DeepLabV3+和U-Net能大致分割出湖泊边界，但是分割不精细且不完整。PSPNet的提取结果精度不是很高，对边界的识别特别粗糙且不完整，存在大量的漏分。总体而言，HarDNet-MSEG-HAM1与其他方法对比更符合真实的湖泊分布，边界提取最完整，细节的保留程度最高。

显示原图|下载原图ZIP|生成PPT

图5 不同分割算法提取结果

Fig. 5 Extraction results of different segmentation algorithms

如表4所示，HarDNet-MSEG-HAM1取得了最高的MIoU，相较于DeepLabV3+、U-Net和PSPNet分别提升了1.6%、0.64%、1.14%。与DeepLabV3+相比，HarDNet-MSEG-HAM1的各个指标均优于DeepLabV3+。与U-Net相比，虽然HarDNet-MSEG-HAM1的MIoU提升幅度不高，但HarDNet-MSEG-HAM1的参数量，计算量（FLOPs）和训练耗时均远远优于U-Net。与PSPNet相比，虽然HarDNet-MSEG-HAM1的计算量（FLOPs）和训练耗时较高，但均在可接受范围内，且HarDNet-MSEG-HAM1的参数量最少。综上所述，HarDNet-MSEG-HAM1在水体分割任务中具有良好的表现性能。

表4 不同语义分割网络的训练结果

Tab. 4 Training results of different semantic segmentation networks

分析方法	具体内容	模型
分析方法	具体内容	HarDNet-MSEG-HAM1	DeepLabV3+	U-Net	PSPNet
定量分析	MIoU/%	94.068 7	92.468 6	93.429 8	92.932 9
	参数量/M	21.00	45.70	51.50	43.30
	FLOPs/G	34.36	56.60	62.40	11.97
	训练耗时/h	32.60	42.20	45.70	26.60
定性分析	场景一	几乎无错分漏分现象	存在较多的漏分	存在较少的空洞	几乎无错分漏分现象
	场景二	完整地提取出了较大面积的湖泊	边界提取不完整，存在漏提	存在严重的漏提	边界提取较为精细，但也存在漏提
	场景三	完整地保留了细长湖泊	不能完整地提取出细长湖泊，漏分现象严重
	场景四	提取的湖泊边界平滑且规整、无空洞现象	能大致分割出湖泊边界，但是分割不精细且不完整		对边界的识别特别粗糙且不完整

4.4 与传统方法对比

为了体现本文所提算法相较于传统算法的优势，将HarDNet-MSEG-HAM1与水体指数法，单波段阈值法和支持向量机（SVM）进行对比。所用数据为随机选取的2景Landsat数据（LC08_L2SP_137037_20221030_20221108_02_T1，LC09_L2SP_140038_20221128_20230320_02_T1）。由于Frazier等^[1]和徐涵秋^[8]已证明了在短波红外波段水体和非水体的反射率存在显著差异，同时在这一波段能够实现最高的水体提取精度。因此，本文选择Landsat OLI的第6波段作为单波段阈值法的波段，水体指数法选择NDWI（Normalized Difference Water Index）^[7]、MNDWI（Modified Normalized Difference Water Index）^[8]，进行水体提取时使用最大类间方差法（大津法）寻找最优分割阈值。SVM选取400个样本点，样本的可分离度为1.99，核函数类型选择径向基函数(Radial Basis Function, RBF)。

提取结果如表5、图6所示，对于不同场景，可以观察到以下现象：在场景一中，较大面积的湖泊能够被5种方法很好地提取出来，细小湖泊的提取存在漏分现象，可能与图像分辨率有关。对于山体阴影与水体的区分， HarDNet-MSEG-HAM1和MNDWI表现得最出色，能够有效区分山体阴影和水体，仅有少量阴影被错误地识别为水体。相比之下，NDWI、单波段阈值法和SVM的性能较差，它们将大量山体阴影错误地识别为水体，导致提取效果不佳。在场景二中，针对水体与云及其阴影的识别进行了比较。结果显示， HarDNet-MSEG-HAM1表现最出色，能够有效地识别水体，而其他方法存在一些问题。具体来说，MNDWI将云错误地识别为水体，而NDWI将云及其阴影都误认为水体。单波段阈值法和SVM也将云的阴影错误地识别为水体，因此它们的识别效果相对较差。不仅如此，在场景一和场景二中存在河流和冰川等类型的水体。在这方面，MNDWI、NDWI、单波段阈值法和SVM能够提取出这2种水体类型，但HarDNet-MSEG-HAM1则无法进行有效的识别。这一差异可能是因为在模型训练过程中没有涵盖这些特定类型的水体，导致了这种不同的表现。HarDNet-MSEG-HAM1的提取精度为96.191 5%， Kappa为0.923 1； MNDWI的提取精度为93.253 5%， Kappa为 0.864 3； NDWI的提取精度为93.035 9%， Kappa为0.857 9；单波段阈值法的提取精度为92.818 3%， Kappa为0.855 4； SVM的提取精度为91.839 0%， Kappa为0.833 6。总的来说，HarDNet-MSEG-HAM1模型在水体提取方面表现出显著的优势，特别是在山体阴影、云及其阴影的识别方面。

表5 不同方法的水体提取结果

Tab. 5 Results of water extraction by different methods

分析方法	具体内容	模型
分析方法	具体内容	HarDNet-MSEG-HAM1	MNDWI	NDWI	单波段阈值法	SVM
定量分析	总体精度/%	96.191 5	93.253 5	93.035 9	92.818 3	91.839 0
定量分析	Kappa	0.923 1	0.864 3	0.857 9	0.855 4	0.833 6
定性分析	场景一	能够有效区分山体阴影和水体，仅有少量阴影被错误地识别为水体		将大量山体阴影错误地识别为水体
定性分析	场景二	能有效区分水体与云及其阴影	将云错误地识别为水体	将云及其阴影都误认为水体	将云的阴影错误地识别为水体

显示原图|下载原图ZIP|生成PPT

图6 不同方法提取结果对比

Fig. 6 Comparison of extraction results of different methods

4.5 在其他数据集上的应用

为研究模型在其他数据集上的表现能力，即模型通用性能测试，本文将HarDNet-MSEG-HAM1应用到WHDLD^[52]数据集和自制的腾格里沙漠数据集。WHDLD是一个地表覆盖分类的密集标注数据集，图像大小为256像元×256像元，共计4 940张RGB图像。该数据集中的图像全部来自于武汉市区2 m分辨率的高分影像，地表覆盖类型相对复杂，所有标签均以伪彩色的方式进行显示，在进行训练时需要将其转换为单通道灰度图。腾格里沙漠地表覆盖类型相对简单，选取2020年腾格里沙漠地区28景高分影像（高分1/2/6）作为样本的原始数据源进行数据标注、样本切分和数据集增强等操作完成数据集的制作。对这2个数据集分别进行训练，在进行实验时所有的实验环境与上述实验环境保持一致。如表6所示，HarDNet-MSEG-HAM1在WHDLD数据集和腾格里沙漠数据集能够取得92.910 9%和93.164 9%的MIoU， PA分别为97.276 4%和98.741 9%，说明HarDNet-MSEG-HAM1在其他地区的水体分割任务中也具有良好的表现性能。

表6 HarDNet-MSEG-HAM1在其他数据集上的提取精度

Tab. 6 Extraction accuracy of HarDNet-MSEG-HAM1 on other datasets （%）

数据集	MIoU	FWIoU	PA
WHDLD	92.910 9	94.703 4	97.276 4
腾格里沙漠	93.164 9	97.609 3	98.741 9

4.6 内流流域湖泊年际变化及分析

由前面的实验可知，HarDNet-MSEG-HAM1能够准确地识别和提取青藏高原地区的湖泊，相较于其他经典的分割算法，它在效率和精度方面都具备明显的优势。因此，本文使用HarDNet-MSEG-HAM1对2013、2016、2019年和2022年的9—11月Landsat影像进行湖泊提取。考虑到青藏高原空间跨度大，数据量大以及设备资源的限制，本文仅对湖泊分布最密集的内流流域进行湖泊提取。内流流域边界数据来源于国家青藏高原科学数据中心（https://data.tpdc.ac.cn/home）发布的成果^[53]。最终得到了4期内流流域湖泊，并将其与其他研究者提取的内流流域湖泊进行对比。杨智崇等^[54]使用D-LinkNet（Densely Connected Link Network）来实现湖泊提取，并完成了2016—2021年的湖泊数据集。张国庆等^[50]首先使用NDWI提取出湖泊，之后参照原始陆地卫星图像对提取结果进行了视觉检查，并手动编辑了不正确的湖泊边界，最终获取了整个青藏高原近50年（1970—2022）共16期湖泊观测数据。数据均发布于国家青藏高原科学数据中心，质量可靠，可作为参考。

考虑到本文选择的研究时间间隔为3年，小于1 km²的湖泊数据稳定性较差，故选择面积大于1 km²的湖泊作为研究的最小单元，湖泊最终提取的统计结果如表7、图7所示。由于湖泊提取的年份存在差异，与参考文献[54]的湖泊面积进行比较时我们仅选择了2016年和2019年的数据。结果显示，本文提取的湖泊面积与其相差分别为910.67 km²和468.75 km²，差距较小。这一发现再次验证了本文方法的可靠性。对照参考文献[50]提取湖泊的面积，本文的湖泊提取结果呈现出相当接近的趋势。具体来说，2013年的湖泊提取结果相较于参考文献[50]相差3 372.61 km²，这一较大的差距主要源于2013年遥感数据中云量大，部分湖泊被覆盖，这对湖泊提取结果产生了一定影响。然而，到了2016年，随着数据质量的改善，差距已经显著缩小至226.96 km²。进一步到2019年，差距仅为255.5 km²，而在最近的2022年，差距更进一步缩小，仅为178.57 km²。本文提取的内流流域中面积大于 1 km²的湖泊总面积变化呈现出与参考文献[50]的提取结果基本一致的趋势。具体而言，从2013—2019年，湖泊总面积增长缓慢，保持近乎平衡的状态。然而，令人担忧的是，从2019—2022年，湖泊总面积甚至出现了下降的趋势。这一系列数据结果表明，本文的提取方法在不同年份表现出了稳定性和准确性，特别是在数据质量得到改善的情况下。因此，本文的方法为水体识别提供了可靠的支持，尽管在某些年份存在较大差距，但后续的改进和数据质量提升使得结果更加可靠。

表7 4个时期内流流域的湖泊总面积

Tab. 7 Total area of lakes in the inland lake areas during the four time periods

年份	本文的提取结果/km²	参考文献[50]的提取结果/km²	参考文献[53]的提取结果/km²
2013	29 478.78	32 851.39	—
2016	33 305.82	33 532.78	32 395.15
2019	35 157.80	35 413.30	34 689.05
2022	35 079.76	35 258.33	—

显示原图|下载原图ZIP|生成PPT

图7 2013—2022年青藏高原地区内流流域湖泊面积变化

Fig. 7 Changes in the area of lakes in the instream flow basin of the Tibetan Plateau from 2013 to 2022

5 讨论

混合注意力机制可以帮助模型集中关注输入中的特定部分或特征，以提高性能。然而，如果将混合注意力机制置于太靠后的层，由于通道数过多，容易引起过拟合。此外，随着网络层数的增加，特征图逐渐变小，如果不正确使用卷积操作，可能会引入大量非像素级别的信息。在4.1节中，HAM1处的输入特征图大小为64×64×320，HAM2处的输入特征图大小为32×32×640，HAM3处的输入特征图大小为16×16×1024。可见，随着网络层数的增加，特征图的尺寸逐渐减小，通道数逐渐增多。因此，在HAM2和HAM3处，混合注意力机制的效果可能不如在HAM1处明显，这是因为这些层级的特征图更小且通道数更多，需要更加谨慎地处理以避免引入大量非像素级别的信息。

本文4.2节的试验结果证明，引入SE和CBAM注意力模块的特征提取效果不如HAM注意力模块。这可能有多方面原因：首先，HAM模块对来自通道和空间的信息进行了混洗操作，由此防止因之前的通道分离所导致的信息流阻塞。其次，SE模块主要关注通道维度上的注意力，以强调或减弱不同通道中的信息。然而，在水体提取任务中，特征之间的空间关系同样至关重要。SE模块相对较为简单，未能有效地捕捉到特征在空间维度上的关联和依赖关系，导致其在这种任务中表现不佳。再者，CBAM模块虽然引入了通道和空间维度上的注意力，使其在理论上能够更全面地捕捉特征之间的依赖性，但由于其计算复杂度较HAM模块高，可能导致过多的注意力分布，进而模糊了关键信息，水体提取效果不如HAM模块的提取效果好。这表明了一个关键观点，即注意力机制的性能不仅仅取决于其复杂性，还受到任务特性和模型架构的制约。

本文4.3节的结果证明，本文提出的HarDNet-MSEG-HAM1的提取效果最好，该方法中混合注意力机制HAM， RFB模块与DA模块相互协作，充分利用空间和通道维度特征，能够更好地捕捉像素之间的多尺度关系，从而提高了模型的特征提取能力。在参数量和计算量方面，HarDNet-MSEG-HAM1也取得了优势，这得益于他的骨干网为HarDNet，这是一种谐波密集连接网络，其中的谐波块有助于更好地平衡网络的深度和宽度，减少了参数的数量，密集连接有助于提高网络的梯度流动和特征共享，进而改善性能。然而，四种模型均会忽略一些特别小面积的湖泊，可能的原因是图像分辨率低。Landsat数据的分辨率为30 m，特别小的湖泊可能在Landsat影像上表现为非常小的像素区域，导致这些图像分割模型可能无法捕捉到这些特别小的细节。在处理低分辨率图像时，即使是强大的神经网络，也会存在检测和分割小目标的挑战。其次， DeepLabV3+、U-Net、PSPNet的提取精度较低的另一个原因可能是相对于本文提出的网络模型，这3种网络模型的架构对于适合水体分割任务适用性可能较差。

6 结论

本文设计了一个名为HAM的混合注意力模块，将其引入到HarDNet-MSEG中产生了一种变体模型，用于提取遥感影像水体信息。研究以青藏高原Landsat遥感影像为数据源，将HAM嵌入到HarDNet-MSEG网络中以探究其在网络中的最佳位置，同时在相同的实验环境下又进行了一系列的对比实验，以验证模型的优越性与鲁棒性。结果表明：

（1）通过将HAM嵌入到网络的不同位置，可以发现引入HAM模块的HarDNet-MSEG收敛速度比原始HarDNet-MSEG的收敛速度快，且引入HAM模块的HarDNet-MSEG均获得了较高的MIoU、FWIoU、PA，证明了HAM模块的有效性。其中HarDNet-MSEG-HAM1获得了最高的MIoU、FWIoU、PA，分别为94.068 7%，97.737 4%和99.320 5%，由此表明将HAM模块置于HAM1处可以快速捕捉和充分利用丰富的多尺度上下文信息，从而提高模型的鲁棒性和提取能力。

（2）为HarDNet-MSEG网络引入CBAM和SE注意力机制，实验结果证明HarDNet-MSEG-HAM1的收敛速度要优于HarDNet-MSEG-CBAM和HarDNet-MSEG-SE，且相比于原始HarDNet-MSEG的MIoU、FWIoU、PA， HarDNet-MSEG-HAM1分别提升了约1.13%、1.01%、1.00%，其提升幅度要大于其余的2个模型。

（3）与DeepLabV3+、U-Net和PSPNet等经典分割模型的实验证明了HarDNet-MSEG-HAM1在提取不同大小、不同形状和分布条件下的水体方面的优越性和可行性。相比之下，HarDNet-MSEG-HAM1的MIoU最高，参数量最少，且HarDNet-MSEG-HAM1的FLOPs和训练耗时均远远优于DeepLabV3+和U-Net。虽然其FLOPs和训练耗时要比PSPNet高，但均在可接受范围内。总体来说，HarDNet-MSEG-HAM1在水体分割任务中具有良好的表现性能。

（4）与MNDWI，NDWI，单波段阈值法和SVM等传统方法的对比实验更进一步证明了HarDNet-MSEG-HAM1在区分水体与山体阴影、云及其阴影方面的优势，其总体提取精度和Kappa系数分别达到了96.191 5%和0.923 1，远高于上述4种方法。之后将HarDNet-MSEG-HAM1应用于其他数据集上，对模型通用性能进行测试，结果表明了模型的稳定性。

（5）与其他研究者的提取结果对比， HarDNet-MSEG-HAM1也取得了令人满意的结果。本文提取的青藏高原内流流域湖泊面积与参考文献[54]的提取结果相差较小，与参考文献[50]提取湖泊的面积呈现出相当接近的趋势。具体而言，从2013—2019年，湖泊总面积增长缓慢，保持近乎平衡的状态。然而，从2019—2022年，湖泊总面积出现了下降的趋势。这一系列数据结果表明，本文的提取方法在不同年份表现出了稳定性和准确性。

基于本文的结果和发现，未来的工作可以聚焦在以下方面：其一，鉴于已经验证了HAM注意力模块在水体提取任务中的有效性，下一步可以将这一模块成功应用到其他遥感图像分割任务中，以进一步验证其在不同领域的适用性，提高模型的泛化性能，这将有助于扩大该模块的应用范围。其二，未来的研究可以将重点扩展到更广泛的水体监测任务，以追踪水体分布和变化的长期趋势，这将有助于发现水资源可持续性问题，对环境保护和资源管理提供更有力的支持。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Frazier P S, Page K J. Water body detection and delineation with Landsat TM data[J]. Photogrammetric Engineering & Remote Sensing, 2000, 66(12):1461-1467.

[2]	陈鹏, 张青, 李倩. 基于FY3A/MERSI影像的几种常用水体提取方法的比较分析[J]. 干旱区地理, 2015, 38(4):770-778. [Chen P, Zhang Q, Li Q. Comparative analysis of several commonly used water extracti-on method based on FY3A/MERSl imagery[J]. Arid Land Geography, 2015, 38(4):770-778.] DOI:10.13826/j.cnki.cn65-1103/x.2015.04.015

[3]	杜云艳, 周成虎. 水体的遥感信息自动提取方法[J]. 遥感学报, 1998, 2(4):264-269. [Du Y Y, Zhou C H. Automatically extracting remote sensing information for water bodies[J]. National Remote Sensing Bulletin, 1998(4):264-269.] DOI:10.11834/jrs.19980406

[4]	王国华, 裴亮, 杜全叶, 等. 针对资源三号卫星影像水体提取的谱间关系法[J]. 遥感信息, 2020, 35(3):117-121. [Wang G H, Pei L, Du Q Y, et al. Spectral relation method for water body extraction from ZY-3 imagery[J]. Remote Sensing Information, 2020, 35(3):117-121.] DOI:10.3969/j.issn.1000-3177.2020.03.016

[5]	杨树文, 薛重生, 刘涛, 等. 一种利用TM影像自动提取细小水体的方法[J]. 测绘学报, 2010, 39(6):611-617. [Yang S W, Xue C S, Liu T, et al. A method of small water information automatic extraction from TM remote sensing images[J]. Acta Geodaetica et Cartographica Sinica, 2010, 39(6):611-617.] DOI:10.1017/S0004972710001772

[6]

李丹, 吴保生, 陈博伟, 等. 基于卫星遥感的水体信息提取研究进展与展望[J]. 清华大学学报(自然科学版), 2020, 60(2):147-161.

[Li

, Wu

B S

, Chen

B W

, et al. Review of water body information extraction based on satellite remote sensing[J]. Journal of Tsinghua University(Science and Technology), 2020, 60(2):147-161.] DOI:10.16511/j.cnki.qhdxxb.2019.22.038

[7]	McFeeters S K. The use of the Normalized Difference Water Index (NDWI) in the delineation of op-en water features[J]. International Journal of Remote Sensing, 1996, 17(7):1425-1432. DOI:10.1080/01431169608948714

[8]	徐涵秋. 利用改进的归一化差异水体指数(MNDWI)提取水体信息的研究[J]. 遥感学报, 2005, 9(5):589-595. [ Xu H Q. A study on information extraction of water body with the modified normalize difference water index (MNDW)[J]. National Remote Sensing Bulletin, 2005, 9(5):589-595.] DOI:10.11834/jrs.20050586

[9]	丁凤. 一种基于遥感数据快速提取水体信息的新方法[J]. 遥感技术与应用, 2009, 24(2):167-171. [Ding F. A new method for fast information extraction of water bodies using remotely sensed data[J]. Remot-e Sensing Technology and Application, 2009, 24(2):167-171.] DOI:10.1007/BF01990740

[10]	Wang X B, Xie S P, Zhang X L, et al. A robust Multi-Band Water Index (MBWI) for automated extraction of surface water from Landsat 8 OLI imagery[J]. International Journal of Applied Earth O-bservations and Geoinformation, 2018, 68:73-91. DOI:https://doi.org/10.1016/j.jag.2018.01.018

[11]	朱小强, 丁建丽, 夏楠, 等. 一种稳定阈值的湖泊水体信息提取方法[J]. 资源科学, 2019, 41(4):790-802. DOI [Zhu X Q, Ding J L, Xia N, et al. Temperature vegetation water index: A novel stabilized threshold m-ethod for lake surface water mapping[J]. Resources Science, 2019, 41(4):790-802.] DOI:10.18402/resci.2019.04.15

[12]	邓开元, 任超. 多光谱光学遥感影像水体提取模型[J]. 测绘学报, 2021, 50(10):1370-1379. DOI [Deng K Y, Re-n C. Water extraction model of multispectral optical remote sensing image[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(10):1370-1379.] DOI:10.11947/j.AGCS.2021.20200482

[13]	Li L R, Su H J, Du Q, et al. A novel surface water index using local background information for long term and large-scale Landsat images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2021, 172:59-78. DOI:10.1016/j.isprsjprs.2020.12.003

[14]	Cristianini N, ShaweT J. An introduction to Support Vector Machines and other kernel-based learni-ng methods[M]. Cambridge, UK: Cambridge University Press, 2000. DOI:10.1017/cbo9780511801389

[15]	Friedl M A, Brodley C E. Decision tree classification of land cover from remotely sensed data[J]. Remote Sensing of Environment, 1997, 61(3): 399-409. DOI:10.1016/S00 34-4257(97)00049-7

[16]

陈云浩, 冯通, 史培军, 等. 基于面向对象和规则的遥感影像分类研究[J]. 武汉大学学报(信息科学版), 2006, 31(4):316-320.

[Chen

Y H

, Feng

, Shi

P J

, et al. Classification of remote sensing image based on object oriented and class rules[J]. Geomatics and Information Science of Wuhan University, 2006, 31(4):316-320.] DOI:10.3969/j.issn.1671-8860.2006.04.009

[17]	Gong W F, Liu T D, Jiang Y, et al. Applicability of the surface water extraction methods based on China's GF-2 HD satellite in Ussuri River, Tonghe County of Northeast China[J]. Nature Environm-ent and Pollution Technology, 2020, 19(4):1537-1545. DOI:10.46488/NEPT.2020.v19i04.020

[18]	Liu Q H, Huang C, Shi Z L, et al. Probabilistic river water mapping from Landsat-8 using the sup-port vector machine method[J]. Remote Sensing, 2020, 12(9):1374. DOI:10.3390/rs12091374

[19]	Sarp G, Ozcelik M. Water body extraction and change detection using time series: A case study of Lake Burdur, Turkey[J]. Journal of Taibah University for Science, 2017, 11(3):381-391. DOI:10.1016/j.jtusci.2016.04.005

[20]	Kang J, Guan H Y, Peng D F, et al. Multi-scale context extractor network for water-body extraction from high-resolution optical remotely sensed images[J]. International Journal of Applied Earth Observation and Geoinformation, 2021, 103:102499. DOI:10.1016/j.jag.2021.102499

[21]	Wang G J, Wu M J, Wei X K, et al. Water identification from high-resolution remote sensing imag-es based on multidimensional densely connected convolutional neural networks[J]. Remote Sensing, 2020, 12(5):795. DOI:10.3390/rs12050795

[22]	Isikdogan F, Bovik A C, Passalacqua P. Surface water mapping by deep learning[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(11):4909-4918. DOI:10.1109/JSTARS.2017.2735443

[23]	Li L W, Yan Z, Shen Q, et al. Water body extraction from very high spatial resolution remote sens-ing data based on fully convolutional networks[J]. Remote Sensing, 2019, 11(10):1162. DOI:10.3390/rs11101162

[24]	Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation[J]. IEEE T-ransactions on Pattern Analysis and Machine Intelligence, 2017, 39(4):640-651. DOI:10.1109/TPAMI.2016.2572683

[25]	Yang F Y, Feng T, Xu G Y, et al. Applied method for water-body segmentation based on mask R-CNN[J]. Journal of Applied Remote Sensing, 2020, 14(1):014502. DOI:10.1117/1.JRS.14.014502

[26]	He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]. IEEE Conf-erence on Computer Vision and Pattern Recognition (CVPR), 2016:770-778. DOI:10.1109/CVPR.2016.90

[27]	Wang Y D, Li Z W, Zeng C, et al. An urban water extraction method combining deep learning and google earth engine[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13:768-781. DOI:10.1109/JSTARS.2020.2971783

[28]

梁泽毓, 吴艳兰, 杨辉, 等. 基于密集连接全卷积神经网络的遥感影像水体全自动提取方法[J]. 遥感信息, 2020, 35(4):68-77.

[Liang

Z Y

, Wu

Y L

, Yang

, et al. Full-automatic water extraction method for r-emote sensing imagery based on densely connected fully convolutional neural network[J]. Remote Sen-sing Information, 2020, 35(4):68-77.] DOI:10.3969/j.issn.1000-3177.2020.04.011

[29]	丁成, 翁理国, 夏旻, 等. 多注意力机制网络卫星图像分割算法[J]. 计算机工程与应用, 2021, 57(2):223-229. DOI [Ding C, Weng L G, Xia M, et al. Multi-attention mechanism network satellite image segmentation algorithm[J]. Computer Engineering and Applications, 2021, 57(2):223-229.] DOI:10.3778/j.issn.1002-8331.1911-0172

[30]	Tambe R G, Talbar S N, Chavan S S. Deep multi-feature learning architecture for water body seg-mentation from satellite images[J]. Journal of Visual Communication and Image Representation, 2021, 77:103141. DOI:10.1016/j.jvcir.2021.103141

[31]	Wang Z B, Gao X, Zhang Y N. HA-Net: A lake water body extraction network based on hybridsc-ale attention and transfer learning[J]. Remote Sensing, 2021, 13(20):4121. DOI:10.3390/rs13204121

[32]	Thati J, Ari S. A systematic extraction of glacial lakes for satellite imagery using deep learning bas-ed technique[J]. Measurement, 2022, 192:110858. DOI:10.1016/j.measurement.2022.110858

[33]	Qin M J, Hu L S, Du Z H, et al. Achieving higher resolution lake area from remote sensing imag-es through an unsupervised deep learning super-resolution method[J]. Remote Sensing, 2020, 12(12):1937. DOI:10.3390/rs12121937

[34]	Jiang D, Li X W, Zhang K, et al. Automatic supraglacial lake extraction in Greenland using Sentin-el-1 SAR images and attention-based U-Net[J]. Remote Sensing, 2022, 14(19):4998. DOI:10.3390/rs14194998

[35]	Liu W, Chen X Y, Ran J J, et al. LaeNet: A novel lightweight multitask CNN for automatically ex-tracting lake area and shoreline from remote sensing images[J]. Remote Sensing, 2020, 13(1):56. DOI:10.3390/rs13010056

[36]	Chen L C, Zhu Y K, Papandreou G, et al. Encoder-decoder with atrous separable convolution for s-emantic image segmentation[C]. European Conference on Computer Vision. Cham: Springer, 2018:833-851. DOI:10.1007/978-3-030-01234-2_49

[37]	Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentatio-n[C]. International Conference on Medical image computing and computer-assisted intervention. Cha-m: Springer, 2015:234-241. DOI:10.1007/978-3-319-24574-4_28

[38]	Huang C H, Wu H Y, Lin Y L. HarDNet-MSEG: A simple encoder-decoder polyp segmentation ne-ural network that achieves over 0.9 mean dice and 86 fps[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021. DOI:https://doi.org/10.48550/arXiv.2101.07172

[39]	Chao P, Kao C Y, Ruan Y S, et al. HarDNet: A low memory traffic network[C]// 2019 IEEE/CVF I-nternational Conference on Computer Vision (ICCV). IEEE, 2019:3551-3560. DOI:10.1109/ICCV.2019.00365

[40]	Wu Z, Su L, Huang Q M. Cascaded partial decoder for fast and accurate salient object detection[C] IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019:3902-3911. DOI:10.1109/CVPR.2019.00403

[41]	Wang S D, Peppa M V, Xiao W, et al. A second-order attention network for glacial lake segmentat-ion from remotely sensed imagery[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 189:289-301. DOI:10.1016/j.isprsjprs.2022.05.007

[42]	Liu S T, Huang D, Wang Y H. Receptive field block net for accurate and fast object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018:404-419. DOI:https://doi.org/10.48550/arXiv.1711.07767

[43]	Chen L, Zhang H W, Xiao J, et al. SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017:6298-6306. DOI:10.1109/CVPR.2017.667

[44]	Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]. European Conferen-ce on Computer Vision. Cham: Springer, 2018:3-19. DOI:10.1007/978-3-030-01234-2_1

[45]	Fu J, Liu J, Tian H J, et al. Dual attention network for scene segmentation[C]. IEEE/CVF Confere-nce on Computer Vision and Pattern Recognition (CVPR, 2019:3141-3149. DOI:10.1109/CVPR.2019.00326

[46]	Ma N, Zhang X, Zheng H T, et al. ShuffleNet V2: Practical guidelines for efficient CNN architectu-re design[C]. Proceedings of the European conference on computer vision (ECCV), 2018:122-138. DOI:10.1007/978-3-030-01264-9_8

[47]	Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]. IEEE/CVF Conference on Computer Visi-on and Pattern Recognition, 2018:7132-7141. DOI:10.1109/CVPR.2018.00745

[48]	Zagoruyko S, Komodakis N. Paying more attention to attention: Improving the performance of conv-olutional neural networks via attention transfer[C]. International Conference on Learning Representati-ons (ICLR), 2017. DOI:10.48550/arXiv.1612.03928

[49]	张镱锂, 李炳元, 刘林山, 等. 再论青藏高原范围[J]. 地理研究, 2021, 40(6):1543-1553. DOI [Zhang Y L, Li B Y, Liu L S, et al. Redetermine the region and boundaries of Tibetan Plateau[J]. Geographical Research, 2021, 40(6):1543-1553.] DOI:10.11821/dlyj020210138

[50]	Zhang G Q, Luo W, Chen W F, et al. A robust but variable lake expansion on the Tibetan Plateau[J]. Science Bulletin, 2019, 64(18):1306-1309. DOI:https://doi.org/10.1016/j.scib.2019.07.018 PMID

[51]	Zhao H S, Shi J P, Qi X J, et al. Pyramid scene parsing network[C]. IEEE Conference on Comput-er Vision and Pattern Recognition (CVPR), 2017:6230-6239. DOI:10.1109/CVPR.2017.660

[52]	Shao Z F, Zhou W X, Deng X Q, et al. Multilabel remote sensing image retrieval based on fully convolutional network[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13:318-328. DOI:10.1109/JSTARS.2019.2961634

[53]	Zhang G Q, Yao T D, Xie H J, et al. Increased mass over the Tibetan Plateau: From Lakes or gla-ciers?[J]. Geophysical Research Letters, 2013, 40(10):2125-2130. DOI: 10.1002/grl.50462

[54]	Yang Z C, Duan S B, Dai X A, et al. Mapping of lakes in the Qinghai-Tibet Plateau from 2016 to 2021: Trend and potential regularity[J]. International Journal of Digital Earth, 2022, 15(1):1692-1714. DOI:10.1080/17538947.2022.2131008

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 研究方法

2.1 网络框架

2.2 混合注意力机制（Hybrid Attention Mechanism, HAM）

图1 混合注意力机制(HAM)

2.3 改进的HarDNet-MSEG

图2 HAM在HarDNet-MSEG中的不同位置

3 实验区概况与数据来源

3.1 实验区概况

图3 青藏高原研究区概况

3.2 数据集

表1 所获取影像的行列号

3.3 实验细节

表2 实验环境

4 实验结果与分析

4.1 消融实验

图4 不同模型的Loss、MIoU、 FWIoU和 PA变化曲线

表3 不同模型的训练结果

4.2 与其他注意力机制比较

4.3 与其他经典网络的对比

图5 不同分割算法提取结果

表4 不同语义分割网络的训练结果

4.4 与传统方法对比

表5 不同方法的水体提取结果

图6 不同方法提取结果对比

4.5 在其他数据集上的应用

表6 HarDNet-MSEG-HAM1在其他数据集上的提取精度

4.6 内流流域湖泊年际变化及分析

表7 4个时期内流流域的湖泊总面积

图7 2013—2022年青藏高原地区内流流域湖泊面积变化

5 讨论

6 结论

参考文献