Accurate Extraction of Artificial Pit-pond Integrating Edge Features and Semantic Information

  • YANG Xianzeng , 1 ,
  • ZHOU Ya'nan , 1, * ,
  • ZHANG Xin 2 ,
  • LI Rui 1 ,
  • YANG Dan 1
Expand
  • 1. College of Hydrology and Water Resources, Hohai University, Nanjing 211100, China
  • 2. State Key Laboratory of Remote Sensing Science, Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100101, China
*ZHOU Ya'nan, E-mail:

Received date: 2021-08-20

  Revised date: 2021-09-30

  Online published: 2022-06-25

Supported by

National Natural Science Foundation of China(42071316)

Fundamental Research Funds for the Central Universities(B200202008)

Open Foundation of Key Laboratory of National Geographic Census and Monitoring, Ministry of Natural Resources(2020NGCM03)

Chongqing agricultural industry digital map projec(21C00346)

Copyright

Copyright reserved © 2022

Abstract

High-resolution remote sensing images have more detailed spatial, geometric, and textural features, which provides useful visual description features such as spot position, shape, and texture, and reliable and abundant data sources for accurate extraction of spatial elements. However, traditional methods require the researchers to extract these features manually and have some limitation such as low positioning accuracy and rough edges. With the development of deep learning, it can extract typical elements such as water bodies, buildings, and roads from remote sensing images with higher accuracy and without the support of prior knowledge. The extracted element information can provide a data basis for innovative applications in urban and rural land resource actuarial calculation and planning, disaster risk assessment, and industrial output evaluation and estimation. However, traditional deep learning semantic segmentation methods focus more on the improvement of semantic segmentation accuracy in the extraction process of remote sensing elements and pay less attention to boundary accuracy. In view of the existing problems of deep learning methods in target extraction from high resolution remote sensing images, such as rough edge and much noise, a network model combined with edge and semantic features of targets was proposed to extract the artificial pit-pond. The improved U-Net semantic segmentation network was used to extract rich semantic information of targets in remote sensing images, which could be developed in edge structure and sub-network extraction, thus acquiring multi-scale edge features in remote sensing image. In this case, an encoding-decoding subnetwork combined with edge features and semantic information were applied to extract remote sensing image objects accurately. Meanwhile, the synchronous extraction of boundary information was also realized, and feature fusion and noise screening were realized through the encoding-decoding subnetwork. The proposed method was used to extract artificial pit-pond in a complicated background condition in Leizhou Peninsula. First, we designed labeled training and testing images for the experiment and performed data augmentation to increase the number of samples. Second, we provided a series of evaluation indicators for the extraction effect. Finally, we evaluated the performance of the model from multiple perspectives including semantic accuracy and boundary. Results show that the method proposed in this paper had the best performance in the evaluation, the F score and boundary F score reached 97.61% and 83.01%, respectively, which demonstrated the effectiveness of the fusion of high-level semantic information and low-level edge features in improving the accuracy of remote sensing target extraction.

Cite this article

YANG Xianzeng , ZHOU Ya'nan , ZHANG Xin , LI Rui , YANG Dan . Accurate Extraction of Artificial Pit-pond Integrating Edge Features and Semantic Information[J]. Journal of Geo-information Science, 2022 , 24(4) : 766 -779 . DOI: 10.12082/dqxxkx.2022.210489

1 引言

人工坑塘作为湿地的重要组成部分,是重要的生态基础设施,也是渔业养殖、水生种植业以及盐业的基础[1]。人工坑塘的提取研究属于大区域水体类型分布特征的一部分,能为生态环境保护、产业产量评估以及面源污染控制等领域应用提供决策支持。遥感技术飞速发展,高空间分辨率遥感影像(以下简称高分遥感影像)实现了对地球表面的精细表达,从遥感影像上自动提取地物要素并监测其变化,成为研究人工坑塘时空演变过程的重要手段。
传统高分遥感影像要素提取方法可以分为像元法和对象法。像元法以像元为处理单元,该法利用像元及其邻域的光谱特征确定像元的类别,实现地理要素的识别与提取;常用的方法包括极大似然法[2]、人工神经网络[3]、支持向量机[4]和随机森林[5]等。然而这类方法主要依靠影像光谱信息,尽管在中低分辨率遥感影像上取得了不错的分类效果;但却难以挖掘和利用高分影像丰富的空间、几何和纹理特征,提取效果有限。对象法以多尺度分割生成的对象为基本分析单元,人工设计诸如形状、纹理和空间关系等特征[6],能实现建筑物[7]、道路[8]、森林[9]、水体[10]等遥感要素的识别,成为高分遥感影像分析的主流方法。然而这种方法一方面严重依赖多尺度分割对象而难以构建端到端的自动化提取流程,另一方面人工构建特征难以挖掘和提取遥感场景的高层次语义信息导致难以推广应用。
针对高分遥感影像上坑塘提取任务,对象法是目前的主流方法。如张寅丹等[11]在基于影像的对象分析的基础上,使用监督分类与非监督分类方法实现了对于坑塘等典型土地覆被对象的提取。刘家福等[12]使用基于特征优选的随机森林模型,取得了滨海地区坑塘信息的良好提取效果。但以上研究均存在着上文所述对象法的传统弊端,且提取精度依旧存在着局限性。
近年来,深度学习(特别是卷积神经网络)凭借其强大的特征学习与挖掘能力,取得了远超其他算法的效果,成为高分遥感影像要素提取的研究热点[13],在道路[14,15]、建筑物[16,17]、水产养殖区[18]、海岸线[19]等提取中均取得良好的效果。为适应遥感影像场景复杂、目标多尺度、要素多样性等应用需求,研究人员设计了诸如深层编码器网络 (DE-Net)[16]、空洞卷积连接网络D-LinkNet[14]、混合扩容卷积U-Net (HDCUNet)[18]、SE-UNet[17]等网络模型,极大地提高了地物要素的提取精度。然而相比于自然图像分析,遥感应用对地物目标(边界)定位精度具有更高的要求。为此,研究人员尝试结合深度学习边缘检测的最新进展[20,21],从边缘检测的角度去提取遥感地物的精细边缘。如李森等[22]使用膨胀卷积对RCF下采样进行改良应用于耕地边缘的提取,取得了较Canny算子等传统方法更优的效果,但是受地物本身边缘特征的影响,这种方法所提取的边缘往往会出现断点、断区现象,实用性较低。另一方面,多任务网络在遥感要素提取上的应用则为解决遥感要素精细提取的问题提供了新的思路。Diakogiannis等[23]在U-Net基础网络之上附加了范围掩码、边界、距离掩码3个输出任务,并对多个数据进行封闭边界后处理,实现建筑等要素的精细提取。Yuan等[24]在语义分割网络编码器组件的前两层外外接边缘检测子网络,将云分割与云检测任务相结合,实现半透明云层的精确检测。Cheng等[25]在常规语义分割网络上附加边缘检测网络,并融合语义与边缘2种信息实现网络边缘的正则化,实现水岸与舰船的精细分割,但使用的只是高层次边缘特征且融合过程本身是不可学习。
尽管这些研究都能实现对于高分遥感影像要素的精准提取,但在精度和网络结构上依旧存在着局限性:① 在网络结构上,现有的要素提取网络结构基本是在成熟的网络框架上进行结合计算机图像处理现有成果上的小范围的改良与改进,很少针对遥感地物本身的特性进行网络设计;② 在提取精度上,现有的研究几乎都着重于语义分割精度的提升,对于边界提取精度的关注较少,且提取效果中误分类现象与噪声较多。
遥感影像相对于自然图像,普遍存在以下特征:① 纹理复杂度差异大:不同的地物具有不同的纹理复杂度表现,如耕地等受地形特征与水热条件等影响造成种植作物不同,存在复杂的纹理信息空间异质性[26]。而水体间通常呈现出相似的纹理特征,这也为对于水体大类下的进一步类型提取(如坑塘)造成了困难;② 空间结构多样性:同一地物的空间结构也存在着多样性,以建筑为例,从几十平米的小型建筑到上百万平方米的巨型单体建筑,从规则的矩形建筑到不规则的特殊形状建筑,这些都为要素的精准提取带来了困难与挑战[27];③ 边界精度需求高:进行地理要素提取生产的目的(如产量预估、变化检测等)包含着对于面积、定位等精准提取与计算的需求[28],而精确的边界提取效果正是实现这一需求的必要条件。
针对上述高分遥感影像中人工坑塘等地理要素精准提取的问题,结合Gated-SCNN[29]中提出的常规+形状+融合的多任务网络思路,本文提出一种融合边缘特征与语义信息的多任务深度学习网络模型(Multi-task CNN Network Incorporating Edge Features and Semantic Information,ES-Net):首先改良语义分割常规结构以扩大感受野获取多样性的空间结构特征;其次设计深层边缘检测模块以同步提取不同层次的边界形状信息;最后用特征融合模块进行语义信息与边缘特征的融合、互监督,提高网络对于边缘细节的学习能力、增强网络对于遥感要素提取噪声的筛选作用,实现对于人工坑塘的精准提取。
相较于传统方法,本文所提出的方法模型一方面继承了传统深度学习方法的优点,克服了传统方法在遥感要素提取上的局限性,实现了要素的高度自动化与高精度提取;另一方面在传统深度学习方法中顾及遥感地物本身特征,通过语义信息与边缘特征的融合、互监督,进一步提高了提取精度。

2 ES-Net网络模型

本文提出了一种融合边缘特征与语义信息的多任务深度学习网络模型,如图1所示。模型整体包括3个模块:语义分割模块(Semantic Block, SB)、边缘检测模块(Edge Block, EB)以及特征融合模块(Fusion Block, FB)。其中SB模块用以训练获取输入要素的语义信息;EB模块与语义分割模块共享下采样及中间层,并同步训练获取边缘特征;FB模块以前二者的输出为输入,进行语义信息与边缘特征的融合训练,最终输出要素提取的语义级分割结果。3个模块共同组成ES-Net网络,在训练过程中实现端到端的并行训练。
图1 ES-Net网络结构示意

Fig. 1 ES-Net network structure diagram

2.1 语义分割模块

遥感影像上的人工坑塘具有与其他水体极为相近的光谱特征,但其形态多呈现为规则的小块分布、并夹杂较细的中间边界(塘埂),其提取难点在于与其他相似水体的区分、以及中间细边界的准确提取与划分。为此,本文在U-Net网络[30]对称结构的基础上,引入D-LinkNet[14]模型的中间层(图2),以扩大感受野的同时获取地物更多尺度的特征,构建ES-Net的SB模块(图3)。相比于传统U-Net网络结构,更大的感受野用于获取面积更大的湖泊、海洋以及长度更长甚至贯穿整个样本的河流、沟渠等其他水体的空间信息特征,从而与目标要素坑塘进行形态与空间分布特征上的区分。
图2 语义分割模块中间层结构

Fig. 2 The middle structure of semantic block

图3 语义分割模块

Fig. 3 Semantic Block

SB模块的下采样部分通过传统卷积神经网络的卷积池化组件提取不同空间尺度的特征,其中的卷积池化组件包括2个卷积模块(包括一个3×3的卷积层,批归一化(BN)层,以及ReLU激活函数层)以及1个池化层,初始卷积层宽度为32(图2)。上采样部分采用下采样部分的对称结构,在上采样的过程中与下采样的相同层级模块进行特征拼接形成更厚的特征并进行卷积融合,减少由于采样过程造成的信息损失。
SB模块的中间层由卷积模块(包括一个3×3的卷积层,批归一化(BN)层,以及ReLU激活函数层)与膨胀率为分别为2、4、8的膨胀卷积模块(包括一个3×3的卷积层,ReLU激活函数层)的串联结构与并联结构共同组成。每条并联路径由不同数量的膨胀卷积模块叠加而成,并联结构下每条路径的感受野都不同,分别为31、15、7、3。因此确保了网络结合了不同尺度的信息,其最大感受野可以获取全局语义信息。

2.2 边缘检测模块

语义分割中的下采样操作将不可避免地造成影像场景细节信息的丢失,进而造成边界附近要素的误分类,表现为分割边界模糊、不连续等问题。这种现象在具有较小间距的细边界且边界模糊的人工坑塘提取中表现尤为明显。为此,在SB模块的基础上扩展EB模块,如图4所示。其设计机制来源于RCF[20]和BDCN[21]等主流边缘检测网络,即通过卷积层获取不同层级的边缘特征后进行多尺度融合。EB模块外接于SB模块的编码层与中间层之外,与其共享卷积层。在网络训练过程中通过提取样本最外侧像素组成边界样本,带入EB模块并构建语义分割网络与边缘提取网络的协同训练。
图4 边缘检测模块

Fig. 4 Edge block

EB模块从SB网络的下采样结构的5个层级外拓展了一个边缘提取网络。首先,通过共享的卷积模块(图2所示Encoder1-4中每层级的2个卷积模块与Mid-Block中的3个膨胀卷积模块)提取出不同尺度的特征信息,经过1×1的卷积操作将其特征通道统一压缩;然后,对每一层级的不同模块的特征进行逐像元相加的特征融合,并通过1×1卷积操作将其压缩到一个通道中;接着,将不同层的特征信息通过转置卷积扩展成原特征图像的大小,以恢复相同尺度;最后,将5个层级的特征信息进行特征拼接,经由通道压缩至输出维度,并利用SigMoid层将其转化为0到1的坑塘类别概率,得到提取结果。

2.3 特征融合模块

将SB模块与EB模块进行协同训练,一方面,通过共享卷积层参数的边缘检测网络为语义分割边界的调整提供了互补的线索,另一方面,可利用边缘检测的结果来修正语义分割边界。为此,本文在SB模块EB与模块的基础上,构建边缘特征与语义信息融合的FB模块(图5)。首先,通过语义信息与边缘特征的结合验证,剔除一些可疑的噪声区域,这种区域通常在语义信息或者边缘信息上有一定缺失,如语义分割的噪声区域缺少相对应的边界特征。其次,通过边缘特征实现语义分割过程中边界的调整,包括对间距过近的边界互溶问题进行重整,以及边界混乱区域的边界再划分。
图5 特征融合模块

Fig. 5 Fusion block

FB模块采用经典的编码-解码器网络结构,其初始卷积层宽度为32(图5)。FB模块的编码器以SB模块与EB模块的输出为输入,首先通过特征拼接构建一个“虚拟”的输入影像,然后进行两次卷积、池化组件的特征提取,最后使用膨胀率为2的两层膨胀卷积模块代替卷积池化操作,扩大感受野的同时降低后续池化过程将会造成的信息损失。解码器通过对称的上采样结构将特征图像还原到原图像大小,使用1×1的卷积层将其进行通道压缩后,经由SigMoid函数映射完成输出。

2.4 损失函数

借鉴多任务学习的思想[29],结合3个模块的预测损失,研究定义最终的损失函数为:
L = L s + L e + L f
式中: L s为SB模块的损失; L e为EB模块的损失; L f为FB模块的损失。
正负样本均衡的二分类语义分割问题,通常采用交叉熵损失函数。但在正负样本比例不均衡的情况下,交叉熵损失会更侧重于识别更高样本比例的类别,从而造成低样本比例类别的忽视。本文实验所使用的样本总体正负比例约为1:4,且存在较多的正负比例悬殊的样本个体(部分纯噪声样本),为了减轻样本不均衡问题对实验结果的影响,实验选用Dice损失函数[31]作为SB模块与FB模块的损失函数,其定义如式(2)所示。
L 1 = 1 - 2 n = 1 N p n × l n n = 1 N p n + n = 1 N l n
式中:N为单个样本的像元总数; P n为像元预测类别; l n为像元样本标签类别; L 1为SB模块与FB模块的损失。
对于EB模块,实验引用了RCF[18]中所使用的带有权重的交叉熵损失函数,如式(3)所示,通过自适应权重的调整,解决边界检测问题中普遍存在的样本不均匀问题。
L 2 = 1 N - n = 1 N ( λ × Y + Y + + Y - y ' n log y n + Y - Y + + Y - ( 1 - y ' n ) log ( 1 - y n ) )
式中:N为单个样本的像元总数; y ' n为边界样本标签类别; y n为像元预测类别; Y + Y -为样本中正样本像元与负样本像元的数量; λ为平衡正负样本数量的权重系数,本文采用参考文献[19]推荐值1.1。 L 2为EB模块的损失。

2.5 评价指标

本文选用语义分割精度与边界精度2个方面共计10个评价指标,分析和验证ES-Net的有效性,评价指标如表1所示。
表1 提取结果评价指标

Tab. 1 Evaluation index for extraction result

语义精度 边缘精度
非松弛边界 松弛边界
正确率Precision(P) 边界正确率Boundary Precision (BP) 松弛边界正确率Relax Boundary Precision (RBP)
召回率Recall(R) 边界召回率Boundary Recall (BR) 松弛边界召回率Relax Boundary Recall (RBR)
F分数F-Score(F1) 边界F分数Boundary F-Score (Fb) 松弛边界F分数Relax Boundary F-Score (RFb)
交并比Intersection over Union (IoU) - -
本文方法的输入样本是归一化二值图,正例为1、负例为0。输出结果是0~1之间的概率值,首先选用分割阈值0.5将其划分为负类别(小于阈值)与正类别(大于阈值),然后对比输入样本与输出结果。选用正确率P、召回率RF分数F1以及交并比IoU评价指标(式(4)—式(7)),评价语义分割精度。
Precision = TP TP + FP
Recall = TP TP + FN
F 1 = 2 × Precision × Recall Precision + Recall
IoU = TP TP + FP + FN
式中: TP为真正例,表示正确分类的正例样本数目; FN为假反例,表示错误分类的正例样本数目; FP为假正例,表示错误分类的负例样本数目; TN为真反例,表示正确分类的负例样本数目。本实验中,人工坑塘像素为正例,其他的背景像素为负例。
提取输出正类别目标的最外层像元为目标边界,选用边界正确率BP、边界召回率BR以及边界F分数Fb评价指标(式(8)—式(10)),评价边缘精度。
BP = 正确分类的边界像元数 分类结果中的边界像元总数
BR = 正确分类的边界像元数 标签中的边界像元总数
F b = 2 × BP × BR BP + BR
同时建立边界像元的松弛等值点,生成目标松弛边界并带入边界指标进行精度判定,即预测的边界像元如果存在于真实边界像元的八邻域之间,则认为该边界像元分类正确。

3 结果与分析

3.1 研究区与数据集

研究区位于雷州半岛的徐闻县(图6),实验选用1 m分辨率的遥感影像(GoogleMap17级RGB 影像)来实现研究区人工坑塘的提取,影像大小 34 239像元×23 291像元。人工构建400像元×400像元大小的训练样本470对,并采用5-fold样本划分方式确定训练数据集与验证数据集。同时为了保证模型训练样本的数量,实验采用包括不同角度的旋转以及水平与垂直方向的翻转的数据增强方法,最终得到14 100对用于模型训练的训练数据。
图6 研究区及采样分布

Fig. 6 Study area and sample distribution

3.2 实验过程

实验在网络训练过程中设置初始学习率为0.001,并在训练过程中使用带L2正则化的自适应Adam优化器进行优化,以测试集损失为监控对象,学习率下降周期为5个Epoch,衰减系数为0.1。训练时批大小为8,使用高斯初始化方法对权重进行初始化,共设置了100个Epoch,训练与验证集比例为4:1。实验在47个Epoch时网络基本收敛,测试集取得最低损失,故在此处使用早停策略(Early Stopping,避免过拟合的常用方法之一,在学习率已达下限的情况下,当模型在验证集上的损失表现不再下降的若干批次后停止训练)获取保存模型参数。本实验通过PyTorch框架实现,使用英伟达 GeForce GTX 1660Ti显卡进行训练。

3.3 实验结果对比与分析

模型在测试集上的提取效果如图7所示,实验同时将SB模块、EB模块、FB模块的中间结果输出,以验证FB模块的有效性。通过对黄框区域的细节对比可以看出针对SB模块输出中出现的边界模糊、噪声等问题,通过FB模块的边界调整与噪声筛选作用,均得到了可视层次的结果改善。
图7 各模块输出与效果对比

注:第1行为对噪声问题改善的模块可视化结果,第2行为对边界模糊问题改善的模块可视化结果。

Fig. 7 Comparison of output and effect of each module

实验选用经典的深度卷积神经网络U-Net[30]、DeepLabV3+[32]、D-LinkNet[14]为对比方法,从定性与定量2个方面评价本文方法的性能。图8图9展示了4种网络模型在不同影像场景下的提取效果,其中红色为坑塘误分类区域、蓝色为坑塘漏提取区域、绿色为正确提取的坑塘区域。图8中的黄框为重点对比区域。在河流沿岸的人工坑塘区域(图8第1行)中,U-Net、DeepLabV3+、D-LinkNet都错误分类了河流部分区域以及疑似区域,而ES-Net则较好地区分了人工坑塘与河流等疑似区域,取得了更高的提取精度。当坑塘之间的边界间距非常小时(图8第2行与第6行,第2行的局部细节见图9第1行),对比方法几乎无法分割出坑塘的精细边界,而ES-Net则实现了精细边界的分割。当少量坑塘废弃转变为杂草地时(图8第3行,局部细节见图9第2行), 3种方法均出现了不同程度的误分类,且均未识别出坑塘间的精细边界,ES-Net取得了更优的提取效果。在坑塘密集分布区域(图8第4行),所有方法都取得了较好的提取效果,且ES-Net与DeepLabV3+实现了最少的错分类与更精细的边界提取效果。在海岸带人工坑塘区域(图8第5行),U-Net产生了海域近岸区域的误分类,DeepLabV3+产生了海域离岸区域的误分类,D-LinkNet错误分类了沟渠,ES-Net则取得了更好的提取效果。
图8 人工坑塘提取效果对比

Fig. 8 Comparison of extraction results of artificial pit-ponds

图9 人工坑塘提取结果边界对比

注:第1行为图8第2行的局部细节展示,第2行为图8第4行的局部细节展示。

Fig. 9 Comparison of boundary of extracted artificial ponds

总体上看,4种方法均实现了对绝大部分坑塘的提取。但在图8图9的边界细节上,传统语义分割网络对精细边界的提取以及对相似地物的区分上较为粗糙,未能实现对人工坑塘精细边界的提取与相邻边界的区分,造成人工坑塘要素连片现象;而ES-Net网络在相似地物区分以及精细边界提取上均取得了最优的效果。分析其原因可能是,高分遥感影像中的人工坑塘易与其光谱相近的河流、湖泊、海域等水体的相混淆,且这些干扰地物往往具有更大的空间分布,也需要更大感受野去提取,进而导致了地物边界的模糊与难以区分;而ES-Net网络在特征融合过程中,实现了低层边缘特征与高层语义信息的融合监督,在过滤掉地物噪声的同时提高了精细边界的识别精度。
为验证所提出FB模块的效果,实验设计了舍弃FB模块的网络ES-Net*进行方法自对比,对比效果如图10所示。实验表明FB模块的加入进一步改善了噪声与边界问题(黄框区域)。
图10 ES-Net*与ES-Net提取效果对比

注:第1行为边界问题的改善可视化结果,第2行为噪声问题的改善可视化结果。

Fig. 10 Comparison of ES-Net* and ES-Net Extraction Effect

为进一步定量评价实验结果,实验选用2.5小节所述评价指标从语义分割精度与边界提取精度等两个方面综合对比评价ES-Net方法的效果。从语义分割的角度分析,实验使用正确率P、召回率R、F分数F1以及交并比IoU等指标进行方法的定量比较,结果如表2所示,其中最优值用红色加粗字体标出,次优值用蓝色字体标出。
表2 融合提取结果语义精度评价指标对比

Tab. 2 Comparison of evaluation indexes of semantic accuracy of extraction results

网络模型 精确度(P) 召回率(R) F分数(F1) 交并比(IoU)
U-Net 0.9501 0.9516 0.9507 0.9334
DeepLabV3+ 0.9632 0.9640 0.9635 0.9360
D-LinkNet 0.9725 0.9530 0.9626 0.9371
ES-Net* 0.9707 0.9652 0.9679 0.9379
ES-Net 0.9775 0.9748 0.9761 0.9534

注:最优值用红色加粗字体标出,次优值用蓝色加粗字体标出。

从边界提取的角度分析,实验使用边界正确率BP、松弛边界正确率RBP、边界召回率BR、松弛边界召回率RBR、边界F分数Fb以及松弛边界F分数RFb等指标进行方法边缘精度的比较,结果如表3所示,其中最优值用红色加粗字体标出,次优值用蓝色字体标出表2中DeepLabV3+使用空间金字塔结构进行深层次多尺度特征的获取手段,扩大了模型的感受野;D-LinkNet在空间金字塔的基础上采用串并联膨胀卷积的中间层模块,融合不同膨胀率下的多尺度特征,在精准度P上取得了次优值效果。这两种模型在各项指标上的表现均优于没有类似感受野扩充手段的U-Net,这说明了大感受野对于本文任务需求的重要性,故本文的SB模块使用了 D-LinkNet的中间层结构作为感受野扩充手段。但在表3中,U-Net却依旧在边界召回率BR、边界F分数F1等指标上取得了不输于二者的边界精度,这证明了U-Net的特征拼接结构对于边缘特征提取的重要性,故ES-Net在设计时优先参考了此结构。ES-Net在语义与边缘各项指标上均取得最优的结果,与次优方法对比,在交并比IoU上领先D-LinkNet方法约1.63%,在F分数F1上领先DeepLabV3+约1.26%,在边界F分数Fb与松弛边界F分数RFb上领先D-LinkNet约2.4%和1.81%,领先DeepLabV3+约2.57%和1.52%,这进一步证明了本文模型的有效性。同时,作为验证FB模块效果的ES-Net*,也在F分数F1与边界F分数Fb上均优于其他对比网络,证明了EB模块对语义分割边界的调整作用;另一方面ES-Net*与ES-Net精度的明显差距也证明了FB模块的必要性与有效性。但同时需要指出,此类方法在样本过少时会出现过拟合效果,而随着高质量样本数量的增加,提取效果会有进一步的上升空间,这也体现了此类深度学习方法受数据驱动的特性与不足。
表3 提取结果边缘精度评价指标对比

Tab. 3 Comparison of evaluation indexes of edge accuracy of extraction results

网络模型 边界正确率 边界召回率 边界F分数
BP RBP BR RBR Fb RFb
U-Net 0.8040 0.8440 0.8077 0.8477 0.8058 0.8459
DeepLabV3+ 0.8079 0.8501 0.8011 0.8491 0.8044 0.8495
D-LinkNet 0.8071 0.8469 0.8051 0.8462 0.8061 0.8466
ES-Net* 0.8170 0.8552 0.7978 0.8377 0.8073 0.8464
ES-Net 0.8300 0.8646 0.8301 0.8649 0.8301 0.8647

注:最优值用红色加粗字体标出,次优值用蓝色加粗字体标出。

3.4 模型应用

为验证模型的实用性与普适性,选取位于研究区外的南昌县向塘镇作为模型应用区域,区域应用效果如图11所示。效果表明,模型可以精确提取出坑塘密集区域的精细边界(图11中的a区、b区),并且对河流水体等干扰噪声有着良好的筛选作用(11中的c区、d区)。
图11 模型区域应用效果

Fig. 11 Regional application effect of the model

区域应用效果表明ES-Net在针对人工坑塘提取任务时具有良好的实用性与普适性,在研究取样区域内外均可以取得良好的提取应用效果。但同时也应当指出,地物的特征存在着一定的空间异质性与时间差异性,所以在实际应用中应当采集丰富的实验区域样本作为主要样本,而异地模型可以作为预模型加载使用。

4 结论

本文提出了一种融合边缘特征与语义信息的多任务深度卷积神经网络模型;在传统语义分割网络上外接EB模块,实现语义信息与边缘特征的同步训练;并利用FB模块实现语义与边缘监督融合,提高了高分遥感影像中人工坑塘的提取效果。与当前多种网络方法进行对比,得出以下结论:
(1) 本文ES-Net同步训练语义信息与边缘特征,为语义分割结果的优化提供了互补的线索,在获取语义与边缘特征的同时提高了结果精度。未加装FB模块的ES-Net*较本文引用的U-Net、DeepLabV3+、以及D-LinkNet取得了更优的提取效果,在F分数与边界F分数等指标上分别领先次优方法1.26%与2.4%。
(2)本文ES-Net利用FB模块进行边缘与语义的融合监督,大大减少了人工坑塘提取中错误分类,且提高了边缘的定位精度;语义精度与边缘精度均取得了最好的效果,在F分数与边界F分数上分别取得了0.82%与2.28%的优化效果。
本文选用人工坑塘为识别目标,进一步的工作将尝试将ES-Net网络应用于多分辨率遥感影像上耕地、建筑与道路等其他遥感影像要素的识别与提取任务,同时扩充样本数量与质量,进一步提高遥感场景要素的智能化提取水平。同时我们也期待对应任务的开源数据集的出现,以进一步验证本文的有效性与优越性。
[1]
齐永菊, 裴亮, 雷济升. 基于GF-1的坑塘信息精确提取方法研究[J]. 测绘与空间地理信息, 2017, 40(3):145-148.

[ QI Y J, PEI L, LEI J S. Study on extraction of pond information accurately based on GF-1[J]. Geomatics & Spatial Information Technology, 2017, 40(3):145-148. ] DOI: 10.3969/j.issn.1672-5867.2017.03.042

DOI

[2]
Julien B, Huber C, Studer M, Lei C, Kunpeng Y, Yésou H. Water resource monitoring exploiting sentinel-2 satellite and sentinel-2 satellite like time series; application in yangtze river water bodies[J]. Journal of Geodesy and Geoinformation Science, 2020, 3(4):41-49. DOI: 10.11947/j.JGGS.2020.0404

DOI

[3]
Ayehu G, Tadesse T, Gessesse B, et al. Combined use of sentinel-1 SAR and landsat sensors products for residual soil moisture retrieval over agricultural fields in the upper blue nile basin, ethiopia[J]. Sensors, 2020, 20(11):3282. DOI: 10.3390/s20113282

DOI

[4]
杜培军, 王欣, 蒙亚平, 等. 面向地理国情监测的变化检测与地表覆盖信息更新方法[J]. 地球信息科学学报, 2020, 22(4):857-866.

DOI

[ Du P J, Wang X, Meng Y P, et al. Effective change detection approaches for geographic national condition monitoring and land cover map updating[J]. Journal of Geo-information Science, 2020, 22(4):857-866. ] DOI: CNKI:SUN:DQXX.0.2020-04-022

DOI

[5]
Zhou Y N, Chen Y H, Feng L, et al. Supervised and adaptive feature weighting for object-based classification on satellite Images[J]. IEEE Journal of Selected Topics in Applied Earth Observations & Remote Sensing, 2018:1-11. DOI: 10.1109/JSTARS.2018.2851753

DOI

[6]
Zhang X, MING D P, Zhou W, et al. Cropland extraction based on OBIA and adaptive scale pre-estimation[J]. Photogrammetric Engineering & Remote Sensing, 2016, 82(8):635-644. DOI: 10.14358/PERS.82.8.635

DOI

[7]
郭峰, 毛政元, 邹为彬, 等. 融合LiDAR数据与高分影像特征信息的建筑物提取方法[J]. 地球信息科学学报, 2020, 22(8):1654-1665.

[ Guo F, Mao Z Y, Bing W B, et al. A method for building extraction by fusing feature information from LIDAR data and high-resolution imagery[J] Journal of Geo-information Science, 2020, 22(8):1654-1665. ] DOI: 10.12082/dqxxkx.2020.190459

DOI

[8]
曹云刚, 王志盼, 慎利, 等. 像元与对象特征融合的高分辨率遥感影像道路中心线提取[J]. 测绘学报, 2016, 45(10):1231-1240+1249

[ Cao Y G, Wang Z P, Shen L, et al. Fusion of pixel-based and object-based features for road centerline extraction from high-resolution satellite imagery[J] Acta Geodaetica et Cartographica Sinica, 2016, 45(10):1231-1240+1249.] DOI: 10.11947/j.AGCS.2016.20160158

DOI

[9]
王猛, 张新长, 王家耀, 等. 结合随机森林面向对象的森林资源分类[J]. 测绘学报, 2020, 49(2):235-244.

[ Wang M, Zhang X C, Wang J Y, et al. Forest resource classification based on random forest and object oriented method[J]. Acta Geodaetica et Cartographica Sinica, 2020, 49(2):235-244. ] DOI: CNKI:SUN:CHXB.0.2020-02-011

DOI

[10]
陈生, 王宏, 沈占锋, 等. 面向对象的高分辨率遥感影像桥梁提取研究[J]. 中国图象图形学报, 2009, 14(4):585-590.

[ Chen S, Wang H, Shen Z F, et al. Study on object-oriented extracting bridges from high resolution remote sensing image[J]. Journal of Image and Graphics, 2009, 14(4):585-590. ] DOI: 10.11834/jig.20090404

DOI

[11]
娄艺涵, 张力小, 潘骁骏, 等. 1984年以来8个时期杭州主城区西部湿地格局研究[J]. 湿地科学, 2021, 19(2):247-254.

[ Lou Y H, Zhang L X, Pan X J, et al. Pattern of wetlands in the west of main city zone of hangzhou for 8 periods since 1984[J]. Wetland Science, 2021, 19(2):247-254. ] DOI: 10.13248/j.cnki.wetlandsci.2021.02.013

DOI

[12]
张寅丹, 王苗苗, 陆海霞, 等. 基于监督与非监督分割评价方法提取高分辨率遥感影像特定目标地物的对比研究[J]. 地球信息科学学报, 2019, 21(9):1430-1443.

DOI

[ Zhang Y D, Wang M M, Lu H X, et al. Comparing supervised and unsupervised segmentation evaluation methods for extracting specific land cover from high-resolution remote sensing imagery[J]. 2019, 21(9):1430-1443. ] DOI: CNKI:SUN:DQXX.0.2019-09-014

DOI

[13]
刘扬, 付征叶, 郑逢斌. 高分辨率遥感影像目标分类与识别研究进展[J]. 地球信息科学学报, 2015, 17(9):1080-1091.

DOI

[ Liu Y, Fu Z Y, Zhen F B. Review on high resolution remote sensing image classification and recognition[J]. Journal of Geo-information Science, 2015, 17(9):1080-1091. ] DOI: 10.3724/SP.J.1047.2015.01080

DOI

[14]
Zhou L C, Zhang C, Wu M. D-linknet: Linknet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, Salt Lake City, UT, 2018. DOI: 10.1109/CVPRW.2018.00034

DOI

[15]
He H, Wang S, Wang S C, et al. A road extraction method for remote sensing image based on encoder decoder network[J]. Journal of Geodesy and Geoinformation Science, 2020, 3(2):16-25. DOI: 10.11947/j.JGGS.2020.0202

DOI

[16]
Liu H, Luo J C, Huang B, et al. DE-Net: deep encoding network for building extraction from high-resolution remote sensing imagery[J]. Remote Sensing, 2019, 11(20):2380. DOI: 10.3390/rs11202380

DOI

[17]
刘浩, 骆剑承, 黄波, 等. 基于特征压缩激活SE-Net网络的建筑物提取[J]. 地球信息科学学报, 2019, 21(11):1779-1789.

DOI

[ Liu H, Luo J C, Huang B, et al. Building extraction based on se-unet[J]. Journal of Geo-information Science, 2019, 21(11):1779-1789. ] DOI: CNKI:SUN:DQXX.0.2019-11-012

DOI

[18]
Cheng B, Liang C B, Liu Y M, et al. Research on a novel extraction method using deep learning based on GF-2 images for aquaculture areas[J]. International Journal of Remote Sensing, 2020, 41(9):3575-3591. DOI: 10.1080/01431161.2019.1706009

DOI

[19]
Li R R, Liu W J, Yang L, et al. Deepunet: A deep fully convolutional network for pixel-level sea-land segmentation[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(11):3954-3962. DOI: 10.1109/JSTARS.2018.2833382

DOI

[20]
Liu Y, Cheng M M, Hu X W, et al. Richer convolutional features for edge detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Hunolulu, HI, 2017. DOI: 10.1109/TPAMI.2018.2878849

DOI

[21]
He J Z, Zhang S L, Yang M, et al. Bi-directional cascade network for perceptual edge detection[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), Long Beach, USA, 2019. DOI: 10.1109/TPAMI.2020.3007074

DOI

[22]
李森, 彭玲, 胡媛, 等. 基于FD-RCF的高分辨率遥感影像耕地边缘检测[J]. 中国科学院大学学报, 2020, 37(4):483-489

[ Li S, Peng L, Hu Y, et al. FD-RCF-based boundary delineation of agricultural fields in high resolution remote sensing images[J]. Journal of University of Chinese Academy of Sciences, 2020, 37(4):483-489. ] DOI: 10.7523/j.issn.2095-6134.2020.04.007

DOI

[23]
Diakogiannis F I, Waldner F, Caccetta P, et al. Resunet-a: a deep learning framework for semantic segmentation of remotely sensed data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 162:94-114. DOI: 10.1016/j.isprsjprs.2020.01.013

DOI

[24]
Yuan K, Meng G F, Cheng D C, et al. Efficient cloud detection in remote sensing images using edge-aware segmentation network and easy-to-hard training strategy[C]. 2017 IEEE International Conference on Image Processing (ICIP), Beijing, China, 2017. DOI: 10.1109/ICIP.2017.8296243

DOI

[25]
Cheng D C, Meng G F, Xiang S M, et al. Fusionnet: Edge aware deep convolutional networks for semantic segmentation of remote sensing harbor images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(12):5769-5783. DOI: 10.1109/JSTARS.2017.2747599

DOI

[26]
刘巍, 吴志峰, 骆剑承 等. 深度学习支持下的丘陵山区耕地高分辨率遥感信息分区分层提取方法[J]. 测绘学报, 2021, 50(1):105-116.

[ Liu W, Wu Z F, Luo J C, et al. A divided and stratified extraction method of high-resolution remote sensing information for cropland in hilly and mountainous areas based on deep learning[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(1):105-116. ] DOI: 10.11947/j.AGCS.2021.20190448.

DOI

[27]
Zuo T C, Feng J T, Chen X J. HF-FCN: Hierarchically fused fully convolutional network for robust building extraction[C]. Asian Conference on Computer Vision, Taipei, China, 2016. DOI: 10.1007/978-3-319-54181-5_19

DOI

[28]
Liu W, Dong J, Xiang K L, et al. A sub-pixel method for estimating planting fraction of paddy rice in Northeast China[J]. Remote Sensing of Environment, 2018, 205:305-314. DOI: 10.1016/j.rse.2017.12.001

DOI

[29]
Takikawa T, Acuna D, Jampani V, et al. Gated-scnn: Gated shape cnns for semantic segmentation[C]. Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV), Seoul, Korea, 2019. DOI: 10.1109/ICCV.2019.00533

DOI

[30]
Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]. International Conference on Medical Image Computing and Computer-assisted Intervention, Munich, Germany, 2015:234-241. DOI: 10.1007/978-3-319-24574-4_28

DOI

[31]
Li X Y, Sun X F, Meng Y X, et al. Dice Loss for Data-imbalanced NLP Tasks[J]. arXiv preprint arXiv:1911.02855, 2019

[32]
Chen L C, Zhu Y, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]. Proceedings of the European Conference on Computer Vision (ECCV), Munich, Germany, 2018. DOI: 10.1007/978-3-030-01234-2_49

DOI

[33]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition(CVPR), Las Vegas, CA, 2016. DOI: 10.1016/j.patcog.2021.107817

DOI

Outlines

/