遥感科学与应用技术

多分支双任务的多模态遥感影像道路提取方法

  • 林雨准 , 1 ,
  • 金飞 , 1, * ,
  • 王淑香 1 ,
  • 左溪冰 1 ,
  • 戴林鑫杰 2 ,
  • 黄子恒 1
展开
  • 1.信息工程大学 地理空间信息学院,郑州 450001
  • 2.温州大学 计算机与人工智能学院,温州 325035
*金 飞(1984— ),男,河南临颍人,博士,副教授,主要从事遥感图像智能解译研究。E-mail:

林雨准(1993— ),男,浙江衢州人,博士生,讲师,主要从事遥感图像智能解译研究。E-mail:

收稿日期: 2024-02-10

  修回日期: 2024-04-03

  网络出版日期: 2024-05-24

基金资助

国家自然科学基金项目(42301464)

Multi-branch and Dual-task Method for Road Extraction from Multimodal Remote Sensing Images

  • LIN Yuzhun , 1 ,
  • JIN Fei , 1, * ,
  • WANG Shuxiang 1 ,
  • ZUO Xibing 1 ,
  • DAI Linxinjie 2 ,
  • HUANG Ziheng 1
Expand
  • 1. Institute of Geospatial Information, Information Engineering University, Zhengzhou 450001, China
  • 2. College of Computer Science and Artificial Intelligence, Wenzhou University, Wenzhou 325035, China
*JIN Fei, E-mail:

Received date: 2024-02-10

  Revised date: 2024-04-03

  Online published: 2024-05-24

Supported by

National Natural Science Foundation of China(42301464)

摘要

光学影像和SAR影像具有丰富的互补属性,有效的融合策略可为地物解译提供夯实的信息基础。道路作为条状地物,其拓扑结构、分布规律和应用场景往往会对解译效果带来挑战。基于此,本文提出一种多分支双任务的多模态遥感影像道路提取方法。首先,构建结构相同但参数独立的编码—解码网络分别对光学和SAR影像进行特征提取,并利用道路表面分割标签监督训练;其次,引入SAR影像的编码层特征进行道路边缘检测,并将其中间特征输入至SAR影像的解码层特征,从而优化道路与背景的切割效果;最后,利用设计的通道—条状空间注意力(Channel Attention-Strip Spatial Attention, CA-SSA)充分融合光学影像和SAR影像的浅层和深层特征,从而预测最终的道路提取结果。为验证本文方法的有效性,利用Dongying数据集进行实验,在定量精度评价指标中,本文方法的IoU相比单模态对比方法至少提升1.04%,相比多模态对比方法至少提升1.95%;在定性效果分析中,本文方法在道路交叉口以及低等级道路等重难点区域具有明显优势。此外,在光学影像受云雾影响时,本文方法的道路提取效果最佳。

本文引用格式

林雨准 , 金飞 , 王淑香 , 左溪冰 , 戴林鑫杰 , 黄子恒 . 多分支双任务的多模态遥感影像道路提取方法[J]. 地球信息科学学报, 2024 , 26(6) : 1547 -1561 . DOI: 10.12082/dqxxkx.2024.240101

Abstract

Optical images and SAR images have rich complementary attributes, and an effective data fusion strategy can provide a solid information base for objects interpretation. Roads, as strip features, their topology, distribution patterns, and application scenarios often pose challenges to the interpretation results. Based on this, this paper proposes a multi-branch and dual-task method for road extraction from multimodal remote sensing images. First, encoding-decoding networks with the same structure but independent parameters are constructed for feature extraction of optical and SAR images, respectively, and road surface segmentation labels are used for supervised training. Second, the coding layer features of the SAR images are introduced for road edge detection, and their intermediate features are input to the decoding layer features of the SAR image, so as to optimize the discrimination effect between the road and the background. Finally, the designed Channel Attention-Strip Spatial Attention (CA-SSA) is utilized to fully fuse the shallow and deep features of optical and SAR images to predict the final road extraction results. In the experiment, using the Dongying data set as the reference, it is proved that the method of this paper is superior to the comparative methods based on quantitative evaluation metrics, has obvious advantages in challenging areas such as road intersection and low-grade roads, and has best road extraction results when optical images is affected by clouds.

1 引言

道路作为交通运输设施的主干结构与核心枢纽,快速准确地提取在地图更新、车辆导航、城市规划和灾害救援等领域[1]均具有重要作用。道路提取是指将影像的每个像素分为道路和非道路(背景)[2],受益于系列卷积神经网络[3-5]在语义分割领域的发展进步、光学影像的直观性和其数据集的丰富性等客观现状,当前道路自动解译研究主要集中于光学影像驱动的深度学习法。该方法结合光学影像和标签数据,通过卷积神经网络充分挖掘影像的深层特征,以网络框架为映射函数,并依据设定的相似度测量标准(损失函数)不断更新优化网络框架的参数。
光学影像以地物反射可见光波段内的电磁波能量为依据,可视化地物的表层信息,具有空间分辨率高、光谱和纹理信息丰富等优点[6]。但由于光学影像的获取方法是一种被动式手段,能量来源主要是太阳辐射,故如图1(a)图1(b)所示,光学影像的成像质量往往受天气影响较大。此外,如图1(c)图1(d)所示,因成像角度等因素的影响,投影误差、阴影特征等均会造成道路表面的属性特征与真实标签存在出入,为道路提取带来错误的信息引导。相反,SAR作为主动式成像,具备全天时全天候的数据获取能力,并能从侧视角度提供地物目标的散射和几何特征,但存在斑块噪声以及语义难解释等问题。总体来说,得益于应用需求的持续推进,体系化、多样化和成熟化的遥感数据获取系统不断涌现,遥感数据在电磁波谱的描述颗粒度和适应区间均取得重大突破。获取同一地区的多模态遥感影像更加容易,可以为地物解译提供更加多样的互补信息,如光学影像的光谱信息和SAR影像的散射信息[7-8]等。同时,许多研究表明,联合光学影像和SAR影像的互补信息有利于提升地物解译的效果和精度[9-11]。因此,本文以光学影像和SAR影像构建多模态形式的数据基础和研究对象,形成基于多模态遥感影像的道路提取技术框架。
图1 光学影像局限性示例

Fig. 1 Example diagram of optical imaging limitations

目前,从多模态数据融合产生的位置出发,主要包括数据级、特征级和决策级3种[12]。其中,数据级融合从原始数据层面开展,在后续的解译中将多模态数据视为整体进行处理,比较适合同质数据[13]。特征级融合围绕各自数据进行特征提取,然后采取一定的策略(如级联[14]、求和[15]和注意力机制[16]等)达到优势互补的目的。决策级融合根据不同数据的解译结果进行分析与决策,但未充分权衡各自的优势信息。虽然多模态数据驱动的地物解译研究已取得很大进步,但由于光学影像和SAR影像的成像机制完全不同,将导致两者的特征存在天然的异质性,故如何构建有效的融合策略仍是当前研究的关键[17]。此外,已有的多模态影像解译技术大多面向全要素地物分类,并未考虑道路自身的结构和分布规律,故精度和泛化能力均有待提升。
考虑到本文的研究主要涉及“遥感影像道路提取技术”和“多模态数据解译技术”,故在此针对上述两个部分进行相关研究的总结与分析。

1.1 遥感影像道路提取技术

遥感影像道路提取技术从发展的历程来看,主要分为传统方法和深度学习法[18]。传统方法[19-21]以道路在遥感影像呈现的形状、光谱和纹理等浅层特征为依据,寻求前景与背景在相应特征空间的切割标准,但随着遥感影像体现的地表信息愈发详细,该类方法的总体精度、泛化能力和适用范围均存在明显劣势。深度学习法是一种数据驱动的解译技术,依托搭建的网络模型和数据集构建影像与道路的映射关系,具备较好的稳定性和适用性,是当前的发展趋势。具体来说,该类技术主要围绕道路呈现的客观规律和解译结果的应用需求等方面展开研究。
道路呈现的客观规律主要包括等级差异体现的多尺度特征和连通作用体现的线状特征等。关于前者,Guo等[22]、Gao等[23]从卷积核的窗口大小和叠放层次等角度实现多尺度特征的捕获。此外,为缓解卷积神经网络在全局特征捕获上的劣势,图神经网络[24]、多尺度空洞卷积[25-26]、空洞空间卷积池化金字塔[27-30]等陆续被研究学者引入至网络框架中。关于后者,文献[28]—文献[33]将线性卷积核替换传统的方型卷积核,使卷积操作更贴合常规的道路方向,避免相邻无关像素的干扰。另外,具备方向性质的标签数据[34-36]也被用于监督训练,以提升道路提取结果的完整性。
道路解译结果的应用需求主要体现在道路的连通关系上,以免误提取带来的错误引导,甚至引发交通事故等一系列问题。当前关于该方面的改进主要集中于连通性标签[28,37]和损失函数[38-39]等。连通性标签在于通过邻域像素的类别属性等建立具备拓扑关系的标签数据;损失函数则立足连通区域数量等参数设定相似性指标的量化计算标准。此外,注意力机制[40]也被应用于挖掘道路的拓扑结构。
除上述2个方面外,多任务[41-43]、多方法[44-45]以及由粗到精[35-36]的提取策略也陆续被研究学者提出,以提升道路提取结果的完整率和准确率。

1.2 多模态数据解译技术

多模态数据解译是伴随数据获取系统的多源化、成熟化产生。从数据融合的形式来看,主要包括“串联”和“并联” 种。
“串联”形式的技术路线一般是先利用某一数据进行粗提取,然后借助另一种数据进行精提取。如Zhang等[46]、Li等[47]通过多源数据的优势特征先后完成样本制作(粗提取)和网络训练(精提取),Shivakumar等[48]首先将某单一数据的语义分割置信图作为辅助信息,然后联合多模态数据作为输入进行精提取。
“并联”形式是将不同源数据同时输入至网络框架中进行训练,如Li等[49]联合不同数据(或特征)共同输入至卷积神经网络实现道路提取。然而,考虑到光学影像和SAR影像的成像机制不同,数据级融合的效果无法充分发挥各自的优势。因此,主流的研究主要集中于特征级融合,尤其是如何形成有效的融合模块是当前的研究重点。如Liu等[50]联合通道注意力和空间注意力构建了双重注意融合模块; Zhang等[9]利用全局平均池化和全局最大池化设计了二阶通道注意力模块; Ren等[51]通过多模态压缩激励模块将不同尺度的SAR特征融合到尺度匹配的光学特征中。其目的均在于充分融合了光学影像和SAR影像的互补信息,从而获取更加稳定、完整和准确的解译结果。
基于上述研究背景和技术现状,本文以光学影像和SAR影像为数据基础,围绕道路自身形状和拓扑结构进行框架搭建和模块设计,提出一种多分支结构的深度卷积神经网络。本文的主要贡献如下:
(1) 结合地物解译难点和数据基础构建多分支双任务的网络架构,通过光学影像、SAR影像、融合特征以及道路表面分割标签协同训练道路提取网络,依托道路边缘标签强化道路边界切割能力,形成稳定且高效的道路提取方法。
(2) 立足光学影像和SAR影像的多模态特征,结合道路形状规律,构建通道-条状空间注意力(Channel Attention-Strip Spatial Attention, CA-SSA),从而充分挖掘两种模态影像的优势信息,提升道路提取结果的精度。
(3) 顾及光学影像的质量受限于天气状况,对本文方法的泛化能力展开讨论,除传统的精度对比和消融实验外,着重对方法在光学影像覆盖云雾时的道路提取能力进行详实分析,探讨方法在实际应用中的潜力。

2 理论与方法

本节中将对多分支双任务的道路提取方法进行详细的理论介绍。本方法的技术路线如图2所示(“E”和“D”分别对应编码层和解码层),主要包含 3个模块。① 特征提取模块(Feature Extraction Module, FEM),该模块主要通过编码层(E-Opt和E-SAR)和解码层(D-Opt和D-SAR)各自独立地从光学影像和SAR影像中进行特征提取,其输入数据是光学影像和SAR影像,监督数据均为道路表面分割结果。② 特征融合模块(Feature Fusion Module, FFM),该模块借助设计的CA-SSA将2种模态数据的解码特征进行融合,其中融合分支由此衍生,相关监督数据是道路表面分割结果。③ 边缘支撑模块(Edge Support Module, ESM),该模块属于SAR影像的辅助分支,从E-SAR中获得边缘特征并传递至D-SAR,其监督数据是由道路表面分割结果生成的道路边缘。
图2 多任务双分支道路提取技术路线

Fig. 2 Technology roadmap on multi-branch and dual-task method for road extraction

2.1 网络框架

本文方法的网络结构以多分支双任务的形式呈现,分支包括光学影像分支,SAR影像分支和融合分支,任务涵盖道路提取和边缘检测,网路框架的详细结构如图3所示。其中“Transposed Convolution Unit”先后包括卷积、转置卷积和卷积(后面均承接归一化和ReLu激活);“Convolution Unit1”先后包括2次卷积,第一次卷积接reLu激活,第二次卷积接sigmoid激活;“Convolution Unit2”包含卷积和relu激活;“Convolution Unit3”包括卷积、归一化和reLu激活;“Addition1”表示逐像素累加;“Addition2”表示跳跃连接,也采取逐像素累加的形式,“Opt”和“SAR”各自代表光学影像分支和SAR影像分支,“E”和“D”分别对应编码特征和解码特征,“i”则反应跳跃连接的对象,如E1-Opt连接的是D1-Opt等。其中,关于重点单元的详细结构如表1所示。
图3 网络模型详细结构

Fig. 3 Detailed structure of the network model

表1 网络基本单元结构组成

Tab. 1 Network basic unit structure composition

单元名称 单元组成
Transposed Convolution Unit 1)Conv(1×1, s=1, p=0); 2)BN; 3)Relu; 4)DeConv(3×3); 4)BN; 5)Relu; 6) Conv(1×1, s=2, p=1); 7)BN; 8)Relu
Convolution Unit1 1)Conv(3×3, s=1, p=1); 2)BN; 3) sigmoid
Convolution Unit2 1)Conv(1×1, s=1, p=0); 2) Relu
Convolution Unit3 1)Conv(1×1, s=1, p=0); 2)BN; 3) Relu

注:s表示stride, p表示padding。

光学影像分支和SAR影像分支对应FEM,SAR影像分支除具有ESM外,其余部分的网络结构与光学影像分支完全一致,但考虑到两种影像的成像方式存在差异,故本文实施参数不共享的策略。具体来说,上述2个分支输入分别是光学影像和SAR影像,输出均为道路表面分割结果。编码层均采用ResNet34[52]进行特征提取,解码层利用转置卷积和卷积的组合进行上采样,同时采取跳跃连接的形式避免信息的过多丢失。
融合分支的核心是FFM(见2.2节),该分支的输入是另外2个分支的解码层特征,输出为道路表面分割结果。为保证输入特征同时包含语义和细节信息,分别在深层和浅层2种层次输入特征,2种层次的融合则采取“卷积+上采样”的形式进行参数的动态优化。
考虑到当前的地物解译往往在分界线处出现混淆,故引入ESM进行强化监督。同时,顾及光学影像穿透能力有限,容易因其他地物遮挡造成边缘信息缺失,故在SAR影像分支引入该支撑模块。该模块的输入数据是SAR影像分支的编码层特征, 4个层次的特征独立地依托卷积和上采样以实现通道和尺寸的统一,而后以通道叠加的形式获得边缘特征。该特征一方面再经过卷积等处理输出道路边缘,另一方面通过属性累加的形式融入至SAR影像分支。

2.2 特征融合模块

光学影像和SAR影像的属性影响因素存在明显差异,2种影像具有一定的互补优势,但直接将 2种数据通过通道叠加或属性相加往往会造成冗余特征的堆叠以及优势特征的丢失。因此,本文从通道和空间2个维度引入注意力机制,并结合道路形状规律在空间注意力机制中构建条状卷积空间,最终形成CA-SSA,具体的结构见图4
图4 CA-SSA结构

Fig. 4 Detailed structure of the network model

从公式化的角度描述,CA-SSA的流程为先后经过式(1)和式(2):
F C A = C A   ( C o n v ( C a t ( F O p t , F S A R ) ) )
F f u s = C o n v   ( C a t ( S S A 0 ( F C A ) , S S A 45 ( F C A ) ,                                             S S A 90 ( F C A ) , S S A 135 ( F C A ) ) )
式中:FOptFSAR分别代表光学影像分支和SAR影像分支的输入特征;CA表示通道注意力操作;Conv包括1×1卷积,归一化和ReLu激活操作;Cat是通道叠加;SSA0SSA45SSA90SSA135则分别代表0°、45°、90°和135°方向的条状空间注意力处理;FCAFfus则对应通道注意力和条状空间注意力融合处理后的结果。因此,CA-SSA的具体路线: ① 通道叠加,将不同模态的特征进行硬性融合; ② Conv图4中的Conv BNReLu)处理,实现不同模态数据的初步细化交互,并改变特征通道数; ③ 通道注意力,在通道维度学习有效特征,抑制无效特征; ④ 条状空间注意力,沿着4个方向(0°、45°、90°、135°)在空间维度进行有效特征的捕获; ⑤ 通道叠加,实现不同方向的条状空间注意力融合; ⑥ Conv处理,获取特征最终的融合结果。
关于CA-SSA的核心结构是贴合道路形状规律的条状空间注意力,该注意力的结构如图5所示。首先,通过平均池化和最大池化分别对输入特征进行处理,并将处理结果进行通道叠加;其次,利用0°、45°、90°、135°共4个方向的条状卷积在特定方向进行特征提取;最后,将提取的特征通过Sigmoid激活函数获取空间维度各位置的权重大小。
图5 条状空间注意力结构

Fig. 5 Striped spatial attention structure map

2.3 损失函数

本文深度学习网络涉及2项任务,分别利用道路表面分割标签和道路边缘标签进行损失函数计算,总体损失函数如式(3)所示。
L o s s = L o s s s e g + α × L o s s e d g e
式中:LossLosssegLossedge分别表示总损失,道路表面分割损失和道路边缘损失,道路表面分割损失又由光学影像分支、SAR影像分支和融合分支等比例构成;α则由于作为辅助任务的系数,本文设置为 1/3。考虑到两项任务的标签均为二分类标签,且正负样本存在不平衡问题,故将BCE损失和dice coefficient损失之和作为各任务的损失值。其中BCE损失对每个像素平等处理,当正样本较少时,网络会以负样本为主,导致正样本识别能力减弱,dice coefficient损失侧重于正样本(前景区域)的信息挖掘,可以较好解决正负样本不平衡问题,但训练损失容易不稳定,故将两种损失相加结合可取得较好的结果。其中BCE损失和dice coefficient损失的计算公式如式(4)和式(5)所示。
L o s s B C E ( P , Y ) = - i = 1 W j = 1 H [ y i j × l o g p i j + ( 1 - y i j ) × l o g ( 1 - p i j ) ]
L o s s D C L ( P , Y ) = 1 - 2 × P Y P + Y
式中:PY分别表示预测结果和标签数据;WH是影像的宽度和高度;影像(i, j)位置的预测和标签分别为pijyij

3 实验与分析

3.1 实验设计

3.1.1 实验数据

Dongying data set: 该数据集由文献[51]提出,包括光学影像、SAR影像和地物分类的标签数据。为验证所提方法的道路提取能力,本文对标签数据进行类别归属预处理,即将道路类别作为前景,其他地物类别作为背景。本文选用的实验数据影像大小为256像素×256像素,预处理后的影像空间分辨率为1 m。其中光学影像为GF-2号,包含RGB 3个通道,SAR影像是GF-3号的VV极化数据。关于训练和测试数据的规模,按照7:1的比例对数据集进行随机划分,最终获得6 852张训练影像和979张测试影像。此外,考虑到光学影像的成像质量受天气状况影响较大,且多模态数据解译的优势在于可以避免某种单一数据信息不充分的限制,故本文利用PhotoShop软件中的“云彩”渲染功能进行处理,从而模拟云雾条件下获取的光学影像,并在后续的实验中进行针对性分析。实验数据的示例影像及标签数据如图6所示。
图6 实验数据示例影像及标签数据

Fig. 6 Experimental data example images and labeling data

3.1.2 实验细节

实验环境核心硬件配置为2块NVIDIA Tesla V100显卡,显存共64 G。网络训练选择Adam为优化器,学习率初始设置为2e-4,每当损失值连续3次高于当前最优损失值时,学习率降低5倍,训练的数据块大小为32,迭代epoch值为100。同时,为对样本进行增强处理,随机(50%)地对训练数据进行垂直、水平、对角翻转和辐射变换。

3.1.3 评价指标

为确保定量评价的全面性和综合性,本文从 2个层面共选用7项评价指标进行道路提取结果的精度对比。2个层面分别为: ① 像素级评价指标:正确率(P),召回率(R),F1分数,总体精度(OA)和交并比(IoU); ② 连通性评价指标[33]:完整率(Com)和错误率(Eor)。

3.2 实验结果

3.2.1 超参数实验

本部分实验将对损失函数中涉及的超参数α设计的合理性进行实验验证,该系数主要是衡量主任务和辅任务之间的权重关系。若系数过大,则辅助任务的影响过于强大而导致模型性能的下降,即辅助任务中的负迁移问题。若系数过小,则辅助任务的影响太弱,无法帮助主任务。为证明上述考虑的正确性,将α分别设置为1/6、1/3、1/2、2/3进行实验, 7种精度指标的变化趋势如图7所示。由图7可知,随着系数的增加,各项精度指标均呈现先提升后下降的趋势(Eor除去,该指标的数值越大表示提取效果越差),进一步证明本文考虑的正确性和参数选择的合理性。
图7 超参数实验精度分析

Fig. 7 Accuracy analysis of hyperparameter experiment

3.2.2 方法对比实验

本部分实验主要利用选用数据集将所提方法与现有的经典和先进方法进行对比。对比方法共11种,其中单模态方法7种,该类方法适用于输入数据只有一种类型的情况,包括UNet(2015)[4]、ASPP-UNet(2019)[29]、DeepLabv3+(2018)[30]、D-LinkNet(2018)[25]、SGCN(2022)[24]、DT-Net(2023)[33]和MANet(2021)[38];多模态方法4种,该类方法可支持2种模态数据条件下的道路提取,包括MCANet(2022)[6]、DDHRNet(2022)[51]、JoiTriNet_e(2023)[50]和JoiTriNet_d(2023)[50]
本文方法和对比方法的量化精度统计如表2所示,其中考虑到单模态方法的输入只包含某一类数据,故为全面比较各方法的提取效果,本文分别独立地利用光学影像和SAR影像进行道路提取实验,“单模态方法-Opt”表示输入数据为光学影像,“单模态方法-SAR”表示输入数据为SAR影像。
表2 不同方法道路提取结果精度对比

Tab. 2 Comparison of the accuracy of road extraction results of different methods (%)

单模态方法-Opt 评价指标
P R F1 OA IoU Com Eor
UNet 92.38 81.59 86.65 98.19 76.44 77.35 5.96
ASPP-UNet 91.29 84.25 87.63 98.29 77.98 82.54 8.82
DeepLabv3+ 94.42 85.05 89.49 98.57 80.98 84.65 4.27
D-LinkNet 94.78 86.14 90.25 98.66 82.23 85.09 4.01
SGCN 94.08 87.18 90.50 98.69 82.64 85.30 4.44
DT-Net 96.13 89.25 92.56 98.97 86.15 86.65 3.21
MANet 97.42 90.18 93.66 99.12 88.07 87.25 2.45
单模态方法-SAR 评价指标
P R F1 OA IoU Com Eor
UNet 81.62 73.84 77.54 96.93 63.31 71.63 15.19
ASPP-UNet 90.44 72.38 80.41 97.47 67.23 70.63 6.53
DeepLabv3+ 91.58 78.79 84.71 97.96 73.47 77.59 6.65
D-LinkNet 92.71 82.94 87.55 98.31 77.86 80.31 5.54
SGCN 91.51 79.76 85.23 98.02 74.26 76.22 8.04
DT-Net 95.30 83.52 89.02 98.52 80.21 79.86 3.02
MANet 96.39 86.81 91.35 98.82 84.08 84.12 2.96
多模态方法 评价指标
P R F1 OA IoU Com Eor
MCANet 96.83 89.72 93.14 99.05 87.16 88.22 6.07
DDHRNet 96.22 86.83 91.29 98.81 83.97 82.79 2.01
JoiTriNet_e 96.02 90.31 93.08 99.04 87.05 88.43 3.56
JoiTriNet_d 96.27 89.60 92.81 99.00 86.59 87.19 2.97
本文方法 97.89 90.86 94.24 99.20 89.11 88.38 2.26

注:红色数值为最佳,蓝色数值为次佳,绿色数值为最差。

通过对比精度指标可以得到如下结论: ① 对于单模态条件,若光学影像质量正常,则提取效果无论是像素级还是连通性评价指标均高于SAR影像,尤其是召回率和完整率优势明显,说明在道路提取作业中,光学影像对道路提取可以提供更加充分的支撑,这也与人眼的目视判读规律一致;② 单模态方法中,DT-Net和MANet精度较高,尤其是MANet的综合精度指标仅次于本文方法; ③ 多模态方法中除DDHRNet外,其他对比方法的道路提取精度均处于前列,证明多模态方法更加稳定和高效; ④ 本文方法的5项像素级评价指标均最佳,只有连通性评价指标Com和Eor略劣于JoiTriNet_e和DDHRNet,证明了本文方法的道路提取结果完整度和正确率均处于领先位置。
此外,为更公平地对比单模态方法与多模态方法的实验效果,从而进一步证明本文方法的有效性。本文将单模态方法与多模态方法的训练数据进行了规模统一,即将光学影像和SAR影像的提取结果进行融合。融合的规则为:2种模态的解译结果有大于一种为道路则该像素的融合结果为道路,否则为非道路。融合后各方法的结果精度如表3所示。从表3可看出,相比于融合前的结果,RCom 2项指标处于上升趋势,但PEor指标显示道路的误提取率显著上升,并且从IoU来看,融合的结果均优于SAR影像,但除MANet外均低于光学影像,并且也低于本文方法。上述现象证明了直接对提取结果进行融合虽然可以提升道路提取结果的完整率,但同时也会引入更多的误提取问题。因此,本文方法从特征融合的角度对光学影像和SAR影像进行联合处理更有利于充分挖掘和利用异构影像的信息优势。
表3 单模态方法融合结果精度统计

Tab. 3 Precision statistics of fusion results by single mode method (%)

单模态方法 评价指标
P R F1 OA IoU Com Eor
UNet 80.79 85.93 83.28 97.52 71.35 82.07 17.05
ASPP-UNet 86.38 86.98 86.68 98.08 76.49 84.25 12.80
DeepLabv3+ 89.37 88.61 88.99 98.43 80.16 87.12 9.36
D-LinkNet 90.58 89.73 90.15 98.59 82.07 88.32 8.03
SGCN 89.26 89.62 89.44 98.48 80.90 87.00 10.22
DT-Net 93.59 91.01 92.29 98.91 85.68 87.36 4.67
MANet 95.17 92.30 93.72 99.12 88.17 88.63 4.36
除上述定量精度指标对比分析外,为更加形象直观地比较各方法的道路提取效果,选取部分测试影像的道路表面分割结果进行对比分析,选取的5张影像分别来自不同场景,且基本涵盖了道路提取的难点区域,具有一定代表性。另外,本部分分析不再涵盖所有对比方法,而以综合精度评价指标—“IoU”为标准选取前6种方法展开。
具体情况如图8所示,影像1包含大面积水域,地物种类相对单一,但整体色调偏暗,且受限于影像覆盖度,水域岸线与道路几乎形成并行的条状走势,MANet和MCANet的漏提取问题严重,提取结果存在明显的“断路”问题,JoiTriNet_e,JoiTriNet_d和本文方法也存在一定的漏提取,但道路的拓扑结构完整,DT-Net的提取结果完整度最高,但与JoiTriNet_e和JoiTriNet_d方法一样,在道路边界处存在误提取问题;影像2的道路被上下切割,在该影像中只显示了其中小部分,相当于一条低等级道路,且由于空间分辨率较高,在光学影像中可以较为清晰地看见部分交通标示线,另外道路上方的线状栅栏形成的阴影在SAR影像中与道路的属性基本一致,从视觉效果来看,6种方法均成功排除阴影的干扰,DT-Net、MANet、MCANet和本文方法存在不同程度的漏提取问题,其中MANet和MCANet相对严重,JoiTriNet_e和JoiTriNet_d则实现了较为完整的道路提取,但同时也错误引入了部分其他地物;影像3是2条互相交叉的道路,后5种方法均准确完整地提取了交叉口信息,DT-Net存在漏提取问题,造成连通的2条道路断联,而JoiTriNet_e和JoiTriNet_d在南北走向的道路边界处存在较为明显的误提取问题;影像4的整体场景属于农田,地物及其色调均较为单一,且道路的色调与背景接近,6种方法存在不同程度的漏提取问题,但本文方法的提取结果在连通性上仍较为完整,其他 5种对比方法都未能准确还原该条道路的拓扑结构;影像5属于典型的主干道与辅路提取问题,MANet、MCANet和本文方法的提取结果较为理想,DT-Net,JoiTriNet_e和JoiTriNet_d存在不同程度的漏提取问题,尤其是DT-Net漏提取了其中一条完整的辅路(低等级道路)。
图8 不同方法道路表面分割结果示例

Fig. 8 Examples of road surface segmentation results by different methods

3.2.3 消融实验

本部分实验主要针对本文构建的多分支双任务网络架构,以及设计的CA-SSA模块进行有效性验证。具体情形包括以下4种,打“√”表示具备相应的单元,其中无“多分支”表示仅采用单模态数据进行道路提取,没有多模态分支的融合处理,考虑到光学影像的提取效果全面优于SAR影像,故选用光学影像进行消融实验;无“CA-SSA”表示多分支状态下光学影像和SAR影像的特征直接逐像素相加,不再通过注意力机制进行优劣权衡;无“边缘检测任务”即代表无ESM。4种情形的具体精度统计结果如表4所示。
表4 消融实验精度统计

Tab. 4 Accuracy statistics of ablation experiments (%)

情形1 情形2 情形3 情形4
多分支
CA-SSA
边缘检测任务
P 93.26 97.81 97.69 97.89
R 86.19 89.58 90.46 90.86
F1 89.59 93.51 93.94 94.24
OA 98.56 99.11 99.16 99.20
IoU 81.14 87.82 88.57 89.11
Com 85.26 87.24 87.70 88.38
Eor 5.45 2.41 2.39 2.26
通过表4中情形1和情形2的对比可以看到多分支网络架构可以全面提升各项精度指标,证明了该网络结构适用于光学影像和SAR影像的联合解译,可以有效融合2种异构遥感数据的优势信息;对比情形2和情形3可以发现,引入“CA-SSA”模块对道路提取起到正向的推动作用,尤其是召回率和完整率均得到提升,证明了该模块可以更加充分地挖掘线状地物的特征;对比情形3和情形4可以看到,边缘检测任务的引入,全面提升了各项精度指标,证明了道路边界信息的强化监督有利于改善道路提取结果。
此外,为进一步证明多分支结构的有效性,将本文方法的光学影像分支和SAR影像分支的提取结果进行精度统计。同时考虑到受限于自然天气、传感器状态等因素的影响,模态缺失也是实际应用中常面临的问题,故本部分进行模态缺失的模拟实验,即训练模型和参数仍与本文方法保持一致,但在测试阶段分别用全黑影像代替光学影像和SAR影像,从而代表相关模态数据的缺失,然后对SAR影像分支和光学影像分支的提取结果进行精度统计,具体结果如表5所示。可以看到,即使模态缺失,另一个模态分支依然可以保持道路提取能力不变,这是因为在正向传播过程中本文的网络结构并未直接让2个单一模态分支直接关联,故某一模态影像的缺失并不影响另一模态分支的道路预测。此外,对比表4可以发现,通过融合处理的单一模态分支具有更高的提取精度,甚至SAR影像分支高于了单独的光学影像道路提取;对比表2可以发现,从IoU来看,本文方法的光学影像分支和SAR影像分支提取精度高于所有对比的单模态方法,进一步证明了本文方法的有效性和先进性。
表5 不同条件的分支精度统计

Tab. 5 Branch accuracy statistics under different conditions (%)

评价
指标
光学影像分
支(无模态
缺失)
SAR影像分
支(无模态
缺失)
光学影像分支(SAR影像
缺失)
SAR影像
分支(光学
影像缺失)
P 97.42 96.51 97.42 96.51
R 90.92 86.90 90.92 86.90
F1 94.06 91.45 94.06 91.45
OA 99.18 98.83 99.18 98.83
IoU 88.78 84.25 88.78 84.25
Com 88.24 84.39 88.24 84.39
Eor 2.46 3.59 2.46 3.59

3.2.4 云雾条件下的道路提取对比实验

光学影像依靠可见光电磁波的反射进行成像,影像质量受天气影响较大,故利用云雾条件下的影像数据进行实验对比,具体结果如表6所示。通过对比表2可以得到如下结论: ① 在受云雾影响时,所有方法的提取精度均呈现下降趋势,其中从综合评价指标(IoU)来看,D-LinkNet,SGCN,DT-Net和MANet甚至低于SAR影像的道路提取结果; ② 除Eor外,本文方法的各项精度指标均优于对比方法,证明了本文方法的稳定性; ③ 结合图9可看到,单模态方法的IoU下降更加明显(单模态方法为绿色,多模态方法为橙色),说明多模态方法可以在更大程度上降低对影像质量的要求。
表6 云雾条件下道路提取结果精度对比

Tab. 6 Comparison of accuracy of road extraction results under cloudy conditions (%)

单模态方法-Opt 评价指标
P R F1 OA IoU Com Eor
UNet 91.99 71.44 80.43 97.50 67.26 67.81 6.06
ASPP-UNet 95.16 72.61 82.37 97.77 70.02 69.15 2.47
DeepLabv3+ 93.89 78.61 85.57 98.10 74.78 75.55 2.55
D-LinkNet 95.36 78.01 85.82 98.15 75.16 74.60 2.12
SGCN 95.01 75.96 84.42 97.99 73.04 74.13 4.05
DT-Net 95.75 84.42 89.73 98.61 81.37 82.59 2.56
MANet 96.28 86.26 90.99 98.77 83.48 82.61 1.79
多模态方法 评价指标
P R F1 OA IoU Com Eor
MCANet 96.31 84.78 90.17 98.67 82.11 82.63 8.33
DDHRNet 97.34 82.95 89.57 98.61 81.11 79.31 1.27
JoiTriNet_e 95.77 88.15 91.80 98.87 84.85 86.49 3.04
JoiTriNet_d 96.00 87.71 91.67 98.86 84.62 85.28 2.60
本文方法 97.45 88.33 92.66 99.00 86.33 88.38 2.26
图9 云雾条件下各方法IoU下降程度统计

Fig. 9 Statistical table of IoU decreasing degree of each method under cloud and fog condition

4 结论

为充分联合光学影像和SAR影像的互补信息,并匹配道路对象的客观规律,本文提出了一种多分支双任务的道路提取方法。主要的工作如下:
(1) 依托通道-条状空间注意力机制实现光学影像和SAR影像的特征级融合,利用条状的特征捕获空间建立更加稳定的关联映射,并基于此形成多分支联合的解译框架。
(2) 针对道路边缘区域解译颗粒度粗糙的问题,借助SAR影像穿透能力强的特点,利用道路表面分割标签生成道路边缘标签,并由此衍生SAR影像分支的辅助任务,协同提升道路提取精度。
(3)在实验部分,针对关键参数设计超参数实验,选取典型和先进的单/多模态方法进行对比实验,依据核心模块和影像数量展开消融实验,围绕数据质量实施对比实验,全面证明了本文方法的有效性和稳定性。
本文方法充分考虑了光学影像和SAR影像 的结构特点,立足特征级融合策略和多分支训练范式,构建了多角度多层次的优势信息融合机制;针对道路边缘精准解译等技术难点,联合道路的结构分布和拓扑规律,搭建了双任务框架并形成了相匹配的特征覆盖空间。但是,本文仅仅从理论层面对多模态数据的道路提取技术进行研究,在实际应用中面对某一模态数据的缺失如何处理,即跨模态数据的道路提取是下一步要解决的问题。
本文图文责任编辑: 蒋树芳 黄光玉
[1]
Wang C W, Xu R T, Xu S B, et al. Toward accurate and efficient road extraction by leveraging the characteristics of road shapes[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023,61:4404616. DOI:10.1109/TGRS.2023.3284478

[2]
Han L Y, Hou L, Zheng X X, et al. Segmentation is not the end of road extraction: An all-visible denoising autoencoder for connected and smooth road reconstruction[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023,61:4403818. DOI:10.1109/TGRS.2023.3276591

[3]
Shelhamer E, Long J, Darrell T. Fully convolutional networks for semantic segmentation[C]// IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE, 2017:640-651. DOI:10.1109/TPAMI.2016.2572683

[4]
Ronneberger O, Fischer P, Brox T. U-net: Convolutional networks for biomedical image segmentation[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention, 2015. Interv. Cham, Switzerland: Springer, 2015:234-241.DOI: 10.1007/978-3-319-24574-4_28

[5]
Badrinarayanan V, Kendall A, Cipolla R. SegNet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine, 2017, 39(12):2481-2495. DOI:10.1109/TPAMI.2016.2644615

[6]
Li X, Zhang G, Cui H, et al. MCANet: A joint semantic segmentation framework of optical and SAR images for land use classification[J]. International Journal of Applied Earth Observation and Geoinformation, 2022,106:102638. DOI:10.1016/j.jag.2021.102638

[7]
Sukawattanavijit C, Chen J, Zhang H S. GA-SVM algorithm for improving land-cover classification using SAR and optical remote sensing data[J]. IEEE Geoscience and Remote Sensing Letters, 2017, 14(3):284-288. DOI:10.1109/LGRS.2016.2628406

[8]
Zhang H S, Li J, Wang T, et al. A manifold learning approach to urban land cover classification with optical and radar data[J]. Landscape and Urban Planning, 2018, 172:11-24. DOI:10.1016/j.landurbplan.2017.12.009

[9]
Zhang H S, Wan L M, Wang T, et al. Impervious surface estimation from optical and polarimetric SAR data using small-patched deep convolutional networks: A comparative study[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(7):2374-2387. DOI:10.1109/JSTARS.2019.2915277

[10]
Li X, Lei L, Sun Y L, et al. Multimodal bilinear fusion network with second-order attention-based channel selection for land cover classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13:1011-1026. DOI:10.1109/JSTARS.2020.2975252

[11]
Zhang H S, Xu R. Exploring the optimal integration levels between SAR and optical data for better urban land cover mapping in the Pearl River Delta[J]. International journal of applied earth observation and geoinformation, 2018, 64:87-95. DOI:10.1016/j.jag.2017.08.013

[12]
Sun X, Tian Y, Lu W X, et al. From single-to multi-modal remote sensing imagery interpretation: a survey and taxonomy[J]. Science China Information Sciences, 2023, 66(4):140301. DOI:10.1007/s11432-022-3588-0

[13]
Xiao S N, Wang P J, Diao W H, et al. MoCG: Modality characteristics-guided semantic segmentation in multimodal remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023,61: 5625818. DOI:10.1109/tgrs.2023.3334471

[14]
Ha Q S, Watanabe K, Karasawa T, et al. MFNet: Towards real-time semantic segmentation for autonomous vehicles with multi-spectral scenes[C]// 2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2017: 5108-5115. DOI: 10.1109/iros.2017.8206396.

[15]
Sun Y X, Zuo W X, Yun P, et al. FuseSeg: Semantic segmentation of urban scenes based on RGB and thermal data fusion[J]. IEEE Transactions on Automation Science and Engineering, 2021, 18(3):1000-1011. DOI:10.1109/TASE.2020.2993143

[16]
Zheng A H, He J B, Wang M, et al. Category-wise fusion and enhancement learning for multimodal remote sensing image semantic segmentation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022,60: 4416212. DOI:10.1109/TGRS.2022.3225843

[17]
Li X, Lei L, Sun Y L, et al. Collaborative attention-based heterogeneous gated fusion network for land cover classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(5):3829-3845. DOI:10.1109/TGRS.2020.3015389

[18]
Chen Z Y, Deng L A, Luo Y H, et al. Road extraction in remote sensing data: A survey[J]. International Journal of Applied Earth Observation and Geoinformation, 2022,112:102833. DOI:10.1016/j.jag.2022.102833

[19]
Leninisha S, Vani K. Water flow based geometric active deformable model for road network[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2015, 102:140-147. DOI:10.1016/j.isprsjprs.2015.01.013

[20]
Maboudi M, Amini J, Hahn M, et al. Road network extraction from VHR satellite images using context aware object feature integration and tensor voting[J]. Remote Sensing, 2016, 8(8):637. DOI:10.3390/rs8080637

[21]
Shao Y Z, Guo B X, Hu X Y, et al. Application of a fast linear feature detector to road extraction from remotely sensed imagery[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2011, 4(3):626-631. DOI:10.1109/JSTARS.2010.2094181

[22]
Guo M H, Lu C Z, Hou Q B, et al. SegNeXt: Rethinking convolutional attention design for semantic segmentation[EB/OL]. 2022:arXiv:2209. 08575. http://arxiv.org/abs/2209.08575

[23]
Gao S H, Cheng M M, Zhao K, et al. Res2Net: A new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(2):652-662. DOI:10.1109/TPAMI.2019.2938758

[24]
Zhou G D, Chen W T, Gui Q S, et al. Split depth-wise separable graph-convolution network for road extraction in complex environments from high-resolution remote-sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022,60:5614115. DOI:10.1109/TGRS.2021.3128033

[25]
Zhou L C, Zhang C, Wu M. D-LinkNet: LinkNet with pretrained encoder and dilated convolution for high resolution satellite imagery road extraction[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2018:192- 1924. DOI:10.1109/CVPRW.2018.00034

[26]
Wei Y, Zhang K, Ji S P. Simultaneous road surface and centerline extraction from large-scale remote sensing images using CNN-based segmentation and tracing[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(12):8919-8931. DOI:10.1109/TGRS.2020.2991733

[27]
Wei Y, Ji S P. Scribble-based weakly supervised deep learning for road surface extraction from remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021,60:5602312. DOI:10.1109/TGRS.2021.3061213

[28]
Mei J, Li R J, Gao W, et al. CoANet: Connectivity attention network for road extraction from satellite imagery[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2021, 30:8540-8552. DOI:10.1109/TIP.2021.3117076

[29]
He H, Yang D F, Wang S C, et al. Road extraction by using atrous spatial pyramid pooling integrated encoder-decoder network and structural similarity loss[J]. Remote Sensing, 2019, 11(9):1015. DOI:10.3390/rs11091015

[30]
Chen L C, Zhu Y K, Papandreou G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]// European Conference on Computer Vision. Cham: Springer, 2018:833-851.

[31]
Sun T, Di Z L, Che P Y, et al. Leveraging crowdsourced GPS data for road extraction from aerial imagery[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019:7501-7510. DOI:10.1109/CVPR.2019.00769

[32]
Wang C W, Xu R T, Xu S B, et al. DA-net: Dual branch transformer and adaptive strip upsampling for retinal vessels segmentation[C]// Wang L, DouQ, FletcherPT, et al. International Conference on Medical Image Computing and Computer-Assisted Intervention. Cham: Springer, 2022:528-538.

[33]
Lian R B, Wang W X, Mustafa N, et al. Road extraction methods in high-resolution remote sensing images: A comprehensive review[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13:5489-5507. DOI:10.1109/JSTARS.2020.3023549

[34]
Batra A, Singh S, Pang G, et al. Improved road connectivity by joint learning of orientation and segmentation[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019:10377-10385.

[35]
Zhou M T, Sui H G, Chen S X, et al. Large-scale road extraction from high-resolution remote sensing images based on a weakly-supervised structural and orientational consistency constraint network[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2022, 193:234-251. DOI:10.1016/j.isprsjprs.2022.09.005

[36]
Ding L, Bruzzone L. DiResNet: Direction-aware residual network for road extraction in VHR remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(12):10243-10254. DOI:10.1109/TGRS.2020.3034011

[37]
Li X G, Wang Y B, Zhang L Q, et al. Topology-enhanced urban road extraction via a geographic feature-enhanced network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(12):8819-8830. DOI:10.1109/TGRS.2020.2991006

[38]
Mosinska A, Marquez-Neila P, Kozinski M, et al. Beyond the pixel-wise loss for topology-aware delineation[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:3136-3145.

[39]
Oner D, Koziński M, Citraro L, et al. Promoting connectivity of network-like structures by enforcing region separation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(9):5401-5413. DOI:10.1109/TPAMI.2021.3074366

[40]
Li R, Zheng S Y, Zhang C, et al. Multiattention network for semantic segmentation of fine-resolution remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022,60:5607713. DOI:10.1109/TGRS.2021.3093977

[41]
Liu Y H, Yao J, Lu X H, et al. RoadNet: Learning to comprehensively analyze road networks in complex urban scenes from high-resolution remotely sensed images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(4):2043-2056. DOI:10.1109/TGRS.2018.2870871

[42]
Lu X Y, Zhong Y F, Zheng Z, et al. Cascaded multi-task road extraction network for road surface, centerline, and edge extraction[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022,60:5621414. DOI:10.1109/TGRS.2022.3165817

[43]
Chen X, Sun Q, Guo W, et al. GA-Net: A geometry prior assisted neural network for road extraction[J]. International Journal of Applied Earth Observation and Geoinformation, 2022,114:103004. DOI:10.1109/CVPR.2019.00769

[44]
Bastani F, He S T, Abbar S, et al. RoadTracer: Automatic extraction of road networks from aerial images[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:4720-4728. DOI:10.1109/CVPR.2018.00496

[45]
Mosinska A, Kozinski M, Fua P. Joint segmentation and path classification of curvilinear structures[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020, 42(6):1515-1521. DOI:10.1109/TPAMI.2019.2921327

PMID

[46]
Zhang J, Hu Q W, Li J Y, et al. Learning from GPS trajectories of floating car for CNN-based urban road extraction with high-resolution satellite imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(3):1836-1847. DOI:10.1109/TGRS.2020.3003425

[47]
Li P L, He X H, Qiao M J, et al. Exploring multiple crowdsourced data to learn deep convolutional neural networks for road extraction[J]. International Journal of Applied Earth Observation and Geoinformation, 2021,104:102544. DOI:10.1016/j.jag.2021.102544

[48]
Shivakumar S S, Rodrigues N, Zhou A, et al. PST900:RGB-thermal calibration, dataset and segmentation network[C]// 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020:9441-9447. DOI:10.1109/ICRA40945.2020.9196831.

[49]
Li Y L, Xiang L G, Zhang C L, et al. Fusing taxi trajectories and RS images to build road map via DCNN[J]. IEEE Access, 2019, 7:161487-161498. DOI:10.1109/ACCESS.2019.2951730

[50]
Liu X, Zou H J, Wang S X, et al. Joint network combining dual-attention fusion modality and two specific modalities for land cover classification using optical and SAR images[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 17:3236-3250. DOI:10.1109/JSTARS.2023.3347571

[51]
Ren B, Ma S B, Hou B, et al. A dual-stream high resolution network: Deep fusion of GF-2 and GF-3 data for land cover classification[J]. International Journal of Applied Earth Observation and Geoinformation, 2022,112:102896. DOI:10.1016/j.jag.2022.102896

[52]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:770-778. DOI:10.1109/CVPR.2016.90

文章导航

/