基于多尺度对比学习的弱监督遥感场景分类

彭瑞; 赵文智; 张立强; 陈学泓

doi:10.12082/dqxxkx.2022.210809

地球信息科学学报 >

2022 , Vol. 24 >Issue 7: 1375 - 1390

DOI: https://doi.org/10.12082/dqxxkx.2022.210809

遥感科学与应用技术

基于多尺度对比学习的弱监督遥感场景分类

彭瑞 ^,¹^,² ,
赵文智 ^,¹^,²^,^* ,
张立强 ¹ ,
陈学泓 ¹^,²

展开

1.北京师范大学地理科学学部,北京 100875
2.北京师范大学遥感科学国家重点实验室,北京 100875

* 赵文智（1990—）,男,山东菏泽人,博士,硕士生导师,主要从事深度学习与遥感影像智能理解、地表异常即时探测等方面研究。E-mail: wenzhi.zhao@bnu.edu.cnmailto

彭瑞（1998— ）,男,湖南常德人,硕士生,主要从事深度学习与遥感影像智能理解、地表异常即时探测等方面研究。E-mail: pengrui@mail.bnu.edu.cn

收稿日期: 2021-12-15

修回日期: 2022-03-13

网络出版日期: 2022-09-25

基金资助

国家自然科学基金项目(42192584)

北京市自然科学基金项目(4214065)

收起

Multi-Scale Contrastive Learning based Weakly Supervised Learning for Remote Sensing Scene Classification

PENG Rui ^,¹^,² ,
ZHAO Wenzhi ^,¹^,²^,^* ,
ZHANG Liqiang ¹ ,
CHEN Xuehong ¹^,²

Expand

1. Faculty of Geographical Science, Beijing Normal University, Beijing 100875, China
2. State Key Laboratory of Remote Sensing Science, Beijing Normal University, Beijing 100875, China

* ZHAO Wenzhi, E-mail: wenzhi.zhao@bnu.edu.cnmailto

Received date: 2021-12-15

Revised date: 2022-03-13

Online published: 2022-09-25

Supported by

National Natural Science Foundation of China(42192584)

Natural Science Foundation of Beijing Province(4214065)

Fold

摘要

遥感场景分类作为一种理解遥感影像的重要方式,在目标检测、影像快速检索等方向有着重要的应用,当前主流的场景分类方法多关注影像深层次特征的准确提取,忽略了场景目标在不同分布尺度下的差异性。此外,有限的高质量场景标签进一步限制了模型分类性能。为了解决以上问题,本研究提出了基于多尺度对比学习的弱监督遥感场景分类方法,首先利用多尺度对比学习的自监督策略,从大量无标注数据中自动获取影像不同尺度下的特征表示。其次,基于多尺度稳健特征对分类模型利用少量标签进行微调,并结合标签传播方法生成高质量样本标签。最后,结合大量无标签数据构建弱监督分类模型,进一步提升场景分类的能力。本研究在遥感场景AID数据集和NWPU-RESISC45数据集上分别使用1%、5%和10%的标注样本下分类精度分别达到了87.7%、93.67%、95.56%和86.02%、93.15%和95.38%,在有限标注样本条件下与其他基准模型相比有着明显的优势,证明了本文模型的有效性。

关键词： 场景分类; 多尺度; 深度学习; 对比学习; 弱监督学习; 有限样本; 标签传播; 遥感

本文引用格式

彭瑞 , 赵文智 , 张立强 , 陈学泓 . 基于多尺度对比学习的弱监督遥感场景分类[J]. 地球信息科学学报, 2022 , 24(7) : 1375 -1390 . DOI: 10.12082/dqxxkx.2022.210809

Abstract

Remote sensing scene classification is a significant approach to comprehending remote sensing images and has several applications in the areas such as target recognition and quick image retrieval. Currently, although many deep-learning-based scene classification algorithms have achieved excellent results, these methods only extract deep features of scene images on a specific scale and ignore the instability of extracted scene image features at different scales. Furthermore, the shortage of annotation data limits the performance improvement of these scene classification methods, which remains unsolved. As a result, for multi-scale remote sensing scene classification with limited labels, this article proposes a Multi-Scale Contrastive Learning Label Propagation based Weakly Supervised Learning (MSCLLP-WSL) approach. Firstly, a multi-scale contrastive learning method is utilized which effectively improves the ability of the model to obtain invariant features of scene images at different scales. Secondly, to address the problem of insufficient reliable labels, inspired by the Weakly Supervised Learning (WSL) method which supports a small number of labeled data and unlabeled data for training at the same time, this research further introduces WSL methods to make full use of the limited labels that exist in the data usage and production process. Label propagation is also used in this study to complete the tasks of annotating unlabeled data, which improves the performance of the proposed scene classification model even further. The proposed MSCLLP-WSL method has been extensively tested on the AID dataset and the NWPU-RESISC45 dataset with limited annotated data and compared with other benchmark algorithms named finetuned VGG16, finetuned Wideresnet50, and Skip-Connected Covariance (SCCov) network. Experiments demonstrate that multi-scale comparative learning enhances label propagation accuracy, which further improves the classification precision of complicated scenes with limited labeling samples. Hence, we set 1%, 5%, and 10% annotated data to represent the case of limited labels, accordingly. The results demonstrate that the proposed MSCLLP-WSL method in this study achieves an overall accuracy of 85.85%, 93.94%, and 95.65% on the AID dataset using 1%, 5%, and 10% labeled samples, respectively. Similarly, on the NWPU-RESISC45 dataset, the overall classification accuracy of 1%, 5%, and 10% annotated samples reaches 87.83%, 93.67%, and 95.47%, respectively. Although the overall accuracy of the latter dataset is lower than the former, the smaller amount of misclassification also indicates the stability of our proposal in the scene classification of large-scale datasets. The experiments results show that our proposed method achieves impressive performance on these two large-scale scenes datasets with limited annotated samples, which outperforms the benchmark methods in this article.

Key words： remote sensing scene classification; multi-scale; deep learning; contrastive learning; weakly supervised learning; limited training samples; label propagation; remote sensing

1 引言

随着遥感技术的不断发展,所获取遥感影像的时间、空间分辨率越来越高,目前已有超过700颗卫星每天从不同角度监测、获取对地观测数据^[1]。这些海量遥感数据的快速增长,对遥感影像的精准理解和高效检索也提出了更高要求。场景分类作为一种重要的遥感影像语义理解手段,它能够将影像的内容划分的一组离散的有土地覆盖和土地利用意义的类别^[2],已经在遥感影像快速检索^[3]、城市监测^[4]、灾害探测^[5],目标探测^[6-7]等众多遥感应用中发挥着越来越大的作用。

传统的基于灰度共生矩阵(Grey-Level Co-occurrence Matrix, GLCM)、局部二值模式(Local Binary Patterns, LBP)和颜色直方图(Color Histogram, CH)等浅层的纹理、结构和颜色特征提取方法^[8⇓-10],以及词袋模型(Bag of Words, BOW) 影像场景中层特征表示的方法^[11]均初步实现了场景的识别与分类。然而,不同于像素级影像分类中一个像素对应一个具体的类别,场景分类以影像切片为整体,其内部包含多个独立对象,比如机场内部包含的道路、飞机和建筑物等,而这些对象以不同的组合方式形成了复杂的场景类别^[12],为场景分类带来了巨大的挑战。近年来,深度学习因其自动提取影像深度特征的能力已在场景分类方法中取得了极大的进步。以卷积神经网络为代表的经典深度学习方法,则通过神经网络隐藏层提取影像深层次、抽象的代表性特征,在场景分类上具有明显的优势^[13-14]。因此,众多的研究者致力于研究利用深度学习方法实现遥感场景影像精确与高效的识别。例如,Lu等^[15]中基于特征聚合的卷积神经网络,得到场景影像更好的特征表示,其场景分类效果相比传统手工提取特征的方法有着极大的提升;Han等^[16]结合多尺度池化算法,基于AlexNet预训练模型的影像特征提取方法获取了较好的分类结果。对于复杂的遥感场景而言,场景内部的对象存在不同尺度分布特点,造成一般深度学习方式提取深度特征的不稳定,从而导致场景影像的错误分类,因此,Liu等^[17]将多个不同尺度的影像同时投入深度学习模型进行训练,相比单一尺度的场景分类方法取得了更好的效果。然而,当前多尺度特征提取方法通常以金字塔变换为基础,将每个尺度影像单独数据输入网络模型进行训练,造成计算资源和标签数据的浪费。对比式自监督学习方法^[18-19]通过对比影像自变换结果的相似度,自动学习数据内部包含的稳定特征表示,从而获取影像场景稳定的可区别特征^[20],大大降低了计算资源与标签数据的需求量。例如,Li等^[21]在提出的SCL-MLNet模型中引入了对比式自监督学习模块,在有限标签条件下增强了模型获取遥感场景影像代表性特征的能力。Vladan等^[22]通过对比式自监督学习方法计算相似场景影像的特征相似度,获取了场景影像稳定的特征表示,从而证明了自监督学习获取场景稳定特征在遥感场景分类任务中的有效性。因此,Ayush等^[23]除利用场景影像地理位置信息之外,引入了对比式自监督学习增强模型提取场景影像特征表达的能力,获取到了场景影像更稳定的深层特征。此外,Mañas等^[24]通过同一地区不同时相影像深层特征之间相似度的对比,有效获取到场景影像稳定的时相不变特征。Jung等^[25]利用空间相邻区域影像实现了更多输入影像特征之间的对比,并采用特征平滑的方式获取了场景影像空间稳定特征。Li等^[26]利用对比学习获取图像稳定特征的同时,结合金字塔融合机制获取到了图像的多尺度特征。虽然以上基于对比学习的遥感场景特征提取能够实现稳健特征计算,但仍然忽略了直接利用不同尺度影像之间的对比增强获取特征的稳定性。因此,如何挖掘出影像不同尺度下稳定的区别性特征成为进一步提升场景分类精度的关键问题。

然而,基于深度学习的场景分类任务严重依赖精确的人工标注,而复杂的场景影像标注需要巨大的人力物力以及时间成本,导致高质量标签的获取速度远远落后于遥感数据的获取速度,阻碍了遥感信息的自动提取。而弱监督学习能够充分利用有限的标注数据进行模型训练,降低精确标注数据的获取成本,实现稳定的预测^[27]。例如,Lu等^[28]受限于精确标注样本的数量,提出的弱监督学习模型NFANet充分利用了标注样本相邻的样本,实现了精确的水体边界提取。同样的,Yao等^[29]提出的SDSAE特征提取模型并结合弱监督学习模块利用有限标注样本实现了场景影像的语义标注,特别是弱监督学习模块有效的从大量无标注影像中学习其深层特征,显著降低了对大量精确标注样本的需求。此外针对弱监督学习过程中标注样本有限的问题,众多研究着力探索使用少量标签为无标注数据赋予标签,扩充可用于训练的标注样本。Zhu等^[30]提出的基于图的标签传播算法,通过标注样本与无标注样本构建图的方式,度量标注样本节点与为标注样本节点相似度,完成标签信息的传递,有效扩充了标签样本数量。Pan等^[31]利用基于图卷积神经网络的标签传播机制,有效解决了图像分割中有限标签的问题。同样的,Hong等^[32]使用跨模态深度学习框架,将少量标签扩充成大量有标签样本进行高光谱影像的分类,有效提升了标签扩充的效率。Wang等^[33]利用自训练的方式实现了无标注场景影像的标签扩充,同时通过约束扩充后标注样本初始权重的方式进一步提升场景影像标注样本的质量。此外,Han等^[30]考虑到不同结构模型提取场景影像特征的影响,训练2种不同结构的分类模型同时赋予无标注场景影像标签,增强无标注样本预测标签结果的稳定性。然而,以上方法扩充标注样本的过程中仍然不可避免地产生错误标注的样本,并且训练过程中累积的错误标注样本导致扩充的标注样本不准确,最终影响模型场景分类结果。

为了在获取场景影像尺度稳定特征的同时,进行高质量的标签扩充,实现有限标注样本下的遥感场景分类,受到对比学习和标签传播的启发,本文提出了一种多尺度对比学习标签传播下的弱监督学习场景分类模型(Multi-Scale Contrastive Learning Label Propagation based Weakly Supervised Learning, MSCLLP-WSL)。首先,考虑到尺度对场景分类的影响,本文使用对比学习的方式在大量多尺度的无标注数据中进行预训练,获取影像内部尺度稳定的信息;然后,在少量标签的支持下,重新训练该对比学习模型,使得模型能够学习少量标签带来的语义信息进行高效的样本扩充;最后构建弱监督场景分类模型,在此过程中使用扩充后的标注数据带来的语义信息的同时使用无标签数据进行一致性正则化,增强了模型的鲁棒性与泛化能力。本文提出的模型优点如下：

（1）构建了多尺度对比学习模型,利用自监督方式获取场景尺度不变信息,实现多尺度遥感场景特征准确提取;

（2）提出了MSCLLP-WSL遥感场景分类模型,利用预训练标签扩充策略,实现少量标签下的弱监督遥感场景分类。

2 研究方法

基于多尺度对比学习的弱监督场景分类模型MSCLLP-WSL结构如图1所示,首先通过多尺度对比学习的方式,在多尺度的无标签场景影像中学习影像的多尺度特征作为标签传播的前置任务;然后使用少量样本微调多尺度对比模型的微调用于标签传播生成大量高置信度标签;最终基于扩充后的样本标签用于弱监督网络的训练和预测,得到场景影像的分类结果。

显示原图|下载原图ZIP|生成PPT

图1 模型框架

Fig. 1 Framework diagram of the model

2.1 基于多尺度对比学习的遥感场景特征学习

假设场景数据集

D L = x i, y i i ∈ 1, …, N

,由样本

x i

以及对应的场景类别标签

y i

组成,N表示有标签样本的数量,将

D L

作为训练集,无标签场景数据集

D U = x i i ∈ N + 1, …, N + M

,其中M表示无标签样本数量,M的值远大于N。此外,同一场景下往往存在大量不同分辨率的影像,即

x ∈ x i 1, …, x i s

。为了充分利用无标签数据以及数据中各不同尺度的场景影像,利用不同尺度下场景对比学习策略获取场景影像尺度稳定特征。

具体来说,在相同尺度内任意选择数据集

D U

中样本数据

x i

通过旋转、裁剪和翻转等增强处理,将样本处理成2个具有相关关系的样本

x i 1

和

x i 2

,与另一样本

x k

构建正负样本对,并使用共享权重的自动编码器E提取样本特征

z i 1

、

z i 2

和

z k

,其中

z i 1 = E x i 1

、

z i 2 = E x i 2

和

z k = E x i 2

,最终使用投影的方式,即投影函数

P

,获取样本降维后的特征表示

h i 1

、

h i 2

和

h k

h i 1 = P z i 1

、

h i 2 = P z i 1

和

h k = P z i 1

。在此过程中,自动编码器E和投影函数

P

构成的多尺度对比模型

Φ M

使相同尺度下场景样本不同增强的特征表示与所有影像的特征表示进行对比,即

h i 1

和

h i 2

在特征空间中尽可能的相近,使得来自不同影像的样本特征表示

h i 1

和

h k

之间的距离尽可能地远,该距离衡量函数表示为：

（1）

s c o r e h i 1, h i 2 > > s c o r e h i 1, h k

式中：

s c o r e ·

代表样本在特征空间中的距离权重,其中

h i 1

和

h i 2

分别表示正样本对深层特征,

h k

表示负样本深层特征。为使正样本对深层特征在特征空间中距离尽可能相近,负样本对的深层特征在特征空间中距离尽可能的远,构造样本特征相似度之间的对比,通常使用区别函数即余弦相似度用于特征之间相似度的计算：

（2）

s i m h i 1, h i 2 = h i 1 ∙ h i 2 h i 1 h i 2

式中：

s i m ·

表示特征的余弦相似度计算。在此基础之上,利用自动编码器E以及投影函数P组成的网络

Φ M

提取所有场景样本的深层次特征,进行特征相似度度量。并基于所有样本相似度计算,构建模型

Φ M

的损失函数,并最小化损失：

（3）

L h i 1; h i 2; h k = - l o g e x p s i m h i 1, h i 2 / τ Σ k = 1 2 n 1 k ≠ i e x p s i m h i 1, h k / τ

式中：

h i 1

和

h i 2

分别表示一个批次数量为n的样本集中来源于同一样本不同增强处理的影像特征,而

h k

表示是样本集中来源于不同样本的特征,

τ

表示温度系数,

1 k ≠ j

是指示函数,当

k ≠ j

时指示函数值为1,否则值为0。在

h i 1

和

h i 2

位置互换的情况下再次计算同一对样本的损失,即当前尺度下不同变换影像的损失为：

（4）

L s c a l e = L h i 1; h i 2; h k + L h i 2; h i 1; h k

式中：

L s c a l e

表示单一尺度下影像损失函数。对于N个尺度的遥感影像,构造的多尺度对比损失为不同尺度的损失之和,即

L = 1 N ∑ n = 1 N L s c a l e n

,自适应学习不同尺度场景影像尺度稳定特征。训练得到的多尺度对比模型

Φ M

作为场景分类模型

Φ

与标签传播模型

Φ L P

的主干网络以获取场景影像稳定的特征表示。

2.2 高置信标签传播下的弱监督遥感场景分类

为实现少量标注样本下的遥感场景分类目标,本文提出的MSCLLP-WSL弱监督场景分类模型。首先,基于多尺度对比学习的标签传播模块扩充样本,使用扩充后的样本重新训练场景分类模型,同时利用无标签数据之间的一致性正则化提升模型的分类效果与鲁棒性。

具体而言,标签传播模块

Φ L P

使用少量标签样本以及无标签样本微调多尺度对比学习模型

Φ M

中自动编码器E和投影函数P中的初始参数

θ 0

,并将参数更新为标签传播阶段的参数

θ L P

,其过程可以表示为：

（5）

y ˆ u = Φ L P θ 0 → θ L P; x i, y i n = 1 N ⋃ x j j = N + 1 N + M

式中：

x i

和

y i

分别表示标注样本及其对应的标签,

x j

表示无标注样本。标签扩充过程中,对于无标签场景数据集

D U

中的任一样本

x u

,被标签传播模块

Φ L P

分类为场景类别

y ˆ u

,当类别概率满足

P y ˆ u = y u > P t

x u

作为扩充后的样本;

P t

为设定的类别概率置信度阈值,

y u

为被赋予的标签,最终标签传播模块

Φ L P

为场景分类模型带来S个高置信度样本,与原始标签数据共同作为新的标签集合X。标注样本集X扩充过程如下：

（6）

x u, y ˆ u → x u, y u

（7）

X = x i, y i ⋃ x u, y u | i ∈ 1, N; u ∈ N + 1, N + S

对于分类模型

Φ

,为充分利用标注数据以及无标注数据,模型损失函数则由监督损失和无监督损失两部分组成,监督损失中使用扩充后的样本集X进行监督训练,监督损失使用交叉熵损失函数,即：

（8）

L s θ L P → θ w; x i x, y i x x = 1 N + S = 1 N + S ∑ i = 1 N + S H Φ x i, y i

式中：

x i x

表示标签集合X中的标注样本,并且对应的标签为

y i x

,其数量为

N + S

;

H ·

表示交叉熵损失函数;

θ L P

表示标签传播过程中学习到的参数,

θ w

则表示在弱监督分类任务中模型

Φ

学习的参数。而无监督损失则使用无标签数据集进行训练。无标签数据训练的无监督损失则需要分别对输入的同一遥感场景影像进行两次不同的变换处理,并且使用分类模型获取二者变换后影像的预测结果,使得二者之间的结果尽可能的保持一致,根据2次不同变换后影像预测结果的交叉熵进行判断：

（9）

L u θ L P → θ w; x j m m = 1 M = 1 M ∑ j = 1 n 1 m a x (p) > t H Φ A (x i), Φ A' (x i)

式中：

x j m

则表示无标注样本,数量为

M

;

A (x i)

和

A' (x i)

表示对同一影像不同的变换方式,分别称为弱增强以及强增强;

1 ·

表示指示函数,当无标签数据的弱增强处理后的影像类别概率大于阈值t时,指示函数值为1,当类别概率小于t时,指示函数值为0。

Φ ∙

为分类网络的预测结果。弱监督场景分类模型

Φ

完整的损失函数由

λ

控制监督损失和无监督损失的比例,即：

（10）

L = L s + λ L u

最终利用式（10）中损失函数训练完成的分类模型

Φ

,其监督损失和无监督损失使得模型在少量样本下的遥感场景影像分类有着更高的性能以及稳定性。

3 实验数据与参数设置

为了评估本文提出的MSCLLP-WSL模型（算法1）的有效性,分别在2个公开数据集AID数据集^[34]和NWPU-RESISC45数据集^[2]上进行一系列的实验,2种数据集的内容描述如表1所示。以下将分别对实验数据、评价方法和参数设置进行详细介绍。

表1 数据集

Tab. 1 Dataset

数据集名称	AID	NWPU-RESISC45
类别数	30	45
单类别影像数/个	220~420	700
空间分辨率/m	8~0.5	30~0.2
影像尺寸	600×600	256×256
影像总数/张	10 000	31 500

3.1 数据集介绍

其中Aerial Image dataset (AID)数据集是由武汉大学和华中科技大学在2017年共同发布的大型遥感场景影像数据集。该数据集获取影像传感器不同,成像时间存在差异,导致场景内部结构复杂,类别众多。其中包含30个不同类别的场景数据,每类影像的数量为220~420张,每张影像为600像素×600像素大小,空间分辨率为0.5~8 m,总数量达到 10 000张。其样本示例如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 AID数据集部分场景样本示例

Fig. 2 Scene image examples of AID dataset

第二个数据集是NWPU-RESISC45数据集,该数据集是由西北工业大学发布的全球超过100个国家和地区的遥感影像数据集。数据集中包括45个不同类别的场景影像,每类700张,数据集内部总的影像数量达到了31 500张,每张影像为256像素×256像素大小,影像空间分辨率为0.2~30 m。数据集样本示例如图3所示。

显示原图|下载原图ZIP|生成PPT

图3 NWPU-RESISC45数据集部分场景样本示例

Fig. 3 Scene image examples of NWPU-RESISC45 dataset

算法1 MSCLLP-WSL模型

输入：
有标签场景数据集

D L

D L = x i, y i i ∈ 1, …, N

无标签场景数据集

D U

D U = x i i ∈ N + 1, …, N + M

初始化自动编码器E和投影函数P,构建多尺度对比模型

Φ M

多尺度对比学习：
1．构建同一尺度影像正负样本对

x i 1

x i 2

和

x k

2．获取样本深度特征

h i 1

、

h i 2

和

h k

3．使用式(2),计算

h i 1

、

h i 2

h k

和相似程度

s i m ·

4．利用式(3)与式(4),计算所有正负样本相似度,构建对比损失函数

L s c a l e

5．构建多尺度对比损失函数

L = 1 N ∑ n = 1 N L s c a l e n

6．多尺度对比模型

Φ M

更新参数至

θ 0

高置信标签传播下的弱监督遥感场景分类：
7．模型

Φ M

构建标签传播模型

Φ L P

,初始参数

θ 0

8．

D L

D U

训练模型

Φ L P

,参数

θ 0

更新至

θ L P

9．如式(6)和式(7),当

P y ˆ u = y u > P t

x u, y ˆ u → x u, y u

10．

x u, y u

扩充标注样本集

D L

至X
11．

Φ L P

构建弱监督场景分类模型

Φ

,初始参数为

θ L P

12．样本集X以及

D U

训练模型

Φ

13．模型

Φ

训练完成
输出：无标注场景影像的标签

3.2 样本与参数设置

本文提出的MSCLLP-WSL遥感场景分类模型分为3个阶段。首先,在多尺度对比学习阶段,分别使用以上2种数据集内所有的样本作为无标签样本训练出多尺度对比学习模型,获取场景影像的尺度不变特征;然后,使用少量标注样本用于微调已经训练完成的多尺度对比学习模型,用于标签数据的生成;最后基于扩充后的样本参与弱监督场景分类模型训练。

在进行多尺度对比学习时,为进一步验证尺度参数对模型性能的影响,本文设置多种对比学习尺度参数,测试不同尺度参数对标签传播模型的影响,确定多尺度对比学习中合适的尺度参数。以NWPU-RESISC45数据集为实验数据集,将10%无标注样本构建多尺度样本用于多尺度对比学习训练,同时使用1%标注样本训练标签传播模型,对比不同尺度参数对标签传播模型的影响。如表2所示,过大或过小的尺度参数都会导致标签传播模型性能的降低,当进行对比学习的尺度参数设置为3时,标签传播模型取得了最优的结果。因此,本文将采用对场景影像裁剪后重采样的方式,构建场景影像3种尺度的对比学习模型。

表2 尺度个数参数N对标签传播的精度影响

Tab. 2 The effect of the number of scales parameter on the accuracy of label propagation

	尺度个数参数
	N=1	N=2	N=3	N=4	N=5
精度	0.7085	0.7093	0.71288	0.7031	0.6873
训练时长/h	1.24	2.36	3.40	4.40	6.00

此外,为模拟少量标注样本的情况,本文分别使用1%、5%和10%标注样本进行模型的训练。同时本文模型使用了无标注样本进行训练,所以考虑到无标注样本数量对模型精度的影响,在NWPU-RESISC45数据集上创建从10%~90%共9个不同比例的无标签样本参与训练,验证无标注样本比例对模型性能的影响以确定参与训练的无标注样本数量。基于多尺度实验结果,选择3个尺度进行多尺度对比学习预训练,1%标注样本用于标签传播阶段训练,使用扩充后的标注样本以及不同比例的无标注样本进行场景分类模型训练。结果如表3所示,在10%~60%的无标注样本下,随着样本数量的增多模型分类精度逐渐提高,而无标注样本数量超过60%则会为模型带来更多的不确定信息,分类精度无法有效提升。同时,为了避免不同阶段样本的重复使用,对样本进行均等划分,即标签传播阶段、模型训练阶段以及验证阶段各自分配30%样本。

表3 不同比例无标注样本模型分类精度

Tab. 3 Classification accuracy at different ratio of unlabeled sample

	无标注样本
	10%	20%	30%	40%	50%	60%	70%	80%	90%
分类精度/%	82.94	83.88	84.2	85.16	85.7	85.72	84.85	85.83	84.74

基于以上实验结果,本文通过对所有场景影像使用3种不同尺度的影像进行对比学习,用于学习影像尺度稳定的特征。在标签传播阶段,分别使用1%,5%和10%的标注影像以及30%无标注影像微调多尺度对比学习阶段的模型,生成大量高质量标签。在场景分类阶段基于FixMatch^[35]网络结构,使用标签传播阶段扩充后的标注影像与30%无标注影像共同作为训练样本进行场景分类模型的训练,另外选择数据集中剩余的30%的样本用于精度评估。以AID数据集为例,在多尺度对比学习阶段,使用数据集内部10000张场景影像删除标签后全部用于预训练;同时,在5%的标注样本条件下,即总共500张影像用于微调训练完成的多尺度对比学习模型对30%无标注样本进行标签传播。最终在弱监督场景分类模型阶段重复使用扩充后的5%的标注样本以及生成的高质量标注数据作为新的标签数据与30%无标注样本一起用于训练,另选30%的样本用于评估模型取得的效果,实现在完整场景分类过程中仅使用5%的标注样本。

同时,为进一步提升模型的效果,本文选择Wideresnet50^[36]作为主干网络,Wideresnet50相比一般的Resnet模型,更宽的结构使得模型拥有更好的性能以及更快的训练速度。在对比实验中,选择VGG16^[37]、Wideresnet50模型以及基于VGG16主干网络的SCCov模型^[38]作为基准模型,分别在每种数据集上与本文模型进行结果的对比。训练阶段使用1%,5%,10%的标注样本进行对比实验,另外使用30%的样本用于精度验证,其训练参数设置如表4所示。

表4 Vgg16、Wideresnet50和SCCov模型训练参数设置

Tab. 4 Training Parameters setting of Vgg16, Wideresnet50 and SCCov model

基准模型	迭代次数	批尺寸	标注样本	学习率	权重衰减	优化方法	参数量
Vgg16	800(Epoch)	20	1%/5%/10%	0.001	0.0005	SGD	138M
Wideresnet50	800(Epoch)	20	1%/5%/10%	0.001	0.0005	SGD	67M
SCCov(Vgg16)	200(Epoch)	64	1%/5%/10%	0.001	0.0005	Adagrad	13M

受样本数量的限制,本文采用图像增强的方式进行数据扩充,增加可用训练样本数量。对比学习、标签传播以及弱监督训练过程中都使用了图像变换以及图像增强的方式,特别是在对比学习中,采用两种不同的图像变化方式能够从同一尺度影像中学习到尺度稳定的特征表示,因此本文选择了与SimCLR^[15]中相似的图像增强方式用于处理参与训练的样本,处理方式包括水平翻转、随机裁剪、标准化、亮度、对比度和饱和度变化等。

本文模型采用ImageNet数据集上完成预训练的Wideresnet 50作为多尺度对比学习的主干网络,以及使用具有多个隐藏层的多层感知机用于特征降维,使更多的信息能够从自动编码器特征保留至最终影像的特征表示。对于模型的超参数设置在多尺度对比学习阶段,批尺寸Batch size为28;以完整数据集训练一次为一个训练轮次（Epoch）,Epoch设置为500次,学习率设置为0.001,权重衰减为0.0001,温度系数为0.1,优化算法使用SGD方法。在标签传播阶段和弱监督训练阶段参数设置相同,有标签数据的Batch size设置为40,无标签数据的Batch size大小设置为64,以使用Batch size大小的数据训练一次记为一次迭代（Iteration）,迭代次数设置为30 000次,学习率设置为0.001,权重衰减为0.0005。

以上实验采用CentOS 7.6操作系统,Pytorch深度学习开发框架的CUDA-GPU加速,python版本3.7。显卡采用2张NVIDIA Tesla 100 (16G显存)进行GPU加速。其他硬件采用Intel(R) Xeon(R) Gold 5118 CPU, 256 G内存等。

3.3 评价方法

为更好的评估分类的结果,本文选择两种常用的精度评价方法,分别为总体精度和混淆矩阵。总体精度计算方式为正确分类样本与总体样本数量的比值。混淆矩阵则通常需要统计每一类别中正确分类样本的数量以及错误分类为其他样本的数量,显示每类的分类精度。同时,为了获取更为可靠的实验结果,本文分别在以上2种数据集上完整的进行5次实验,每次实验随机获取训练数据集和验证数据集,并将5次实验得到验证结果的平均值和标准差作为最终的实验结果。

4 结果与分析

4.1 AID数据集实验结果与分析

对于AID数据集,分别在1%、5%和10% 3种不同标注样本比例下测试本文模型和其他3种基准模型分类精度并进行横向对比,实验结果如表5所示。本文提出的MSCLLP-WSL模型取得了最好的实验结果。例如,仅在1%的标注样本下,即每类样本仅包含2~4张标注影像,MSCLLP-WSL模型分类的总体精度达到了85.85%,相比其他基准模型的分类结果有着明显的提升。对比微调后的VGG16模型,本文模型实现36.8%的分类精度提升;对比微调后的Wideresnet50模型总体精度为63.05%,本文模型的分类精度实现了22.8%的提升。相比于SCCov模型,本文模型分类精度也有着30%以上的提升。在5%与10%比例的标注样本下,本文模型的分类精度相比于其他基准模型存在明显的优势,只有本文模型的总体分类精度超过了90%,并且在5%标注样本下,本文模型相较其他基准模型至少存在9.22%的提升,在10%标注样本下,本文模型至少存在5.9%的提升。这表明本文提出的MSCLLP-WSL模型在少量标注样本下场景分类的有效性。

表5 AID数据集上不同模型获取的总体精度结果比较

Tab. 5 Comparison of OA(%) results obtained by different models on the AID dataset

主干网络	方法	总体精度OA (Avg±Std)/ %
主干网络	方法	1%标注样本	5%标注样本	10%标注样本
VGG16	微调	49.05±2.39	79.06±0.85	86.86±1.03
Wideresnet50	微调	63.05±1.84	84.72±0.8	89.75±0.4
VGG16	SCCov	51.38±0.16	81.8±0.76	85.85±1.27
Wideresnet50	本文模型	85.85±1.95	93.94±0.67	95.65±0.42

此外,为了更好地显示本文模型在少量标注样本条件下分类的结果,如图4和表6所示,展示了1%标注样本下MSCLLP-WSL模型部分场景分类结果的混淆矩阵和10%标注样本下模型的单类别分类精度。图4表示的混淆矩阵展示了部分高分类精度的场景类别和部分易于混淆的场景类别,从图5中可以看出棒球场、山、停车场和高架桥4类场景的分类精度达到了100%,而裸地、中心、密集居住区、农田、度假村等场景分类精度较低,较易发生错分现象。同时,从表6可以看到,在10%标注样本下模型对25类场景的单类别分类精度超过了90%,并且6类场景的分类精度达到了100%。而在度假村、学校以及广场表现出了相对较多的错分现象,这是因为这些场景内部结构相似,对象易于混淆。特别是内部包含较多的对象的度假村场景,与其他场景内部的结构和包含的对象相似,如图5所示,不同风格的度假村包含泳池、建筑和植被等多种不同的对象,导致度假村场景的错误分类,并根据其内部包含的对象主要被错误分类为沙滩、公园、中型住宅等场景。同样的因为场景内部相似的对象以及空间结构,导致多种场景的分类精度有所降低,例如中心、广场、学校等场景,本文提出的模型较易发生错误分类。然而,对于以不同尺度的对象来说,比如储罐以及稀疏住宅等场景,其内部存在的储罐,住宅等对象尺度不一,本文关注影像的多尺度特性使得在这些场景上的分类精度较高,例如在储罐以及稀疏住宅的分类精度达到了96%。

显示原图|下载原图ZIP|生成PPT

图4 AID数据集1%标注样本下部分类别混淆矩阵

Fig. 4 Confusion matrix of partial categories under 1% labeled sample of AID dataset

表6 AID数据集10%标注样本下单类别分类精度

Tab. 6 Classification accuracy of each category under 10% labeled samples in the AID dataset

类别	精度	类别	精度	类别	精度	类别	精度	类别	精度
机场	0.991	教堂	0.931	工业区	0.974	操场	1	学校	0.878
裸地	0.978	商业区	0.962	草地	0.976	池塘	0.968	稀疏住宅	0.989
棒球场	0.970	密集居住区	0.943	中型住宅	0.967	港口	1	广场	0.838
沙滩	0.983	沙漠	0.989	山	1	火车站	0.885	体育馆	0.977
桥梁	1	农田	0.982	公园	0.962	度假村	0.770	储罐	0.972
中心	0.808	森林	0.973	停车场	1	河流	0.976	高架桥	1

显示原图|下载原图ZIP|生成PPT

图5 度假村相似场景样本示例

Fig. 5 Some sample scenes similar to resort

4.2 NWPU-RESISC45数据集实验结果与分析

相比于AID数据集,NWPU-RESISC45数据集具有更丰富的场景类别以及更高的类间相似度,为场景分类任务带来了巨大的挑战。本文同样开展了1%、5%和10%比例标注样本下本文模型与其他基准模型分类精度的横向对比,实验结果如表 7所示,在少量标注样本下,本文提出的MSCLLP-WSL模型在场景分类的精度上达到了最优。整体而言,如表5和表7结果所示,不同数据集之间随着数据集内部场景类别的增加,本文提出的场景分类模型在NWPU-RESISC45数据集上的分类效果相比AID数据集分类精度有所降低,但与其他基准分类模型相比,仍然具有显著的优势。例如,在5%和10%标注样本条件下,本文模型在NWPU-RESISC45数据集上实现了93.67%和95.47%的分类精度,与其他3种基准模型相比,至少存在8.05%和6.12%的分类精度提升。在标注样本更有限的条件下,即1%标注样本条件下,数据集中每类样本中仅有7张影像参与训练,本文模型实现了87.38%的分类精度,而本文模型与微调的VGG16模型和微调的Wideresnet50模型相比分类精度分别提升了35.63%和19.35%。同样的,与VGG16作为主干网络的SCCov模型相比,本文模型精度提升了20%以上,这充分证明了本文模型在大型场景数据集中利用少量标注样本即可实现较高分类精度,显著提升场景分类精度。

表7 NWPU-RESISC45数据集上不同模型获取的总体精度结果比较

Tab. 7 Comparison of overall accuracy results obtained by different models on the NWPU-RESISC45 dataset

主干网络	方法	总体精度OA (Avg±Std)/%
主干网络	方法	1%标注样本	5%标注样本	10%标注样本
VGG16	微调	51.73 ± 3.18	80.18 ± 0.63	85.89 ± 0.64
Wideresnet50	微调	68.03 ± 0.73	84.06 ± 0.08	89.35 ± 0.36
VGG16	SCCov	63.80 ± 1.04	85.62 ± 0.40	89.20 ± 0.60
Wideresnet50	本文模型	87.38±0.61	93.67±0.20	95.47±0.17

注：蓝色加粗内容表示本文模型对比基准模型达到了最优。

同时为了更好的展示少量样本下MSCLLP-WSL场景分类的效果的稳定性,如图6展示的1%标注样本下模型部分场景类别分类结果的混淆矩阵。该混淆矩阵展示了部分分类精度高的场景类别以及易于混淆的场景类别,从图中可以看到,机场、灌木丛、高尔夫球场、田径场、港口、矩形农田等场景的分类精度都超过了90%,尤其是灌木丛和港口2种类别的场景分类精度达到了100%;对于分类错误的场景类别,从混淆矩阵中可以看出,宫殿主要错误分类为教堂。同样的,教堂也主要错分为宫殿和商业区,这是因为宫殿类和教堂类场景内部的建筑对象以及空间格局相似,如图 7所示,模型容易造成误判。与此同时,由于火车站和铁路内部结构相似,相对更容易混淆,在这类场景上的分类精度有所降低。而在10%标注样本下,由表 8可以看出众多场景的单类别分类精度都有所提升,特别是在相同比例标注样本条件下,AID数据集有五类场景的分类精度低于90%,而NWPU-RESISC45数据集仅有4类场景的分类精度低于90%,在数据量更大,类间相似度更高,类内差异更大的条件下实现了更稳定的分类结果,这有效证明了本文提出的模型在少量标注样本条件下对大型复杂场景数据的有效处理能力和稳定性。

显示原图|下载原图ZIP|生成PPT

图6 NWPU-RESISC45数据集1%标注样本下部分类别混淆矩阵

Fig. 6 Confusion matrix of partial categories under 1% labeled sample of NWPU-RESISC45 dataset

显示原图|下载原图ZIP|生成PPT

图7 NWPU-RESISC45数据集中相似场景示例

Fig. 7 Examples of similar scenes in the NWPU-RESISC45 dataset

表8 NWPU-RESISC45数据集10%标注样本下单类别分类精度

Tab. 8 Classification accuracy of each category under 10% labeled samples in the NWPU-RESISC45 dataset

类别	精度	类别	精度	类别	精度	类别	精度	类别	精度
十字路口	0.976	圆形农田	0.986	港口	0.981	宫殿	0.776	船	0.986
飞机	0.986	云	0.995	工业区	0.962	停车场	0.967	雪山	0.971
机场	0.962	商业区	0.933	岛	0.971	铁路	0.910	稀疏住宅	0.943
棒球场	0.990	密集住宅	0.890	湖泊	0.943	火车站	0.914	体育场	0.981
篮球场	0.981	沙漠	0.914	草地	0.910	矩形农田	0.924	储罐	0.990
海滩	0.948	森林	0.976	中型住宅	0.924	河流	0.967	网球场	0.976
桥梁	0.938	高速公路	0.848	移动住宅	1.000	交通枢纽	0.990	梯田	0.981
灌木丛	1.000	高尔夫球场	0.986	山	0.971	跑道	0.952	火电站	0.971
教堂	0.905	田径场	0.971	立交桥	0.976	海冰	0.971	湿地	0.843

4.3 注意力图像可视化

为了进一步的分析MSCLLP-WSL模型性能,验证模型进行场景分类时的有效性,以及分析导致模型错误分类的原因,本文可视化了模型隐藏层的特征表示,用于观察模型在场景影像内部的行为以及模型最为关注的影像区域。为了更好的显示模型隐藏层重点关注的影像区域,本文使用Wang等^[39]提出的更聚焦,背景噪声相对较少的Score-CAM方法,用于显示本文模型所用的主干网络第4个卷积组输出的深度特征,在注意力图像中颜色越深的区域代表模型更为关注的区域。

以AID数据集为例显示了本文模型主干网络Wideresnet50的第4个卷积组的特征输出的可视化结果,同时输出模型预测正确以及预测错误时的注意力图像。在正确分类的场景影像中,如图8所示,对于图中的池塘类场景,模型在深层网络中正确的关注位于影像中间的池塘区域,而忽略了池塘周围的背景信息。同样的,在河流类场景中,模型更为关注影像中河流所在的区域,而忽略了河流周边的草地、农田和建筑等无关区域。这表明模型倾向于关注能够获取场景中包含类别代表性信息的区域,同时利用深层结构从场景的代表性区域中学习到显著的区别性信息,这与人眼识别场景的过程以及关注区域相同,从而实现了准确的分类。

显示原图|下载原图ZIP|生成PPT

图8 场景影像注意力图像可视化结果

注：第一行为原图像,第二行为叠加注意力图像的场景影像,其中颜色越深表示模型更为关注的区域。

Fig. 8 Attention map visualization results of scene images

然而有些场景内部复杂的结构以及多种不同的对象,在人眼无法准确识别的情况下,模型同样无法进行有效的识别。如图9所示,模型关注的区域与其他类场景的对象相似度更高,造成了模型的错误分类。例如图中森林类场景的注意力图像显示模型更为关注影像中道路的区域,并且因为该道路的形状与河流类似,导致模型将该场景影像错误的识别为河流类场景。同样的,图中桥梁类场景的注意力图显示,模型关注的区域从场景边缘的桥梁偏移到场景内部的河流上,忽略了桥梁所在的区域,因此模型错误地将该桥梁场景识别为池塘类场景。

显示原图|下载原图ZIP|生成PPT

图9 错误分类场景影像注意力图像可视化结果

注：第一行为原图像,第二行为叠加注意力图像的场景影像,其中颜色越深表示模型更为关注的区域。

Fig. 9 Attention map visualization results of misclassified scene images

为进一步分析场景内部不同尺度对象对分类结果的影响,如图10所示,本文展示了模型在不同尺度场景内的注意力图像,图中上半部分与下半部分分别表示相同的对象以不同尺度出现在同一场景内部。可以看到在不同场景影像中,模型重点关注的区域仍然是场景内部具有代表性对象的区域,而忽略了场景内部对提取尺度稳定特征不重要的区域。比如稀疏住宅,建筑物以不同尺度出现于场景内部,模型主要关注建筑物所在的区域;对于桥梁类场景,模型重点关注桥梁对象,忽略了桥梁周边大范围的河流区域。储罐类场景注意力图像仍然显示模型关注的区域较少受到尺度变化的影像,而准确的关注于储罐对象所在的区域。

显示原图|下载原图ZIP|生成PPT

图10 不同尺度场景影像注意力图像可视化结果

Fig. 10 Visualization results of attention images of scene images at different scales

5 结论

本文基于AID数据集和 NWPU-RESISC45数据集,通过不同尺度场景影像深层特征之间的对比,结合标签扩充模块,构建了基于多尺度对比学习的弱监督遥感场景分类方法MSCLLP-WSL,并在有限标注样本条件下在2种公开数据集内进行了一系列对比实验。本文主要结论如下：

（1）基于多尺度对比学习方法在无标注样本条件下获取了场景影像稳定的特征表示,有效提升标签传播生成标签质量。本文利用预训练的卷积神经网络在不同尺度场景影像上的对比学习,提高了模型获取多尺度场景稳定特征的能力。其次,基于多尺度对比学习,利用少量标注样本对模型进行重新训练,有效补充了模型对场景影像语义信息的获取,实现了高效的标签传播过程。

（2）基于多尺度对比学习以及标签传播模块构建的弱监督场景分类模型能有效提升有限标注样本下场景分类精度。本文分别在AID以及NWPU-RESISC45这两个公开数据集上进行了一系列对比试验,包括以1%、5%和10% 3种不同比例标注样本模拟有限标注样本,并与其他基准模型分类精度进行对比。实验结果表明本文提出的MSCLLP-WSL弱监督场景分类模型能充分利用有限的标注数据与无标注数据,实现了少量标注样本下复杂遥感场景的精确识别与分类。

综上,本文提出的基于多尺度对比学习的遥感场景弱监督分类方法能够有效提升复杂场景影像分类精度,与其他基准模型的对比实验中取得了最高的分类精度,证明了本文模型在有限标注样本下场景影像分类的能力。未来的研究将致力于解决更复杂场景内部具有相似内容和相似格局带来的分类混淆的问题,进一步提升场景分类的精度。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Neumann M, Pinto A S, Zhai X, et al. In-domain representation learning for remote sensing[J]. arXiv preprint, 2019:1911-6721.

[2]	Cheng G, Han J W, Lu X Q. Remote sensing image scene classification: Benchmark and state of the art[J]. Proceedings of the IEEE, 2017, 105(10):1865-1883. DOI: 10.1109/JPROC.2017.2675998 DOI

[3]	Boualleg Y, Farah M. Enhanced interactive remote sensing image retrieval with scene classification convolutional neural networks model[C]// IGARSS 2018-2018 IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2018:4748-4751. DOI: 10.1109/IGARSS.2018.8518388 DOI

[4]	Huang X, Han X P, Ma S, et al. Monitoring ecosystem service change in the City of Shenzhen by the use of high-resolution remotely sensed imagery and deep learning[J]. Land Degradation & Development, 2019, 30(12):1490-1501. DOI: 10.1002/ldr.3337 DOI

[5]	Shi C P, Wang T, Wang L G. Branch feature fusion convolution network for remote sensing scene classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13:5194-5210. DOI: 10.1109/JSTARS.2020.3018307 DOI

[6]	Li Y S, Zhang Y J, Huang X, et al. Deep networks under scene-level supervision for multi-class geospatial object detection from remote sensing images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 146:182-196. DOI: 10.1016/j.isprsjprs.2018.09.01 DOI

[7]	Chen C Y, Gong W G, Chen Y L, et al. Object detection in remote sensing images based on a scene-contextual feature pyramid network[J]. Remote Sensing, 2019, 11(3):339. DOI: 10.3390/rs11030339 DOI

[8]	Hafner J, Sawhney H S, Equitz W, et al. Efficient color histogram indexing for quadratic form distance functions[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1995, 17(7):729-736. DOI: 10.1109/34.391417 DOI

[9]	Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7):971-987. DOI: 10.1109/TPAMI.2002.1017623 DOI

[10]	Lan Z Y, Liu Y. Study on multi-scale window determination for GLCM texture description in high-resolution remote sensing image geo-analysis supported by GIS and domain knowledge[J]. ISPRS International Journal of Geo-Information, 2018, 7(5):175. DOI: 10.3390/ijgi7050175 DOI

[11]	Zhao L J, Tang P, Huo L Z. Feature significance-based multibag-of-visual-words model for remote sensing image scene classification[C]// 2016:035004. DOI: 10.1117/1.JRS.10.035004 DOI

[12]

何小飞, 邹峥嵘, 陶超, 等. 联合显著性和多层卷积神经网络的高分影像场景分类[J]. 测绘学报, 2016, 45(9):1073-1080.

[ He

X F

, Zou

Z R

, Tao

, et al. Combined saliency with multi-convolutional neural network for high resolution remote sensing scene classification[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(9):1073-1080. ] DOI: 10.11947/j.AGCS.2016.20150612

DOI

[13]

郑海颖, 王峰, 姜维, 等. 神经网络训练策略对高分辨率遥感图像场景分类性能影响的评估[J]. 电子学报, 2021, 49(8):1599-1614.

DOI

[ Zheng

H Y

, Wang

, Jiang

, et al. Evaluation of the effect of neural network training tricks on the perfor? mance of high-resolution remote sensing image scene classification[J]. Acta Electronica Sinica, 2021, 49(8):1599-1614. ] DOI: 10.12263/DZXB.20200961

DOI

[14]

钱晓亮, 李佳, 程塨, 等. 特征提取策略对高分辨率遥感图像场景分类性能影响的评估[J]. 遥感学报, 2018, 22(5):758-776.

[ Qian

X L

, Li

, Cheng

, et al. Evaluation of the effect of feature extraction strategy on the performance of high-resolution remote sensing image scene classification[J]. Journal of Remote Sensing, 2018, 22(5):758-776. ] DOI: 10.11834/jrs.20188015

DOI

[15]	Lu X Q, Sun H, Zheng X T. A feature aggregation convolutional neural network for remote sensing scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(10):7894-7906. DOI: 10.1109/TGRS.2019.2917161 DOI

[16]	Han X B, Zhong Y F, Cao L Q, et al. Pre-trained AlexNet architecture with pyramid pooling and supervision for high spatial resolution remote sensing image scene classification[J]. Remote Sensing, 2017, 9(8):848. DOI: 10.3390/rs9080848 DOI

[17]	Liu Y F, Zhong Y F, Qin Q Q. Scene classification based on multiscale convolutional neural network[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(12):7109-7121. DOI: 10.1109/TGRS.2018.2848473 DOI

[18]	Chen T, Kornblith S, Norouzi M, et al. A simple framework for contrastive learning of visual representations: International conference on machine learning, 2020[C]// Proceedings of the 37th International Conference on Machine Learning, PMLR 119, 2020:1597-1607.

[19]	He K M, Fan H Q, Wu Y X, et al. Momentum contrast for unsupervised visual representation learning[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020: 9726-9735. DOI: 10.1109/CVPR42600.2020.00975 DOI

[20]	Chen Y X, Bruzzone L. Self-supervised change detection in multiview remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60:1-12. DOI: 10.1109/TGRS.2021.3089453 DOI

[21]	Li X M, Shi D Q, Diao X L, et al. SCL-MLNet: Boosting few-shot remote sensing scene classification via self-supervised contrastive learning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60:1-12. DOI: 10.1109/TGRS.2021.3109268 DOI

[22]	Stojnić V, Risojević V. Self-supervised learning of remote sensing scene representations using contrastive multiview coding[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2021:1182-1191. DOI: 10.1109/CVPRW53098.2021.00129 DOI

[23]	Ayush K, Uzkent B, Meng C L, et al. Geography-aware self-supervised learning[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2021:10161-10170. DOI: 10.1109/ICCV48922.2021.01002 DOI

[24]	Mañas O, Lacoste A, Giró-i-Nieto X, et al. Seasonal contrast: Unsupervised pre-training from uncurated remote sensing data[J]. 2021 IEEE/CVF International Conference on Computer Vision (ICCV), 2021:9394-9403. DOI: 10.1109/ICCV48922.2021.00928 DOI

[25]	Jung H, Oh Y, Jeong S, et al. Contrastive self-supervised learning with smoothed representation for remote sensing[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19:1-5. DOI: 10.1109/LGRS.2021.3069799 DOI

[26]

, Li

, Eliceiri

K W

. Dual-stream multiple instance learning network for whole slide image classification with self-supervised contrastive learning[J]. Conference on Computer Vision and Pattern Recognition Workshops IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, 2021, 2021:14318-14328. DOI: 10.1109/CVPR46437.2021.01409

DOI

[27]	Zhou Z H. A brief introduction to weakly supervised learning[J]. National Science Review, 2017, 5(1):44-53. DOI: 10.1093/nsr/nwx106 DOI

[28]	Lu M, Fang L Y, Li M X, et al. NFANet: A novel method for weakly supervised water extraction from high-resolution remote-sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60:1-14. DOI: 10.1109/TGRS.2022.3140323 DOI

[29]	Yao X W, Han J W, Cheng G, et al. Semantic annotation of high-resolution satellite images via weakly supervised learning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(6):3660-3671. DOI: 10.1109/TGRS.2016.2523563 DOI

[30]	Zhu X, Ghahramani Z. Learning from labels and unlabeled data with label propagation[J]. Tech Report, 2002, 3175(2004):237-244. DOI: 10.1007/978-3-540-28649-3_29 DOI

[31]	Pan S Y, Lu C Y, Lee S P, et al. Weakly-supervised image semantic segmentation using graph convolutional networks[C]// 2021 IEEE International Conference on Multimedia and Expo. IEEE, 2021:1-6. DOI: 10.1109/ICME51207.2021.9428116 DOI

[32]	Hong D F, Yokoya N, Xia G S, et al. X-ModalNet: A semi-supervised deep cross-modal network for classification of remote sensing data[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2020, 167:12-23. DOI: 10.1016/j.isprsjprs.2020.06.014 DOI

[33]	Wang C, Shi J, Ni Y K, et al. Semi-supervised learning-based remote sensing image scene classification via adaptive perturbation training[C]// IGARSS 2020-2020 IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2020:541-544. DOI: 10.1109/IGARSS39084.2020.9323430 DOI

[34]	Xia G S, Hu J W, Hu F, et al. AID: A benchmark data set for performance evaluation of aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7):3965-3981. DOI: 10.1109/TGRS.2017.2685945 DOI

[35]	Sohn K, Berthelot D, Li C L, et al. FixMatch: Simplifying Semi-Supervised Learning with Consistency and Confidence[J]. arXiv preprint, arXiv: 2001.07685, 2020.

[36]	Zagoruyko S, Komodakis N. Wide Residual Networks[J]. arXiv preprint, arXiv: 1605.07146, 2016.

[37]	Simonyan K, Zisserman A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J]. arXiv preprint, arXiv: 1409.1556, 2014.

[38]	He N J, Fang L Y, Li S T, et al. Skip-connected covariance network for remote sensing scene classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(5):1461-1474. DOI: 10.1109/TNNLS.2019.2920374 DOI

[39]	Wang H F, Wang Z F, Du M N, et al. Score-CAM: Score-weighted visual explanations for convolutional neural networks[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2020:111-119. DOI: 10.1109/CVPRW50498.2020.00020 DOI

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 研究方法

图1 模型框架

2.1 基于多尺度对比学习的遥感场景特征学习

2.2 高置信标签传播下的弱监督遥感场景分类

3 实验数据与参数设置

表1 数据集

3.1 数据集介绍

图2 AID数据集部分场景样本示例

图3 NWPU-RESISC45数据集部分场景样本示例

3.2 样本与参数设置

表2 尺度个数参数N对标签传播的精度影响

表3 不同比例无标注样本模型分类精度

表4 Vgg16、Wideresnet50和SCCov模型训练参数设置

3.3 评价方法

4 结果与分析

4.1 AID数据集实验结果与分析

表5 AID数据集上不同模型获取的总体精度结果比较

图4 AID数据集1%标注样本下部分类别混淆矩阵

表6 AID数据集10%标注样本下单类别分类精度

图5 度假村相似场景样本示例

4.2 NWPU-RESISC45数据集实验结果与分析

表7 NWPU-RESISC45数据集上不同模型获取的总体精度结果比较

图6 NWPU-RESISC45数据集1%标注样本下部分类别混淆矩阵

图7 NWPU-RESISC45数据集中相似场景示例

表8 NWPU-RESISC45数据集10%标注样本下单类别分类精度

4.3 注意力图像可视化

图8 场景影像注意力图像可视化结果

图9 错误分类场景影像注意力图像可视化结果

图10 不同尺度场景影像注意力图像可视化结果

5 结论

参考文献