地球信息科学学报, 2023, 25(5): 1050-1063 doi:10.12082/dqxxkx.2023.220781

遥感科学与应用技术

面向遥感影像场景分类的类中心知识蒸馏方法

刘潇,, 刘智,*, 林雨准, 王淑香, 左溪冰

信息工程大学 地理空间信息学院,郑州 450001

Class-centric Knowledge Distillation for RSI Scene Classification

LIU Xiao,, LIU Zhi,*, LIN Yuzhun, WANG Shuxiang, ZUO Xibing

Institute of Geospatial Information, Information Engineering University, Zhengzhou 450001, China

通讯作者: *刘 智(1965— ),男,湖南长沙人,教授,主要从事遥感图像智能解译研究。 E-mail: zhiliu001@sina.com

收稿日期: 2022-10-12   修回日期: 2023-01-28  

Corresponding authors: *LIU Zhi, E-mail:zhiliu001@sina.com

Received: 2022-10-12   Revised: 2023-01-28  

作者简介 About authors

刘 潇(1999— ),女,山东临沂人,硕士生,主要从事遥感图像智能解译研究。 E-mail: liuxiao99919@163.com

摘要

卷积神经网络已广泛应用于遥感影像场景分类任务,然而优秀的模型体量大,无法部署到资源受限的边缘设备中,直接应用现有的知识蒸馏方法压缩模型,忽略了场景数据的类内多样性和类间相似性。为此,本文提出一种类中心知识蒸馏方法,旨在获得一个紧凑高效且精度高的遥感影像场景分类网络。首先对预训练的教师网络进行微调,然后基于设计的类中心蒸馏损失将教师网络强大的特征提取能力迁移到学生网络,通过约束师生网络提取的同类特征分布中心的距离完成知识的转移,同时在蒸馏过程中结合真值标签训练,最后学生网络单独用于预测。实验在4个数据集上与8种先进的蒸馏方法在不同训练比率、不同师生架构下进行了比较,本文方法均达到最高分类精度。其中,在训练比率为60%的RSC11、UCM、RSSCN7及AID数据集中,相比于性能最好的其他蒸馏方法,师生网络属同系列时分类总体精度分别提升了2.42%、2.74%、2.95%和1.07%。相似技术对比实验及可视化分析进一步证明了本文方法优异的性能。本文所提出的类中心知识蒸馏方法更好地传递了复杂网络所提取的类内紧凑、类间离散的特征知识,提高了轻量网络分类的性能。

关键词: 场景分类; 模型压缩; 知识蒸馏; 类中心; 再生核希尔伯特空间; 遥感; 深度学习; 卷积神经网络

Abstract

Convolutional neural networks have been widely used in the task of Remote Sensing Image Scene Classification (RSISC) and have achieved extraordinary performance. However, these excellent models have large volume and high computational cost, which cannot be deployed to resource-constrained edge devices. Moreover, in the RSISC task, the existing knowledge distillation method is directly applied to the compression model, ignoring the intra-class diversity and inter-class similarity of scene data. To this end, we propose a novel class-centric knowledge distillation method, which aims to obtain a compact, efficient, and accurate network model for RSISC. The proposed class-centric knowledge distillation framework for remote sensing image scene classification consists of two streams, teacher network flow and student network flow. Firstly, the remote sensing image scene classification dataset is sent into the teacher network pre-trained on a large-scale dataset to fine-tune the parameters. Then, the class-centric knowledge of the hidden layer is extracted from the adjusted teacher network and transferred to the student network based on the designed class center distillation loss, which is realized by constraining the distance of the distribution center of similar features extracted by the teacher and student network, so that the student network can learn the powerful feature extraction ability of the teacher network. The distillation process is combined with the truth tag supervision. Finally, the trained student network is used for scene prediction from remote sensing images alone. To evaluate the proposed method, we design a comparison experiment with eight advanced distillation methods on classical remote sensing image scene classification with different training ratios and different teacher-student architectures. Our results show that: compared to the best performance of other distillation methods, in the case of the teacher-student network belonging to the same series, the overall classification accuracy of our proposed method is increased by 1.429% and 2.74%, respectively, with a given training ratio of 80% and 60%; and in the case of teacher-student networks belonging to different series, the classification accuracy is increased by 0.238% and 0.476%, respectively, with the two given ratios. Additionally, supplementary experiments are also carried out on a small data set of RSC11 with few classes and few samples, a multi-scale data set of RSSCN7 with few classes and multiple books, and a large complex data set of AID with many classes of heterogeneous samples. The results show that the proposed method has good generalization ability. Trough the comparison experiments with similar techniques, it is found that the proposed method can maintain excellent performance in challenging categories through confusion matrix, and the proposed distillation loss function can better deal with noise through testing error curve. And visualization analysis also shows that the proposed method can effectively deal with the problems of intra-class diversity and inter-class similarity in remote sensing image scenes.

Keywords: scene classification; model compression; knowledge distillation; class center; Reproducing Kernel Hilbert Space; remote sensing; deep learning; convolutional neural network

PDF (8749KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

刘潇, 刘智, 林雨准, 王淑香, 左溪冰. 面向遥感影像场景分类的类中心知识蒸馏方法[J]. 地球信息科学学报, 2023, 25(5): 1050-1063 doi:10.12082/dqxxkx.2023.220781

LIU Xiao, LIU Zhi, LIN Yuzhun, WANG Shuxiang, ZUO Xibing. Class-centric Knowledge Distillation for RSI Scene Classification[J]. Geo-Information Science, 2023, 25(5): 1050-1063 doi:10.12082/dqxxkx.2023.220781

1 引言

近年来,得益于遥感成像技术的发展,遥感影像空间分辨率大大提高,使得影像对目标细节的表达能力逐渐提升,同时满足了智能化知识提取和信息挖掘的实际应用需求。高分辨率遥感影像场景分类作为遥感数据智能解译任务的重要研究领域,可以为环境监测[1]、城市规划[2]、资源调查[3]等方面提供支撑。

遥感影像场景分类基于全局语义信息识别每幅影像斑块的场景类别。传统的基于人工特征描述符的遥感影像场景分类方法针对纹理特征等全局描述符直接分类[4],或是对尺度不变特征变换等局部描述符进行视觉词袋等编码表示整个场景[5]。由于人工特征的表示能力有限并不适用于复杂场景影像,研究者们转而使用稀疏编码等无监督学习方法[6]。然而,无监督学习方法不能充分利用数据类信息。近年来,随着深度学习的快速发展,卷积神经网络以其强大的特征提取能力广泛应用于场景分类领域并取得了巨大成功[7]。例如,郭子慧等[8]利用经典网络模型对场景进行自动分类,Yu等[9]联合卷积神经网络与集成学习提高场景分类精度。复杂的遥感影像导致场景分类任务面临诸多挑战,针对场景数据类内高差异性和类间低可分性问题,Sun等 [10]嵌入了类内紧凑和类间离散性约束,Chen等[11]引入了全局上下文空间注意模块解决全局多尺度特征提取不充分问题,Wang等[12]则为表征不同尺度特征提出全局-局部双流结构,Peng等[13]在标注样本有限的条件下提出基于多尺度对比学习的弱监督方法分类,Zhang等[14]则提出噪声标签蒸馏方法解决伪标签问题。为应对上述挑战提高分类精度,高性能模型设计的越来越庞大复杂,这严重限制了场景分类算法在机载和星载嵌入式系统上的部署,因而,Zhang等[15]致力于研究紧凑高效的场景分类模型,Chen等[16]则引入知识蒸馏来压缩模型。

基于深度学习的算法在遥感图像场景分类领域快速发展并取得主导地位。然而,高性能的网络模型通常训练参数多,运算成本高,资源消耗大,移动端嵌入式设备及星上在轨处理期间难以满足如此计算复杂度及高存储要求[17]。因此,压缩模型势在必行。模型压缩旨在简化模型的同时补偿精度,是实际应用落地的必然趋势。目前主流的算法有:网络剪枝[18]、参数量化[19]和知识蒸馏[20]。网络剪枝和参数量化分别通过基于设计的标准删除冗余参数和利用低位宽替代原浮点型参数达到模型参数简化的目的。知识蒸馏则通过将隐含知识从复杂教师网络迁移到轻量学生网络上,使得轻量网络逼近复杂网络的性能,实现模型结构的压缩。

知识蒸馏的思想最早可追溯到Bucilua等[21]提出的复杂集成模型可以通过模型压缩转化成简单神经网络的理论。Ba等[22]通过实验完成了验证,提出最小化大模型和小模型的逻辑单元值之间的L2损失可以实现小模型的模拟。然而,这种未经过softmax函数的全连接层的输出值不受约束,在模型训练测试时可能包含噪声。为此,Hinton等[23]提出使用“软目标”,由带温度系数的softmax函数软化输出的类概率,并通过KL散度拟合类概率分布。这种将知识从复杂的教师模型转移到简单的学生模型的过程被开创性的定义为知识蒸馏。随着知识蒸馏的进一步探索,蒸馏的知识得到丰富的扩展。根据知识种类的不同,现有方法可分为基于响应、特征、实例关系和网络层间关系的知识蒸馏。

Romero等[24]认为网络中间隐含层的输出特征图可以作为知识,首次提出以教师网络的中间层(Hint层)为提示指导学生网络对应层(Guided层)学习。随后,Zagoruyko等[25]提出迁移注意力信息,直接模仿教师网络的基于激活或梯度的空间注意力图。Huang等[26]则归纳了激活注意力信息,提出转移神经元的选择性知识。相比于提示知识,激活知识无需额外调整师生网络输出的特征维度。Kim等[27]设计了一个自编码器对教师网络的特征知识进行编解码,将原本难以理解的知识翻译成通俗的信息给学生。Heo等[28]分析了特征蒸馏的设计层面,提出使用margin ReLU激活函数变换教师模型的输出特征,并在ReLU之前使用局部L2距离函数跳过不必要的信息进行蒸馏。Ahn等[29]则从互信息的角度提出最大化师生网络间互信息的变分下界激发知识传递。基于特征的知识蒸馏只学习网络中间某层的输出特征是一种硬约束,忽略了网络结构的知识。Yim等[30]开始将网络不同层间的关系编码为知识,定义两层特征之间的内积为FSP矩阵转移两层间的流动信息。Lee等[31]引入奇异值分解来消除层间特征映射的空间冗余,以径向基函数衡量层模块输入输出端压缩特征的相关性。Chen等[32]提出利用教师网络的多层信息指导学生网络中一层的学习,进一步研究了跨层连接的影响,以基于注意力的融合模块和分层上下文损失函数迁移不同级特征的融合知识。Passalis等[33]探索了图像样本之间的关系,认为单体知识蒸馏默认了数据样本间相互独立,而教师模型中隐式编码了样本及其分布的信息,并提出匹配数据样本的概率密度分布。Tung等[34]进一步构造了实例间的成对相似矩阵。Park等[35]提出关系知识蒸馏,以距离和角度表征结构信息。最近,Zhao等[36]对高度耦合的经典蒸馏损失重新表述,提出解耦知识蒸馏,发掘最初的响应知识的蒸馏潜力。

作为模型压缩的高效手段,知识蒸馏在计算机视觉[37]等领域均取得了令人瞩目的成绩。然而,遥感影像场景分类领域对知识蒸馏的研究相对较少,Chen等[16]最早将经典知识蒸馏引入遥感影像场景分类中,通过匹配深网络与浅网络的softmax层的输出,可有效提高浅网络的性能。Yang等[38]引入知识蒸馏来补偿模型剪枝所引起的精度损失以压缩模型。Zhao等[17]引入成对相似知识蒸馏,并使用mixup技术混合不同标签的样本,通过额外迁移虚拟样本之间相似度的相关性知识来提高学生网络精度。然而,这些方法大多直接应用现有的知识蒸馏算法,忽略了场景分类任务中类内高差异性以及类间低可分性的挑战,丢失了场景数据的类内多样性、类间相似性的判别信息,一定程度上降低了学生网络的分类精度,导致压缩效果表现一般。

为此,本文面向遥感影像场景分类任务,为压缩重量级网络以获得轻量级网络,提出一种类中心知识蒸馏算法,整体框架包括教师网络微调、师生网络蒸馏和学生网络预测3个部分。为使轻量网络能应对场景分类任务中类内高差异性以及类间低可分性的挑战,设计了一种新的蒸馏损失函数,通过约束师生网络提取的同类特征分布中心的距离,高效地转移教师网络强大的特征提取能力,使得学生网络提取的特征类内紧凑并类间离散。本文在四个公开的数据集上评估了所提方法及现有的基于响应、特征、实例关系和网络层间关系的知识蒸馏方法在遥感影像场景分类任务上的性能,实验结果证明了类中心知识蒸馏方法的优效性。

2 理论与方法

本文提出的用于遥感影像场景分类的类中心知识蒸馏算法的模型框架如图1所示,它由教师网络和学生网络2个流组成。首先,将遥感影像场景分类数据集送入经大规模数据集预训练的教师网络中进行参数微调;然后,从调整后的教师网络中提取知识,利用网络中间隐含层的类中心知识指导学生网络进行蒸馏训练,蒸馏损失函数将在2.1节详细介绍;此外,师生网络蒸馏阶段过程中,学生网络还需结合真值标签加以监督,总体损失函数将在2.2节说明。最后,将训练好的学生网络单独用于遥感影像场景预测。模型框架的具体步骤将在2.3节列出。

图1

图1   类中心知识蒸馏模型框架

Fig. 1   Framework of class-centered knowledge distillation model


2.1 蒸馏损失函数

遥感影像场景分类面临类内高差异性以及类间低可分性的挑战,现有的知识蒸馏方法忽略了场景数据类内多样性及类间相似性的判别信息,因而未能较好的学习教师模型的特征提取能力。为此,本文设计了一种用于遥感影像场景分类的类中心知识蒸馏损失函数,通过约束师生网络提取的同类特征分布中心的距离完成关于类的知识转移,期望学生模型提取的特征能同教师模型一般具有良好的类内紧凑性和类间离散性。

2.1.1 神经元选择性迁移算法

Huang等[26]提出神经元选择性迁移(Neuron Selectivity Transfer,NST)算法,通过最小化师生网络间的神经元选择性特征分布的最大平均差异度量实现知识转移。最大平均差异(Maximum Mean Discrepancy,MMD)[39]用于衡量数据样本间概率分布的差异,具体通过将2个非线性可分的分布映射到一个高维的线性可分的再生核希尔伯特空间(Reproducing Kernel Hilbert Space, RKHS)[40]中计算距离,如式(1)所示。

LMMD2X,Y=1Ni=1Nϕxi-1Mj=1Mϕyj

式中:样本xiyj分别采集自样本集X=xii=1NY=yii=1Nϕ·表示一个显式映射函数。

NST算法视每个空间位置的激活值为一个特征fij,将每个通道的所有位置的特征图fiRH×W展平为1×HW维的向量并视为一个样本fiR1×HW,所有通道的样本fi i=1C组成一个C×HW的分布FRC×HW。通过约束FTFS两个分布之间的最大平均差异匹配师生网络输出层的特征,如式(2)所示。

LMMD2FT,FS=1CTi=1CTϕfTi-1CSj=1CSϕfSj22

受上述方法启发,本文进一步将同类的特征分布凝练为知识。同类实例的特征分布相似,将其映射到高维空间中会形成一个簇,教师模型提取的类内紧凑并类间离散的特征体现在簇的信息中,将其表征为类特征知识,供学生模型学习。具体而言,针对师生网络的某一个或几个特定层的输出特征按标签分类,求解同标签各实例的特征分布的中心,通过最小化师生间的每类中心的距离实现学生模型学习教师模型提取的类特征知识。

2.1.2 类中心知识蒸馏损失

本文将网络中某一特定输出层的特征图表示为FRC×H×W,一个实例k经师生网络训练后分别产生特征图FTkFSk,可视为两两个特征分布FTkRCT×HWFSkRCS×HW,将其映射到再生核希尔伯特空间ϕFTkϕFSk后,对相同标签下的N个实例的特征分布求解聚类中心XTXS,并计算两者之间的距离LCCD2

LCCD2XT,XS=1Nk=1NϕFTk-1Nk=1NϕFSk22=1N1CTk=1N i=1CTϕfTki-1N1CSk=1N j=1CSϕfSkj22

注意,师生网络对应输出层的特征图应具有相同的空间维数H×W,如果特征图的尺寸不匹配,需要进行插值。

映射函数ϕ · 计算复杂,可利用核技巧Kx,y=ϕx,ϕy=ϕ(x)Tϕy简化计算。用L2范数对样本进行归一化处理normfi=fi||fi||2,确保样本在相同量级下比较,那么LCCD2重新表述为如式(4)所示。

LCCD2XT,XS=1N2k=1N1CT2i=1CTi'=1CTkfTi||fTi||2,fTi'||fTi'||2+1CS2j=1CS j'=1CSkfSj||fSj||2,fSj'||fSj'||2-2CTCSi=1CTj=1CSkfTi||fTi||2,fSj||fSj||2

式中:k.,.表示将特征向量投影到更高维或无限维特征空间的核函数。受NST算法启发,采用多项式核函数,kx,y=x.y+cd,其中c=0d=2

然后,对M个类中心距离求和得到某一特定输出层的类中心知识蒸馏损失函数值LCCKD(式(5))。

LCCKD=i=1MLCCD2XiT,XiS

本文设计对网络中间多个输出层的特征图进行蒸馏(图1),输出层的选取将在实验设置介绍。

2.2 总体损失函数

在训练过程中,强制学生模型使用标准交叉熵损失函数匹配地面真值标签有利于学生模型提高性能,如式(6)所示。

HyS,ytrue =-i=1nytrue logySzi

式中:ySzi=expzij=1C expzj表示样本在第i类的预测概率; zi指第i类的logit;ytrue 代表真值标签。

因而,在训练过程中整个目标函数包含类中心蒸馏损失和标准交叉熵损失两部分,可表示为

Ltotal=HyS,ytrue+λLCCKD

式中:指对本文选取的所有匹配层进行求和,λ是平衡两部分损失的超参数。

2.3 算法具体流程

首先用标准的监督学习策略训练教师模型,为使教师模型获得良好的特征表示能力,采用预训练-微调机制,提前于ImageNet数据集对教师模型进行预训练,再将模型送入遥感场景分类数据集进行微调。微调后的教师网络指导学生网络训练,学生网络按照类中心蒸馏损失学习教师网络提取特征的能力,并受真值标签的监督。最后,单独测试学生网络预测性能。类中心知识蒸馏算法如下。

  

算法1 类中心知识蒸馏算法
第一阶段:微调教师网络
输入:教师网络模型T,预训练参数,训练样本X= xi,yii=1N
计算标准交叉熵损失函数Hyt,ytrue
反向传播更新T的参数,直到损失函数收敛
输出:教师网络模型T
第二阶段:通过类中心蒸馏训练学生网络
输入:教师网络模型T,学生网络模型S,训练样本
X= xi,yii=1N
初始化:学生网络参数θ和超参数
按标签y整理训练集X=x1i,···,xni,yii=1M每批次从随机类中
抽取随机的样本
根据式(7)计算总体损失函数Ltotal
反向传播更新学生网络的参数θ,直到损失函数收敛
输出:学生网络模型S,参数θ
第三阶段:测试学生网络
输入:学生网络模型S,测试样本
输出:预测结果
按标签y整理训练集X=x1i,···,xni,yii=1M每批次从随机类中
抽取随机的样本

新窗口打开| 下载CSV


3 实验与分析

3.1 数据集

本文在RSC11[41]、UC Merced Land-use(UCM)[42]、RSSCN7[43]和Aerial Image Dataset(AID)[44] 4个主流的遥感影像场景分类数据集上进行综合实验,数据集详细情况如表1所示。从数据集中随机抽取一些图像作为示例样本,如图2所示。从图2左边2列可以发现这些场景分类数据集的类内多样性大,如种植地、住宅区、草地、旅游胜地等;从图2右四列可以观察到数据集中某些场景类具有很高的相似性,如RSC11数据集中的公路、立交、铁路三类,UCM 数据集中各种细分的住宅区与建筑物,RSSCN7数据集中的工业区与住宅区、农田与草地,AID数据集中的沙漠与裸地、湖泊与公园都非常相似,难以区分。这对结构紧凑的轻量级分类网络提出巨大的挑战。

表1   遥感影像场景分类数据集

Tab. 1  Remote sensing image scene classification dataset

数据集分辨率/m类别数/个尺寸/mm每类样本数/个样本总数/个特点
RSC110.211512 × 512约1001232小型的遥感影像场景分类数据集
UCM0.321256 × 2561002100经典的高分辨率土地利用数据集
RSSCN7-7400 × 4004002800涵盖4个采样尺度的,
类内多样性大的场景分类数据集
AID0.5~0.830600 × 600200~40010000复杂的多源、多分辨率、类间相似性高、样本不均衡的航空图像数据集

新窗口打开| 下载CSV


图2

图2   4个遥感影像场景分类数据集的示例样本

Fig. 2   Example samples of four remote sensing image scene classification datasets


3.2 实验设置

网络结构。本文采用ResNet[45]和MobileNet[46]系列作为师生网络的基础架构。其中教师网络为ResNet-50,学生网络则分别使用ResNet-18和MobileNetV2用于研究师生网络模型属于同系列和不同系列下的知识蒸馏性能。本文设计对网络中间4个输出层的特征图进行类中心知识蒸馏,网络结构详细信息及各输出层特征的尺寸信息如表2所示。

表2   师生网络结构及输出层特征信息

Tab. 2  Network structure of T/S models and Information about the features of the output layer

网络名称ResNet50ResNet18MobileNetV2
卷积池化层7×7,64,stride2+3×3maxpool,stride23×3,32,stride2
卷积层11×1,643×3,641×1,256×33×3,643×3,64×31×1,643×3,641×1,256×3
输出层特征1FR56×56×64FR56×56×256
卷积层21×1,1283×3,128,s21×1,512+1×1,1283×3,1281×1,512×33×3,128,s23×3,128+3×3,1283×3,1281×1,1283×3,128,s21×1,512+1×1,1283×3,1281×1,512×3
输出层特征2FR28×28×512FR28×28×128FR28×28×512
卷积层31×1,2563×3,256,s21×1,1024+1×1,2563×3,2561×1,1024×33×3,256,s23×3,256+3×3,2563×3,2561×1,2563×3,256,s21×1,1024+1×1,2563×3,2561×1,1024×3
输出层特征3FR14×14×1024FR14×14×256FR14×14×1024
卷积层41×1,,5123×3,512,s21×1,2048+1×1,,5123×3,5121×1,2048×33×3,512,s23×3,512+3×3,5123×3,5121×1,,5123×3,512,s21×1,2048+1×1,,5123×3,5121×1,2048×3
输出层特征4FR7×7×2048FR7×7×512FR7×7×2048
全局池化层7×7 averagepool,fc,softmax

注:F表示设计蒸馏网络中间输出层的特征图;RN×M×C表示特征图尺寸为N×M,通道数为C

新窗口打开| 下载CSV


实验配置。本文使用NVIDIA Tesla 4在PyTorch环境下进行综合实验。在训练阶段,我们采用随机翻转和随机半径的高斯模糊进行数据增强。在测试阶段,不对测试数据进行增强。教师网络微调过程设置批大小为64,初始学习率为1e-4,按指数衰减调整学习率,使用动量为0.9的随机梯度下降(SGD)作为优化器,迭代次数设置为160。学生网络单独训练过程和知识蒸馏过程均设置批大小为32,初始学习率为0.05,仍按指数衰减调整学习率,使用动量为0.9的随机梯度下降(SGD)作为优化器,迭代次数设置为240。所有训练均采用提前终止策略,如果验证损失在连续30次迭代计算后没有降低,则终止训练。

超参数设置。本文设置平衡因子λ为50,并采用20代的线性预热。参数的最佳设置由实验得出,λ在适当范围内对总体精度影响不大,但精度随着λ值的增大有降低的趋势,分析可能是大数值的λ导致较大的初始损耗,因而使用一定周期的线性预热减少初始损失,最终得出20代的线性预热能有效提高精度。

3.3 实验结果与分析

3.3.1 有效性实验

为验证类中心知识蒸馏方法的有效性,本文首先在经典的遥感影像场景分类数据集UCM上进行不同师生架构和训练比率的实验,并与八种先进的知识蒸馏方法进行比较:KD[23]、DKD[36]、NST[26]、VID[29]、KDSVD[31]、ReviewKD[32]、RKD[35]、SP[34],为便于分析,按照知识的种类将这些方法分为4类。实验结果如表3所示,本文提出的方法取得了最优的精度。

表3   UCM数据集上各种知识蒸馏方法的总体精度

Tab. 3  Overall accuracy of various knowledge distillation methods on UCM dataset (%)

蒸馏方法师生架构
(Model T/S)
同系列
(ResNet-50/ ResNet-18)
不同系列
(ResNet-50/MobileNet-V2)
训练比率80%60%80%60%
Baseline92.1490.0091.4390.48
响应KD95.4892.3893.3390.24
DKD95.7191.9194.5292.14
特征NST94.0591.6792.6290.48
VID93.5789.4192.3889.05
网络层间关系KDSVD92.6290.3692.6289.88
ReviewKD94.2992.6294.2991.07
实例关系RKD94.5292.0292.3887.38
SP93.3391.4380.4859.05
类中心本文方法97.1495.3694.7692.62

注:Baseline是指单独训练学生网络的结果。在所有方法中精度最高的结果表示为粗体,次高的表示为下划线。结果取10次实验平均值。

新窗口打开| 下载CSV


在师生网络属同系列的实验中可以观察到,类中心知识蒸馏方法与单独训练学生网络相比提高了超5%的分类总体精度,在80%的训练比率下与最先进的DKD方法相比实现了1.43%的改进,总体精度高达97.14%,训练比率为60%时则较精度最优的ReviewKD方法提升了2.74%,达到95.36%的总体精度。

在师生网络属不同系列的实验中,精度同样有提升,以MobileNet-V2为学生模型的蒸馏结果显示所提方法在80%、60%的训练比率下分别获得了94.76%和92.62%的精度,比单独训练提高了3.33%、2.14%,分别超性能第二的蒸馏方法0.24%、0.48%。

实验结果表明,本文提出的方法与单独训练相比取得了显著的改进,并优于目前先进的知识蒸馏方法。因此,本文认为所提方法可以有效地从教师模型中提取有价值的信息转化为知识迁移至学生模型供其学习。综合2组实验来看,训练比率越低,所提方法精度提升的幅度越大,类中心知识蒸馏的优势越明显。

表4展示了网络模型压缩前后尺寸的对比,以计算量(Floating Point Operations, FLOPs)衡量模型运算的复杂度,以参数量(Parameters)衡量模型存储的大小,压缩率是指学生网络(模型压缩后)与教师网络(模型压缩前)大小之比。

表4   网络模型尺寸对比

Tab. 4  Comparison of model size

模型FLOPs (G)Parameters (M)压缩率/%
ResNet5032.8823.55
ResNet1814.5511.1947.52
MobileNetV22.502.259.55

新窗口打开| 下载CSV


结果表明,在训练率为60% UCM数据集上,相比于ResNet50模型,ResNet18模型实现了47.52%的压缩率并补偿了5.36%的精度,MobileNetV2模型则达到9.55%的压缩率并将计算复杂度降低至原来的7.6%。

3.3.2 适用性实验

为验证类中心知识蒸馏方法的普适性,本文将在RSC11少类少样本的小型数据集、RSSCN7少类多样本的多尺度数据集及AID多类不均样本的大型复杂数据集上进行补充实验。表5展示了在训练比率为60%的多个数据集上进行的师生网络同属一系列的实验结果,本文提出的方法在RSC11和AID数据集上分别获得了94.37%和94.10%的精度,与单独训练相比,提高了4.23%和5.12%,相较于性能第二的知识蒸馏方法分别有 2.42%和1.07%的提升。

表5   多个数据集在60%训练比率及同构师生网络条件下的总体精度

Tab. 5  Overall accuracy on multiple datasets with 60% training ratio and homogeneous T/S network (%)

数据集教师网络学生网络响应特征网络层间关系实例关系类中心
KDDKDNSTVIDKDSVDReviewKDRKDSP本文方法
RS_C1192.3590.1491.9590.9589.7488.1387.7390.3489.7487.7394.37
RSSCN791.0788.7588.3087.3287.5987.4187.0588.2188.7586.5291.70
AID95.6888.9892.7393.0391.4388.9689.2092.5891.4591.6594.10

注:教师网络为ResNet-50,展示的是经预训练-微调后的分类结果,学生网络为ResNet-18,表示的是不经蒸馏单独训练的结果。在所有方法中精度最高的结果表示为粗体,次高的表示为下划线,斜体粗体意味着超过教师分类精度。结果取10次实验平均值。

新窗口打开| 下载CSV


值得注意的是,目前先进的知识蒸馏方法在RSSCN7数据集上的表现较差,精度相较于单独训练学生网络不升反降,仅有RKD方法保持了精度,而本文提出的方法则有2.95%的提升,精度达到91.70%。还可以观察到,在RSC11和RSSCN7 2类别较少的数据集上,所提蒸馏方法不仅实现了与单独训练相比的显著改进,甚至超过了预训练微调下教师模型的精度,说明类中心知识蒸馏方法相比于其他蒸馏方法转移了更专用的知识,具体原因将在后续分析。

综上分析,在不同架构的师生网络、不同比率的训练样本和不同规模的数据集的3组实验中,本文提出的方法表现优异,精度与单独训练学生网络和先进知识蒸馏方法相比均有提升,说明所提方法具有良好的泛化能力。

3.3.3 技术对比实验

本文受NST算法启发而提出类中心知识蒸馏方法,为验证所提方法的优越性,本文在RSC11 Dataset数据集上对2种蒸馏方法进行对比实验,并结合微调的ResNet-50教师网络、单独训练的ResNet-18学生网络的实验结果进行分析。为保证变量唯一,先对NST蒸馏方法进行改进,针对本文同样的输出层特征进行匹配,以研究类中心知识的有效性。

分类总体精度如表6所示,本文提出的方法较改进的NST方法有1.811%的提升。对实验结果计算精度混淆矩阵,直观查看各类别的分类精度以及错分和漏分情况。混淆矩阵中(i,j)元素的值表示标签为i、分为j类的测试样本占测试图像总数的比例,结果如表7所示。

表6   RSC11数据集上对比实验的结果

Tab.6  Results of comparative experiments on RSC11 Dataset (%)

StudentTeacherNSTNST_all本文方法较次高
提升精度
总体精度90.1492.3589.7492.5694.371.81

注:精度最高的结果表示为粗体,次高的表示为下划线

新窗口打开| 下载CSV


表7   对比实验在RSC11数据集上的精度混淆矩阵

Tab. 7  Accuracy confusion matrix of comparison experiment on RSC11 Dataset (%)

单独训练的学生网络微调的教师网络
密林草地港口高建筑低建筑立交铁路居民区公路疏林储存罐密林草地港口高建筑低建筑立交铁路居民区公路疏林储存罐
密林98.211.79密林100
草地100草地100
港口97.222.78港口100
高建筑91.112.222.224.44高建筑97.622.38
低建筑85.426.258.33地建筑91.674.172.082.08
立交2.3374.422.3318.62.33立交2.2768.189.0920.45
铁路3.123.1287.56.25铁路8.0088.004.00
居民区1.611.6187.14.844.84居民区1.7998.21
公路1.891.899.433.7783.02公路3.2813.118.2075.41
疏林2.1797.83疏林100
储存罐5.712.8691.43储存罐100
基于改进NST方法训练的学生网络基于本文方法训练的学生网络
密林草地港口高建筑低建筑立交铁路居民区公路疏林储存罐密林草地港口高建筑低建筑立交铁路居民区公路疏林储存罐
密林100密林100
草地100草地100
港口92.312.565.13港口100
高建筑90.914.552.272.27高建筑97.732.27
地建筑2.5095.002.5低建筑95.242.382.38
立交89.195.415.41立交86.115.562.785.56
铁路3.123.1287.53.123.12铁路3.336.6790.00
居民区1.6791.673.333.33居民区1.691.691.6993.221.69
公路14.753.2881.97公路15.153.0381.82
疏林2.1797.83疏林100
储存罐7.1492.86储存罐2.3397.67

新窗口打开| 下载CSV


表7可知,本文提出的方法对所有分类都提升了精度,其中港口和高建筑相比于改进的NST蒸馏方法提高了7.69%和6.80%,其他类别的精度也都有1%~4%的提升。分类精度相对较低的是公路、立交和铁路,值得注意的是,也正是这三类的分类精度不仅比单独训练的学生模型高甚至都大幅度超过了教师模型,本文分析认为这些具有挑战性的类别经蒸馏后不仅保持了学生网络对这些类的区分能力,还学习到教师网络中的知识,达到较高精度。另外,从可视化测试误差曲线(图3)中可以观察到与单独训练(绿色线)相比,本文方法(蓝色线)能够快速收敛,改进的NST蒸馏方法(红色线)的测试误差曲线同样快速收敛但紧接着发生振荡并有上浮趋势,说明NST蒸馏损失受随机样本的影响大,训练模型存在过拟合的风险,而我们所提出的类中心蒸馏损失能够很好处理噪声,损失值快速收敛并趋于稳定。

图3

图3   测试误差曲线

注:误差曲线以0.6的衰减权重进行指数滑动平均平滑处理,图中阴影部分展示了原始数值。

Fig. 3   Test error curve


3.3.4 可视化分析

本文在具有挑战性的RSSCN7数据集上使用T-SNE算法[47]可视化模型的特征提取能力。T-SNE算法用于高维数据降维,可将高维特征表示在二维可视空间中。通过T-SNE算法将模型提取的高维特征可视化,以衡量所提方法能否有效地解决类内多样性和类间相似性问题。

图4所示,与单独训练的学生模型和基于改进的NST方法相比,本文方法所提取的特征,类别相同的特征簇更紧凑,而类别不同的特征簇相对分散,尤其是红色圈内的三类特征簇,表现的最为明显。说明本文方法提取的特征具有良好的类内紧凑性和类间离散性,有效地应对了遥感影像场景类内多样性和类间相似性问题。

图4

图4   RSSCN7数据集经T-SNE算法可视化的特征散点图

Fig. 4   Characteristic scatter plot of RSSCN7 dataset visualized by T-SNE algorithm


为了进一步分析学生网络学习的效果,本文对蒸馏过程中设计匹配的四个网络中间输出层进行可视化,利用Selvaraju等[48]提出的Grad-CAM(Gradient-weighted Class Activation Mapping)绘制热力图来显示网络中间层关注的区域及特征信息,以此探查学生网络的特征提取能力。如图5所示,热力图中颜色越深的区域为关注度越高。横向分析可以发现不同网络输出层的侧重点不同,层级越深关注的特征越抽象,如特征层1主要关注边缘特征,特征层4则重点关注语义场景特征。纵向分析不同方法同一输出层关注区域的差别,相比于单独训练方法和改进的NST方法,本文方法综合了教师网络和学生网络关注区域,说明本文方法很好的传递了教师网络的特征提取能力。

图5

图5   输出特征层的热力图

注:热力值表示模型注意力的可视化结果,数值高代表模型关注该区域。

Fig. 5   Gradient-weighted class activation mapping of output the feature layer


从所有输出层的热力图来看,本文方法关注感受野更大,不容易因过于聚焦场景内类间相似性地物而预测错误。原图为工业区,改进的NST方法因过于关注图中房屋而错误预测为住宅区,受噪声影响大,同时也说明了本文方法提取的特征能有效应对类间相似性挑战。

4 结论

本文面向遥感影像场景分类任务提出了一种类中心知识蒸馏方法,通过教师网络微调、师生网络蒸馏两步训练,获得一个能部署到边缘计算设备中的高性能轻量网络。本文设计的类中心蒸馏损失函数通过匹配师生网络提取的同类特征分布的中心,高效地转移了复杂网络强大的特征提取能力,使得轻量网络在场景分类任务中能应对类内高差异性以及类间低可分性的挑战。本文在4个公开的遥感影像场景分类基准数据集上进行了一系列综合实验,以评估类中心知识蒸馏方法的优效性实验结论总结如下:

(1)本文在经典的UCM高分辨率土地利用数据集上,于60%和80% 2种训练比率以及ResNet50与ResNet18和ResNet50与MobileNet-V2两种师生架构的条件下进行了有效性实验,并与4类8种现有的先进知识蒸馏方法进行了对比。实验结果表明,类中心知识蒸馏方法在同构、异构的师生网络中表现均最优,尤其是训练比率越低精度提升幅度越大。随后,本文在RSC11少类少样本的小型数据集、RSSCN7少类多样本的多尺度数据集及AID多类不均样本的大型复杂数据集上进行了适用性实验,实验结果证明所提方法具有良好的泛化能力。

(2)本文还与改进的NST算法进行了技术对比实验,通过混淆矩阵发现在具有挑战性的类别中类中心知识蒸馏方法仍能保持优异性,不仅保持了学生网络的分类能力,还学习到教师网络中的知识,测试误差曲线则表明了所提蒸馏损失函数能较好地处理噪声而使损失值快速收敛并趋于稳定,验证了本文方法的优越性。此外,本文基于T-SNE算法可视化了模型的特征提取能力,并基于Grad-CAM绘制了热力图可视化输出层关注区域,结果表明本文方法提取的特征具有良好的类内紧凑性和类间离散性。

综上,本文提出的类中心知识蒸馏方法提高了紧凑网络的分类精度,与其他蒸馏方法相比表现最优。本文重点关注了如何更好地衡量师生特征间的接近程度,限于篇幅和时间暂时没有探索何处的知识最佳,后续将进一步的深入研究最佳蒸馏位置的选择和组合问题。未来研究还将进一步探索类中心知识蒸馏方法的价值,实现在目标检测、语义分割任务上的应用。

参考文献

Ghazouani F, Farah I R, Solaiman B.

A multi-level semantic scene interpretation strategy for change interpretation in remote sensing imagery

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11):8775-8795. DOI:10.1109/TGRS.2019.2922908

URL     [本文引用: 1]

Hu F, Xia G S, Hu J W, et al.

Transferring deep convolutional neural networks for the scene classification of high-resolution remote sensing imagery

[J]. Remote Sensing, 2015, 7(11):14680-14707. DOI:10.3390/rs71114680

URL     [本文引用: 1]

Gu Y T, Wang Y T, Li Y S.

A survey on deep learning-driven remote sensing image scene understanding: Scene classification, scene retrieval and scene-guided object detection

[J]. Applied Sciences, 2019, 9(10):2110. DOI:10.3390/app9102110

[本文引用: 1]

Ojala T, Pietikainen M, Maenpaa T.

Multiresolution gray-scale and rotation invariant texture classification with local binary patterns

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7):971-987. DOI: 10.1109/TPAMI.2002.1017623

URL     [本文引用: 1]

Zhu Q Q, Zhong Y F, Zhao B, et al.

Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery

[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(6):747-751. DOI:10.1109/LGRS.2015.2513443

URL     [本文引用: 1]

Romero A, Gatta C, Camps-Valls G.

Unsupervised deep feature extraction for remote sensing image classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(3):1349-1362. DOI:10.1109/TGRS.2015.2478379

URL     [本文引用: 1]

Cheng G, Xie X X, Han J W, et al.

Remote sensing image scene classification meets deep learning: Challenges, methods, benchmarks, and opportunities

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13:3735-3756. DOI:10.1109/JSTARS.2020.3005403

URL     [本文引用: 1]

郭子慧, 刘伟.

深度学习和遥感影像支持的矢量图斑地类解译真实性检查方法

[J]. 地球信息科学学报, 2020, 22(10):2051-2061.

DOI:10.12082/dqxxkx.2020.200001      [本文引用: 1]

空间数据质量检查是数据准确可靠的重要保障,是数据的生命线。然而,目前的空间数据质量检查主要针对拓扑关系、属性一致性以及数据间的相关性进行检查,往往忽视矢量图斑地类解译真实性问题。因此,本文提出深度学习和高分遥感影像支持的矢量图斑地类解译真实性检查方法,选用深度学习经典模型Inception_v3进行迁移学习,对分割后的影像进行自动场景分类,以高分遥感影像块的场景分类结果作为参照依据,对场景分类结果与矢量图斑原始数据进行叠加分析,自动查找出类别信息不符的分割单元,从而提取出可疑图斑,实现矢量图斑地类解译真实性自动检查,并在徐州市贾汪区青山泉镇和大吴镇的矢量图斑地类解译真实性检查中进行验证。实验结果表明,本文方法在研究区图斑地类解译真实性检查中的精确率和召回率分别高达0.925和0.817,可为矢量图斑地类解译真实性检查提供可靠的技术支撑。

[ Guo Z H, Liu W.

Land type interpretation authenticity check of vector patch supported by deep learning and remote sensing image

[J]. Journal of Geo-Information Science, 2020, 22(10):2051-2061. ] DOI:10.12082/dqxxkx.2020.200001

[本文引用: 1]

余东行, 张保明, 赵传, .

联合卷积神经网络与集成学习的遥感影像场景分类

[J]. 遥感学报, 2020, 24(6):717-727.

[本文引用: 1]

[ Yu D H, Zhang B M, Zhao C, et al.

Scene classification of remote sensing image using ensemble convolutional neural network

[J]. Journal of Remote Sensing, 2020, 24(6):717-727. ] DOI:10.11834/jrs.20208273

[本文引用: 1]

Sun H M, Lin Y W, Zou Q, et al.

Convolutional neural networks based remote sensing scene classification under clear and cloudy environments

[C]// 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). IEEE, 2021:713-720. DOI:10.1109/ICCVW54120.2021.00085

[本文引用: 1]

Chen W T, Ouyang S B, Tong W, et al.

GCSANet: A global context spatial attention deep learning network for remote sensing scene classification

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15:1150-1162. DOI:10.1109/JSTARS.2022.3141826

URL     [本文引用: 1]

Wang Q, Huang W, Xiong Z T, et al.

Looking closer at the scene: Multiscale representation learning for remote sensing image scene classification

[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(4):1414-1428. DOI:10.1109/TNNLS.2020.3042276

URL     [本文引用: 1]

彭瑞, 赵文智, 张立强, .

基于多尺度对比学习的弱监督遥感场景分类

[J]. 地球信息科学学报, 2022, 24(7):1375-1390.

DOI:10.12082/dqxxkx.2022.210809      [本文引用: 1]

遥感场景分类作为一种理解遥感影像的重要方式,在目标检测、影像快速检索等方向有着重要的应用,当前主流的场景分类方法多关注影像深层次特征的准确提取,忽略了场景目标在不同分布尺度下的差异性。此外,有限的高质量场景标签进一步限制了模型分类性能。为了解决以上问题,本研究提出了基于多尺度对比学习的弱监督遥感场景分类方法,首先利用多尺度对比学习的自监督策略,从大量无标注数据中自动获取影像不同尺度下的特征表示。其次,基于多尺度稳健特征对分类模型利用少量标签进行微调,并结合标签传播方法生成高质量样本标签。最后,结合大量无标签数据构建弱监督分类模型,进一步提升场景分类的能力。本研究在遥感场景AID数据集和NWPU-RESISC45数据集上分别使用1%、5%和10%的标注样本下分类精度分别达到了87.7%、93.67%、95.56%和86.02%、93.15%和95.38%,在有限标注样本条件下与其他基准模型相比有着明显的优势,证明了本文模型的有效性。

[ Peng R, Zhao W Z, Zhang L Q, et al.

Multi-scale contrastive learning based weakly supervised learning for remote sensing scene classification

[J]. Journal of Geo-Information Science, 2022, 24(7):1375-1390. ] DOI:10.12082/dqxxkx.2022.210809

[本文引用: 1]

Zhang R, Chen Z H, Zhang S X, et al.

Remote sensing image scene classification with noisy label distillation

[J]. Remote Sensing, 2020, 12(15): 2376. DOI:10.3390/rs12 152376

DOI:10.3390/rs12010012      URL     [本文引用: 1]

The dynamic response of coastal wetlands (CWs) to hydro-meteorological signals is a key indicator for understanding climate driven variations in wetland ecosystems. This study explored the response of CW dynamics to hydro-meteorological signals using time series of Landsat-derived normalized difference vegetation index (NDVI) values at six locations and hydro-meteorological time-series from 1984 to 2015 in Apalachicola Bay, Florida. Spectral analysis revealed more persistence in NDVI values for forested wetlands in the annual frequency domain, compared to scrub and emergent wetlands. This behavior reversed in the decadal frequency domain, where scrub and emergent wetlands had a more persistent NDVI than forested wetlands. The wetland dynamics were found to be driven mostly by the Apalachicola Bay water level and precipitation. Cross-spectral analysis indicated a maximum time-lag of 2.7 months between temperature and NDVI, whereas NDVI lagged water level by a maximum of 2.2 months. The quantification of persistent behavior and subsequent understanding that CW dynamics are mostly driven by water level and precipitation suggests that the severity of droughts, floods, and storm surges will be a driving factor in the future sustainability of CW ecosystems.

Zhang B, Zhang Y J, Wang S G.

A lightweight and discriminative model for remote sensing scene classification with multidilation pooling module

[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(8):2636-2653. DOI:10.1109/JSTARS.2019.2919317

[本文引用: 1]

With the growing spatial resolution of satellite images, high spatial resolution (HSR) remote sensing imagery scene classification has become a challenging task due to the highly complex geometrical structures and spatial patterns in HSR imagery. The key issue in scene classification is how to understand the semantic content of the images effectively, and researchers have been looking for ways to improve the process. Convolutional neural networks (CNNs), which have achieved amazing results in natural image classification, were introduced for remote sensing image scene classification. Most of the researches to date have improved the final classification accuracy by merging the features of CNNs. However, the entire models become relatively complex and cannot extract more effective features. To solve this problem, in this paper, we propose a lightweight and effective CNN which is capable of maintaining high accuracy. We use MobileNet V2 as a base network and introduce the dilated convolution and channel attention to extract discriminative features. To improve the performance of the CNN further, we also propose a multidilation pooling module to extract multiscale features. Experiments are performed on six datasets, and the results verify that our method can achieve higher accuracy compared to the current state-of-the-art methods.

Chen G Z, Zhang X D, Tan X L, et al.

Training small networks for scene classification of remote sensing images via knowledge distillation

[J]. Remote Sensing, 2018, 10(5):719. DOI:10.3390/rs10050719

URL     [本文引用: 2]

Zhao H R, Sun X, Gao F, et al.

Pair-wise similarity knowledge distillation for RSI scene classification

[J]. Remote Sensing, 2022, 14(10):2483. DOI: 10.3390/rs14102483

URL     [本文引用: 2]

Remote sensing image (RSI) scene classification aims to identify the semantic categories of remote sensing images based on their contents. Owing to the strong learning capability of deep convolutional neural networks (CNNs), RSI scene classification methods based on CNNs have drawn much attention and achieved remarkable performance. However, such outstanding deep neural networks are usually computationally expensive and time-consuming, making them impossible to apply on resource-constrained edge devices, such as the embedded systems used on drones. To tackle this problem, we introduce a novel pair-wise similarity knowledge distillation method, which could reduce the model complexity while maintaining satisfactory accuracy, to obtain a compact and efficient deep neural network for RSI scene classification. Different from the existing knowledge distillation methods, we design a novel distillation loss to transfer the valuable discriminative information, which could reduce the within-class variations and restrain the between-class similarity, from the cumbersome model to the compact model. This method could obtain the compact student model with higher performance compared with existing knowledge distillation methods in RSI scene classification. To be specific, we distill the probability outputs between sample pairs with the same label and match the probability outputs between the teacher and student models. Experiments on three public benchmark datasets for RSI scene classification, i.e., AID, UCMerced, and NWPU-RESISC datasets, verify that the proposed method could effectively distill the knowledge and result in a higher performance.

Li H, Kadav A, Durdanovic I, et al.

Pruning filters for efficient ConvNets

[EB/OL]. 2016: arXiv: 1608.08710. https://arxiv.org/abs/1608.08710

URL     [本文引用: 1]

Yang T J, Chen Y H, Sze V.

Designing energy-efficient convolutional neural networks using energy-aware pruning

[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:6071-6079. DOI:10.1109/CVPR.2017.643

[本文引用: 1]

Gou J P, Yu B S, Maybank S J, et al.

Knowledge distillation: A survey

[J]. International Journal of Computer Vision, 2021, 129(6):1789-1819. DOI:10.1007/s11263-021-01453-z

[本文引用: 1]

Buciluǎ C, Caruana R, Niculescu-Mizil A.

Model compression

[C]// Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM, 2006:535-541. DOI:10.1145/1150402.1150464

[本文引用: 1]

Ba J and Caruana R.

Do deep nets really need to be deep?

[C]. Advances in Neural Information Processing Systems, 2014, 27. DOI:10.48550/arXiv.1312.6184

[本文引用: 1]

Hinton G, Vinyals O, Dean J.

Distilling the knowledge in a neural network

[EB/OL]. 2015: arXiv:1503.02531. https://arxiv.org/abs/1503.02531

URL     [本文引用: 2]

Romero A, Ballas N, Kahou S E, et al.

FitNets: Hints for thin deep nets

[EB/OL]. 2014: arXiv:1412.6550. https://arxiv.org/abs/1412.6550

URL     [本文引用: 1]

Zagoruyko S, Komodakis N.

Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer

[EB/OL]. 2016: arXiv: 1612.03928. https://arxiv.org/abs/1612.03928

URL     [本文引用: 1]

Huang Z H, Wang N Y.

Like what You like: Knowledge distill via neuron selectivity transfer

[EB/OL]. 2017:arXiv: 1707.01219. https://arxiv.org/abs/1707.01219

URL     [本文引用: 3]

Kim J, Park S, Kwak N.

Paraphrasing complex network: Network compression via factor transfer

[EB/OL]. 2018: arXiv: 1802.04977. https://arxiv.org/abs/1802.04977

URL     [本文引用: 1]

Heo B, Kim J, Yun S, et al.

A comprehensive overhaul of feature distillation

[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020:1921- 1930. DOI:10.1109/ICCV.2019.00201

[本文引用: 1]

Ahn S, Hu S X, Damianou A, et al.

Variational information distillation for knowledge transfer

[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:9155-9163. DOI:10.1109/CVPR.2019.00938

[本文引用: 2]

Yim J, Joo D, Bae J, et al.

A gift from knowledge distillation: Fast optimization, network minimization and transfer learning

[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:7130-7138. DOI:10.1109/CVPR.2017.754

[本文引用: 1]

Lee S H, Kim D H, Song B C. Self-supervised knowledge distillation using singular value decomposition[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018:339-354. DOI:10.1007/978-3-030-01231-1_21

[本文引用: 2]

Chen P G, Liu S, Zhao H S, et al.

Distilling knowledge via knowledge review

[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:5006-5015. DOI: 10.1109/CVPR46437.2021.00497

[本文引用: 2]

Passalis N, Tefas A. Learning deep representations with probabilistic knowledge transfer[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018:283-299. DOI:10.1007/978-3-030-01252-6_17

[本文引用: 1]

Tung F, Mori G.

Similarity-preserving knowledge distillation

[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020:1365-1374. DOI: 10.1109/ICCV.2019.00145

[本文引用: 2]

Park W, Kim D, Lu Y, et al.

Relational knowledge distillation

[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:3962-3971. DOI: 10.1109/CVPR.2019.00409

[本文引用: 2]

Zhao B R, Cui Q, Song R J, et al.

Decoupled knowledge distillation

[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:11943-11952. DOI: 10.1109/CVPR52688.2022.01165

[本文引用: 2]

Wang L, Yoon K J.

Knowledge distillation and student-teacher learning for visual intelligence: A review and new outlooks

[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6):3048-3068. DOI:10.1109/TPAMI.2021.3055564

URL     [本文引用: 1]

杨宏炳, 迟勇欣, 王金光.

基于剪枝网络的知识蒸馏对遥感卫星图像分类方法

[J]. 计算机应用研究, 2021, 38(8):2469-2473.

[本文引用: 1]

[ Yang H B, Chi Y X, Wang J G.

Knowledge distillation method for remote sensing satellite image classification based on pruning network

[J]. Application Research of Computers, 2021, 38(8):2469-2473. ] DOI: 10.19734/j.issn.1001-3695.2020.07.0387

[本文引用: 1]

Gretton A, Borgwardt K M, Rasch M J, et al.

A kernel two-sample test

[J]. Journal of Machine Learning Research, 2012, 13(25):723-773.

[本文引用: 1]

Sejdinovic D, Gretton A. What is an RKHS? Lecture Notes, 2012

[本文引用: 1]

Zhao L J, Tang P, Huo L Z.

Feature significance-based multibag-of-visual-words model for remote sensing image scene classification

[J]. Journal of Applied Remote Sensing, 2016, 10(3):035004. DOI:10.1117/1.JRS.10.035004

URL     [本文引用: 1]

Zou Q, Ni L H, Zhang T, et al.

Deep learning based feature selection for remote sensing scene classification

[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(11):2321-2325. DOI:10.1109/LGRS.2015.2475299

URL     [本文引用: 1]

Liu B D, Xie W Y, Meng J, et al.

Hybrid collaborative representation for remote-sensing image scene classification

[J]. Remote Sensing, 2018, 10(12): 1934. DOI:10.3390/rs10121934

[本文引用: 1]

Xia G S, Hu J W, Hu F, et al.

AID: A benchmark data set for performance evaluation of aerial scene classification

[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7):3965-3981. DOI:10.1109/TGRS.2017.2685945

URL     [本文引用: 1]

Xie S N, Girshick R, Dollár P, et al.

Aggregated residual transformations for deep neural networks

[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:5987-5995. DOI:10.1109/CVPR.2017.634

[本文引用: 1]

Sandler M, Howard A, Zhu M L, et al.

MobileNetV2: inverted residuals and linear bottlenecks

[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:4510-4520. DOI:10.1109/CVPR.2018.00474

[本文引用: 1]

Maaten L van der and Hinton G.

Visualizing data using t-sne

[J]. Journal of Machine Learning Research, 2008, 9(86):2579-2605.

[本文引用: 1]

Selvaraju R R, Cogswell M, Das A, et al.

Grad-CAM: Visual explanations from deep networks via gradient-based localization

[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017:618-626. DOI: 10.1109/ICCV.2017.74

[本文引用: 1]

/