面向遥感影像场景分类的类中心知识蒸馏方法

刘潇; 刘智; 林雨准; 王淑香; 左溪冰

doi:10.12082/dqxxkx.2023.220781

地球信息科学学报 >

2023 , Vol. 25 >Issue 5: 1050 - 1063

DOI: https://doi.org/10.12082/dqxxkx.2023.220781

遥感科学与应用技术

面向遥感影像场景分类的类中心知识蒸馏方法

刘潇 ,
刘智 ^,^* ,
林雨准 ,
王淑香 ,
左溪冰

展开

信息工程大学地理空间信息学院，郑州 450001

*刘智（1965— ），男，湖南长沙人，教授，主要从事遥感图像智能解译研究。 E-mail: zhiliu001@sina.com

刘潇（1999— ），女，山东临沂人，硕士生，主要从事遥感图像智能解译研究。 E-mail: liuxiao99919@163.com

收稿日期: 2022-10-12

修回日期: 2023-01-28

网络出版日期: 2023-04-27

收起

Class-centric Knowledge Distillation for RSI Scene Classification

LIU Xiao ,
LIU Zhi ^,^* ,
LIN Yuzhun ,
WANG Shuxiang ,
ZUO Xibing

Expand

Institute of Geospatial Information, Information Engineering University, Zhengzhou 450001, China

*LIU Zhi, E-mail:zhiliu001@sina.com

Received date: 2022-10-12

Revised date: 2023-01-28

Online published: 2023-04-27

Fold

摘要

卷积神经网络已广泛应用于遥感影像场景分类任务，然而优秀的模型体量大，无法部署到资源受限的边缘设备中，直接应用现有的知识蒸馏方法压缩模型，忽略了场景数据的类内多样性和类间相似性。为此，本文提出一种类中心知识蒸馏方法，旨在获得一个紧凑高效且精度高的遥感影像场景分类网络。首先对预训练的教师网络进行微调，然后基于设计的类中心蒸馏损失将教师网络强大的特征提取能力迁移到学生网络，通过约束师生网络提取的同类特征分布中心的距离完成知识的转移，同时在蒸馏过程中结合真值标签训练，最后学生网络单独用于预测。实验在4个数据集上与8种先进的蒸馏方法在不同训练比率、不同师生架构下进行了比较，本文方法均达到最高分类精度。其中，在训练比率为60%的RSC11、UCM、RSSCN7及AID数据集中，相比于性能最好的其他蒸馏方法，师生网络属同系列时分类总体精度分别提升了2.42%、2.74%、2.95%和1.07%。相似技术对比实验及可视化分析进一步证明了本文方法优异的性能。本文所提出的类中心知识蒸馏方法更好地传递了复杂网络所提取的类内紧凑、类间离散的特征知识，提高了轻量网络分类的性能。

关键词： 场景分类; 模型压缩; 知识蒸馏; 类中心; 再生核希尔伯特空间; 遥感; 深度学习; 卷积神经网络

本文引用格式

刘潇 , 刘智 , 林雨准 , 王淑香 , 左溪冰 . 面向遥感影像场景分类的类中心知识蒸馏方法[J]. 地球信息科学学报, 2023 , 25(5) : 1050 -1063 . DOI: 10.12082/dqxxkx.2023.220781

Abstract

Convolutional neural networks have been widely used in the task of Remote Sensing Image Scene Classification (RSISC) and have achieved extraordinary performance. However, these excellent models have large volume and high computational cost, which cannot be deployed to resource-constrained edge devices. Moreover, in the RSISC task, the existing knowledge distillation method is directly applied to the compression model, ignoring the intra-class diversity and inter-class similarity of scene data. To this end, we propose a novel class-centric knowledge distillation method, which aims to obtain a compact, efficient, and accurate network model for RSISC. The proposed class-centric knowledge distillation framework for remote sensing image scene classification consists of two streams, teacher network flow and student network flow. Firstly, the remote sensing image scene classification dataset is sent into the teacher network pre-trained on a large-scale dataset to fine-tune the parameters. Then, the class-centric knowledge of the hidden layer is extracted from the adjusted teacher network and transferred to the student network based on the designed class center distillation loss, which is realized by constraining the distance of the distribution center of similar features extracted by the teacher and student network, so that the student network can learn the powerful feature extraction ability of the teacher network. The distillation process is combined with the truth tag supervision. Finally, the trained student network is used for scene prediction from remote sensing images alone. To evaluate the proposed method, we design a comparison experiment with eight advanced distillation methods on classical remote sensing image scene classification with different training ratios and different teacher-student architectures. Our results show that: compared to the best performance of other distillation methods, in the case of the teacher-student network belonging to the same series, the overall classification accuracy of our proposed method is increased by 1.429% and 2.74%, respectively, with a given training ratio of 80% and 60%; and in the case of teacher-student networks belonging to different series, the classification accuracy is increased by 0.238% and 0.476%, respectively, with the two given ratios. Additionally, supplementary experiments are also carried out on a small data set of RSC11 with few classes and few samples, a multi-scale data set of RSSCN7 with few classes and multiple books, and a large complex data set of AID with many classes of heterogeneous samples. The results show that the proposed method has good generalization ability. Trough the comparison experiments with similar techniques, it is found that the proposed method can maintain excellent performance in challenging categories through confusion matrix, and the proposed distillation loss function can better deal with noise through testing error curve. And visualization analysis also shows that the proposed method can effectively deal with the problems of intra-class diversity and inter-class similarity in remote sensing image scenes.

Key words： scene classification; model compression; knowledge distillation; class center; Reproducing Kernel Hilbert Space; remote sensing; deep learning; convolutional neural network

1 引言

近年来，得益于遥感成像技术的发展，遥感影像空间分辨率大大提高，使得影像对目标细节的表达能力逐渐提升，同时满足了智能化知识提取和信息挖掘的实际应用需求。高分辨率遥感影像场景分类作为遥感数据智能解译任务的重要研究领域，可以为环境监测^[1]、城市规划^[2]、资源调查^[3]等方面提供支撑。

遥感影像场景分类基于全局语义信息识别每幅影像斑块的场景类别。传统的基于人工特征描述符的遥感影像场景分类方法针对纹理特征等全局描述符直接分类^[4]，或是对尺度不变特征变换等局部描述符进行视觉词袋等编码表示整个场景^[5]。由于人工特征的表示能力有限并不适用于复杂场景影像，研究者们转而使用稀疏编码等无监督学习方法^[6]。然而，无监督学习方法不能充分利用数据类信息。近年来，随着深度学习的快速发展，卷积神经网络以其强大的特征提取能力广泛应用于场景分类领域并取得了巨大成功^[7]。例如，郭子慧等^[8]利用经典网络模型对场景进行自动分类，Yu等^[9]联合卷积神经网络与集成学习提高场景分类精度。复杂的遥感影像导致场景分类任务面临诸多挑战，针对场景数据类内高差异性和类间低可分性问题，Sun等 ^[10]嵌入了类内紧凑和类间离散性约束，Chen等^[11]引入了全局上下文空间注意模块解决全局多尺度特征提取不充分问题，Wang等^[12]则为表征不同尺度特征提出全局-局部双流结构，Peng等^[13]在标注样本有限的条件下提出基于多尺度对比学习的弱监督方法分类，Zhang等^[14]则提出噪声标签蒸馏方法解决伪标签问题。为应对上述挑战提高分类精度，高性能模型设计的越来越庞大复杂，这严重限制了场景分类算法在机载和星载嵌入式系统上的部署，因而，Zhang等^[15]致力于研究紧凑高效的场景分类模型，Chen等^[16]则引入知识蒸馏来压缩模型。

基于深度学习的算法在遥感图像场景分类领域快速发展并取得主导地位。然而，高性能的网络模型通常训练参数多，运算成本高，资源消耗大，移动端嵌入式设备及星上在轨处理期间难以满足如此计算复杂度及高存储要求^[17]。因此，压缩模型势在必行。模型压缩旨在简化模型的同时补偿精度，是实际应用落地的必然趋势。目前主流的算法有：网络剪枝^[18]、参数量化^[19]和知识蒸馏^[20]。网络剪枝和参数量化分别通过基于设计的标准删除冗余参数和利用低位宽替代原浮点型参数达到模型参数简化的目的。知识蒸馏则通过将隐含知识从复杂教师网络迁移到轻量学生网络上，使得轻量网络逼近复杂网络的性能，实现模型结构的压缩。

知识蒸馏的思想最早可追溯到Bucilua等^[21]提出的复杂集成模型可以通过模型压缩转化成简单神经网络的理论。Ba等^[22]通过实验完成了验证，提出最小化大模型和小模型的逻辑单元值之间的L2损失可以实现小模型的模拟。然而，这种未经过softmax函数的全连接层的输出值不受约束，在模型训练测试时可能包含噪声。为此，Hinton等^[23]提出使用“软目标”，由带温度系数的softmax函数软化输出的类概率，并通过KL散度拟合类概率分布。这种将知识从复杂的教师模型转移到简单的学生模型的过程被开创性的定义为知识蒸馏。随着知识蒸馏的进一步探索，蒸馏的知识得到丰富的扩展。根据知识种类的不同，现有方法可分为基于响应、特征、实例关系和网络层间关系的知识蒸馏。

Romero等^[24]认为网络中间隐含层的输出特征图可以作为知识，首次提出以教师网络的中间层（Hint层）为提示指导学生网络对应层（Guided层）学习。随后，Zagoruyko等^[25]提出迁移注意力信息，直接模仿教师网络的基于激活或梯度的空间注意力图。Huang等^[26]则归纳了激活注意力信息，提出转移神经元的选择性知识。相比于提示知识，激活知识无需额外调整师生网络输出的特征维度。Kim等^[27]设计了一个自编码器对教师网络的特征知识进行编解码，将原本难以理解的知识翻译成通俗的信息给学生。Heo等^[28]分析了特征蒸馏的设计层面，提出使用margin ReLU激活函数变换教师模型的输出特征，并在ReLU之前使用局部L2距离函数跳过不必要的信息进行蒸馏。Ahn等^[29]则从互信息的角度提出最大化师生网络间互信息的变分下界激发知识传递。基于特征的知识蒸馏只学习网络中间某层的输出特征是一种硬约束，忽略了网络结构的知识。Yim等^[30]开始将网络不同层间的关系编码为知识，定义两层特征之间的内积为FSP矩阵转移两层间的流动信息。Lee等^[31]引入奇异值分解来消除层间特征映射的空间冗余，以径向基函数衡量层模块输入输出端压缩特征的相关性。Chen等^[32]提出利用教师网络的多层信息指导学生网络中一层的学习，进一步研究了跨层连接的影响，以基于注意力的融合模块和分层上下文损失函数迁移不同级特征的融合知识。Passalis等^[33]探索了图像样本之间的关系，认为单体知识蒸馏默认了数据样本间相互独立，而教师模型中隐式编码了样本及其分布的信息，并提出匹配数据样本的概率密度分布。Tung等^[34]进一步构造了实例间的成对相似矩阵。Park等^[35]提出关系知识蒸馏，以距离和角度表征结构信息。最近，Zhao等^[36]对高度耦合的经典蒸馏损失重新表述，提出解耦知识蒸馏，发掘最初的响应知识的蒸馏潜力。

作为模型压缩的高效手段，知识蒸馏在计算机视觉^[37]等领域均取得了令人瞩目的成绩。然而，遥感影像场景分类领域对知识蒸馏的研究相对较少，Chen等^[16]最早将经典知识蒸馏引入遥感影像场景分类中，通过匹配深网络与浅网络的softmax层的输出，可有效提高浅网络的性能。Yang等^[38]引入知识蒸馏来补偿模型剪枝所引起的精度损失以压缩模型。Zhao等^[17]引入成对相似知识蒸馏，并使用mixup技术混合不同标签的样本，通过额外迁移虚拟样本之间相似度的相关性知识来提高学生网络精度。然而，这些方法大多直接应用现有的知识蒸馏算法，忽略了场景分类任务中类内高差异性以及类间低可分性的挑战，丢失了场景数据的类内多样性、类间相似性的判别信息，一定程度上降低了学生网络的分类精度，导致压缩效果表现一般。

为此，本文面向遥感影像场景分类任务，为压缩重量级网络以获得轻量级网络，提出一种类中心知识蒸馏算法，整体框架包括教师网络微调、师生网络蒸馏和学生网络预测3个部分。为使轻量网络能应对场景分类任务中类内高差异性以及类间低可分性的挑战，设计了一种新的蒸馏损失函数，通过约束师生网络提取的同类特征分布中心的距离，高效地转移教师网络强大的特征提取能力，使得学生网络提取的特征类内紧凑并类间离散。本文在四个公开的数据集上评估了所提方法及现有的基于响应、特征、实例关系和网络层间关系的知识蒸馏方法在遥感影像场景分类任务上的性能，实验结果证明了类中心知识蒸馏方法的优效性。

2 理论与方法

本文提出的用于遥感影像场景分类的类中心知识蒸馏算法的模型框架如图1所示，它由教师网络和学生网络2个流组成。首先，将遥感影像场景分类数据集送入经大规模数据集预训练的教师网络中进行参数微调；然后，从调整后的教师网络中提取知识，利用网络中间隐含层的类中心知识指导学生网络进行蒸馏训练，蒸馏损失函数将在2.1节详细介绍；此外，师生网络蒸馏阶段过程中，学生网络还需结合真值标签加以监督，总体损失函数将在2.2节说明。最后，将训练好的学生网络单独用于遥感影像场景预测。模型框架的具体步骤将在2.3节列出。

显示原图|下载原图ZIP|生成PPT

图1 类中心知识蒸馏模型框架

Fig. 1 Framework of class-centered knowledge distillation model

2.1 蒸馏损失函数

遥感影像场景分类面临类内高差异性以及类间低可分性的挑战，现有的知识蒸馏方法忽略了场景数据类内多样性及类间相似性的判别信息，因而未能较好的学习教师模型的特征提取能力。为此，本文设计了一种用于遥感影像场景分类的类中心知识蒸馏损失函数，通过约束师生网络提取的同类特征分布中心的距离完成关于类的知识转移，期望学生模型提取的特征能同教师模型一般具有良好的类内紧凑性和类间离散性。

2.1.1 神经元选择性迁移算法

Huang等^[26]提出神经元选择性迁移（Neuron Selectivity Transfer，NST）算法，通过最小化师生网络间的神经元选择性特征分布的最大平均差异度量实现知识转移。最大平均差异（Maximum Mean Discrepancy，MMD）^[39]用于衡量数据样本间概率分布的差异，具体通过将2个非线性可分的分布映射到一个高维的线性可分的再生核希尔伯特空间（Reproducing Kernel Hilbert Space, RKHS）^[40]中计算距离，如式（1）所示。

（1）

L M M D 2 X, Y = 1 N ∑ i = 1 N ϕ x i - 1 M ∑ j = 1 M ϕ y j

式中：样本

x i

，

y j

分别采集自样本集

X = x i i = 1 N

；

Y = y i i = 1 N

，

ϕ ·

表示一个显式映射函数。

NST算法视每个空间位置的激活值为一个特征

f i j

，将每个通道的所有位置的特征图

f i ∙ ∈ R H × W

展平为

1 × H W

维的向量并视为一个样本

f i ∙ ∈ R 1 × H W

，所有通道的样本

f i ∙ i = 1 C

组成一个

C × H W

的分布

F ∈ R C × H W

。通过约束

F T

和

F S

两个分布之间的最大平均差异匹配师生网络输出层的特征，如式（2）所示。

（2）

L M M D 2 F T, F S = 1 C T ∑ i = 1 C T ϕ f T i ∙ - 1 C S ∑ j = 1 C S ϕ f S j ∙ 22

受上述方法启发，本文进一步将同类的特征分布凝练为知识。同类实例的特征分布相似，将其映射到高维空间中会形成一个簇，教师模型提取的类内紧凑并类间离散的特征体现在簇的信息中，将其表征为类特征知识，供学生模型学习。具体而言，针对师生网络的某一个或几个特定层的输出特征按标签分类，求解同标签各实例的特征分布的中心，通过最小化师生间的每类中心的距离实现学生模型学习教师模型提取的类特征知识。

2.1.2 类中心知识蒸馏损失

本文将网络中某一特定输出层的特征图表示为

F ∈ R C × H × W

，一个实例

k

经师生网络训练后分别产生特征图

F T k

和

F S k

，可视为两两个特征分布

F T k ∈ R C T × H W

和

F S k ∈ R C S × H W

，将其映射到再生核希尔伯特空间

ϕ F T k

和

ϕ F S k

后，对相同标签下的

N

个实例的特征分布求解聚类中心

X T

和

X S

，并计算两者之间的距离

L C C D 2

：

（3）

L C C D 2 X T, X S = 1 N ∑ k = 1 N ϕ F T k - 1 N ∑ k = 1 N ϕ F S k 22 = 1 N 1 C T ∑ k = 1 N ∑ i = 1 C T ϕ f T k i ∙ - 1 N 1 C S ∑ k = 1 N ∑ j = 1 C S ϕ f S k j ∙ 22

注意，师生网络对应输出层的特征图应具有相同的空间维数

H × W

，如果特征图的尺寸不匹配，需要进行插值。

映射函数

ϕ ·

计算复杂，可利用核技巧

K x, y = ϕ x, ϕ y = ϕ (x) T ϕ y

简化计算。用

L 2

范数对样本进行归一化处理

n o r m f i ∙ = f i ∙ | | f i ∙ | | 2

，确保样本在相同量级下比较，那么

L C C D 2

重新表述为如式（4）所示。

（4）

L C C D 2 X T, X S = 1 N 2 ∑ k = 1 N 1 C T 2 ∑ i = 1 C T ∑ i' = 1 C T k f T i ∙ | | f T i ∙ | | 2, f T i' ∙ | | f T i' ∙ | | 2 + 1 C S 2 ∑ j = 1 C S ∑ j' = 1 C S k f S j ∙ | | f S j ∙ | | 2, f S j' ∙ | | f S j' ∙ | | 2 - 2 C T C S ∑ i = 1 C T ∑ j = 1 C S k f T i ∙ | | f T i ∙ | | 2, f S j ∙ | | f S j ∙ | | 2

式中：

k ., .

表示将特征向量投影到更高维或无限维特征空间的核函数。受NST算法启发，采用多项式核函数，

k x, y = x . y + c d

，其中

c = 0

，

d = 2

。

然后，对M个类中心距离求和得到某一特定输出层的类中心知识蒸馏损失函数值

L C C K D

（式（5））。

（5）

L C C K D = ∑ i = 1 M L C C D 2 X i T, X i S

本文设计对网络中间多个输出层的特征图进行蒸馏（图1），输出层的选取将在实验设置介绍。

2.2 总体损失函数

在训练过程中，强制学生模型使用标准交叉熵损失函数匹配地面真值标签有利于学生模型提高性能，如式（6）所示。

（6）

H y S, y t r u e = - ∑ i = 1 n y t r u e l o g y S z i

式中：

y S z i = e x p z i ∑ j = 1 C e x p z j

表示样本在第

i

类的预测概率；

z i

指第

i

类的logit；

y t r u e

代表真值标签。

因而，在训练过程中整个目标函数包含类中心蒸馏损失和标准交叉熵损失两部分，可表示为

（7）

L t o t a l = H y S, y t r u e + λ ∑ L C C K D

式中：

∑

指对本文选取的所有匹配层进行求和，

λ

是平衡两部分损失的超参数。

2.3 算法具体流程

首先用标准的监督学习策略训练教师模型，为使教师模型获得良好的特征表示能力，采用预训练-微调机制，提前于ImageNet数据集对教师模型进行预训练，再将模型送入遥感场景分类数据集进行微调。微调后的教师网络指导学生网络训练，学生网络按照类中心蒸馏损失学习教师网络提取特征的能力，并受真值标签的监督。最后，单独测试学生网络预测性能。类中心知识蒸馏算法如下。

算法1 类中心知识蒸馏算法
第一阶段：微调教师网络
输入：教师网络模型 $T$ ，预训练参数，训练样本 $X = x i, y i i = 1 N$
计算标准交叉熵损失函数 $H y t, y t r u e$
反向传播更新 $T$ 的参数，直到损失函数收敛
输出：教师网络模型 $T$
第二阶段:通过类中心蒸馏训练学生网络
输入：教师网络模型 $T$ ，学生网络模型 $S$ ，训练样本 $X = x i, y i i = 1 N$
初始化：学生网络参数 $θ$ 和超参数
按标签 $y$ 整理训练集 $X = x 1 i, · · ·, x n i, y i i = 1 M$ 每批次从随机类中抽取随机的样本
根据式（7）计算总体损失函数 $L t o t a l$
反向传播更新学生网络的参数 $θ$ ，直到损失函数收敛
输出：学生网络模型 $S$ ，参数 $θ$
第三阶段：测试学生网络
输入：学生网络模型 $S$ ，测试样本
输出：预测结果
按标签 $y$ 整理训练集 $X = x 1 i, · · ·, x n i, y i i = 1 M$ 每批次从随机类中抽取随机的样本

3 实验与分析

3.1 数据集

本文在RSC11^[41]、UC Merced Land-use（UCM）^[42]、RSSCN7^[43]和Aerial Image Dataset（AID）^[44] 4个主流的遥感影像场景分类数据集上进行综合实验，数据集详细情况如表1所示。从数据集中随机抽取一些图像作为示例样本，如图2所示。从图2左边2列可以发现这些场景分类数据集的类内多样性大，如种植地、住宅区、草地、旅游胜地等；从图2右四列可以观察到数据集中某些场景类具有很高的相似性，如RSC11数据集中的公路、立交、铁路三类，UCM 数据集中各种细分的住宅区与建筑物，RSSCN7数据集中的工业区与住宅区、农田与草地，AID数据集中的沙漠与裸地、湖泊与公园都非常相似，难以区分。这对结构紧凑的轻量级分类网络提出巨大的挑战。

表1 遥感影像场景分类数据集

Tab. 1 Remote sensing image scene classification dataset

数据集	分辨率/m	类别数/个	尺寸/mm	每类样本数/个	样本总数/个	特点
RSC11	0.2	11	512 × 512	约100	1232	小型的遥感影像场景分类数据集
UCM	0.3	21	256 × 256	100	2100	经典的高分辨率土地利用数据集
RSSCN7	-	7	400 × 400	400	2800	涵盖4个采样尺度的，类内多样性大的场景分类数据集
AID	0.5~0.8	30	600 × 600	200~400	10000	复杂的多源、多分辨率、类间相似性高、样本不均衡的航空图像数据集

显示原图|下载原图ZIP|生成PPT

图2 4个遥感影像场景分类数据集的示例样本

Fig. 2 Example samples of four remote sensing image scene classification datasets

3.2 实验设置

网络结构。本文采用ResNet^[45]和MobileNet^[46]系列作为师生网络的基础架构。其中教师网络为ResNet-50，学生网络则分别使用ResNet-18和MobileNetV2用于研究师生网络模型属于同系列和不同系列下的知识蒸馏性能。本文设计对网络中间4个输出层的特征图进行类中心知识蒸馏，网络结构详细信息及各输出层特征的尺寸信息如表2所示。

表2 师生网络结构及输出层特征信息

Tab. 2 Network structure of T/S models and Information about the features of the output layer

网络名称	ResNet50	ResNet18	MobileNetV2
卷积池化层	$7 × 7,64, s t r i d e 2 + 3 × 3 m a x p o o l, s t r i d e 2$	$3 × 3,32, s t r i d e 2$
卷积层1	$1 × 1,64 3 × 3,64 1 × 1,256 × 3$	$3 × 3,64 3 × 3,64 × 3$	$1 × 1,64 3 × 3,64 1 × 1,256 × 3$
输出层特征1		$F ∈ R 56 × 56 × 64$	$F ∈ R 56 × 56 × 256$
卷积层2	$1 × 1,128 3 × 3,128, s 2 1 × 1,512 + 1 × 1,128 3 × 3,128 1 × 1,512 × 3$	$3 × 3,128, s 2 3 × 3,128 + 3 × 3,128 3 × 3,128$	$1 × 1,128 3 × 3,128, s 2 1 × 1,512 + 1 × 1,128 3 × 3,128 1 × 1,512 × 3$
输出层特征2	$F ∈ R 28 × 28 × 512$	$F ∈ R 28 × 28 × 128$	$F ∈ R 28 × 28 × 512$
卷积层3	$1 × 1,256 3 × 3,256, s 2 1 × 1,1024 + 1 × 1,256 3 × 3,256 1 × 1,1024 × 3$	$3 × 3,256, s 2 3 × 3,256 + 3 × 3,256 3 × 3,256$	$1 × 1,256 3 × 3,256, s 2 1 × 1,1024 + 1 × 1,256 3 × 3,256 1 × 1,1024 × 3$
输出层特征3	$F ∈ R 14 × 14 × 1024$	$F ∈ R 14 × 14 × 256$	$F ∈ R 14 × 14 × 1024$
卷积层4	$1 × 1,, 512 3 × 3,512, s 2 1 × 1,2048 + 1 × 1,, 512 3 × 3,512 1 × 1,2048 × 3$	$3 × 3,512, s 2 3 × 3,512 + 3 × 3,512 3 × 3,512$	$1 × 1,, 512 3 × 3,512, s 2 1 × 1,2048 + 1 × 1,, 512 3 × 3,512 1 × 1,2048 × 3$
输出层特征4	$F ∈ R 7 × 7 × 2048$	$F ∈ R 7 × 7 × 512$	$F ∈ R 7 × 7 × 2048$
全局池化层		$7 × 7 a v e r a g e p o o l, f c, s o f t m a x$

注：F表示设计蒸馏网络中间输出层的特征图； $R N × M × C$ 表示特征图尺寸为 $N × M$ ，通道数为 $C$ 。

实验配置。本文使用NVIDIA Tesla 4在PyTorch环境下进行综合实验。在训练阶段，我们采用随机翻转和随机半径的高斯模糊进行数据增强。在测试阶段，不对测试数据进行增强。教师网络微调过程设置批大小为64，初始学习率为1e-4，按指数衰减调整学习率，使用动量为0.9的随机梯度下降（SGD）作为优化器，迭代次数设置为160。学生网络单独训练过程和知识蒸馏过程均设置批大小为32，初始学习率为0.05，仍按指数衰减调整学习率，使用动量为0.9的随机梯度下降（SGD）作为优化器，迭代次数设置为240。所有训练均采用提前终止策略，如果验证损失在连续30次迭代计算后没有降低，则终止训练。

超参数设置。本文设置平衡因子

λ

为50，并采用20代的线性预热。参数的最佳设置由实验得出，

λ

在适当范围内对总体精度影响不大，但精度随着

λ

值的增大有降低的趋势，分析可能是大数值的

λ

导致较大的初始损耗，因而使用一定周期的线性预热减少初始损失，最终得出20代的线性预热能有效提高精度。

3.3 实验结果与分析

3.3.1 有效性实验

为验证类中心知识蒸馏方法的有效性，本文首先在经典的遥感影像场景分类数据集UCM上进行不同师生架构和训练比率的实验，并与八种先进的知识蒸馏方法进行比较：KD^[23]、DKD^[36]、NST^[26]、VID^[29]、KDSVD^[31]、ReviewKD^[32]、RKD^[35]、SP^[34]，为便于分析，按照知识的种类将这些方法分为4类。实验结果如表3所示，本文提出的方法取得了最优的精度。

表3 UCM数据集上各种知识蒸馏方法的总体精度

Tab. 3 Overall accuracy of various knowledge distillation methods on UCM dataset (%)

蒸馏方法	师生架构（Model T/S）	同系列（ResNet-50/ ResNet-18）		不同系列（ResNet-50/MobileNet-V2）
	训练比率	80%	60%	80%	60%
	Baseline	92.14	90.00	91.43	90.48
响应	KD	95.48	92.38	93.33	90.24
响应	DKD	95.71	91.91	94.52	92.14
特征	NST	94.05	91.67	92.62	90.48
特征	VID	93.57	89.41	92.38	89.05
网络层间关系	KDSVD	92.62	90.36	92.62	89.88
网络层间关系	ReviewKD	94.29	92.62	94.29	91.07
实例关系	RKD	94.52	92.02	92.38	87.38
实例关系	SP	93.33	91.43	80.48	59.05
类中心	本文方法	97.14	95.36	94.76	92.62

注：Baseline是指单独训练学生网络的结果。在所有方法中精度最高的结果表示为粗体，次高的表示为下划线。结果取10次实验平均值。

在师生网络属同系列的实验中可以观察到，类中心知识蒸馏方法与单独训练学生网络相比提高了超5%的分类总体精度，在80%的训练比率下与最先进的DKD方法相比实现了1.43%的改进，总体精度高达97.14%，训练比率为60%时则较精度最优的ReviewKD方法提升了2.74%，达到95.36%的总体精度。

在师生网络属不同系列的实验中，精度同样有提升，以MobileNet-V2为学生模型的蒸馏结果显示所提方法在80%、60%的训练比率下分别获得了94.76%和92.62%的精度，比单独训练提高了3.33%、2.14%，分别超性能第二的蒸馏方法0.24%、0.48%。

实验结果表明，本文提出的方法与单独训练相比取得了显著的改进，并优于目前先进的知识蒸馏方法。因此，本文认为所提方法可以有效地从教师模型中提取有价值的信息转化为知识迁移至学生模型供其学习。综合2组实验来看，训练比率越低，所提方法精度提升的幅度越大，类中心知识蒸馏的优势越明显。

表4展示了网络模型压缩前后尺寸的对比，以计算量（Floating Point Operations, FLOPs）衡量模型运算的复杂度，以参数量（Parameters）衡量模型存储的大小，压缩率是指学生网络（模型压缩后）与教师网络（模型压缩前）大小之比。

表4 网络模型尺寸对比

Tab. 4 Comparison of model size

模型	FLOPs (G)	Parameters (M)	压缩率/%
ResNet50	32.88	23.55
ResNet18	14.55	11.19	47.52
MobileNetV2	2.50	2.25	9.55

结果表明，在训练率为60% UCM数据集上，相比于ResNet50模型，ResNet18模型实现了47.52%的压缩率并补偿了5.36%的精度，MobileNetV2模型则达到9.55%的压缩率并将计算复杂度降低至原来的7.6%。

3.3.2 适用性实验

为验证类中心知识蒸馏方法的普适性，本文将在RSC11少类少样本的小型数据集、RSSCN7少类多样本的多尺度数据集及AID多类不均样本的大型复杂数据集上进行补充实验。表5展示了在训练比率为60%的多个数据集上进行的师生网络同属一系列的实验结果，本文提出的方法在RSC11和AID数据集上分别获得了94.37%和94.10%的精度，与单独训练相比，提高了4.23%和5.12%，相较于性能第二的知识蒸馏方法分别有 2.42%和1.07%的提升。

表5 多个数据集在60%训练比率及同构师生网络条件下的总体精度

Tab. 5 Overall accuracy on multiple datasets with 60% training ratio and homogeneous T/S network (%)

数据集	教师网络	学生网络	响应		特征		网络层间关系		实例关系		类中心
数据集	教师网络	学生网络	KD	DKD	NST	VID	KDSVD	ReviewKD	RKD	SP	本文方法
RS_C11	92.35	90.14	91.95	90.95	89.74	88.13	87.73	90.34	89.74	87.73	94.37
RSSCN7	91.07	88.75	88.30	87.32	87.59	87.41	87.05	88.21	88.75	86.52	91.70
AID	95.68	88.98	92.73	93.03	91.43	88.96	89.20	92.58	91.45	91.65	94.10

注：教师网络为ResNet-50，展示的是经预训练-微调后的分类结果，学生网络为ResNet-18，表示的是不经蒸馏单独训练的结果。在所有方法中精度最高的结果表示为粗体，次高的表示为下划线，斜体粗体意味着超过教师分类精度。结果取10次实验平均值。

值得注意的是，目前先进的知识蒸馏方法在RSSCN7数据集上的表现较差，精度相较于单独训练学生网络不升反降，仅有RKD方法保持了精度，而本文提出的方法则有2.95%的提升，精度达到91.70%。还可以观察到，在RSC11和RSSCN7 2类别较少的数据集上，所提蒸馏方法不仅实现了与单独训练相比的显著改进，甚至超过了预训练微调下教师模型的精度，说明类中心知识蒸馏方法相比于其他蒸馏方法转移了更专用的知识，具体原因将在后续分析。

综上分析，在不同架构的师生网络、不同比率的训练样本和不同规模的数据集的3组实验中，本文提出的方法表现优异，精度与单独训练学生网络和先进知识蒸馏方法相比均有提升，说明所提方法具有良好的泛化能力。

3.3.3 技术对比实验

本文受NST算法启发而提出类中心知识蒸馏方法，为验证所提方法的优越性，本文在RSC11 Dataset数据集上对2种蒸馏方法进行对比实验，并结合微调的ResNet-50教师网络、单独训练的ResNet-18学生网络的实验结果进行分析。为保证变量唯一，先对NST蒸馏方法进行改进，针对本文同样的输出层特征进行匹配，以研究类中心知识的有效性。

分类总体精度如表6所示，本文提出的方法较改进的NST方法有1.811%的提升。对实验结果计算精度混淆矩阵，直观查看各类别的分类精度以及错分和漏分情况。混淆矩阵中

(i, j)

元素的值表示标签为

i

、分为

j

类的测试样本占测试图像总数的比例，结果如表7所示。

表6 RSC11数据集上对比实验的结果

Tab.6 Results of comparative experiments on RSC11 Dataset (%)

	Student	Teacher	NST	NST_all	本文方法	较次高提升精度
总体精度	90.14	92.35	89.74	92.56	94.37	1.81

注：精度最高的结果表示为粗体，次高的表示为下划线

表7 对比实验在RSC11数据集上的精度混淆矩阵

Tab. 7 Accuracy confusion matrix of comparison experiment on RSC11 Dataset (%)

单独训练的学生网络												微调的教师网络
	密林	草地	港口	高建筑	低建筑	立交	铁路	居民区	公路	疏林	储存罐		密林	草地	港口	高建筑	低建筑	立交	铁路	居民区	公路	疏林	储存罐
密林	98.21										1.79	密林	100
草地		100										草地		100
港口			97.22	2.78								港口			100
高建筑				91.11		2.22		2.22			4.44	高建筑				97.62				2.38
低建筑					85.42	6.25					8.33	地建筑					91.67	4.17	2.08		2.08
立交					2.33	74.42	2.33		18.6		2.33	立交				2.27		68.18	9.09		20.45
铁路				3.12		3.12	87.5		6.25			铁路						8.00	88.00		4.00
居民区						1.61	1.61	87.1	4.84		4.84	居民区						1.79		98.21
公路			1.89	1.89		9.43	3.77		83.02			公路				3.28		13.11	8.20		75.41
疏林	2.17									97.83		疏林										100
储存罐					5.71			2.86			91.43	储存罐											100
基于改进NST方法训练的学生网络												基于本文方法训练的学生网络
	密林	草地	港口	高建筑	低建筑	立交	铁路	居民区	公路	疏林	储存罐		密林	草地	港口	高建筑	低建筑	立交	铁路	居民区	公路	疏林	储存罐
密林	100											密林	100
草地		100										草地		100
港口			92.31	2.56					5.13			港口			100
高建筑				90.91	4.55			2.27			2.27	高建筑				97.73	2.27
地建筑				2.50	95.00	2.5						低建筑					95.24	2.38					2.38
立交						89.19	5.41		5.41			立交						86.11	5.56	2.78	5.56
铁路				3.12	3.12		87.5		3.12		3.12	铁路				3.33	6.67		90.00
居民区				1.67				91.67	3.33		3.33	居民区			1.69			1.69	1.69	93.22	1.69
公路						14.75	3.28		81.97			公路						15.15	3.03		81.82
疏林	2.17									97.83		疏林										100
储存罐					7.14						92.86	储存罐					2.33						97.67

由表7可知，本文提出的方法对所有分类都提升了精度，其中港口和高建筑相比于改进的NST蒸馏方法提高了7.69%和6.80%，其他类别的精度也都有1%~4%的提升。分类精度相对较低的是公路、立交和铁路，值得注意的是，也正是这三类的分类精度不仅比单独训练的学生模型高甚至都大幅度超过了教师模型，本文分析认为这些具有挑战性的类别经蒸馏后不仅保持了学生网络对这些类的区分能力，还学习到教师网络中的知识，达到较高精度。另外，从可视化测试误差曲线（图3）中可以观察到与单独训练（绿色线）相比，本文方法（蓝色线）能够快速收敛，改进的NST蒸馏方法（红色线）的测试误差曲线同样快速收敛但紧接着发生振荡并有上浮趋势，说明NST蒸馏损失受随机样本的影响大，训练模型存在过拟合的风险，而我们所提出的类中心蒸馏损失能够很好处理噪声，损失值快速收敛并趋于稳定。

显示原图|下载原图ZIP|生成PPT

图3 测试误差曲线

注：误差曲线以0.6的衰减权重进行指数滑动平均平滑处理，图中阴影部分展示了原始数值。

Fig. 3 Test error curve

3.3.4 可视化分析

本文在具有挑战性的RSSCN7数据集上使用T-SNE算法^[47]可视化模型的特征提取能力。T-SNE算法用于高维数据降维，可将高维特征表示在二维可视空间中。通过T-SNE算法将模型提取的高维特征可视化，以衡量所提方法能否有效地解决类内多样性和类间相似性问题。

如图4所示，与单独训练的学生模型和基于改进的NST方法相比，本文方法所提取的特征，类别相同的特征簇更紧凑，而类别不同的特征簇相对分散，尤其是红色圈内的三类特征簇，表现的最为明显。说明本文方法提取的特征具有良好的类内紧凑性和类间离散性，有效地应对了遥感影像场景类内多样性和类间相似性问题。

显示原图|下载原图ZIP|生成PPT

图4 RSSCN7数据集经T-SNE算法可视化的特征散点图

Fig. 4 Characteristic scatter plot of RSSCN7 dataset visualized by T-SNE algorithm

为了进一步分析学生网络学习的效果，本文对蒸馏过程中设计匹配的四个网络中间输出层进行可视化，利用Selvaraju等^[48]提出的Grad-CAM（Gradient-weighted Class Activation Mapping）绘制热力图来显示网络中间层关注的区域及特征信息，以此探查学生网络的特征提取能力。如图5所示，热力图中颜色越深的区域为关注度越高。横向分析可以发现不同网络输出层的侧重点不同，层级越深关注的特征越抽象，如特征层1主要关注边缘特征，特征层4则重点关注语义场景特征。纵向分析不同方法同一输出层关注区域的差别，相比于单独训练方法和改进的NST方法，本文方法综合了教师网络和学生网络关注区域，说明本文方法很好的传递了教师网络的特征提取能力。

显示原图|下载原图ZIP|生成PPT

图5 输出特征层的热力图

注：热力值表示模型注意力的可视化结果，数值高代表模型关注该区域。

Fig. 5 Gradient-weighted class activation mapping of output the feature layer

从所有输出层的热力图来看，本文方法关注感受野更大，不容易因过于聚焦场景内类间相似性地物而预测错误。原图为工业区，改进的NST方法因过于关注图中房屋而错误预测为住宅区，受噪声影响大，同时也说明了本文方法提取的特征能有效应对类间相似性挑战。

4 结论

本文面向遥感影像场景分类任务提出了一种类中心知识蒸馏方法，通过教师网络微调、师生网络蒸馏两步训练，获得一个能部署到边缘计算设备中的高性能轻量网络。本文设计的类中心蒸馏损失函数通过匹配师生网络提取的同类特征分布的中心，高效地转移了复杂网络强大的特征提取能力，使得轻量网络在场景分类任务中能应对类内高差异性以及类间低可分性的挑战。本文在4个公开的遥感影像场景分类基准数据集上进行了一系列综合实验，以评估类中心知识蒸馏方法的优效性实验结论总结如下：

（1）本文在经典的UCM高分辨率土地利用数据集上，于60%和80% 2种训练比率以及ResNet50与ResNet18和ResNet50与MobileNet-V2两种师生架构的条件下进行了有效性实验，并与4类8种现有的先进知识蒸馏方法进行了对比。实验结果表明，类中心知识蒸馏方法在同构、异构的师生网络中表现均最优，尤其是训练比率越低精度提升幅度越大。随后，本文在RSC11少类少样本的小型数据集、RSSCN7少类多样本的多尺度数据集及AID多类不均样本的大型复杂数据集上进行了适用性实验，实验结果证明所提方法具有良好的泛化能力。

（2）本文还与改进的NST算法进行了技术对比实验，通过混淆矩阵发现在具有挑战性的类别中类中心知识蒸馏方法仍能保持优异性，不仅保持了学生网络的分类能力，还学习到教师网络中的知识，测试误差曲线则表明了所提蒸馏损失函数能较好地处理噪声而使损失值快速收敛并趋于稳定，验证了本文方法的优越性。此外，本文基于T-SNE算法可视化了模型的特征提取能力，并基于Grad-CAM绘制了热力图可视化输出层关注区域，结果表明本文方法提取的特征具有良好的类内紧凑性和类间离散性。

综上，本文提出的类中心知识蒸馏方法提高了紧凑网络的分类精度，与其他蒸馏方法相比表现最优。本文重点关注了如何更好地衡量师生特征间的接近程度，限于篇幅和时间暂时没有探索何处的知识最佳，后续将进一步的深入研究最佳蒸馏位置的选择和组合问题。未来研究还将进一步探索类中心知识蒸馏方法的价值，实现在目标检测、语义分割任务上的应用。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Ghazouani F, Farah I R, Solaiman B. A multi-level semantic scene interpretation strategy for change interpretation in remote sensing imagery[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(11):8775-8795. DOI:10.1109/TGRS.2019.2922908 DOI

[2]	Hu F, Xia G S, Hu J W, et al. Transferring deep convolutional neural networks for the scene classification of high-resolution remote sensing imagery[J]. Remote Sensing, 2015, 7(11):14680-14707. DOI:10.3390/rs71114680 DOI

[3]	Gu Y T, Wang Y T, Li Y S. A survey on deep learning-driven remote sensing image scene understanding: Scene classification, scene retrieval and scene-guided object detection[J]. Applied Sciences, 2019, 9(10):2110. DOI:10.3390/app9102110 DOI

[4]	Ojala T, Pietikainen M, Maenpaa T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2002, 24(7):971-987. DOI: 10.1109/TPAMI.2002.1017623 DOI

[5]	Zhu Q Q, Zhong Y F, Zhao B, et al. Bag-of-visual-words scene classifier with local and global features for high spatial resolution remote sensing imagery[J]. IEEE Geoscience and Remote Sensing Letters, 2016, 13(6):747-751. DOI:10.1109/LGRS.2015.2513443 DOI

[6]	Romero A, Gatta C, Camps-Valls G. Unsupervised deep feature extraction for remote sensing image classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(3):1349-1362. DOI:10.1109/TGRS.2015.2478379 DOI

[7]	Cheng G, Xie X X, Han J W, et al. Remote sensing image scene classification meets deep learning: Challenges, methods, benchmarks, and opportunities[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2020, 13:3735-3756. DOI:10.1109/JSTARS.2020.3005403 DOI

[8]

郭子慧, 刘伟. 深度学习和遥感影像支持的矢量图斑地类解译真实性检查方法[J]. 地球信息科学学报, 2020, 22(10):2051-2061.

DOI

[ Guo

Z H

, Liu

. Land type interpretation authenticity check of vector patch supported by deep learning and remote sensing image[J]. Journal of Geo-Information Science, 2020, 22(10):2051-2061. ] DOI:10.12082/dqxxkx.2020.200001

DOI

[9]	余东行, 张保明, 赵传, 等. 联合卷积神经网络与集成学习的遥感影像场景分类[J]. 遥感学报, 2020, 24(6):717-727. [ Yu D H, Zhang B M, Zhao C, et al. Scene classification of remote sensing image using ensemble convolutional neural network[J]. Journal of Remote Sensing, 2020, 24(6):717-727. ] DOI:10.11834/jrs.20208273 DOI

[10]	Sun H M, Lin Y W, Zou Q, et al. Convolutional neural networks based remote sensing scene classification under clear and cloudy environments[C]// 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). IEEE, 2021:713-720. DOI:10.1109/ICCVW54120.2021.00085 DOI

[11]	Chen W T, Ouyang S B, Tong W, et al. GCSANet: A global context spatial attention deep learning network for remote sensing scene classification[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2022, 15:1150-1162. DOI:10.1109/JSTARS.2022.3141826 DOI

[12]	Wang Q, Huang W, Xiong Z T, et al. Looking closer at the scene: Multiscale representation learning for remote sensing image scene classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(4):1414-1428. DOI:10.1109/TNNLS.2020.3042276 DOI

[13]

彭瑞, 赵文智, 张立强, 等. 基于多尺度对比学习的弱监督遥感场景分类[J]. 地球信息科学学报, 2022, 24(7):1375-1390.

DOI

[ Peng

, Zhao

W Z

, Zhang

L Q

, et al. Multi-scale contrastive learning based weakly supervised learning for remote sensing scene classification[J]. Journal of Geo-Information Science, 2022, 24(7):1375-1390. ] DOI:10.12082/dqxxkx.2022.210809

DOI

[14]	Zhang R, Chen Z H, Zhang S X, et al. Remote sensing image scene classification with noisy label distillation[J]. Remote Sensing, 2020, 12(15): 2376. DOI:10.3390/rs12 152376 DOI

[15]	Zhang B, Zhang Y J, Wang S G. A lightweight and discriminative model for remote sensing scene classification with multidilation pooling module[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(8):2636-2653. DOI:10.1109/JSTARS.2019.2919317 DOI

[16]	Chen G Z, Zhang X D, Tan X L, et al. Training small networks for scene classification of remote sensing images via knowledge distillation[J]. Remote Sensing, 2018, 10(5):719. DOI:10.3390/rs10050719 DOI

[17]	Zhao H R, Sun X, Gao F, et al. Pair-wise similarity knowledge distillation for RSI scene classification[J]. Remote Sensing, 2022, 14(10):2483. DOI: 10.3390/rs14102483 DOI

[18]	Li H, Kadav A, Durdanovic I, et al. Pruning filters for efficient ConvNets[EB/OL]. 2016: arXiv: 1608.08710. https://arxiv.org/abs/1608.08710

[19]	Yang T J, Chen Y H, Sze V. Designing energy-efficient convolutional neural networks using energy-aware pruning[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:6071-6079. DOI:10.1109/CVPR.2017.643 DOI

[20]	Gou J P, Yu B S, Maybank S J, et al. Knowledge distillation: A survey[J]. International Journal of Computer Vision, 2021, 129(6):1789-1819. DOI:10.1007/s11263-021-01453-z DOI

[21]	Buciluǎ C, Caruana R, Niculescu-Mizil A. Model compression[C]// Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM, 2006:535-541. DOI:10.1145/1150402.1150464 DOI

[22]	Ba J and Caruana R. Do deep nets really need to be deep?[C]. Advances in Neural Information Processing Systems, 2014, 27. DOI:10.48550/arXiv.1312.6184 DOI

[23]	Hinton G, Vinyals O, Dean J. Distilling the knowledge in a neural network[EB/OL]. 2015: arXiv:1503.02531. https://arxiv.org/abs/1503.02531

[24]	Romero A, Ballas N, Kahou S E, et al. FitNets: Hints for thin deep nets[EB/OL]. 2014: arXiv:1412.6550. https://arxiv.org/abs/1412.6550

[25]	Zagoruyko S, Komodakis N. Paying more attention to attention: Improving the performance of convolutional neural networks via attention transfer[EB/OL]. 2016: arXiv: 1612.03928. https://arxiv.org/abs/1612.03928

[26]	Huang Z H, Wang N Y. Like what You like: Knowledge distill via neuron selectivity transfer[EB/OL]. 2017:arXiv: 1707.01219. https://arxiv.org/abs/1707.01219

[27]	Kim J, Park S, Kwak N. Paraphrasing complex network: Network compression via factor transfer[EB/OL]. 2018: arXiv: 1802.04977. https://arxiv.org/abs/1802.04977

[28]	Heo B, Kim J, Yun S, et al. A comprehensive overhaul of feature distillation[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020:1921- 1930. DOI:10.1109/ICCV.2019.00201 DOI

[29]	Ahn S, Hu S X, Damianou A, et al. Variational information distillation for knowledge transfer[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:9155-9163. DOI:10.1109/CVPR.2019.00938 DOI

[30]	Yim J, Joo D, Bae J, et al. A gift from knowledge distillation: Fast optimization, network minimization and transfer learning[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:7130-7138. DOI:10.1109/CVPR.2017.754 DOI

[31]	Lee S H, Kim D H, Song B C. Self-supervised knowledge distillation using singular value decomposition[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018:339-354. DOI:10.1007/978-3-030-01231-1_21 DOI

[32]	Chen P G, Liu S, Zhao H S, et al. Distilling knowledge via knowledge review[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:5006-5015. DOI: 10.1109/CVPR46437.2021.00497 DOI

[33]	Passalis N, Tefas A. Learning deep representations with probabilistic knowledge transfer[M]//Computer Vision - ECCV 2018. Cham: Springer International Publishing, 2018:283-299. DOI:10.1007/978-3-030-01252-6_17 DOI

[34]	Tung F, Mori G. Similarity-preserving knowledge distillation[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020:1365-1374. DOI: 10.1109/ICCV.2019.00145 DOI

[35]	Park W, Kim D, Lu Y, et al. Relational knowledge distillation[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:3962-3971. DOI: 10.1109/CVPR.2019.00409 DOI

[36]	Zhao B R, Cui Q, Song R J, et al. Decoupled knowledge distillation[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:11943-11952. DOI: 10.1109/CVPR52688.2022.01165 DOI

[37]	Wang L, Yoon K J. Knowledge distillation and student-teacher learning for visual intelligence: A review and new outlooks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6):3048-3068. DOI:10.1109/TPAMI.2021.3055564 DOI

[38]

杨宏炳, 迟勇欣, 王金光. 基于剪枝网络的知识蒸馏对遥感卫星图像分类方法[J]. 计算机应用研究, 2021, 38(8):2469-2473.

[ Yang

H B

, Chi

Y X

, Wang

J G

. Knowledge distillation method for remote sensing satellite image classification based on pruning network[J]. Application Research of Computers, 2021, 38(8):2469-2473. ] DOI: 10.19734/j.issn.1001-3695.2020.07.0387

DOI

[39]	Gretton A, Borgwardt K M, Rasch M J, et al. A kernel two-sample test[J]. Journal of Machine Learning Research, 2012, 13(25):723-773.

[40]	Sejdinovic D, Gretton A. What is an RKHS? Lecture Notes, 2012

[41]	Zhao L J, Tang P, Huo L Z. Feature significance-based multibag-of-visual-words model for remote sensing image scene classification[J]. Journal of Applied Remote Sensing, 2016, 10(3):035004. DOI:10.1117/1.JRS.10.035004 DOI

[42]	Zou Q, Ni L H, Zhang T, et al. Deep learning based feature selection for remote sensing scene classification[J]. IEEE Geoscience and Remote Sensing Letters, 2015, 12(11):2321-2325. DOI:10.1109/LGRS.2015.2475299 DOI

[43]	Liu B D, Xie W Y, Meng J, et al. Hybrid collaborative representation for remote-sensing image scene classification[J]. Remote Sensing, 2018, 10(12): 1934. DOI:10.3390/rs10121934 DOI

[44]	Xia G S, Hu J W, Hu F, et al. AID: A benchmark data set for performance evaluation of aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7):3965-3981. DOI:10.1109/TGRS.2017.2685945 DOI

[45]	Xie S N, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:5987-5995. DOI:10.1109/CVPR.2017.634 DOI

[46]	Sandler M, Howard A, Zhu M L, et al. MobileNetV2: inverted residuals and linear bottlenecks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:4510-4520. DOI:10.1109/CVPR.2018.00474 DOI

[47]	Maaten L van der and Hinton G. Visualizing data using t-sne[J]. Journal of Machine Learning Research, 2008, 9(86):2579-2605.

[48]	Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017:618-626. DOI: 10.1109/ICCV.2017.74 DOI

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 理论与方法

图1 类中心知识蒸馏模型框架

2.1 蒸馏损失函数

2.1.1 神经元选择性迁移算法

2.1.2 类中心知识蒸馏损失

2.2 总体损失函数

2.3 算法具体流程

3 实验与分析

3.1 数据集

表1 遥感影像场景分类数据集

图2 4个遥感影像场景分类数据集的示例样本

3.2 实验设置

表2 师生网络结构及输出层特征信息

3.3 实验结果与分析

3.3.1 有效性实验

表3 UCM数据集上各种知识蒸馏方法的总体精度

表4 网络模型尺寸对比

3.3.2 适用性实验

表5 多个数据集在60%训练比率及同构师生网络条件下的总体精度

3.3.3 技术对比实验

表6 RSC11数据集上对比实验的结果

表7 对比实验在RSC11数据集上的精度混淆矩阵

图3 测试误差曲线

3.3.4 可视化分析

图4 RSSCN7数据集经T-SNE算法可视化的特征散点图

图5 输出特征层的热力图

4 结论

参考文献