面向卫星遥感影像检索定位的深度学习全局表征模型评估与分析

施群山; 蓝朝桢; 徐青; 周杨; 胡校飞

doi:10.12082/dqxxkx.2022.220148

地球信息科学学报 >

2022 , Vol. 24 >Issue 11: 2245 - 2263

DOI: https://doi.org/10.12082/dqxxkx.2022.220148

遥感科学与应用技术

面向卫星遥感影像检索定位的深度学习全局表征模型评估与分析

施群山 ,
蓝朝桢 ,
徐青 ,
周杨 ,
胡校飞

展开

战略支援部队信息工程大学地理空间信息学院，郑州 450001

*蓝朝桢（1979— ），男，福建龙岩，博士，副教授，主要从事摄影测量与遥感方向研究。E-mail: lan_cz@163.com

施群山（1985— ），男，江苏盐城人，博士，副教授，主要从事摄影测量与遥感方向的研究。E-mail: hills1@163.com

收稿日期: 2022-04-03

修回日期: 2022-05-31

网络出版日期: 2023-01-25

基金资助

国家自然科学基金项目(41701463)

收起

Evaluation and Analysis of Deep Learning Global Representation Model for Satellite Remote Sensing Image Retrieval and Location

SHI Qunshan ,
LAN Chaozhen ,
XU Qing ,
ZHOU Yang ,
HU Xiaofei

Expand

Institute of Geospatial Information, Information Engineering University, Zhengzhou 450001, China

*LAN Chaozhen E-mail: lan_cz@163.com

Received date: 2022-04-03

Revised date: 2022-05-31

Online published: 2023-01-25

Supported by

National Natural Science Foundation of China(41701463)

Fold

摘要

如何快速获取无辅助参数卫星遥感影像地理位置是非合作方式获取的遥感影像信息充分利用的一个关键，利用影像特征的相似性对卫星遥感影像检索来实现定位，是获取无辅助参数卫星遥感影像地理位置的有效手段。为了探寻影像深度学习全局特征用于无辅助参数卫星遥感影像检索定位的可行性，建立了包括Precision@K、平均排序、特征提取时间、特征相似性计算时间、硬件消耗等，涵盖有效性、效率2个方面共计5类指标的评估体系。采用谷歌地球提供的影像数据作为基准影像，在资源三号夏季及冬季数据集上，分别利用AlexNet、VggNet、ResNet、DenseNet、EfficientNet等几种代表性的卷积神经网络预训练模型提取基准影像及查询影像的全局特征，依据评估体系中的指标，对这些网络模型的影像表征效果进行全面的量化评估与分析。试验分析结果表明，DenseNet、ResNet-18、VggNet这3个深度学习神经网络预训练模型提取的全局特征，综合表征效果较好，可有效用于卫星遥感影像检索定位；当K值取200时，DenseNet网络模型的Precision@K值可以达到59.5%，ResNet-18和VggNet网络模型紧随其后，分别为49.7%和48.0%，为进一步利用深度学习全局特征进行卫星遥感影像检索定位，找出了最佳的候选网络模型，为下一步模型优化等研究奠定了基础。

关键词： 卫星遥感影像; 检索定位; 深度学习; 卷积神经网络; 全局特征; 图像表征; 有效性评估; 效率评估

本文引用格式

施群山 , 蓝朝桢 , 徐青 , 周杨 , 胡校飞 . 面向卫星遥感影像检索定位的深度学习全局表征模型评估与分析[J]. 地球信息科学学报, 2022 , 24(11) : 2245 -2263 . DOI: 10.12082/dqxxkx.2022.220148

Abstract

How to quickly obtain the geographical location of satellite remote sensing images without auxiliary parameters is a key to make full use of remote sensing image information obtained by non-cooperative means. Using the similarity of image features to realize satellite remote sensing image retrieval is an effective means to obtain the geographical location of satellite remote sensing images without auxiliary parameters. In order to explore the feasibility of deep learning derived global features for satellite remote sensing image retrieval and positioning without auxiliary parameters, an evaluation system considering both effectiveness and efficiency is established, which quantifies the Precision@K, average ranking, feature extraction time, feature similarity calculation time, and hardware consumption. Using the image data provided by Google Earth as the reference image, the summer and winter data from ZY-3 as the test datasets, several representative convolution neural network such as AlexNet, VggNet, ResNet, DenseNet, and EfficientNet are trained and used to extract the global features of the reference image and test datasets, respectively. Using multiple indicators of the evaluation system, the image representation capability of these models is comprehensively evaluated and quantitatively analyzed. The results show that: (1) the global features extracted by deep learning models have higher effectiveness in satellite remote sensing image retrieval and positioning. Compared with local features, these models provide a new way for satellite remote sensing image retrieval and positioning; (2) based on the test datasets, the performance of DenseNet, ResNet-18, and VggNet is relatively better, and the precision@K of DenseNet is the highest, indicating the highest success rate. The success rate is also a primary index in satellite remote sensing image retrieval and positioning. The mAR of ResNet-18 is close to that of VggNet and slightly higher than that of DenseNet model. In terms of efficiency, the ResNet-18 model is better among the three models, with less feature extraction time, the least feature similarity calculation time, and the smallest feature file. Its feature vector has only 512 dimensions, but its effectiveness is close to the DenseNet model; (3) The deep learning derived global features have good robustness using different image resolutions. With different resolutions, the corresponding cosine distance and the sorting number of the correct image change little in this study, which can overcome the limitation in existing satellite remote sensing image retrieval and positioning methods with different resolutions; (4) Among these models, the feature extraction of AlexNet takes the least time, and EfficientNet_b7 takes the most time in feature extraction. The image size, feature element type, and texture richness have little impact on the time of feature extraction; (5) For the image representation with poor texture information such as desert, ocean, cloud, and continuous mountain, the representation ability of deep learning models needs to be further improved.

Key words： satellite remote sensing image; retrieval and location; deep learning; convolutional neural network; global features; image representation; effectiveness; efficiency

1 引言

随着航天技术的发展，卫星遥感影像呈现出爆炸性增长，并且具备了大数据的特点^[1⇓-3]。通过各种网络开源途径以及非合作方式，可以获取大量的卫星遥感影像数据，尤其是境外卫星的遥感影像数据，但是这些数据很多没有地理位置信息，无法快速识别出相应影像所覆盖的地理范围，这给信息的分析挖掘，尤其是影像上关于目标的信息挖掘带来了很大阻碍，因此如何快速获取这类卫星遥感影像所对应的地理位置，成为这类卫星遥感影像信息充分利用的一个关键。

针对该问题，传统方法主要以人工判读为主，首先通过卫星遥感影像的内容，结合判读人员的经验，找出大致的范围，然后再选取一定数量的控制点进行配准，实现卫星遥感影像的地理定位，这种方法受限制于判读人员的经验，对于一些陌生区域，可能无法判别，同时工作量巨大，效率低。因此需要寻找高效的计算机实现方法，目前基于内容的图像检索是可以参考借鉴的方法^[4⇓⇓-7]，即通过寻找查询图像与地标图像库中图像的相似关系，来确定查询图像中所含的地标，进一步确定查询图像的大致地理位置，但这种方法主要是以地面拍摄的照片为主，又称为地标检索问题^{[8⇓⇓⇓⇓⇓-14]}。文献[15]则以卫星影像为基准库，无人机影像为查询图像，实现了以地标识别为目标的无人机影像的检索。文献[16]则进一步在相关研究的基础上，实现了无辅助参数卫星遥感影像检索定位，取得了较好的效果。

无论是地面拍摄图像的地标检索，还是无人机、卫星等航空航天遥感影像的检索定位，首先要解决的问题是如何对基准影像及查询影像进行特征表征，以便建立特征库，进行关联影像的查找。对于影像的特征表征，根据特征提取涉及的影像范围，可以分为局部特征和全局特征两类表征模型^[17]。局部特征主要指对影像中的局部影像块进行特征提取生成局部特征；全局特征则是基于整幅影像进行特征提取，使用一个特征向量来表示一幅影像。按照提取方法，又可以分为传统方法与深度学习方法^[14]。传统方法主要采用人工设计的视觉特征去表征影像，如颜色直方图、梯度方向直方图，尺度不变特征变换等，传统人工特征一般需要比较精巧的设计才能对影像实现较好的表征^[18]。

近年来，随着深度学习技术的发展，利用深度学习卷积神经网络提取影像特征来表征影像，在影像分类、定位与检测、影像分割这三大影像处理任务中，都取得了不俗的表现。其中深度学习局部特征可以有效应对影像角度、尺寸、旋转、光照等带来的不利影响，实现高效的表征，文献[16]即是利用局部特征进行遥感影像检索定位，但是局部特征具有向量维度高、数量巨大的缺点，这导致其特征数据存储大、检索复杂。深度学习全局特征由于其用一个向量表示一幅影像，在数据存储和检索计算方面都非常高效，并且当光照条件发生变化时，全局特征的效果优于局部特征^[19]，而不同卫星遥感影像之间由于获取的时间差异，光照条件差异一般较大。因此采用深度学习全局特征来进行影像表征，服务于卫星遥感影像检索定位，将是一种有效途径。

从1998年真正意义上的卷积神经网络LeNet^[20]提出至今，已经出现了众多优秀的卷积神经网络模型^[21⇓-23]，包括AlexNet^[24]、network work in network^[25]、OverFeatNet^[26]、VggNet^[27]、GoogLeNet^[28]、highway network^[29]、ResNet^[30,31]、FractalNet^[32]、DenseNet^[33]、EfficientNet^[34]、CSPNet^[35]、ConvNext^[36]等，基于这些网络模型又出现了很多改进的网络模型和不同的版本，如基于AlexNet改进的ZFNet^[37]，基于ResNet改进的WResNet^[38]、CRMN^[39]、WRN^[40]、PyramidalSepDrop^[41]、ResNeXt^[42]、RoR^[43]、Rest2Net^[44]，基于DenseNet改进的DPN^[45]、CliqueNet^[46]、ConDenseNet^[47]、PeleeNet^[48]，GoogLeNet则进化出Inception-v1到Inception-v4共4个版本^[49,50]，EfficientNet则有EfficientNet_b0到EfficientNet_b8以及EfficientNet_L2和Noisy Student共11个版本，以上介绍的这些网络模型都可以归类于经典深度卷积神经网络模型，另外还有基于注意力机制的深度卷积神经网络模型^[22]，以及轻量级深度卷积神经网络模，如SqueezeNet^[51]，Xception^[52]， MobileNet系列^[53⇓-55]和ShuffleNet系列^[56,57]等，这些神经网络出现的时间先后如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 部分卷积神经网络出现的时间顺序

Fig. 1 The chronological order of appearance of partial convolutional neural network

以上这些网络模型在特定的数据集上都表现出了优秀的性能，但是他们用于全局特征表征时，存在2个方面问题：① 只使用单个向量来描述整个图像的颜色、边缘、纹理和结构等内容，辨识能力相对较差^[17]，能否有效用于卫星影像的表征需要评估；② 目前这些现有的神经网络模型训练和测试的数据集主要是基于地面上拍摄的图像，并非专门针对遥感影像，尤其是卫星遥感影像，因此这些神经网络模型能否适用于卫星遥感影像的快速检索定位，也需要进行评估分析。

针对这2个问题，本文以卫星遥感影像检索定位为目的，利用卫星遥感影像作为测试数据集，建立评估指标，对部分代表性的深度学习神经网络预训练模型表征卫星遥感影像的效果进行评估，找出现有预训练模型在卫星遥感影像上全局特征表征效果好、辨识能力强的神经网络模型。

本文的主要贡献在于从有效性、效率角度，建立了较为全面的评估指标体系，并详细评估分析了现有部分网络预训练模型对卫星遥感影像的表征能力，主要意义在于：① 深度学习神经网络训练需要大量的有监督训练样本，这在具体的任务中，实现起来工作量巨大，如果能找出满足卫星遥感影像检索定位需求的现有预训练模型，将大大减少自己构建并训练网络模型的工作量；② 即使这些预训练模型不能直接使用在卫星遥感影像检索定位中，也可以为下一步模型优化，如网络模型微调等迁移学习，找出最佳的候选网络模型。

2 模型及影像表征方法

卫星遥感影像检索定位的主要技术流程如图2所示，整个过程中，首先需要基于带地理坐标的基准影像库，提取影像的表征特征，建立基准特征库。影像查询时，采用同样的方法提取查询影像的特征，然后在基准特征库中比较查询影像的特征与基准影像特征的相似性，当满足一定条件后，筛选出候选影像。进一步通过影像匹配、几何一致性判断找出准确的基准影像，完成查询影像与基准影像的精确配准，进而利用基准影像的地理位置来完成查询影像的精确地理定位，完成定位后即可利用查询影像进行目标信息的分析挖掘。

显示原图|下载原图ZIP|生成PPT

图2 卫星遥感影像检索定位技术流程图^[16]

Fig. 2 Flow chart of remote sensing image retrieval and positioning technology^[16]

对于上述过程中影像的表征，本文采用深度学习卷积神经网络模型来提取影像全局特征向量进行表征，对应的网络模型则主要选取部分在网络结构上有较大改变的经典网络模型进行分析，包括AlexNet、VggNet、ResNet、DenseNet、EfficientNet共5种模型。

2.1 深度学习模型

（1）AlexNet

AlexNet包含了5个卷积层和3个全连接层，并且有上下两部分网络所构成^[24]，如图3所示。其是在LeNet网络上改进而来，改进的地方包括：加深加宽了整个网络，使用线性修正单元ReLU函数作为激励函数，使用dropout和数据增强技术来避免过拟合，使用最大池化替代平均池化，并且采用GPU（Graphics Processing Unit）进行训练。

显示原图|下载原图ZIP|生成PPT

图3 AlexNet网络结构^[24]

Fig. 3 Network structure of AlexNet^[24]

（2）VggNet

VggNet首次开始研究神经网络深度对性能的影响^[27]，其主要特点包括：① 规则化设计网络； ②使用3×3卷积核代替大卷积核，减少了参数量，还可以保证感受野，并且添加了多个线下修正单元，增加了网络的非线性能力；③ 使用padding和 1跨度保持特征图尺寸。

（3）ResNet

ResNet 主要特点是为了克服网络退化现象提出残差模块^[30,31]，如图4，残差模块在卷积操作外添加了恒等连接，其让卷积只学习残差部分即完整映射除去恒等映射部分，从而降低对卷积的学习要求，并且残差模块可以促成很深的网络，从而实现更高的准确度。ResNet遵循VGG网络的设计规则，使用3×3卷积核，对于有相同特征图尺寸的层使用相同数量的卷积核，如果特征图尺寸减半，相应的卷积核个数加倍，使用全局平均池化代替VGG中的全连接层。

显示原图|下载原图ZIP|生成PPT

图4 ResNet残差网络模块^[30]

Fig. 4 Residual network module of ResNet^[30]

（4）DenseNet

DenseNet的基本思路与ResNet一致，但是它建立的是前面所有层与后面层的密集连接，相比ResNet，DenseNet提出了一个更激进的密集连接机制，即互相连接所有的层，具体来说，就是每个层都会接受其前面所有层作为其额外的输入^[33]，如图5所示，DenseNet直接连接来自不同层的特征图，这可以实现特征重用，提升效率，这一特点是DenseNet与ResNet最主要的区别。

显示原图|下载原图ZIP|生成PPT

图5 DenseNet网络的密集连接机制^[33]

Fig. 5 Dense connection mechanism of DenseNet network^[33]

（5）EfficientNet

EfficientNet模型使用了深度、宽度（特征图的通道数）、输入图片分辨率共同调节技术这种规范化的神经网络扩展方法来同时提高网络的准确率和效率^[34]。其构建中首先使用强化学习算法实现的MnasNet模型^[58]生成基线模型EfficientNet_b0。然后采用复合缩放的方法，在预先设定的内存和计算量大小的限制条件下，对EfficientNet_b0模型的深度、宽度、图片大小这3个维度都同时进行缩放，这3个维度的缩放比例由网格搜索得到，最终输出EfficientNet模型，如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 EfficientNet网络模型缩放示意图^[34]

Fig. 6 Scaling diagram of EfficientNet network model^[34]

EfficientNet主要通过缩放深度、宽度、图片大小3个维度的参数，得到了EfficientNet_b0到EfficientNet_L2多个不同的版本，并且模型的精度越来越高，规模也越来越大^[59]，如表1所示。EfficientNet的Noisy Student版本则主要是采用了自训练框架在EfficientNet_L2版本上得到，EfficientNet这11个版本同时开源预训练模型和训练源码的主要是EfficientNet_b0到EfficientNet_b7版本，本文比较分析网络模型的最终目的是在现有这些神经网络的预训练模型基础上进行微调优化，以服务于卫星遥感影像检索定位。因此本文主要分析比较已经开源预训练模型和训练源码的EfficientNet_b0到EfficientNet_b7版本。

表1 EfficientNet各版本深度、宽度、图片大小缩放参数^[59]

Tab. 1 Depth, width, and image size scaling parameters of each version of EfficientNet^[59]

版本名称	缩放参数：宽度	缩放参数：深度	缩放参数：分辨率	Dropout率
EfficientNet_b0	1.0	1.0	224	0.2
EfficientNet_b1	1.0	1.1	240	0.2
EfficientNet_b2	1.1	1.2	260	0.3
EfficientNet_b3	1.2	1.4	300	0.3
EfficientNet_b4	1.4	1.8	380	0.4
EfficientNet_b5	1.6	2.2	456	0.4
EfficientNet_b6	1.8	2.6	528	0.5
EfficientNet_b7	2.0	3.1	600	0.5
EfficientNet_b8	2.2	3.6	672	0.5
EfficientNet_L2	4.3	5.3	800	0.5

2.2 全局表征方法

在卷积神经网络中，最后一层输出的维数通常与具体的任务有关，比如影像分类时，则维数与分类类别数目一致，最后一层可以看成一个感知机，而倒数第二层的输出则可以当成该感知机的输入，可以用于对图像的表征^[18]，图像表征特征向量根据网络模型不同，可以是卷积神经网络中卷积、池化或者全连接层的输出向量^[60-61]。因此根据这个原则，AlexNet、VggNet、ResNet、DenseNet、EfficientNet几种神经网络的特征层按照以下方法进行选取。

（1）AlexNet特征层选取。在AlexNet模型的 3个全连接层中，前2个层均输出为4096的神经元，最后一个全连接层输出1000维的向量用于图像分类，因此本文取倒数第二个全连接层的输出作为图像表征向量，向量维度为4096维。

（2）VggNet特征层选取。VGG的全连接操作同AlexNet一样，因此本文同样选取倒数第二个全连接层的输出进行图像表征，特征向量维度同样为4096维。

（3）ResNet特征层选取。ResNet只有一个全连接层将卷积层的512个神经元输出成1000维的向量用于图像分类，本文在图像特征表征时，采用其最后一个卷积层的输出作为特征向量，维度为512维。

（4）DenseNet特征层选取。DenseNet也只有一个全连接层将前面的特征输出成1000维的向量用于图像分类，因此本文采用整个网络最后的全局平均池化层输出的特征作为影像特征，维度1024维。

（5）EfficientNet特征层选取。EfficientNet同样取去掉最后用于分类的全连接层的倒数第二层作为特征层，EfficientNet_b0到EfficientNet_b7在进行图像特征表示时，向量维度依次为1280维、1280维、1408维、1536维、1792维、2048维、2304维、2560维。

2.3 相似性度量函数

在完成基准影像特征库的构建和查询影像特征的提取后，在卫星遥感影像检索定位中，紧接着要完成的工作就是依据相似性度量函数，在基础影像特征库中找出和查询影像相似的特征，进而确定候选影像。文献[61]通过在多个数据集上对比了余弦距离、归一化相关性、欧几里得距离、KL散度等几种影像特征向量相似性度量函数的性能，试验结果表明归一化相关性和余弦距离在图像检索方面的性能优于欧几里得距离和KL散度。余弦距离和归一化相关的性能非常接近，不过归一化相关的性能时间复杂度比余弦距离要高。因此，综合考虑相似度计算效果和时间复杂度，本文的影像表征模型评估中，统一采用余弦距离进行相似性度量。余弦距离的计算公式如式（1）所示。

（1）$\begin{array}{*{35}{l}} dist\left( A,B \right)=1-\text{cos}\left( A,B \right)=1-\frac{A\cdot B}{AB} \\ =1-\frac{\mathop{\sum }_{i=1}^{n}{{A}_{i}}{{B}_{i}}}{\sqrt{\mathop{\sum }_{i=1}^{n}A_{i}^{2}}\sqrt{\mathop{\sum }_{i=1}^{n}B_{i}^{2}}} \\ \end{array}$

式中：

A, B

分别表示2个向量，

d i s t A, B

表示向量

A, B

的余弦距离，

c o s A, B

表示向量

A, B

余弦相似度，

A i 和 B i

则分别表示向量

A, B

的分量，下标

i

为向量的分量序号，

n

为向量的维度。从公式（1）中可以看出，余弦相似度的取值范围是[-1,1]，余弦距离取值范围为[0,2]，余弦距离越接近于0，表明2个向量的夹角越小，2个向量越相似，相同的两个向量之间的余弦距离则是0。

3 评估方法

为确定较好适用于卫星遥感影像检索定位的影像表征深度学习网络模型，需要利用一系列的评估指标对相关深度学习网络模型影像表征的效果进行定量分析。本文影像表征的目的是服务于卫星遥感影像检索定位，在这过程中，检索到基准影像库中对应的影像是前提，因此为了评价特征表征的性能，这里参考基于内容的图像检索的一般评估准则，从有效性、效率二个方面^[62]对影像表征效果进行定量的评估，其中有效性主要指查询到准确影像的成功率，效率主要指检索的速度。

3.1 有效性评估指标

在基于内容的图像检索中，有效性评估有准确率和召回率、图像平均检索精度、匹配百分数、 tau系数、检索评分法、相似性排序百分比、排序评价法等指标与评价方法^{[62⇓⇓⇓⇓-67]}，其中又以准确率和召回率、图像平均检索精度使用最多，其它指标则主要结合具体的应用场景提出，通用性较低。

理论上地球上不同位置所成的影像一般具有唯一性，因此卫星遥感影像检索定位应用中，查询影像在基准影像中应该有唯一一张对应的影像，不过由于基准影像库存储的是分块之后的影像块，查询影像的范围和基准影像块不会一一对应，会存在一对多的情况，但是这个多的数量有限，这就会带来准确率和召回率、图像平均检索精度几个指标的差异较小，无法有效评价各个影像表征模型。因此本文在影像表征模型评价时不再采用准确率和召回率、图像平均检索精度等指标，而是采用Precision@K和平均排序来进行评价。

（1）Precision@K

由于本文影像表征的目的是进行无辅助参数的卫星遥感影像检索定位，在查询到的相似度最高的前K张影像中包含正确的影像，即可为后面的几何一致性判断奠定基础，从而完成该张影像的检索定位。这里正确的影像指的是其影像地理范围和查询影像对应的地理范围有重合，即认为是正确的影像。因此本文采用查询的前K张影像中含正确影像的概率这一指标进行有效性评价，以Precision@K进行表示。Precision@K越高则影像表征模型越好，其公式如式（2）所示。

（2）$Precision@K=\frac{TK}{M}\times 100\%$

式中：

M

表示查询的次数，并且每次查询影像不同；

T @ K

表示这

M

次查询中，查询的结果中包含正确的影像的次数；

K

则表示每次查询时所选取的相似性度量值最靠前的影像数量。

（2）平均排序

Precision@K可以有效反映影像表征模型的优劣，但是如果2个表征模型的Precision@K接近时，则正确的影像排序越靠前越能提高检索定位效率。因此这里进一步采用平均排序指标来辅助Precision@K指标，加强对影像表征模型有效性的评估。设一次查询中，返回的K张影像中，正确的影像的数量为

N c

，查询到的第

i

张正确的影像的排序号为

R i

，则平均排序(Average Rank, AR)指标如式（3）所示。

（3）$AR=\frac{\mathop{\sum }_{i=1}^{{{N}_{c}}}{{R}_{i}}}{{{N}_{c}}}$

对于一次查询，平均排序

A R

值越小，则说明查询出的影像排序越靠前，越能提高卫星遥感影像检索定位效率。为了减少单次查询带来的偶然性，在平均排序基础上，进一步取

M

次不同影像查询平均排序的均值作为评价指标来进行影像表征有效性评估，用mAR表示，如式（4）所示，其中

A R i

表示第

i

次查询的平均排序。

（4）$mAR=\frac{1}{M}\underset{i=1}{\overset{M}{\mathop \sum }}\,A{{R}_{i}}$

3.2 效率评估指标

效率是卫星遥感影像检索定位时需要考虑的另一个重要因素，高效的方法可以节约大量处理时间。这里关于影像表征效率要重点考虑的评估指标有影像特征提取所用的时间、特征相似性计算时间以及硬件消耗等，这几个指标的综合评价结果对整个卫星遥感影像检索定位的效率有重要影响。

（1）特征提取时间

在卫星遥感影像检索定位中，单张影像特征的提取时间越少，则效率越高，为此本文将对比分析不同网络模型的特征提取时间，并且分析影响特征提取时间的因素，比如影像大小、地物要素类型、纹理丰富程度等因素，为效率的优化奠定基础。特征提取时间

T e

采用式（5）进行计算。

（5）${{T}_{e}}=\frac{1}{N}\underset{i=1}{\overset{N}{\mathop \sum }}\,{{t}_{ei}}$

式中：

N

为参与特征提取的影像张数；

t e i

为第

i

张影像进行特征提取的时间。

（2）特征相似性计算时间

提取出特征后，另外一个比较耗时的部分是特征相似性计算，这里重点分析不同的影像特征在进行同样方法的相似性计算时所消耗的时间。相似性计算用时越少，则整个卫星遥感影像检索定位效率会越高。特征相似性计算时间

T s

采用式（6）进行计算，其中

N

为参与相似性计算的特征对数，

t s i

为第

i

对影像的特征相似性计算所用时间。

（6）${{T}_{s}}=\frac{1}{N}\underset{i=1}{\overset{N}{\mathop \sum }}\,{{t}_{si}}$

（3）硬件消耗

硬件消耗这里重点分析各个特征向量文件的大小，其影响着卫星遥感影像检索定位时内存的消耗。

综上所述，本文用于网络模型影像表征效果的评估指标体系涵盖有效性、效率2个方面共计5类指标，如表2所示。

表2 网络模型影像表征效果的评估指标体系

Tab. 2 Evaluation index system of image representation effect of network model

序号	指标名称	计算方法	主要作用
1	Precision@K	式（2）	评价模型能否用于卫星遥感影像检索定位中影像表征的主要指标
2	平均排序（mAR）	式（4）	用于辅助Precision@K指标来评价网络模型影像表征的有效性
3	特征提取时间	式（5）	评价网络模型进行特征提取时的效率
4	特征相似性计算时间	式（6）	评价利用提取的特征进行检索时的效率
5	硬件消耗	特征向量文件大小	评价检索时内存的消耗情况

4 试验与分析

为了全方位对影像表征模型进行评价，采用第3节中2个方面共计5类指标对AlexNet、VggNet、ResNet、DenseNet、EfficientNet这几种具有代表性的深度学习表征模型进行评价。试验中涉及到的相似性度量计算采用余弦距离函数。试验中采用的硬件设备为笔记本电脑，显卡为英伟达GeForce RTX 3080 Laptop，显存为16 G；电脑内存为64G；处理器为英特尔酷睿I7-11800H 8核16线程；硬盘为2T的固态硬盘；操纵系统为Window 10；试验使用编程语言为Python，深度学习网络实现基于Pytorch。

4.1 试验数据

试验数据主要包括2个部分：①基准影像库， ②测试影像集。基准影像是卫星遥感影像检索定位的基础，其由覆盖全球的带有地理位置的正射影像构成，本文采用谷歌地球提供的影像数据作为基准影像，谷歌影像数据来源多样，由卫星影像和航空影像组成，数据源包括QuickBird、IKONOS、SPOT5等多种来源^[68]。谷歌影像采用分级分块的策略进行管理，在进行卫星遥感影像检索定位时，需要根据查询影像的分辨率选择接近的层级进行搜索，本文试验时根据查询数据选择第10级影像进行试验，对应的影像分辨率为152.87 m，每张影像块的大小为256像素×256像素，幅宽约为39 km。测试影像集是用来进行查询测试的影像，本文采用资源三号全色影像预览缩略图作为测试数据^[69]，包含夏季和冬季2个季节的影像，夏季为2020年6月到9月获取的影像，共计4921张，每张影像的幅宽约为51 km，影像大小为1024像素×1024像素；冬季为2019年11月到2020年3月获取的影像共计20 712张，每张影像的幅宽同样约为51 km，影像大小为1024像素×1024像素。测试影像的分布范围为东经[70.137°，139.834°]，北纬[11.523°，55.529°]，测试数据集中包含城市、山地、海洋、森林、荒漠等多种类型影像，如图7所示。

显示原图|下载原图ZIP|生成PPT

图7 测试数据集中包含的不同类型影像

Fig. 7 Different types of images included in the test dataset

4.2 结果与分析

试验中采用了Torchvision所提供的AlexNet、VggNet、ResNet、DenseNet、EfficientNet这几种网络的预训练模型^[70-71]，其中VggNet 采用VggNet-11-bn版本，ResNet采用ResNet-18版本，DenseNet采用DenseNet-121版本，各预训练模型的详细下载地址及在ImageNet数据集^[72]上进行图像分类时的错误率如表3所示，这些预训练模型都是利用ImageNet数据集训练完成，参数设置和网络架构参考原文献设置。

表3 试验用网络预训练模型指标参数及下载地址

Tab. 3 Parameters and download address of the pre training model used in the experiment

模型	Top-1错误率/%	Top-5错误率/%	预训练模型下载地址
AlexNet	43.5	20.9	https://download.pytorch.org/models/alexnet-owt-7be5be79.pth
VggNet-11-bn	31.0	11.4	https://download.pytorch.org/models/vgg11_bn-6002323d.pth
ResNet-18	30.2	10.9	https://download.pytorch.org/models/resnet18-f37072fd.pth
DenseNet-121	25.4	7.8	https://download.pytorch.org/models/densenet121-a639ec97.pth
EfficientNet_b0	22.7	6.5	https://download.pytorch.org/models/efficientnet_b0_rwightman-3dd342df.pth
EfficientNet_b1	20.8	5.5	https://download.pytorch.org/models/efficientnet_b1_rwightman-533bc792.pth
EfficientNet_b2	19.7	5.0	https://download.pytorch.org/models/efficientnet_b2_rwightman-bcdf34b7.pth
EfficientNet_b3	18.3	4.4	https://download.pytorch.org/models/efficientnet_b3_rwightman-cf984f9c.pth
EfficientNet_b4	17.0	3.7	https://download.pytorch.org/models/efficientnet_b4_rwightman-7eb33cd5.pth
EfficientNet_b5	16.3	3.3	https://download.pytorch.org/models/efficientnet_b5_lukemelas-b6417697.pth
EfficientNet_b6	15.8	3.2	https://download.pytorch.org/models/efficientnet_b6_lukemelas-c76e70fd.pth
EfficientNet_b7	15.6	2.9	https://download.pytorch.org/models/efficientnet_b7_lukemelas-dcc49843.pth

4.2.1 影像全局表征

相对于可以描述影像颜色、边缘、轮廓等信息的卷积神经网络底层特征图，全局特征属于高层特征，提取的主要是影像的语义特征^[73]，在进行特征相似性计算时，需要将特征全部转化为高维特征向量描述。为分析全局特征向量对影像的表征能力，本文将特征向量绘制成特征曲线进行可视化表达，绘制方法是将提取的全局特征向量值进行L2范式归一化处理，然后以处理后的特征值为纵坐标值，以特征向量的维度为横坐标值进行绘制，特征曲线图可以反应不同特征向量之间的相似程度^[74]。虽然不同模型提取的特征向量维度不同，但是表现形式都是曲线区，因此本文以ResNet-18网络模型为代表进行说明，图8展示的利用ResNet-18模型提取的3张不同影像（图9）的特征曲线图随机截取的一段，其中影像1和影像2为用于查询的资源三号影像，影像3为基准影像库中的影像，影像1和影像3无重叠区域，影像2和影像3存在重叠区域。

显示原图|下载原图ZIP|生成PPT

图8 ResNet-18网络模型提取的特征曲线

Fig. 8 Characteristic curve of ResNet-18 network model extraction

显示原图|下载原图ZIP|生成PPT

图9 用于特征曲线图提取试验的影像

Fig. 9 Image used for characteristic curve extraction test

从图8可以看出，当查询影像和基准影像库中的影像有重叠时，二者特征曲线接近；当没有重叠时，二者特征曲线差异相对较大，说明全局特征可以反应影像的相似程度，具有较好的影像特征捕捉能力。

4.2.2 有效性评估

（1）Precision@K

图10是利用不同的网络模型，计算资源三号夏季数据集中所有4921张影像的Precision@K值所得的结果图，其中K的取值分别是1、5、10、25、50、100、200、500、1000，从图10中可以看出，随着K取值的变大，各个网络模型的Precision@K值都在不断提升，并且提升的整体趋势基本一致。具体来看，DenseNet网络模型优势明显；ResNet-18和VggNet效果接近，紧随DenseNet网络模型之后；剩余网络模型Precision@K指标相对较差。当K=200时，DenseNet网络模型的Precision@K值可以达到59.5%，ResNet-18和VggNet网络模型分别为49.7%和48.0%。当K>200以后，Precision@K值继续提升，当K=1000时，DenseNet网络模型的Precision@K值可以达到79.6%。虽然随着K值取值变大，Precision@K值在升高，不过在卫星遥感影像检索定位中，为了提高查询的效率，一般K值不宜取太大，文献[16]中认为，K值取200较为合适，既能兼顾正确影像查出率，又能保证查询效率。图11是从资源三号冬季数据集中随机抽样1000张影像计算的Precision@K统计图，从图11中可以看出，其反映出来的结果和夏季数据集基本相同。

显示原图|下载原图ZIP|生成PPT

**图10 资源三号夏季数据集Precision@K结果**

Fig. 10 Precision@K result of ZY-3 summer data sets

显示原图|下载原图ZIP|生成PPT

**图11 资源三号冬季数据集Precision@K结果**

Fig. 11 Precision@K result of ZY-3 winter data sets

图12列出了K=200时，DenseNet网络模型部分检索失败的影像。进一步分析发现，检索失败和影像的类型有重要的关系，其中失败的影像主要是沙漠、海洋、有云、连续山地等纹理信息贫乏的影像，对于纹理信息丰富区域的影像，其检索成功率较高。

显示原图|下载原图ZIP|生成PPT

图12 K=200时，DenseNet网络模型部分检索失败的影像

Fig. 12 Partial retrieval failure images of the DenseNet network model, when K is 200

为进一步分析影像分辨率可能给影像表征模型有效性带来的影响，本文在夏季数据集中，随机抽取了3张用DenseNet网络模型表征时，可以准确查找到对应基准影像的查询影像，将其大小依次降为768×768、512×512、400×400、256×256、128×128不同尺寸，来改变影像的分辨率，图13为统计的3张影像和正确对应的基准影像之间的余弦距离变化，以及找到该正确基准影像时所对应的排序号，其中余弦距离越小说明对应分辨率的影像和基准影像相似性越高，排序号越靠前，说明越容易找到该基准影像。从图13的结果可以发现，当影像大小从1024变化到400时，余弦距离和排序号虽然有一定变化，但是差异不大。影像大小为256时，余弦距离相较于其它尺寸变化较大，但是绝对差并不大，其排序号虽然在影像3上减小较大，但是也只是从6变为0。影像大小为128时，其余弦距离变化不大，但是其排序号在影像1和影像2上增加较大，说明这时并不能快速找到正确的基准影像。综合来看，影像分辨率在一定范围内变化时对影像表征影响并不是十分明显，当分辨率变化较大时则会产生较大影响。

显示原图|下载原图ZIP|生成PPT

图13 不同分辨率的查询影像对应的余弦距离及排序号变化

Fig. 13 Changes of cosine distance and order number corresponding to query images of different resolutions

显示原图|下载原图ZIP|生成PPT

**图14 资源三号夏季数据集上，各个网络模型的mAR指标曲线**

Fig. 14 The mAR index curve of each network model on the ZY-3 summer data set

（2）平均排序

为了进一步评价相关模型的效果，本文利用夏季数据集，进一步计算了平均排序均值指标（mAR），结果如图14所示。从图14中可以看出，各个模型的mAR指标同样是随着设定的查询返回影像数量K的增大而增大。其中，当K≤200时，各个模型的mAR指数虽然各不相同，但是差别不大，比如K=200时，mAR基本上在40以内波动。当K>200时，mAR指数出现较大波动，其中DenseNet模型mAR值较大，EfficientNet_b4的mAR值较小，但是这并不能说明EfficientNet_b4表征性能更优，查看图10中这2个模型对应的Precision@K值发现，DenseNet的Precision@K值在所有模型中最高，而EfficientNet_b4的Precision@K值却是最低，这说明mAR不能单独用于评价影像表征的有效性，其只有在Precision@K值接近时才有意义，可以用于辅助评价。在Precision@K值较为接近的DenseNet、ResNet-18和VggNet 3个网络模型中，ResNet-18和VggNet二者mAR接近，略低于DenseNet模型，因此在进行卫星遥感影像检索定位时可以根据实际的需求，参照这个结果进行模型的选择。

4.2.3 效率评估

效率试验方面，本文依据前面设定的指标，分析测试了各个模型的特征提取时间、特征相似性计算时间以及特征文件的大小。

（1）特征提取时间

图15（a）是各个网络模型在基准影像库上进行特征提取的平均时间，影像大小是256×256，图15（b）是在资源三号夏季数据集进行特征提取的平均时间，影像大小时1024×1024，从结果中可以看出，AlexNet特征提取所用时间最短，用时最多的是EfficientNet_b7，除去EfficientNet网络之外，提取时间最多的则是DenseNet模型。

显示原图|下载原图ZIP|生成PPT

图15 各网络模型特征提取平均时间

Fig. 15 Average time of feature extraction for each network model

为进一步分析影像大小对特征提取时间的影响，本文对图13中影像1所对应的不同大小的影像进行了特征提取试验，得到图16所示的结果，结果表明各个不同的网络模型在影像大小发生变化时，特征提取的时间并没有发生明显的变化，即特征提取时间和影像大小弱相关，这一方面是因为影像大小从1024×1024变换到128×128，绝对大小差别并不是很大，另外一方面是因为这些网络模型在进行特征提取时都使用了GPU进行加速，所以特征提取时间差异并不明显。

显示原图|下载原图ZIP|生成PPT

图16 不同大小影像的特征提取时间

Fig. 16 Feature extraction time of images with different sizes

图17是本文采用城市、山地、海洋、森林、荒漠等几种地物影像进行特征提取的时间，这几种类型的影像纹理丰富程度不同。结果表明，对于同一网络模型，不同类型影像的特征提取时间基本一致，虽然城市影像特征提取时间在其中几个网络模型中用时较长，但是绝对时间差较小，这说明深度学习全局特征提取和影像对应的地物要素类型和纹理丰富程度无关。

显示原图|下载原图ZIP|生成PPT

图17 不同地物要素类型影像的特征提取时间

Fig. 17 Feature extraction time of images of different feature types

（2）特征相似性计算时间

图18是采用顺序遍历的方法，计算夏季数据集中查询影像和基准影像特征相似性所统计的时间结果，图19是对应的网络模型表征影像的特征向量维度。对比图18和图19发现，特征相似性计算时间和特性向量维度密切相关，基本符合正相关的特性，这和理论上保持一致，即理论上特征向量维度越高，特征相似性计算越复杂，耗费的时间越长。不过从计算时间的绝对差值看，各个模型之间的差别并不大，用时最多的AlexNet网络模型比最少的ResNet-18网络模型只多了0.016 ms，分析原因主要是因为本文采用的是Pytorch中的张量方式进行特征相似性计算，其已经对高维数据的计算进行了优化。

显示原图|下载原图ZIP|生成PPT

图18 夏季数据集和基准影像特征相似性计算时间

Fig. 18 Feature similarity computation time for summer dataset and benchmark imagery

显示原图|下载原图ZIP|生成PPT

图19 各网络模型表征影像的特征向量维度

Fig. 19 Feature vector dimension of each network model for image representation

（3）硬件消耗

表4列出了各个模型对基准影像库提取的特征库的大小，提取的基准影像范围为东经[62.578°, 143.789°]，北纬[12.3045°, 58.359°]，基准影像数量一共是30261张。从结果可知，特征的大小主要和维度有关，向量维度越高，特征向量文件越大，和理论上是一致的。

表4 各网络模型提取的基准影像库的特征库大小情况表

Tab. 4 The size of the feature library of the benchmark image library extracted by each network model

网络模型	维度	大小/KB	单幅影像特征大小/KB	网络模型	维度	大小/KB	单幅影像特征大小/KB
ResNet-18	512	49 262	1.63	EfficientNet_b2	1408	133 539	4.41
AlexNet	4096	386 373	12.77	EfficientNet_b3	1536	145 579	4.81
VggNet	4096	386 373	12.77	EfficientNet_b4	1792	169 657	5.61
DenseNet	1024	97 421	3.22	EfficientNet_b5	2048	193 738	6.40
EfficientNet_b0	1280	121 500	4.02	EfficientNet_b6	2304	217 814	7.20
EfficientNet_b1	1280	121 500	4.02	EfficientNet_b7	2560	241 894	7.99

综合试验结果可知，各网络模型在同样的卫星遥感影像测试数据集上，测试条件相同的情况下，表现出了不同的有效性与效率，并且有效性表现并不同于这些网络模型在ImageNet数据集上进行图像分类时的表现。

这说明这些网络模型的泛化能力不同，这是各个网络模型在进行卫星遥感影像表征时，有效性评估结果产生差异的主要原因，并且资源三号冬季与夏季数据集上的评估结果类似，进一步说明产生差异的原因主要在于模型本身；效率评估结果方面，由于采用的测试数据集和测试条件相同，因此效率评估结果差异主要是由于各模型网络结构及全局表征的维度差异导致。各模型在用于卫星遥感影像表征时表现出来的优缺点如表5所示。

表5 各网络模型在用于卫星遥感影像表征时的优缺点

Tab. 5 Advantages and disadvantages of each network model when used for representation of satellite remote sensing images

模型	优点	缺点
ResNet-18	表征有效性较好，特征向量维度最低，因此特征相似性计算时间最少、特征向量文件最小，影像特征提取时间也较少，综合效果最好	表征效果和最好的DenseNet模型有10%左右的差距
AlexNet	影像特征提取时间最少	表征有效性较差，特征向量维度最高，因此特征相似性计算时间最长、特征向量文件最大
VggNet	表征有效性较好，影像特征提取时间较少	特征向量维度最高，因此特征相似性计算时间较长、特征向量文件最大
DenseNet	表征有效性最好，特征向量维度较低，因此特征相似性计算时间较少、特征向量文件较小	影像特征提取时间较长
EfficientNet_b0	特征向量维度较低，因此特征相似性计算时间较少、特征向量文件较小	表征有效性较差，影像特征提取时间较长
EfficientNet_b1	特征向量维度较低，因此特征相似性计算时间较少、特征向量文件较小	表征有效性较差，影像特征提取时间较长
EfficientNet_b2	特征向量维度较低，因此特征相似性计算时间较少、特征向量文件较小	表征有效性较差，影像特征提取时间较长
EfficientNet_b3	特征向量维度较低，因此特征相似性计算时间较少、特征向量文件较小	表征有效性较差，影像特征提取时间较长
EfficientNet_b4	特征向量维度较低，因此特征相似性计算时间较少、特征向量文件较小	表征有效性最差，影像特征提取时间较长
EfficientNet_b5	特征向量维度较低，因此特征相似性计算时间较少、特征向量文件较小	表征有效性较差，影像特征提取时间较长
EfficientNet_b6	特征向量维度较低，因此特征相似性计算时间较少、特征向量文件较小	表征有效性较差，影像特征提取时间较长
EfficientNet_b7	特征向量维度较低，因此特征相似性计算时间较少、特征向量文件较小	表征有效性较差，影像特征提取时间最长

5 结论与展望

5.1 结论

卫星遥感影像检索定位可以为各种网络开源途径以及非合作方式获取的遥感影像的分析挖掘，提供地理空间位置支持。本文主要面向卫星遥感影像检索定位，建立了涵盖有效性、效率2个方面共计5类指标的评估体系，以谷歌地球影像数据作为基准影像，以资源三号数据为查询影像，对AlexNet、VggNet、ResNet、DenseNet、EfficientNet等部分比较有代表性的卷积神经网络模型，进行了全面的卫星影像全局表征效果的评估与分析。具体结论如下：

（1）本文的评估体系可有效用于面向卫星遥感影像检索定位的深度学习全局表征模型的评估；部分深度学习网络预训练模型提取的影像全局特征，在面向卫星遥感影像检索定位时，表征效果较好，相对于使用局部特征进行卫星遥感影像检索定位，提供了另外一种途径。

（2）在测试的数据集上，DenseNet、ResNet-18、VggNet这3个网络模型的综合表现较好，其中DenseNet的Precision@K值最高，说明成功率最高，成功率也是卫星遥感影像检索定位中的首要指标，其它网络模型则表现较差，K=200时，Precision@K最高的EfficientNet_b3模型只有不到38.0%，说明这些网络的预训练模型不能直接有效用于卫星遥感影像检索定位。ResNet-18和VggNet的mAR接近，略优于DenseNet模型。在效率方面，Alexnet模型特征提取时间较少，但是其Precision@K较低， K=200时，只有35.9%，并且相似性计算时间也最多。这3个模型中ResNet-18模型综合效率较好，其特征提取时间较少，特征相似性计算时间最少，并且特征文件也最小，其特征向量维度只有512维，但是却能够获得和DenseNet模型接近的有效性。

（3）深度学习全局特征对影像的分辨率具有较好的鲁棒性。一定范围内，不同分辨率下，对应的余弦距离和首次找到正确影像的排序号变化不大，这样可以降低卫星遥感影像检索定位时对分辨率的限制，而不会影响定位成功率。

（4）几种网络模型中AlexNet特征提取所用时间最少，EfficientNet_b7在特征提取时用时最多，影像大小、地物要素类型、纹理丰富程度对特征提取的时间影响较小。

（5）对于沙漠、海洋、有云、连续山地等纹理信息贫乏的影像表征，深度学习模型表征效果还需要进一步提高。

5.2 展望

在卫星遥感影像检索定位中，一方面，检索影像和基准影像之间往往存在较大尺度差异与非线性辐射畸变，这就要求用于检索的特征能够适应这些变化，以便从基准影像库中检索出对应的基准影像，特征表征需要具有相当的泛化性能；另一方面，为了提高检索效率，表征特征需要有较强的辨识能力，以便减少查询到的干扰影像。因此，如何在保证较高特征泛化能力的基础上，实现高辨识力，适应多源图像搜索的同时，在全球范围内唯一确定拍摄区域，实现遥感影像地理位置精准识别是卫星遥感影像检索定位研究的主要挑战。为此，本文以泛化能力较好的深度学习卷积神经网络全局特征为对象，建立评估指标，系统分析评价相关网络模型的卫星遥感影像全局表征能力，以便找出现有网络模型中泛化能力和辨识能力综合性能较好的网络模型，为进一步开展模型优化和提出新的网络模型与方法奠定基础。

高效的卫星遥感影像检索定位可为后续开展影像自动纠正、遥感大数据信息挖掘、动态监测、关联分析等应用提供关键的地理空间位置，大幅提升信息处理效率，具有较好的发展潜力。为此在本文研究的基础上，下一步的研究方向包括：一是在现有的综合效能较好的模型上通过模型微调等迁移学习方法来进一步优化相关模型影像表征的有效性；二是本文的基准影像采用的是事先分好的影像瓦片，地理范围固定，当查询影像和相应的影像瓦片重叠较小时，会影响查询的准确率，因此研究新的基准影像智能瓦片分割方案是提高查询准确率的另一个研究方向。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	李德仁. 展望大数据时代的地球空间信息学[J]. 测绘学报, 2016, 45(4):379-384. [ Li D R. Towards geo-spatial information science in big data Era[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(4):379-384. ]

[2]	刘雪莹. 基于深度学习的遥感图像检索方法研究[D]. 北京: 中国科学院大学, 2017. [ Liu X Y. Research on remote sensing image retrieval method based on deep learning[D]. Beijing: University of Chinese Academy of Sciences, 2017. ]

[3]	李德仁, 张过, 蒋永华, 等. 论大数据视角下的地球空间信息学的机遇与挑战[J]. 大数据, 2022, 8(2):3-14. [ Li D R, Zhang G, Jiang Y H, et al. Opportunities and challenges of geo-spatial information science from the perspective of big data[J]. Big Data Research, 2022, 8(2):3-14. ]

[4]	Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(6):1437-1451. DOI

[5]	Workman S, Souvenir R, Jacobs N. Wide-area image geolocalization with aerial reference imagery[C]. Proceedings of 2015 IEEE International Conference on Computer Vision (ICCV), 2015:3961-3969.

[6]	Shetty A, Gao G X. UAV pose estimation using cross-view geolocalization with satellite imagery[C]. Proceedings of 2019 International Conference on Robotics and Automation (ICRA), 2019:1827-1833.

[7]	薛朝辉, 周逸飏, 强永刚, 等. 融合NetVLAD和全连接层的三元神经网络交叉视角场景图像定位[J]. 遥感学报, 2021, 25(5):1095-1107. [ Xue Z H, Zhou Y Y, Qiang Y G, et al. Cross-view scene image localization with triplet network integrating NetVLAD and fully connected layers[J]. National Remote Sensing Bulletin, 2021, 25(5):1095-1107. ]

[8]	Noh H, Aeaujo A, Sim J, et al. Large-scale image retrieval with attentive deep local features[C]. Proceedings of 2017 IEEE International Conference on Computer Vision (ICCV), 2017:3476-3485.

[9]	Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 40(6):1437-1451. DOI

[10]	Weyand T, Araujo A, Cao B, et al. Google landmarks dataset v2 a large-scale benchmark for instance-level recognition and retrieval[C]. Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020:2572-2581.

[11]	Ha Q, Liu B, Zhang H. Google landmark retrieval 2021 competition third place solution[EB/OL]. (2021-10-9) [2022-4-18]

[12]	毛雪宇, 彭艳兵. 增量角度域损失和多特征融合的地标识别[J]. 中国图象图形学报, 2020, 25(8):1567-1577. [ Mao X Y, Peng Y B. Landmark recognition based on ArcFace loss and multiple feature fusion[J]. Journal of Image and Graphics, 2020, 25(8):1567-1577. ]

[13]	王懋. 地标图像检索及街景图像位置识别技术研究[D]. 长沙: 国防科技大学, 2018. [ Wang M. Study on landmark image retrieval and place recognition[D]. Changsha: National University of Defense Technology, 2018. ]

[14]	毛雪宇. 基于深度特征的地标图像识别[D]. 武汉: 武汉邮电科学研究院, 2020. [ MAO X Y. Landmark images recognition with deep features[D]. Wuhan: Wuhan Institute of Posts and Telecommunications, 2020. ]

[15]	Zheng Z, Wei Y, Yang Y. University-1652: A Multi-view multi-source benchmark for drone-based geo-localization[C]. Proceedings of the 28th ACM International Conference on Multimedia, 2020:1395-1403.

[16]	秦剑琪. 无辅助参数遥感影像全球快速检索定位技术[D]. 郑州: 战略支援部队信息工程大学, 2021. [ Qin J Q. Global rapid retrieval and location technology of remote sensing image without auxiliary parameters[D]. Zhengzhou: Strategic Support Force Information Engineering University, 2021. ]

[17]	暴雨. 基于对象深度特征融合的图像表征方法研究[D]. 大连: 大连理工大学, 2017. [ Bao Y. Research on image representation method based on object-level deep feature aggregation[D]. Dalian: Dalian University of Technology, 2017. ]

[18]	孙韶言. 基于深度学习表征的图像检索技术[D]. 合肥: 中国科学技术大学, 2017. [ Sun S Y. Deep Learning Representation Based Image Retrieval[D]. Hefei: University of Science and Technology of China, 2017. ]

[19]	Lowry S, Sunderhauf N, Newman P, et al. Visual place recognition: A survey[J]. IEEE Transactions on Robotic, 2015, 32(1):1-19. DOI

[20]	Lecun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE. 1998, 86(11):2278-2324. DOI

[21]	蔡华悦. 图像深度特征提取方法研究[D]. 长沙: 国防科技大学, 2018. [ Cai H Y. Research on methods of images deep feature extraction[D]. Changsha: National University of Defense Technology, 2018. ]

[22]	张坷, 冯晓晗, 郭玉荣, 等. 图像分类的深度卷积神经网络模型综述[J]. 中国图象图形学报, 2021, 26(10):305-2325. [ Zhang K, Feng X H, Guo Y R, et al. Overview of deep convolutional neural net-works for image classification[J]. Journal of Image and Graphics, 2021, 26(10):2305-2325. ]

[23]	季长清, 高志勇, 秦静, 等. 基于卷积神经网络的图像分类算法综述[J]. 计算机应用, 2022, 42(4):1044-1049. DOI [ Ji C Q, Gao Z Y, Qin J, et al. Image classification algorithms based on convolutional neural networks[J]. Journal of Computer Applications, 2022, 42(4):1044-1049.]

[24]	Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACMVolume, 2017, 60(6):84-90.

[25]	Lin M. Chen Q, Yan S C. Network in network[EB/OL].(2013-12-16) [2022-4-18]. https://arxiv.orb/pdf/1312.4400.pdf

[26]	Sermanet P, Eigen D, Zhang X, et al. OverFeat: integrated recognition, localization and detection using convolutional networks[C]. Proceedings of the 2nd International Conference on Learning Representations (ICLR), 2014.

[27]	Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].(2015-4-10) [2022-4-18]. https://arxiv.org/abs/1409.1556

[28]	Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[EB/OL]. (2014-9-17) [2022-4-18]. https://arxiv.org/pdf/1409.4842.pdf

[29]	Srivastava R K, Greff K, Schmidhuber J. Highway networks[EB/OL]. (2015-5-3) [2022-4-18]. http://arxiv.org/pdf/1505.00387.pdf

[30]	He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016:770-778.

[31]	He K, Zhang X, Ren S, et al. Identity mappings in deep residual networks[C]. Proceedings of 2016 European Conference on Computer Vision (ECCV), 2016:630-645.

[32]	Larsson G, Maire M and Shakhnarovich G. FractalNet: ultra-deep neural networks without residuals[C]. Proceedings of the 5th International Conference on Learning Representations (ICLR), 2017.

[33]	Huang G, Liu Z, Maaten L V, et al. Densely connected convolutional networks[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017:2261-2269.

[34]	Tan M, Quoc V L. EfficientNet: rethinking model scaling for convolutional neural networks[C]. Proceedings of 36th International Conference on Machine Learning, 2019.

[35]	Wang C, Liao M H, Wu Y, et al. CSPNet: A New Backbone that can Enhance Learning Capability of CNN[C]. Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2020.

[36]	Liu Z, Mao H, Wu C, et al. A ConvNet for the 2020s[EB/OL].(2022-1-10) [2022-04-18] https://arxiv.org/pdf/2201.03545.pdf

[37]	Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]. Proceedings of the 13th European Conference on Computer Vision (ECCV), 2014:818-833.

[38]	Shen F L, Gan R, Zeng G. Weighted residuals for very deep networks[C]. Proceedings of the 3rd International Conference on Systerns and Informatics (ICSAI), 2016:936-941.

[39]	Joel M, Christopher P. Convolutional residual memory networks[EB/OL].(2016-6-1) [2022-4-18]. https://arxiv.org/pdf/1606.05262v3.pdf

[40]	Zagoruyko S, Komodakis N. Wide residual networks[C]. Proceedings of the British Machine Vision Conference, 2016:87.1-87.12.

[41]	Yamada Y, Iwamura M, Kise K. Deep pyramidal residual networks with separated stochastic depth[EB/OL]. (2016-12-5) [2022-4-18]. https://arxiv.orb/pdf/1612.01230.pdf

[42]	Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]. Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017:5987-5995.

[43]	Zhang K, Sun M, Han T X, et al. Residual networks of residual networks: multilevel residual networks[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2016, 28(6):1303-314. DOI

[44]	Gao S H, Cheng M M, Zhao K, et al. Res2Net: a new multi-scale backbone architecture[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(2):652-662. DOI

[45]	Chen Y P, Li J N, Xiao H X, et al. Dual path networks[C]. Proceedings of Advances in Neural Information Processing Systems 30: Annual Conference on Neural Information Processing Systems 2017, 2017:4467-4475.

[46]	Yang Y B, Zhong Z S, Shen T C, et al. Convolutional neural networks with alternately updated clique[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018:2413-2422.

[47]	Huang G, Liu S C, Maaten L, et al. 2018. CondenseNet: an efficient DenseNet using learned group convolutions[C]. Proceedings of 2018 Conference on Computer Vision and Pattern Recognition(CVPR), 2018:2752-2761.

[48]	Wang R J, Li X, Ling C X. Pelee: a real-time object detection system on mobile devices[C]. Proceedings of the 32nd International Conference on Neural Information Processing Systems, 2018:1967-1976.

[49]	Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]. Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016:2818-2826.

[50]	Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, Inception-ResNet and the impact of residual connections on learning[C]. Proceedings of the 31st AAAI Conference on Artificial Intelligence (AAAI'17), 2016:4278-4284.

[51]	Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and<0.5 MB model size[EB/OL].(2016-11-4)[2022-4-18]. http://arxiv.org/pdf/1602.07360.pdf

[52]	Chollet F. Xception: deep learning with depthwise separable convolutions[C]. Proceedings of 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017:1800-1807.

[53]	Howard A G, Zhu M L, Chen B T, et al. MobileNets: efficient convolutional neural networks for mobile vision applications[EB/OL]. (2017-4-17) [2022-4-15].

[54]	Sandler M, Howard A, Zhu M L, et al. MobileNetV2: Inverted residuals and linear bottlenecks[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR), 2018:4510-4520.

[55]	Howard A G, Sandler M, Chen B, et al. Searching for MobileNetV3[C]. Proceedings of 2019 IEEE/CVF International Conference on Computer Vision (ICCV), 2019:1314-1324.

[56]	Zhang X Y, Zhou X Y, Lin M X, et al. ShuffleNet: an extremely efficient convolutional neural network for mobile devices[C]. Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2018:6848-6856.

[57]	Ma N N, Zhang X Y, Zheng H T, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[C]. Proceedings of the 15th European Conference on Computer Vision (ECCV), 2018:122-138.

[58]	Tan M, Chen B, Pang R, et al. MnasNet: platform-aware neural architecture search for mobile[C]. Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019:2815-2823.

[59]	李金洪. 机器视觉之TensorFlow 2入门、原理与应用实战[M]. 北京: 人民邮电出版社, 2020. [ Li J H. Introduction, principle and application of tensorflow 2 in machine vision[M]. Beijing: People's Posts and Telecom Press, 2020. ]

[60]	Hu D, Nie F, and Li X. Discrete spectral hashing for efficient similarity retrieval[J]. IEEE Transactions on Image Processing, 2019, 28(3):1080-1091. DOI PMID

[61]	王崎. 大规模数据集下图像表征问题的研究和应用[D]. 广东: 广东工业大学, 2020. [ Wang Q. Research and application of image representation based on large-scale datasets[D]. Guangdong: Guangdong University of Technology, 2020. ]

[62]	韦娜, 耿国华, 周明全. 基于内容的图像检索系统性能评价[J]. 中国图象图形学报, 2004, 9(11):1271-1276. [ Wei N, Geng G H, Zhou M Q. An overview of performance evaluation in content-based image retrieval[J]. Journal of Image and Graphics, 2004, 9(11):1271-1276.]

[63]	秦志新, 裴东兴. 基于内容的图像检索技术概述[J]. 数字技术与应用, 2012(1):159,161. [ Qin Z X, Pei D X. Overview of content-based image retrieval technology[J]. Digital technology and Application, 2012(1):159,161. ]

[64]	贾强槐. 图像检索结果质量评价[D]. 合肥: 中国科学技术大学, 2015. [ Jia Q H. The quality assessment of image retrieval results[D]. Hefei: University of Science and Technology of China, 2015. ]

[65]	杨宇. 基于深度学习特征的图像推荐系统[D]. 成都: 电子科技大学, 2015. [Image recommendation system based on the image features obtained from deep learning[D]. Chengdu: University of Electronic Science and Technology of China, 2015. ]

[66]	张松伟. 基于深度学习的图像检索方法研究[D]. 武汉: 华中科技大学, 2019. [ Zhang S W. Image retrieval based on deep learning[D]. Wuhan: Huazhong University of Science and Technology, 2019. ]

[67]	龚海华. 基于语义哈希的图像检索算法研究[D]. 合肥: 中国科学技术大学, 2019. [ Gong H H. A research on image retrieval based on semantic hashing[D]. Hefei: University of Science and Technology of China, 2019. ]

[68]	潘雪琛. 多源数据辅助线阵遥感影像定位技术研究[D]. 郑州: 战略支援部队信息工程大学, 2018. [ Pan X C. Research on geometric positioning of linear satellite imagery with multi-source data[D]. Zhengzhou: Strategic Support Force Information Engineering University, 2018. ]

[69]

自然资源部国土卫星遥感应用中心. 自然资源卫星遥感云服务平台[EB/OL].(2022-02-20) [2022-02-20]. http://sasclouds.com/chinese/normal/

[ Land Satellite Remote Sensing Application Center of the Ministry of Natural Resources. Natural resources satellite remote sensing cloud service platform[EB/OL]. (2022-02-20) [2022-02-20]. http://sasclouds.com/chinese/normal/

[70]	Christian S. img2vec[EB/OL]. (2021-12-21) [2022-3-27]. https://github.com/christiansafka/img2vec

[71]	Torchvision[EB/OL]. (2022-3-11) [2022-4-18]. https://pypi.org/project/torchvision/

[72]	ImageNet[EB/OL]. (2021-3-11) [2022-4-18]. https://www.image-net.org/

[73]	张永显. 无人机序列影像上路标实时识别快速定位技术研究[D]. 郑州: 战略支援部队信息工程大学, 2020. [ Zhang Y X. Research on landmarks real-time recognition and rapid location technology on UAV sequence images[D]. Zhengzhou: Strategic Support Force Information Engineering University, 2020. ]

[74]	蓝朝桢, 卢万杰, 于君明, 等. 异源遥感影像特征匹配的深度学习算法[J]. 测绘学报, 2021, 50(2):189-202. [ Lan C Z, Lu W J, Yu J M, et al. Deep learning algorithm for feature matching of cross modality remote sensing Images[J]. Acta Geodaetica et Cartographica Sinica, 2021, 50(2):189-202. ]

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

图1 部分卷积神经网络出现的时间顺序

2 模型及影像表征方法

图2 卫星遥感影像检索定位技术流程图[16]

2.1 深度学习模型

图3 AlexNet网络结构[24]

图4 ResNet残差网络模块[30]

图5 DenseNet网络的密集连接机制[33]

图6 EfficientNet网络模型缩放示意图[34]

表1 EfficientNet各版本深度、宽度、图片大小缩放参数[59]

2.2 全局表征方法

2.3 相似性度量函数

3 评估方法

3.1 有效性评估指标

3.2 效率评估指标

表2 网络模型影像表征效果的评估指标体系

4 试验与分析

4.1 试验数据

图7 测试数据集中包含的不同类型影像

4.2 结果与分析

表3 试验用网络预训练模型指标参数及下载地址

4.2.1 影像全局表征

图8 ResNet-18网络模型提取的特征曲线

图9 用于特征曲线图提取试验的影像

4.2.2 有效性评估

图10 资源三号夏季数据集Precision@K结果

图11 资源三号冬季数据集Precision@K结果

图12 K=200时，DenseNet网络模型部分检索失败的影像

图13 不同分辨率的查询影像对应的余弦距离及排序号变化

图14 资源三号夏季数据集上，各个网络模型的mAR指标曲线

4.2.3 效率评估

图15 各网络模型特征提取平均时间

图16 不同大小影像的特征提取时间

图17 不同地物要素类型影像的特征提取时间

图18 夏季数据集和基准影像特征相似性计算时间

图19 各网络模型表征影像的特征向量维度

表4 各网络模型提取的基准影像库的特征库大小情况表

表5 各网络模型在用于卫星遥感影像表征时的优缺点

5 结论与展望

5.1 结论

5.2 展望

参考文献

图2 卫星遥感影像检索定位技术流程图^[16]

图3 AlexNet网络结构^[24]

图4 ResNet残差网络模块^[30]

图5 DenseNet网络的密集连接机制^[33]

图6 EfficientNet网络模型缩放示意图^[34]

表1 EfficientNet各版本深度、宽度、图片大小缩放参数^[59]

**图10 资源三号夏季数据集Precision@K结果**

**图11 资源三号冬季数据集Precision@K结果**

**图14 资源三号夏季数据集上，各个网络模型的mAR指标曲线**