自适应膨胀和结构嵌入的非对称哈希遥感图像检索算法

李强强; 李小军; 李轶鲲; 杨树文; 杨睿哲

doi:10.12082/dqxxkx.2024.240168

地球信息科学学报 >

2024 , Vol. 26 >Issue 8: 1926 - 1940

DOI: https://doi.org/10.12082/dqxxkx.2024.240168

遥感科学与应用技术

自适应膨胀和结构嵌入的非对称哈希遥感图像检索算法

李强强 ^,¹^,²^,³ ,
李小军 ^,¹^,²^,³^,^* ,
李轶鲲 ¹^,²^,³ ,
杨树文 ¹^,²^,³ ,
杨睿哲 ¹^,²^,³

展开

1.兰州交通大学测绘与地理信息学院，兰州 730070
2.地理国情监测技术应用国家地方联合工程研究中心，兰州 730070
3.甘肃省测绘科学与技术重点实验室，兰州 730070

*李小军（1982— ）男，甘肃庆阳人，博士，副教授，主要从事遥感数字图像处理与神经网络研究。E-mail: xjli@mail.lzjtu.cn

李强强（1997— ），男，甘肃庆阳人，硕士生，主要从事遥感图像检索研究。E-mail: 329172947@qq.com

Copy editor: 蒋树芳 , 黄光玉

收稿日期: 2024-03-27

修回日期: 2024-05-23

网络出版日期: 2024-07-24

基金资助

国家重点研发计划项目(2022YFB3903604)

国家自然科学基金项目(42161069)

国家自然科学基金项目(41861055)

中国博士后基金项目(2019M653795)

收起

An Adaptive Dilated and Structural Embedding Asymmetric Hashing Algorithm for Remote Sensing Image Retrieval

LI Qiangqiang ^,¹^,²^,³ ,
LI Xiaojun ^,¹^,²^,³^,^* ,
LI Yikun ¹^,²^,³ ,
YANG Shuwen ¹^,²^,³ ,
YANG Ruizhe ¹^,²^,³

Expand

1. Faculty of Geomatics, Lanzhou Jiaotong University, Lanzhou 730070, China
2. National-local Joint Engineering Research Center of Technologies and Applications for National Geographic State Monitoring, Lanzhou 730070, China
3. Key Laboratory of Science and Technology in Surveying & Mapping, Gansu Province, Lanzhou 730070, China

*LI Xiaojun, E-mail: xjli@mail.lzjtu.cn

Received date: 2024-03-27

Revised date: 2024-05-23

Online published: 2024-07-24

Supported by

National Key Research and Development Program of China(2022YFB3903604)

National Natural Science Foundation of China(42161069)

National Natural Science Foundation of China(41861055)

China Postdoctoral Science Foundation(2019M653795)

Fold

摘要

随着遥感平台日新月异，遥感图像数量也呈指数级地增长，如何从遥感大数据中筛选出所需遥感图像，已成为遥感应用亟待解决核心问题之一。目前利用深度卷积神经网络获取图像深度特征被认为是图像检索中最为有效的方法。然而，由于其特征维度过高从而导致相似性度量困难，降低了检索的速度和精度。为此，本文提出了一种结合自适应膨胀卷积和结构嵌入网络的非对称哈希遥感图像检索方法。该方法首先设计了自适应膨胀卷积模块，该模块能够在不增加额外模型参数同时自适应地捕捉遥感图像的多尺度特征；其次，针对遥感图像中的结构信息提取不足问题，对已有的结构嵌入模块进行了优化改进，改进后模块能够有效提取遥感图像中的几何结构特征；最后针对类内差异性和类间相似性导致的检索效率低下问题，引入了成对相似性约束，使原始特征空间中遥感图像之间的相似性能在哈希空间中得到保留。通过在4个不同数据集上的对比实验，验证了本文方法优于现有的深度哈希图像检索方法。同时，通过消融实验验证了所提模型中各模块的有效性。

关键词： 遥感图像检索; 残差网络; 深度哈希; 非对称哈希; 自适应膨胀; 结构编码; 多尺度特征

本文引用格式

李强强 , 李小军 , 李轶鲲 , 杨树文 , 杨睿哲 . 自适应膨胀和结构嵌入的非对称哈希遥感图像检索算法[J]. 地球信息科学学报, 2024 , 26(8) : 1926 -1940 . DOI: 10.12082/dqxxkx.2024.240168

Abstract

With the rapid changes in remote sensing platforms, there is a noticeable exponential increase in the quantity of remote sensing images. Choosing the appropriate remote sensing images from extensive remote sensing big data is now a fundamental challenge in remote sensing applications. Currently, utilizing deep Convolutional Neural Networks (CNNs) for extracting deep features from images has become the main approach for remote sensing image retrieval due to its effectiveness. However, the high feature dimensions pose challenges for similarity measurement in the image retrieval, resulting in decreased processing speed and retrieval accuracy. The hash method maps images into compact binary codes from a high-dimensional space, which can be used in remote sensing image retrieval to efficiently reduce feature dimensions. Therefore, this paper proposes a ResNet-based adaptive dilated and structural embedding asymmetric hashing algorithm for the remote sensing image retrieval. Firstly, an adaptive dilated convolution module is designed to adaptively capture multi-scale features of remote sensing images without introducing additional model parameters. Secondly, to address the issue of insufficient extraction of structural information in remote sensing imagery, the current structural embedding module has been optimized and improved to effectively extract geometric structure features from remote sensing images. Lastly, to tackle the problem of low retrieval efficiency caused by intra-class differences and inter-class similarities, pairwise similarity-based constraints are introduced to preserve the similarity of remote sensing images in both the original feature space and the hash space. Experimental comparisons with four datasets (i.e. UCM, NWPU, AID, and PatternNet) were conducted to demonstrate the effectiveness of the proposed method. The mean average precision rates for 64-bit hash codes were 98.07%, 93.65%, 97.92%, and 97.53% with these four datasets, respectively, proving the superiority of our proposed approach over other existing deep hashing image retrieval methods. In addition, four ablation experiments were carried out to verify each module of the proposed method. The ablation experimental results showed that the mean average precision rate was 68.9% by only using the ResNet18 backbone network. The rate will rise to 81.71% after introducing the structural self-similarity coding module, indicating an improvement of 12.81%. Meanwhile, introducing the adaptive dilated convolution module increased the average precision rate by 10.53%. The additional implementation of the pairwise similarity constraints module further increased the average precision rate to 98.07%, indicating a rise of 5.83%. In summary, the experimental results confirm the efficiency of the proposed network framework, which can improve the retrieval accuracy of remote sensing images while maintaining the advantages of deep hashing features.

Key words： remote sensing image retrieval; residual network; deep hashing; asymmetric hashing; adaptive dilation; structural embedding; multi-scale features

1 引言

在过去几十年时间里，对地遥感观测技术取得了长足的发展，随着遥感平台与遥感图像获取手段的日益多样化，遥感图像的数量呈现爆炸式地增长。在当今遥感大数据时代背景下，如何高效地管理海量的遥感数据以及从中筛选出用户感兴趣的遥感图像，已经成为了遥感图像解译和应用的关键问题^[1-2]。因此，遥感图像检索技术应运而生，旨在从海量的遥感图像数据中利用遥感图像的特征搜索到用户感兴趣的目标图像。早期的遥感图像检索方法主要是基于文本查询，通过人工注释方法建立遥感图像数据库。该类方法精度主要依赖于人工对遥感图像判读的专业性，耗时且耗力。20世纪90年代基于内容的图像检索方法被提出^[3-4]，该类方法将图像特征作为检索对象，大大降低了检索与存储的数据量，提高了图像检索效率。在图像检索过程中，视觉特征的表示主要可以划分为低级特征、中级特征以及高级特征^[5]。低级特征是指图像的基础特征，主要包括纹理特征^[6]、光谱特征^[7]和形状特征^[8]。而中级特征是通过编码的方式获得遥感图像的特征描述符，主要包括视觉单词包^[9]、费舍尔向量^[10]、向量局部聚合描述子^[11]等。高级特征是指图像的高层语义特征，通常由经过专门训练和学习的深度神经网络产生^[12]，是对图像场景理解后产生的特征。虽然采用中低级特征的传统遥感图像检索方法通常也能获得可接受的检索结果，但在面对不同尺度、方向、光照等复杂拍摄环境时，中低级特征往往辨识能力有限。近年来，随着深度神经网络在图像处理领域的快速发展，使得图像深度特征的提取成为可能^[13]，深度特征在遥感图像检索中已展现出了卓越的性能^[14]。

尽管基于深度学习的遥感图像检索方法取得了巨大成功，但深度卷积神经网络在提取遥感图像特征时的高维度会导致特征相似性的测量变得困难，从而限制了检索效率。尤其在当下遥感大数据时代，遥感图像数据库变得异常庞大，使得基于深度特征的遥感图像检索时间复杂度显著增加。为了更高效地检索，遥感图像检索领域引入了最邻近搜索法^[15] (Approximate Nearest Neighbor, ANN)，该方法主要针对各个像素周围特性开展搜索，有助于提升检索过程的搜索效率。在众多最近邻搜索方法中，哈希方法被视为其中最为高效的一种。哈希方法将图像映射到一个二值离散空间中，即将图像集从高维空间转换为紧凑的二进制编码^[16]，然后再进行相似性度量，进而完成检索任务。在过去数十年中，基于哈希的方法取得了显著进展，尤其是随着深度学习技术的兴起，将深度学习与哈希技术相结合的深度哈希方法展现出了令人满意的效果^[17-18]，吸引了诸多学者的广泛关注。基于深度哈希的通用检索流程如图1所示，查询图像和数据库图像在深度卷积神经网络中生成高维特征，这些高维特征在哈希函数中被转化映射为低维特征，最终通过相似性度量生成检索结果。Zhu等^[19]、Liu等^[20]、Cao等^[21]、Liu等^[22]、Li等^[23]等较早采用深度哈希技术对遥感图像的检索开展了初步的探索，Li等^[24]和Tang等^[25]尝试将深度哈希网络用在了大规模遥感图像检索之中，Liu等^[26]随后提出了一种特征哈希学习的方法用以增强特征哈希码的表达，以上深度哈希方法均获得了较好的检索性能。

显示原图|下载原图ZIP|生成PPT

图1 基于深度哈希的遥感图像检索框架

Fig. 1 Remote sensing image retrieval framework based on deep hashing

然而，在上述深度哈希方法中，查询集和数据库图像的哈希码都是通过对称的方式生成的，即查询集的哈希码和数据库图像的哈希码都是同时通过学习到的哈希函数生成的。随着遥感数据持续的增加，这种方法面临着大量的时间开销。为了进一步地优化遥感图像检索的效率，Jiang和Li^[27]首次提出了一种非对称深度监督哈希检索算法(Asymmetric Deep Supervised Hashing, ADSH)，在该算法中，遥感图像的查询集和数据库图像的哈希码以一种非对称的方式产生，其中查询集的哈希码通过哈希网络生成，而数据库图像的哈希码则是通过求解设计的目标函数而直接学习获得。随后，Song等^[28]在ADSH方法的基础上，将图像的语义信息和图像对之间的相似性信息相结合，提出了非对称哈希学习的遥感图像检索算法(Asymmetric Hash Code Learning for Remote Sensing Image Retrieval, AHCL)。虽然目前的非对称哈希遥感图像算法在模型训练和检索速率方面有着不错的提升，但在检索的精度上面还有一定的提升空间。现有的非对称哈希图像检索算法不能高效地提取多尺度特征，同时在进行遥感图像检索时，几何结构特征被用于重排序，很少在全局特征中反映几何结构特征。此外，在非对称哈希方法中对遥感图像中低类内相似性和低类间差异性方面的优化问题也考虑不足，该问题会引起模型的泛化能力受限和困难样本识别出错等问题。

针对以上问题，本文提出了一种自适应膨胀和结构嵌入的非对称哈希遥感图像检索算法 (Adaptive Dilated and Structural Embedding Asymmetric Hashing, DSAH)。该算法在非对称哈希基础上，通过设计自适应膨胀卷积模块和结构嵌入模块分别提取遥感图像的多尺度特征和几何结构特征，以获得更好的遥感图像特征表达。同时，为了减小低类内相似性和低类间差异性带来的影响，设计了组合的损失函数。通过4个不同数据集上的对比实验结果表明，本文所提出遥感图像检索方法各项评价指标均优于其他方法。

2 研究方法

本文提出的DSAH网络模型框图如图2所示，其中查询图像的哈希码和数据库图像的哈希码以一种非对称的方式生成。即查询图像的哈希码是通过训练好的哈希函数生成，而数据库图像的哈希码则是直接通过与查询图像的相似关系学习获得。同时为了让模型能更好地捕捉到多尺度的特征和增强图像内容表达，提出在深度卷积神经网络中嵌入自适应膨胀卷积模块和网络结构嵌入模块。其中自适应膨胀卷积模块能够在不增加额外模型参数的情况下捕捉模型的多尺度特征，从而提高模型的特征提取能力和泛化性。另外结构嵌入网络能够捕获图像的内部结构，并针对不同图像学习相异的结构，逐渐将它们压缩成密集的自相似性描述符，从而增强图像中结构信息的表达。另外，为了使模型能够有效地进行学习，本文方法引入3个损失函数，分别是非对称成对损失、语义损失、成对相似性约束。由于汉明距离可以很好地描述提取特征或描述数据之间的相似度^[29]，因此本文选择了汉明距离进行相似性度量以产生检索排序。

显示原图|下载原图ZIP|生成PPT

图2 DSAH网络模型框架

Fig. 2 DSAH network model framework

2.1 模型的定义

ResNet能够通过恒等映射，把深度梯度注入底层，以防止梯度消失，从而允许构建更深层次的网络。为此，本文以ResNet18为基础骨架网络，构建了深度哈希编码模块。ResNet18由17个卷积层和一个全连接层构成。本文方法分别在第5卷积层和第17卷积层后添加了自适应膨胀卷积模块和结构嵌入网络模块，同时将最后一层全连接层替换为哈希层，并在哈希层之后添加了softmax函数，以便进行语义监督。

为了本算法表述方便，本文采用了如下变量定义。其中

X q = x i i = 1 n

和

X d = x j i = 1 N

分别表示查询图像和数据库图像，n表示查询图像的数量，N表示数据库中图像的总数量。则由深度卷积神经网络得到的特征

f q i

可表示为：

（1）

f q i = g (X q i, θ) （ i = 1, 2, 3, …, n ）

式中：g(x)表示卷积神经网络函数；θ代表网络一系列参数，包括卷积、池化、线性变换和其他非线性操作等。

通过哈希层生成的哈希码

B q i ∈ R 1 × K

如式（2）所示。

（2）

B q i = s i g n (w h f q i + b) （ i = 1, 2, 3, …, n ）

式中：K表示哈希码长度；w_h和b分别为哈希层的权重参数和偏置项；sign(x)代表二值符号函数运算，当x≥0时，sign的值为1，当x<0时，sign的值为-1。

数据库图像哈希码矩阵B_d表示如下：

（3）

B d = F S (B q)

式中：B_q表示查询图像的哈希码矩阵，大小为n×K；B_d表示数据库图像的哈希码矩阵，大小为N×K； F_s表示查询图像和数据库图像之间的相似函数。

2.1.1 自适应膨胀卷积模块

为了更好地捕获遥感图像中的多尺度特征，本文提出了一种新的自适应膨胀卷积模块，自适应膨胀卷积由金字塔膨胀卷积和特征自适应模块组成，具体模型结构如图3所示。膨胀卷积能够在不增加额外模型参数的情况下通过调整膨胀率来改变卷积的接收域^[30]。在这里我们选择3×3的卷积核和膨胀率分别为1、2、3的参数来构建金字塔卷积，其对应的接受域分别为3×3、7×7和11×11。膨胀卷积输出的特征图

f d (i)

如下所示：

（4）

f d (i) = f i n ⊗ W d i (i = 1, 2, 3)

式中：f_in表示的是输入特征图，大小为C×H×W，C表示输入图像的通道数，H表示输入图像的高度，W表示输入图像的宽度；

f d (i)

表示经过膨胀卷积后输出的特征图；

W d i

表示自适应膨胀卷积核的参数；i表示膨胀速率；

⊗ 为 卷 积 操 作 符

。为了得到相同位置的多尺度信息，在进行膨胀卷积之前将图像的边缘进行填充，填充后的图像

f' i n

大小为

C' × H' × W'

。故经过膨胀卷积后的遥感图像特征

f d (i)

为：

（5）

f d (i) = f' i n ⊗ W d i (i = 1, 2, 3)

图3中的特征自适应模块由通道自注意力和特征融合组成，通道自注意力能够动态地调整每个通道的关注度，特征融合将经过通道自注意力处理的不同尺度下的特征进行自适应地融合。经过特征自适应后的遥感图像特征

f ∈ R C' × H' × W'

可表示为：

（6）

f = ∑ i = 1 D ψ i (f d (i))

式中：D表示金字塔的尺度等级；

ψ i (X)

表示尺度i下的通道自注意力函数，

ψ i (X)

可表示为：

（7）

ψ i (X) = υ (s o f t m a x (Q ∙ K T) ∙ V) + X

式中：Q=query_conv(X)， query_conv是通过1×1卷积计算的，表示对输入特征X进行查询操作；K=key_conv(X)，key_conv是通过1×1卷积层计算的，表示对输入特征X进行键操作；V=value_conv(X)，value_conv是通过1×1卷积层计算的，表示对输入特征X进行值操作；

υ

是可学习的调整超参数，用于调整通道注意力的强度。

显示原图|下载原图ZIP|生成PPT

图3 自适应膨胀卷积模块

Fig. 3 Adaptive dilated convolution module

2.1.2 结构嵌入网络模块

结构嵌入网络模块由Lee等^[31]于2023年提出，主要由3个子模块组成，如图4所示，分别为结构相似性计算模块、自相似性描述符编码模块、特征融合模块。结构嵌入网络在表达遥感图像的视觉特性时，能够较好地兼顾图像中的几何结构信息。为了更好地表达遥感图像的结构信息，论文对现有结构嵌入网络中的特征融合模块进行了优化。

显示原图|下载原图ZIP|生成PPT

图4 结构嵌入网络模块

Fig. 4 Structure Embedded Network Module

（1）自相似性计算

在自相似计算模块中，为了降低通道之间的计算复杂度，在自相似性计算之前通过一个线性层运算将通道数为C的原始特征F映射为通道数为C'的特征图F'。在F'中，通过计算单个像素与其邻域像素的余弦相似度可以获得

S ∈ R C' × H × W × P × P

，S的计算如下所示：

（8）

S (c, x, d) = m a x 0, F' (c, x) ∙ F' (c, x + H) F' (c, x) F' (c, x + H)

式中：P表示的是邻域范围；

c ∈ [1, C']

指的是通道的索引；

H ∈ - H P, H P × - H P, H P

是x的邻域位置，

H P = (P - 1) / 2

。

（2）自相似性编码

自相似性编码是将通道维度的自相似性描述符S编码为与原始特征图F空间和通道尺寸相同的密集自相似性描述符编码

D ∈ R C × H × W

。其中，自相似性编码器是由一系列卷积块序列构成，包括卷积、批标准化层和ReLU函数。在将原始的自相似性特征S转化为自相似性描述符时，自相似编码器通过将自相似边的填充值设置为零来聚合自相似边，从而将空间维度从P×P减少到1×1。最后，通过一个线性层将自编码器得到的自相似性描述符的编码特征维度转换到与原始特征F通道大小相同的编码特征维度。

（3）特征融合

结构信息主要反映图像的局部内容，为了能够更好地反映遥感图像的全局内容还需关注图像的视觉信息，因此需要将自相似性编码D和原始特征F进行融合。在Lee等^[31]提出的模型中是将原始特征与自相似性描述符进行加和以完成特征融合。虽然加法融合能实现信息的互补，从而使融合后的特征能表示更加丰富的信息，但是乘法融合能够增强特征的语义信息同时保留特征的细节信息，因此乘法融合更加适合像图像检索等一类需要特征之间的匹配或相似性度量的任务。本文算法将使用乘法融合替代原始的加法融合以实现对模型的优化改进。如图5所示，首先将自相似性描述符与初始卷积特征进行点乘处理，然后将点乘后的结果传递到一个由线性层和ReLU函数组成的前馈层中进行处理，从而得到融合后的特征。融合特征F^s的计算如下所示：

（9）

F s = m a x (0, (F (x) ⊙ D (x)) W 1 + b 1)

式中：

⊙

表示点乘操作；W₁和b₁表示线性函数参数；max代表ReLU运算结果。

显示原图|下载原图ZIP|生成PPT

图5 特征融合图

Fig. 5 Feature fusion block diagram

2.2 损失函数设计

为了确保模型能够获得有效训练，本算法设计了考虑到非对称成对损失、语义损失和成对相似性约束构成的联合损失函数。

（10）

L t o t a l = λ L s + ε L s e m + η L p a i r

式中：λ、ε、η均为超参数；

L

_s表示非对称成对损失；

L

_sem代表语义损失；

L

_pair为成对相似性约束。

2.2.1 非对称成对损失

由于数据图像的哈希码是计算与查询集的相似关系而生成的，为了确保二者哈希码之间的相似度，本方法引入了非对称成对损失函数^[27]。

（11）

L s = ∑ i = 1 n ∑ j = 1 N B q i B d j T - S i j 2

式中：

B q i

和

B d j

分别表示查询图像和数据库图像的哈希码，

B q i ∈ R n × K

B d j ∈ R N × K

，其中K表示哈希码的位数；S_ij表示相似性矩阵，由查询图像和数据库图像通过独热编码后相乘得到。

B q i

由训练好的深度哈希网络生成，故该损失函数又可以表示为：

（12）

L s = ∑ i = 1 n ∑ j = 1 N s i g n (w h Φ (X q i, θ) + v h) B d j T - S i j 2

式中：函数

Φ

表示深度卷积神经网络；θ为

Φ

的参数；w_h和v_h为哈希函数的参数。因为sign函数是不可导的，无法进行反向传播求解梯度，所以在这里用tanh函数代替sign函数，则损失函数变为：

（13）

L s = ∑ i = 1 n ∑ j = 1 N t a n h (w h Φ (X q i, θ) + v h) B d j T - S i j 2

由于采用tanh函数近似代替了sign函数，故会存在一定近似误差，为了约束这种误差，本文方法在这里给损失函数添加了一个额外约束项，则最终的非对称成对损失函数可表示为：

（14）

L s = ∑ i = 1 n ∑ j = 1 N t a n h (w h Φ (X q i, θ) + v h) B d j T - S i j 2 + γ ∑ i = 1 n B d i - t a n h (w h Φ (X q i, θ) + v h) 2

2.2.2 语义损失

遥感图像不仅包含了丰富的地物信息，还含有丰富的语义信息，这些相关的语义信息能够增强遥感图像特征的表达能力，同时能够在一定程度上减小语义鸿沟，因此本方法在模型中也添加了语义损失函数。语义损失函数的定义如下：

（15）

L s e m = - 1 n ∑ i n (y i l o g (y^i)

式中：y_i表示真实值；

y^i

表示预测值；n表示样本数。

2.2.3 成对相似性约束

遥感图像中存在低类内相似性和低类间差异性的问题，本算法为了提高模型的泛化能力和特征识别能力，引入了成对相似性约束^[20]，其相对应的损失函数定义如下：

（16）

L p a i r = 1 2 × n × (n - 1) ∑ i n ∑ j n {Θ i j ‖ (B q i - B q j ‖ + (1 - Θ i j) m a x (m - ‖ (B q i - B q j) ‖, 0)}

式中：

Θ = Y Y T = Θ i j i = 1, j = 1 N, N

，当

Θ i j = 1

时，表示第i幅图像和第j幅图像相似，当

Θ i j = 0

时，则代表第i和第j幅图像不相似；

B q i

和

B q j

分别表示第i和第j张图像对应的哈希码；

‖ B q i - B q j ‖

表示哈希码之间的汉明距离，用来评估哈希码在哈希空间中的相似性；m是一个大于0的超参数。上式第一项正则化的目的是使相似的部分尽可能具有小的距离，而第二项将距离大于m的情况定义为互不相似。

在式（16）中

B q i 、 B q j ∈ {0,1} K

，这是一个离散优化的问题，为了规避这类问题，本算法将哈希码B进行了缩放，并用

φ

替代B，

φ

是从一个带有sigmoid激活函数的哈希层中得到的，修改后的成对相似性约束如下所示：

（17）

L p a i r = 1 2 × n × (n - 1) ∑ i n ∑ j n {Θ i j ‖ (φ i - φ j ‖ 22 + (1 - Θ i j) m a x (m - ‖ (φ i - φ j) ‖ 22, 0)}

式中：

‖ (φ i - φ j) ‖ 22

表示第i和j个实值哈希码之间的欧氏距离。

3 实验数据及实验设计

3.1 数据集

为了验证本文方法有效性，将本方法在如下 4个公开数据集上开展了验证实验。

（1） UCM：该数据集是由加州大学Newsam等^[32]提出的遥感场景识别数据集，通常被应用于遥感图像的分类和检索。UCM数据集涵盖了21个不同的类别，每个类别包含100幅256像素×256像素大小的RGB彩色遥感图像，图像空间分辨率达到0.3 m，共计有2 100幅遥感图像。该数据集由土地利用图像组成，是目前遥感领域使用频率最高的数据集之一。

（2） NWPU：该数据集是由西北工业大学设计的专门用于大规模图像分类的遥感数据集^[33]。NWPU数据集共包含45个不同场景类别，每个类别具有700幅遥感图像，图像尺寸大小为256像素×256像素，共计31 500幅图像。该数据集数据量大，场景丰富，同时考虑了光照、背景、空间分辨率等因素对每个类别图像的影响，具有较高的类内多样性和类间相似性。

（3） AID：该数据集是由华中科技大学和武汉大学联合提出的遥感图像数据集^[34]。该数据集涵盖了30个场景类别图像，其中每个类别的图像数量介于220~420幅之间，图像尺寸为600像素×600像素大小，空间分辨率介于0.5~0.8 m之间。该数据集涵盖了全世界不同地区范围，在不同的时间和不同的成像条件下取出每一类图像，增大了数据集图像的类内差异性。

（4） PatternNet：该数据集是由武汉大学提出的一个可用于遥感图像检索的大规模高分辨率遥感图像数据集^[35]。PatternNet数据集共包含38个图像类别，每个类别有800幅图像，图像尺寸大小为256像素×256像素。该数据集的特点为数据规模大、图像包含目标更集中、背景干扰更小、语义标注更清晰，因此非常适合用于遥感图像检索算法的验证。

3.2 评价指标

为了对所提出模型开展定量对比，采用了3个通用的评价指标开展各个算法的对比验证。包括平均查准率均值(mean Average Precision, mAP)、 P-R曲线(Precision-Recall curve)、平均归一化修正检索秩（Average Normalized Modified Retrieval Rank, ANMRR）。

（1）平均查准率均值

平均查准率均值是衡量多次查询的平均准确率标准，同时可反映返回的相似图像在检索结果中的排序，可以反映图像检索的整体性能。平均查准率均值mAP如式（18）所示。

（18）

m A P = ∑ q = 1 Q A P (q) Q

式中：AP(i)表示第i次查询的平均查准率，如式(19)所示。

（19）

A P = ∑ k = 1 S R [P (k) × r (k)] S R + S N

式中：SR为检索到的相似图像的数量；SN为图像集中未被检索到的相似图像数量；SR和SN的和即为图像集中相似图像总数；k为返回图像的排序，P（k）表示截断值为k时的查准率，即P@k； r(k)为指示函数，当返回图像序列中排序为k的图像是相似图像时，r(k)=1，反之r(k)=0。

（2）P-R曲线

P-R曲线是由查准率P和查全率R两部分组成的二维曲线。

查准率是衡量检索结果中与用户需求匹配的图像比例的指标。它反映了检索系统的准确性和可靠性，计算公式如下所示：

（20）

P = S R S R + N R

式中：P代表查准率；SR代表相似且被检索到的图像数量；NR表示不相似但被检索到的图像数量。精确率的取值范围为0~1之间，越接近1表示检索系统的结果越准确。当精确率为1时，表示检索系统返回的所有图像都与用户需求完全匹配；当精确率为0时，表示检索系统未能返回与用户需求相关的图像。

召回率是衡量检索系统能够从数据库中检索出与用户需求相关的图像比例的指标。它反映了检索系统的覆盖范围和检索效果，计算公式如下所示：

（21）

R = S R S R + S N

式中：R代表召回率；SR代表相似且被检索到的图像数量；SN表示相似且未被检索到的图像数量。召回率的取值范围也是0~1之间，越接近1表示检索系统的覆盖范围越广，能够更好地检索到与用户需求相关的图像。当召回率为1时，表示检索系统能够完整地检索出所有与用户需求相关的图像；当召回率为0时，表示检索系统未能检索到与用户需求相关的任何图像。

（3）平均归一化修正检索秩

平均归一化修正检索秩是MPEG-7推荐的一种检索性能评价指标。同样的，对于一个查询图像q，设SR为检索到的相似图像数量，SN为图像集中未被检索到的相似图像数量，用NG(q)=SR+SN表示图像集中与查询图像相似的图像总数。则R(k)如式（22）所示，表示第k幅相似图像在返回结果中的排序。

（22）

R (k) = R (k) R (k) ≤ K (q) 1.25 K (q) R (k) > K (q)

式中：K(q)是一个常数，是对排序较高项的惩罚，一般取值为2 NG(q)。由此进一步得到归一化的修正检索秩NMRR(Normalized Modified Retrieval Rank)如式（23）所示。

（23）

N M R R (q) = A R (q) - 0.5 [1 + N G (q)] 1.25 K (q) - 0.5 [1 + N G (q)]

其中，

A R (q) = 1 N G (q) ∑ k = 1 N G (q) R (k)

表示一次查询中所有相似图像的平均排序。对于Q次的查询结果取平均值得到ANMRR（average NMRR）如式（24）所示。

（24）

A N M R R = 1 Q ∑ q = 1 Q N M R R (q)

ANMRR的值在[0,1]范围之内，ANMRR值越小，表示检索性能越好。

3.3 实验设置

此外，本算法实验是在Intel(R) Core(TM) i7-13700KF 3.40 GHz，32 GB内存，NVIDIA GeForce RTX 4080，CUDA 11.8的计算机环境下实现的。

4 实验结果及分析

4.1 消融实验

为了验证本算法中自适应膨胀模块、结构自相似性编码模块和成对相似性约束的有效性，采用UCM数据集以64 bits的哈希码为例进行了4组消融对比实验。并分别选取了平均查准率(mAP)和平均归一化修正检索秩(ANMMR) 2个指标对模型进行评估，相关的评价结果如表1所示。其中Resnet18+结构自相似性编码 +自适应膨胀卷积+成对相似性约束是本文所提出的模型。

表1 不同的网络框架下的检索评价指标

Tab. 1 Retrieval evaluation indicators under different network frameworks

方法	mAP	ANMMR
ResNet18	0.689 0	0.260
ResNet18+结构自相似性编码	0.817 1	0.150
ResNet18+结构自相似性编码 +自适应膨胀卷积	0.922 4	0.061
ResNet18+结构自相似性编码 +自适应膨胀卷积+成对相似性约束	0.980 7	0.009

如表1所示，加入结构自相似性编码后，由于遥感图像的全局特征中嵌入的结构自相似性编码增强了图像中几何结构信息的表达，故mAP指标提高了12.81%， ANMMR的值下降了11%。自适应膨胀卷积能够在不增加模型额外参数的情况下通过调整膨胀率来改变卷积的接收域从而提取遥感图像的多尺度特征，因此在加入自适应膨胀卷积后平均查准率提高了10.53%，平均归一化修正检索秩下降了8.9%。为了增强模型的泛化能力和困难样本的识别能力，本文在已有的损失函数中添加了成对相似性约束。在加入成对相似性约束后，平均查准率提升了5.83%，平均归一化修正检索秩下降了5.2%。由此可见，本方法提出的各项模块在一定程度上能够提高遥感图像检索精度。

4.2 对比实验

为了验证本文所提DSAH算法的有效性，将本文算法与多个非对称深度哈希方法和传统深度哈希方法开展了对比实验。其中，用于对比的非对称哈希方法包括非对称哈希码学习算法（Asymmetric Hash Code Learning, AHCL）^[28]和非对称监督哈希算法（Asymmetric Deep Supervised Hashing, ADSH）^[27]等；用于对比的传统哈希方法包括特征和哈希学习算法(Feature And Hash, FAH)^[26]，深度成对监督哈希算法（Deep Pairwise-Supervised Hashing, DPSH）^[23]，深度哈希和有效的相似性检索算法（Deep Hashing Network, DHN）^[19]等。

本文算法与AHCL、ADSH、DPSH、FAH、DHN 5种算法在AID数据集和UCM数据集的可视化检索示例结果如图6和图7所示。由于篇幅所限，图6和图7只展示了前10幅检索返回图像，但是在图尾用分数形式展示了80幅正确图像中不同算法正确检索到的图像数量。从AID数据集2个示例检索结果可以看出，本文提出的DSAH方法检索准确率最高，对于2个示例图像（公园和广场）均正确检出。AHCL、ASDH、FAH等方法也表现较好，对于检索示例公园，检索精度分别达到了100%、99%、95%。在UCM数据集的检索结果中，对于河流和中型住宅2个检索示例本方法同样也取得了不错的检索结果。虽然在图6和图7的检索示例图中面对像河流和公园等简单自然场景检索时与其他算法一样均获得了较好的检索结果，因此DSAH算法并没有表现出明显的优越性，但是在处理像广场和中型住宅等复杂城市建筑场景时，DSAH方法均能正确检出，其精度明显优于其他算法。从而可以验证DSAH算法的有效性，尤其是复杂建筑物等一类场景检索方面精度明显提升。

显示原图|下载原图ZIP|生成PPT

图6 AID数据集的检索返回示例图

Fig. 6 Sample image returned by retrieval of AID dataset

显示原图|下载原图ZIP|生成PPT

图7 UCM数据集的检索返回示例图

Fig. 7 Sample image returned by retrieval of UCM dataset

为了客观上验证本文所提算法的有效性，采用mAP和ANMRR这2个评价指标开展了定量对比实验。mAP和ANMRR的值范围在0~1之间，mAP的值越接近于1则证明检索效果越好，而ANMRR的值越接近于0则证明检索效果越好。如表2所示，在4个数据集中，不同哈希码位数（32 bits、 64 bits和128 bits）下不同算法的mAP定量对比结果。从表2可以得到以下结论：

表2 mAP定量对比结果

Tab. 2 mAP quantitative comparison results

数据集	哈希码位数/bits	DSAH	AHCL^[28]	ADSH^[27]	FAH^[26]	DPSH^[23]	DHN^[19]
UCM	32	0.965 5	0.881 6	0.949 5	0.933 1	0.826 7	0.856 7
	64	0.980 7	0.937 8	0.952 6	0.915 4	0.836 7	0.867 9
	128	0.990 5	0.970 7	0.981 0	0.950 6	0.815 4	0.819 8
NWPU	32	0.868 8	0.850 4	0.789 4	0.813 2	0.355 7	0.480 7
	64	0.936 5	0.893 1	0.928 4	0.724 6	0.501 2	0.687 0
	128	0.996 8	0.920 7	0.963 5	0.824 0	0.574 6	0.677 7
AID	32	0.906 0	0.8595	0.895 4	0.833 4	0.745 1	0.793 6
	64	0.979 2	0.7772	0.956 3	0.865 9	0.765 6	0.787 7
	128	0.987 7	0.938 0	0.962 6	0.866 2	0.817 2	0.753 8
PatternNet	32	0.919 7	0.876 0	0.924 9	0.908 7	0.793 7	0.775 8
	64	0.975 3	0.962 5	0.970 4	0.967 8	0.918 2	0.920 4
	128	0.996 7	0.988 5	0.975 3	0.967 2	0.918 5	0.925 2

注：加粗的数值表示本文所提出的方法。

（1）随着哈希码位数的增加，mAP的值也在逐步提高，当哈希码的位数为128 bits时DSAH方法对应的mAP平均值优于0.99。

（2）哈希码的位数无论是32 bits还是64 bits或128 bits，DSAH方法对应的mAP值在整体上优于其他方法。

（3）无论是在小型数据集UCM中，还是NWPU、AID和PatternNet等大型数据集中，DSAH方法对应的指标均好于其他方法。

ANMRR指标更加注重检索排序中的平均排名，该指标可以进行佐证mAP指标的准确性。本文算法和对比算法ANMRR指标的定量对比结果如图8所示，图8的4幅柱状图上可以直观地观察到在多个维度上DSAH的ANMRR指标明显优于其他方法，更进一步说明了DSAH方法的有效性。

显示原图|下载原图ZIP|生成PPT

**图8 ANMRR定量对比结果**

Fig. 8 ANMRR quantitative comparison results

查准率-查全率曲线可同时考量检索结果的准确性和完备性，因此这里采用其对各个算法开展检索效果评价。查准率为检索返回的图像中正样本数量占本次返回图像的比例，反映了检索结果的准确性；查全率为检索返回图像中的正样本数量占数据库中所有正样本的数量，反映了检索结果的完备性。通常情况下准确率和召回率作为一对互补的指标，每个指标只能单方面反映检索系统的性能指标，以召回率为横轴和准确率为纵轴的曲线能够综合系统地反映检索性能。图9和图10分别为在UCM和AID数据集上的召回率曲线、查准率曲线、P-R曲线。在图9(a)和图9(b)中，可以观察到DSAH算法虽然检索结果最好，但与其他算法接近，仅有很小的优势。从图10(a)和图10(b)可见，DSAH算法明显优于其他算法。但是在2幅图的子图10(c)中均可观察到DSAH方法的P-R曲线均优于其他算法。进一步验证了本文所提出的检索算法的有效性。

显示原图|下载原图ZIP|生成PPT

图9 UCM数据集上使用64-bit哈希码的检索结果

Fig. 9 Retrieval results using 64-bit hash codes on the UCM dataset

显示原图|下载原图ZIP|生成PPT

图10 AID数据集上使用64-bit哈希码的检索结果

Fig. 10 Retrieval results using 64-bit hash codes on the AID dataset

此外，为了检验本文所提DSAH模型的计算效率，开展了模型时间消耗对比实验。实验环境和前文一致，为Intel(R) Core(TM) i7-13700KF 3.40 GHz，32 GB内存，NVIDIA GeForce RTX 4080，CUDA 11.8的计算机环境下实现的。实验配置同样采用了AID数据集随机设置训练集比例为50%，查询集比例为5%。表3展示了DSAH检索模型和其他主流深度哈希检索模型在训练时间消耗和检索时间消耗上的对比结果。由表3可以看出，本文所提的DSAH算法与AHCL、DPSH和DHN这3种哈希算法在训练时间消耗上表现更好，ADSH和FAH算法时间消耗较长。但在检索时间消耗上，本文提出的DSAH算法与AHCL、ADSH等非对称哈希算法优于其他方法。因此，本文所提出的DSAH算法在网络训练和检索的综合时间复杂度方面表现最优。

表3 AID数据集上的训练时间和检索时间对比

Tab. 3 Comparison of training time and retrieval time on AID dataset (s)

方法	训练时间	检索时间
DSAH	704.11	16.92
AHCL	715.48	17.15
ADSH	743.82	17.05
FAH	780.48	90.29
DPSH	708.54	86.85
DHN	706.78	76.32

注：加粗数值表示的是本文所提出的方法。

5 结论与讨论

5.1 结论

基于深度学习的非对称哈希编码图像检索方法是当前遥感图像检索应用的最优方案，但是多尺度特征提取和结构特征的提取与表达方面仍存在不足，需进一步进行优化。基于以上问题本论文提出了一种自适应膨胀卷积和考虑结构嵌入网络的非对称哈希的遥感图像检索算法，该算法设计了新的自适应膨胀卷积模块，并改进了结构嵌入网络获得了遥感图像的结构特征，同时在损失函数设计中引入了成对相似性约束。

该算法的主要优势有： ① 提出的新的自适应膨胀卷积模块能够在不增加额外参数的情况下捕捉遥感图像多尺度特征，从而提高了遥感图像的多尺度特征表达能力，在UCM数据集中添加自适应膨胀卷积模块后mAP的指标提高了10.53%； ② 本算法引入和改进了结构相似性编码模组，使得遥感图像特征能够在呈现图像视觉信息的同时兼顾几何信息的表达，能够较好地提升网络的稳健性和泛化性，在UCM数据集中结构嵌入网络模块能够使得mAP的指标提升12.81%； ③ 创新性地将成对相似性约束引入了非对称哈希遥感图像检索的损失函数中，使得遥感图像之间的相似性可以保留在哈希空间，大大增强了遥感图像的特征识别能力，在UCM数据集中添加该损失函数模块后mAP的指标提升了5.83%。同时在同类深度哈希的检索中，得益于自适应膨胀卷积和结构嵌入网络特征增强能力，本文的方法整体上也优于其他方法。尤其是在复杂建筑物等一类场景检索时本文的方法明显优于其他方法，将AID数据集中的广场图像和UCM数据集中的中型建筑图像作为查询集时，本文的方法均能正确检索。

5.2 讨论

本方法采用ResNet18在ImageNet数据集上预训练得到的参数来初始化ResNet18的前16层网络，其它层进行随机初始化。同时，对于UCM、NWPU、AID、PatternNet 这4个数据集，随机设置其训练集比例分别为60%、50%、50%、40%，查询集的比例分别为5%、2%、5%、2%。代码的执行都是基于PyTorch框架和Adam优化器来完成。另外，在超参数设置中，初始学习率设置为0.000 5，权重衰减指数设置为0.000 05，批处理大小为128，迭代次数为40次。损失函数中的超参数分别为：λ=1，ε=15，η=40，γ=200，m=14。

通过与已有深度哈希方法对比，虽然本文提出的DSAH算法获得了更好的检索效果。但仍存在一些不足。在遥感图像检索领域，影响检索精度的因素主要包括特征提取和相似性度量2个方面。特征提取能力受训练数据和模型架构的影响，目前改进方法主要集中在调整网络模型架构上。然而，在实际的检索中，遥感数据类型和规模多样化，因此针对特定类型的模型可能无法完全适应所有复杂变化的情况，其在公开数据集上的测试结果可能不具有普适性。未来的检索工作需要进一步增强模型的泛化能力，或者探索一种能够根据数据类型自适应调整模型的方法。在相似性度量方面，常见的方法是基于欧式距离或马氏距离进行特征相似性度量。然而，遥感图像的特征通常非常复杂，仅通过简单的距离度量公式难以准确描述其相似性。因此，未来需要寻找更加精确可靠的相似性度量方法，以提高遥感图像检索的准确性和效果。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Zhou W X, Guan H Y, Li Z Y, et al. Remote sensing image retrieval in the past decade: Achievements, challenges, and future directions[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2023, 16:1447-1473. DOI:10.1109/JSTARS.2023.3236662

[2]	Pei Y J, Wang Z Y, Li N, et al. Deep hashing network with hybrid attention and adaptive weighting for image retrieval[J]. IEEE Transactions on Multimedia, 2024, 26:4961-4973. DOI:10.1109/TMM.2023.3328197

[3]	Faloutsos C, Barber R, Flickner M, et al. Efficient and effective querying by image content[J]. Journal of Intelligent Information Systems, 1994, 3(3):231-262. DOI:10.1007/BF00962238

[4]	Gudivada V N, Raghavan V V. Content based image retrieval systems[J]. Computer, 1995, 28(9):18-22. DOI:10.1109/2.410145

[5]	Sudha S K, Aji S. A review on recent advances in remote sensing image retrieval techniques[J]. Journal of the Indian Society of Remote Sensing, 2019, 47(12):2129-2139. DOI:10.1007/s12524-019-01049-8

[6]	Yao H Y, Li B C, Cao W. Remote sensing imagery retrieval based-on Gabor texture feature classification[C]// Proceedings 7th International Conference on Signal Processing,2004. Proceedings. ICSP '04. IEEE, 2004, 1:733-736. DOI:10.1109/ICOSP.2004.1452767

[7]	Bretschneider T, Cavet R, Kao O. Retrieval of remotely sensed imagery using spectral information content[C]// IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2002, 4:2253-2255. DOI:10.1109/IGARSS.2002.1026510

[8]	Agouris P, Carswell J, Stefanidis A. An environment for content-based image retrieval from large spatial databases[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 1999, 54(4):263-272. DOI:10.1016/S0924-2716(99)00025-8

[9]	Sivic, Zisserman. Video Google: A text retrieval approach to object matching in videos[C]// Proceedings Ninth IEEE International Conference on Computer Vision. IEEE, 2003, 2:1470-1477. DOI:10.1109/ICCV.2003.1238663

[10]	Perronnin F, Dance C. Fisher kernels on visual vocabularies for image categorization[C]// 2007 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2007:1-8. DOI:10.1109/CVPR.2007.383266

[11]	Jégou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C]// 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2010:3304-3311. DOI:10.1109/CVPR.2010.5540039

[12]

葛芸, 马琳, 江顺亮, 等. 基于高层特征图组合及池化的高分辨率遥感图像检索[J]. 电子与信息学报, 2019, 41(10):2487-2494.

[Ge

, Ma

, Jiang

S L

, et al. The combination and pooling based on high-level feature map for high-resolution remote sensing image retrieval[J]. Journal of Electronics & Information Technology, 2019, 41(10):2487-2494.] DOI:10.11999/JEIT190017

[13]

张建兵, 严泽枭, 马淑芳. 用于遥感影像建筑物变化检测的多尺度交叉对偶注意力网络[J]. 地球信息科学学报, 2023, 25(12):2487-2500.

DOI

[Zhang

J B

, Yan

Z X

, Ma

S F

. Multi-scale cross dual attention network for building change detection in remote sensing images[J]. Journal of Geo-information Science, 2023, 25(12):2487-2500.] DOI:10.12082/dqxxkx.2023.230432

[14]	Zhou W X, Newsam S, Li C M, et al. Learning low dimensional convolutional neural networks for high-resolution remote sensing image retrieval[J]. Remote Sensing, 2017, 9(5):489. DOI:10.3390/rs9050489

[15]	Wang J D, Shen H T, Song J K, et al. Hashing for similarity search: A survey[EB/OL]. 2014:1408.2927. http://arxiv.org/abs/1408.2927v1

[16]	何悦, 陈广胜, 景维鹏, 等. 基于深度多相似性哈希方法的遥感图像检索[J]. 计算机工程, 2023, 49(2):206-212. DOI [He Y, Chen G S, Jing W P, et al. Remote sensing image retrieval based on deep multi-similarity hashing method[J]. Computer Engineering, 2023, 49(2):206-212.] DOI:10.19678/j.issn.1000-3428.0064827

[17]	Luo X, Wang H X, Wu D Q, et al. A survey on deep hashing methods[J]. ACM Transactions on Knowledge Discovery from Data, 2023, 17(1):1-50. DOI:10.1145/3532624

[18]	Sun Y X, Ye Y M, Kang J, et al. Cross-modal hashing with feature semi-interaction and semantic ranking for remote sensing ship image retrieval[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62:1-15. DOI: 10.1109/TGRS.2024.3368194

[19]	Zhu H, Long M S, Wang J M, et al. Deep Hashing Network for efficient similarity retrieval[C]// Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence. ACM, 2016:2415-2421. DOI:10.5555/3016100.3016236

[20]	Liu H M, Wang R P, Shan S G, et al. Deep supervised hashing for fast image retrieval[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:2064-2072. DOI:10.1109/CVPR.2016.227

[21]	Cao Y, Long M S, Liu B, et al. Deep cauchy hashing for hamming space retrieval[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:1229-1237. DOI:10.1109/CVPR.2018.00134

[22]	Liu C, Ma J J, Tang X, et al. Adversarial hash-code learning for remote sensing image retrieval[C]// IGARSS 2019-2019 IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2019:4324-4327. DOI:10.1109/IGARSS.2019.8900431

[23]	Li W J, Wang S, Kang W C. Feature learning based deep supervised hashing with pairwise labels[EB/OL]. 2015:1511.03855. http://arxiv.org/abs/1511.03855v2

[24]	Li Y S, Zhang Y J, Huang X, et al. Large-scale remote sensing image retrieval by deep hashing neural networks[J]. IEEE Transactions on Geoscience and Remote Sensing, 2018, 56(2):950-965. DOI:10.1109/TGRS.2017.2756911

[25]	Tang X, Liu C, Ma J J, et al. Large-scale remote sensing image retrieval based on semi-supervised adversarial hashing[J]. Remote Sensing, 2019, 11(17):2055. DOI:10.3390/rs11172055

[26]	Liu C, Ma J J, Tang X, et al. Deep hash learning for remote sensing image retrieval[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(4):3420-3443. DOI:10.1109/TGRS.2020.3007533

[27]	Jiang Q Y, Li W J. Asymmetric deep supervised hashing[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2018, 32(1):arXiv:1707.08325. DOI:10.1609/aaai.v32i1.11814

[28]	Song W W, Gao Z, Dian R W, et al. Asymmetric hash code learning for remote sensing image retrieval[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60:1-14. DOI:10.1109/TGRS.2022.3143571

[29]	Hamming R W. Error detecting and error correcting codes[J]. The Bell System Technical Journal, 1950, 29(2):147-160. DOI:10.1002/j.1538-7305.1950.tb00463.x

[30]	Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions[EB/OL]. 2015:1511.07122. http://arxiv.org/abs/1511.07122v3

[31]	Lee S, Lee S, Seong H, et al. Revisiting self-similarity: Structural embedding for image retrieval[C]// 2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2023:23412-23421. DOI:10.1109/CVPR52729.2023.02242

[32]	Yang Y, Newsam S. Bag-of-visual-words and spatial extensions for land-use classification[C]// Proceedings of the 18th SIGSPATIAL international conference on advances in geographic information systems. 2010:270-279. DOI: 10.1145/1869790.1869829

[33]	Cheng G, Han J W, Lu X Q. Remote sensing image scene classification: Benchmark and state of the art[J]. Proceedings of the IEEE, 2017, 105(10):1865-1883. DOI:10.1109/JPROC.2017.2675998

[34]	Xia G S, Hu J W, Hu F, et al. AID: A benchmark data set for performance evaluation of aerial scene classification[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(7):3965-3981. DOI:10.1109/TGRS.2017.2685945

[35]	Zhou W X, Newsam S, Li C M, et al. PatternNet: A benchmark dataset for performance evaluation of remote sensing image retrieval[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 145:197-209. DOI:10.1016/j.isprsjprs.2018.01.004

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

图1 基于深度哈希的遥感图像检索框架

2 研究方法

图2 DSAH网络模型框架

2.1 模型的定义

2.1.1 自适应膨胀卷积模块

图3 自适应膨胀卷积模块

2.1.2 结构嵌入网络模块

图4 结构嵌入网络模块

图5 特征融合图

2.2 损失函数设计

2.2.1 非对称成对损失

2.2.2 语义损失

2.2.3 成对相似性约束

3 实验数据及实验设计

3.1 数据集

3.2 评价指标

3.3 实验设置

4 实验结果及分析

4.1 消融实验

表1 不同的网络框架下的检索评价指标

4.2 对比实验

图6 AID数据集的检索返回示例图

图7 UCM数据集的检索返回示例图

表2 mAP定量对比结果

图8 ANMRR定量对比结果

图9 UCM数据集上使用64-bit哈希码的检索结果

图10 AID数据集上使用64-bit哈希码的检索结果

表3 AID数据集上的训练时间和检索时间对比

5 结论与讨论

5.1 结论

5.2 讨论

参考文献

**图8 ANMRR定量对比结果**