DINO-MSRA: A novel Network Architecture for Cross-View Image Retrieval and Localization of UAV and Satellite Images

PING Yifan; LU Jun; GUO Haitao; HOU Qingfeng; ZHU Kun; SANG Zehao; LIU Tong

doi:10.12082/dqxxkx.2025.250051

Journal of Geo-information Science >

2025 , Vol. 27 >Issue 7: 1608 - 1623

DOI: https://doi.org/10.12082/dqxxkx.2025.250051

DINO-MSRA: A novel Network Architecture for Cross-View Image Retrieval and Localization of UAV and Satellite Images

PING Yifan ^,¹^,² ,
LU Jun ^,¹^,²^,³^,^* ,
GUO Haitao ¹^,²^,³ ,
HOU Qingfeng ⁴ ,
ZHU Kun ¹^,² ,
SANG Zehao ¹^,² ,
LIU Tong ¹^,²

Expand

1. Information Engineering University, Zhengzhou 450001, China
2. Key Laboratory of Spatiotemporal Perception and Intelligentprocessing, Ministry of Natural Resources, Zhengzhou 450001, China
3. Key Laboratory of Intelligent Spatial Information, Beijing 100020, China
4. The National University of Defense Technology, Changsha 410000, China

^*LU Jun, E-mail: ljhb45@126.com

Received date: 2025-01-27

Revised date: 2025-04-25

Online published: 2025-07-07

Supported by

National Natural Science Foundation of China(42301464)

National Natural Science Foundation of China(42201443)

Fold

Abstract

[Objectives] Cross-view image geolocation refers to a technology that determines the geographical location of an image by matching it with reference images taken from different perspectives and possessing precise location information. This technology plays a crucial role in real-world applications such as Unmanned Aerial Vehicle (UAV) navigation, environmental monitoring, and target positioning. Currently, most deep learning-based cross-view image retrieval and geolocation methods for drone-satellite tasks rely heavily on supervised learning. However, the scarcity of high-quality labeled data presents a significant limitation, hindering the generalization capability of these models. Moreover, existing methods often fail to effectively model the spatial layout of images, making it difficult to bridge the substantial domain gap between cross-view images, thereby limiting the accuracy and robustness of geolocation tasks. [Methods] To address these challenges, this paper proposes a novel cross-view image retrieval and localization architecture called DINO-MSRA. The architecture first employs the DINOv2 large model framework, fine-tuned by Conv-LoRA, as the feature encoder. This enhances the model's feature extraction capabilities with fewer parameters, improving both efficiency and accuracy. Second, we design a spatial relation-aware feature aggregator based on the Mamba module (MSRA) to more effectively aggregate image features. By embedding spatial configuration features into the global descriptor, this module significantly improves the model's performance in cross-view matching tasks, especially in complex scenarios where spatial relationships between objects are crucial. Finally, the InfoNCE loss function is adopted to train the model, optimizing contrastive learning and ensuring more accurate retrieval and localization results. [Results] Extensive comparative and ablation experiments were conducted on the University-1652 and SUES-200 datasets. The experimental results show that for drone-view target localization (drone→satellite) and drone navigation (satellite→drone) tasks, the proposed method achieves R@1 accuracies of 95.14% and 97.29%, respectively, on the University-1652 dataset, representing improvements of 0.68% and 1.14% over the current best algorithm, CAMP. On the SUES-200 dataset at an altitude of 150 meters, R@1 accuracies reach 97.2% and 98.75%, which are 1.8% and 2.5% higher than CAMP, respectively. Moreover, the proposed method requires significantly fewer parameters than existing algorithms, only 19.2% of those used by Sample4Geo. [Conclusions] In summary, the proposed DINO-MSRA architecture outperforms current state-of-the-art methods in cross-view image matching, achieving higher accuracy and faster inference speed. These results demonstrate its robustness and practical application potential in challenging real-world scenarios.

Key words： cross-view image localization; Visual Foundation Models (VFMs); fine-tuning; feature aggregation; drone images; satellite images

Cite this article

PING Yifan , LU Jun , GUO Haitao , HOU Qingfeng , ZHU Kun , SANG Zehao , LIU Tong . DINO-MSRA: A novel Network Architecture for Cross-View Image Retrieval and Localization of UAV and Satellite Images[J]. Journal of Geo-information Science, 2025 , 27(7) : 1608 -1623 . DOI: 10.12082/dqxxkx.2025.250051

1 引言

基于计算机视觉的跨视角图像地理定位技术，作为全球导航卫星系统（GNSS）之外的第二个精确位置信息来源，可以在GNSS信号受阻甚至缺失的环境中独立工作，为遥感信息利用、无人驾驶和增强现实等领域提供重要的技术支持^[1]。

但由无人机和卫星影像间剧烈的视角变化所导致的巨大视觉外观差异，使得该任务面临着重大挑战。因此，如何提取具有高辨别性的特征表示，并建立两者之间可靠的特征关联，以消弭这种图像差异，是跨视角图像地理定位任务的关键目标^[2]。近年来，随着航天遥感技术和深度学习方法的不断发展，相关学者^[2-3]已经能够利用深度神经网络从高质量的遥感图像中提取具有视点不变性的稳健特征。早期工作主要基于全局特征进行匹配，例如LCM^[4]方法通过构建全局特征嵌入空间实现位置分类，但这种仅依赖全局信息进行匹配的方法难以应对视角的剧烈变化。为此，研究者转而关注对局部区域信息的挖掘。Wang等^[5]提出方环形特征划分策略，通过聚合上下文语义提升局部区域表征能力； Lin等^[2]设计USAM模块以突出显著关键点，抑制非相关区域干扰； Wu等^[6]提出的方法创新性地融合对比属性挖掘与位置感知分区策略，有效突破全局特征表征瓶颈。此外， Sample4Geo^[7]通过引入InfoNCE^[8]对比损失函数，有效提升了跨视角特征匹配的鲁棒性； Ge等^[9]提出的联合表征学习框架则引入特征中心扩散与边缘辐射机制，进一步增强了跨视角影像对的关联性。尽管上述方法在精度与泛化性上取得显著提升。但这种优势是建立在模型对大规模标注的无人机-卫星影像对训练的基础上的。当前，尽管卫星影像的获取已经变得越来越方便快捷，且覆盖全球范围，但无人机影像的获取则相对困难的多，受限于飞行许可的获取难度、操作技术的复杂性以及灵活视角所带来的标注挑战，高质量标记数据仍相对缺乏，因此该技术的发展与应用难免受到了一定的限制。但随着视觉基础模型（Vision Foundation Models， VFMs）在计算机视觉领域的兴起，为解决这一问题提供了新的可能。VFMs（如SAM^[10]、FastSAM^[11]、Dino^[12]、Dinov2^[13]）利用在大规模数据集中获得的知识，能够在较少或没有标注数据的情况下提高模型性能。它们自身对不同成像条件和视觉对象的强泛化能力促进了在现实场景中的应用。然而，用于预训练的自然图像很难包含大量真实场景影像和利用不同成像方法获取的影像（如遥感影像、医学影像）。因此，VFMs在自然图像中学习到的归纳偏差在应用于遥感等专业领域时表现出局限性。例如，直接将在自然图像上进行预训练的大模型应用于遥感领域，会面临以下3个问题：① 自然图像多为水平视角，而遥感影像以顶视或倾斜视角为主，导致模型难以捕捉建筑物屋顶、道路等关键地物特征； ② 自然图像通常以局部物体为中心，而遥感影像需同时建模全局特征和局部细节特征； ③ 自然图像的数据分布（如光照、遮挡模式）与遥感影像存在显著差异，导致模型在跨域泛化时出现性能衰退。故此类模型需要通过微调来适应新任务或新数据集。在图像检索领域，Izquierdo等^[14]以及Huang等^[15]虽首次尝试将DINOv2作为骨干网络提取跨视角特征。但其采用的参数微调策略需要更新模型全部或大部分参数，这不仅计算成本高昂，而且容易引发过拟合问题，尤其是在数据集较小的情况下^[16]。在此背景下，尝试一种新的微调策略显得尤为重要。

另外，无人机影像通常采用倾斜角度拍摄景物的立体信息，相比于完全垂直地平面的卫星影像来说，二者之间的关键视觉特征是不完全匹配的，因此通常采用全局特征描述符作为最终的特征表达。而特征聚合器起到了关键作用，如NetVLAD^[17]是在VLAD^[18]的基础上加入了一个可训练的网络模块，用于学习聚类中心和聚合权重。Gu等^[19]提出了广义均值池（GeM）来聚合特征，该聚合技术是对经典的平均池化（Average Pooling）的扩展，其简洁高效的特性使其备受青睐。最近， MixVPR^[20]通过将深度特征与多层感知机MLP层相结合，呈现出了目前该领域的最好结果。然而上述聚合方法均未考虑将空间配置特征嵌入到特征描述符中，空间配置特征是影像视角改变时最稳定的特征，尤其是在处理倾斜拍摄的无人机影像时，由于存在大量的几何畸变和辐射畸变，这类影像往往会丧失大部分的视觉特征和细节信息。在这种情况下，空间配置特征对于跨视角匹配定位显得尤为重要，它们能够在影像扭曲和细节损失的背景下，提供相对可靠和稳定的信息，是实现高精度匹配定位的关键要素。

为了解决上述问题，本文提出的DINO-MSRA方法核心探索聚焦于两大关键组件：① 特征提取主干网络； ② 特征聚合器。在特征提取方面，我们开创性地结合视觉基础模型DINOv2^[13]与高效微调策略Conv-LoRA^[21]，提出了一种新颖的特征提取网络架构。在特征聚合部分，则设计了基于Mamba^[22]模块的空间关系感知特征聚合器（MSRA）。总体来说，本算法能够有效地应对无人机影像与卫星影像之间存在的巨大域差异问题，从而提高跨视角图像检索定位的准确性。

2 研究方法

2.1 总体框架

DINO-MSRA网络架构如图1所示。首先，本文采用经过冻结处理并去除了norms和head层的Dinov2作为特征编码器，以提取相比于传统模型^[2-3]更具鲁棒性和通用性的视觉特征。同时为了更好地适应跨视角图像检索定位任务，引入Conv-LoRA参数微调策略对Dinov2大模型进行微调。其次，设计了基于Mamba模块的空间关系感知特征聚合器（MSRA），该聚合器能够在提取影像视觉内容特征的同时，深入挖掘局部特征之间的几何空间配置信息，从而弥补无人机-卫星影像对之间的巨大域差异问题。最后，采用InfoNCE^[8]作为损失函数来训练模型，InfoNCE损失函数通过有效利用训练批次内的所有负样本，进一步提升了模型的泛化性和整体性能。

显示原图|下载原图ZIP|生成PPT

图1 DINO-MSRA网络架构

Fig. 1 Network architecture of DINO-MSRA

由于Dinov2中最后一个ViT块输出的特征矩阵的维度是D×C，而本文所设计的特征聚合器MSRA要求输入的特征矩阵维度是h×w×S。为此，本文在两者之间插入了一个转换（transform）模块，用于将特征维度从Dinov2输出的维度转换为MSRA所需的输入维度。在代码实现层面，该模块通过调用view( )函数完成张量形状变换操作，此函数能够在不改变数据内容的前提下，动态调整张量的维度结构，从而适配后续操作对输入数据格式的要求。具体的转换流程如式（1）所示。

（1）

C = S D = h × w

式中：D、C表示输出特征矩阵的特征向量长度和特征通道数； h、w、S分别表示输入特征矩阵的高度、宽度和特征通道数。

2.2 视觉大模型驱动的轻量化影像特征提取

迄今为止，在跨视角图像地理定位任务中，表现最为出色的方法均依赖于深度学习技术^[18-20]，该技术能够提取出具有高辨别力的影像特征，从而有效克服巨大的域差异挑战。然而，深度学习作为一种数据驱动的技术，其模型训练和优化离不开大量样本数据的支持。但在实际应用场景中，无人机影像采集的高昂成本，加之拍摄角度和高度的多样性造成的标注困难，共同导致了高质量样本对的稀缺。这一现状限制了监督学习模型在跨视角图像地理定位任务中的训练效果和性能提升。与此同时，计算机视觉领域正经历着由“分割一切”模型（SAM）引领的新趋势——探索视觉基础模型（VFMs）。SAM通过在数百万个带注释的图像上进行训练，展现出了卓越的零样本泛化能力，这一能力为解决样本稀缺问题提供了新的可能。尽管SAM模型具有强大的泛化能力，但其提供的通用分割能力可能无法满足针对特定领域或场景进行微调和优化的需求，难以直接适应多种下游任务。相比于SAM， Dinov2模型可以提取与任务无关的强大视觉特征，具有更广泛的使用范围。因此，本文采用以Vision Transformer^[23]为主干架构的Dinov2来提取相比于传统模型更具泛化性和通用性的视觉特征。

然而，由于Dinov2是在自然图像上进行训练的，当应用于遥感影像时，往往会存在一定的局限性。为了使模型适应跨视角遥感影像匹配定位任务，对模型进行微调是必要的。Dinov2中包含11个Vision Transformer（ViT）编码块，若对这些模块中的所有或大部分参数进行重新训练，将会消耗巨大的算力，这在硬件设备有限的条件下可能并不具备可行性。针对该问题，本文引入了一种高效的参数微调策略——Conv-LoRA。具体的微调方法如图2中DINO-CL所示，通过将Conv-LoRA应用于Dinov2特征编码器中的11个ViT编码块，从而实现对大模型的微调，并在此过程中保持Dinov2其他模块原有设置不变。

显示原图|下载原图ZIP|生成PPT

图2 Dinov2-CL架构

Fig. 2 Network architecture of Dinov2-CL

2.2.1 Dinov2主干网络

Dinov2网络架构如图3所示。给定一张输入影像F∈R^c^×^h^×^w，c表示特征通道数，h，w分别表示影像高度、宽度。首先使用一个卷积核大小为16×16，步幅为16的卷积层将输入影像分割成多个图像块，每个块的大小为16×16。接着，通过线性映射将每个图像块转换为一维向量（即嵌入块）。然后将其输入到Transformer编码器中，Transformer编码器由多个Vision Transformer（ViT）编码块组成，编码块的数量根据模型的具体规模而定。每个编码块包括4个部分：层归一化、多头自注意力和多层感知机（MLP）。经过Transformer编码器处理后，输出一个大小为c×D（通道数×特征向量维数）的特征矩阵。随后，该特征矩阵经过层归一化处理，转化为一个1×n的特征向量。最后，根据具体的图像任务要求灵活选择头部模块。

显示原图|下载原图ZIP|生成PPT

图3 Dinov2网络架构

Fig. 3 Network architecture of Dinov2

2.2.2 高效微调策略Conv-LoRA

Conv-LoRA结合了卷积神经网络（CNN）和低秩自适应^[24]（LoRA）技术。LoRA是一种在大型语言模型中使用的参数高效微调策略，它通过引入可训练的低秩矩阵来最小化延迟和内存使用。在 LoRA的基础上，Conv-LoRA在其结构中融入了轻量级卷积层。通过局部空间操作引入与图像相关的局部先验知识，有效弥补了ViT纯全局注意力对局部细节建模的不足，通过增强影像中的局部特征可以有效抵抗无人机-卫星影像的视角差异。此外，Conv-Lora微调策略了引入了多个并行的卷积专家模块，每个专家模块首先会重建特定尺度的图像特征，经处理后再降采样回原尺度，从而隐式实现多尺度特征表达。这可以极大地弥补高分辨率无人机与低分辨率卫星影像之间存在的巨大的尺度差异。Conv-Lora微调策略的轻量化参数微调、局部特征增强以及多尺度特征表达十分契合跨视角影像匹配任务对域不变特征学习与计算效率平衡的需求，因此，本文选择Conv-Lora作为微调策略对Dinov2模型进行微调。

Conv-LoRA的架构如图2右框所示，它使用编码器-解码器结构对权重更新施加低秩约束，具体来说，给定一个预训练权重W₀∈R^d^×^k，首先根据该矩阵的大小构造一个低秩分解来表示参数更新ΔW∈R^d^×^k， ΔW由2个低秩矩阵编码器A，解码器B相乘得到，其中， A∈R^d^×^r， B∈R^r^×^k， r << min(d,k)。此外，还应用了混合专家模型^[25]（MoE）对编码器A进行处理，以使模型能够动态选择不同的专家进行处理，从而提升模型的灵活性和性能。训练过程中冻结原始参数W₀，仅训练Conv-LoRA内部参数。通过这种方式，可以极大地减少需要训练的参数量。最后，在训练完成后，将预训练权重W₀和ΔW进行相加作为微调后的模型参数W'，该过程可用数学公式表达为：

（2）

W' = W 0 + Δ W

相应地，前向传播过程则由：

（3）

X' = W 0 x

变为：

（4）

X' = W 0 x + Δ W × x = W 0 x + B × ∑ i n G (A x) i E i (A x)

式中：x表示输入矩阵；

∑ i n G (·) i E i (·)

表示混合专家模型； X'表示经ViT块加权后的输出矩阵。

2.3 基于Mamba的空间关系感知特征聚合器(MSRA)

由于无人机影像在获取过程中受拍摄角度及拍摄高度影响导致获得的影像存在地物遮挡显著、侧面重复纹理信息冗余及几何变形明显等多种问题。若仅依赖视觉特征来构建特征描述符，往往难以确保其具备足够的鲁棒性。此外，尽管无人机影像和卫星影像具有很多视觉相似性特征，但是视角差异带来的图像内容特征变化依然是不可忽略的干扰因素。相较于视觉特征，空间配置关系特征不仅反映了图像中视觉特征之间的位置，而且反映视觉特征之间的全局上下文信息，这些几何信息被认为是视角变换过程中的稳定信息。故除了利用基础特征提取网络提取视觉内容特征外，对于这些特征间的空间配置关系的挖掘与应用也变得非常重要。为了实现这一目标，在本模型中设计了一个新型的空间关系感知特征聚合器，以通过对于空间配置关系的挖掘来弥合跨域影像之间存在的视角差异，同时将目标特征嵌入到辨别性的全局图像描述符中进行图像匹配。

为了实现这一目标，空间关系感知特征聚合器是建立在Mamba^[22]模块上的。相比于传统的Transformer架构在长序列数据建模上的优势， Mamba模块与之相比不仅很好地继承了这种能力，而且在大规模数据的训练和推理能力上得到了很大的提高，这显然符合设计本模型的初衷，将该特征聚合器与前面的大模型技术相结合，能够达到提升训练效率和模型运行轻量化的目的。

其原理结构图如图4所示。首先，对输入特征影像F_l ∈ R^c^×^h^×^w沿通道轴应用最大池化操作，具体来说，使用max(·)函数聚合特征图，得到聚合后的特征矩阵M ∈ R^c^×(^h^×^w⁾及其对应的位置索引矩阵M_idx∈R^c^×(^h^×^w⁾。这一步骤通过聚合不同通道的信息，简化了特征表示，同时保留了关键位置信息。

显示原图|下载原图ZIP|生成PPT

图4 基于Mamba的空间关系感知特征聚合器

Fig. 4 Spatial relationship-aware feature aggregator based on Mamba

（5）

M, M i d x = F l · m a x (l)

接着，利用第一个嵌入层将聚合后的特征图M映射至K个投影向量E=[e₁, e₂, …, e_k]中。每个投影向量e_i的维度为h×w。为了进一步增强特征表示的空间配置关系，本文在标准可学习位置嵌入（PE）E_pe的基础上，引入了一种额外的索引感知位置嵌入。经过索引感知位置嵌入后的向量

E^= [e^1, e^2, …, e^k]

可以用数学公式表示为：

（6）

E^= E + H a r d T a n h (E p e + W L N M i d s)

式中：HardTanh表示激活函数； W_LN表示一种可学习的线性变换，W_LN∈ R⁽^h^×^w^)×(^K^×(^h^×^w^)/2)，通过线性变换可以将M^idx∈ R^c^×(^h^×^w⁾映射为K个维度为(h×w)/2的空间向量，以使其与可学习位置嵌入（PE）E_pe的特征维度精确对齐，从而进行后续的特征矩阵相加。

然后，将

E^

输入进Mamba编码器，利用其轻量化的特征高效地捕捉特征间的相关性，从而进一步提取高级特征表示。

最后，利用第2个嵌入层将Mamba编码器的输出投影为一组K个几何布局描述符E₂=[e₁, e₂, …, e_k]。将这些几何布局描述符与E进行元素级相乘操作，并进行拉平和归一化处理，最终得到既包含空间结构又保留关键特征信息的全局描述符f。

（7）

f = B N (f l a t t e n (E 2 × E))

式中：BN表示批量归一化^[26]； flatten表示拉平处理。

2.4 InfoNCE损失函数

基于度量学习的跨视角图像地理定位任务通常采用三元组损失及其多种变种（如软边际三元组损失^[27]等）作为训练的目标函数。这类损失函数通过构建由1个锚点、1个正样本和1个负样本组成的三元组来训练模型，以达到拉近锚点与正样本之间的距离，同时拉远锚点与负样本之间距离的目的。尽管这种方法已被证明有效，但仍存在一些局限性。特别是，负样本的选择具有随机性，这可能导致训练过程的不稳定性。此外，由于每个训练批次中通常仅包含一个或少量负样本，模型的泛化能力也可能受到一定影响。

针对这些问题，本文遵循跨视角图像匹配领域的最新进展^[7]，选择InfoNCE损失函数^[8]对模型进行训练。该损失函数充分利用了批次内的所有负样本对，不仅减弱了负样本选择随机性对训练过程的潜在影响，还提高了模型对不同负样本之间差异的敏感性，进而提升了模型的可扩展性和泛化性能。其数学表达式如下：

（8）

L (q, R) I n f o N C E = - l o g e x p (q · r + / τ) ∑ i = 0 B - 1 e x p (q · r i / τ)

式中：B表示批次量大小； q表示查询影像的特征编码； R表示一个批次内所有参考影像的特征编码集合，该集合中存在一个与q匹配的正样本r₊以及B-1个与q不匹配的负样本r_i； (·)表示使用点积计算查询影像和参考影像之间的相似度，温度系数τ是一个超参数，可以设置为可学习，也可设置为静态值。

3 实验与分析

3.1 数据来源

本文在University-1652^[28]、 SUES-200^[29] 2个数据集上进行了相关实验，图5显示了这2个数据集的一些示例，表1显示了数据集的大小和划分。

显示原图|下载原图ZIP|生成PPT

图5 2个数据集示例

Fig. 5 Examples of two datasets

表1 实验数据集详细信息

Tab. 1 The detailed information of datasets used in the experiment (张)

数据集		University-1652		SUES-200
数据集		图像数量/张	建筑物数量/张	图像数量/张	建筑物数量/张
训练集	卫星	701	701	120	120
训练集	无人机	37 854	701	6 000	120
测试集	查询无人机	37 855	701	4 000	80
	查询卫星	701	701	200	200
	卫星影像库	951	951	80	80
	无人机影像库	51 355	951	10 000	200

注：训练集中的建筑物和测试集中的建筑物没有重叠。

University-1652数据集由Zheng等^[28]搜集整理，集成了无人机、卫星和地面3个平台的数据，是首个包含无人机视角图像的地理定位数据集。该数据集可广泛应用于无人机视角目标定位、无人机导航等任务，也可作为地面-卫星跨视角影像匹配过程中的中间媒介。在数据搜集过程中，研究团队共选取了72所大学，对其中1 652个建筑场景进行了采样。针对每个建筑场景，首先利用谷歌地图中的地理位置进行投影，以获取卫星视图图像。然后，使用Google Earth提供的3D模型模拟真实的无人机相机，并采用螺旋式飞行路径逐渐接近建筑物进行拍摄，从而捕获到多尺度、多视角的无人机视图图像。

SUES-200数据集是由上海工程技术大学创建的多高度、多场景跨视角图像基准数据集，该数据集包含了由无人机在4个不同高度（150、 200、 250、300 m）拍摄的图像，以及对应相同目标场景的卫星视图图像。这些图像均采集自上海工程技术大学及其周边区域，涵盖了公园、学校、湖泊和公共建筑等多种场景。SUES-200凭借其多高度和多场景的特点，为跨视图图像匹配任务带来了更高的实用价值和挑战性。

3.2 评价指标

与现有方法^[1,2,30-31]类似，选择使用前K位召回准确率（R@K）作为模型评估指标。具体而言，就是给定一张查询影像，如果其真实匹配的影像位于检索出的前K张影像中，则视为成功匹配。最终，所有成功匹配的查询影像所占的百分比即为R@K。

此外，还采用平均精度（AP）作为评估指标， AP表示的是精度-召回率（PR）曲线下的面积，其中召回率为横坐标，准确率为纵坐标。

3.3 实验设计

本算法基于PyTorch架构，在NVIDIA GeForce RTX 3090显卡上完成训练与测试，训练轮次为20轮，训练优化器为Adam优化器。运用阶段式学习率调整策略，即将模型的整体训练过程分为2个阶段：训练的前10轮，学习率设置为e^-2；后面的训练轮次学习率设置为e^-3。针对损失函数，选取了 InfoNCE损失函数来训练模型。另外为了便于处理，输入网络的无人机和卫星影像尺寸统一调整为224像素×224像素。

3.4 对比实验

为了证明本文所提出算法的先进性，分别在University-1652，SUES-200 2个数据集上与其他同类型算法进行了对比实验。其中， University-1652^[28]基线模型、 SUES-200^[29]基线模型， LPN^[32]算法是较为基础的跨视角地理定位算法， DWDR^[33]是基于CNN架构的算法， FSRA^[34]是基于Transformer架构的算法， Sample4Geo^[7]是基于ConvNeXt架构的算法。 FastSAM^[11]是目前使用最为广泛的视觉基础模型。通过与不同架构的算法进行对比是为了突出本文所提出网络在计算速度和精度上的优越性。

3.4.1 在University-1652数据集上的实验结果

在University-1652数据集上的实验结果如表2所示。由于大多数算法在R@5， R@10和R@1%指标上的精度上已趋于饱和，因此，本文选择更具区分性的R@1和AP作为评价指标来评估本文模型。从结果可以看出，本文算法在这2个指标上全面领先，取得了目前的最优精度。面向无人机定位（无人机→卫星）时，精度在R@1和AP 2个指标上相较于目前最优算法Sample4geo分别提升了2.49%和2.11%。面向无人机导航任务（卫星→无人机）时，精度在R@1和AP 2个指标上相较于Sample4Geo分别提升了2.15%和2.42%。

表2 各算法在University-1652数据集上的精度对比

Tab. 2 Accuracy comparison of various algorithms on the University-1652 dataset

算法	输入尺寸 /像素×像素	权重共享	可学习参数量/M	无人机→卫星		卫星→无人机
算法	输入尺寸 /像素×像素	权重共享	可学习参数量/M	R@1	AP	R@1	AP
University-1652^[28]	256×256	-	-	58.49	63.13	71.18	58.74
RK-Net^[2]	256×256	-	-	66.13	70.23	80.17	65.76
LCM^[4]	256×256	-	-	66.65	70.82	79.89	65.38
LPN^[32]	256×256	×	138.7×2	75.93	79.14	86.45	74.79
SAIG-D^[35]	256×256	×	15.6×2	78.85	81.62	86.45	78.48
DWDR^[33]	256×256	-	-	86.41	88.41	91.30	86.02
MBF^[36]	256×256	-	-	89.05	90.61	92.15	84.45
SeGCN^[37]	256×256	-	-	89.18	90.89	94.29	89.65
Sample4geo^[7]	256×256	√	88.6	92.65	93.81	95.14	91.39
CAMP^[6]	256×256	-	-	94.46	95.38	96.15	92.72
FDER^[9]	256×256	-	-	92.79	93.91	95.58	92.17
FastSAM^[11]	224×224	-	-	59.14	63.50	68.94	60.32
本文算法	224×224	√	17.01	95.14	95.92	97.29	93.81

注：加粗数值为每列最优值，“-”表示未知。

在模型训练过程中，全部参数量表示可学习的参数和一些不可学习的参数。其中，不可学习的参数在训练过程中不参与更新，因此，它们对训练速度的影响较小。可学习参数量指的是在训练过程中通过优化算法进行更新的参数，这些参数直接参与模型的前向传播和后向传播的计算，直接决定了模型训练的速度和时间。因此，在本节额外设置了可学习参数量作为评价指标来评估模型的轻量化程度。其中， LPN^[32]、 SAIG-D^[35]模型在训练过程中不共享权重， Sample4Geo^[7]和本文算法在训练过程中共享权重。实验结果表明，本文模型在模型训练过程中参与训练的可学习参数量远远低于其他算法，相比于LPN、 SAIG-D、 Sample4Geo模型分别减少了260.39、 14.19、 71.59 M的参数量。

上述实验结果有力地证明了本文所提出的算法不仅展现了卓越的性能，还具备显著的轻量化优势，实现了本文设计算法的目的。经过分析，模型取得优势的主要原因在于，相比于传统的有监督模型，本文采用了在大规模数据集上训练的自监督模型Dinov2，该模型能够在不需要可学习参数的情况下，学习到卫星影像和无人机影像间的通用视觉特征，从而实现有效的跨视角迁移，减少视角差异带来的负面影响。此外， Conv-LoRA微调策略通过将权重更新压缩成低秩矩阵的方法，仅使用少量内存和计算资源，便可高效地调整跨视角匹配定位任务，进一步提升了模型性能。

同样是使用视觉基础模型提取影像通用特征，FastSAM在University-1652上取得精度远低于本文所采用的Dinov2。经分析，造成这一结果的原因在于：SAM系列是专为语义分割设计的网络，在识别影像中的的显著物体以及规则物体时展现出强大的能力，但当遇到小型、不规则以及背景噪声严重的目标时，往往面临挑战。而由航空成像传感器获取的无人机和卫星影像往往覆盖密集且伴随着辐射畸变和几何畸变，导致难以从遥感影像中提取用于匹配的关键目标特征。此外， SAM系列更倾向于关注前景对象，忽略了对于跨视角影像匹配任务至关重要的全局信息的关注。

3.4.2 在SUES-200数据集上的实验结果

在SUES-200数据集上的实验结果如表3、表4所示。同样采用更具区分性的R@1和AP作为评价指标来评估本文模型。结果表明，在无人机定位任务（无人机→卫星）中，本文算法在4个高度分别实现了97.2%、98.75%、99.38%、99.63%的R@1精度；在无人机导航任务（卫星→无人机）中，本文算法在4个高度分别实现了98.75%、99.08%、99.38%、99.42%的R@1精度，其性能优于目前最好算法Sample4Geo。此外，结果还表明，随着无人机高度的增加，模型的R@1和AP也相应得到提升（在无人机定位任务中，当无人机拍摄高度从150 m上升到300 m时， R@1精度从97.2%提升到99.63%；在无人机导航任务中，随着无人机拍摄高度从150 m上升到300 m， R@1精度从98.75%提升到99.42%）。

表3 各算法在SUES-200数据集上的精度结果对比(无人机→卫星)

Tab. 3 Accuracy comparison of various algorithms on the SUES-200 dataset (Drone → Satellite)

算法	输入尺寸 /像素×像素	150 m		200 m		250 m		300 m
算法	输入尺寸 /像素×像素	R@1	AP	R@1	AP	R@1	AP	R@1	AP
LCM^[4]	256×256	43.32	49.65	49.42	55.91	54.47	60.31	60.43	65.78
LPN^[32]	256×256	61.58	67.23	75.85	75.96	80.38	83.8	81.47	84.53
FSRA^[34]	256×256	59.18	65.28	74.88	79.2	82.67	85.76	88.88	90.82
SUES-200^[29]	256×256	71.67	75.55	75.57	78.97	79.97	82.50	81.42	84.11
MBF^[36]	256×256	85.62	88.32	87.43	90.02	90.65	92.53	92.12	93.63
FDER^[9]	256×256	85.30	87.58	93.23	94.66	96.47	97.28	97.50	98.09
Sample4Geo^[7]	256×256	88.77	90.89	92.8	94.29	96.22	97.03	97.44	98.02
SeGCN^[37]	256×256	90.80	92.32	91.93	93.41	92.53	93.90	93.33	94.61
CAMP^[6]	256×256	95.40	96.38	97.63	98.16	98.05	98.45	99.33	99.46
本文算法	224×224	97.2	97.82	98.75	99.03	99.38	99.47	99.63	99.71

注：加粗数值为每列最优值。无人机→卫星表示面向无人机定位任务，其中，无人机影像为查询影像、卫星影像为参考影像。

表4 各算法在SUES-200数据集上的精度结果对比(卫星→无人机)

Tab. 4 Accuracy comparison of various algorithms on the SUES-200 dataset (Satellite → Drone)

算法	输入尺寸 /像素×像素	150 m		200 m		250 m		300 m
算法	输入尺寸 /像素×像素	R@1	AP	R@1	AP	R@1	AP	R@1	AP
LCM^[4]	256×256	57.5	38.11	68.75	49.19	72.5	47.94	75.0	59.36
LPN^[32]	256×256	83.75	66.78	88.75	75.01	92.5	81.34	92.5	85.72
FSRA^[34]	256×256	73.75	63.7	86.25	78.02	91.25	84.83	93.25	89.88
SUES-200^[21]	256×256	85.0	71.36	86.25	75.96	88.75	79.54	92.50	84.89
MBF^[29]	256×256	88.75	84.74	91.25	89.95	93.75	90.65	96.25	91.6
FDER^[9]	256×256	93.75	86.93	97.75	93.12	98.75	96.81	98.75	97.20
SeGCN^[37]	256×256	93.75	92.45	95.00	93.65	96.25	94.39	97.50	94.55
Sample4Geo^[7]	256×256	96.5	90.31	97.58	93.74	97.92	96.49	97.83	96.73
CAMP^[6]	256×256	96.25	93.69	97.50	96.76	98.75	98.10	100	98.85
本文算法	224×224	98.75	95.69	99.08	97.51	99.38	98.44	99.42	98.76

注：加粗数值为每列最优值。卫星→无人机表示面向无人机导航任务，其中，卫星影像为查询影像、无人机影像为参考影像。

造成这一现象的原因在于，在低高度的150 m和200 m的范围内，无人机拍摄的图像更容易受到周围环境和相机姿态的影响（例如树木遮挡建筑物、倾斜视角引发的透视畸变），导致无人机图像与卫星图像差异很大，因此，匹配精度相对较低。然后，随着飞行高度提升至300 m以上，无人机受周围环境和相机视野的影响减小，相机获取的图像更类似于卫星图像，特别是与卫星影像的空间分布一致性显著增强。这使得无人机影像与卫星影像之间的域差异减小，从而提升了模型的R@1和AP指标。完整的算法性能对比图如图6所示。

显示原图|下载原图ZIP|生成PPT

图6 各算法在SUES-200数据集上的对比实验

Fig. 6 Comparative experiments of various algorithms on the SUES-200 dataset

3.5 消融实验

3.5.1 超参数消融实验

在使用Conv-LoRA进行微调过程中， rank（秩）参数是一个关键的超参数，它决定了微调过程中引入的低秩矩阵的维度。一般来说， rank越大意味着引入的可训练参数越多，这能够增强模型对新数据的适应能力，但相应地也会增加计算和内存资源的消耗。相反， rank越小意味着引入的可训练参数越少，虽然降低了计算和内存的需求，但可能因参数不足而无法充分适应新数据，从而影响模型性能。为了寻找Conv-LoRA微调策略以及内部参数秩（rank）设置在跨视角匹配与定位任务中的性能和效率最优解。本文采用ViTb14作为骨干网络，在University-1652、SUES-200数据集上设置了多个对照组进行测试。具体实验配置如表5—表7所示。

表5 不同超参数配置在University-1652数据集上的消融实验

Tab. 5 Ablation study of different hyperparameter configurations on University-1652

算法	冻结层数	Conv- LoRA	可学习参数量/M	无人机 → 卫星		卫星 → 无人机
算法	冻结层数	Conv- LoRA	可学习参数量/M	R@1	AP	R@1	AP
Dino-MSRA	×	×	94.40	94.58	95.43	96.15	93.02
Dino-MSRA	[0-07]	×	44.77	94.64	95.51	97.15	93.41
Dino-MSRA	[0-11]	×	16.42	61.71	66.56	89.73	70.69
Dino-MSRA	[0-11]	r = 2	16.49	93.58	94.89	97.29	93.46
Dino-MSRA	[0-11]	r = 4	16.56	94.37	95.32	97.40	93.45
Dino-MSRA	[0-11]	r = 8	16.71	94.70	95.60	97.43	93.90
Dino-MSRA	[0-11]	r = 16	17.01	95.14	95.92	97.29	93.81
Dino-MSRA	[0-11]	r = 32	17.60	94.74	95.66	96.58	93.56

注：加粗数值为每列最优值；参数Conv-LoRA表示是否使用Conv-LoRA微调策略； ×表示未使用； r表示设置的秩（rank）的大小；可学习参数量表示模型训练过程中实际参与学习的参数量。

表6 不同超参数配置在SUES-200数据集上的消融实验(无人机→卫星)

Tab. 6 Ablation study of different hyperparameter configurations on SUES-200 (Drone →Satellite)

算法	冻结层数	Conv- LoRA	150 m		200 m		250 m		300 m
算法	冻结层数	Conv- LoRA	R@1	AP	R@1	AP	R@1	AP	R@1	AP
Dino-MSRA	×	×	96.63	97.28	97.65	98.03	98.50	98.66	99.00	99.11
Dino-MSRA	[0-07]	×	97.15	97.98	98.75	98.85	99.00	99.19	99.17	99.27
Dino-MSRA	[0-11]	×	69.48	73.57	73.16	79.52	78.58	84.37	85.15	87.46
Dino-MSRA	[0-11]	r = 2	95.83	96.67	97.56	98.15	97.58	98.26	98.60	98.83
Dino-MSRA	[0-11]	r = 4	95.58	96.45	97.85	98.24	97.69	98.30	98.90	99.05
Dino-MSRA	[0-11]	r = 8	96.40	97.12	97.80	98.17	97.73	98.13	98.70	98.90
Dino-MSRA	[0-11]	r = 16	97.20	97.82	98.70	99.03	99.38	99.47	99.63	99.71
Dino-MSRA	[0-11]	r = 32	96.10	96.87	97.93	98.93	98.57	99.02	98.93	99.09

注：加粗数值为每列最优值；参数Conv-LoRA表示是否使用Conv-LoRA微调策略； ×表示未使用； r表示设置的秩的大小；学习参数量表示模型训练过程中实际参与训练的参数量。

表7 不同超参数配置在SUES-200数据集上的消融实验(卫星→无人机)

Tab. 7 Ablation study of different hyperparameter configurations on SUES-200 (Satellite →Drone)

算法	冻结层数	Conv- LoRA	150 m		200 m		250 m		300 m
算法	冻结层数	Conv- LoRA	R@1	AP	R@1	AP	R@1	AP	R@1	AP
Dino-MSRA	×	×	97.13	95.39	97.58	96.77	98.15	97.93	98.79	98.56
Dino-MSRA	[0-07]	×	98.03	95.97	98.18	97.12	98.42	98.05	98.75	98.34
Dino-MSRA	[0-11]	×	90.00	65.25	93.17	80.55	96.25	92.63	97.50	84.66
Dino-MSRA	[0-11]	r = 2	97.90	92.48	98.14	95.36	97.72	96.90	98.75	98.01
Dino-MSRA	[0-11]	r = 4	98.00	92.29	98.24	96.72	98.56	97.55	99.16	97.56
Dino-MSRA	[0-11]	r = 8	98.75	94.63	99.12	97.24	99.27	97.94	99.40	98.72
Dino-MSRA	[0-11]	r = 16	98.75	95.69	99.08	97.51	99.38	98.44	99.42	98.76
Dino-MSRA	[0-11]	r = 32	98.17	93.39	98.75	97.28	99.02	98.32	99.14	98.04

实验结果表明，在冻结Dinov2中的原始参数且未采用任何微调策略的情况下{冻结层数=[0-11]，LoRA=×}， Dino-MSRA在2个数据集上所消耗参数量虽然是最少的，但其测试精度也是最低的。然而，在应用Conv-LoRA策略进行微调之后{冻结层数=[0-11]，Conv-LoRA=r}，模型的测试精度显著提升。值得注意的是，相较于更新模型全部参数{冻结层数=×， Conv-LoRA=×}或更新部分参数{冻结层数=[0-7]， Conv-LoRA=×}的传统方法（SALAD^[32]中已经证明，冻结Dinov2模型中[0-7]层参数可以取得最好的微调效果^[14-15]，因此本实验也选择此配置作为对照组之一）， Conv-LoRA策略在达到更高准确率的同时，所需的参数数量更少。这一结果凸显了Conv-LoRA策略在提升模型精度和效率方面所起的关键作用。随着r值的逐步增加（从r = 2增加到r =8， 16），模型精度不断提高，最终达到峰值。然而，当r继续增大时，模型在数据集上的测试精度呈现缓慢下降的波动。基于以上分析，本文选择r =16作为Conv-LoRA策略的最优参数配置。

3.5.2 MSRA聚合策略有效性消融实验

本文设计了相关实验来验证本文提出的MSRA聚合模块的有效性。实验中，选择ViTb14作为骨干网络，以查询影像和全景影像作为网络输入，固定在4.2.1节实验中已经确定的最优参数，分别将GEM^[19]、NetVLAD^[17]、MixVPR^[20]、Deodtr 4个经典的聚合模块与本文提出的MSRA聚合模块分别注入到骨干网络的最后一层，用于聚合全局特征向量，并在University-1652数据集上进行训练测试，结果对比如表8—表10所示。

表8 MSRA聚合策略在Univeristy-1652数据集上的有效性验证

Tab. 8 Validation of the effectiveness of the MSRA on Univeristy-1652 dataset

算法	无人机→卫星		卫星→无人机
算法	R@1	AP	R@1	AP
Dinov2 GeM	90.97	92.36	94.58	89.52
Dinov2 NetVLAD	92.46	93.69	95.72	92.44
Dinov2 MixVPR	94.00	95.01	96.58	92.04
Dinov2 Geodtr	95.02	95.86	97.26	93.43
Dinov2 MSRA	95.14	95.92	97.29	93.81

注：加粗数值为每列最优值。

表9 MSRA聚合策略在SUES-200数据集上的有效性验证(无人机→卫星)

Tab. 9 Validation of the effectiveness of the MSRA on SUES-200 dataset (Drone→Satellite)

算法	150 m		200 m		250 m		300 m
算法	R@1	AP	R@1	AP	R@1	AP	R@1	AP
Dinov2 GeM	88.43	90.64	92.70	93.15	96.05	96.58	97.28	97.74
Dinov2 NetVLAD	92.00	93.44	95.86	96.01	97.24	97.64	99.68	99.75
Dinov2 MixVPR	95.05	95.98	96.15	96.98	97.09	97.78	98.80	98.99
Dinov2 Geodtr	96.82	97.26	98.64	98.93	99.28	99.42	99.62	99.35
Dinov2 MSRA	97.20	97.82	98.70	99.03	99.38	99.47	99.63	99.71

注：加粗数值为每列最优值。

表10 MSRA聚合策略在SUES-200数据集上的有效性验证(卫星→无人机)

Tab. 10 Validation of the effectiveness of the MSRA on SUES-200 dataset (Satellite→Drone)

算法	150 m		200 m		250 m		300 m
算法	R@1	AP	R@1	AP	R@1	AP	R@1	AP
Dinov2 GeM	90.08	96.87	96.37	95.87	97.17	96.24	97.78	97.74
Dinov2 NetVLAD	94.13	94.7	95.93	95.23	96.05	95.98	98.75	97.46
Dinov2 MixVPR	98.02	93.62	98.68	95.36	98.67	97.93	98.68	98.59
Dinov2 Geodtr	98.72	95.66	98.95	97.37	99.29	98.46	99.41	98.67
Dinov2 MSRA	98.75	95.69	99.08	97.51	99.38	98.44	99.42	98.76

注：加粗数值为每列最优值。

实验结果表明，与经典的聚合算法GEM、 NetVLAD、 MixVPR相比，本文所提出的聚合策略MSRA在与Dinov2相结合的情况下，展现出了最优异的性能表现。这说明在跨视角图像匹配定位任务中，通过在聚合全局特征向量的过程中嵌入特征间的空间配置关系可以有效改善模型的精度。主要原因在于，无人机影像由于拍摄角度倾斜，往往不可避免地会产生几何畸变、辐射畸变以及侧面纹理信息增多等问题。如果单纯依赖视觉特征进行跨视角匹配，这些与匹配无关的信息会在很大程度上对匹配结果造成干扰。而几何布局信息是视角转换是最为稳定的信息，可以为跨视角匹配提供有效增益。

此外，本文提出的聚合策略在核心设计思想上与Geodtr^[30]存在继承性，但在实现架构上进行了优化。具体而言， Geodtr的空间关系感知特征聚合器是建立在Transformer架构上的，而本文为了提升模型的训练和推理能力，选择建立在Mamba架构上。实验结果表明，本文提出的聚合策略MSRA在精度也优先于Geodtr，验证了Mamba架构在空间关系建模中的优越性。

3.6 试验检索结果可视化

为了直观展示本文算法的检索与定位效能，本节从University-1652与SUES-200 2个数据集中分别选择了具有代表性的图像检索案例进行可视化。其中检索案例不仅包含建筑物稀疏、布局简单的场景简单影像，还包含建筑物密集，植被覆盖严重的复杂场景影像。检索结果如图7所示，虚线左侧为查询影像，虚线右侧为检索到的Top1至Top5影像序列，黄色边框标注的是正确检索到的影像，蓝色边框标注的是错误检索到的影像。图7中结果显示，在面向2种类型任务时（无人机定位任务、无人机导航任务），大部分查询影像都可以在Top1检索到正确影像，所有查询影像都可以在Top5检索到正确影像。这表明本算法可以适应不同场景下检索定位的需求，能够提供准确且稳健的检索与定位能力。此外， SUES-200数据集中4个不同高度下查询影像的检索结果表明，本文算法在无人机飞行高度、视角持续变化的情况下，依然能提供稳健的检索定位能力。

显示原图|下载原图ZIP|生成PPT

图7 检索结果可视化

Fig. 7 Visualization of retrieval results

4 结论与讨论

4.1 结论

本文针对无人机-卫星跨视角影像匹配任务中存在的高质量样本缺乏及空间布局特征挖掘不充分问题，设计了一个DINO-MSRA新型网络架构。该架构主要包括2个关键组件：① 采用Conv-LoRA对Dinov2主干网络进行了微调，以在仅使用较少可学习参数量的情况下增强特征提取能力； ② 设计了基于Mamba的空间关系感知特征聚合器，以实现对影像特征的高效整合和利用。经过广泛的实验验证，可以得到以下结论：

（1）本文提出的算法在2个公开数据集University-1652、SUES-200上的R@1和AP精度上均取得了超越目前最优算法的优异表现。此外，本文算法在保证精度的同时，DINO-MSRA所需的参数量相较于Sample4Geo显著减少。这些结果均证明了本文所提出算法的优越性。

（2）Dinov2-CL超参数消融实验结果表明相比于跨视角图像检索定位领域常用的监督学习模型，本文引入的自监督学习模型可以显著增强算法的实验精度。并且相比于更新视觉基础模型中全部或大部分参数的操作，本文利用Conv-Lora对视觉基础模型进行微调，大幅降低了模型训练所需的参数量，在精度和效率上达到了最优效果。

（3）聚合策略消融实验结果表明本文设计的基于Mamba的空间关系感知特征聚合器可以发挥预想的实验效果，通过有效提取特征间的空间配置关系，从而为跨视角匹配提供有效增益。

总而言之，各种实验结果证明，本文设计的方法在面向不同场景的跨视角影像数据时，通过联合基础视觉模型和高效微调策略Conv-LoRA进行跨视角影像特征提取，仅需少量参数量即可捕捉跨视角影像强大的通用特征表示，实现对不同场景类型的跨视角影像的高精度匹配，展现出较好的泛化能力。同时通过将影像的几何空间配置关系引入到全局特征向量中，可以有效抵抗因拍摄视角差异导致的巨大域差异问题，为跨视角影像检索定位提供额外的增益信息。

4.2 讨论

本文方法虽然在目前的公开数据集University-1652、 SUES-200上取得了较好的结果，但仍存在一些未解决的问题：① 相比于250 m、300 m的无人机飞行高度，本文算法在150 m、200 m无人机飞行高度下的性能略显不足。未来，需要关注的核心问题是如何在低高度下过滤掉无效的冗余信息、减小周围环境和相机视野对无人机影像造成的干扰，以使开发的新模型能够适应多样化的飞行条件； ② 在面向无人机定位任务时，由于本文算法只能提供图像级地理定位，而卫星影像覆盖范围广、包含多个目标且视角差异大。因此，即便成功检索到正确的卫星影像，也很难快速对无人机影像上的感兴趣目标进行定位。如何在粗定位的基础上，进一步实现对象级的精确地理定位，是当前亟待研究的问题。

AI使用说明：本文没有使用AI技术。

■ 本文图文责任编辑：蒋树芳黄光玉

利益冲突：Conflicts of Interest 所有作者声明不存在利益冲突。

All authors disclose no relevant conflicts of interest.

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	Hou Q F, Lu J, Guo H T, et al. Feature relation guided cross-view image based geo-localization[J]. Remote Sensing, 2023, 15(20):5029. DOI:10.3390/rs15205029

[2]	Lin J L, Zheng Z D, Zhong Z, et al. Joint representation learning and keypoint detection for cross-view geo-localization[J]. IEEE Transactions on Image Processing, 2022, 31:3780-3792. DOI:10.1109/TIP.2022.3175601

[3]	Ji Y X, He B Y, Tan Z Y, et al. Game4loc: A UAV geo-localization benchmark from game data[C]. Proceedings of the AAAI Conference on Artificial Intelligence, 2025, 39(4): 3913-3921. DOI:10.1609/aaai.v39i4.32409

[4]	Ding L R, Zhou J, Meng L X, et al. A practical cross-view image matching method between UAV and satellite for UAV-based geo-localization[J]. Remote Sensing, 2021, 13(1):47. DOI:10.3390/rs13010047

[5]	Wang T Y, Zheng Z D, Yan C G, et al. Each part matters: Local patterns facilitate cross-view geo-localization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(2):867-879. DOI:10.1109/TCSVT.2021.3061265

[6]	Wu Q, Wan Y, Zheng Z, et al. CAMP: A cross-view geo-localization method using contrastive attributes mining and position-aware partitioning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62:5637614. DOI:10.1109/TGRS.2024.3448499

[7]	Deuser F, Habel K, Oswald N. Sample4Geo: Hard negative sampling for cross-view geo-localisation[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2023:16801-16810. DOI:10.1109/ICCV51070.2023.01545

[8]	van den Oord A, Li Y Z, Vinyals O, et al. Representation learning with contrastive predictive coding[EB/OL]. 2018: 1807. 03748. DOI:10.48550/arXiv.1807.03748

[9]	Ge F W, Zhang Y Z, Wang L, et al. Joint representation learning based on feature center region diffusion and edge radiation for cross-view geo-localization[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 63:5601513. DOI:10.1109/TGRS.2024.3515484

[10]	Kirillov A, Mintun E, Ravi N, et al. Segment anything[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2023:3992-4003. DOI:10.1109/ICCV51070.2023.00371

[11]	Zhao X, Ding W C, An Y Q, et al. Fast segment anything[EB/OL]. 2023: 2306.12156. DOI:10.48550/arXiv.2306.12156

[12]	Zhang H, Li F, Liu S L, et al. DINO: DETR with improved DeNoising anchor boxes for end-to-end object detection[EB/OL]. 2022: 2203. 03605. DOI:10.48550/arXiv.2203.03605

[13]	Oquab M, Darcet T, Moutakanni T, et al. DINOv2:Learning robust visual features without supervision[EB/OL]. 2023: 2304.07193. DOI:10.48550/arXiv.2304.07193

[14]	Izquierdo S, Civera J. Optimal transport aggregation for visual place recognition[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2024:17658-17668. DOI:10.1109/CVPR52733.2024.01672

[15]	Huang G S, Zhou Y, Zhao L Y, et al. CV-cities: Advancing cross-view geo-localization in global cities[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 18:1592-1606. DOI:10.48550/arXiv.2411.1243

[16]	Ding L, Zhu K, Peng D F, et al. Adapting segment anything model for change detection in VHR remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62:5611711. DOI:10.1109/TGRS.2024.3368168

[17]	Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:5297-5307. DOI:10.1109/CVPR.2016.572

[18]	Jégou H, Douze M, Schmid C, et al. Aggregating local descriptors into a compact image representation[C]// 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2010:3304-3311. DOI:10.1109/CVPR.2010.5540039

[19]	Gu Y Z, Li C P, Xie J B. Attention-aware generalized mean pooling for image retrieval[EB/OL]. 2018: 1811. 00202. DOI:10.21203/rs.3.rs-5415763/v1

[20]	Ali-Bey A, Chaib-Draa B, Giguére P. MixVPR: Feature mixing for visual place recognition[C]// 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE, 2023:2997-3006. DOI:10.1109/WACV56688.2023.00301

[21]	Zhong Z H, Tang Z Q, He T, et al. Convolution meets LoRA: Parameter efficient finetuning for segment anything model[EB/OL]. 2024: 2401.17868. DOI:10.48550/arXiv.2401.17868

[22]	Gu A, Dao T. Mamba: Linear-time sequence modeling with selective state spaces[EB/OL]. 2023: 2312.00752. DOI:10.48550/arXiv.1807.03748

[23]	Alexey D, Beyer L, et al. An image is worth 16×16 words: Transformers for image recognition at scale[J]. arXiv preprint arXiv: 2010.11929, 2020. DOI:10.48550/arXiv.2010.11929

[24]	Hu E J, Shen Y L, Wallis P, et al. Lora: Low-rank adaptation of large language models[J]. arXiv preprint arXiv:2106.09685, 2021. DOI:10.48550/arXiv.2106.09685

[25]	Chowdhury M N R, Zhang S, Wang M, et al. Patch-level routing in mixture-of-experts is provably sample-efficient for convolutional neural networks[C]// International Conference on Machine Learning. PMLR, 2023: 6074-6114. DOI:10.48550/arXiv.2306.04073

[26]	Ioffe S, Szegedy C, Paranhos L, et al. Batch normalization: Accelerating deep network training by reducing internal covariate shift[EB/OL]. 2015: 1502.03167. DOI:10.48550/arXiv.1502.03167

[27]	Schroff F, Kalenichenko D, Philbin J. FaceNet: A unified embedding for face recognition and clustering[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015:815-823. DOI:10.1109/CVPR.2015.7298682

[28]	Zheng Z D, Wei Y C, Yang Y. University-1652:A multi-view multi-source benchmark for drone-based geo-localization[C]// Proceedings of the 28th ACM International Conference on Multimedia. ACM, 2020: 1395-1403.. DOI:10.1145/3394171.3413896

[29]	Zhu R Z, Yin L, Yang M Z, et al. SUES-200: A multi-height multi-scene cross-view image benchmark across drone and satellite[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(9):4825-4839. DOI:10.1109/TCSVT.2023.3249204

[30]	Zhang X H, Li X Y, Sultani W, et al. Cross-view geo-localization via learning disentangled geometric layout correspondence[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37(3):3480-3488. DOI:10.1609/aaai.v37i3.25457

[31]	Huang J Q, Ye D P, Jiang S Z, et al. Ground-to-Aerial Image Geo-Localization with Cross View Image Synthesis[J]. Geomatics and Information Science of Wuhan University, 2023, 69(1):79-87. DOI:10.14188/j.1671-8836.2021.0300

[32]	Zhang Z, Tang J, Wu G S. Simple and lightweight human pose estimation[EB/OL]. 2019: 1911. 10346. DOI:10.48550/arXiv.1911.10346

[33]	Wang T Y, Zheng Z D, Zhu Z J, et al. Learning cross-view geo-localization embeddings via dynamic weighted decorrelation regularization[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62:5647112. DOI:10.1109/TGRS.2024.3491757

[34]	Dai M, Hu J H, Zhuang J D, et al. A transformer-based feature segmentation and region alignment method for UAV-view geo-localization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(7):4376-4389. DOI:10.1109/TCSVT.2021.3135013

[35]	Zhu Y Y, Yang H J, Lu Y X, et al. Simple, effective and general: A new backbone for cross-view image geo-localization[EB/OL]. 2023: 2302.01572. DOI:10.48550/arXiv.2302.01572

[36]	Zhu R Z, Yang M Z, Yin L, et al. UAV’s status is worth considering: A fusion representations matching method for geo-localization[J]. Sensors, 2023, 23(2):720. DOI:10.3390/s23020720

[37]	Liu X Z, Wang Z Y, Wu Y, et al. SeGCN: A semantic-aware graph convolutional network for UAV geo-localization[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2024, 17:6055-6066. DOI:10.1109/JSTARS.2024.3370612

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 研究方法

2.1 总体框架

图1 DINO-MSRA网络架构

2.2 视觉大模型驱动的轻量化影像特征提取

图2 Dinov2-CL架构

2.2.1 Dinov2主干网络

图3 Dinov2网络架构

2.2.2 高效微调策略Conv-LoRA

2.3 基于Mamba的空间关系感知特征聚合器(MSRA)

图4 基于Mamba的空间关系感知特征聚合器

2.4 InfoNCE损失函数

3 实验与分析

3.1 数据来源

图5 2个数据集示例

表1 实验数据集详细信息

3.2 评价指标

3.3 实验设计

3.4 对比实验

3.4.1 在University-1652数据集上的实验结果

表2 各算法在University-1652数据集上的精度对比

3.4.2 在SUES-200数据集上的实验结果

表3 各算法在SUES-200数据集上的精度结果对比(无人机→卫星)

表4 各算法在SUES-200数据集上的精度结果对比(卫星→无人机)

图6 各算法在SUES-200数据集上的对比实验

3.5 消融实验

3.5.1 超参数消融实验

表5 不同超参数配置在University-1652数据集上的消融实验

表6 不同超参数配置在SUES-200数据集上的消融实验(无人机→卫星)

表7 不同超参数配置在SUES-200数据集上的消融实验(卫星→无人机)

3.5.2 MSRA聚合策略有效性消融实验

表8 MSRA聚合策略在Univeristy-1652数据集上的有效性验证

表9 MSRA聚合策略在SUES-200数据集上的有效性验证(无人机→卫星)

表10 MSRA聚合策略在SUES-200数据集上的有效性验证(卫星→无人机)

3.6 试验检索结果可视化

图7 检索结果可视化

4 结论与讨论

4.1 结论

4.2 讨论

References