地球信息科学理论与方法

基于多尺度特征聚合的轻量化跨视角匹配定位方法

  • 刘瑞康 , 1, 2 ,
  • 卢俊 , 1, 2, 3, * ,
  • 郭海涛 1, 2, 3 ,
  • 朱坤 1, 2, 3 ,
  • 侯青峰 1, 2 ,
  • 张雪松 1, 2 ,
  • 汪泽田 4
展开
  • 1.信息工程大学,郑州 450001
  • 2.时空感知与智能处理自然资源部重点实验室,郑州 450001
  • 3.智慧地球重点实验室,北京 100020
  • 4.32158部队,喀什 844000
*卢 俊(1981— ),男,湖北武汉人,博士,副教授,硕士生导师,主要从事摄影测量与遥感方面的研究。 E-mail:

作者贡献:Author Contributions

刘瑞康和卢俊参与了实验设计;刘瑞康、卢俊、郭海涛、张雪松完成实验操作;刘瑞康、朱坤、侯青峰、汪泽田参与论文的写作和修改。所有作者均阅读并同意最终稿件的提交。

The study was designed by LIU Ruikang and LU Jun. The experimental operation was completed by LIU Ruikang, LU Jun, GUO Haitao and ZHANG Xuesong. The manuscript was drafted and revised by LIU Ruikang, ZHU Kun, HOU Qingfeng and WANG Zetian. All the authors have read the last version of paper and consented for submission.

刘瑞康(2000— ),男,山东烟台人,硕士生,主要从事多尺度跨视角遥感影像场景匹配与定位方面的研究。E-mail:

收稿日期: 2024-09-27

  修回日期: 2024-12-03

  网络出版日期: 2025-01-23

基金资助

国家自然科学基金项目(42301464)

国家自然科学基金项目(42201443)

A Lightweight Cross-View Image Localization Method Based on Multi-Scale Feature Aggregation

  • LIU Ruikang , 1, 2 ,
  • LU Jun , 1, 2, 3 ,
  • GUO Haitao 1, 2, 3 ,
  • ZHU Kun 1, 2, 3 ,
  • HOU Qingfeng 1, 2 ,
  • ZHANG Xuesong 1, 2 ,
  • WANG Zetian 4
Expand
  • 1. Information Engineering University, Zhengzhou 450001, China
  • 2. Key Laboratory of Spatiotemporal Perception and Intelligent processing, Ministry of Natural Resources, Zhengzhou 450001, China
  • 3. Key Laboratory of Smart Earth, Beijing 100020, China
  • 4. 32158 Troops, Kashi 844000, China
*LU Jun, E-mail:

Received date: 2024-09-27

  Revised date: 2024-12-03

  Online published: 2025-01-23

Supported by

National Natural Science Foundation of China(42301464)

National Natural Science Foundation of China(42201443)

摘要

【目的】跨视角图像匹配与定位是指通过将地视查询影像与带有地理标记的空视参考影像进行匹配,从而确定地视查询影像地理位置的技术。目前的跨视角图像匹配与定位技术主要使用固定感受野的CNN或者具有全局建模能力的Transformer作为特征提取主干网络,不能充分考虑影像中不同特征之间的尺度差异,且由于网络参数量和计算复杂度较高,轻量化部署面临显著挑战。【方法】为了解决这些问题,本文提出了一种面向地面全景影像和卫星影像的多尺度特征聚合轻量化跨视角图像匹配与定位方法,首先使用LskNet提取影像特征,然后设计一个多尺度特征聚合模块,将影像特征聚合为全局描述符。在该模块中,本文将单个大卷积核分解为两个连续的相对较小的逐层卷积,从多个尺度聚合影像特征,显著减少了网络的参数量与计算量。【结果】本文在CVUSA、CVACT、VIGOR 3个公开数据集上进行了对比实验和消融实验,实验结果表明,本文方法在VIGOR数据集和CVACT数据集上的Top1召回率分别达到79.00%和91.43%,相比于目前精度最高的Sample4Geo分别提升了1.14%、0.62%,在CVUSA数据集上的Top1召回率达到98.64%,与Sample4Geo几乎相同,但参数量与计算量降至30.09 M和16.05 GFLOPs,仅为Sample4Geo的34.36%、23.70%。【结论】与现有方法相比,本文方法在保持高精度的同时,显著减少了参数量和计算量,降低了模型部署的硬件要求。

本文引用格式

刘瑞康 , 卢俊 , 郭海涛 , 朱坤 , 侯青峰 , 张雪松 , 汪泽田 . 基于多尺度特征聚合的轻量化跨视角匹配定位方法[J]. 地球信息科学学报, 2025 , 27(1) : 193 -206 . DOI: 10.12082/dqxxkx.2025.240538

Abstract

[Objectives] Cross-view image matching and localization refers to the technique of determining the geographic location of a ground-view query image by matching it with a geotagged aerial reference image. However, significant differences in geometric appearance and spatial layout between different viewpoints often hinder traditional image matching algorithms. Existing methods for cross-view image matching and localization typically rely on Convolutional Neural Networks (CNNs) with fixed receptive fields or Transformers with global modeling capabilities for feature extraction. However, these approaches fail to fully address the scale differences among various features in the image. Additionally, due to their large number of network parameters and high computational complexity, these methods face significant challenges in lightweight deployment. [Methods] To address these issues, this paper proposes a lightweight cross-view image matching and localization method that employs multi-scale feature aggregation for ground panoramic and satellite images. The method first extracts image features using LskNet, then designs and introduces a multi-scale feature aggregation module to combine image features into a global descriptor. The module decomposes a single large convolution kernel into two sequential smaller depth-wise convolutions, enabling multiple scale feature aggregation. Meanwhile, spatial layout information is encoded into the global feature, producing a more discriminative global descriptor. By integrating LskNet and the multi-scale feature aggregation module, the proposed method significantly reduces parameters and computational cost while achieving superior accuracy on publicly available datasets. [Results] Experimental results on the CVUSA, CVACT, and VIGOR datasets demonstrate that the proposed method achieves Top-1 recall rates of 79.00% and 91.43% on the VIGOR and CVACT datasets, respectively, surpassing the current highest-accuracy method, Sample4Geo, by 1.14% and 0.62%. On the CVUSA dataset, the Top-1 recall rate reaches 98.64%, comparable to Sample4Geo, but with parameters and computational costs reduced to 30.09 M and 16.05 GFLOPs, representing only 34.36% and 23.70% of Sample4Geo's values, respectively. Additionally, ablation experiments on public datasets show that the multi-scale feature aggregation module improves the Top-1 recall rate of the baseline network by 1.60% on the CVUSA dataset and by 13.48% on the VIGOR dataset, further validating the effectiveness of the proposed method. [Conclusions] Compared to existing methods, the proposed algorithm significantly reduces both parameters and computational costs while maintaining high accuracy, thereby lowering hardware requirements for model deployment.

1 引言

随着科技的飞速进步,全球导航卫星系统(Global Navigation Satellite System, GNSS)已深刻地改变了人类的日常生活模式,在社会各领域中扮演着不可或缺的角色。然而GNSS信号易受环境和电磁信号干扰的特点使它无法完全满足复杂场景下定位、导航等服务的需要[1-2],因此,研究GNSS拒止或干扰环境下的高效地理定位技术具有重要意义。近年来,由于卫星影像和航拍图像覆盖范围广且易于获取,基于跨视角图像匹配的地理定位技术逐渐引起人们的关注。基于跨视角图像匹配的地理定位技术,是指通过一定的算法框架,在预先构建的带有地理信息的参考空视图像数据库中,匹配并识别与查询图像(无人机、卫星、地面图像等)最为相似的参考图像,从而获得查询图像地理位置的技术,该技术的核心在于跨视角图像之间的匹配算法,本文主要研究面向地面全景图像和卫星图像之间的匹配问题。
由于拍摄视角不同,卫星影像与地面全景图像之间存在显著的域差距,这包括物体的外观以及空间布局之间的差异[3]。具体而言,地面全景图像中主要包含建筑物、植被等目标的侧面信息;而卫星影像主要从目标区域的俯视视角拍摄,获取的主要是屋顶、树冠等地物的上表面信息。这种差异导致相同地物在2种影像上的视觉表现存在明显不同,传统基于图像局部特征描述符的匹配算法很难匹配成功[4]。此外,地物的空间布局信息在跨视角图像匹配任务中也发挥着非常重要的作用,由于两种影像成像的几何原理和拍摄角度不同,同一区域地物的空间布局在地面全景影像与卫星影像上也存在明显差异,而传统的图像匹配算法很难对地物的空间布局信息进行匹配,这进一步降低了传统算法在跨视角图像匹配任务中的可行性。因此,设计一种能够有效应对跨视角图像之间的视觉外观差异,同时提取不同视角下影像空间布局信息的跨视角图像匹配算法具有重要意义。
近年来,随着深度学习技术在计算机视觉领域的不断突破,基于跨视角图像匹配的地理定位技术获得了新的解决方案。为了减少视角差异对影像匹配的影响,Hu等[4]设计了一个CVM-Net网络,使用度量学习[5]的方式处理跨视角图像匹配任务。该网络首先使用卷积神经网络提取图像的局部特征,再利用NetVLAD[6]对局部特征进行编码,生成不受视角变化影响的全局特征。全局特征的引入显著减少了跨视角影像的匹配难度,但影像间剧烈的视角变化也增加了神经网络在学习影像特征时的负担。Shi等[7]在此基础上引入了一种极坐标变换策略,通过对卫星图像进行极坐标变换,使卫星图像的空间布局在几何形态上更加接近地面全景图像,减少了网络在训练过程中对于跨视角影像间几何对应关系的学习,但该方法也会导致图像中的某些对象出现失真现象。为了解决这一问题,Toker等[8]提出一种将极坐标变换与GANs[9](生成对抗网络)结合的方法,以将卫星影像转化成更加逼真的街景影像,从而有效避免失真现象。
在模型的训练过程中,当大多数样本几乎不对总损失做出贡献时,模型将很难继续收敛。Zhu等[10]使用了一种硬样本挖掘策略,首先建立一个先进先出的硬样本挖掘池来缓存最硬样本的编码向量,然后在模型训练过程中不断更新挖掘池中的硬样本。在一个批次的训练中,该算法随机采样前一半图像,并从挖掘池中挖掘每一个图像对应的全局硬样本,以形成该批次的另一半。为了加强模型对于硬负样本的学习,同时避免模型在学习硬负样本的过程中崩溃,Deuser等[11]提出一个Sample4Geo算法,该算法使用基于InfoNCE损失[12]的对比学习方法训练模型,同时引入了GPS采样和动态相似性采样策略挖掘硬样本,在几个公开的跨视角匹配数据集上表现出出色的性能。然而,Sample4Geo的高精度依赖于其庞大的参数量和计算量,即使在卫星影像和全景影像的网络中共享权重,模型所需的参数量仍然很大。
近几年,Transformer[13]技术在计算机视觉领域中得到了广泛应用,由于其强大的全局建模能力,许多学者将其引入到跨视角图像匹配领域,以提取跨视角影像的全局特征。Zhu等[14]使用DeiT(Data-efficient image Transformers[15])设计了一个TransGeo算法,并利用Transformer的位置编码机制设计了一个额外的缩放步骤,使网络能够以更高的分辨率处理影像中较小的对象,以获得影像更具表达能力的全局特征描述符。Yang等[16]设计了一个基于ResNet[17]+Transformer[13]混合结构的L2LTR(Layer-to-Layer Transformer)网络,利用Transformer的位置编码来帮助网络理解地面全景影像和卫星视角影像之间的几何布局。但是,由于ResNet+Transformer网络规模较大,它比基于纯CNN的方法需要更大的GPU显存和预训练数据集,这不仅增加了模型训练的时间成本,也对硬件资源提出了更高要求。
总结来说,目前大多数的跨视角图像匹配研究都集中在视角转换以及全局特征提取方法上,忽略了影像中特征的差异性以及模型的资源消耗问题,具体而言,这些问题可以概括为以下3个方面: ① 未能充分考虑地物特征尺度的差异性:不同尺度的对象在特征提取过程中所需的上下文信息范围存在显著差异。一些物体特征的提取可能仅需参考局部的上下文信息,而另一些则可能需要更广泛的上下文来揭示其全貌。 ② 忽略了影像空间布局信息的上下文依赖性:物体间的空间位置信息也是跨视角图像匹配中不可忽视的关键特征。这种信息的提取同样依赖于不同范围的上下文信息。例如,某些物体的相对位置关系可能仅在其直接邻域内具有意义,而另一些则可能需要在更广阔的视野中才能准确判定。 ③ 忽略了计算复杂性与资源消耗:现有的高性能匹配模型往往伴随着庞大的参数规模和繁重的计算负担,这对执行平台的计算能力提出了严苛要求,限制了模型在实际应用中的部署范围。
针对上述问题,本文充分考虑影像中的多尺度特征以及模型部署时的硬件资源消耗问题,设计了一种面向地面全景影像和卫星影像的多尺度特征聚合轻量化跨视角图像匹配与定位方法:首先使用有选择性的大卷积核网络(Large Selective Kernel Network, LskNet[18])提取影像特征,然后结合空间感知特征聚合模块(Spatial-aware Feature Aggregation, SAFA[7])设计了一个多尺度特征聚合模块,用来聚合影像特征。该模块能够从多个尺度整合影像特征,并将影像的空间布局信息编码到全局特征描述符中。由于LskNet和多尺度特征聚合模块的引入,本文模型的硬件资源消耗得到显著下降,在模型的轻量化部署上表现出显著优势。此外,为增强模型的灵活性与泛化能力,避免过度依赖数据增强技术,本研究在模型训练时使用了自适应锐度感知最小化(ASAM)[19]策略。该策略通过调整损失函数的自适应锐度,有效规避了训练过程中损失函数易陷入局部最优的问题,从而提高了模型的泛化能力。

2 研究方法

本文所提出的面向地面全景影像和卫星影像的多尺度特征聚合轻量化跨视角图像匹配与定位方法采用孪生神经网络架构,算法流程图如图1所示。本算法首先对卫星影像进行极坐标变换,缩小不同视角下影像间的几何布局差异,然后使用有选择性的大卷积核网络LskNet[18]提取影像中的局部特征,最后使用多尺度特征聚合模块从多个尺度将影像特征聚合为全局描述符。在特征匹配与损失计算阶段,本文使用了CVM-Net[4]中提出的加权的软边距三元损失函数计算模型的损失。
图1 基于多尺度特征聚合的轻量化跨视角图像匹配算法框架

Fig. 1 Algorithm framework of lightweight cross-view image localization method based on multi-scale feature aggregation

2.1 极坐标变换

在影像中心对齐(全景影像的拍摄位置位于卫星影像中心)的情况下,卫星影像与地面全景影像之间存在特定的几何对应关系,本文对卫星影像进行了极坐标变换[7]。具体来说,将卫星影像的中心作为极坐标的原点,正北方向作为极坐标中的0°角,当原始卫星影像的大小为Aa×Aa,变换后的卫星影像大小为Wg×Wg时,极坐标变换的公式可以被定义为。
x i s = A a 2 + A a 2 y i t H g s i n   ( 2 π W g x i t ) y i s = A a 2 - A a 2 y i t H g c o s   ( 2 π W g x i t )
式中: x i s y i s表示卫星影像像素坐标;   x i t y i t表示极坐标变换后的卫星影像像素坐标。
图2展示了极坐标变换前后的卫星影像以及全景影像的对比结果,经过极坐标变换,卫星影像和地面全景影像之间的几何对应关系更加明确,简化了模型对于影像间几何对应关系的学习,从而大大促进了模型的收敛。
图2 极坐标变换

Fig. 2 Polar transform

2.2 特征提取网络

本研究使用结构化的LskNet[18]作为特征提取的骨干网络,图3展示了LskNet模块的结构,它是LskNet中的一个核心重复块,由大核选择(LK Selection)子块和前馈网络(FFN)子块2个残差子块组成。大核选择子块可以根据需要动态调整网络的感受野,前馈网络子块则用于通道混合和特征细化,由全连接、逐层卷积、GELU激活函数和第二个全连接组成。
图3 LskNet模块[18]

Fig. 3 LskNet module

LskNet网络共有4个阶段,每个阶段开始时都会对输入的图像做一次下采样,然后使用一系列由大核选择子块和前馈网络子块组成的LskNet 模块提取输入影像的特征,最终输出最后3个阶段的特征图。本文方法中使用LskNet最后一个阶段输出的特征图作为多尺度特征聚合模块的输入特征。

2.3 多尺度特征聚合模块

由于影像中包含的特征存在尺度差异,且不同特征的提取所需要的上下文信息也并不相同,在特征聚合阶段盲目使用相同大小的卷积核无法有效利用不同尺度的特征以及不同范围的空间布局信息。因此,设计一种能够有效利用不同尺度特征,同时能够将空间布局信息聚合到全局描述符中的特征聚合模块,对于跨视角图像匹配而言,具有至关重要的意义。
本文在SAFA[7]的SPE模块的基础上,将一个大尺寸卷积核分解成2个连续的相对较小的逐层卷积,设计了一个多尺度特征聚合模块(图4)。具体而言,该模块将一个尺寸为23×23的大卷积核分解为2个逐层卷积,大小分别为5×5和7×7、膨胀率分别为1和3,用来提取影像不同尺度的特征。与只使用一个大卷积核相比,将一个大卷积核分解为2个相对较小的逐层卷积不仅减少了模型的计算量,还能使模型更好地适应不同尺度的特征。表1展示了2种模式下的卷积核在计算大小为320像素×320像素,通道数为64的特征时的参数量与计算量,其中卷积核参数 (23,1)表示尺寸为23,膨胀率为1的逐层卷积。相比于只使用一个大卷积核,将其分解为两个相对较小的卷积核后,卷积核的计算量从3.473 GFLOPs下降到0.498 GFLOPs,参数量从33.92 K下降到4.864 K,对计算资源的消耗得到大幅下降。
图4 多尺度特征聚合模块

Fig. 4 Multi-scale feature aggregation module

表1 卷积核分解前后的参数量与计算量

Tab. 1 Parameter count and computational cost before and after convolution kernel decomposition

卷积核参数 通道数/个 输入尺寸/(像素×像素) 计算量/GFLOPs 参数量/K
(23,1) 64 320×320 3.473 33.92
(5,1)→(7,3) 64 320×320 0.498 4.864
使用逐层卷积提取影像特征后,再使用1×1卷积分别对不同尺度的特征进行混合,同时压缩通道数,并将两个逐层卷积所提取的特征进行拼接,过程可表示如下。
U 1 = F 5,1 d d X U 2 = F 7,3 d d X
U = [ F 1,1 d d 2 U 1 ,   F 1,1 d d 2 U 2 ]
式中: X表示LskNet提取到的影像特征;UU1U2表示中间特征; F 5,1 d d表示输入通道数为d,输出通道数为d,卷积核尺寸为5,膨胀率为1的卷积层;[]表示特征向量沿通道方向的拼接操作。
接着沿通道方向对特征进行平均值池化和最大值池化,筛选影像中的显著特征。然后,使用2个全连接层处理池化结果,对池化结果进行投影,获得特征的位置编码图。过程可表示如下:
S A a v g =   P a v g ( U ) S A m a x =   P m a x ( U )
S A = F 7,1 2 1 [ S A a v g ,   S A m a x ]
P = F C ( S A )
式中:Pavg()和Pmax()表示均值池化和最大值池化; SAavgSAmax表示均值池化和最大值池化得到的空间特征; SA为空间注意力图; FC表示全连接; P为得到的位置编码图。
最后,使用位置编码图与影像每一个通道上的特征图计算矩阵内积,并将计算结果拼接起来,最终得到影像的特征描述符。给定输入特征X cRH×W,特征描述符K={kc}, c=1,2, …, C的计算公式如下[7]
k c = X c ,   P F
这一过程有效剔除了冗余信息,确保保留下的特征均为对匹配任务有用的关键特征,从而实现特征筛选与聚合。

2.4 损失函数

本文使用加权的软边距三元损失函数[4]来训练地面图像和卫星图像的特征提取网络。给定一组查询影像和参考影像,本文算法的目标是学习一个特征表示空间,其中每个街景查询影像的特征都接近其对应的卫星影像特征。在数据集中,每个街景影像和它对应的卫星影像被认为是正对,其他对被认为是负对。如果有多张卫星影像覆盖同一张街景影像区域,例如VIGOR数据集,本文按照以前的工作[10,14],将距离街景影像拍摄位置最近的一张卫星影像作为正样本,同时避免在同一批次中采样其他相邻的航拍图像,以防止模糊监督。模型的损失函数为:
L t r i p l e t = l o g 1 + e α d n e g - d p o s
式中: dposdneg表示正对和负对之间的余弦相似性;α是用来调整损失梯度的参数,可以控制收敛速度,本文按照TransGeo[14]中的设置,将α设为20。在一个有N对街景影像和卫星影像的批次中,共采样2N×(N-1)个三元组。

3 实验数据及设置

3.1 实验数据

本文在CVUSA、CVACT和VIGOR 3个数据集上进行实验,以评估本文模型在跨视角匹配定位任务中的性能。
(1) CVUSA和CVACT数据集:CVUSA数据集是跨视角匹配领域使用最广泛的公共数据集之一,见图5(a)。它最初是为美国各地的大规模定位而提出的,包含超过100万张地面和航空图像。Zhai等[20]利用相机的外部参数对CVUSA的Google街景影像进行扭曲,将其作为地面查询图像。同时,他们依据全景图像的拍摄位置从微软必应地图下载了缩放级别为19的航拍图像,生成了一个包含35 532对训练图像和8 884对测试图像的子集,在本研究中,使用这个子集进行实验。CVACT[21]数据集提供了35 532对图像用于训练,8 884对图像用于验证(CVACT_val),其中卫星图像使用谷歌地图API下载,缩放级别为20,图像大小为1 200像素×1 200像素,地面分辨率为0.12 m,全景图像的原始尺寸为 1 664像素×832像素。在本文中,将CVACT_val的所有数据作为CVACT数据集的测试集。图5(b)展示了CVACT中部分数据。
图5 CVUSA数据集和CVACT数据集

Fig. 5 CVUSA dataset and CVACT dataset

(2) VIGOR数据集: Zhu等[10]收集了曼哈顿、旧金山、芝加哥和西雅图四个城市的105 214张全景影像和90 618张卫星影像制作了VIGOR数据集。该数据集中,卫星图像使用谷歌地图API下载,缩放级别为20,地面分辨率约为0.114 m,卫星图像和地面全景图像的原始图像尺寸分别为640像素×640像素和2 048像素×1 024像素。为了使VIGOR数据集更加符合实际应用中的场景,该数据集的全景影像不是严格在卫星影像的中心位置采集的,这大大增加了影像的匹配难度。为了实现这种场景下的匹配,VIGOR数据集在卫星影像的经度和纬度方向上都设置了50%的重叠度,因此,对于每一张全景影像,都有4张卫星影像与其对应,其中距离全景影像拍摄位置最近的卫星影像称为正样本,其他3张卫星影像被称为半正样本,部分数据如图6所示。
图6 VIGOR数据集

Fig. 6 VIGOR dataset

由于VIGOR数据集为中心不对齐数据集,地面全景影像的拍摄位置可以在卫星影像的任意位置,而极坐标变换以地面全景影像的拍摄位置为变换中心且对变换中心的位置非常敏感,变换中心轻微的位移就会引起极坐标变换生成的全景图像外观表现大不一样,如图7所示(其中红星为极坐标变换中心点)。基于上述原因,本文在VIGOR数据集中直接使用原始数据进行跨视角图像匹配,不进行极坐标变换。
图7 不同变换中心对应的极坐标变换结果对比

Fig. 7 Comparison of polar transform results with different transformation centers

3.2 评价指标

与CVM-Net[4]相同,本文使用Top K召回率作为评价指标来衡量模型的性能,并与SAFA[7]、DSM[22]、L2LTR[16]、GeoDTR+[23]、TransGeo[14]、Sample4Geo[11]等几个目前先进的跨视角匹配算法进行比较。具体来说,给定一张地面全景图像,如果与它对应的参考影像位于匹配结果中与查询图像最相似的前K幅影像中,则被视为定位成功,查询图像被正确定位的比例记作R@K。对于VIGOR数据集,由于每一张全景图像都有多张卫星影像与其对应,仅使用Top1召回率不能充分衡量模型的性能,因此,本文按照之前的工作[10],在VIGOR数据集的实验结果中添加了命中率(Hit Rate)作为额外的评价标准。具体来说,若检索得到的Top1影像覆盖了查询图像的拍摄位置,则认为成功命中,查询图像中成功命中的图片比例记为命中率。对于计算资源消耗,本文统计了模型的参数量与计算量,其中计算量使用浮点运算次数(FLOPs)衡量。

3.3 实验过程

实验中所有程序在Ubuntu 22.04系统上运行,模型基于PyTorch 2.1.0框架实现,Python版本为3.9.18,CPU为Intel 酷睿i9-13900K,GPU为NVIDIA GeForce RTX4090。对于VIGOR数据集,由于原始图片尺寸较大,直接处理会占用大量硬件资源,同时为了在下采样过程中尽可能减少图像信息的损失,本文将全景影像和卫星影像的尺寸分别设置为320像素×640像素和320像素×320像素,batch size设置为24,对于CVUSA和CVACT数据集,本文对卫星影像进行了极坐标变换,变换后的卫星影像与全景影像的尺寸都为128像素×704像素,batch size设置为48,在数据读取时加入了全局硬样本挖掘策略[10]。本文使用LskNet-S作为模型的基线网络,并使用LskNet预训练权重初始化。训练过程中初始学习率设置为 0.000 8,使用余弦衰减策略调整学习率。

4 结果与分析

4.1 对比实验

4.1.1 跨视角图像匹配实验结果

为测试本文多尺度特征聚合模块在跨视角图像匹配任务中的性能,分别在VIGOR、CVUSA、CVACT 3个公开数据集上将本文模型与SAFA[7]、DSM[22]、L2LTR[16]、GeoDTR+[23]、TransGeo[14]、Sample4Geo[11]等几个算法进行对比实验,分别记录R@1、R@5、R@10、R@1%以及在VIGOR数据集上的Hit Rate指标,其中SAFA使用具有固定感受野的卷积网络聚合影像特征,L2LTR、GeoDTR+、TransGeo使用Transformer提取图像特征,Sample4Geo使用ConvNeXt[24]作为特征提取网络并使用了强大的硬样本挖掘技术,该算法在3个数据集上均达到目前领先的精度。
(1) VIGOR数据集
本文算法在VIGOR数据集上与其他算法的对比结果如表2图8所示,由于部分算法未提供在VIGOR数据集上的精度,采用GeoDTR+、TransGeo、Sample4Geo等算法与本文算法进行比较。由实验结果可知,本文算法在VIGOR数据集上的R@1、R@5、R@10、R@1%召回率分别达到79.00%、95.65%、97.18%、99.77%,在R@1上的召回率优于其他跨视角图像匹配方法,相比于TransGeo、SAIG-D和Sample4Geo算法分别高出17.52%、13.77%、1.14%。
表2 VIGOR数据集匹配精度

Tab. 2 Retrieval accuracy (percentage) of different methods on VIGOR dataset (%)

算法 R@1 R@5 R@10 R@1% Hit Rate
GeoDTR[25] 56.51 80.37 86.21 99.25 61.76
GeoDTR+[23] 59.01 81.77 87.10 99.07 67.41
TransGeo[14] 61.48 87.54 91.88 99.56 73.09
SAIG-D[26] 65.23 88.08 - 99.68 74.11
Sample4Geo[11] 77.86 95.66 97.21 99.61 89.82
本文算法 79.00 95.65 97.18 99.77 93.96

注:加粗数值为每列最优值,“-”表示原论文中未提供该数值。

图8 VIGOR数据集实验结果

Fig. 8 Experimental results of the VIGOR dataset

对于Hit Rate指标,本文算法在VIGOR数据集上的精度达到93.96%,如8(b)所示。相比于GeoDTR+、TransGeo、SAIG-D,本文算法分别提高26.55%、20.87%、19.85%,比目前精度最高的Sample4Geo提高4.14%。
(2) CVUSA数据集
对于CVUSA数据集,采用SAFA、L2LTR、TransGeo、Sample4Geo等算法与本文所提出算法进行比较,由表3图9可知,本文算法的R@1、R@5、R@10、R@1%召回率分别达到98.64%、99.50%、99.67%、99.85%,R@1召回率仅比Sample4Geo低0.04%,高于其他几种算法3.21%以上。根据实验数据,本文提出的算法在显著减少模型参数和计算量的同时,能够达到与当前先进算法几乎相同的精度,在模型轻量化部署方面展现出明显的优势。
表3 CVUSA数据集匹配精度

Tab. 3 Retrieval accuracy (percentage) of different methods on CVUSA dataset (%)

算法 R@1 R@5 R@10 R@1%
SAFA[7] 89.84 96.93 98.14 99.64
DSM[22] 91.93 97.50 98.54 99.67
CDE[8] 92.56 97.55 98.33 99.57
L2LTR[16] 94.05 98.27 98.99 99.67
TransGeo[14] 94.08 98.36 99.04 99.77
SEH[27] 95.11 98.45 99.00 99.78
GeoDTR[25] 95.43 98.86 99.34 99.86
GeoDTR+[23] 95.40 98.44 99.05 99.75
Sample4Geo[11] 98.68 99.68 99.78 99.87
本文算法 98.64 99.50 99.67 99.85

注:加粗数值为每列最优值。

图9 CVUSA数据集召回率

Fig. 9 Recall rate of the CVUSA dataset

(3) CVACT数据集
本文算法在CVACT数据集上的实验结果如表4图10所示,由实验结果可知,本文算法在CVACT数据集上的R@1、R@5、R@10、R@1%召回率分别达到91.43%、96.90%、97.69%、98.92%,均高于其他算法。对于R@1召回率,本文算法相比于SHE、GeoDTR+、Sample4Geo,分别高出6.68%、3.82%、0.62%,达到目前领先精度。
表4 CVACT数据集匹配精度

Tab.4 Retrieval accuracy (percentage) of different methods on CVACT dataset (%)

算法 R@1 R@5 R@10 R@1%
SAFA[7] 81.03 92.80 94.84 98.17
DSM[22] 82.49 92.44 93.99 97.32
CDE[8] 83.28 93.57 95.42 98.22
L2LTR[16] 84.89 94.59 95.96 98.37
SHE[27] 84.75 93.97 95.46 98.11
GeoDTR[25] 86.21 95.44 96.72 98.77
GeoDTR+[23] 87.61 95.48 96.52 98.34
Sample4Geo[11] 90.81 96.74 97.48 98.77
本文算法 91.43 96.90 97.69 98.92

注:加粗数值为每列最优值。

图10 CVACT数据集召回率

Fig. 10 Recall rate of the CVACT dataset

由以上3个公开数据集上的实验结果可知,相比于其他跨视角图像匹配与定位方法,本文所提出方法在跨视角图像匹配任务中具有更好的鲁棒性和泛化性,在VIGOR和CVACT数据集上达到了最高精度,分别为79.00%和91.43%,在CVACT数据集上精度达到98.64%,仅次于Sample4Geo。
此外,本文提出的算法在聚合影像特征时,能够将多尺度特征以及空间布局信息编码到全局特征中,生成的全局特征描述符表达能力更强,即使在中心不对齐的场景(VIGOR数据集)下,仍能够保持较高的精度。图11展示了本文算法在VIGOR数据集上的部分匹配结果,其中Top1-5表示与查询图像最相似的前5张卫星影像,橙色方框中的卫星影像为正确的匹配结果。在VIGOR数据集中,由于卫星影像在经度和纬度方向上都有50%的重叠度,因此每一张地面查询图像对应4张卫星影像,其中只有一张卫星影像与地面查询图像互为正对,其余3张卫星影像与地面查询图像互为半正对,从图11中可以看出,在匹配结果的Top1-5中存在多张包含了查询图像部分区域的半正卫星影像,这大大增加了Top1图像的匹配难度。然而,根据表2的数据,本文算法在VIGOR数据集R@1精度上的表现仍优于其它3种算法,这表明本文算法在处理复杂场景时具备较强的稳定性和优势。
图11 VIGOR数据集匹配结果

Fig. 11 Matching results of the VIGOR dataset

4.1.2 轻量化实验结果

表5中,提供了本文方法在CVUSA数据集和VIGOR数据集上与目前先进算法的参数量、计算量以及R@1精度的比较。其中本文算法与TransGeo、L2LTR提取卫星影像和地面全景影像特征的网络不共享参数,对于Sample4Geo,本文沿用原文中的设置,使用相同的网络参数提取卫星影像和地面全景影像的特征。
表5 不同模型参数量、计算量对比

Tab. 5 Comparison of parameter count and computational cost for different models

算法 CVUSA VIGOR
参数量/M 共享权重 计算量/GFLOPs R@1/% 参数量/M 共享权重 计算量/GFLOPs R@1/%
本算法 28.85 × 9.41 98.64 30.09 × 16.05 79.00
TransGeo 44.92 × 11.34 94.08 45.18 × 25.96 61.48
Sample4Geo 87.57 30.50 98.68 87.57 67.71 77.86
L2LTR 195.91 × 44.16 94.05 × × × ×

注:加粗数值为每列最优值。

为了减少模型的参数量和计算复杂度,本算法将大卷积核分解,同时使用了大量的逐层卷积,通过表5中的实验数据可知,本文模型在参数量与计算成本上显著低于其他算法。相比于TransGeo、Sample4Geo、L2LTR算法,本文算法在CVUSA数据集上的参数量分别降低了16.07、58.72、167.06 M,计算复杂度分别降低了1.93 GFLOPs、21.09 GFLOPs、34.75 GFLOPs。此外,在保证模型高效性的同时,本文方法在CVUSA数据集上达到了与Sample4Geo接近的精度,在VIGOR数据集上的R@1精度超过了其它现有算法,图12更直观地表示出本文算法在参数效率与计算复杂度上的优势。
图12 不同算法在CVUSA和VIGOR数据集上的参数量、计算量与Top-1召回率对比

Fig. 12 Comparison of the number of parameters, computational cost, and top-1 recall rate of different algorithms on the CVUSA and VIGOR datasets

4.2 消融实验

4.2.1 卷积核分解

将单个大卷积核分解成一系列相对较小的逐层卷积,不仅能够显著减少模型的参数量,还能够提取影像的多尺度特征,从而生成更具鲁棒性和泛化性的全局特征描述符。为验证本文卷积核分解在生成全局特征描述符时的作用,将本文所提出模型中多尺度特征聚合模块分解的卷积核替换为单个大卷积核,并与原有模型进行对比,实验结果如表6所示。
表6 卷积核分解消融实验

Tab. 6 Ablation Experiment on Convolution Kernel Decomposition (%)

R@1 R@5 R@10 R@1% Hit Rate
单个大卷积核 77.12 94.42 96.38 99.75 92.10
卷积核分解 79.00 95.65 97.18 99.77 93.96

注:加粗数值为每列最优值。

表6中数据可知,将单个大卷积核分解成一系列相对较小的逐层卷积后,模型的R@1匹配精度从原来的77.12%提升到79.00%, Hit Rate指标从92.10%提升到93.96%,这证明了卷积核分解在生成图像全局特征描述符中的作用。

4.2.2 多尺度特征聚合

将本文提出的多尺度特征聚合模块与SAFA[7]和MixVPR[28] 2种特征聚合方法在VIGOR数据集和CVUSA数据集上进行比较,实验结果如表7图13所示,在基线网络中我们使用全局最大值池化替换了本文提出的多尺度特征聚合网络。实验结果表明,多尺度特征聚合模块的引入带来了显著的性能提升,相比于基线模型、MixVPR、SAFA,本文算法在VIGOR数据集上的R@1精度分别提升了13.48%、6.26%、1.13%,在CVUSA数据集上分别提升了1.60%、1.30%、0.45%,进一步验证了该模块在跨视角图像匹配任务中的有效性。
表7 多尺度特征聚合消融实验

Tab. 7 Ablation experiment on multi-scale feature aggregation (%)

算法 VIGOR CVUSA
R@1 R@5 R@10 R@1% R@1 R@5 R@10 R@1%
基线模型 65.52 89.99 93.69 99.66 97.04 99.26 99.47 99.88
基线模型+MixVPR 72.74 92.52 95.13 99.69 97.34 99.38 99.57 99.86
基线模型+SAFA 77.87 95.19 97.02 99.77 98.19 99.50 99.66 99.84
本算法 79.00 95.65 97.18 99.77 98.64 99.50 99.67 99.85

注:加粗数值为每列最优值。

图13 VIGOR数据集消融实验

Fig. 13 Ablation experiment on the VIGOR dataset

4.3 可视化结果

为了进一步探索本文模型在提取卫星影像和地面全景影像的特征时所关注的区域,如图14所示,本研究使用Grad-CAM[29]来显示图像中对于图像特征编码贡献较大的区域。对于地面全景影像,在图14(a)中,可以观察到本文网络着重关注影像中的道路信息以及建筑物信息,而很少关注如天空等对于匹配任务贡献度较低的背景区域,这与人眼进行跨视角匹配时所关注的区域相吻合。在卫星影像中,从图14(b)可以看出,当道路等关键信息被树木遮挡或与周围建筑在视觉特征上相近时,本文网络依然能够将注意力集中在道路等关键匹配要素上,这表现出本文模型在困难场景下进行影像匹配的优势。
图14 可视化结果

Fig. 14 Visualization results

5 结论与讨论

5.1 结论

本文针对跨视角图像匹配任务中多尺度特征和空间布局信息的提取、聚合,以及模型的轻量化问题,设计了一个基于多尺度特征聚合的轻量化跨视角图像匹配与定位方法,首先使用LskNet提取影像特征,然后设计了一个多尺度特征聚合模块,将影像特征聚合为全局描述符。在该模块中,本文将一个大卷积核分解为2个连续的相对较小的逐层卷积,显著减少了模型的参数量并将影像的多尺度特征整合成位置编码图,最后使用位置编码图将影像特征聚合为全局描述符。本文算法在VIGOR、CVUSA和CVACT 3个公开数据集上的R@1召回率分别达到79.00%、98.64%、91.43%,在VIGOR和CVACT数据集上均为当前最高精度。此外,本文算法在保证模型匹配精度的同时,大大减少了模型的参数量和计算量,相比于Sample4Geo,本文算法在VIGOR数据集上的参数量从87.57 M下降到30.09 M,计算量从67.71 GFLOPs下降到16.05GFLOPs,计算量仅为Sample4Geo的23.7%,大大减少了模型部署对硬件的要求。

5.2 讨论

本文方法虽然在目前的公开跨视角图像匹配数据集中取得了一定的成果,但仍有一些问题需要优化: ① 本文目前仅研究针对地面全景影像的跨视角图像匹配与定位问题,并未涉及视场角有限的地面查询影像的匹配定位,因此,后续需要研究小视场角下的地面查询影像的匹配定位问题; ② 由于跨视角图像匹配与定位算法采用图像匹配方式进行地理定位,目前大多数算法仍然局限于图像级的定位精度,无法准确识别地面查询图像的具体拍摄位点。因此,有必要进一步提升跨视角图像匹配与定位算法的定位精度,以实现点级的定位。
■ 本文图文责任编辑: 蒋树芳 黄光玉

利益冲突:Conflicts of Interest 所有作者声明不存在利益冲突。

All authors disclose no relevant conflicts of interest.

[1]
Zhao H, Ren K Y, Yue T Y, et al. TransFG: A cross-view geo-localization of satellite and UAVs imagery pipeline using transformer-based feature aggregation and gradient guidance[J]. IEEE Transactions on Geoscience and Remote Sensing, 2024, 62:1-12. DOI:10.1109/TGRS.2024.3352418

[2]
朱容蔚, 詹银虎, 李广云. 利用恒星与低轨卫星同时成像实现地面定位的算法[J]. 测绘学报, 2024, 53(7):1278-1287.

[ Zhu R W, Zhan Y H, Li G Y. Algorithm for ground positioning by simultaneously imaging stars and low orbit satellites[J]. Acta Geodaetica et Cartographica Sinica, 2024, 53(7):1278-1287.] DOI:10.11947/j.AGCS.2024.20230079

[3]
饶子昱, 卢俊, 郭海涛, et al. 利用视角转换的跨视角影像匹配方法[J]. 地球信息科学学报, 2023, 25(2):368-379.

[ Rao Z Y, Lu J, Guo H T, et al. A Cross-View Image Matching Method with Viewpoint Conversion[J]. Journal of Geo-information Science, 2023, 25(2):368-379.] DOI:10.12082/dqxxkx.2023.220312

[4]
Hu S X, Feng M D, Nguyen R M H, et al. CVM-net: Cross-view matching network for image-based ground-to-aerial geo-localization[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:7258-7267. DOI:10.1109/CVPR.2018.00758

[5]
Wang J, Zhou F, Wen S L, et al. Deep metric learning with angular loss[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017:2612-2620. DOI:10.1109/ICCV.2017.283

[6]
Arandjelović R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6):1437-1451. DOI:10.1109/TPAMI.2017.2711011

[7]
Shi Y J, Liu L, Yu X, et al. Spatial-aware feature aggregation for image based Cross-View Geo-Localization[J]. Neural Information Processing Systems, 2019,32:10090-10100. DOI:10.5555/3454287.3455192

[8]
Toker A, Zhou Q J, Maximov M, et al. Coming down to earth: Satellite-to-street view synthesis for geo-localization[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:6488-6497. DOI:10.1109/CVPR46437.2021.00642

[9]
Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11):139-144. DOI:10.1145/3422622

[10]
Zhu S J, Yang T, Chen C. VIGOR: Cross-view image geo-localization beyond one-to-one retrieval[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:5316-5325. DOI:10.1109/CVPR46437.2021.00364

[11]
Deuser F, Habel K, Oswald N. Sample4Geo: Hard negative sampling for cross-view geo-localisation[C]//2023 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2023:16801-16810. DOI:10.1109/ICCV51070.2023.01545

[12]
van den Oord A, Li Y Z, Vinyals O. Representation learning with contrastive predictive coding[J]. 2018.DOI:10.48550/arXiv.1807.03748

[13]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in Neural Information Processing Systems, 2017:5998-6008. DOI:10.48550/arXiv.1706.03762

[14]
Zhu S J, Shah M, Chen C. TransGeo: Transformer is all you need for cross-view image Geo-localization[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:1162-1171. DOI:10.1109/CVPR52688.2022.00123

[15]
Touvron H, Cord M, Douze M, et al. Training data-efficient image transformers & distillation through attention[C]. International conference on machine learning.PMLR, 2021:10347-10357. DOI:10.48550/arXiv.2012.12877

[16]
Yang H, Lu X, Zhu Y. Cross-view geo-localization with layer-to-layer transformer[J]. Advances in Neural Information Processing Systems, 2021,34:29009-29020.

[17]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:770-778. DOI: 10.1109/CVPR.2016.90

[18]
Li Y X, Hou Q B, Zheng Z H, et al. Large selective kernel network for remote sensing object detection[C]//2023 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2023:16748-16759. DOI:10.1109/ICCV51070.2023.01540

[19]
Kwon J, Kim J, Park H, et al. ASAM: Adaptive sharpness-aware minimization for scale-invariant learning of deep neural networks[J]. International Conference on Machine Learning. PMLR, 2021:5905-5914. DOI:10.48550/arXiv.2102.11600

[20]
Zhai M H, Bessinger Z, Workman S, et al. Predicting ground-level scene layout from aerial imagery[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:4132-4140. DOI:10.1109/CVPR.2017.440

[21]
Liu L, Li H D. Lending orientation to neural networks for cross-view geo-localization[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019:5617-5626. DOI:10.1109/CVPR.2019.00577

[22]
Shi Y J, Yu X, Campbell D, et al. Where am I looking at? joint location and orientation estimation by cross-view matching[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:4063-4071. DOI:10.1109/CVPR42600.2020.00412

[23]
Zhang X H, Li X Y, Sultani W, et al. GeoDTR+: Toward generic cross-view geolocalization via geometric disentanglement[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 46(12):10419-10433. DOI:10.1109/TPAMI.2024.3443652

[24]
Liu Z, Mao H Z, Wu C Y, et al. A ConvNet for the 2020s[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:11966-11976. DOI:10.1109/CVPR52688.2022.01167

[25]
Zhang X H, Li X Y, Sultani W, et al. Cross-view geo-localization via learning disentangled geometric layout correspondence[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37(3):3480-3488. DOI:10.1609/aaai.v37i3.25457

[26]
Zhu Y Y, Yang H J, Lu Y X, et al. Simple, effective and general: A new backbone for cross-view image geo-localization[J]. ArXiv preprint.DOI:10.48550/arXiv.2302.01572

[27]
Guo Y L, Choi M, Li K H, et al. Soft exemplar highlighting for cross-view image-based geo-localization[J]. IEEE Transactions on Image Processing: A Publication of the IEEE Signal Processing Society, 2022, 31:2094-2105. DOI:10.1109/TIP.2022.3152046

[28]
Ali-Bey A, Chaib-Draa B, Giguére P. MixVPR: Feature mixing for visual place recognition[C]// 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE, 2023:2997-3006. DOI:10.1109/WACV56688.2023.00301

[29]
Selvaraju R R, Cogswell M, Das A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization[C]. Proceedings of the IEEE International Conference on Computer Vision, 2017:618-626. DOI:10.1109/ICCV.2017.74

文章导航

/