A Cross-View Image Matching Method with Viewpoint Conversion

RAO Ziyu; LU Jun; GUO Haitao; YU Donghang; HOU Qingfeng

doi:10.12082/dqxxkx.2023.220312

Journal of Geo-information Science >

2023 , Vol. 25 >Issue 2: 368 - 379

DOI: https://doi.org/10.12082/dqxxkx.2023.220312

A Cross-View Image Matching Method with Viewpoint Conversion

RAO Ziyu ,
LU Jun ^,^* ,
GUO Haitao ,
YU Donghang ,
HOU Qingfeng

Expand

Institute of Geospatial Information, Strategic Support Force Information Engineering University, Zhengzhou 450001, China

^* LU Jun, E-mail: ljhb45@126.com

Received date: 2022-05-16

Revised date: 2022-06-29

Online published: 2023-04-19

Supported by

National Natural Science Foundation of China(41601507)

Foundation Strengthening Program Technology Field Fundation(2019-JCJQ-JJ-126)

Fold

Abstract

At present, the cross-view matching technology of remote sensing images cannot directly use large-scale satellite images for matching, which is difficult to meet the requirements of large-scale complex scene matching tasks and relies on large-scale datasets, thus lacking a good generalization ability. Aiming at the above problems, this paper proposes a cross-view remote sensing image matching method based on visual transformation using the quality-aware template matching method combined with the multi-scale feature fusion algorithm. In this method, the ground multi-view images are collected by using handheld photographic equipment. The portability and flexibility of the handheld photographic equipment can make it easier for us to collect multi-view images covering the target area. The acquired images are densely matched to generate point cloud data, and principal component analysis is used to fit the best ground plane and perform projection transformation to realize the conversion from the ground side view to the aerial view. Then, a feature fusion module is designed for the VGG19 network. The low, medium and high-level features extracted from remote sensing images are fused to obtain rich spatial and semantic information of remote sensing images. The fusion features of semantic information and spatial information can resist large-scale differences. Finally, the quality-aware template matching method is used. The features extracted from the ground images are matched with the fusion features of the remote sensing images. The matching soft ranking results are obtained, and the non-maximum suppression algorithm is used to select high-quality matching results. The experimental results show that the method proposed in this paper has a high accuracy and strong generalization ability without the need of large-scale datasets. The average matching success rate is 64.6%, and the average center point offset is 5.9 pixels. The matching results are accurate and complete, which provide a new solution for the task of cross-view image matching in large scenes.

Key words： remote sensing image; cross-view matching; viewpoint transformation; multi-scale feature; feature fusion; template matching; generalization

Cite this article

RAO Ziyu , LU Jun , GUO Haitao , YU Donghang , HOU Qingfeng . A Cross-View Image Matching Method with Viewpoint Conversion[J]. Journal of Geo-information Science, 2023 , 25(2) : 368 -379 . DOI: 10.12082/dqxxkx.2023.220312

1 引言

基于跨视角影像匹配的定位技术是指将待查询的地面视角影像（多角度侧视影像）与具备位置信息的航空或卫星影像（空视影像）进行匹配，从而获取地面视角影像位置信息的一种技术。该技术在GNSS拒止条件下的目标定位、基于开源信息的目标跟踪、遥感影像多层次全空间的监测体系构建等方面具有广泛的应用价值。但由于视角和尺度的巨大差异，跨视角匹配方法面临很多问题：① 因传感器平台拍摄角度差异，不同地面视角影像与空视影像之间的视角差通常在80°以上，巨大的视角差异导致同一物体在地面影像和空视影像上的呈现形式完全不同，造成匹配困难问题；② 现实场景中乡村田野、居民楼、道路等物体存在大量相似的特征，导致匹配信息重复度较高，影响匹配精度； ③ 地面影像经常会包含汽车、行人等瞬态非固定物体，这些物体通常不会出现在空视影像中相应位置，造成对匹配过程的干扰，影响匹配结果的准确性。

目前，国内外学者针对跨视角匹配技术进行了广泛且深入的研究，提出了大量的匹配方法。早期跨视角匹配算法的思路为先手动提取明显的局部特征点，然后设计相应的描述符来完成匹配，如以Im2GPS^[1-2]为基础的方法，采用从数据库中筛选出与查询影像最相似的带有地理标记的结果。Itti等^[3]提出一种计算场景关键点，即通过在场景影像中匹配具有显著特征的地标来完成定位的方法。然而，由于同一位置的地面影像与空视影像存在较大的几何、时相等差异，使用局部特征直接进行匹配的方法效果甚微。Relja等^[4]发现聚合局部描述符向量（Vector of Locally Aggregated Descriptors，VLAD）聚合的全局描述符对视角差异有较高的鲁棒性，提出NetVLAD算法将传统的VLAD变成了可微分的算法，使用卷积将局部特征描述子聚合成全局描述符。Where-CNN^[5]利用孪生神经网络结构，将跨视角匹配问题转换为影像检索问题，使用2个网络分支分别处理地面影像和空视影像来解决视角差异过大造成的匹配困难问题。此后大部分基于深度学习的跨视角匹配方法延续了NetVLAD和Where-CNN的思想，主要可分为基于表征学习的方法和基于视角转换的方法2类。基于表征学习的方法需要从影像中提取特征，建立描述子后直接对地空影像进行匹配。CVM-net^[6]使用了孪生神经网络与NetVLAD的组合结构来解决跨视角匹配问题，并结合了加权软边际排名损失函数加速模型收敛，提高了模型的精度。Liu等^[7-8]和Zhu^[9-10]等认为方向信息可以在跨视角匹配中起到重要作用，提出一种可以同时学习影像表征和朝向信息的孪生神经网络。 Ge等^[11]发现目前的方法仅能提供带有噪声的GPS做标签，因此提出了一种自监督结合细粒度的区域相似度的学习方法，获得了良好的匹配效果。基于视角转换的方法使用辅助信息对地面侧视影像或空视影像进行扭曲变换，来消除地空影像之间的视角差异^[12]。CDtE^[13]使用生成式对抗网络（Generative Adversarial Networks, GAN）将空视影像转换合成街景影像，同时完成了影像合成与匹配任务。文献[14]-[15]使用语义分割的结果作为辅助信息，更好地完成了空视影像到地面影像的扭曲变换。综上所述，基于深度学习的方法在跨视角匹配领域逐渐成为未来发展主流趋势，然而目前仍有一些问题亟待解决：① 大部分表现优异的算法是利用全局特征描述来建立卫星影像与地面影像的匹配关系，这种图与图之间的匹配关系只能适用于小幅卫星影像，因此地面影像与大幅卫星影像直接匹配时非常困难，往往需要对卫星影像进行裁剪等预处理；② 目前大部分方法依赖于大型数据集，在数据集之外的影像上不具备良好的泛化能力，例如在城市数据集上训练的模型在乡村地区往往不再适用，不同国家建筑风格的差异也会使模型精度大幅下降。

针对上述问题，一些学者引入如平方差和（SSD）、归一化积相关（NCC）等模板匹配方法，使地面影像可以直接与大幅空视影像进行匹配定位，以获得更广泛的应用价值。然而，2种视角之下物体的遮挡、透视存在较大区别以及算法本身在尺度、时间等方面的局限性，并未取得良好的结果。另一方面，研究者们尝试将深度学习技术与经典匹配算法相结合，以解决算法对数据集的依赖问题。SC2-PCR^[16]将传统配准方法与深度学习技术相结合，有效的提升了模型的泛化性。Krishna等^[17]融合了多尺度特征后再使用深度学习技术进行跨视角匹配，提升了模型的泛化能力。本文综合模板匹配及特征融合的思想，提出一种结合质量感知模板和深度特征融合的跨视角影像匹配方法。为解决地面侧视影像与空视影像视角差异过大造成的匹配困难问题，设计了将地面侧视影像转换到空视影像的视角转化方法；同时，设计了多尺度特征提取与融合模块来改善模板匹配中的尺度差异问题，提升模型的泛化性；最后，引入质量感知模板匹配方法实现模板匹配方法与深度学习技术的融合，完成视角转换后的地面影像与大幅空视影像之间的匹配。本文方法可实现地空影像跨视角精确匹配任务，弥补了经典算法依赖大型数据集的缺陷，为完成多尺度跨视角影像匹配任务提供一种新思路。

2 跨视角匹配方法

本文的算法流程如图1所示，整体分为3个部分。第1部分为多视影像的视角转换，利用手持摄影设备获取地面物体的多视影像，通过密集匹配建立点云，利用主成分分析法(Principal Component Analysis, PCA)完成投影，生成空视影像；第2部分为多尺度特征的提取与融合，采用特征融合模块（Feature Fusion Module, FFM）将VGG网络^[18]提取的深层特征和浅层特征进行融合，融合后的特征同时兼顾了空间信息和语义信息，以缓解影像尺度差异产生的匹配困难问题；第3部分为深度模板匹配模块，该模块利用质量感知模板匹配模块^[19]（Quality Aware Template Matching，QATM）从视角转换后的地面影像上提取特征并与空视影像的多尺度融合特征进行匹配，获取匹配质量的软排名，从中筛选出高质量的匹配结果。

显示原图|下载原图ZIP|生成PPT

图1 算法流程

Fig. 1 Algorithm flowchart

2.1 多视影像视角转换

地面影像和空视影像剧烈的视角变化通常会导致在匹配时缺乏可靠的环境特征，若通过地面多视影像完成地空影像的视角统一，尽可能消除视角差异所造成的负面影响，则可以大幅提高地空影像匹配任务的可行性和准确度。考虑到如今影像的快速获取技术已经相当成熟，研究人员可以随时随地获取质量良好的数字影像，因此在数据方面满足使用密集匹配方法进行视角转换的条件。另一方面，密集匹配生成点云的优势在于其成本较低、可以较大程度地保留目标物体的纹理信息^[20]，而这些纹理信息将会在地面影像和空视影像的匹配过程中起到至关重要的作用。因此视角转换模块利用摄影设备获取地面物体的多视影像，再通过密集匹配方式生成点云，最后使用PCA将点云投影在平面上完成视角转换。

视角转换是为了将地面侧视影像转换为与空视影像视角相同或相似的高质量影像，以更好的进行下一步的匹配任务。因此采集的地面侧视影像应尽量覆盖目标区域，使密集匹配得到的点云数据尽量完整。获取点云数据后需要先对点云数据进行预处理，对数据进行筛选并剔除一些孤立点后生成待投影点云，再选取空视视角平面作为主平面并建立模型坐标系。此时点云分布于三维空间内，本文的实验数据均是对地观测数据，可假定点云的主要成分位于地面上。由于地形起伏等因素，假定平面和真实地面方向或许会有所差异，但夹角不大，因此这方面误差对结果造成的影响非常轻微。由于点云数据是离散的，在选定主平面时需要进行平面拟合。最小二乘法、随机采样一致性和PCA都是常用的平面拟合算法，文献[21]-[22]表明PCA适合处理此类数据。若将地面近似为一个平面，当点云基本位于一个平面上时，PCA的第一主成分对应于该地面^[22]。将预处理后的三维点云数据作为样本点构造协方差矩阵，则最小特征值所对应的特征向量作为Z轴，然后将离散点变换到坐标系中，舍弃点的Z轴坐标将点云投影至主平面上完成视角转换。重建点在坐标系变换前后关系如式（1）所示。

（1）

X P C A = T × (X - X -)

式中：T为样本X的协方差矩阵特征值构成的变换矩阵；

X P C A

为重建点在坐标系变换后的值；X为重建点在坐标系变换前的值；

X -

为离散三维点的均值。

获得密集点云后通过B样条拟合再内插即得到数字表面模型（Digital Surface Model， DSM）。在得到DSM后，生成的空视影像图像点

x r e c

与对应DSM上点

X d s m

之间投影计算如式（2）所示。最终视角转换的流程如图2所示。

（2）

x r e c = λ (X d s m - X d s m_m i n)

式中：

λ

为DSM与空视影像像素间的比例关系；

X d s m

为DSM的值；

X d s m_m i n

为DSM的最小值。

显示原图|下载原图ZIP|生成PPT

图2 视角转换流程

Fig. 2 The flowchart of perspective conversion

2.2 多尺度特征提取与融合

近年来深度学习技术在影像特征提取方面表现优异，本文选择广泛使用的VGG19从图像中提取特征。VGG作为典型的卷积神经网络（Convolutional Neural Network, CNN）模型，可以同时学习影像的全局特征和局部特征，这一性质在地空影像的场景匹配中能够兼顾图像与图像、特征点与特征点之间的对应关系。此外，VGG通过增加网络深度来影响网络性能，采用连续的小卷积核来代替较大的卷积核，以多层非线性层增加网络深度来保证学习更复杂的模式，而深层网络所包含的多层卷积所提取的丰富特征正是影像匹配研究所需要的^[23]。但目前的VGG网络模型将其提取的全局特征直接馈送至最后一个全连接层，卷积层所学习的局部特征往往被忽略。

QATM作为独立的模板匹配算法时则会存在上述问题，QATM仅使用VGG19所提取的深层特征，虽然可以在模板窗口中抵抗复杂的背景变化，但损失了一定的尺度不变性，影响地空影像匹配任务的精度。因此，本文的设计目标是在QATM的基础上创建一个网络，删除其原有的特征提取部分，引入多尺度特征提取与融合模块，从影像中提取多尺度特征并加以融合。新的特征提取器可以充分利用影像的全局特征和局部特征，提升网络应对尺度差异的性能，从而实现地空影像精确匹配。

将QATM作为独立的模板匹配算法嵌入到特征融合网络时，仅需要训练新的特征提取器，在提升模型泛化性的同时可以避免目前方法需要大规模数据集的问题。训练新的特征提取器时，为了充分利用不同尺度的特征，本文分别提取VGG19网络中conv3-4、conv4-4、conv5-4共3个阶段池化前的输出作为低、中、高尺度特征，分别记作C3、C4、C5。低层特征分辨率较高，可包含更多位置信息；高层特征具有较强的语义信息，但分辨率较低^[24-25]。因此本文设计了特征融合模块将不同卷积层学习的特征进行融合以提升匹配时对尺度差异的容忍度。融合方式采用如式(3)所示的求和运算来处理，并添加相应的通道矩阵元素，形成融合特征。

（3）

X - = ∑ i = 1 N X i

式中：

X -

表示融合特征的特征矩阵；

X i

表示待融合特征的特征矩阵。

FFM采用了自上而下和横向连接的特征传递方式，将具有较高空间分辨率的浅层特征和具有丰富语义信息的深层特征进行融合，从而同时提升网络对影像中小目标的匹配能力及抵抗大尺度差异的综合能力。最后加入全局平均池化策略以得到更丰富的特征信息，其具体结构如图3所示（以C3和C4融合为例）。

显示原图|下载原图ZIP|生成PPT

图3 FFM结构

Fig. 3 Structure of FFM

2.3 质量感知模板匹配

直接使用特征点寻找大尺度影像场景匹配上的对应关系往往会造成算法失效或大量误匹配，因此需要利用影像上多处特征进行聚合以弥补这方面的缺陷。本文借鉴了模板匹配算法的思想，划定窗口扩充可利用特征点的同时界定范围，从而达到聚合局部特征的目的。QATM的主要思想是利用所有匹配对之间的软排名（Soft Ranking）来评估匹配对的质量，匹配得分将准确反映匹配的区别程度，更重要的是QATM具有可学习的参数且可微分。因此，该方法可与深度学习结合或嵌入到现有模型中，实现高精度匹配。这种根据窗口匹配得分来确定最佳匹配区域的算法极适用于大尺度场景匹配任务，若将融合特征输入到QATM中则可很好地达到本文目的。

为了评估匹配质量，算法定义Quality(s,t)为评估s与t之间匹配质量得分，通过评定整体匹配质量最大化的地方来输出最佳匹配区域，QATM可以定义为s与t之间的似然乘积，如式(4)所示。

L (t | s)

和

L (s | t)

的计算如式(5)所示，公式以计算

L (t | s)

为例。

（4）

Q A T M (s, t) = L (t | s) ∙ L (s | t)

（5）

L (t | s) = e x p α ∙ ρ f t, f s ∑ t' ∈ T e x p α ∙ ρ f t', f s

式中：S为待测影像；T为模板影像；s为待测影像补丁；t为模板补丁；

f t

和

f s

为s和t的特征表示；

ρ g

是s和t之间预定义的相似性度量；

α

为可调节的参数；

L (t | s)

为与模板影像中的所有其他补丁相比当前补丁t的软排名，

L (s | t)

为s中匹配的可能性分数。

当

f s

和

f t

相似时，

ρ g

会得出较高的值，当t和s真正匹配时，

ρ f t, f s

应该大于那些不匹配的情况

ρ g

，即最高得分

ρ g

为最佳匹配。选择适当的

α

参数并用softmax激活后，理想的一对一情况下该分数应为1。

α

参数作用为使匹配的补丁排名得分尽可能接近1，不匹配的补丁的排名得分应尽可能接近0。因此，训练合适的

α

会极大程度提升匹配结果的效率与精度，其计算方式如式(6)所示。获得S与T之间成对的结果时，感兴趣区域（Region of Interest，ROI）的匹配质量如式(7)表示。

（6）

α * = a r g m a x α > 0 L t | s + - L t | s -

（7）

q (s) = m a x Q A T M (s, t) | t ∈ T

式中：

L t | s +

表示匹配相似度随

α

的增加而增加；

L t | s -

则相反；

α *

表示最优值；q(·)表示匹配质量函数。

最终可以找到整体匹配质量最大化的区域，即最佳匹配区域

R *

。

（8）

R * = a r g m a x R ∑ r ∈ R q (r)

式中：

R *

表示最佳匹配区域；R表示ROI，r为变量。

3 实验与分析

3.1 实验数据与环境

为了充分验证本文模型的泛化性和有效性，实验数据需要具备丰富的影像信息，如影像所在地区、影像分辨率等。因此本文采用融合数据集，以Google Earth L19-L20级郑州地区卫星影像、部分CVUSA^[26]城市地区卫星影像、部分Vo和 Hays^[27]城区卫星影像、University1652^[28]部分影像及摄取的无人机影像作为空视影像，以手持摄影设备采集的目标影像和网络上的街景影像作为地面多视角影像。其中CVUSA、Vo and Hays和University1652是跨视角匹配领域常用的公开数据集，具有多种类型影像并具备地面影像和空视影像之间的对应关系。空视影像数据空间分辨率在米级或亚米级。手持摄影设备采集影像的高度约2 m。数据集中包含城市、郊区乡村、大学等区域。城市区域以建筑为主，具备丰富的特征，但特征重复且信息复杂度高。郊区与乡村区域影像视野开阔，背景复杂度较低，但具备的特征较少。而各大学区域融合了城市与乡村的特点，既具备影像视野开阔的简单区域又具备较为复杂的建筑区。中美两国的城市乡村数据也存在城建规划、建筑风格等差异，如美国的城市规划呈网格状，生活区的写字楼、商城等建筑与居住区的居民楼建筑分离；中国的城市规划呈树杈状，且生活区与居住区的建筑交叉。数据详情及示例如表1和图4所示。

表1 卫星数据集详情

Tab.1 Dataset Details

数据集名称	CVUSA	Vo and Hays	郑州地区Google Earth影像	University1652
空间分辨率/m	亚米级	亚米级	0.45~0.6	亚米级
辅助信息(GPS)	有	有	无	无
地区	美国各地	波士顿、休斯顿	郑州	世界各地
数据类型	城市、郊区	城市	城市、乡村	大学

显示原图|下载原图ZIP|生成PPT

图4 实验数据示例

Fig. 4 Example of experimental dataset

实验中所有程序在Windows系统上运行，使用Python 3.6及Matlab 2018进行编程，CPU为i9-9900，64 GB。所用GPU为NVIDIA GeForce RTX 3090，24 GB，深度学习网络使用Pytorch框架实现。除Deformable Diversity Similarity（DDIS）^[29]在Matlab中进行外，其余网络均使用PyCharm进行编译。本文在特征融合与模板匹配模块采用深度学习方法，训练集和验证集采用Vo and Hays、CVUSA部分影像和University1652影像，测试集均为采集的郑州地区Google Earth影像和地面影像。实验共使用620张卫星影像和380张无人机影像来训练特征提取器，训练集、测试集和验证集划分比为7:2:1；以根据地面目标采集的约640张多视影像仅用于视角转换模块，不参与训练。网络采用Adam优化器，学习率为0.000 01，批大小（batch size）为4，共训练20次。

3.2 评价方法

本文使用匹配成功率、误匹配数量和中心点偏移量3个指标来评价网络性能。匹配成功率与误匹配数量作为各网络性能的评价指标，中心点偏移量作为进一步的评价指标。其中，当匹配结果与真实地面目标框重叠率超过60%时认为匹配成功，匹配成功率计算公式如式(9)所示。

（9）

O = P a P

式中：

P a

为匹配成功数；P为匹配总数；O为匹配成功率。

本文的实验目的中符合实验要求的只有一对一的正确匹配，因此误匹配数量

P b

也是衡量网络性能的重要指标，计算公式为：

（10）

P b = P - P a

式中：

P b

表示误匹配数量；P表示匹配总数；

P a

表示匹配成功数。

中心点偏移量以像素为单位计算匹配结果与真值标签之间的误差，能更精确地反映匹配误差的实际情况，具体表现为匹配结果和真值标签各自矩形框对角线交点的距离。如图5的可视化示例所示，该指标在各网络都能成功进行匹配且匹配成功率相近时，更能客观地评价网络性能。

显示原图|下载原图ZIP|生成PPT

图5 中心点偏移量可视化图示例

Fig. 5 Center point offset visualization

3.3 实验结果与分析

3.3.1 视角转换与匹配结果

为了验证本文提出的视角转换模块的有效性，在空视影像对应范围内通过手持摄影设备获取地面近景影像进行实验验证，实验范围为郑州市区和登封乡村地区。采集影像的数量取决于地面目标大小，如图6第一行所示，真实地面目标约为6.5 m×6.5 m，实验在待定区域使用手持摄影设备采集了18张地面视角影像，采集的影像尽量覆盖待定区域，如图6(a)—图6(e)，生成相应的空视影像如图6(f)所示。实验结果表明，手持摄影设备所摄取的多视影像经过视角转换可以生成质量良好的空视影像。生成相应的空视影像后则可以将其输入到后续的网络中，完成大尺度差异的地空匹配与定位任务，其数据示例如图7所示。

显示原图|下载原图ZIP|生成PPT

图6 多视图生成空视影像示例

Fig. 6 Example of conversion result

显示原图|下载原图ZIP|生成PPT

图7 待匹配影像在卫星影像上具体位置示例

Fig. 7 The specific location of the image to be matched on the satellite image

为验证本文所设计多尺度质量感知模板匹配方法的有效性和泛化性，利用相同的测试数据对比了几种较为先进的模板匹配方法，其中测试数据均为未参与训练的郑州地区空视影像，建筑风格与训练数据中的美国波士顿、西雅图等地存在较大差异。对比方法一为DDIS，对比方法二为未作改进的QATM。标签影像以及不同方法的匹配结果如图8所示,其中前三行为城市地区匹配结果示例，后两行为乡村地区匹配结果示例。由于地面侧视影像生成的空视影像目标较小且信息不丰富，在大范围卫星影像上必然包含大量相似的特征信息。而在大多数地空匹配任务中，只有一对一的正确匹配才能被认为是准确而高效的，因此剔除误匹配也是影响方法有效性的重要因素。本文在采集的数据集上分别使用3种方法进行实验，根据试验结果绘制阈值和总体成功率曲线以确定最佳匹配关系，其中总体成功率指成功匹配到目标的影像对占总体的百分比，结果如图9所示。

显示原图|下载原图ZIP|生成PPT

图8 各方法匹配结果

Fig. 8 Various method matching results

显示原图|下载原图ZIP|生成PPT

图9 各方法匹配结果的阈值-总体成功率曲线

Fig. 9 Threshold-Overall success rate curve of each method

综合实验结果可知，3种方法在常用阈值 0.6~0.7的平均成功率分别为57.3%、61.5%、68.5%，对比不同方法的匹配结果可知，方法一匹配结果的准确性较低，方法二在多数情况下匹配到了正确的目标，但存在较多的误匹配。主要原因在于：本文采集的数据集在尺度方面差异过大，方法一不具备较高的尺度鲁棒性，而方法二仅使用VGG19深层特征，其特点在于语义信息丰富但缺失空间信息，因此存在大量误匹配；此外VGG19网络较深，因此相对于方法一另外2种算法可以提取高维特征以抵抗大尺度差异造成的影响，而本文方法相较于方法二加入了多尺度特征融合机制，提高了匹配的准确度。对比城市和乡村的匹配结果可知，在多数情况下，3种方法在乡村地区都能匹配到正确目标，但都包含多余匹配。在城市地区存在较多未能匹配到正确目标的情况，但多余匹配较少。主要原因在于：乡村地区多为水库、农田、道路、丘陵等，其视野较为开阔。因此乡村地区的卫星影像较城市地区而言背景复杂度低，但缺少明显目标且存在大量相似的地面物体。城市地区的影像情况较为复杂，匹配难度随之上升。总体上本文方法适用于具有明显特征的目标地区，与目标所在地区无关，但在具有大量重复目标的区域方法的精度有所降低；本文方法可以直接使用大幅卫星影像与地面影像进行匹配，避免了其他方法进行影像裁剪所造成的边缘问题。

3.3.2 精度评价与消融实验

为了进一步探究本文方法可行性，本文分别选择在视角转换后生成的良好影像和瑕疵影像（即生成的空视影像存在较大的扭曲变形或缺失）上进行验证，数据示例如图10所示。为了进一步评价本文方法的泛化能力，本文分别在城市和乡村地区的实验结果中统计平均匹配成功率和平均误匹配数量，如表2所示。

显示原图|下载原图ZIP|生成PPT

图10 视角转换结果数据示例

Fig. 10 Data example

表2 城市-乡村地区实验结果

Tab.2 The experimental results of Urban-Rural

	匹配成功率/%		平均多余误匹配数/个
	良好影像	瑕疵影像	良好影像	瑕疵影像
城市	66.9	62.1	2.2	3.8
乡村	62.3	60.3	4.5	5.1

分析实验结果可知，本文方法在城市和乡村地区都具备有效性，但由于乡村地区具备明显可区分性特征的目标较少且存在大量相似特征，其精度有所降低。另一方面，当地面多视影像不能覆盖目标区域或影像重叠度不足时则会出现如图10(b)所示的瑕疵影像。使用瑕疵影像输入到网络模型时会对结果产生负面影响，降低匹配精度，这表明视角转换结果的质量直接影响到匹配结果的精度。并且瑕疵影像对城市区域的影响相对于乡村地区的影响更大，其原因可能在于瑕疵影像存在像素的缺失和特征的扭曲变形，降低了特征的可靠性，导致产生误匹配。而在乡村地区本就存在大量相似目标，瑕疵影像特征可靠性降低对模型产生的影响与相似目标的易混淆性对网络造成的影响相似或相关，因此瑕疵影像对城市地区的影响较大，对乡村地区的影响较小。

为探究不同特征以及影像的视角转换对匹配结果影响，将conv3-4、conv4-4、conv5-4特征的不同组合方式和不同类型的视角转换结果输入到质量感知模板匹配模块中进行实验，不同特征的地空匹配结果统计如表3所示，在统计结果时平均成功率低于20%或平均误匹配数多于5个则认为方法失效。从表3可以看出，融合conv3-4、conv4-4、conv5-4特征所获得的匹配成功率最高，这说明融合低层特征的空间信息和高层特征的语义信息对整体结果产生了积极的影响，而所有方法输入未经视角转换的影像数据在所设标准下均表现失效。需要说明的是，所有方法的中心点偏移量虽然都在5个像素以上，但本文的目的是通过匹配获得地面目标的区域性定位结果，因此中心点偏移量误差在允许范围之内。

表3 消融实验结果

Tab.3 Ablation experiment results

conv3-4	conv4-4	conv5-4	匹配成功率 /%			中心点偏移量/像素
conv3-4	conv4-4	conv5-4	视角转换影像	未视角转换影像	瑕疵影像	中心点偏移量/像素
√	×	×	44.6	-	40.1	10.8
×	√	×	41.7	-	34.9	13.6
×	×	√	57.4	-	51.9	8.8
√	×	√	61.3	-	56.1	7.6
×	√	√	56.8	-	53.7	8.4
√	√	√	64.6	-	61.2	5.9

注：加粗字体为每列最优值，-表示方法失效。

综合实验结果可知，在地空影像匹配任务中，地面影像经视角转换可大幅提升匹配成功率；使用融合特征进行地空影像匹配可提升匹配结果的精度。此外，本文方法不依赖大型数据集，并且在具备纹理特征的区域进行视角转换后即可有效的进行地空影像匹配任务。但不具备采集覆盖目标区域的地面侧视影像的条件时，会对匹配精度造成较大的影响。

4 结论与讨论

4.1 结论

本文面向遥感影像跨视角匹配任务，提出一种利用视角转换的跨视角匹配方法，该方法在显著视角及尺度差异的场景下能够完成地面影像与大幅空视影像的直接匹配，并且不受影像所在区域限制，匹配结果基本能够满足视觉定位的需求。本文方法的主要贡献在于：

（1）针对地空影像大视角差异造成的匹配困难问题，提出了视角转换模块。利用覆盖目标的多视影像生成稠密点云，建立模型坐标系并进行投影变换从而完成地面视角到空视视角的转换。实验表明，本文的视角转换模块在多视影像能覆盖目标区域时能够生成结构完整，特征丰富的空视影像。

（2）提出一种基于视角转换的跨视角匹配方法，该方法采用FFM融合VGG19所提取的深层特征和浅层特征，使融合后的特征兼顾了空间信息和语义信息。然后使用QATM中质量感知软排名的匹配方式并结合尺度、语义和空间的上下文信息，从而获得尺度不变性、全局图像信息和处理大幅卫星影像匹配的能力。实验结果显示，输入相同的待匹配影像，本文方法的匹配成功率在全范围内优于其余2种方法；在常用阈值0.6~0.7范围内，本文方法的匹配成功率分别高于其余2种方法11.5%和7.0%。

（3）证明了CNN与经典方法相结合可以有效提升模型的泛化能力。经实验可得，以美国波士顿等地区数据训练所得平均匹配成功率为65.3%，平均中心点偏移量为5.5像素；中国郑州地区测试所得平均匹配成功率为64.6%，平均中心点偏移量为5.9像素；在乡村地区的平均匹配成功率比城市地区低4.6%，平均多余误匹配多2.3个。结果表明本文方法取得了良好的有效性和泛化能力。

4.2 讨论

本文方法虽然取得了一定的效果，但仍有一些尚待优化：① 统计方法耗时情况发现，本文方法在GPU加速的条件下处理3200像素×3200像素的卫星影像与转换后空视影像之间的匹配用时6.4621 s，并且视角转换模块使用了密集匹配的方式来生成点云，因此模型在时间性能上具有较大的优化空间；② 本文方法较为依赖视角转换生成的空视影像质量，若不具备获取覆盖目标区域地面侧视影像的条件，本文方法会受到一定限制；③ 本文方法在缺少特征的地区或存在大量重复目标的区域存在一定的局限性，在缺少特征的区域无法通过密集匹配获得足够精度的点云数据；在大量重复目标的区域本文方法虽然可以匹配到正确目标，但结果中必然伴随多余误匹配。因此，如何进一步提升匹配准确率与时间性能的同时加入误匹配筛除模块，是未来进一步的研究方向。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	Choi J F G, Choi J, Friedland G. Multimodal location estimation of videos and images[M]. Cham: Springer, [2014] DOI:10.1007/978-3-319-09861-6 DOI

[2]	Hays J, Efros A A. IM2GPS: estimating geographic information from a single image[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2008:1-8. DOI:10.1109/CVPR.2008.4587784 DOI

[3]	Siagian C, Itti L. Biologically inspired mobile robot vision localization[J]. IEEE Transactions on Robotics, 2009, 25(4):861-873. DOI:10.1109/TRO.2009.2022424 DOI

[4]	Arandjelović R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2017:1437-1451. DOI:10.1109/TPAMI.2017.2711011 DOI

[5]	Lin T Y, Cui Y, Belongie S, et al. Learning deep representations for ground-to-aerial geolocalization[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2015:5007-5015. DOI:10.1109/CVPR.2015.7299135 DOI

[6]	Hu S X, Feng M D, Nguyen R M H, et al. CVM-net: Cross-view matching network for image-based ground-to-aerial geo-localization[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2018:7258-7267. DOI:10.1109/CVPR.2018.00758 DOI

[7]	Shi Y J, Yu X, Liu L, et al. Optimal feature transport for cross-view image geo-localization[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7):11990-11997. DOI:10.1609/aaai.v34i07.6875 DOI

[8]	Liu L, Li H D. Lending orientation to neural networks for cross-view geo-localization[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019:5617-5626. DOI:10.1109/CVPR.2019.00577 DOI

[9]	Zhu S J, Yang T, Chen C. VIGOR: cross-view image geo-localization beyond one-to-one retrieval[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021:5316-5325. DOI:10.1109/CVPR46437.2021.00364 DOI

[10]	Zhu S J, Yang T, Chen C. Revisiting street-to-aerial view image geo-localization and orientation estimation[C]. IEEE Winter Conference on Applications of Computer Vision, 2021:756-765. DOI:10.1109/WACV48630.2021.00080 DOI

[11]	Ge Y X, Wang H B, Zhu F, et al. Self-supervising fine-grained region similarities for large-scale image localization[C]. European Conference on Computer Vision, 2020:369-386. DOI:10.1007/978-3-030-58548-8_22 DOI

[12]	Shi Y J, Yu X, Campbell D, et al.Where Am I looking at? joint location and orientation estimation by cross-view matching[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020:4063-4071. DOI:10.1109/CVPR42600.2020.00412 DOI

[13]	Toker A, Zhou Q J, Maximov M, et al. Coming down to earth: Satellite-to-street view synthesis for geo-localization[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021:6484-6493. DOI:10.1109/CVPR46437.2021.00642 DOI

[14]	Mousavian A, Kosecka J. Semantic image based geolocation given a map[EB/OL]. 2016: arXiv: 1609.00278. https://arxiv.org/abs/1609.00278.

[15]	Wu S, Tang H, Jing X Y, et al. Cross-View Panorama Image Synthesis[J]. IEEE Transactions on Multimedia, 2022. DOI:10.1109/tmm.2022.3162474 DOI

[16]	Chen Z, Sun K, Yang F, et al. SC2-PCR: A Second Order Spatial Compatibility for Efficient and Robust Point Cloud Registration[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 13221-13231. DOI:10.5220/0005750606300637 DOI

[17]	Regmi K, Shah M. Bridging the domain gap for ground-to-aerial image matching[C]. IEEE/CVF International Conference on Computer Vision, 2019:470-479. DOI:10.1109/ICCV.2019.00056 DOI

[18]	Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: arXiv: 1409.1556. https://arxiv.org/abs/1409.1556

[19]	Cheng J X, Wu Y, AbdAlmageed W, et al. QATM: quality-aware template matching for deep learning[C]. IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2019:11545-11554. DOI:10.1109/CVPR.2019.01182 DOI

[20]

闫利, 费亮, 陈长海, 等. 利用网络图进行高分辨率航空多视影像密集匹配[J]. 测绘学报, 2016, 45(10):1171-1181.

[ Yan

, Fei

, Chen

C H

, et al. A multi-view dense matching algorithm of high resolution aerial images based on graph network[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(10):1171-1181. ] DOI:10.11947/j.AGCS.2016.20160068

DOI

[21]	郭复胜, 高伟. 基于辅助信息的无人机图像批处理三维重建方法[J]. 自动化学报, 2013, 39(6):834-845. [ Guo F S, Gao W. Batch reconstruction from UAV images with prior information[J]. Acta Automatica Sinica, 2013, 39(6):834-845. ] DOI:10.3724/SP.J.1004.2013.00834 DOI

[22]	郭复胜, 高伟, 胡占义. 无人机图像全自动生成大比例尺真正射影像方法[J]. 中国科学:信息科学, 2013, 43(11):1383-1397. [ Gao W, Hu Z Y. Automatic generation of large scale true ortho-image from UAV images[J]. Scientia Sinica (Informationis), 2013, 43(11):1383-1397. ] DOI: 10.1360/112012-591 DOI

[23]	Fan J H, Bocus M J, Hosking B, et al. Multi-scale feature fusion: Learning better semantic segmentation for road pothole detection[C]. IEEE International Conference on Autonomous Systems, 2021:1-5. DOI: 10.1109/ICAS49788.2021.9551165 DOI

[24]	Ma C, Huang J B, Yang X K, et al. Hierarchical convolutional features for visual tracking[C]. IEEE International Conference on Computer Vision, 2015:3074-3082. DOI:10.1109/ICCV.2015.352 DOI

[25]	Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2017:936-944. DOI:10.1109/CVPR.2017.106 DOI

[26]	Workman S, Souvenir R, Jacobs N. Wide-area image geolocalization with aerial reference imagery[C]. Proceedings of the IEEE International Conference on Computer Vision, 2015: 3961-3969. DOI: 10.1109/iccv.2015.451 DOI

[27]	Vo N N, Hays J. Localizing and Orienting Street Views Using Overhead Imagery[C]. European Conference on Computer Vision, 2016:494-509. DOI:10.1007/978-3-319-46448-0_30 DOI

[28]	Zheng Z D, Wei Y C, Yang Y. University-1652: A multi-view multi-source benchmark for drone-based geo-localization[C]. Proceedings of the 28th ACM International Conference on Multimedia, 2020:1395-1403. DOI:10.1145/3394171.3413896 DOI

[29]	Talmi I, Mechrez R, Zelnik-Manor L. Template matching with deformable diversity similarity[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2017:1311-1319. DOI:10.1109/CVPR.2017.144 DOI

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 跨视角匹配方法

图1 算法流程

2.1 多视影像视角转换

图2 视角转换流程

2.2 多尺度特征提取与融合

图3 FFM结构

2.3 质量感知模板匹配

3 实验与分析

3.1 实验数据与环境

表1 卫星数据集详情

图4 实验数据示例

3.2 评价方法

图5 中心点偏移量可视化图示例

3.3 实验结果与分析

3.3.1 视角转换与匹配结果

图6 多视图生成空视影像示例

图7 待匹配影像在卫星影像上具体位置示例

图8 各方法匹配结果

图9 各方法匹配结果的阈值-总体成功率曲线

3.3.2 精度评价与消融实验

图10 视角转换结果数据示例

表2 城市-乡村地区实验结果

表3 消融实验结果

4 结论与讨论

4.1 结论

4.2 讨论

References