图像地理定位研究进展

黄高爽; 周杨; 胡校飞; 赵璐颖; 张呈龙

doi:10.12082/dqxxkx.2023.230073

地球信息科学学报 >

2023 , Vol. 25 >Issue 7: 1336 - 1362

DOI: https://doi.org/10.12082/dqxxkx.2023.230073

图像地理定位研究进展

黄高爽 ,
周杨 ^,^* ,
胡校飞 ,
赵璐颖 ,
张呈龙

展开

中国人民解放军战略支援部队信息工程大学地理空间信息学院，郑州 450001

*周杨（1974— ），男，贵州安顺人，教授，博士，主要从事网络空间测绘、影像智能解译、空间数据可视化等研究。E-mail: zhouyang3d@163.com

黄高爽（1997— ），男，河南新乡人，博士生，主要从事网络空间测绘、精密工业摄影测量等研究。E-mail: huanggaoshuang123@163.com

收稿日期: 2023-02-17

修回日期: 2023-04-19

网络出版日期: 2023-06-30

基金资助

河南省自然科学基金项目(202300410536)

收起

A Survey of the Research Progress in Image Geo-localization

HUANG Gaoshuang ,
ZHOU Yang ^,^* ,
HU Xiaofei ,
ZHAO Luying ,
ZHANG Chenglong

Expand

Institute of Geospatial Information，PLA Strategic Support Force Information Engineering University, Zhengzhou 450001, China

*ZHOU Yang, E-mail: zhouyang3d@163.com

Received date: 2023-02-17

Revised date: 2023-04-19

Online published: 2023-06-30

Supported by

Natural Science Foundation of Henan Province(202300410536)

Fold

摘要

图像地理定位是将没有地理位置的图像，通过一系列方法获得对应地理位置，使其与现实地理空间建立关联映射的技术。该技术对进一步挖掘图像信息有着重要的作用，在网络空间测绘、情报获取、用户室外定位、增强现实等方面具有较高的应用价值。尽管计算机视觉领域取得了巨大的进展，但是由于图像地理定位涉及到图像特征提取、大规模数据检索、大规模点云处理、深度学习、地理信息特征提取、几何建模与推理、语义场景理解、基于上下文的推理、多数据融合应用等多个领域，所以对图像的高精度自动地理定位仍是需要进一步解决的难题。本文对图像地理定位研究进展进行了梳理，主要包括图像地理定位方法、图像地理定位数据集、图像地理定位评价方法和图像地理定位总结与展望4个方面。首先按照研究内容相关性将图像地理定位方法分为了图像检索、2D-3D匹配和跨模态检索3类方法，并详细介绍了每一类方法的最新研究进展；其次对图像地理定位研究所用的数据集和评价方法进行了归类与总结；最后分析了图像地理定位的研究现状，并从全球地理定位、自然区域地理定位、多方法融合地理定位、基于POI数据的地理定位和预选位置的精细化定位等方面对图像地理定位的未来研究方向进行了展望。

关键词： 图像地理定位; 网络空间测绘; 图像检索; 多源数据; 评价方法; 数据集

本文引用格式

黄高爽 , 周杨 , 胡校飞 , 赵璐颖 , 张呈龙 . 图像地理定位研究进展[J]. 地球信息科学学报, 2023 , 25(7) : 1336 -1362 . DOI: 10.12082/dqxxkx.2023.230073

Abstract

Image geo-localization is a technique that obtains the geographic location information of an image through a series of methods, so as to establish a mapping relationship with the real geographic space. This technique is important for further image information mining and has potential application value in cyberspace surveying and mapping, intelligence acquisition, user outdoor positioning, and augmented reality. Despite the tremendous progress in the field of computer vision, high-precision automatic geo-localization of images still needs to be addressed due to the involvement of multiple fields such as image feature extraction, large-scale data retrieval, large-scale point cloud processing, deep learning, geographic information feature extraction, geometric modeling and reasoning, semantic scene understanding, context-based reasoning, and multiple data fusion. This paper reviews the progress of image geo-localization research, mainly including image geo-localization methods, image geo-localization datasets, image geo-localization evaluation methods, and summary and prospect of image geo-localization. Firstly, image geolocation methods are classified into three categories, i.e., image retrieval, 2D-3D matching, and cross-modal retrieval, according to the relevance of the research content. Secondly, the datasets and evaluation methods used for image geo-localization research are categorized and summarized. The geo-localization datasets include image datasets, cross-view datasets, Structure from Motion (SfM) datasets, and multimodal datasets, etc. The image geo-localization evaluation metrics include Top-k candidates, localization error, position and orientation error per video frame, and accuracy/recall. Finally, the current status of image geo-localization research is analyzed, and the future research directions of image geo-localization are outlined in terms of global geo-localization, natural area geo-localization, multi-method fusion for geo-localization, Point of Interest (POI) data-based geo-localization, and pre-selected location refinement.

Key words： image geo-localization; cyberspace surveying and mapping; image retrieval; multi-sources data; evaluation method; datasets

1 引言

随着微信、微博、QQ、Twitter、Meta、Instagram、Flickr等国内外社交媒体平台的兴起，网络空间中存在着大量公开图像，这些图像包含了大量潜在的有价值的信息。地理位置信息提供了图像的地理背景，对进一步提取图像的信息有着重要的作用，如网络空间测绘、情报获取、图像内的目标定位、基于模型的图像增强、增强现实等。然而，这些图像中大多数没有地理位置信息，据Flatow等^[1]的研究，Twitter上大约只有2%的图像有地理位置信息，Instagram上只有大约25%，所以图像地理定位具有较高的研究价值。另外，图像地理定位还可以在GNSS拒止条件下辅助用户室外定位、无人机、无人驾驶汽车定位。

图像地理定位，国际上名为Image Geo-localization或Visual Place Recognition (VPR)。Hays等^[2]认为图像地理定位是“给定一张图像，利用某种方法估计出该图像的地理位置分布的过程”，Bansal等^[3]将问题定义为“给定一个城市或区域的地面街景图像，在没有任何GPS或相机参数的情况下确定出相机的地理位置”，Zamir等^[4]认为图像地理定位是“通过寻找待定位图像的匹配图像来估计待定位图像的位置”。本文将图像地理定位定义为：采用一定的方法获得待查询图像的地理位置，并与现实地理空间建立关联映射的技术。

本文利用VOSviewer软件对图像地理定位文献的演化趋势进行分析，获得了图像地理定位文献趋势演化图谱（图1）。根据研究内容的内涵与相关性，图谱可以大致分为右侧、左上和左下3个部分，分别对应图像检索、2D-3D匹配、跨模态检索三类图像地理定位方法。

显示原图|下载原图ZIP|生成PPT

图1 图像地理定位文献趋势演化图谱

Fig. 1 Literature trend evolution map of image geo-localization

图像检索是以已知地理位置的图像为参考数据来实现地理定位的一类方法，包括地面视角图像检索、跨视角图像检索。2D-3D匹配包括单张图像2D-3D匹配和序列图像2D-3D匹配，分别对应运动恢复结构(Structure from Motion, SfM)与实时定位与地图构建(Simultaneous Localization and Mapping, SLAM)。跨模态检索是将查询图像与数字高程模型 (Digital Elevation Model, DEM)^[5⇓⇓-8]、LiDAR点云数据^[9]、GIS属性数据^[10]、地形图、语义图、合成深度图等不同模态的数据进行跨模态检索，从而完成地理定位的过程，主要包括轮廓特征检索、图像GIS语义检索、几何纹理特征检索等方法，如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 图像地理定位方法

Fig. 2 Image geo-localization category

根据定位范围来划分，图像地理定位可分为全球区域、自然区域和城市区域图像地理定位，如图3所示。在全球范围内进行精确地理定位是图像地理定位的终极目标，但是现有的全球图像地理定位精度都非常低，并且对数据库的质量、容量等方面要求非常高，目前全球图像地理定位精度在200 km以内就会被认为是成功的地理定位^[2]。

显示原图|下载原图ZIP|生成PPT

图3 图像地理定位方法（按定位范围分类）

Fig. 3 Image geo-localization category (Categorized by area)global nature city scale

自然区域地理定位，主要针对特定自然区域的地理定位，如沙漠、山脉、森林等自然区域，这类区域没有街景图像覆盖，不能通过图像检索等方法实施地理定位，因此研究者常常结合俯视图像、DEM、地形图等数据进行地理定位。自然区域有着大量的重复和自相似模式（如树林纹理、沙漠纹理、山脉纹理等），还有光照的变化、植被的生长、季节的变化等会给自然区域的地理定位造成较大的困难，使定位精度难以提高。

城市区域具有大量独特的辨识度很高的人造物体，如建筑物、路标、桥梁等，可以被很好的识别与匹配，这些物体在空间中的排布是唯一的，可以用来地理定位。另外，城市区域覆盖了密集的街景图像，可以利用图像检索的方法对图像进行地理定位，同时结合SfM、SLAM等方法来获取更加精确的地理坐标。

从研究分布来看，国外图像地理定位研究较多且发展较快，国内也有一些团队研究，但是相关中文论文不多，并缺少该领域的综述性论文。本文对国内外图像地理定位研究做了总结，论文第2节详细介绍了图像地理定位各类方法的最新研究进展；第3节将图像地理定位数据集分为4类，并对每一类的数据集展开介绍；第4节详细总结了图像地理定位评价方法；第5节对图像地理定位的研究现状与未来研究方向进行了总结与展望。

2 图像地理定位方法

本文主要按照图2的分类方式，对图像地理定位研究进行综述。图像地理定位研究汇总见附表1。

附表1 图像地理定位研究汇总

Attached Tab. 1 Summary table of image geo-localization methods

方法	年份	方法类别	类别	测试区域	测试结果		阈值	评价方法
Hakeem等^[90]	2006	SLAM	城市	校园	6 m		—	平均定位误差
Schindler等^[29]	2007	图像检索	城市	单个城市	70%		10 m	—
Zhang等^[15]	2007	图像检索	城市	城市某区域	72%		16 m	定位正确率
Schindlert等^[110]	2008	—	城市	城市某建筑五张图像	6.4 m		—	平均定位误差
Irschara等^[78]	2009	SfM	城市	地标	39%		Top-10	Top-K
Zamir等^[16]	2010	图像检索	城市	240 km²的街景	78%		250 m	—
Baatz等^[112]	2010	3D-2D图像检索	城市	单座城市	35% or 85%		—	定位正确率
Li等^[84]	2010	—	城市	全球多个城市	92.4%（罗马）		400 m	定位正确率
Avrithis等^[33]	2010	图像检索	城市	地标	80.65%		—	定位正确率
Ramalingam等^[105]	2010	天际线匹配	城市	纽约、波士顿、东京	2.8 m		—	平均定位误差
Crandall等^[131]	2011	SfM	城市	罗马	1 m		—	定位误差
Sattler等^[79]	2011	2D-3D匹配	城市	全球城市	97.6%（罗马）		400 m	定位正确率
Johns等^[31]	2011	图像检索	城市	地标建筑	—		—	精度/召回率
Raguram等^[143]	2011	SfM	城市	全球地标	95% & 47%		—	精度和召回率
Vaca-Castano等^[92]	2012	图像检索	城市	匹兹堡市中心	268.6 m/9.94 m		—	平均定位误差
Sattler等^[80]	2012	2D-3D、3D-2D	城市	全球城市	99.1%（罗马）		400 m	定位正确率
Larnaout等^[93]	2012	SLAM	城市	城市中心区域	—		—	—
Li等^[82]	2012	SfM	城市	1000个地标	73%		10 m	定位正确率
Bergamo等^[88]	2013	SfM	城市	25个地标建筑	71.26%		—	定位正确率
Svarm,等^[85]	2014	2D-3D	城市	Dubrovnik	99.75%		400 m	定位正确率
Ardeshir等^[144]	2014	跨模态检索	城市	10 km²华盛顿区域	60%		Top-20	Top-K
Zamir等^[4]	2014	图像检索	城市	多座城市	44%		100 m	定位正确率
Senlet等^[145]	2014	图像检索	城市	16.5 km²城市区域	75.91%		—	定位正确率
Zamir等^[114]	2014	图像检索	城市	美国多个城市	50%		150 m	定位正确率
Middelberg等^[94]	2014	SLAM SfM	城市	40 km²	1 m		—	定位误差
Bansal等^[134]	2014	几何关系	城市	加拿大渥太华	—		—	—
Zeisl等^[86]	2015	—	城市	美国若干城市	99.75%		400 m	定位正确率
Sattler等^[83]	2015	SfM	城市	—	62.50%		—	—
Lin等^[45]	2015	跨视角	城市	全球多个城市	80%		Top-20%	Top-K
Kendall等^[89]	2015	深度学习CNN	城市	城市建筑	2 m, 3°		—	定位误差
Taneja等^[146]	2015	图像检索	城市	—	13 m, 16°		—	平均定位误差
Gronat等^[147]	2016	多分类问题	城市	匹兹堡、东京	—		—	—
Tian等^[46]	2017	跨视角	城市	美国城市	—		—	—
Liu等^[148]	2017	2D-3D	城市	全球城市	18.3 m		—	平均定位误差
Kim等^[149]	2017	图像检索	城市	全球城市	69.45%		—	定位正确率
Arandjelovic等^[36]	2018	图像检索	城市	匹兹堡、东京	90.80%		Top-10	Top-K
Liu等^[150]	2018	—	城市	杭州大学校园	96%		—	定位正确率
Sun等^[151]	2018	深度学习	城市	旧金山	1.53 m		—	定位误差
Cheng等^[41]	2018	图像检索SfM	城市	南京180 km道路	43.2%		50 m	定位正确率
Hu等^[48]	2018	跨视角	城市	美国若干城市	67.10%		100 m	定位正确率
Ozkose等^[119]	2018	图像分类	城市	土耳其15个城市	57.60%		—	—
Sun等^[51]	2019	跨视角	城市	美国若干城市	CVUSA: 98.07% Vo&Hays:76.83%		Top-1%	Top-K
Cai等^[55]	2019	跨视角	城市	—	CVUSA: 98.3% Vo & Hays:71.9%		Top-1%	Top-K
Liu等^[53]	2019	跨视角	城市	美国11个城市		93.10%	—		Top-K
Chen等^[152]	2019	深度学习	城市	—		ORC: 94% GSV: 92%	40 m		定位正确率
Iwami等^[87]	2019	SfM	城市	西班牙马拉加		6 m	—		定位误差
Shi等^[54]	2019	跨视角	城市/自然	美国众多城市		CVUSA: 89.84% CVACT: 81.03%	Top-1		Top-K
Hu等^[127]	2020	跨视角	城市	美国11个城市		67.10%	100 m		定位正确率
Shi等^[69]	2020	跨视角	城市	美国11个城市		CVUSA: 61.43% CVACT: 61.05%	Top-1		Top-K
Chu等^[20]	2020	图像检索	城市	香港		82.14%	Top-1		TOP-K
Shi等^[49]	2020	跨视角	城市	美国若干城市与郊区		CVUSA:78.11% CVACT:72.91%	Top-1		TOP-K
Mithun,等^[9]	2020	跨模态检索	城市/自然	普林斯顿143km²区域		—	—		—
Rodrigues等^[72]	2021	跨视角	城市	城市		CVACT: 73.19% CVUSA: 75.95%	Top -1		Top-K
Toker等^[67]	2021	跨视角	城市	城市		CVUSA: 92.56% CVACT: 83.28%	Top-1		Top-K
Yang等^[61]	2021	跨视角	城市	城市		CVUSA: 83.14% CVACT: 58.33%	Top-1		Top-K
Huang等^[68]	2021	跨视角	城市	美国11个城市		CVUSA: 92.3% Vo&Hays: 71.03%	Top-1%		Top-K
Yang等^[153]	2021	—	城市	—		93.58%	—		定位正确率
Yan等^[21]	2021	图像检索	城市	全球城市		—	—		Top-K
Zhu等^[71]	2021	跨视角	城市	—		CVUSA: 54.5% Vo & Hays: 11.8%	Top-1		Top-K
Weng等^[10]	2021	跨模态检索	城市	巴黎		49.46%	50 m		定位正确率
Zhu等^[70]	2021	跨视角	城市	美国多座城市		49%	Top-1		Top-K
Chu等^[23]	2022	图像检索	城市	香港湾仔区50 km²区域		50.62%	50 m		定位正确率
Wang等^[74]	2022	跨视角	城市	全球地标		CVUSA: 85.79% CVACT: 79.99%	Top-1		Top-K
Zhu等^[52]	2022	跨视角	城市	美国若干城市		CVUSA: 97.4% Vo & Hay: 76.7%	Top-1%		Top-K
Zeng等^[73]	2022	跨视角	城市	全球地标		40.87%	Top-1%		Top-K
Li等^[57]	2022	跨视角	城市	美国等11座城市		CVUSA: 81.39% CVACT: 71.52%	Top-1		Top-K
Berton等^[116]	2022	深度学习	城市	旧金山		83.4%	—		Top-K
Wang等^[63]	2022	跨视角	城市	美国若干城市与郊区		CVUSA: 94.15% CVACT: 84.92%	Top-1		Top-K
Guo等^[64]	2022	跨视角	城市/自然	美国若干城市与郊区		CVUSA: 94.1% CVACT: 89.03%	Top-5		Top-K
Zhang等^[58]	2022	跨视角	城市/自然	美国众多城市		CVUSA: 89.84% CVACT: 81.03%	Top-1		Top-K
Jacobs等^[154]	2007	—	全球	美国若干城市		71.8 km	—		平均定位误差
Hays等^[2]	2008	图像检索	全球	南卡罗莱纳州		16%	200 m		定位正确率
Gallagher等^[155]	2009	—	全球	全球区域		33%	200 km		定位正确率
Kalogerakis等^[156]	2009	—	全球	全球区域		58%	400 km		定位正确率
Li等^[30]	2009	图像分类	全球	地标		40.58%	—		定位正确率
Zheng等^[157]	2009	图像检索	全球	全球地标		80.80%	—		定位正确率
kelm等^[158]	2011	—	全球	全球区域		35%	1 km		定位正确率
Shrivastava等^[159]	2011	跨模态检索	全球	跨模态图像		68.74%	Top-5		Top-K
Kelm等^[160]	2011	—	全球	全球区域		10% / 33%	1 km / 5 km		定位正确率
Lin等^[43]	2013	跨视角	全球	1 600 km²区域		17%	—		Top-K
Workman等^[42]	2015	跨视角	全球	4 000 km²		22.70%	—		—
Weyand等^[26]	2016	图像分类	全球	全球区域		37.60%	200 km		定位正确率
Noh等^[17]	2017	图像检索	全球	全球地标		91.75%			定位正确率
Mueller-Budack等^[27]	2018	深度学习	全球	全球区域		10.5%/66.0%	1 km/2500 km		定位正确率
Chu等^[19]	2020	图像检索	全球	全球地标		86.84%	500 m		定位正确率
Ng等^[18]	2020	图像检索	全球	全球15 000地标		81.60%	—		定位正确率
Dai等^[60]	2021	跨视角	全球	全球大学地标		86.71%	—		定位正确率
Zhuang等^[62]	2022	深度学习	全球	全球地标		82.14%	Top-1		Top-K
Talluri等^[95]	1992	图像检索DEM	自然	148 km²区域		—	—		—
Baboud等^[6]	2011	天际线匹配	自然	28张山脉图像		86%	0.2°		定位正确率
Baatz等^[5]	2012	天际线匹配	自然	瑞士山区		88%	Top-1		Top-K
Hammoud等^[103]	2013	多方法融合	自然	20 000 km²区域		49%	14 km		定位正确率
Tzeng等^[8]	2013	天际线匹配	自然	10 000 km²区域		—	—		—
Viswanathan等^[44]	2014	跨视角	自然	c. 0.1 km²		31%	Top-10%		Top-K
Cadik等^[122]	2015	图像检索	自然	阿尔卑斯山区		531.05 m	—		定位误差
Chen等^[106]	2015	基于DEM检索	自然	全球10 000 km²区域		60%	4.5 km		定位正确率
Saurer等^[102]	2016	天际线匹配	自然	40 000 km²阿尔卑斯山		88% & 76%	1 000 m		定位正确率
Ozcanli等^[135]	2016	基于语义2D-3D	自然	美国沿海634 km²区域		—	—		—
Fukuda等^[107]	2020	山脊线匹配	自然	—		1.81 m±1.44 m	—		平均定位误差
Tang等^[101]	2022	天际线匹配	自然	中国202.6 km²区域		43.13 m	—		平均定位误差
Cabrera-Ponce等^[161]	2022	深度学习	自然	1 716 m²/806.96 m²区域		4.5 m	—		定位误差
Yan等^[137]	2022	深度学习	自然	—		14.1 m	—		定位误差
Tan等^[104]	2022	天际线匹配	自然	202.6 km²丘陵区域		43.13 m	200 m		定位误差

注：Top-K包括Top-1、Top-5、Top-10、Top-1%、Top-10%等， Top-1、Top-5、Top-10分别为前1张图像、前5张图像、前10张图像，Top-1%为总测试图像的前1%图像，Top-10%为总测试图像的前10%图像。

2.1 图像检索

图像检索可分为地面视角图像检索和跨视角图像检索2种方法，所用的匹配准则包括特征匹配准则、语义匹配准则等，其中特征匹配准则通过提取图像中的手工特征、深度特征等特征进行特征匹配，根据特征相似度来判断最佳匹配结果；语义匹配准则利用图像中诸如建筑物、道路、河流等语义信息，与数据库进行匹配，从而实现图像地理定位。

2.1.1 地面视角图像检索

地面视角图像检索是一种研究和应用都比较成熟的地理定位方法，所用的参考数据为带有地理坐标的街景图像、网络空间图像等，研究方法总结见表1。

表1 地面图像检索研究总结

Tab. 1 Research summary of ground image retrieval

研究主题	研究内容	优点	缺点
基于特征的地面图像检索	手工特征^{[4,11⇓⇓⇓⇓-16]}	算法简单，解释性强	冗余度高，需要降维处理，易受环境变化影响，定位精度低
基于特征的地面图像检索	深度特征^{[17⇓⇓⇓⇓⇓-23]}	特征表达能力强，特征维度可定义，定位精度高	解释性不强，需要大量图像进行训练
基于分类聚类的地面图像检索	全球图像检索^{[2,25⇓⇓⇓-29]}	可实现全球图像地理定位	分类粗糙，定位精度低，受数据库图像的数量与质量影响很大
基于分类聚类的地面图像检索	全球地标识别^{[30⇓⇓-33]}	可实现全球图像地理定位	分类粗糙，定位精度低，受数据库图像的数量与质量影响很大
其他改进方法	应对环境变化^{[34⇓⇓⇓-38]}	面对环境变化鲁棒性好，定位精度高	算法复杂，检索效率低
其他改进方法	多方法融合^[39⇓-41]	检索效率较高，定位精度高	算法复杂，适用范围小

地面视角图像检索地理定位主要分为2种方法： ① 利用大量具有地理位置标签的图像（如带有GPS坐标的街景图像和网络图像等）组成图像检索库，利用特征提取算子提取数据库图像特征建立特征库，经过特征相似性匹配检索出与待检索图像最相似的图像，并根据最相似图像的地理位置来推断检索图像的地理位置； ② 构建神经网络模型或分类器，利用带有地理位置标签的图像作为训练集进行训练，直接预测检索图像的地理坐标。前者适用于街景图像和网络图像密集分布的城市区域，后者为分类、聚类的思想，适用于全球区域的图像检索与地标识别。

用于地面视角图像检索的特征主要包括手工特征和深度特征。手工特征包括SIFT^[11]、HOG^[12]、SURF^[13]、ORB^[14]等，通常与描述符聚合方法结合使用，如词袋（Bag of Word, BoW）、Fisher向量（Fisher Vector, FV）和局部聚合描述符向量（Vector of Locally Aggregated Descriptors, VLAD）等。Zhang和kosecka^[15]首先提取图像的SIFT特征建立图像特征数据库，暴力全局检索数据库图像，利用随机采样一致性（RANdom SAmple Consensus, RANSAC）算法对前5张候选图像进行验证与排序，并利用前3张图像通过三角测量获得待查询图像的地理位置。Zamir 和 Shah^[16]则提取图像的SIFT特征向量建立数据库，采用近邻树检索方式来提高检索效率，并采用修剪平滑的操作来提高准确性。随后Zamir和Shah^[4] 又通过修剪离群值和使用广义最小团问题（Generalized Minimum Clique Problem, GMCP）结合近似特征匹配来进一步改进最近邻匹配，定位精度比之前的工作^[16]提高了5%。

深度特征由卷积神经网络、注意力机制和多模块融合等神经网络框架自动提取，效果往往比手工特征好，并且神经网络框架可以灵活设计，具有较大的提升空间。如Noh 等^[17]提出了一种图像局部特征描述符（DEep Local Features, DELF）和用于关键点选择的注意力机制，以识别对图像检索有用的语义局部特征。Ng等^[18]提出了名为SOLAR（Second-Order Loss and Attention for image Retrieval）的全局描述符，通过空间注意力和描述符相似性利用二阶信息进行大规模图像检索。Chu等^[19]构造卷积神经网络来提取密集特征，在网络中嵌入注意力模块来对特征进行评分，并提出了一种网格特征点选择方法（Grid Feature-point Selection, GFS），在最小精度损失的情况下，减少图像的特征点数量，提高检索效率。Chu等^[20]将深度特征与手工特征相结合，从卷积神经网络（Convolutional Neural Network, CNN）网络的中间层提取的平均池化特征，在街景数据集上进行检索，再对前一次的检索结果进行SIFT重排序以提高检索精度。Yan等^[21]从卷积神经网络中提取分层特征图，并将提取的特征有机地融合用于图像特征表示，从而提高图像检索精度。杨晓云^[22]利用分离卷积构建空间注意力机制，识别图像的兴趣区域；然后将从高层卷积特征学习到的空间注意力掩码与低层卷积特征相乘，以解决信息冗余问题；最后利用VLAD方法构建全局特征向量用来图像检索。Chu等^[23]采用带有HOW模块^[24]的卷积网络来提取局部图像特征，通过VLAD将其聚合成一个特征向量，并将ASMK（Aggregated Selective Match Kernel）作为图像匹配相似度函数用于图像检索，最后利用核密度估计（Kernel Density Prediction, KDP）方法对查询图像的地理位置进行估计。

全球图像检索的问题由Hays和Efros首先开展研究^[2,25]，他们从全球600万张图像中创建了一个包含各种特征的数据库，用来估计待查询图像的位置。Weyand等^[26]设计了一种卷积神经网络结构，并使用了一个1.26亿张图像的数据集进行训练，该网络经过训练可以直接估计待查询图像的地理位置。该方法与神经网络结构和数据集的质量相关，定位精度很差，实用性不高。还有研究将聚类、分类思想应用于图像检索，Mueller等^[27]将地球细分为地理单元，利用场景信息将环境设置上下文融入到卷积神经网络模型中，并对图像所在的地理单元进行预测，该方法的定位精度取决于地理单元的大小。Zemene等^[28]将地理定位视为局部图像特征的聚类问题，提出了一种基于优势集聚类的多种神经网络特征匹配方法，并将全局与局部特征相结合，以提高匹配精度。Schindler等^[29]采用了分类的思想，提出了一种利用词汇树实现图像检索的方法，并建立了20 km长的街景图像数据集用于测试。

全球地标识别也是全球地理定位的一种方式。由于地标建筑与普通场景相比辨识度比较高，所以通常采用聚类、分类的思想来实现地标图像检索。Li等^[30]使用基于SIFT特征的BoW技术与多类SVM分类器相结合的方法，定位精度与执行相同任务的人类相当。Johns和Yang^[31]通过将20万张图像数据库聚类到视觉上相似的地标场景模型来改进BoW技术^[32]，但与标准的BoW技术相比改进不大。Avrithis等^[33]利用核矢量量化方法（Kernal Vector Quantization, KVQ）对视觉上一致的图像进行聚类分组，来压缩大量图像，同时仍然能保证单一、非地标性的图像的检索。

不同季节、不同光照、移动的物体等不断变化的环境，以及相机视角的变化等因素，对图像地理定位形成了挑战，针对此问题一些学者提出了相应的解决方法。Mishkin等^[34]采用了一种带有多个检测器、描述符、视图合成和自适应阈值的BoW方法来应对环境的巨大视觉变化。仇晓松等^[35]采用预训练的CNN网络模型提取图像描述符，该模型能较好地描述图像的局部与全局特征，对视角变化和外观变化具有较高的鲁棒性。Relja等^[36]受到VLAD启发，设计了可训练的NetVLAD层。NetVLAD提供了较为优秀的池化机制，可以轻松插入到其他CNN结构中，从而更好地提取图像特征，提高图像检索精度。刘耀华^[37]提出了基于对抗判别网络的域自适应算法和基于批量标准化的域自适应算法，从而增强网络模型的域自适应能力。王红君等^[38]提出一种基于SENet改进的ResNet的视觉位置识别网络PlaceNet，实验精确度和查询效率比NetVLAD更高。

利用多种方法融合实现图像检索。Kang等^[39]将空间分析与图像检索相结合，即利用二值支持向量机对数据集进行“有”“无”地理信息的预处理，提高训练效率，并利用GIS反向视域分析来减少图像潜在搜索区域，最后以埃菲尔铁塔区域图像为例验证了该方法的准确性与有效性。Cheng等^[40-41]将三维重建与图像检索相结合，即采用三步法的策略由粗到精逐步细化地理位置，包括通过图像检索粗略地理定位，通过图像配准选择可靠匹配图像，最后通过三维重建获得图像的精确地理位置。

2.1.2 跨视角图像检索

跨视角图像检索所用的数据集为卫星图像、航空图像、无人机图像等俯视图像，俯视图像数量巨大且全球覆盖，但与地面图像视角差异过大，导致图像的匹配检索比较困难^[42]，方法研究总结见表2。

表2 跨视角图像检索研究总结

Tab. 2 Research summary of cross-view image retrieval

研究主题	研究内容	特点
基于特征的跨视角图像检索	手工特征^[43-44]	算法简单，解释性强；受视角差异影响较大，定位精度低
基于特征的跨视角图像检索	深度特征^{[42,45⇓⇓⇓-49]}	特征表达能力强，能更好适应视角差异，定位精度高；解释性不强，需要大量图像进行训练
跨视角图像检索网络改进	添加胶囊网络^{[50⇓⇓-53]}	增强了神经网络的空间关系感知能力
	添加注意力模块^{[54⇓⇓⇓-58]}	提高了特征表达能力
	引入ViT模块^{[60⇓⇓-63]}	提高了全局上下文推理能力，减少视觉歧义
	设计损失函数^[55,64]	进一步提高了特征表达能力
基于视角转换的跨视角图像检索	几何转换^[54]	缩小了视角差异，几何结构关系明显，算法简单；转换会损失部分像素信息，定位精度较低
基于视角转换的跨视角图像检索	GAN网络转换^{[65⇓⇓-68]}	进一步缩小了视角差异，定位精度高；需要大量图像进行训练
其他改进方法	跨视角特征同化^[69]	转换同化不同视角图像的特征，减少视角差异带来的影响
	图像地理位置细化^[70]	通过回归预测偏移量来细化图像地理位置，提高定位精度
	无人机图像视角过渡^[73]	利用无人机图像作为桥梁，减少视角差异带来的影响
	方形回环特征划分^[74]	能更好适应图像的旋转变化

早期的跨视角图像检索利用手工特征来进行跨视角匹配，Lin等^[43]最早提出利用跨视角匹配的方法进行地理定位，他们将地面图像、土地属性覆盖图和俯视图像组成数据库，利用HOG、Gist、颜色直方图等手工特征，将待查询图像与地面图像进行匹配，如果匹配失败，则与俯视图像进行跨视角匹配。Viswanathan等^[44]将街景全景图像扭曲成俯视图像，使用SIFT、SURF和FREAK等手工特征进行匹配，来定位待查询图像的地理位置。

由于地面视角图像与俯视图像存在着巨大的视角差异，手工图像特征提取方法提取的图像特征差异过大，检索精度不高，因此采用孪生网络对地面与俯视图像对进行训练，提取图像特征完成图像检索是一个较好的选择。CNN具有强大的特征提取能力，许多学者将其应用于跨视角图像检索研究中。此类方法是建立卷积神经网络模型，将俯视视角与地面视角的图像对进行预训练，利用训练好的网络分别提取地面待查询图像和数据库中俯视图像的特征，并进行特征检索获得待查询图像的地理位置。Lin等^[45]提出了Where-CNN网络用于跨视角图像检索，并使用街景图像与航空倾斜摄影图像对Where-CNN进行预训练。实验表明，在前20%候选图像中定位准确率为80%，距离实际应用还有一定差距。Workman等^[42]通过进一步调整卷积神经网络，与Lin等的研究^[43]相比，精度提高了6%。Tian等^[46]使用Faster R-CNN^[47]检测待查询图像与俯视图像中的建筑物，然后使用正匹配图像对与负匹配图像对训练的孪生神经网络，从俯视图像建筑物中检索出k个候选，并利用基于优势集的多近邻匹配方法获得最佳匹配。Hu等^[48]设计了CVM-Net用于跨视角图像地理定位任务。CVM-Net使用全卷积层提取局部图像特征，并利用NetVLAD^[36]将其编码为全局特征描述符用于图像检索。Shi等^[49]使用孪生卷积神经网络从地面和极坐标变换的俯视图像中学习深度特征，通过计算跨视角特征之间的相关性来获得方向，由此提供更准确的特征相似性度量。

为了进一步提高跨视角图像检索精度，许多学者在神经网络结构、损失函数等方面做了诸多改进。如胶囊网络可以弥补卷积神经网络空间关系感知能力差的缺点，并增强图像特征的表示能力，从而提高跨视角检索的精度。Sun等^[50-51]提出了一种基于胶囊网络的GeoCapsNet，即利用胶囊层对卷积神经网络提取的特征进行编码以对空间层次特征进行建模增强表示能力。Zhu等^[52]提出了一种名为GeoNet的端到端网络架构。GeoNet由一个ResNetX模块和一个GeoCaps模块组成。ResNetX模块用于学习强大的中间特征图，并使梯度在深度CNN中稳定传播。GeoCaps模块将中间特征图封装成若干胶囊，胶囊的长度和方向分别代表场景对象的存在概率和空间层次信息，能够对场景对象之间的部分到整体的关系进行建模。这种关系是视点不变的，并且能弥补跨视角带来的差异。与上述方法类似， Liu等^[53]将方向信息（U-V映射）加入输入层或所有层，显式编码每个像素的方向，显著提升了学习到的深度特征的区分能力，获得了更高的检索精度。

有研究利用注意力模块来改进跨视角图像检索。注意力机制可以帮助特征提取算子提取出更具有代表性的特征，从而提高跨视角图像检索中的图像匹配精度。Shi等^[54]发现俯视图像中同一方位角的像素大致与地面图像中的垂直像素列相对应。于是利用极坐标变换将俯视图像转换成地面视角图像，然后加入了空间注意力机制，使嵌入空间中的对应深度特征更加接近，来提高图像检索精度。Cai等^[55]设计了一个轻量级的双重注意力模块，以提高CNN特征的表示能力。何思瑾^[56]使用空间注意力特征聚合模块，将不同视角图像的局部特征转化为全局特征，采用度量学习的方式对图像进行聚类。Li等^[57]提出了一种多尺度注意力编码器，来获得跨视角图像之间的多尺度上下文信息。首先利用反极坐标变换使地面图像与俯视图像大致对齐，然后再利用多尺度注意力编码器提取图像特征，来提高图像匹配精度。Zhang等^[58]设计了一种空间尺度注意力模块（SubSpace Attention, SSA）来突出不同尺度下的显著对应布局特征。编码后的特征不仅代表了不同物体，还反映了物体之间的相对位置，并可以学习到更有区别的深度特征。

也有研究将Vision Transformer (ViT)^[59]用于跨视角图像检索，并取得了不错的效果。Dai等^[60]发现已有的方法主要为了挖掘更全面的细粒度信息，但忽略了提取鲁棒性特征与特征匹配的重要性，因此提出了一种特征分割与区域匹配结构（Feature Segmentation and Region Alignment, FSRA），以增强模型了解上下文的能力。FSRA会根据Transformer特征图的热量分布对区域进行划分，然后将不同视图中的多个特定区域对齐。Yang等^[61]设计了一种地理定位网络EgoTR，它利用Transformer中的自注意力机制来模拟全局依赖关系，从而显著降低跨视角地理定位中的视觉差异性，同时还利用Transformer的位置编码来帮助 EgoTR 理解与对应地面和俯视图像之间的几何关系。Zhuang等^[62]提出了一种基于Transformer的网络用来匹配无人机图像与遥感图像。该网络通过语义引导模块（Semantic Guidance Module，SGM）匹配特征，SGM通过基于像素的注意力对图像中的每个像素进行分类，以匹配两幅图像中的相同语义部分。Wang等^[63]提出了一种Trans GCNN架构，Trans GCNN由提取特征图的CNN主干网络和从图中对全局上下文进行建模的Transformer Head组成，其中Transformer Head作为空间感知重要性的生成器，以选择显著的CNN特征作为最终特征，这样可以利用轻量级的Transformer网络增强嵌入式特征的判别能力。另外又设计了一个孪生Transformer Head网络来组合多尺度窗口的图像特征，以改善全局特征表示的细节。将ViT结构整合到跨视角检索模型中可以进一步提高检索精度，但由于ViT本身的原因^[59]，需要大量的数据进行训练才能获得不错的效果。

合理地设计损失函数有助于提高跨视角地理定位精度。如Cai等^[55]提出了一种用于跨视角地理定位的重加权三元组损失函数，以实现基于样本重加权的在线端到端硬样本挖掘。该损失函数可以自适应地选择有用的硬三元组，抑制无用的简单三元组。Guo等^[64]提出了一种使用在线硬样本选择策略的软样本突出显示（Soft Exemplar Highlighting, SEH）损失，以实现基于跨视角图像的地理定位。通过明确利用样本训练难度的内在差异来提高CNN特征对跨视角图像表示的判别性。

为了缩小2个视角的差异，很多学者将差异巨大的地面视角与俯视视角转换为同一视角后再进行图像检索。视角转换的方法主要分为2类： ① 几何转换的方法，如Shi等^[54]利用极坐标转化的方法，将俯视视角的图像转换成全景图像类似的图像； ② 生成对抗网络 (Generative Adversarial Networks, GAN)转换的方法，即利用GAN网络将地面视角图像与俯视图像相互生成（以俯视图像生成地面图像为主），并利用图像检索的方法定位出待查询图像的地理位置。Regmi等^[65]首先将GAN网络引入跨视角定位中，提出了X-Fork与X-Seq架构，并将条件生成对抗网络用于跨视角图像转换。Hao等^[66]提出了一种多通道注意力选择对抗生成网络，可以根据场景图像和语义图像，在任意视角下生成自然场景的图像。Toker等^[67]提出了一种利用GAN网络生成地面图像和图像检索相结合的方法，在CVUSA和CVACT两个数据集中获得了出色的测试结果。Huang等^[68]提出了CSF （Cross-view Sequential Fork）网络将俯视图像生成地面图像。CSF通过生成分割图像和边缘检测图像来实现更详细的生成效果。

还有一些研究从跨视角特征同化、图像地理位置细化、利用无人机图像作为过渡视角、方形回环特征划分等不同角度对跨视角图像检索做出了改进。Shi等^[69]提出了一种跨视角特征传输模块（Cross-View Feature Transport, CVFT），以促进地面与俯视图像之间的特征匹配。CVFT模块通过将特征从一个域转换到另一个域，有效地减少了视角差异过大带来的影响。Zhu等^[70]发现在研究中一般会默认待查询图像的地理位置位于俯视图像中心，但这不符合实际情况。因此，作者通过检索粗略获得图像地理位置，然后通过回归预测偏移量来细化图像地理位置。Zhu等^[71]针对跨视角图像匹配信息被忽略的问题，提出了全局挖掘策略和二项式损失来解决该问题。Rodrigues等^[72]提出了一种语义驱动的数据增强技术，来模拟时间变化场景中消失和新出现的对象特性，使神经网络具有推理并生成未知物体的能力。使用增强图像来训练具有多尺度注意力主干的网络，以产生无法匹配的图像区域的内容。Zeng等^[73]利用无人机视角图像作为地面视角和卫星视角之间的桥梁，提出了一个同伴学习和交叉扩散（Peer Learning and Cross Diffusion, PLCD）框架。Wang等^[74]提出了一种局部模式网络LPN （Local Pattern Network），其采用方形回环的特征划分策略，根据到图像中心的距离来学习空间特征。由于方形回环分区的设计，LPN网络对旋转变化具有良好的适应性。Lin等^[75]提出了一种名为RK-Net的框架，该框架探索了跨视角地理定位的关键点检测和表示学习中的联合学习，主要思想是找到显著区域来区分不同的位置，与人类视觉系统保持一致。

2.2 2D-3D匹配

2D-3D匹配包括单张图像2D-3D匹配和序列图像2D-3D匹配，分别对应SfM技术与SLAM技术，方法研究总结见表3。匹配准则包括特征匹配准则、深度匹配准则。其中特征匹配准则为SfM常用匹配准则，即提取待查询图像特征点与数据库图像进行特征匹配，获得待查询图像与数据库图像相对位姿，从而获得带查询图像地理位置；深度匹配准则是利用诸如3D点云、3D模型、深度图像等深度信息，对带查询图像进行深度匹配，从而实现图像地理定位。

表3 2D-3D匹配研究

Tab. 3 Research of 2D-3D matching

研究主题	研究内容	优点	缺点
单张图像2D-3D匹配	SfM建立3D模型并匹配^[76,78]	拓展性强，可获得图像六自由度，定位精度高	对数据质量要求高，计算复杂度高，内存占用大
	2D-3D匹配性能改进^{[79⇓⇓⇓⇓-84]}
	增加相关约束^[85⇓-87]
序列图像2D-3D匹配	结合数据库图像^[90⇓-92]	拓展性强，实时性强，定位精度高	易受视频质量、光照变化等影响
序列图像2D-3D匹配	结合DEM、3D模型或3D点云^[93-94]	拓展性强，实时性强，定位精度高	易受视频质量、光照变化等影响

2.2.1 单张图像2D-3D匹配 (SfM)

运动恢复结构（SfM）是由一组从不同视角拍摄同一场景的图像重建三维场景的技术。利用SfM技术的图像地理定位一般包括两种方式：一是利用数据库图像建立三维点云模型，并提取待查询图像特征与三维点云模型相匹配(2D-3D)，即可获得待查询图像的地理位置与姿态；二是通过图像检索等方法获得待查询图像的粗略位置，再利用待查询图像与附近的数据库图像共同建立三维点云模型，从而获得待查询图像的地理位置与姿态。

使用SfM技术从大规模图像中建立3D模型用于图像地理定位。Heinly等^[76]在一台计算机上用6天时间从YFCC100M数据集^[77]的1亿张照片中自动创建了全球多地的3D模型，用来定位城市地区或地标建筑图像。Irschara等^[78]用几百张图像为维也纳最著名的地标建立了一个SfM模型。SfM模型中的相关图像通过BoW方法进行搜索。

Sattler等^[79]基于视觉词汇量化和优先匹配搜索，将特征描述符分配给每个视觉词，直接将检索特征描述符与相关视觉词的描述符进行匹配，显著提高了匹配效率。在后续工作中，Sattler等^[80]又将2D-3D和3D-2D方法相结合，并提出了一个主动搜索的策略，进一步提高了匹配性能。随后Sattler 等^[81]又在实验中发现，使用直接特征描述符匹配的算法比经典图像检索方法好15%。Li等^[82]通过利用RANSAC的共现先验和图像特征与3D点的双向匹配方法，首次成功完成了基于SfM模型的大规模图像地理定位。这与Sattler所提到的主动搜索的方法^[80]类似。为了进一步提高匹配效率，Sattler等^[83]通过量化描述符来减少搜索空间，由此来减少内存的占用，同时加入新的投票策略来减少错误匹配。Hutchiso等^[84]根据SfM模型中的特征属性定义优先级，并应用2D-3D的匹配，提高了匹配性能。

有研究通过增加相关约束来提高定位精度。Svarm等^[85]在待检索图像中加入了重力传感器获得的重力方向的数据，处理了高达99%的离群值，从而可以更好地估计出拍摄图像时相机的姿态。Zeisl等^[86]解决了使用SfM模型进行大规模地理定位中的大量离群匹配的问题，并在Svarm等^[85]的基础上，将相机上的重力方向约束以及其他约束纳入相机姿势估计。Iwami等^[87]提出了一种利用大量带有地理位置标记的图像来纠正位置漂移的框架。该框架集成了增量SfM和利用地理标记图像的位置漂移的方法。

有研究将SfM模型辅助应用于随机森林或神经网络训练，从而完成地理定位过程。如Bergamo等^[88]使用SfM模型学习随机森林编码库进行地标分类。Kendall等^[89]使用SfM模型来训练一个卷积神经网络，用于大规模的相机重定位。

2.2.2 序列图像2D-3D匹配 (SLAM)

实时定位与地图构建（SLAM），主要通过单目、双目、单目结构光、双目结构光、ToF等摄像头来实现。其中基于单目、鱼眼相机的SLAM是利用多帧图像来估计自身的位姿变化，再通过累计位姿变化来计算距离物体的距离，并进行定位与地图构建。图像地理定位中主要利用单目SLAM的方法，由于SLAM主要是某一时间段上的连续定位，所以本文与单一图像地理定位分开总结。

由于单目SLAM只能计算出视频帧之间的相对位置关系，无法定位出地理位置，因此一些研究将单个视频帧与带有地理坐标的图像进行匹配，从而获得单个视频帧的地理坐标，并计算出连续视频帧的绝对运动轨迹。Hakeem等^[90]使用一组具有已知GPS坐标的图像匹配关键帧，从最佳匹配中计算出基本矩阵以恢复相机姿态，并利用三角测量的方法来统一尺度，同时使用B-splines对位置进行插值，以获得平滑的轨迹。Conte和Doherty^[91]将惯性传感器、视觉测量和车载视频与地理参考俯视图像的配准相结合，能够为无人机自主导航提供快速和无漂移的地理位置估计。Vaca-Castano等^[92]利用图像检索的方法获得各个视频帧与街景图像的最佳匹配，然后利用贝叶斯跟踪来估计视频帧的地理位置及随时间的变化，最后利用轨迹重建算法以消除轨迹噪声，从而获得高精度的相机轨迹。

还有研究在单目SLAM中引入DEM、3D模型和3D点云等数据，来达到定位视频帧地理位置的目的。Larnaout等^[93]利用DEM校正摄像机轨迹，利用3D建筑模型约束重建的3D点云，可以实现30 Hz频率的在线实时地理定位。Middelberg等^[94]在移动设备上利用关键帧构建SLAM模型，并将关键帧与服务器内的SfM模型进行匹配，将移动设备轨迹转换到SfM模型坐标系中，从而获得移动设备的轨迹与姿态。

2.3 跨模态检索

跨模态检索方法使用多种模态的数据来定位待查询图像的地理位置甚至姿态，主要包括：基于轮廓特征的跨模态检索、基于GIS语义的跨模态检索和基于几何纹理特征的跨模态检索，研究总结见表4。匹配准则包括特征匹配准则、语义匹配准则等。特征匹配准则是根据图像的轮廓或纹理特征与数据库内轮廓、纹理特征进行相似度匹配，从而实现图像地理定位；语义匹配准则是利用图像语义与GIS数据库进行匹配，实现图像地理定位。

表4 跨模态检索研究总结

Tab. 4 Research summary of cross-modal retrieval

研究主题	研究内容	优点	缺点
基于轮廓特征的跨模态检索	天际线特征^{[5,8,95⇓⇓⇓⇓⇓⇓⇓⇓⇓-105]}	不依赖图像数据，对查询图像纹理信息依赖较低	受图像视角影响较大，定位精度低
基于轮廓特征的跨模态检索	山脉轮廓线特征^{[6,7,106-107]}	不依赖图像数据，对查询图像纹理信息依赖较低	受图像视角影响较大，定位精度低
基于GIS语义的跨模态检索	GIS数据^[108]	数据库小，计算量小，轻量化	受图像质量、语义分割算法等影响较大，对数据库时效性要求高，定位精度低
基于GIS语义的跨模态检索	语义数据^[10,109]	数据库小，计算量小，轻量化	受图像质量、语义分割算法等影响较大，对数据库时效性要求高，定位精度低
基于几何纹理特征的跨模态检索	建筑纹理特征^[110]	挖掘了图像的模式和几何规律，将图像匹配的劣势变为可利用的优势	耗时较多，计算复杂，受图像质量影响较大，定位精度低，适用范围小
	太阳位置与天空特征^[111]
	几何特征^[112-113]

2.3.1 基于轮廓特征的跨模态检索

与人口密集的城市区域相比，山区图像较少且分布不均，难以构建足够的图像数据库作为定位基准，并且山地区域的照片往往指包含山体和天空，纹理信息不丰富，采用传统的特征点匹配方法效果不佳。但是，山地地形起伏较大，轮廓特征突出，因此可基于轮廓特征的方法以DEM为基础构建基准，提取查询图像的天际线等轮廓特征进行检索，从而实现图像地理定位。

最初的基于轮廓特征的图像地理定位工作，主要是对户外环境中的移动机器人或行星探测器进行地理定位。如Talluri和Aggarwal^[95-96]从待查询图像中提取天际线与DEM中的天际线相匹配，从而完成对机器人的地理定位。还有研究将DEM用于无人机地理定位，如Woo等^[97]在已知无人机高度的情况下，提取无人机图像中的天际线和山峰与DEM中提取的天际线和山峰相匹配，从而定位出无人机的地理位置。

在自然区域的图像地理定位中，利用DEM数据进行天际线检索是一种较为流行的方法。该方法利用DEM数据以一定的网格密度生成天际线，建立天际线数据库，并提取待查询图像的天际线进行检索，从而定位出待查询图像的地理位置^{[98⇓⇓-101]}。也有一些研究对该方法进行了改进，Baatz和Saurer等^[5,102]将天际线归一化和平滑处理，称之为轮廓线，并以单一整数形式建立轮廓线数据库，并使用BoW的方法来检索最佳的1 000个候选图像，经过对候选图像进行几何验证，确定待查询图像的地理位置。Tzeng等^[8]做了与Baatz等^[5]类似的工作，不同的是，作者将天际线部分的凹陷作为局部特征来提高检索精度。Hammoud等^[103]利用激光雷达和高光谱土地利用图像扩展了从待查询图像中提取的天际线。他们分别对输入进行匹配，并通过线性融合将其合并为单一概率图，并在2个面积均为10 000 km²区域的100张测试图像上验证了该方法。 Tang等^[104]提出了具有多跳跃结构的全卷积语义分割网络MSDeepLab来提取天际线，并使用预训练的CNN模型提取高维特征信息作为天际线的特征表达，大大提高了定位精度。也有研究将天际线特征用于城市区域的图像地理定位。如Ramalingam等^[105]利用全向天际线图像，提取建筑物的天际线，并将该天际线与合成的天际线数据库相匹配。该方法适用于上海、香港、纽约这样拥有密集高层建筑物的城市。

除了天际线，山脉轮廓线、沙丘脊线等特征也被用于地理定位研究。Baboud等^[6]提出了一种提取山脉轮廓线的方法，来对DEM数据进行网格全景轮廓线采样，建立山脉轮廓线数据库，并利用待查询图像所提取的山脉轮廓线搜索该数据库，定位出待查询图像的地理位置。Porzi等^[7]提出了一种基于随机蕨算法的山脉轮廓线检测方法。使用手机传感器数据作为初始参数，提取查询图像的山脉轮廓线并与DEM生成的山脉轮廓线相匹配，获得精确的相机位置姿态。Chen等^[106]在Saurer等^[102]方法的基础上，拓展利用多条山脊线的局部特征描述符。在水平方向的基础上，增加了垂直方向的BoW投票，测试结果优于Saurer等的方法。Fukuda等^[107]提取图像中的沙丘脊线作为连续信号，并提取幅度分量作为特征，利用GNSS获取图像初始位置，然后通过匹配附近的沙丘脊线特征获得图像精确的地理位置。

2.3.2 基于GIS语义的跨模态检索

GIS语义数据不仅包含地理位置信息，还包括地理对象的属性、特征、关系等信息，能以较小的数据量实现广域图像地理定位。Ardeshir等^[108]利用消防栓、交通信号灯、路标等GIS数据来辅助图像定位。在给定对象位置数据库和带有元数据的查询图像的情况下，将GIS对象投影到图像上，并与从可形变部件模型 (Deformable Part Model, DPM) 取的候选对象检测融合。作者将融合过程描述为一个高阶图匹配问题，并使用RANSAC方法来解决。在街道区域以均匀采样获得预设位置，使用对象检测方法计算每个预设位置的分值，并根据分值确定最终图像的地理位置。Li等^[10]提出了一种“语义签名”的描述方法定位图像的地理位置。该方法通过识别图像中诸如树木、路灯、公交车站等语义信息，将其编为语义签名，并从数据库中检索类似签名，以推断出待查询图像的地理位置。Zunker等^[109]介绍了一种使用EFM-HOG (Enhanced Fisher Model-HOG) 特征表示建筑物形状特征的方法，提出了一种粗语义分割方法，以自动分割建筑物并在周围绘制边界框，最后与传统HOG特征^[12]方法进行了比较。

2.3.3 基于几何纹理特征的跨模态检索

图像中往往包含了大量的几何关系和建筑纹理特征，这为图像地理定位提供了新方向，即利用几何和纹理特征进行跨模态检索。Schindler等^[110]提出了一种通过检测和匹配重复模式来自动对城市图像进行地理定位的方法。该方法利用了城市环境的高度重复性，检测图像中多个透视扭曲的重复性2D图案，并通过推理每种图案的基本范式，将它们与纹理立面的3D数据库相匹配，通过多个2D-3D模式对应关系可获得的查询图像的位置与姿态。由于建筑纹理信息通常依附于建筑物而存在，所以该方法只适用于建筑物密集的城市区域，地理定位精度受待查询图像的质量影响较大。Lalonde等^[111]分析了图像序列中天空部分的太阳位置与天空外观特征，并将天空模型与图像序列的天空区域进行拟合，来提取图像序列焦距、天顶角、方位角等参数。在已知相机参数的高画质图像序列上测试了该方法，获得的焦距误差小于1 %，方位角和天顶角的误差分别为1°和3°，并用低画质摄像头进行测试，平均定位误差为110 km。该方法通常用于网络摄像头的地理定位，但定位精度不高，实用性较差。Baatz等^[112]解决了城市区域图像中的大规模兴趣点识别问题。作者利用3D建筑信息和大量的街景图像来建立数据库，利用灭点将查询图像进行矫正，从而消除3D旋转对特征识别带来的影响。将特征不变性简化为纯同位问题，比经典SIFT特征具有更好的判别能力。Zhang和Matthew^[113]提出了一种无监督跨尺度视觉特征表达方法。作者将二维地图编码为信念图，提取出无人机所拍摄图像的特征，并与信念图几何特征相匹配获得无人机地理位置。该方法拓展了地图模态的范围，为无人机地理定位提供了一种新思路。

3 数据集

数据集可用来评估地理定位方法的性能，并便于不同方法之间的比较。城市区域的数据集较多且一般为图像类型，自然区域的数据集较少但类型较多，见附录表2。

附表2 图像地理定位数据集汇总

Attached Tab. 2 Image geo-localization dataset summary table

建立者	数据集名称	建立时间	用途	覆盖区域	数据类型	数量	备注
Zamir和Shah^[114]	GSV	2014	图像检索	美国若干城市	街景图像	10.2万张
Amar等^[115]	GSV-CITIES	2022	图像检索	全球40城市	街景图像	—	2007—2021年
Berton等^[116]	SF-XL	2022	图像检索	旧金山	街景图像	4 120万张	2009—2021年
Hays和Efros^[2]	IM2GPS	2008	聚类分类	全球	网络图像	600万张	Flickr获取
Thomee等^[77]	YFCC100 M	2014	多用途	全球	图像/视频	9 920万张	2004—2014年
Chen等^[117]	SFL	2011	地标检索	旧金山	透视图像	170万张
Cadik等^[122]	Alps100 K	2016	图像检索	阿尔卑斯山	网络图像	10万张	Flickr获取
Chu等^[20]	香港街景	2020	图像检索	香港北部	街景图像	239 400张	谷歌街景
Sattler等^[121]	Aachen Day-Night	2018	不同光照	亚琛	图像/3D点云	4 848张
Sattler等^[121]	RobotCar Seasons	2018	驾驶场景	牛津	图像/3D点云	20 862张
Sattler等^[121]	CMU Seasons	2018	茂密植被场景	匹兹堡	图像/3D点云	82 494张
Philbin等^[124,125]	Oxford5 K	2007	地标检索	牛津	地标图像	5 117张	Flickr获取
Philbin等^[124,125]	Paris6 K	2007	地标检索	巴黎	地标图像	6 424张	Flickr获取
Li等^[84]	Dubrovnik	2010	2D-3D	杜布罗夫尼克	网络图像	约100张
Li等^[84]	Rome	2010	2D-3D	罗马	网络图像	约100张
Li等^[84]	Vienna	2010	2D-3D	维也纳	网络图像	约100张
Ozkose等^[119]	Turkey15	2018	深度学习	土耳其15城市	网络图像	2250张	Flickr获取
Herne等^[123]	INRIA Holidays	2008	图像检索	全球	度假图像	1 991张	Flickr获取
Herne等^[123]	Flickr60 K	2008	图像检索	全球	网络图像	67 714张	Flickr获取
Herne等^[123]	Flickr1 M	2008	图像检索	全球	网络图像	100万张	Flickr获取
Zemene等^[28]	WorldCities	2019	图像检索	全球14城市	街景图像	30万张
Arandjelovic等^[120]	Tokyo 24/7	2015	图像检索	东京	手机采集图像	1 125张	3个时刻采集
Torii等^[118]	Pittsburgh 250 K	2015	图像检索	匹兹堡	街景图像	254 064张
Teichmann等^[126]	GLB	2019	地标检索	全球1500地标	地标图像	120万张
Workman等^[42]	CVUSA	2015	跨视角	美国若干城市	地面/俯视图像	150万对	Flickr/谷歌街景
Liu等^[53]	CVACT	2019	跨视角	堪培拉	地面/俯视图像	92 802对
Regmi和Shah^[128]	OP	2019	跨视角	奥兰多/匹兹堡	地面/俯视图像	2 632对
Vo和Hays^[129]	Vo & Hays	2016	跨视角	美国11城市	地面/俯视图像	100万对
Zheng等^[130]	University1652	2020	跨视角	全球72所大学	地面/俯视图像	146 581张
Zhu等^[70]	VIGOR	2021	跨视角	美国4城市	地面/俯视图像	90 618对
Li等^[84]	Rome16K	2010	SfM	罗马	城市地面图像	1.6万张
Li等^[84]	Dubrovnik6K	2010	SfM	杜布罗夫尼克	城市地面图像	6 000张
Crandall等^[131]	Quad	2011	SfM	罗马	地面图像	6 514张	手机采集
Hao等^[132]	Landmark 3D	2012	SfM	25个地标	地标图像	4.5万张
Kendall等^[89]	剑桥地标	2015	SfM	剑桥地标	地标图像	10 929张
Saurer等^[102]	—	2016	天际线	阿尔卑斯山	DEM/地面图像	约1 000张
Tang等^[104]	—	2022	天际线	长沙东北部	DEM/地面图像	202.6 km²
Blanco等^[133]	Málaga	2014	2D-3D	马拉加	图像/3D点云	36 km道路
Bansal和Daniilidis^[134]	—	2014	2D-3D	加拿大某地	地面图像/DEM	50张
Ozcanli等^[135]	—	2016	2D-3D	美国沿海	图像/3D点云	634 km²
Mithun等^[9]	GRAL	2020	2D-3D	新泽西州	地面/深度图像	55万多张
Andreas等^[136]	KITTI	2012	SLAM	未知	光流图像/视频	389对	39.2 km道路
Qi等^[137]	TOPO-DataGen	2022	综合	瑞士	多源数据	—
Brejcha和Cadik^[138]	GeoPose3K	2017	综合	某山区	多源数据	—
Gawel等^[139]	Airsim	2018	跨视角	苏黎世	RGB/深度图像	—
Ros等^[140]	SYNTHIA	2016	驾驶场景	苏黎世	语义/深度图像	21万多张

3.1 地面图像数据集

地面图像数据集种类比较丰富，大致分为：城市图像数据集、自然图像数据集、全球图像数据集和地标图像数据集。

（1）城市图像数据集

GSV数据集^①（① https://www.crcv.ucf.edu/projects/GMCP_Geolocalization/#Dataset。）：由Zamir和Shah建立^[114]，共包括从谷歌街景中下载的约10.2万张带有GPS标签的图像数据和一部分测试图像。这些图像的分布区域为美国宾夕法尼亚州的匹兹堡和佛罗里达州的奥兰多。该数据集包含完整的全景图像，图像之间的距离约为12 m，适用于城市区域的精确地理定位和相机姿态估计。

GSV-CITIES数据集^②（② https://github.com/amaralibey/gsv-cities。）：由Amar等^[115]建立，该数据集包含全球40个城市的约6 700万个位置，每个位置包含4~20个不同时间拍摄的图像，时间跨度为2007年至2021年。该数据集是目前在时间跨度和地理范围方面最广泛和最多样化的数据集。

SF-XL数据集^③（③ https://forms.gle/wpyDzhDyoWLQygAT9。）：Berton等^[116]在GSV数据集的基础之上创建了该数据集。作者收集了343万张全景图像，每张图像分割为12个小图像，共计4120万张图像，每张图像都带有GPS坐标和相机六自由度信息，并且图像拍摄时间从2009—2021年，提供了丰富的时间变化。

SFL数据集^④（④ https://purl.stanford.edu/vn158kj2087。）：由Chen等建立^[117]，作者利用移动测绘车（装有激光雷达、全景相机、高清相机、惯性测量单元、测距仪和全球定位系统）以4 m间隔采集了15万张全景图像和激光点云数据，之后将全景图像转换为170万张透视图像。同时作者提供了一组用不同手机拍摄的测试图像，以评价检索精度。

Pittsburgh 250 K数据集^⑤（⑤ https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/。）：Torii等^[118]收集了匹兹堡地区的10 586张谷歌全景图像，并将其切分成254 064张透视图像组成Pittsburgh 250 K数据集。

WorldCities数据集^⑥（⑥ http://www.cs.ucf.edu/~haroon/UCF-Google-Streetview-II-Data/UCF-Google-Streetview-II-Data.zip。）：由Zemene等^[28]建立，该数据集包含来自世界14个不同城市的30万张街景图像。世界各地的建筑物存在相似性，如墙壁设计、边缘、形状、颜色等方面，使得该数据集更具挑战性。

香港街景图像数据集：Chu等^[20]为了测试所提出的图像检索方法，选择了香港岛北部区域创建了香港街景数据集，其中包含6 659个类别的239 400张带有GPS标签的街景图像和38张测试图像，用于图像检索的测试与精度验证。

Turkey15数据集：Ozkose等^[119]通过Flickr收集了土耳其15个城市的2 250张图像，每个城市约150张图像。1 500张图像为训练集，用于训练深度学习模型，375张为验证集，375张为测试集。

Tokyo 24/7数据集^⑦（⑦ https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Tokyo247/database_gsv_vga/。）：Arandjelovic等^[120]利用智能手机在125个位置，采用3个不同时刻、3个不同方向采集了1 125带有GPS标签张图像，可用于光照变化场景下的图像地理定位方法测试。

Aachen Day-Night、RobotCar Seasons和CMU Seasons数据集^⑧（⑧ https://www.visuallocalization.net。）：由Sattler等^[121]建立，Aachen Day-Night数据集重点是根据白天的图像建立三维模型定位夜间的图像，RobotCar Seasons和CMU Seasons数据集均为汽车驾驶场景，从汽车上拍摄的图像。与Aachen Day-Night数据集相比，这两个数据集的视角变化较小，但拍摄条件变化较大。RobotCar数据集的夜间图像是在一辆行驶中的汽车上拍摄，这导致图像出现运动模糊、难以定位。CMU的数据集包含大量的植被。由于季节性变化，植被的外观和几何形状不断变化，这是这个数据集的主要挑战。

（2）自然图像数据集

Alps100 K数据集^⑨（⑨ http://cphoto.fit.vutbr.cz/elevation/。）：Cadik等^[122]从Flickr网站采集了约10万张带有GPS标签的阿尔卑斯山区图像建立了Alps100 K。最初该数据集被用于海拔估算，后来也用于地理定位任务。

（3）全球图像数据集

IM2GPS数据集^⑩（⑩ http://graphics.cs.cmu.edu/projects/im2gps/。）：Hays和Efros^[2]从Flickr网站上搜集了全球范围600万张带有地理标签的网络图像，并在该数据集上进行了聚类和分类，用于全球区域的地理定位。

YFCC100 M数据集^⑪（⑪ http://webscope.sandbox.yahoo.com/catalog.php?datatype=i&did=67。）：由Thomee等建立^[77]，该数据集由2004—2014年的部分Flickr媒体数据构成，共包括9 920万张图像、80万个视频，其中有 4 800万张图像和10万个视频带有GPS标签。数据集包含人、动物、物体、食物、建筑场景、风景等内容，分布覆盖全球，为目前最大的公共媒体数据集。

INRIA Holidays数据集^⑫（⑫ https://paperswithcode.com/dataset/inria-holidays-dataset。）：由Herve等^[123]建立，共有1 491张图像，500张查询图像。该数据集主要为个人度假时拍摄的图像。作者还创建了Flickr60 K和Flickr1 M数据集，图像均在Flickr网站中收集，分别包含67 714张和100万张网络图像。

（4）地标图像数据集

Oxford5K^⑬（⑬ https://paperswithcode.com/dataset/oxford5k。）和Paris6K^⑭（⑭ https://paperswithcode.com/dataset/paris6k。）数据集：为2个比较流行的地标检索数据集，在Flickr中收集。Oxford5K^[124]由5062张图像和55张查询图像组成，包括牛津11个不同的地标建筑。Paris6K^[125]由6 412张图像和12张查询图像组成，包括12个巴黎地标建筑。

Li等^[84]创建了Dubrovnik、Rome和Vienna 3个城市的数据集，其中Dubrovnik和Rome是由从Flickr搜集的网络图像构成，Vienna数据集由一个相机拍摄的图像组成，每个数据集大约为100张图像，用来建立城市三维模型和2D-3D匹配。

GLB数据集^⑮（⑮ https://paperswithcode.com/dataset/google-landmarks-dataset-v2。）：由Teichmann等^[126]建立，包括1500个地标的120万张图像。这些地标涵盖了从历史名城到现代都市区再到自然景观的各个类别。GLB还包含超过8万个边界框，标记出了每张图片中最突出的地标。

3.2 跨视角数据集

跨视角数据集中比较经典的是CVUSA数据集和CVACT数据集，论文使用频率非常高，其次就是Vo & Heys数据集。近几年来，很多跨视角地理定位研究^{[48,49,51⇓⇓⇓-55,57,58,61,63,64,66⇓⇓-69,71,72,74,75,127]}均利用这3种数据集来评价自己的方法，未来可以利用这3种数据集来评估新的跨视角地理定位方法，以便对比之前的方法。

CVUSA数据集^⑯（⑯ http://cs.uky.edu/~scott/research/deeplyfound/。）：由Workman等^[42]建立，包括150万个有地理标签的地面和航空正射图像匹配对。它是由Flickr照片和谷歌街景图像创建的。

CVACT数据集^⑰（⑰ https://github.com/Liumouliu/OriCNN。）：由Liu等^[53]建立，CVACT数据集包括92 802个带有GPS标签的地面图像与俯视图像对。由于较高的数据质量，该数据集和CVUSA数据集经常被用于跨视角地理定位方法的测试与评估。

OP数据集^⑱（⑱ https://drive.google.com/file/d/17ioMhP8hBHGHGJuIsPx2fKesFsz-Q9d1/view?pli=1。）：由Regmi和Shah建立^[128]，作者在奥兰多和匹兹堡2个城市收集了1 910个和722个带有GPS标签的俯视图像与街景图像对，分别用于训练和测试。

Tian等^[46]建立了匹兹堡市中心、奥兰多和曼哈顿部分地区带有GPS标签的街景和俯视图像对的数据集。其中匹兹堡、奥兰多和曼哈顿分别有 1 586、1 324和5 941个图像采集位置。

Vo & Hays数据集^⑲（⑲ https://www.mediafire.com/folder/f4gga3h86d659/GTCrossView。）：该数据集由Vo和Hays建立^[129]，作者从谷歌地图中收集了美国11个城市约100万个街景图像与俯视图像对，用于跨视角地理定位测试。

University1652数据集^⑳（⑳ https://github.com/layumi/University1652-Baseline。）：由Zheng等^[130]建立，该数据集包括全世界72所大学的1 652个建筑的无人机图像、卫星图像和地面图像，为首个3种图像模式相结合的地理定位数据集，具有多源性、多视角、密集性等特点。

VIGOR数据集㉑（㉑ https://github.com/Jeff-Zilence/VIGOR。）：Zhu等^[70]收集了纽约市曼哈顿、旧金山、芝加哥和西雅图4个城市中心地区的90 618张俯视图像和238 696张带有GPS标签的街景图像。VIGOR数据集大部分在城市地区，这些地区高层建筑更加密集，遮挡和阴影明显减少了地面与空中视角的语义关联，所以比CVUSA数据集更具有挑战性。

3.3 SfM数据集

SfM数据集与图像数据集相似，都是由众多图像构成，下面列举一些比较经典的SfM数据集。

Li等^[84]建立了一些用于SfM地理定位的数据集^㉒（㉒ https://www.cs.cornell.edu/projects/bigsfm/。）。其中Rome16 K、Dubrovnik6 K为比较大的数据集，涵盖了城市中心区域和地标建筑。此外，还有一些比较小的数据集，如巴黎圣母院大教堂、维也纳大教堂、特拉法加广场、伦敦塔等著名地标。

Quad数据集^㉓（㉓ http://vision.soic.indiana.edu/projects/disco/。）：由Crandall等^[131]建立，共包含 6 514张图像，其中约5 000张图片由手机拍摄并带有GPS标签，348张图像带有精度高达0.1 m的GPS标签。

Landmark 3D数据集^㉔（㉔ https://landmark3d.codeplex.com/。）：由Hao等^[132]建立，它包含了从Flickr网站中收集的25个地标的4.5万张图像和重建的三维地标模型。该数据集适用于地标识别。

剑桥地标数据集^㉕（㉕ https://paperswithcode.com/dataset/cambridge-landmarks。）：由Kendall等^[89]建立，用于使用CNN进行六自由度相机地理定位。数据集包括训练和测试图像，以及用于相机姿态训练的SfM模型，还包含了1.2万张具有完整的六自由度相机姿态的图像。

3.4 多模态数据集

多模态数据集种类比较多，其来源与适用的地理定位方法也比较复杂，大致包括：DEM与图像数据集、三维点云与图像数据集、综合性数据集、图像语义数据集、文本与图像数据集。

（1） DEM与图像数据集

Saurer等^[102]在线发表了2个用于天际线地理定位的数据集。这2个数据集包含1 000多张带有GPS标签的图像。

Tang等^[104]从湖南省遥感中心获得了DEM数据，覆盖区域为长沙市东北部总面积为202.6 km²，利用该DEM数据可利用OpenGL将其渲染为三维模型，并提取天际线建立数据库，该DEM数据可用来检测基于天际线地理定位方法性能。

Fukuda等^[107]从日本地理空间信息局获得了某沙漠的DEM数据，使用Unity图像渲染引擎，以5 m的间隔生成沙丘脊线合成图像，建立了用于地理定位的脊线数据集。

（2）三维点云与图像数据集

Málaga数据集^㉖（㉖ http://www.mrpt.org/MalagaUrbanDataset。）：由Blanco等^[133]建立，作者利用装有GPS传感器、立体相机和LiDAR扫描仪的汽车，在马拉加市内采集视频数据和对应的LiDAR点云数据。

Bansal和Daniilidis^[134]利用加拿大渥太华的航空激光雷达扫描的公开数据集建立了DEM数据，查询数据集为50张街景图像，主要用于2D-3D图像地理定位。

Ozcanli等^[135]创建了美国沿海约634 km²的高分辨率LiDAR数据，并提供了45张该区域图像作为测试图像。

GRAL数据集^㉗（㉗ https://paperswithcode.com/dataset/gral。）：由Mithun等^[9]建立，包括55万多个带有GPS标签的地面图像和从航空LiDAR点云采集的深度图像。GRAL数据集覆盖了美国新泽西州普林斯顿市周围143 km²的区域，该区域包括森林、山脉、公路、城市街道等各种场景。

（3）综合性数据集

KITTI数据集^㉘（㉘ https://www.cvlibs.net/datasets/kitti/user_register.php。）：Andreas等^[136]利用4个高分辨率相机一个激光扫描仪和GPS定位系统建立了KITTI数据集，该数据集包括389个立体光流图像对、长度为39.2 km的立体视觉里程计序列和超过20万个3D对象注释，适用于SLAM、3D对象检测等任务，也常被相关地理定位研究使用。

TOPO-DataGen数据集^㉙（㉙ https://github.com/TOPO-EPFL/CrossLoc-Benchmark-Datasets。）：Qi等^[137]提出了一个通用的数据合成工具TOPO-DataGen，并利用该工具建立了多模态数据集。数据集包含城市区域和自然区域的真实RGB图像、合成RGB图像、深度图像、语义图像、场景坐标数据、曲面法线数据等。该数据集可以评价基于多模态的地理定位方法的性能。

GeoPose3K：由Brejcha和Cadik建立^[138]，其中包含3 000多张具有精确相机位置姿态的山区图像。该数据集还提供了合成深度图、法线图、光照模拟图与语义图，用来训练和评估自然场景下的地理定位方法。

（4）图像语义数据集

Airsim数据集^㉚（㉚ https://paperswithcode.com/dataset/airsim。）：由Gawel等^[139]建立，该数据集利用Airsim框架以俯视、地面2个视角生成了RGB图像、深度图像和像素级语义数据。

SYNTHIA数据集^㉛（㉛ https://paperswithcode.com/dataset/synthia。）：由Ros等^[140]建立，该数据集是一个用于驾驶场景语义分割的数据集，包含213 400张图像，包括虚拟城市中的随机视角图像和视频。生成的图像从多个视角模拟不同季节、天气和照明条件，每张图像均具有像素级的语义注释和深度数据，可以用于基于语义的地理定位方法的测试与评价。

（5）文本与图像数据集

Shin等^[141]通过Twitter API收集了日本东京带有地理标签信息的图像和推文，其中240万张图像作为训练数据， 4 000张图像作为测试数据用于评估地理定位方法。该数据集适用于文本与图像相融合的地理定位方法。

4 图像地理定位评价方法

图像地理定位评价方法比较多，不同的地理定位方法有着不同评价方法，但是相同类别的地理定位评价方法比较统一，这有利于不同论文方法之间的对比，方法总结如下：

（1） Top-K准确率

Top-K准确率是图像地理定位领域比较常用的一种评价方法。概括来说Top-K准确率就是用来计算预测位置中，概率最大的前K个位置中包含正确位置的占比。即当图像地理定位方法返回待查询图像的候选位置列表时，如果前K个候选位置中至少有一个定位正确，则认为该图像正确定位，常用的有Top-1、Top-5、Top-10和Top-1%等。该曲线具有ROC曲线的非递减趋势。

Top-K表明了为了找到至少给定数量的正确定位的待查询图像，必须验证多少个候选位置。它还说明了精确的地理定位是一项艰巨的任务，因为这些方法当Top-1时定位精度往往会很差。通常用户对Top-1候选位置感兴趣，因为验证多个候选位置是不切实际的，这是该评价方法的一个缺点。

（2）定位正确率

设定一个阈值，地理定位坐标与真实坐标的距离小于等于阈值的图像，占整个测试集的百分比为定位正确率。这种评价方法主要用于全球地理定位方法，优点是能直接获得测试集中给定比例的查询图像的定位准确性。

（3）视频帧的位置与姿态误差

该方法常被用来评价基于SfM和SLAM技术的图像地理定位，即计算各个视频帧的位置误差（定位位置与实际位置的距离）和姿态误差并绘制成图，其中横轴为帧，纵轴为误差。视频帧的平均位置误差也常用来评估图像地理定位方法的定位精度。

（4）精度和召回率

精度 (Precision) 和召回率 (Recall) 是用于评估分类和检索方法的指标。在图像地理定位中，该评价方法的出现频率不是太高。在一些图像地理定位方法中，用来评估物体检测和位置识别精度。

（5）定位误差和平均定位误差

定位误差是图像地理定位坐标与图像真实坐标的距离，而平均定位误差是多次图像地理定位误差的平均值。该评价方法在不同的图像地理定位方法中均适用。

5 总结与展望

5.1 现有研究总结

近年来城市区域基于图像的地理定位、跨视角图像检索等方法研究比较充分，但是这类地理定位方法仍然可以通过完善数据集、提高硬件性能、使用更先进的神经网络结构等方式进行改进。

城市区域基于图像的地理定位：一般来说城市区域内基于图像的地理定位方法分为2种，一种是地面视角图像检索，另外一种是基于SfM的地理定位。图像检索地理定位的研究中，NetVLAD方法^[36]取得了稳定且最佳的地理定位效果，Top-1条件下定位准确率可以达到90%。该方法主要是将NetVLAD池化层融合到了CNN当中，使神经网络可以学习图像内物体的更深层次的特征，可以不受夜晚白天、四季变化、天气变化等条件的干扰。这类基于检索街景图像方法的平均定位误差大约为30 m，更精确的地理定位方法为基于SfM的地理定位，可以实现米级的定位，同时可以计算出相机的姿态，但是该方法需要由已知图像构建大型稀疏点云，这对计算性能要求较高，同时对数据库内的图像质量要求较高。为了弥补以上缺点，有研究^[41]将2种方法相结合，首先利用图像检索获得查询图像初始位置，再利用初始位置附近图像采用SfM方法，由粗到精分阶段定位出图像的地理位置。

跨视角图像检索：由于近几年深度学习的快速发展，跨视角图像检索研究发展非常迅速，产生了许多学术成果。跨视角图像检索通常是以地面图像作为查询图像，将俯视图像作为数据集进行匹配检索。俯视图像基本上是全球覆盖的，能建立非常全面的数据集，可以解决自然区域内无街景图像覆盖的问题，该方法主要应用于城郊、农村等非建筑密集地区。目前最优的跨视角图像检索方法为Wang等^[63]提出的Transformer^[59]引导的卷积神经网络架构TransGCNN，它将基于CNN的局部特征与基于Transformer的全局特征相结合，从而改善特征的表示能力，该方法在标准数据集CVUSA和CVACT中分别实现了94.12%和84.92%的超高精度（Top-1）。

5.2 未来研究展望

（1）全球地理定位：地理定位的终极目标是在全球范围内快速精确地定位出查询图像的地理位置，但是全球范围内的地理定位精度很差，如Mueller等^[27]将图像地理定位视为多分类任务，即将地球细分为地理单元，利用场景信息将有关环境设置的上下文纳入卷积神经网络模型，经过预训练可获得查询图像在全球地理单元中的地理位置。该方法在街道级（1 km）、城市级（25 km）、国家级（750 km）和州际级（2500 km）的定位正确率分别为10.5%、28.0%、49.7%和66.0%。可以看出定位精度并不能满足使用需求，且具有很大的研究空间。尽管存在基于机器学习的跨视角方法来匹配不同的模式，很少有学者开展全球区域内利用多数据融合的地理定位研究，如融合正射影像图、航空图像、天气图、DEM模型、LiDAR点云和属性图等多种数据的全球地理定位。

（2）自然区域地理定位：快速的场景外观变化和自相似的重复模式是自然区域地理定位的重大障碍。目前，自然区域内主要通过天际线、边缘等轮廓特征的识别、匹配来定位查询图像的地理位置^{[5⇓⇓-8,97⇓⇓⇓⇓⇓⇓⇓⇓-106]}，但由于查询图像中容易有云雾、树木等遮挡，会极大影响天际线和边缘的检测，因此需要更强大的特征进行匹配。自然区域内除了天际线和边缘特征以外，语义特征、场景的深度特征、法线和太阳位置特征等^[9,111,137]也可用来地理定位。基于图像语义的地理定位已经有研究，但是只局限于城市区域。对于自然区域，识别森林、水体、冰川或岩石的语义特征可以大大提高搜索效率。目前只有Baatz等^[142]做了一些探索，他们提出了一种已知位置的相机方向方法，该方法将查询图像中检测到的语义特征和数字模型中的语义特征进行匹配，从而估计相机的方向。

（3）多种方法融合的地理定位：目前的研究大多都局限于单一地理定位方法，导致地理定位方法适用区域有限、地理定位精度较差或效率较低等缺点。然而，人工地理定位的过程则是利用自己的经验，寻找图像中的线索（提取图像特征），利用多种定位方法相互辅助、交叉验证，得到多个预选位置，最后与预选位置附近的数据（街景图像、俯视图像、有准确地理位置的网络图像等）匹配，获得最高置信度的地理位置的过程。未来地理定位可以参考人工地理定位的思想，将多种方法融合起来获得预选位置，然后再利用高精度的匹配方法，将待查询图像与预选位置附近的街景图像和多模态数据进行匹配，置信度最高的预选位置即为最终的地理位置。

（4）基于POI (Point of Interest) 数据的地理定位：待查询图像内可能会存在如交通路标、广告牌等文字信息或诸如学校、医院、地铁站等细粒度场景信息。自然场景文本识别技术和细粒度场景识别技术近年来发展迅速，提取出图像中的文本信息和场景信息，将其用于图像地理定位是非常可行的。通过提取待查询图像文字信息和细粒度场景信息，并对POI数据进行检索，可以缩小待查询图像的定位范围，甚至能直接得出待查询图像的地理位置。然而目前基于POI数据的地理定位的研究非常少，因此是一个重要的研究方向。

（5）预选位置的精细化定位：经过一系列粗略定位，获得了许多预选位置，然后模仿人工图像地理定位最后一个再确认的过程，即在城市场景图像类别中，将待查询图像利用高精度图像匹配算法与预选地理位置附近的街景影像进行匹配，获得相似度分值；在自然场景图像类别中，将待查询图像与对应点云库、3D模型、DEM模型等数据进行2D-3D匹配，获得相似度分值，最后对所有预选地理位置进行评定，最终置信度最高的地理位置为待查询图像的地理位置。上述预选位置的精细化定位过程也是一个未来的研究方向。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Flatow D, Naaman M, Xie K E, et al. On the accuracy of hyper-local geotagging of social media content[C]// Proceedings of the Eighth ACM International Conference on Web Search and Data Mining. New York: ACM, 2015:127-136. DOI:10.1145/2684822.2685296 DOI

[2]	Hays J, Efros A A. IM2GPS: estimating geographic information from a single image[C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2008:1-8. DOI:10.1109/CVPR.2008.4587784 DOI

[3]	Bansal M, Sawhney H S, Cheng H, et al. Geo-localization of street views with aerial image databases[C]// Proceedings of the 19th ACM international conference on Multimedia - MM ’11. Scottsdale, Arizona, USA: ACM Press, 2011:1125. DOI:10.1145/2072298.2071954 DOI

[4]	Zamir A R, Ardeshir S, Shah M. GPS-tag refinement using random walks with an adaptive damping factor[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:4280-4287. DOI:10.1109/CVPR.2014.545 DOI

[5]	Baatz G, Saurer O, Koeser K, et al. Large scale visual geo-localization of images in mountainous terrain[C]// FITZGIBBONA, LAZEBNIKS, PERONAP, et al. Computer Vision - ECCV 2012. Berlin, Heidelberg: Springer, 2012, 7573:517-530. DOI:10.1007/978-3-642-33709-3_37 DOI

[6]	Baboud L, Čadík M, Eisemann E, et al. Automatic photo-to-terrain alignment for the annotation of mountain pictures[C]// CVPR. IEEE, 2011:41-48. DOI:10.1109/CVPR.2011.5995727 DOI

[7]	Porzi L, Buló S R, Valigi P, et al. Learning contours for automatic annotations of mountains pictures on a smartphone[C]// Proceedings of the International Conference on Distributed Smart Cameras. New York: ACM, 2014:1-6. DOI:10.1145/2659021.2659046 DOI

[8]	Tzeng E, Zhai A, Clements M, et al. User-driven geolocation of untagged desert imagery using digital elevation models[C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2013:237-244. DOI:10.1109/CVPRW.2013.42 DOI

[9]	Mithun N C, Sikka K, Chiu H P, et al. RGB2LIDAR: Towards solving large-scale cross-modal visual localization[EB/OL]. 2020: arXiv:2009.05695. https://arxiv.org/abs/2009.05695

[10]	Weng L, Gouet-Brunet V, Soheilian B. Semantic signatures for large-scale visual localization[J]. Multimedia Tools and Applications, 2021, 80(15):22347-22372. DOI:10.1007/s11042-020-08992-6 DOI

[11]	Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110. DOI:10.1023/B:VISI.0000029664.99615.94 DOI

[12]	Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05) - Volume 1 - Volume 01. New York: ACM, 2005:886-893. DOI:10.1109/CVPR.2005.177 DOI

[13]	Bay H, Tuytelaars T, Van Gool L. SURF: Speeded up robust features[G]// LEONARDIS A, BISCHOF H, PINZ A. Computer Vision - ECCV 2006. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006, 3951:404-417. DOI:10.1007/11744023_32 DOI

[14]	Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C]// 2011 International Conference on Computer Vision. IEEE, 2012:2564-2571. DOI:10.1109/ICCV.2011.6126544 DOI

[15]	Zhang W, Kosecka J. Image based localization in urban environments[C]// Third International Symposium on 3D Data Processing, Visualization, and Transmission (3DPVT'06). IEEE, 2007:33-40. DOI:10.1109/3DPVT.2006.80 DOI

[16]	Zamir A R, Shah M. Accurate image localization based on google maps street view[C]// Proceedings of the 11th European conference on Computer vision:Part IV. New York: ACM, 2010:255-268. DOI:10.5555/1888089.1888109 DOI

[17]	Noh H, Araujo A, Sim J, et al. Large-scale image retrieval with attentive deep local features[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017:3476-3485. DOI:10.1109/ICCV.2017.374 DOI

[18]	Ng T, Balntas V, Tian Y R, et al. SOLAR: Second-order loss and attention for image retrieval[EB/OL]. 2020: arXiv: 2001.08972. https://arxiv.org/abs/2001.08972

[19]	Chu T, Chen Y, Huang L, et al. A grid feature-point selection method for large-scale street view image retrieval based on deep local features[J]. Remote Sensing, Basel: MDPI, 2020, 12(23):3978. DOI:10.3390/rs12233978 DOI

[20]	Chu T Y, Chen Y M, Huang L H, et al. Street view image retrieval with average pooling features[C]// IGARSS 2020-2020 IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2021:1205-1208. DOI:10.1109/IGARSS39084.2020.9323667 DOI

[21]	Yan L, Cui Y, Chen Y, et al. Hierarchical attention fusion for geo-localization[C]// 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2021). New York: IEEE, 2021:2220-2224. DOI:10.1109/ICASSP39728.2021.9414517 DOI

[22]	杨晓云. 基于卷积神经网络的视觉位置识别方法研究[D]. 哈尔滨: 东北林业大学, 2021. [Yang X Y. Research on visual place recognition method based on convolutional neural network[D]. Harbin: Northeast Forestry University, 2021.] DOI:10.27009/d.cnki.gdblu.2021.000237 DOI

[23]	Chu T, Chen Y, Su H, et al. A news picture geo-localization pipeline based on deep learning and street view images[J]. International Journal of Digital Earth, 2022, 15(1):1485-1505. DOI:10.1080/17538947.2022.2121437 DOI

[24]	Tolias G, Jenicek T, Chum O. Learning and aggregating deep local descriptors for instance-level recognition[C]// VedaldiA, BischofH, BroxT, et al. Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020:460-477

[25]	Choi J, Friedland G. Multimodal location estimation of videos and images[M]. Cham: Springer International Publishing, 2015. DOI:10.1007/978-3-319-09861-6 DOI

[26]	Weyand T, Kostrikov I, Philbin J. PlaNet - photo geolocation with convolutional neural networks[C]// European Conference on Computer Vision. Cham: Springer, 2016:37-55.10.1007/978-3-319-46484-8_3 DOI

[27]

Mueller-Budack

, Pustu-Iren

, Ewerth

. Geolocation estimation of photos using a hierarchical model and scene classification[C]// Ferrari

, Hebert

, Sminchisescu

, et al. Computer Vision - ECCV 2018, Pt XII. Cham: Springer International Publishing Ag, 2018, 11216:575-592. DOI:10.1007/978-3-030-01258-8_35

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

图1 图像地理定位文献趋势演化图谱

图2 图像地理定位方法

图3 图像地理定位方法（按定位范围分类）

2 图像地理定位方法

附表1 图像地理定位研究汇总

2.1 图像检索

2.1.1 地面视角图像检索

表1 地面图像检索研究总结

2.1.2 跨视角图像检索

表2 跨视角图像检索研究总结

2.2 2D-3D匹配

表3 2D-3D匹配研究

2.2.1 单张图像2D-3D匹配 (SfM)

2.2.2 序列图像2D-3D匹配 (SLAM)

2.3 跨模态检索

表4 跨模态检索研究总结

2.3.1 基于轮廓特征的跨模态检索

2.3.2 基于GIS语义的跨模态检索

2.3.3 基于几何纹理特征的跨模态检索

3 数据集

附表2 图像地理定位数据集汇总

3.1 地面图像数据集

3.2 跨视角数据集

3.3 SfM数据集

3.4 多模态数据集

4 图像地理定位评价方法

5 总结与展望

5.1 现有研究总结

5.2 未来研究展望

参考文献