图像地理定位研究进展

  • 黄高爽 ,
  • 周杨 , * ,
  • 胡校飞 ,
  • 赵璐颖 ,
  • 张呈龙
展开
  • 中国人民解放军战略支援部队信息工程大学 地理空间信息学院, 郑州 450001
*周 杨(1974— ),男,贵州安顺人,教授,博士,主要从事网络空间测绘、影像智能解译、空间数据可视化等研究。E-mail:

黄高爽(1997— ),男,河南新乡人,博士生,主要从事网络空间测绘、精密工业摄影测量等研究。E-mail:

收稿日期: 2023-02-17

  修回日期: 2023-04-19

  网络出版日期: 2023-06-30

基金资助

河南省自然科学基金项目(202300410536)

A Survey of the Research Progress in Image Geo-localization

  • HUANG Gaoshuang ,
  • ZHOU Yang , * ,
  • HU Xiaofei ,
  • ZHAO Luying ,
  • ZHANG Chenglong
Expand
  • Institute of Geospatial Information,PLA Strategic Support Force Information Engineering University, Zhengzhou 450001, China
*ZHOU Yang, E-mail:

Received date: 2023-02-17

  Revised date: 2023-04-19

  Online published: 2023-06-30

Supported by

Natural Science Foundation of Henan Province(202300410536)

摘要

图像地理定位是将没有地理位置的图像,通过一系列方法获得对应地理位置,使其与现实地理空间建立关联映射的技术。该技术对进一步挖掘图像信息有着重要的作用,在网络空间测绘、情报获取、用户室外定位、增强现实等方面具有较高的应用价值。尽管计算机视觉领域取得了巨大的进展,但是由于图像地理定位涉及到图像特征提取、大规模数据检索、大规模点云处理、深度学习、地理信息特征提取、几何建模与推理、语义场景理解、基于上下文的推理、多数据融合应用等多个领域,所以对图像的高精度自动地理定位仍是需要进一步解决的难题。本文对图像地理定位研究进展进行了梳理,主要包括图像地理定位方法、图像地理定位数据集、图像地理定位评价方法和图像地理定位总结与展望4个方面。首先按照研究内容相关性将图像地理定位方法分为了图像检索、2D-3D匹配和跨模态检索3类方法,并详细介绍了每一类方法的最新研究进展;其次对图像地理定位研究所用的数据集和评价方法进行了归类与总结;最后分析了图像地理定位的研究现状,并从全球地理定位、自然区域地理定位、多方法融合地理定位、基于POI数据的地理定位和预选位置的精细化定位等方面对图像地理定位的未来研究方向进行了展望。

本文引用格式

黄高爽 , 周杨 , 胡校飞 , 赵璐颖 , 张呈龙 . 图像地理定位研究进展[J]. 地球信息科学学报, 2023 , 25(7) : 1336 -1362 . DOI: 10.12082/dqxxkx.2023.230073

Abstract

Image geo-localization is a technique that obtains the geographic location information of an image through a series of methods, so as to establish a mapping relationship with the real geographic space. This technique is important for further image information mining and has potential application value in cyberspace surveying and mapping, intelligence acquisition, user outdoor positioning, and augmented reality. Despite the tremendous progress in the field of computer vision, high-precision automatic geo-localization of images still needs to be addressed due to the involvement of multiple fields such as image feature extraction, large-scale data retrieval, large-scale point cloud processing, deep learning, geographic information feature extraction, geometric modeling and reasoning, semantic scene understanding, context-based reasoning, and multiple data fusion. This paper reviews the progress of image geo-localization research, mainly including image geo-localization methods, image geo-localization datasets, image geo-localization evaluation methods, and summary and prospect of image geo-localization. Firstly, image geolocation methods are classified into three categories, i.e., image retrieval, 2D-3D matching, and cross-modal retrieval, according to the relevance of the research content. Secondly, the datasets and evaluation methods used for image geo-localization research are categorized and summarized. The geo-localization datasets include image datasets, cross-view datasets, Structure from Motion (SfM) datasets, and multimodal datasets, etc. The image geo-localization evaluation metrics include Top-k candidates, localization error, position and orientation error per video frame, and accuracy/recall. Finally, the current status of image geo-localization research is analyzed, and the future research directions of image geo-localization are outlined in terms of global geo-localization, natural area geo-localization, multi-method fusion for geo-localization, Point of Interest (POI) data-based geo-localization, and pre-selected location refinement.

1 引言

随着微信、微博、QQ、Twitter、Meta、Instagram、Flickr等国内外社交媒体平台的兴起,网络空间中存在着大量公开图像,这些图像包含了大量潜在的有价值的信息。地理位置信息提供了图像的地理背景,对进一步提取图像的信息有着重要的作用,如网络空间测绘、情报获取、图像内的目标定位、基于模型的图像增强、增强现实等。然而,这些图像中大多数没有地理位置信息,据Flatow等[1]的研究,Twitter上大约只有2%的图像有地理位置信息,Instagram上只有大约25%,所以图像地理定位具有较高的研究价值。另外,图像地理定位还可以在GNSS拒止条件下辅助用户室外定位、无人机、无人驾驶汽车定位。
图像地理定位,国际上名为Image Geo-localization或Visual Place Recognition (VPR)。Hays等[2]认为图像地理定位是“给定一张图像,利用某种方法估计出该图像的地理位置分布的过程”,Bansal等[3]将问题定义为“给定一个城市或区域的地面街景图像,在没有任何GPS或相机参数的情况下确定出相机的地理位置”,Zamir等[4]认为图像地理定位是“通过寻找待定位图像的匹配图像来估计待定位图像的位置”。本文将图像地理定位定义为:采用一定的方法获得待查询图像的地理位置,并与现实地理空间建立关联映射的技术。
本文利用VOSviewer软件对图像地理定位文献的演化趋势进行分析,获得了图像地理定位文献趋势演化图谱(图1)。根据研究内容的内涵与相关性,图谱可以大致分为右侧、左上和左下3个部分,分别对应图像检索、2D-3D匹配、跨模态检索三类图像地理定位方法。
图1 图像地理定位文献趋势演化图谱

Fig. 1 Literature trend evolution map of image geo-localization

图像检索是以已知地理位置的图像为参考数据来实现地理定位的一类方法,包括地面视角图像检索、跨视角图像检索。2D-3D匹配包括单张图像2D-3D匹配和序列图像2D-3D匹配,分别对应运动恢复结构(Structure from Motion, SfM)与实时定位与地图构建(Simultaneous Localization and Mapping, SLAM)。跨模态检索是将查询图像与数字高程模型 (Digital Elevation Model, DEM)[5-8]、LiDAR点云数据[9]、GIS属性数据[10]、地形图、语义图、合成深度图等不同模态的数据进行跨模态检索,从而完成地理定位的过程,主要包括轮廓特征检索、图像GIS语义检索、几何纹理特征检索等方法,如图2所示。
图2 图像地理定位方法

Fig. 2 Image geo-localization category

根据定位范围来划分,图像地理定位可分为全球区域、自然区域和城市区域图像地理定位,如图3所示。在全球范围内进行精确地理定位是图像地理定位的终极目标,但是现有的全球图像地理定位精度都非常低,并且对数据库的质量、容量等方面要求非常高,目前全球图像地理定位精度在200 km以内就会被认为是成功的地理定位[2]
图3 图像地理定位方法(按定位范围分类)

Fig. 3 Image geo-localization category (Categorized by area)global nature city scale

自然区域地理定位,主要针对特定自然区域的地理定位,如沙漠、山脉、森林等自然区域,这类区域没有街景图像覆盖,不能通过图像检索等方法实施地理定位,因此研究者常常结合俯视图像、DEM、地形图等数据进行地理定位。自然区域有着大量的重复和自相似模式(如树林纹理、沙漠纹理、山脉纹理等),还有光照的变化、植被的生长、季节的变化等会给自然区域的地理定位造成较大的困难,使定位精度难以提高。
城市区域具有大量独特的辨识度很高的人造物体,如建筑物、路标、桥梁等,可以被很好的识别与匹配,这些物体在空间中的排布是唯一的,可以用来地理定位。另外,城市区域覆盖了密集的街景图像,可以利用图像检索的方法对图像进行地理定位,同时结合SfM、SLAM等方法来获取更加精确的地理坐标。
从研究分布来看,国外图像地理定位研究较多且发展较快,国内也有一些团队研究,但是相关中文论文不多,并缺少该领域的综述性论文。本文对国内外图像地理定位研究做了总结,论文第2节详细介绍了图像地理定位各类方法的最新研究进展;第3节将图像地理定位数据集分为4类,并对每一类的数据集展开介绍;第4节详细总结了图像地理定位评价方法;第5节对图像地理定位的研究现状与未来研究方向进行了总结与展望。

2 图像地理定位方法

本文主要按照图2的分类方式,对图像地理定位研究进行综述。图像地理定位研究汇总见附表1
附表1 图像地理定位研究汇总

Attached Tab. 1 Summary table of image geo-localization methods

方法 年份 方法类别 类别 测试区域 测试结果 阈值 评价方法
Hakeem等[90] 2006 SLAM 城市 校园 6 m 平均定位误差
Schindler等[29] 2007 图像检索 城市 单个城市 70% 10 m
Zhang等[15] 2007 图像检索 城市 城市某区域 72% 16 m 定位正确率
Schindlert等[110] 2008 城市 城市某建筑五张图像 6.4 m 平均定位误差
Irschara等[78] 2009 SfM 城市 地标 39% Top-10 Top-K
Zamir等[16] 2010 图像检索 城市 240 km2的街景 78% 250 m
Baatz等[112] 2010 3D-2D图像检索 城市 单座城市 35% or 85% 定位正确率
Li等[84] 2010 城市 全球多个城市 92.4%(罗马) 400 m 定位正确率
Avrithis等[33] 2010 图像检索 城市 地标 80.65% 定位正确率
Ramalingam等[105] 2010 天际线匹配 城市 纽约、波士顿、东京 2.8 m 平均定位误差
Crandall等[131] 2011 SfM 城市 罗马 1 m 定位误差
Sattler等[79] 2011 2D-3D匹配 城市 全球城市 97.6%(罗马) 400 m 定位正确率
Johns等[31] 2011 图像检索 城市 地标建筑
精度/召回率
Raguram等[143] 2011 SfM 城市 全球地标 95% & 47% 精度和召回率
Vaca-Castano等[92] 2012 图像检索 城市 匹兹堡市中心 268.6 m/9.94 m 平均定位误差
Sattler等[80] 2012 2D-3D、3D-2D 城市 全球城市 99.1%(罗马) 400 m 定位正确率
Larnaout等[93] 2012 SLAM 城市 城市中心区域
Li等[82] 2012 SfM 城市 1000个地标 73% 10 m 定位正确率
Bergamo等[88] 2013 SfM 城市 25个地标建筑 71.26% 定位正确率
Svarm,等[85] 2014 2D-3D 城市 Dubrovnik 99.75% 400 m 定位正确率
Ardeshir等[144] 2014 跨模态检索 城市 10 km2华盛顿区域 60% Top-20 Top-K
Zamir等[4] 2014 图像检索 城市 多座城市 44% 100 m 定位正确率
Senlet等[145] 2014 图像检索 城市 16.5 km2城市区域 75.91% 定位正确率
Zamir等[114] 2014 图像检索 城市 美国多个城市 50% 150 m 定位正确率
Middelberg等[94] 2014 SLAM SfM 城市 40 km2 1 m 定位误差
Bansal等[134] 2014 几何关系 城市 加拿大渥太华
Zeisl等[86] 2015 城市 美国若干城市 99.75% 400 m 定位正确率
Sattler等[83] 2015 SfM 城市 62.50%
Lin等[45] 2015 跨视角 城市 全球多个城市 80% Top-20% Top-K
Kendall等[89] 2015 深度学习CNN 城市 城市建筑 2 m, 3° 定位误差
Taneja等[146] 2015 图像检索 城市 13 m, 16° 平均定位误差
Gronat等[147] 2016 多分类问题 城市 匹兹堡、东京
Tian等[46] 2017 跨视角 城市 美国城市
Liu等[148] 2017 2D-3D 城市 全球城市 18.3 m 平均定位误差
Kim等[149] 2017 图像检索 城市 全球城市 69.45% 定位正确率
Arandjelovic等[36] 2018 图像检索 城市 匹兹堡、东京 90.80% Top-10 Top-K
Liu等[150] 2018 城市 杭州大学校园 96% 定位正确率
Sun等[151] 2018 深度学习 城市 旧金山 1.53 m 定位误差
Cheng等[41] 2018 图像检索SfM 城市 南京180 km道路 43.2% 50 m 定位正确率
Hu等[48] 2018 跨视角 城市 美国若干城市 67.10% 100 m 定位正确率
Ozkose等[119] 2018 图像分类 城市 土耳其15个城市 57.60%
Sun等[51] 2019 跨视角 城市 美国若干城市 CVUSA: 98.07%
Vo&Hays:76.83%
Top-1% Top-K
Cai等[55] 2019 跨视角 城市 CVUSA: 98.3%
Vo & Hays:71.9%
Top-1% Top-K
Liu等[53] 2019 跨视角 城市 美国11个城市 93.10% Top-K
Chen等[152] 2019 深度学习 城市 ORC: 94% GSV: 92% 40 m 定位正确率
Iwami等[87] 2019 SfM 城市 西班牙马拉加 6 m 定位误差
Shi等[54] 2019 跨视角 城市/自然 美国众多城市 CVUSA: 89.84%
CVACT: 81.03%
Top-1 Top-K
Hu等[127] 2020 跨视角 城市 美国11个城市 67.10% 100 m 定位正确率
Shi等[69] 2020 跨视角 城市 美国11个城市 CVUSA: 61.43%
CVACT: 61.05%
Top-1 Top-K
Chu等[20] 2020 图像检索 城市 香港 82.14% Top-1 TOP-K
Shi等[49] 2020 跨视角 城市 美国若干城市与郊区 CVUSA:78.11%
CVACT:72.91%
Top-1 TOP-K
Mithun,等[9] 2020 跨模态检索 城市/自然 普林斯顿143km2区域
Rodrigues等[72] 2021 跨视角 城市 城市 CVACT: 73.19%
CVUSA: 75.95%
Top -1 Top-K
Toker等[67] 2021 跨视角 城市 城市 CVUSA: 92.56%
CVACT: 83.28%
Top-1 Top-K
Yang等[61] 2021 跨视角 城市 城市 CVUSA: 83.14%
CVACT: 58.33%
Top-1 Top-K
Huang等[68] 2021 跨视角 城市 美国11个城市 CVUSA: 92.3%
Vo&Hays: 71.03%
Top-1% Top-K
Yang等[153] 2021 城市 93.58% 定位正确率
Yan等[21] 2021 图像检索 城市 全球城市 Top-K
Zhu等[71] 2021 跨视角 城市 CVUSA: 54.5%
Vo & Hays: 11.8%
Top-1 Top-K
Weng等[10] 2021 跨模态检索 城市 巴黎 49.46% 50 m 定位正确率
Zhu等[70] 2021 跨视角 城市 美国多座城市 49% Top-1 Top-K
Chu等[23] 2022 图像检索 城市 香港湾仔区50 km2区域 50.62% 50 m 定位正确率
Wang等[74] 2022 跨视角 城市 全球地标 CVUSA: 85.79%
CVACT: 79.99%
Top-1 Top-K
Zhu等[52] 2022 跨视角 城市 美国若干城市 CVUSA: 97.4%
Vo & Hay: 76.7%
Top-1% Top-K
Zeng等[73] 2022 跨视角 城市 全球地标 40.87% Top-1% Top-K
Li等[57] 2022 跨视角 城市 美国等11座城市 CVUSA: 81.39%
CVACT: 71.52%
Top-1 Top-K
Berton等[116] 2022 深度学习 城市 旧金山 83.4% Top-K
Wang等[63] 2022 跨视角 城市 美国若干城市与郊区 CVUSA: 94.15%
CVACT: 84.92%
Top-1 Top-K
Guo等[64] 2022 跨视角 城市/自然 美国若干城市与郊区 CVUSA: 94.1%
CVACT: 89.03%
Top-5 Top-K
Zhang等[58] 2022 跨视角 城市/自然 美国众多城市 CVUSA: 89.84%
CVACT: 81.03%
Top-1 Top-K
Jacobs等[154] 2007 全球 美国若干城市 71.8 km 平均定位误差
Hays等[2] 2008 图像检索 全球 南卡罗莱纳州 16% 200 m 定位正确率
Gallagher等[155] 2009 全球 全球区域 33% 200 km 定位正确率
Kalogerakis等[156] 2009 全球 全球区域 58% 400 km 定位正确率
Li等[30] 2009 图像分类 全球 地标 40.58% 定位正确率
Zheng等[157] 2009 图像检索 全球 全球地标 80.80% 定位正确率
kelm等[158] 2011 全球 全球区域 35% 1 km 定位正确率
Shrivastava等[159] 2011 跨模态检索 全球 跨模态图像 68.74% Top-5 Top-K
Kelm等[160] 2011 全球 全球区域 10% / 33% 1 km / 5 km 定位正确率
Lin等[43] 2013 跨视角 全球 1 600 km2区域 17% Top-K
Workman等[42] 2015 跨视角 全球 4 000 km2 22.70%
Weyand等[26] 2016 图像分类 全球 全球区域 37.60% 200 km 定位正确率
Noh等[17] 2017 图像检索 全球 全球地标 91.75% 定位正确率
Mueller-Budack等[27] 2018 深度学习 全球 全球区域 10.5%/66.0% 1 km/2500 km 定位正确率
Chu等[19] 2020 图像检索 全球 全球地标 86.84% 500 m 定位正确率
Ng等[18] 2020 图像检索 全球 全球15 000地标 81.60% 定位正确率
Dai等[60] 2021 跨视角 全球 全球大学地标 86.71% 定位正确率
Zhuang等[62] 2022 深度学习 全球 全球地标 82.14% Top-1 Top-K
Talluri等[95] 1992 图像检索DEM 自然 148 km2区域
Baboud等[6] 2011 天际线匹配 自然 28张山脉图像 86% 0.2° 定位正确率
Baatz等[5] 2012 天际线匹配 自然 瑞士山区 88% Top-1 Top-K
Hammoud等[103] 2013 多方法融合 自然 20 000 km2区域 49% 14 km 定位正确率
Tzeng等[8] 2013 天际线匹配 自然 10 000 km2区域
Viswanathan等[44] 2014 跨视角 自然 c. 0.1 km2 31% Top-10% Top-K
Cadik等[122] 2015 图像检索 自然 阿尔卑斯山区 531.05 m 定位误差
Chen等[106] 2015 基于DEM检索 自然 全球10 000 km2区域 60% 4.5 km 定位正确率
Saurer等[102] 2016 天际线匹配 自然 40 000 km2阿尔卑斯山 88% & 76% 1 000 m 定位正确率
Ozcanli等[135] 2016 基于语义2D-3D 自然 美国沿海634 km2区域
Fukuda等[107] 2020 山脊线匹配 自然 1.81 m±1.44 m 平均定位误差
Tang等[101] 2022 天际线匹配 自然 中国202.6 km2区域 43.13 m 平均定位误差
Cabrera-Ponce等[161] 2022 深度学习 自然 1 716 m2/806.96 m2区域 4.5 m 定位误差
Yan等[137] 2022 深度学习 自然 14.1 m 定位误差
Tan等[104] 2022 天际线匹配 自然 202.6 km2丘陵区域 43.13 m 200 m 定位误差

注:Top-K包括Top-1、Top-5、Top-10、Top-1%、Top-10%等, Top-1、Top-5、Top-10分别为前1张图像、前5张图像、前10张图像,Top-1%为总测试图像的前1%图像,Top-10%为总测试图像的前10%图像。

2.1 图像检索

图像检索可分为地面视角图像检索和跨视角图像检索2种方法,所用的匹配准则包括特征匹配准则、语义匹配准则等,其中特征匹配准则通过提取图像中的手工特征、深度特征等特征进行特征匹配,根据特征相似度来判断最佳匹配结果;语义匹配准则利用图像中诸如建筑物、道路、河流等语义信息,与数据库进行匹配,从而实现图像地理定位。

2.1.1 地面视角图像检索

地面视角图像检索是一种研究和应用都比较成熟的地理定位方法,所用的参考数据为带有地理坐标的街景图像、网络空间图像等,研究方法总结见表1
表1 地面图像检索研究总结

Tab. 1 Research summary of ground image retrieval

研究主题 研究内容 优点 缺点
基于特征的地面图像检索 手工特征[4,11-16] 算法简单,解释性强 冗余度高,需要降维处理,易受环境变化影响,定位精度低
深度特征[17-23] 特征表达能力强,特征维度可定义,定位精度高 解释性不强,需要大量图像进行训练
基于分类聚类的地面图像检索 全球图像检索[2,25-29] 可实现全球图像地理定位 分类粗糙,定位精度低,受数据库图像的数量与质量影响很大
全球地标识别[30-33]
其他改进方法 应对环境变化[34-38] 面对环境变化鲁棒性好,定位精度高 算法复杂,检索效率低
多方法融合[39-41] 检索效率较高,定位精度高 算法复杂,适用范围小
地面视角图像检索地理定位主要分为2种方法: ① 利用大量具有地理位置标签的图像(如带有GPS坐标的街景图像和网络图像等)组成图像检索库,利用特征提取算子提取数据库图像特征建立特征库,经过特征相似性匹配检索出与待检索图像最相似的图像,并根据最相似图像的地理位置来推断检索图像的地理位置; ② 构建神经网络模型或分类器,利用带有地理位置标签的图像作为训练集进行训练,直接预测检索图像的地理坐标。前者适用于街景图像和网络图像密集分布的城市区域,后者为分类、聚类的思想,适用于全球区域的图像检索与地标识别。
用于地面视角图像检索的特征主要包括手工特征和深度特征。手工特征包括SIFT[11]、HOG[12]、SURF[13]、ORB[14]等,通常与描述符聚合方法结合使用,如词袋(Bag of Word, BoW)、Fisher向量(Fisher Vector, FV)和局部聚合描述符向量(Vector of Locally Aggregated Descriptors, VLAD)等。Zhang和kosecka[15]首先提取图像的SIFT特征建立图像特征数据库,暴力全局检索数据库图像,利用随机采样一致性(RANdom SAmple Consensus, RANSAC)算法对前5张候选图像进行验证与排序,并利用前3张图像通过三角测量获得待查询图像的地理位置。Zamir 和 Shah[16]则提取图像的SIFT特征向量建立数据库,采用近邻树检索方式来提高检索效率,并采用修剪平滑的操作来提高准确性。随后Zamir和Shah[4] 又通过修剪离群值和使用广义最小团问题(Generalized Minimum Clique Problem, GMCP)结合近似特征匹配来进一步改进最近邻匹配,定位精度比之前的工作[16]提高了5%。
深度特征由卷积神经网络、注意力机制和多模块融合等神经网络框架自动提取,效果往往比手工特征好,并且神经网络框架可以灵活设计,具有较大的提升空间。如Noh 等[17]提出了一种图像局部特征描述符(DEep Local Features, DELF)和用于关键点选择的注意力机制,以识别对图像检索有用的语义局部特征。Ng等[18]提出了名为SOLAR(Second-Order Loss and Attention for image Retrieval)的全局描述符,通过空间注意力和描述符相似性利用二阶信息进行大规模图像检索。Chu等[19]构造卷积神经网络来提取密集特征,在网络中嵌入注意力模块来对特征进行评分,并提出了一种网格特征点选择方法(Grid Feature-point Selection, GFS),在最小精度损失的情况下,减少图像的特征点数量,提高检索效率。Chu等[20]将深度特征与手工特征相结合,从卷积神经网络(Convolutional Neural Network, CNN)网络的中间层提取的平均池化特征,在街景数据集上进行检索,再对前一次的检索结果进行SIFT重排序以提高检索精度。Yan等[21]从卷积神经网络中提取分层特征图,并将提取的特征有机地融合用于图像特征表示,从而提高图像检索精度。杨晓云[22]利用分离卷积构建空间注意力机制,识别图像的兴趣区域;然后将从高层卷积特征学习到的空间注意力掩码与低层卷积特征相乘,以解决信息冗余问题;最后利用VLAD方法构建全局特征向量用来图像检索。Chu等[23]采用带有HOW模块[24]的卷积网络来提取局部图像特征,通过VLAD将其聚合成一个特征向量,并将ASMK(Aggregated Selective Match Kernel)作为图像匹配相似度函数用于图像检索,最后利用核密度估计(Kernel Density Prediction, KDP)方法对查询图像的地理位置进行估计。
全球图像检索的问题由Hays和Efros首先开展研究[2,25],他们从全球600万张图像中创建了一个包含各种特征的数据库,用来估计待查询图像的位置。Weyand等[26]设计了一种卷积神经网络结构,并使用了一个1.26亿张图像的数据集进行训练,该网络经过训练可以直接估计待查询图像的地理位置。该方法与神经网络结构和数据集的质量相关,定位精度很差,实用性不高。还有研究将聚类、分类思想应用于图像检索,Mueller等[27]将地球细分为地理单元,利用场景信息将环境设置上下文融入到卷积神经网络模型中,并对图像所在的地理单元进行预测,该方法的定位精度取决于地理单元的大小。Zemene等[28]将地理定位视为局部图像特征的聚类问题,提出了一种基于优势集聚类的多种神经网络特征匹配方法,并将全局与局部特征相结合,以提高匹配精度。Schindler等[29]采用了分类的思想,提出了一种利用词汇树实现图像检索的方法,并建立了20 km长的街景图像数据集用于测试。
全球地标识别也是全球地理定位的一种方式。由于地标建筑与普通场景相比辨识度比较高,所以通常采用聚类、分类的思想来实现地标图像检索。Li等[30]使用基于SIFT特征的BoW技术与多类SVM分类器相结合的方法,定位精度与执行相同任务的人类相当。Johns和Yang[31]通过将20万张图像数据库聚类到视觉上相似的地标场景模型来改进BoW技术[32],但与标准的BoW技术相比改进不大。Avrithis等[33]利用核矢量量化方法(Kernal Vector Quantization, KVQ)对视觉上一致的图像进行聚类分组,来压缩大量图像,同时仍然能保证单一、非地标性的图像的检索。
不同季节、不同光照、移动的物体等不断变化的环境,以及相机视角的变化等因素,对图像地理定位形成了挑战,针对此问题一些学者提出了相应的解决方法。Mishkin等[34]采用了一种带有多个检测器、描述符、视图合成和自适应阈值的BoW方法来应对环境的巨大视觉变化。仇晓松等[35]采用预训练的CNN网络模型提取图像描述符,该模型能较好地描述图像的局部与全局特征,对视角变化和外观变化具有较高的鲁棒性。Relja等[36]受到VLAD启发,设计了可训练的NetVLAD层。NetVLAD提供了较为优秀的池化机制,可以轻松插入到其他CNN结构中,从而更好地提取图像特征,提高图像检索精度。刘耀华[37]提出了基于对抗判别网络的域自适应算法和基于批量标准化的域自适应算法,从而增强网络模型的域自适应能力。王红君等[38]提出一种基于SENet改进的ResNet的视觉位置识别网络PlaceNet,实验精确度和查询效率比NetVLAD更高。
利用多种方法融合实现图像检索。Kang等[39]将空间分析与图像检索相结合,即利用二值支持向量机对数据集进行“有”“无”地理信息的预处理,提高训练效率,并利用GIS反向视域分析来减少图像潜在搜索区域,最后以埃菲尔铁塔区域图像为例验证了该方法的准确性与有效性。Cheng等[40-41]将三维重建与图像检索相结合,即采用三步法的策略由粗到精逐步细化地理位置,包括通过图像检索粗略地理定位,通过图像配准选择可靠匹配图像,最后通过三维重建获得图像的精确地理位置。

2.1.2 跨视角图像检索

跨视角图像检索所用的数据集为卫星图像、航空图像、无人机图像等俯视图像,俯视图像数量巨大且全球覆盖,但与地面图像视角差异过大,导致图像的匹配检索比较困难[42],方法研究总结见表2
表2 跨视角图像检索研究总结

Tab. 2 Research summary of cross-view image retrieval

研究主题 研究内容 特点
基于特征的跨视角图像检索 手工特征[43-44] 算法简单,解释性强;受视角差异影响较大,定位精度低
深度特征[42,45-49] 特征表达能力强,能更好适应视角差异,定位精度高;解释性不强,需要大量图像进行训练
跨视角图像检索网络改进 添加胶囊网络[50-53] 增强了神经网络的空间关系感知能力
添加注意力模块[54-58] 提高了特征表达能力
引入ViT模块[60-63] 提高了全局上下文推理能力,减少视觉歧义
设计损失函数[55,64] 进一步提高了特征表达能力
基于视角转换的跨视角图像检索 几何转换[54] 缩小了视角差异,几何结构关系明显,算法简单;转换会损失部分像素信息,定位精度较低
GAN网络转换[65-68] 进一步缩小了视角差异,定位精度高;需要大量图像进行训练
其他改进方法 跨视角特征同化[69] 转换同化不同视角图像的特征,减少视角差异带来的影响
图像地理位置细化[70] 通过回归预测偏移量来细化图像地理位置,提高定位精度
无人机图像视角过渡[73] 利用无人机图像作为桥梁,减少视角差异带来的影响
方形回环特征划分[74] 能更好适应图像的旋转变化
早期的跨视角图像检索利用手工特征来进行跨视角匹配,Lin等[43]最早提出利用跨视角匹配的方法进行地理定位,他们将地面图像、土地属性覆盖图和俯视图像组成数据库,利用HOG、Gist、颜色直方图等手工特征,将待查询图像与地面图像进行匹配,如果匹配失败,则与俯视图像进行跨视角匹配。Viswanathan等[44]将街景全景图像扭曲成俯视图像,使用SIFT、SURF和FREAK等手工特征进行匹配,来定位待查询图像的地理位置。
由于地面视角图像与俯视图像存在着巨大的视角差异,手工图像特征提取方法提取的图像特征差异过大,检索精度不高,因此采用孪生网络对地面与俯视图像对进行训练,提取图像特征完成图像检索是一个较好的选择。CNN具有强大的特征提取能力,许多学者将其应用于跨视角图像检索研究中。此类方法是建立卷积神经网络模型,将俯视视角与地面视角的图像对进行预训练,利用训练好的网络分别提取地面待查询图像和数据库中俯视图像的特征,并进行特征检索获得待查询图像的地理位置。Lin等[45]提出了Where-CNN网络用于跨视角图像检索,并使用街景图像与航空倾斜摄影图像对Where-CNN进行预训练。实验表明,在前20%候选图像中定位准确率为80%,距离实际应用还有一定差距。Workman等[42]通过进一步调整卷积神经网络,与Lin等的研究[43]相比,精度提高了6%。Tian等[46]使用Faster R-CNN[47]检测待查询图像与俯视图像中的建筑物,然后使用正匹配图像对与负匹配图像对训练的孪生神经网络,从俯视图像建筑物中检索出k个候选,并利用基于优势集的多近邻匹配方法获得最佳匹配。Hu等[48]设计了CVM-Net用于跨视角图像地理定位任务。CVM-Net使用全卷积层提取局部图像特征,并利用NetVLAD[36]将其编码为全局特征描述符用于图像检索。Shi等[49]使用孪生卷积神经网络从地面和极坐标变换的俯视图像中学习深度特征,通过计算跨视角特征之间的相关性来获得方向,由此提供更准确的特征相似性度量。
为了进一步提高跨视角图像检索精度,许多学者在神经网络结构、损失函数等方面做了诸多改进。如胶囊网络可以弥补卷积神经网络空间关系感知能力差的缺点,并增强图像特征的表示能力,从而提高跨视角检索的精度。Sun等[50-51]提出了一种基于胶囊网络的GeoCapsNet,即利用胶囊层对卷积神经网络提取的特征进行编码以对空间层次特征进行建模增强表示能力。Zhu等[52]提出了一种名为GeoNet的端到端网络架构。GeoNet由一个ResNetX模块和一个GeoCaps模块组成。ResNetX模块用于学习强大的中间特征图,并使梯度在深度CNN中稳定传播。GeoCaps模块将中间特征图封装成若干胶囊,胶囊的长度和方向分别代表场景对象的存在概率和空间层次信息,能够对场景对象之间的部分到整体的关系进行建模。这种关系是视点不变的,并且能弥补跨视角带来的差异。与上述方法类似, Liu等[53]将方向信息(U-V映射)加入输入层或所有层,显式编码每个像素的方向,显著提升了学习到的深度特征的区分能力,获得了更高的检索精度。
有研究利用注意力模块来改进跨视角图像检索。注意力机制可以帮助特征提取算子提取出更具有代表性的特征,从而提高跨视角图像检索中的图像匹配精度。Shi等[54]发现俯视图像中同一方位角的像素大致与地面图像中的垂直像素列相对应。于是利用极坐标变换将俯视图像转换成地面视角图像,然后加入了空间注意力机制,使嵌入空间中的对应深度特征更加接近,来提高图像检索精度。Cai等[55]设计了一个轻量级的双重注意力模块,以提高CNN特征的表示能力。何思瑾[56]使用空间注意力特征聚合模块,将不同视角图像的局部特征转化为全局特征,采用度量学习的方式对图像进行聚类。Li等[57]提出了一种多尺度注意力编码器,来获得跨视角图像之间的多尺度上下文信息。首先利用反极坐标变换使地面图像与俯视图像大致对齐,然后再利用多尺度注意力编码器提取图像特征,来提高图像匹配精度。Zhang等[58]设计了一种空间尺度注意力模块(SubSpace Attention, SSA)来突出不同尺度下的显著对应布局特征。编码后的特征不仅代表了不同物体,还反映了物体之间的相对位置,并可以学习到更有区别的深度特征。
也有研究将Vision Transformer (ViT)[59]用于跨视角图像检索,并取得了不错的效果。Dai等[60]发现已有的方法主要为了挖掘更全面的细粒度信息,但忽略了提取鲁棒性特征与特征匹配的重要性,因此提出了一种特征分割与区域匹配结构(Feature Segmentation and Region Alignment, FSRA),以增强模型了解上下文的能力。FSRA会根据Transformer特征图的热量分布对区域进行划分,然后将不同视图中的多个特定区域对齐。Yang等[61]设计了一种地理定位网络EgoTR,它利用Transformer中的自注意力机制来模拟全局依赖关系,从而显著降低跨视角地理定位中的视觉差异性,同时还利用Transformer的位置编码来帮助 EgoTR 理解与对应地面和俯视图像之间的几何关系。Zhuang等[62]提出了一种基于Transformer的网络用来匹配无人机图像与遥感图像。该网络通过语义引导模块(Semantic Guidance Module,SGM)匹配特征,SGM通过基于像素的注意力对图像中的每个像素进行分类,以匹配两幅图像中的相同语义部分。Wang等[63]提出了一种Trans GCNN架构,Trans GCNN由提取特征图的CNN主干网络和从图中对全局上下文进行建模的Transformer Head组成,其中Transformer Head作为空间感知重要性的生成器,以选择显著的CNN特征作为最终特征,这样可以利用轻量级的Transformer网络增强嵌入式特征的判别能力。另外又设计了一个孪生Transformer Head网络来组合多尺度窗口的图像特征,以改善全局特征表示的细节。将ViT结构整合到跨视角检索模型中可以进一步提高检索精度,但由于ViT本身的原因[59],需要大量的数据进行训练才能获得不错的效果。
合理地设计损失函数有助于提高跨视角地理定位精度。如Cai等[55]提出了一种用于跨视角地理定位的重加权三元组损失函数,以实现基于样本重加权的在线端到端硬样本挖掘。该损失函数可以自适应地选择有用的硬三元组,抑制无用的简单三元组。Guo等[64]提出了一种使用在线硬样本选择策略的软样本突出显示(Soft Exemplar Highlighting, SEH)损失,以实现基于跨视角图像的地理定位。通过明确利用样本训练难度的内在差异来提高CNN特征对跨视角图像表示的判别性。
为了缩小2个视角的差异,很多学者将差异巨大的地面视角与俯视视角转换为同一视角后再进行图像检索。视角转换的方法主要分为2类: ① 几何转换的方法,如Shi等[54]利用极坐标转化的方法,将俯视视角的图像转换成全景图像类似的图像; ② 生成对抗网络 (Generative Adversarial Networks, GAN)转换的方法,即利用GAN网络将地面视角图像与俯视图像相互生成(以俯视图像生成地面图像为主),并利用图像检索的方法定位出待查询图像的地理位置。Regmi等[65]首先将GAN网络引入跨视角定位中,提出了X-Fork与X-Seq架构,并将条件生成对抗网络用于跨视角图像转换。Hao等[66]提出了一种多通道注意力选择对抗生成网络,可以根据场景图像和语义图像,在任意视角下生成自然场景的图像。Toker等[67]提出了一种利用GAN网络生成地面图像和图像检索相结合的方法,在CVUSA和CVACT两个数据集中获得了出色的测试结果。Huang等[68]提出了CSF (Cross-view Sequential Fork) 网络将俯视图像生成地面图像。CSF通过生成分割图像和边缘检测图像来实现更详细的生成效果。
还有一些研究从跨视角特征同化、图像地理位置细化、利用无人机图像作为过渡视角、方形回环特征划分等不同角度对跨视角图像检索做出了改进。Shi等[69]提出了一种跨视角特征传输模块 (Cross-View Feature Transport, CVFT),以促进地面与俯视图像之间的特征匹配。CVFT模块通过将特征从一个域转换到另一个域,有效地减少了视角差异过大带来的影响。Zhu等[70]发现在研究中一般会默认待查询图像的地理位置位于俯视图像中心,但这不符合实际情况。因此,作者通过检索粗略获得图像地理位置,然后通过回归预测偏移量来细化图像地理位置。Zhu等[71]针对跨视角图像匹配信息被忽略的问题,提出了全局挖掘策略和二项式损失来解决该问题。Rodrigues等[72]提出了一种语义驱动的数据增强技术,来模拟时间变化场景中消失和新出现的对象特性,使神经网络具有推理并生成未知物体的能力。使用增强图像来训练具有多尺度注意力主干的网络,以产生无法匹配的图像区域的内容。Zeng等[73]利用无人机视角图像作为地面视角和卫星视角之间的桥梁,提出了一个同伴学习和交叉扩散(Peer Learning and Cross Diffusion, PLCD)框架。Wang等[74]提出了一种局部模式网络LPN (Local Pattern Network),其采用方形回环的特征划分策略,根据到图像中心的距离来学习空间特征。由于方形回环分区的设计,LPN网络对旋转变化具有良好的适应性。Lin等[75]提出了一种名为RK-Net的框架,该框架探索了跨视角地理定位的关键点检测和表示学习中的联合学习,主要思想是找到显著区域来区分不同的位置,与人类视觉系统保持一致。

2.2 2D-3D匹配

2D-3D匹配包括单张图像2D-3D匹配和序列图像2D-3D匹配,分别对应SfM技术与SLAM技术,方法研究总结见表3。匹配准则包括特征匹配准则、深度匹配准则。其中特征匹配准则为SfM常用匹配准则,即提取待查询图像特征点与数据库图像进行特征匹配,获得待查询图像与数据库图像相对位姿,从而获得带查询图像地理位置;深度匹配准则是利用诸如3D点云、3D模型、深度图像等深度信息,对带查询图像进行深度匹配,从而实现图像地理定位。
表3 2D-3D匹配研究

Tab. 3 Research of 2D-3D matching

研究主题 研究内容 优点 缺点
单张图像2D-3D匹配 SfM建立3D模型并匹配[76,78] 拓展性强,可获得图像六自由度,定位精度高 对数据质量要求高,计算复杂度高,内存占用大
2D-3D匹配性能改进[79-84]
增加相关约束[85-87]
序列图像2D-3D匹配 结合数据库图像[90-92] 拓展性强,实时性强,定位精度高 易受视频质量、光照变化等影响
结合DEM、3D模型或3D点云[93-94]

2.2.1 单张图像2D-3D匹配 (SfM)

运动恢复结构(SfM)是由一组从不同视角拍摄同一场景的图像重建三维场景的技术。利用SfM技术的图像地理定位一般包括两种方式:一是利用数据库图像建立三维点云模型,并提取待查询图像特征与三维点云模型相匹配(2D-3D),即可获得待查询图像的地理位置与姿态;二是通过图像检索等方法获得待查询图像的粗略位置,再利用待查询图像与附近的数据库图像共同建立三维点云模型,从而获得待查询图像的地理位置与姿态。
使用SfM技术从大规模图像中建立3D模型用于图像地理定位。Heinly等[76]在一台计算机上用6天时间从YFCC100M数据集[77]的1亿张照片中自动创建了全球多地的3D模型,用来定位城市地区或地标建筑图像。Irschara等[78]用几百张图像为维也纳最著名的地标建立了一个SfM模型。SfM模型中的相关图像通过BoW方法进行搜索。
Sattler等[79]基于视觉词汇量化和优先匹配搜索,将特征描述符分配给每个视觉词,直接将检索特征描述符与相关视觉词的描述符进行匹配,显著提高了匹配效率。在后续工作中,Sattler等[80]又将2D-3D和3D-2D方法相结合,并提出了一个主动搜索的策略,进一步提高了匹配性能。随后Sattler 等[81]又在实验中发现,使用直接特征描述符匹配的算法比经典图像检索方法好15%。Li等[82]通过利用RANSAC的共现先验和图像特征与3D点的双向匹配方法,首次成功完成了基于SfM模型的大规模图像地理定位。这与Sattler所提到的主动搜索的方法[80]类似。为了进一步提高匹配效率,Sattler等[83]通过量化描述符来减少搜索空间,由此来减少内存的占用,同时加入新的投票策略来减少错误匹配。Hutchiso等[84]根据SfM模型中的特征属性定义优先级,并应用2D-3D的匹配,提高了匹配性能。
有研究通过增加相关约束来提高定位精度。Svarm等[85]在待检索图像中加入了重力传感器获得的重力方向的数据,处理了高达99%的离群值,从而可以更好地估计出拍摄图像时相机的姿态。Zeisl等[86]解决了使用SfM模型进行大规模地理定位中的大量离群匹配的问题,并在Svarm等[85]的基础上,将相机上的重力方向约束以及其他约束纳入相机姿势估计。Iwami等[87]提出了一种利用大量带有地理位置标记的图像来纠正位置漂移的框架。该框架集成了增量SfM和利用地理标记图像的位置漂移的方法。
有研究将SfM模型辅助应用于随机森林或神经网络训练,从而完成地理定位过程。如Bergamo等[88]使用SfM模型学习随机森林编码库进行地标分类。Kendall等[89]使用SfM模型来训练一个卷积神经网络,用于大规模的相机重定位。

2.2.2 序列图像2D-3D匹配 (SLAM)

实时定位与地图构建(SLAM),主要通过单目、双目、单目结构光、双目结构光、ToF等摄像头来实现。其中基于单目、鱼眼相机的SLAM是利用多帧图像来估计自身的位姿变化,再通过累计位姿变化来计算距离物体的距离,并进行定位与地图构建。图像地理定位中主要利用单目SLAM的方法,由于SLAM主要是某一时间段上的连续定位,所以本文与单一图像地理定位分开总结。
由于单目SLAM只能计算出视频帧之间的相对位置关系,无法定位出地理位置,因此一些研究将单个视频帧与带有地理坐标的图像进行匹配,从而获得单个视频帧的地理坐标,并计算出连续视频帧的绝对运动轨迹。Hakeem等[90]使用一组具有已知GPS坐标的图像匹配关键帧,从最佳匹配中计算出基本矩阵以恢复相机姿态,并利用三角测量的方法来统一尺度,同时使用B-splines对位置进行插值,以获得平滑的轨迹。Conte和Doherty[91]将惯性传感器、视觉测量和车载视频与地理参考俯视图像的配准相结合,能够为无人机自主导航提供快速和无漂移的地理位置估计。Vaca-Castano等[92]利用图像检索的方法获得各个视频帧与街景图像的最佳匹配,然后利用贝叶斯跟踪来估计视频帧的地理位置及随时间的变化,最后利用轨迹重建算法以消除轨迹噪声,从而获得高精度的相机轨迹。
还有研究在单目SLAM中引入DEM、3D模型和3D点云等数据,来达到定位视频帧地理位置的目的。Larnaout等[93]利用DEM校正摄像机轨迹,利用3D建筑模型约束重建的3D点云,可以实现30 Hz频率的在线实时地理定位。Middelberg等[94]在移动设备上利用关键帧构建SLAM模型,并将关键帧与服务器内的SfM模型进行匹配,将移动设备轨迹转换到SfM模型坐标系中,从而获得移动设备的轨迹与姿态。

2.3 跨模态检索

跨模态检索方法使用多种模态的数据来定位待查询图像的地理位置甚至姿态,主要包括:基于轮廓特征的跨模态检索、基于GIS语义的跨模态检索和基于几何纹理特征的跨模态检索,研究总结见表4。匹配准则包括特征匹配准则、语义匹配准则等。特征匹配准则是根据图像的轮廓或纹理特征与数据库内轮廓、纹理特征进行相似度匹配,从而实现图像地理定位;语义匹配准则是利用图像语义与GIS数据库进行匹配,实现图像地理定位。
表4 跨模态检索研究总结

Tab. 4 Research summary of cross-modal retrieval

研究主题 研究内容 优点 缺点
基于轮廓特征的跨模态检索 天际线特征[5,8,95-105] 不依赖图像数据,对查询图像纹理信息依赖较低 受图像视角影响较大,定位精度低
山脉轮廓线特征[6,7,106-107]
基于GIS语义的跨模态检索 GIS数据[108] 数据库小,计算量小,轻量化 受图像质量、语义分割算法等影响较大,对数据库时效性要求高,定位精度低
语义数据[10,109]
基于几何纹理特征的跨模态检索 建筑纹理特征[110] 挖掘了图像的模式和几何规律,将图像匹配的劣势变为可利用的优势 耗时较多,计算复杂,受图像质量影响较大,定位精度低,适用范围小
太阳位置与天空特征[111]
几何特征[112-113]

2.3.1 基于轮廓特征的跨模态检索

与人口密集的城市区域相比,山区图像较少且分布不均,难以构建足够的图像数据库作为定位基准,并且山地区域的照片往往指包含山体和天空,纹理信息不丰富,采用传统的特征点匹配方法效果不佳。但是,山地地形起伏较大,轮廓特征突出,因此可基于轮廓特征的方法以DEM为基础构建基准,提取查询图像的天际线等轮廓特征进行检索,从而实现图像地理定位。
最初的基于轮廓特征的图像地理定位工作,主要是对户外环境中的移动机器人或行星探测器进行地理定位。如Talluri和Aggarwal[95-96]从待查询图像中提取天际线与DEM中的天际线相匹配,从而完成对机器人的地理定位。还有研究将DEM用于无人机地理定位,如Woo等[97]在已知无人机高度的情况下,提取无人机图像中的天际线和山峰与DEM中提取的天际线和山峰相匹配,从而定位出无人机的地理位置。
在自然区域的图像地理定位中,利用DEM数据进行天际线检索是一种较为流行的方法。该方法利用DEM数据以一定的网格密度生成天际线,建立天际线数据库,并提取待查询图像的天际线进行检索,从而定位出待查询图像的地理位置[98-101]。也有一些研究对该方法进行了改进,Baatz和Saurer等[5,102]将天际线归一化和平滑处理,称之为轮廓线,并以单一整数形式建立轮廓线数据库,并使用BoW的方法来检索最佳的1 000个候选图像,经过对候选图像进行几何验证,确定待查询图像的地理位置。Tzeng等[8]做了与Baatz等[5]类似的工作,不同的是,作者将天际线部分的凹陷作为局部特征来提高检索精度。Hammoud等[103]利用激光雷达和高光谱土地利用图像扩展了从待查询图像中提取的天际线。他们分别对输入进行匹配,并通过线性融合将其合并为单一概率图,并在2个面积均为10 000 km2区域的100张测试图像上验证了该方法。 Tang等[104]提出了具有多跳跃结构的全卷积语义分割网络MSDeepLab来提取天际线,并使用预训练的CNN模型提取高维特征信息作为天际线的特征表达,大大提高了定位精度。也有研究将天际线特征用于城市区域的图像地理定位。如Ramalingam等[105]利用全向天际线图像,提取建筑物的天际线,并将该天际线与合成的天际线数据库相匹配。该方法适用于上海、香港、纽约这样拥有密集高层建筑物的城市。
除了天际线,山脉轮廓线、沙丘脊线等特征也被用于地理定位研究。Baboud等[6]提出了一种提取山脉轮廓线的方法,来对DEM数据进行网格全景轮廓线采样,建立山脉轮廓线数据库,并利用待查询图像所提取的山脉轮廓线搜索该数据库,定位出待查询图像的地理位置。Porzi等[7]提出了一种基于随机蕨算法的山脉轮廓线检测方法。使用手机传感器数据作为初始参数,提取查询图像的山脉轮廓线并与DEM生成的山脉轮廓线相匹配,获得精确的相机位置姿态。Chen等[106]在Saurer等[102]方法的基础上,拓展利用多条山脊线的局部特征描述符。在水平方向的基础上,增加了垂直方向的BoW投票,测试结果优于Saurer等的方法。Fukuda等[107]提取图像中的沙丘脊线作为连续信号,并提取幅度分量作为特征,利用GNSS获取图像初始位置,然后通过匹配附近的沙丘脊线特征获得图像精确的地理位置。

2.3.2 基于GIS语义的跨模态检索

GIS语义数据不仅包含地理位置信息,还包括地理对象的属性、特征、关系等信息,能以较小的数据量实现广域图像地理定位。Ardeshir等[108]利用消防栓、交通信号灯、路标等GIS数据来辅助图像定位。在给定对象位置数据库和带有元数据的查询图像的情况下,将GIS对象投影到图像上,并与从可形变部件模型 (Deformable Part Model, DPM) 取的候选对象检测融合。作者将融合过程描述为一个高阶图匹配问题,并使用RANSAC方法来解决。在街道区域以均匀采样获得预设位置,使用对象检测方法计算每个预设位置的分值,并根据分值确定最终图像的地理位置。Li等[10]提出了一种“语义签名”的描述方法定位图像的地理位置。该方法通过识别图像中诸如树木、路灯、公交车站等语义信息,将其编为语义签名,并从数据库中检索类似签名,以推断出待查询图像的地理位置。Zunker等[109]介绍了一种使用EFM-HOG (Enhanced Fisher Model-HOG) 特征表示建筑物形状特征的方法,提出了一种粗语义分割方法,以自动分割建筑物并在周围绘制边界框,最后与传统HOG特征[12]方法进行了比较。

2.3.3 基于几何纹理特征的跨模态检索

图像中往往包含了大量的几何关系和建筑纹理特征,这为图像地理定位提供了新方向,即利用几何和纹理特征进行跨模态检索。Schindler等[110]提出了一种通过检测和匹配重复模式来自动对城市图像进行地理定位的方法。该方法利用了城市环境的高度重复性,检测图像中多个透视扭曲的重复性2D图案,并通过推理每种图案的基本范式,将它们与纹理立面的3D数据库相匹配,通过多个2D-3D模式对应关系可获得的查询图像的位置与姿态。由于建筑纹理信息通常依附于建筑物而存在,所以该方法只适用于建筑物密集的城市区域,地理定位精度受待查询图像的质量影响较大。Lalonde等[111]分析了图像序列中天空部分的太阳位置与天空外观特征,并将天空模型与图像序列的天空区域进行拟合,来提取图像序列焦距、天顶角、方位角等参数。在已知相机参数的高画质图像序列上测试了该方法,获得的焦距误差小于1 %,方位角和天顶角的误差分别为1°和3°,并用低画质摄像头进行测试,平均定位误差为110 km。该方法通常用于网络摄像头的地理定位,但定位精度不高,实用性较差。Baatz等[112]解决了城市区域图像中的大规模兴趣点识别问题。作者利用3D建筑信息和大量的街景图像来建立数据库,利用灭点将查询图像进行矫正,从而消除3D旋转对特征识别带来的影响。将特征不变性简化为纯同位问题,比经典SIFT特征具有更好的判别能力。Zhang和Matthew[113]提出了一种无监督跨尺度视觉特征表达方法。作者将二维地图编码为信念图,提取出无人机所拍摄图像的特征,并与信念图几何特征相匹配获得无人机地理位置。该方法拓展了地图模态的范围,为无人机地理定位提供了一种新思路。

3 数据集

数据集可用来评估地理定位方法的性能,并便于不同方法之间的比较。城市区域的数据集较多且一般为图像类型,自然区域的数据集较少但类型较多,见附录表2
附表2 图像地理定位数据集汇总

Attached Tab. 2 Image geo-localization dataset summary table

建立者 数据集名称 建立时间 用途 覆盖区域 数据类型 数量 备注
Zamir和Shah[114] GSV 2014 图像检索 美国若干城市 街景图像 10.2万张
Amar等[115] GSV-CITIES 2022 图像检索 全球40城市 街景图像 2007—2021年
Berton等[116] SF-XL 2022 图像检索 旧金山 街景图像 4 120万张 2009—2021年
Hays和Efros[2] IM2GPS 2008 聚类分类 全球 网络图像 600万张 Flickr获取
Thomee等[77] YFCC100 M 2014 多用途 全球 图像/视频 9 920万张 2004—2014年
Chen等[117] SFL 2011 地标检索 旧金山 透视图像 170万张
Cadik等[122] Alps100 K 2016 图像检索 阿尔卑斯山 网络图像 10万张 Flickr获取
Chu等[20] 香港街景 2020 图像检索 香港北部 街景图像 239 400张 谷歌街景
Sattler等[121] Aachen Day-Night 2018 不同光照 亚琛 图像/3D点云 4 848张
Sattler等[121] RobotCar Seasons 2018 驾驶场景 牛津 图像/3D点云 20 862张
Sattler等[121] CMU Seasons 2018 茂密植被场景 匹兹堡 图像/3D点云 82 494张
Philbin等[124,125] Oxford5 K 2007 地标检索 牛津 地标图像 5 117张 Flickr获取
Philbin等[124,125] Paris6 K 2007 地标检索 巴黎 地标图像 6 424张 Flickr获取
Li等[84] Dubrovnik 2010 2D-3D 杜布罗夫尼克 网络图像 约100张
Li等[84] Rome 2010 2D-3D 罗马 网络图像 约100张
Li等[84] Vienna 2010 2D-3D 维也纳 网络图像 约100张
Ozkose等[119] Turkey15 2018 深度学习 土耳其15城市 网络图像 2250张 Flickr获取
Herne等[123] INRIA Holidays 2008 图像检索 全球 度假图像 1 991张 Flickr获取
Herne等[123] Flickr60 K 2008 图像检索 全球 网络图像 67 714张 Flickr获取
Herne等[123] Flickr1 M 2008 图像检索 全球 网络图像 100万张 Flickr获取
Zemene等[28] WorldCities 2019 图像检索 全球14城市 街景图像 30万张
Arandjelovic等[120] Tokyo 24/7 2015 图像检索 东京 手机采集图像 1 125张 3个时刻采集
Torii等[118] Pittsburgh 250 K 2015 图像检索 匹兹堡 街景图像 254 064张
Teichmann等[126] GLB 2019 地标检索 全球1500地标 地标图像 120万张
Workman等[42] CVUSA 2015 跨视角 美国若干城市 地面/俯视图像 150万对 Flickr/谷歌街景
Liu等[53] CVACT 2019 跨视角 堪培拉 地面/俯视图像 92 802对
Regmi和Shah[128] OP 2019 跨视角 奥兰多/匹兹堡 地面/俯视图像 2 632对
Vo和Hays[129] Vo & Hays 2016 跨视角 美国11城市 地面/俯视图像 100万对
Zheng等[130] University1652 2020 跨视角 全球72所大学 地面/俯视图像 146 581张
Zhu等[70] VIGOR 2021 跨视角 美国4城市 地面/俯视图像 90 618对
Li等[84] Rome16K 2010 SfM 罗马 城市地面图像 1.6万张
Li等[84] Dubrovnik6K 2010 SfM 杜布罗夫尼克 城市地面图像 6 000张
Crandall等[131] Quad 2011 SfM 罗马 地面图像 6 514张 手机采集
Hao等[132] Landmark 3D 2012 SfM 25个地标 地标图像 4.5万张
Kendall等[89] 剑桥地标 2015 SfM 剑桥地标 地标图像 10 929张
Saurer等[102] 2016 天际线 阿尔卑斯山 DEM/地面图像 约1 000张
Tang等[104] 2022 天际线 长沙东北部 DEM/地面图像 202.6 km2
Blanco等[133] Málaga 2014 2D-3D 马拉加 图像/3D点云 36 km道路
Bansal和Daniilidis[134] 2014 2D-3D 加拿大某地 地面图像/DEM 50张
Ozcanli等[135] 2016 2D-3D 美国沿海 图像/3D点云 634 km2
Mithun等[9] GRAL 2020 2D-3D 新泽西州 地面/深度图像 55万多张
Andreas等[136] KITTI 2012 SLAM 未知 光流图像/视频 389对
39.2 km道路
Qi等[137] TOPO-DataGen 2022 综合 瑞士 多源数据
Brejcha和Cadik[138] GeoPose3K 2017 综合 某山区 多源数据
Gawel等[139] Airsim 2018 跨视角 苏黎世 RGB/深度图像
Ros等[140] SYNTHIA 2016 驾驶场景 苏黎世 语义/深度图像 21万多张

3.1 地面图像数据集

地面图像数据集种类比较丰富,大致分为:城市图像数据集、自然图像数据集、全球图像数据集和地标图像数据集。
(1) 城市图像数据集
GSV数据集(① https://www.crcv.ucf.edu/projects/GMCP_Geolocalization/#Dataset。):由Zamir和Shah建立[114],共包括从谷歌街景中下载的约10.2万张带有GPS标签的图像数据和一部分测试图像。这些图像的分布区域为美国宾夕法尼亚州的匹兹堡和佛罗里达州的奥兰多。该数据集包含完整的全景图像,图像之间的距离约为12 m,适用于城市区域的精确地理定位和相机姿态估计。
GSV-CITIES数据集(② https://github.com/amaralibey/gsv-cities。):由Amar等[115]建立,该数据集包含全球40个城市的约6 700万个位置,每个位置包含4~20个不同时间拍摄的图像,时间跨度为2007年至2021年。该数据集是目前在时间跨度和地理范围方面最广泛和最多样化的数据集。
SF-XL数据集(③ https://forms.gle/wpyDzhDyoWLQygAT9。):Berton等[116]在GSV数据集的基础之上创建了该数据集。作者收集了343万张全景图像,每张图像分割为12个小图像,共计4120万张图像,每张图像都带有GPS坐标和相机六自由度信息,并且图像拍摄时间从2009—2021年,提供了丰富的时间变化。
SFL数据集(④ https://purl.stanford.edu/vn158kj2087。):由Chen等建立[117],作者利用移动测绘车(装有激光雷达、全景相机、高清相机、惯性测量单元、测距仪和全球定位系统)以4 m间隔采集了15万张全景图像和激光点云数据,之后将全景图像转换为170万张透视图像。同时作者提供了一组用不同手机拍摄的测试图像,以评价检索精度。
Pittsburgh 250 K数据集(⑤ https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Pittsburgh250k/。):Torii等[118]收集了匹兹堡地区的10 586张谷歌全景图像,并将其切分成254 064张透视图像组成Pittsburgh 250 K数据集。
WorldCities数据集(⑥ http://www.cs.ucf.edu/~haroon/UCF-Google-Streetview-II-Data/UCF-Google-Streetview-II-Data.zip。):由Zemene等[28]建立,该数据集包含来自世界14个不同城市的30万张街景图像。世界各地的建筑物存在相似性,如墙壁设计、边缘、形状、颜色等方面,使得该数据集更具挑战性。
香港街景图像数据集:Chu等[20]为了测试所提出的图像检索方法,选择了香港岛北部区域创建了香港街景数据集,其中包含6 659个类别的239 400张带有GPS标签的街景图像和38张测试图像,用于图像检索的测试与精度验证。
Turkey15数据集:Ozkose等[119]通过Flickr收集了土耳其15个城市的2 250张图像,每个城市约150张图像。1 500张图像为训练集,用于训练深度学习模型,375张为验证集,375张为测试集。
Tokyo 24/7数据集(⑦ https://data.ciirc.cvut.cz/public/projects/2015netVLAD/Tokyo247/database_gsv_vga/。):Arandjelovic等[120]利用智能手机在125个位置,采用3个不同时刻、3个不同方向采集了1 125带有GPS标签张图像,可用于光照变化场景下的图像地理定位方法测试。
Aachen Day-Night、RobotCar Seasons和CMU Seasons数据集(⑧ https://www.visuallocalization.net。):由Sattler等[121]建立,Aachen Day-Night数据集重点是根据白天的图像建立三维模型定位夜间的图像,RobotCar Seasons和CMU Seasons数据集均为汽车驾驶场景,从汽车上拍摄的图像。与Aachen Day-Night数据集相比,这两个数据集的视角变化较小,但拍摄条件变化较大。RobotCar数据集的夜间图像是在一辆行驶中的汽车上拍摄,这导致图像出现运动模糊、难以定位。CMU的数据集包含大量的植被。由于季节性变化,植被的外观和几何形状不断变化,这是这个数据集的主要挑战。
(2) 自然图像数据集
Alps100 K数据集(⑨ http://cphoto.fit.vutbr.cz/elevation/。):Cadik等[122]从Flickr网站采集了约10万张带有GPS标签的阿尔卑斯山区图像建立了Alps100 K。最初该数据集被用于海拔估算,后来也用于地理定位任务。
(3) 全球图像数据集
IM2GPS数据集(⑩ http://graphics.cs.cmu.edu/projects/im2gps/。):Hays和Efros[2]从Flickr网站上搜集了全球范围600万张带有地理标签的网络图像,并在该数据集上进行了聚类和分类,用于全球区域的地理定位。
YFCC100 M数据集(⑪ http://webscope.sandbox.yahoo.com/catalog.php?datatype=i&did=67。):由Thomee等建立[77],该数据集由2004—2014年的部分Flickr媒体数据构成,共包括9 920万张图像、80万个视频,其中有 4 800万张图像和10万个视频带有GPS标签。数据集包含人、动物、物体、食物、建筑场景、风景等内容,分布覆盖全球,为目前最大的公共媒体数据集。
INRIA Holidays数据集(⑫ https://paperswithcode.com/dataset/inria-holidays-dataset。):由Herve等[123]建立,共有1 491张图像,500张查询图像。该数据集主要为个人度假时拍摄的图像。作者还创建了Flickr60 K和Flickr1 M数据集,图像均在Flickr网站中收集,分别包含67 714张和100万张网络图像。
(4) 地标图像数据集
Oxford5K(⑬ https://paperswithcode.com/dataset/oxford5k。)和Paris6K(⑭ https://paperswithcode.com/dataset/paris6k。)数据集:为2个比较流行的地标检索数据集,在Flickr中收集。Oxford5K[124]由5062张图像和55张查询图像组成,包括牛津11个不同的地标建筑。Paris6K[125]由6 412张图像和12张查询图像组成,包括12个巴黎地标建筑。
Li等[84]创建了Dubrovnik、Rome和Vienna 3个城市的数据集,其中Dubrovnik和Rome是由从Flickr搜集的网络图像构成,Vienna数据集由一个相机拍摄的图像组成,每个数据集大约为100张图像,用来建立城市三维模型和2D-3D匹配。
GLB数据集(⑮ https://paperswithcode.com/dataset/google-landmarks-dataset-v2。):由Teichmann等[126]建立,包括1500个地标的120万张图像。这些地标涵盖了从历史名城到现代都市区再到自然景观的各个类别。GLB还包含超过8万个边界框,标记出了每张图片中最突出的地标。

3.2 跨视角数据集

跨视角数据集中比较经典的是CVUSA数据集和CVACT数据集,论文使用频率非常高,其次就是Vo & Heys数据集。近几年来,很多跨视角地理定位研究[48,49,51-55,57,58,61,63,64,66-69,71,72,74,75,127]均利用这3种数据集来评价自己的方法,未来可以利用这3种数据集来评估新的跨视角地理定位方法,以便对比之前的方法。
CVUSA数据集(⑯ http://cs.uky.edu/~scott/research/deeplyfound/。):由Workman等[42]建立,包括150万个有地理标签的地面和航空正射图像匹配对。它是由Flickr照片和谷歌街景图像创建的。
CVACT数据集(⑰ https://github.com/Liumouliu/OriCNN。):由Liu等[53]建立,CVACT数据集包括92 802个带有GPS标签的地面图像与俯视图像对。由于较高的数据质量,该数据集和CVUSA数据集经常被用于跨视角地理定位方法的测试与评估。
OP数据集(⑱ https://drive.google.com/file/d/17ioMhP8hBHGHGJuIsPx2fKesFsz-Q9d1/view?pli=1。):由Regmi和Shah建立[128],作者在奥兰多和匹兹堡2个城市收集了1 910个和722个带有GPS标签的俯视图像与街景图像对,分别用于训练和测试。
Tian等[46]建立了匹兹堡市中心、奥兰多和曼哈顿部分地区带有GPS标签的街景和俯视图像对的数据集。其中匹兹堡、奥兰多和曼哈顿分别有 1 586、1 324和5 941个图像采集位置。
Vo & Hays数据集(⑲ https://www.mediafire.com/folder/f4gga3h86d659/GTCrossView。):该数据集由Vo和Hays建立[129],作者从谷歌地图中收集了美国11个城市约100万个街景图像与俯视图像对,用于跨视角地理定位测试。
University1652数据集(⑳ https://github.com/layumi/University1652-Baseline。):由Zheng等[130]建立,该数据集包括全世界72所大学的1 652个建筑的无人机图像、卫星图像和地面图像,为首个3种图像模式相结合的地理定位数据集,具有多源性、多视角、密集性等特点。
VIGOR数据集㉑(㉑ https://github.com/Jeff-Zilence/VIGOR。):Zhu等[70]收集了纽约市曼哈顿、旧金山、芝加哥和西雅图4个城市中心地区的90 618张俯视图像和238 696张带有GPS标签的街景图像。VIGOR数据集大部分在城市地区,这些地区高层建筑更加密集,遮挡和阴影明显减少了地面与空中视角的语义关联,所以比CVUSA数据集更具有挑战性。

3.3 SfM数据集

SfM数据集与图像数据集相似,都是由众多图像构成,下面列举一些比较经典的SfM数据集。
Li等[84]建立了一些用于SfM地理定位的数据集(㉒ https://www.cs.cornell.edu/projects/bigsfm/。)。其中Rome16 K、Dubrovnik6 K为比较大的数据集,涵盖了城市中心区域和地标建筑。此外,还有一些比较小的数据集,如巴黎圣母院大教堂、维也纳大教堂、特拉法加广场、伦敦塔等著名地标。
Quad数据集(㉓ http://vision.soic.indiana.edu/projects/disco/。):由Crandall等[131]建立,共包含 6 514张图像,其中约5 000张图片由手机拍摄并带有GPS标签,348张图像带有精度高达0.1 m的GPS标签。
Landmark 3D数据集(㉔ https://landmark3d.codeplex.com/。):由Hao等[132]建立,它包含了从Flickr网站中收集的25个地标的4.5万张图像和重建的三维地标模型。该数据集适用于地标识别。
剑桥地标数据集(㉕ https://paperswithcode.com/dataset/cambridge-landmarks。):由Kendall等[89]建立,用于使用CNN进行六自由度相机地理定位。数据集包括训练和测试图像,以及用于相机姿态训练的SfM模型,还包含了1.2万张具有完整的六自由度相机姿态的图像。

3.4 多模态数据集

多模态数据集种类比较多,其来源与适用的地理定位方法也比较复杂,大致包括:DEM与图像数据集、三维点云与图像数据集、综合性数据集、图像语义数据集、文本与图像数据集。
(1) DEM与图像数据集
Saurer等[102]在线发表了2个用于天际线地理定位的数据集。这2个数据集包含1 000多张带有GPS标签的图像。
Tang等[104]从湖南省遥感中心获得了DEM数据,覆盖区域为长沙市东北部总面积为202.6 km2,利用该DEM数据可利用OpenGL将其渲染为三维模型,并提取天际线建立数据库,该DEM数据可用来检测基于天际线地理定位方法性能。
Fukuda等[107]从日本地理空间信息局获得了某沙漠的DEM数据,使用Unity图像渲染引擎,以5 m的间隔生成沙丘脊线合成图像,建立了用于地理定位的脊线数据集。
(2) 三维点云与图像数据集
Málaga数据集(㉖ http://www.mrpt.org/MalagaUrbanDataset。):由Blanco等[133]建立,作者利用装有GPS传感器、立体相机和LiDAR扫描仪的汽车,在马拉加市内采集视频数据和对应的LiDAR点云数据。
Bansal和Daniilidis[134]利用加拿大渥太华的航空激光雷达扫描的公开数据集建立了DEM数据,查询数据集为50张街景图像,主要用于2D-3D图像地理定位。
Ozcanli等[135]创建了美国沿海约634 km2的高分辨率LiDAR数据,并提供了45张该区域图像作为测试图像。
GRAL数据集(㉗ https://paperswithcode.com/dataset/gral。):由Mithun等[9]建立,包括55万多个带有GPS标签的地面图像和从航空LiDAR点云采集的深度图像。GRAL数据集覆盖了美国新泽西州普林斯顿市周围143 km2的区域,该区域包括森林、山脉、公路、城市街道等各种场景。
(3) 综合性数据集
KITTI数据集(㉘ https://www.cvlibs.net/datasets/kitti/user_register.php。):Andreas等[136]利用4个高分辨率相机一个激光扫描仪和GPS定位系统建立了KITTI数据集,该数据集包括389个立体光流图像对、长度为39.2 km的立体视觉里程计序列和超过20万个3D对象注释,适用于SLAM、3D对象检测等任务,也常被相关地理定位研究使用。
TOPO-DataGen数据集(㉙ https://github.com/TOPO-EPFL/CrossLoc-Benchmark-Datasets。):Qi等[137]提出了一个通用的数据合成工具TOPO-DataGen,并利用该工具建立了多模态数据集。数据集包含城市区域和自然区域的真实RGB图像、合成RGB图像、深度图像、语义图像、场景坐标数据、曲面法线数据等。该数据集可以评价基于多模态的地理定位方法的性能。
GeoPose3K:由Brejcha和Cadik建立[138],其中包含3 000多张具有精确相机位置姿态的山区图像。该数据集还提供了合成深度图、法线图、光照模拟图与语义图,用来训练和评估自然场景下的地理定位方法。
(4) 图像语义数据集
Airsim数据集(㉚ https://paperswithcode.com/dataset/airsim。):由Gawel等[139]建立,该数据集利用Airsim框架以俯视、地面2个视角生成了RGB图像、深度图像和像素级语义数据。
SYNTHIA数据集(㉛ https://paperswithcode.com/dataset/synthia。):由Ros等[140]建立,该数据集是一个用于驾驶场景语义分割的数据集,包含213 400张图像,包括虚拟城市中的随机视角图像和视频。生成的图像从多个视角模拟不同季节、天气和照明条件,每张图像均具有像素级的语义注释和深度数据,可以用于基于语义的地理定位方法的测试与评价。
(5) 文本与图像数据集
Shin等[141]通过Twitter API收集了日本东京带有地理标签信息的图像和推文,其中240万张图像作为训练数据, 4 000张图像作为测试数据用于评估地理定位方法。该数据集适用于文本与图像相融合的地理定位方法。

4 图像地理定位评价方法

图像地理定位评价方法比较多,不同的地理定位方法有着不同评价方法,但是相同类别的地理定位评价方法比较统一,这有利于不同论文方法之间的对比,方法总结如下:
(1) Top-K准确率
Top-K准确率是图像地理定位领域比较常用的一种评价方法。概括来说Top-K准确率就是用来计算预测位置中,概率最大的前K个位置中包含正确位置的占比。即当图像地理定位方法返回待查询图像的候选位置列表时,如果前K个候选位置中至少有一个定位正确,则认为该图像正确定位,常用的有Top-1、Top-5、Top-10和Top-1%等。该曲线具有ROC曲线的非递减趋势。
Top-K表明了为了找到至少给定数量的正确定位的待查询图像,必须验证多少个候选位置。它还说明了精确的地理定位是一项艰巨的任务,因为这些方法当Top-1时定位精度往往会很差。通常用户对Top-1候选位置感兴趣,因为验证多个候选位置是不切实际的,这是该评价方法的一个缺点。
(2) 定位正确率
设定一个阈值,地理定位坐标与真实坐标的距离小于等于阈值的图像,占整个测试集的百分比为定位正确率。这种评价方法主要用于全球地理定位方法,优点是能直接获得测试集中给定比例的查询图像的定位准确性。
(3) 视频帧的位置与姿态误差
该方法常被用来评价基于SfM和SLAM技术的图像地理定位,即计算各个视频帧的位置误差(定位位置与实际位置的距离)和姿态误差并绘制成图,其中横轴为帧,纵轴为误差。视频帧的平均位置误差也常用来评估图像地理定位方法的定位精度。
(4) 精度和召回率
精度 (Precision) 和召回率 (Recall) 是用于评估分类和检索方法的指标。在图像地理定位中,该评价方法的出现频率不是太高。在一些图像地理定位方法中,用来评估物体检测和位置识别精度。
(5) 定位误差和平均定位误差
定位误差是图像地理定位坐标与图像真实坐标的距离,而平均定位误差是多次图像地理定位误差的平均值。该评价方法在不同的图像地理定位方法中均适用。

5 总结与展望

5.1 现有研究总结

近年来城市区域基于图像的地理定位、跨视角图像检索等方法研究比较充分,但是这类地理定位方法仍然可以通过完善数据集、提高硬件性能、使用更先进的神经网络结构等方式进行改进。
城市区域基于图像的地理定位:一般来说城市区域内基于图像的地理定位方法分为2种,一种是地面视角图像检索,另外一种是基于SfM的地理定位。图像检索地理定位的研究中,NetVLAD方法[36]取得了稳定且最佳的地理定位效果,Top-1条件下定位准确率可以达到90%。该方法主要是将NetVLAD池化层融合到了CNN当中,使神经网络可以学习图像内物体的更深层次的特征,可以不受夜晚白天、四季变化、天气变化等条件的干扰。这类基于检索街景图像方法的平均定位误差大约为30 m,更精确的地理定位方法为基于SfM的地理定位,可以实现米级的定位,同时可以计算出相机的姿态,但是该方法需要由已知图像构建大型稀疏点云,这对计算性能要求较高,同时对数据库内的图像质量要求较高。为了弥补以上缺点,有研究[41]将2种方法相结合,首先利用图像检索获得查询图像初始位置,再利用初始位置附近图像采用SfM方法,由粗到精分阶段定位出图像的地理位置。
跨视角图像检索:由于近几年深度学习的快速发展,跨视角图像检索研究发展非常迅速,产生了许多学术成果。跨视角图像检索通常是以地面图像作为查询图像,将俯视图像作为数据集进行匹配检索。俯视图像基本上是全球覆盖的,能建立非常全面的数据集,可以解决自然区域内无街景图像覆盖的问题,该方法主要应用于城郊、农村等非建筑密集地区。目前最优的跨视角图像检索方法为Wang等[63]提出的Transformer[59]引导的卷积神经网络架构TransGCNN,它将基于CNN的局部特征与基于Transformer的全局特征相结合,从而改善特征的表示能力,该方法在标准数据集CVUSA和CVACT中分别实现了94.12%和84.92%的超高精度(Top-1)。

5.2 未来研究展望

(1)全球地理定位:地理定位的终极目标是在全球范围内快速精确地定位出查询图像的地理位置,但是全球范围内的地理定位精度很差,如Mueller等[27]将图像地理定位视为多分类任务,即将地球细分为地理单元,利用场景信息将有关环境设置的上下文纳入卷积神经网络模型,经过预训练可获得查询图像在全球地理单元中的地理位置。该方法在街道级(1 km)、城市级(25 km)、国家级(750 km)和州际级(2500 km)的定位正确率分别为10.5%、28.0%、49.7%和66.0%。可以看出定位精度并不能满足使用需求,且具有很大的研究空间。尽管存在基于机器学习的跨视角方法来匹配不同的模式,很少有学者开展全球区域内利用多数据融合的地理定位研究,如融合正射影像图、航空图像、天气图、DEM模型、LiDAR点云和属性图等多种数据的全球地理定位。
(2)自然区域地理定位:快速的场景外观变化和自相似的重复模式是自然区域地理定位的重大障碍。目前,自然区域内主要通过天际线、边缘等轮廓特征的识别、匹配来定位查询图像的地理 位置[5-8,97-106],但由于查询图像中容易有云雾、树木等遮挡,会极大影响天际线和边缘的检测,因此需要更强大的特征进行匹配。自然区域内除了天际线和边缘特征以外,语义特征、场景的深度特征、法线和太阳位置特征等[9,111,137]也可用来地理定位。基于图像语义的地理定位已经有研究,但是只局限于城市区域。对于自然区域,识别森林、水体、冰川或岩石的语义特征可以大大提高搜索效率。目前只有Baatz等[142]做了一些探索,他们提出了一种已知位置的相机方向方法,该方法将查询图像中检测到的语义特征和数字模型中的语义特征进行匹配,从而估计相机的方向。
(3)多种方法融合的地理定位:目前的研究大多都局限于单一地理定位方法,导致地理定位方法适用区域有限、地理定位精度较差或效率较低等缺点。然而,人工地理定位的过程则是利用自己的经验,寻找图像中的线索(提取图像特征),利用多种定位方法相互辅助、交叉验证,得到多个预选位置,最后与预选位置附近的数据(街景图像、俯视图像、有准确地理位置的网络图像等)匹配,获得最高置信度的地理位置的过程。未来地理定位可以参考人工地理定位的思想,将多种方法融合起来获得预选位置,然后再利用高精度的匹配方法,将待查询图像与预选位置附近的街景图像和多模态数据进行匹配,置信度最高的预选位置即为最终的地理位置。
(4)基于POI (Point of Interest) 数据的地理定位:待查询图像内可能会存在如交通路标、广告牌等文字信息或诸如学校、医院、地铁站等细粒度场景信息。自然场景文本识别技术和细粒度场景识别技术近年来发展迅速,提取出图像中的文本信息和场景信息,将其用于图像地理定位是非常可行的。通过提取待查询图像文字信息和细粒度场景信息,并对POI数据进行检索,可以缩小待查询图像的定位范围,甚至能直接得出待查询图像的地理位置。然而目前基于POI数据的地理定位的研究非常少,因此是一个重要的研究方向。
(5)预选位置的精细化定位:经过一系列粗略定位,获得了许多预选位置,然后模仿人工图像地理定位最后一个再确认的过程,即在城市场景图像类别中,将待查询图像利用高精度图像匹配算法与预选地理位置附近的街景影像进行匹配,获得相似度分值;在自然场景图像类别中,将待查询图像与对应点云库、3D模型、DEM模型等数据进行2D-3D匹配,获得相似度分值,最后对所有预选地理位置进行评定,最终置信度最高的地理位置为待查询图像的地理位置。上述预选位置的精细化定位过程也是一个未来的研究方向。
[1]
Flatow D, Naaman M, Xie K E, et al. On the accuracy of hyper-local geotagging of social media content[C]// Proceedings of the Eighth ACM International Conference on Web Search and Data Mining. New York: ACM, 2015:127-136. DOI:10.1145/2684822.2685296

DOI

[2]
Hays J, Efros A A. IM2GPS: estimating geographic information from a single image[C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2008:1-8. DOI:10.1109/CVPR.2008.4587784

DOI

[3]
Bansal M, Sawhney H S, Cheng H, et al. Geo-localization of street views with aerial image databases[C]// Proceedings of the 19th ACM international conference on Multimedia - MM ’11. Scottsdale, Arizona, USA: ACM Press, 2011:1125. DOI:10.1145/2072298.2071954

DOI

[4]
Zamir A R, Ardeshir S, Shah M. GPS-tag refinement using random walks with an adaptive damping factor[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:4280-4287. DOI:10.1109/CVPR.2014.545

DOI

[5]
Baatz G, Saurer O, Koeser K, et al. Large scale visual geo-localization of images in mountainous terrain[C]// FITZGIBBONA, LAZEBNIKS, PERONAP, et al. Computer Vision - ECCV 2012. Berlin, Heidelberg: Springer, 2012, 7573:517-530. DOI:10.1007/978-3-642-33709-3_37

DOI

[6]
Baboud L, Čadík M, Eisemann E, et al. Automatic photo-to-terrain alignment for the annotation of mountain pictures[C]// CVPR. IEEE, 2011:41-48. DOI:10.1109/CVPR.2011.5995727

DOI

[7]
Porzi L, Buló S R, Valigi P, et al. Learning contours for automatic annotations of mountains pictures on a smartphone[C]// Proceedings of the International Conference on Distributed Smart Cameras. New York: ACM, 2014:1-6. DOI:10.1145/2659021.2659046

DOI

[8]
Tzeng E, Zhai A, Clements M, et al. User-driven geolocation of untagged desert imagery using digital elevation models[C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2013:237-244. DOI:10.1109/CVPRW.2013.42

DOI

[9]
Mithun N C, Sikka K, Chiu H P, et al. RGB2LIDAR: Towards solving large-scale cross-modal visual localization[EB/OL]. 2020: arXiv:2009.05695. https://arxiv.org/abs/2009.05695

[10]
Weng L, Gouet-Brunet V, Soheilian B. Semantic signatures for large-scale visual localization[J]. Multimedia Tools and Applications, 2021, 80(15):22347-22372. DOI:10.1007/s11042-020-08992-6

DOI

[11]
Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110. DOI:10.1023/B:VISI.0000029664.99615.94

DOI

[12]
Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]// Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05) - Volume 1 - Volume 01. New York: ACM, 2005:886-893. DOI:10.1109/CVPR.2005.177

DOI

[13]
Bay H, Tuytelaars T, Van Gool L. SURF: Speeded up robust features[G]// LEONARDIS A, BISCHOF H, PINZ A. Computer Vision - ECCV 2006. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006, 3951:404-417. DOI:10.1007/11744023_32

DOI

[14]
Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C]// 2011 International Conference on Computer Vision. IEEE, 2012:2564-2571. DOI:10.1109/ICCV.2011.6126544

DOI

[15]
Zhang W, Kosecka J. Image based localization in urban environments[C]// Third International Symposium on 3D Data Processing, Visualization, and Transmission (3DPVT'06). IEEE, 2007:33-40. DOI:10.1109/3DPVT.2006.80

DOI

[16]
Zamir A R, Shah M. Accurate image localization based on google maps street view[C]// Proceedings of the 11th European conference on Computer vision:Part IV. New York: ACM, 2010:255-268. DOI:10.5555/1888089.1888109

DOI

[17]
Noh H, Araujo A, Sim J, et al. Large-scale image retrieval with attentive deep local features[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017:3476-3485. DOI:10.1109/ICCV.2017.374

DOI

[18]
Ng T, Balntas V, Tian Y R, et al. SOLAR: Second-order loss and attention for image retrieval[EB/OL]. 2020: arXiv: 2001.08972. https://arxiv.org/abs/2001.08972

[19]
Chu T, Chen Y, Huang L, et al. A grid feature-point selection method for large-scale street view image retrieval based on deep local features[J]. Remote Sensing, Basel: MDPI, 2020, 12(23):3978. DOI:10.3390/rs12233978

DOI

[20]
Chu T Y, Chen Y M, Huang L H, et al. Street view image retrieval with average pooling features[C]// IGARSS 2020-2020 IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2021:1205-1208. DOI:10.1109/IGARSS39084.2020.9323667

DOI

[21]
Yan L, Cui Y, Chen Y, et al. Hierarchical attention fusion for geo-localization[C]// 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2021). New York: IEEE, 2021:2220-2224. DOI:10.1109/ICASSP39728.2021.9414517

DOI

[22]
杨晓云. 基于卷积神经网络的视觉位置识别方法研究[D]. 哈尔滨: 东北林业大学, 2021.

[Yang X Y. Research on visual place recognition method based on convolutional neural network[D]. Harbin: Northeast Forestry University, 2021.] DOI:10.27009/d.cnki.gdblu.2021.000237

DOI

[23]
Chu T, Chen Y, Su H, et al. A news picture geo-localization pipeline based on deep learning and street view images[J]. International Journal of Digital Earth, 2022, 15(1):1485-1505. DOI:10.1080/17538947.2022.2121437

DOI

[24]
Tolias G, Jenicek T, Chum O. Learning and aggregating deep local descriptors for instance-level recognition[C]// VedaldiA, BischofH, BroxT, et al. Computer Vision - ECCV 2020. Cham: Springer International Publishing, 2020:460-477

[25]
Choi J, Friedland G. Multimodal location estimation of videos and images[M]. Cham: Springer International Publishing, 2015. DOI:10.1007/978-3-319-09861-6

DOI

[26]
Weyand T, Kostrikov I, Philbin J. PlaNet - photo geolocation with convolutional neural networks[C]// European Conference on Computer Vision. Cham: Springer, 2016:37-55.10.1007/978-3-319-46484-8_3

DOI

[27]
Mueller-Budack E, Pustu-Iren K, Ewerth R. Geolocation estimation of photos using a hierarchical model and scene classification[C]// FerrariV, HebertM, SminchisescuC, et al. Computer Vision - ECCV 2018, Pt XII. Cham: Springer International Publishing Ag, 2018, 11216:575-592. DOI:10.1007/978-3-030-01258-8_35

DOI

[28]
Zemene E, Tesfaye Y T, Idrees H, et al. Large-scale image geo-localization using dominant sets[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(1):148-161. DOI:10.1109/TPAMI.2017.2787132

DOI PMID

[29]
Schindler G, Brown M, Szeliski R. City-scale location recognition[C]// 2007 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2007:1-7. DOI:10.1109/CVPR.2007.383150

DOI

[30]
Li Y P, Crandall D J, Huttenlocher D P. Landmark classification in large-scale image collections[C]// 2009 IEEE 12th International Conference on Computer Vision. IEEE, 2010:1957-1964. DOI:10.1109/ICCV.2009.5459432

DOI

[31]
Johns E, Yang G Z. From images to scenes: Compressing an image cluster into a single scene model for place recognition[C]// 2011 International Conference on Computer Vision. IEEE, 2012:874-881. DOI:10.1109/ICCV.2011.6126328

DOI

[32]
Sivic, Zisserman. Video Google: a text retrieval approach to object matching in videos[C]// Proceedings Ninth IEEE International Conference on Computer Vision. IEEE, 2003:1470-1477. DOI:10.1109/ICCV.2003.1238663

DOI

[33]
Avrithis Y, Kalantidis Y, Tolias G, et al. Retrieving landmark and non-landmark images from community photo collections[C]// Proceedings of the international conference on Multimedia - MM’10. Firenze, Italy: ACM Press, 2010:153. DOI:10.1145/1873951.1873973

DOI

[34]
Mishkin D, Perdoch M, Matas J. Place recognition with WxBS retrieval[C]// CVPR 2015 Workshop on Visual Place Recognition in Changing Environments. Boston, USA: 2015:9.

[35]
仇晓松, 邹旭东, 王金戈, 等. 基于卷积神经网络的视觉位置识别方法[J]. 计算机工程与设计, 2019, 40(1):223-229.

[Qiu X S, Zou X D, Wang J G, et al. Method of visual place recognition based on convolutional neural network[J]. Computer Engineering and Design, 2019, 40(1):223-229.] DOI:10.16208/j.issn1000-7024.2019.01.037

DOI

[36]
Arandjelović R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6):1437-1451. DOI:10.1109/TPAMI.2017.2711011

DOI PMID

[37]
刘耀华. 基于难例挖掘和域自适应的视觉位置识别[D]. 武汉: 华中科技大学, 2019.

[Liu Y H. Visual place recognition based on hard example mining and domain adaptation[D]. Wuhan: Huazhong University of Science and Technology, 2019.] DOI:10.27157/d.cnki.ghzku.2019.003830

DOI

[38]
王红君, 郝金龙, 赵辉, 等. 大规模城市环境下视觉位置识别技术的研究[J]. 计算机应用与软件, 2021, 38(8):194-198,226.

[Wang H J, Hao J L, Zhao H, et al. Visual position recognition technology in large-scale urban environment[J]. Computer Applications and Software, 2021, 38(8):194-198,226.] DOI:10.3969/j.issn.1000-386x.2021.08.030

DOI

[39]
Kang Y H, Gao S, Liang Y L. Utilizing reverse viewshed analysis in image geo-localization[C]// Proceedings of the 2nd ACM SIGSPATIAL Workshop on Recommendations for Location-based Services and Social Networks. New York: ACM, 2018:1-5. DOI:10.1145/3282825.3282828

DOI

[40]
袁一, 程亮, 宗雯雯, 等. 互联网众源照片的三维重建定位技术[J]. 测绘学报, 2018, 47(5):631-643.

DOI

[ Yuan Y, Cheng L, Zong W W, et al. Crowd-sourced pictures geo-localization method based on 3D reconstruction[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(5):631-643.]

DOI

[41]
Cheng L, Yuan Y, Xia N, et al. Crowd-sourced pictures geo-localization method based on street view images and 3D reconstruction[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 141:72-85. DOI:10.1016/j.isprsjprs.2018.04.006

DOI

[42]
Workman S, Souvenir R, Jacobs N. Wide-area image geolocalization with aerial reference imagery[C]// 2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2016:3961-3969. DOI:10.1109/ICCV.2015.451

DOI

[43]
Lin T Y, Belongie S, Hays J. Cross-view image geolocalization[C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2013:891-898. DOI:10.1109/CVPR.2013.120

DOI

[44]
Viswanathan A, Pires B R, Huber D. Vision based robot localization by ground to satellite matching in GPS-denied situations[C]// 2014 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2014:192-198. DOI:10.1109/IROS.2014.6942560

DOI

[45]
Lin T Y, Cui Y, Belongie S, et al. Learning deep representations for ground-to-aerial geolocalization[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015:5007-5015. DOI:10.1109/CVPR.2015.7299135

DOI

[46]
Tian Y C, Chen C, Shah M. Cross-view image matching for geo-localization in urban environments[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:1998-2006. DOI:10.1109/CVPR.2017.216

DOI

[47]
Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6):1137-1149. DOI:10.1109/TPAMI.2016.2577031

DOI PMID

[48]
Hu S X, Feng M D, Nguyen R M H, et al. CVM-net: Cross-view matching network for image-based ground-to-aerial geo-localization[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:7258-7267. DOI:10.1109/CVPR.2018.00758

DOI

[49]
Shi Y J, Yu X, Campbell D, et al. Where Am I looking At? joint location and orientation estimation by cross-view matching[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:4063-4071. DOI:10.1109/CVPR42600.2020.00412

DOI

[50]
孙彬. 基于跨视角匹配的图像地理位置定位研究[D]. 深圳: 深圳大学, 2019.

[ Sun B. Research on image geo-localization based on cross-view matching[D]. Shenzhen: Shenzhen University, 2019.] DOI:10.27321/d.cnki.gszdu.2019.000578

DOI

[51]
Sun B, Chen C, Zhu Y, et al. GEOCAPSNET: Ground to aerial view image geo-localization using capsule network[C]// 2019 IEEE International Conference on Multimedia and Expo (ICME). Shanghai, China: IEEE, 2019:742-747. DOI:10.1109/ICME.2019.00133

DOI

[52]
Zhu Y Y, Sun B, Lu X F, et al. Geographic semantic network for cross-view image geo-localization[J]. IEEE Transactions on Geoscience and Remote Sensing, 2022, 60:1-15. DOI:10.1109/TGRS.2021.3121337

DOI

[53]
Liu L, Li H. Lending orientation to neural networks for cross-view geo-localization[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019:5617-5626. DOI:10.1109/CVPR.2019.00577

DOI

[54]
Shi Y, Liu L, Yu X, et al. Spatial-aware feature aggregation for cross-view image based geo-localization[C]// WallachH, LarochelleH, BeygelzimerA, et al. Advances in Neural Information Processing Systems 32 (nips 2019). La Jolla: Neural Information Processing Systems (nips), 2019,32.

[55]
Cai S D, Guo Y L, Khan S, et al. Ground-to-aerial image geo-localization with a hard exemplar reweighting triplet loss[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020:8390-8399. DOI:10.1109/ICCV.2019.00848

DOI

[56]
何思瑾. 基于深度学习的跨视角图像地理定位技术研究[D]. 武汉: 华中科技大学, 2021.

[He S J. Research on geographic positioning technology of cross-angle images based on deep learning[D]. Wuhan: Huazhong University of Science and Technology, 2021.] DOI:10.27157/d.cnki.ghzku.2021.002046

DOI

[57]
Li S, Tu Z, Chen Y, et al. Multi-scale attention encoder for street-to-aerial image geo-localization[J]. CAAI Transactions on Intelligence Technology, Hoboken: Wiley, 2021. DOI:10.1049/cit2.12077

DOI

[58]
Zhang X, Meng X, Yin H, et al. SSA-Net: Spatial scale attention network for image-based geo-localization[J]. IEEE Geoscience and Remote Sensing Letters, 2022, 19:1-5. DOI:10.1109/LGRS.2021.3120658

DOI

[59]
Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16x16 words: transformers for image recognition at scale[J]. arXiv, 2021. DOI:10.48550/arxiv.2010.11929

DOI

[60]
Dai M, Hu J H, Zhuang J D, et al. A transformer-based feature segmentation and region alignment method for UAV-view geo-localization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(7):4376-4389. DOI:10.1109/TCSVT.2021.3135013

DOI

[61]
Yang H J, Lu X F, Zhu Y Y. Cross-view geo-localization with evolving transformer[EB/OL]. 2021: arXiv: 2107. 00842. https://arxiv.org/abs/2107.00842

[62]
Zhuang J D, Chen X, Dai M, et al. A semantic guidance and transformer-based matching method for UAVs and satellite images for UAV geo-localization[J]. IEEE Access, 2022, 10:34277-34287. DOI:10.1109/ACCESS.2022.3162693

DOI

[63]
Wang T, Fan S J, Liu D K, et al. Transformer-guided convolutional neural network for cross-view geolocalization[EB/OL]. 2022:arXiv:2204.09967. https://arxiv.org/abs/2204.09967

[64]
Guo Y L, Choi M, Li K H, et al. Soft exemplar highlighting for cross-view image-based geo-localization[J]. IEEE Transactions on Image Processing: A Publication of the IEEE Signal Processing Society, 2022, 31:2094-2105. DOI:10.1109/TIP.2022.3152046

DOI

[65]
Regmi K, Borji A. Cross-view image synthesis using conditional GANs[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:3501-3510. DOI:10.1109/CVPR.2018.00369

DOI

[66]
Tang H, Xu D, Sebe N, et al. Multi-channel attention selection GAN with cascaded semantic guidance for cross-view image translation[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:2412-2421. DOI:10.1109/CVPR.2019.00252

DOI

[67]
Toker A, Zhou Q, Maximov M, et al. Coming down to earth: satellite-to-street view synthesis for geo-localization[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA: IEEE, 2021:6484-6493. DOI:10.1109/CVPR46437.2021.00642

DOI

[68]
Huang J Q, Ye D P. Ground-to-aerial image geo-localization with cross-view image synthesis[C]// PengY, HuS M, GabboujM, et al. Image and Graphics (ICIG 2021), Pt III. Cham: Springer International Publishing Ag, 2021, 12890:412-424. DOI:10.1007/978-3-030-87361-5_34

DOI

[69]
Shi Y J, Yu X, Liu L, et al. Optimal feature transport for cross-view image geo-localization[EB/OL]. 2019:arXiv:1907.05021. https://arxiv.org/abs/1907.05021

[70]
Zhu S J, Yang T, Chen C. VIGOR: cross-view image geo-localization beyond one-to-one retrieval[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:5316-5325. DOI:10.1109/CVPR46437.2021.00364

DOI

[71]
Zhu S J, Yang T, Chen C. Revisiting street-to-aerial view image geo-localization and orientation estimation[C]// 2021 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2021:756-765. DOI:10.1109/WACV48630.2021.00080

DOI

[72]
Rodrigues R, Tani M. Are these from the same place? seeing the unseen in cross-view image geo-localization[C]// 2021 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2021:3752-3760. DOI:10.1109/WACV48630.2021.00380

DOI

[73]
Zeng Z L, Wang Z, Yang F, et al. Geo-localization via ground-to-satellite cross-view image retrieval[J]. IEEE Transactions on Multimedia, 2022, PP(99):1. DOI:10.1109/TMM.2022.3144066

DOI

[74]
Wang T Y, Zheng Z D, Yan C G, et al. Each part matters: Local patterns facilitate cross-view geo-localization[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(2):867-879. DOI:10.1109/TCSVT.2021.3061265

DOI

[75]
Lin J L, Zheng Z D, Zhong Z, et al. Joint representation learning and keypoint detection for cross-view geo-localization[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2022, 31:3780-3792. DOI:10.1109/TIP.2022.3175601

DOI

[76]
Heinly J, Schonberger J L, Dunn E, et al. Reconstructing the world in six days[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, MA, USA: IEEE, 2015:3287-3295. DOI:10.1109/CVPR.2015.7298949

DOI

[77]
Thomee B, Shamma D A, Friedland G, et al. YFCC100M: The new data in multimedia research[EB/OL]. 2015: arXiv: 1503.01817. https://arxiv.org/abs/1503.01817

[78]
Irschara A, Zach C, Frahm J M, et al. From structure-from-motion point clouds to fast location recognition[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2009:2599-2606. DOI:10.1109/CVPR.2009.5206587

DOI

[79]
Sattler T, Leibe B, Kobbelt L. Fast image-based localization using direct 2D-to-3D matching[C]// 2011 International Conference on Computer Vision. IEEE, 2012:667-674. DOI:10.1109/ICCV.2011.6126302

DOI

[80]
Sattler T, Leibe B, Kobbelt L. Improving image-based localization by active correspondence search[C]// Proceedings of the 12th European conference on Computer Vision - Volume Part I. New York: ACM, 2012:752-765. DOI:10.1007/978-3-642-33718-5_54

DOI

[81]
Sattler T, Weyand T, Leibe B, et al. Image retrieval for image-based localization revisited[C]// Proceedings of the British Machine Vision Conference 2012. Surrey: British Machine Vision Association, 2012:76.1-76.12. DOI:10.5244/C.26.76

DOI

[82]
Li Y, Snavely N, Huttenlocher D, et al. Worldwide pose estimation using 3D point cloudsG// Fitzgibbon A, Lazebnik S, Perona P, et al. Computer Vision - ECCV 2012. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012, 7572:15-29. DOI:10.1007/978-3-642-33718-5_2

DOI

[83]
Sattler T, Havlena M, Radenovic F, et al. Hyperpoints and fine vocabularies for large-scale location recognition[C]// 2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2016:2102-2110. DOI:10.1109/ICCV.2015.243

DOI

[84]
Hutchison D, Kanade T, Kittler J, et al. Location recognition using prioritized feature matching[G]// Daniilidis K, Maragos P, Paragios N.Computer Vision - ECCV 2010. Berlin, Heidelberg: Springer Berlin Heidelberg, 2010, 6312:791-804. DOI:10.1007/978-3-642-15552-9_57

DOI

[85]
Svärm L, Enqvist O, Oskarsson M, et al. Accurate localization and pose estimation for large 3D models[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:532-539. DOI:10.1109/CVPR.2014.75

DOI

[86]
Zeisl B, Sattler T, Pollefeys M. Camera pose voting for large-scale image-based localization[C]// 2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2016:2704-2712. DOI:10.1109/ICCV.2015.310

DOI

[87]
Iwami K, Ikehata S, Aizawa K. Scale drift correction of camera geo-localization using geo-tagged images[C]// Lealtaixe L, Roth S. Computer Vision - ECCV 2018 Workshops, Pt I. Cham: Springer International Publishing Ag, 2019, 11129:273-288. DOI:10.1007/978-3-030-11009-3_16

DOI

[88]
Bergamo A, Sinha S N, Torresani L. Leveraging structure from motion to learn discriminative codebooks for scalable landmark classification[C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2013:763-770. DOI:10.1109/CVPR.2013.104

DOI

[89]
Kendall A, Grimes M, Cipolla R. PoseNet: A convolutional network for real-time 6-DOF camera relocalization[C]// 2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile: IEEE, 2015:2938-2946. DOI:10.1109/ICCV.2015.336

DOI

[90]
Hakeem A, Vezzani R, Shah M, et al. Estimating geospatial trajectory of a moving camera[C]// 18th International Conference on Pattern Recognition (ICPR'06). IEEE, 2006:82-87. DOI:10.1109/ICPR.2006.499

DOI

[91]
Conte G, Doherty P. Vision-based unmanned aerial vehicle navigation using geo-referenced information[J]. EURASIP Journal on Advances in Signal Processing, 2009,2009Article No. 10, DOI:10.1155/2009/387308

DOI

[92]
Vaca-Castano G, Zamir A R, Shah M. City scale geo-spatial trajectory estimation of a moving camera[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012:1186-1193. DOI:10.1109/CVPR.2012.6247800

DOI

[93]
Larnaout D, Bourgeois S, Gay-Bellile V, et al. Towards bundle adjustment with GIS constraints for online geo-localization of a vehicle in urban center[C]// 2012 Second International Conference on 3D Imaging, Modeling, Processing, Visualization & Transmission. IEEE, 2012:348-355. DOI:10.1109/3DIMPVT.2012.38

DOI

[94]
Middelberg S, Sattler T, Untzelmann O, et al. Scalable 6-dof localization on mobile devicesG// Fleet D, Pajdla T, Schiele B, et al. Computer Vision - ECCV 2014. Cham: Springer International Publishing, 2014, 8690:268-283. DOI:10.1007/978-3-319-10605-2_18

DOI

[95]
Talluri R, Aggarwal J K. Position estimation for an autonomous mobile robot in an outdoor environment[J]. IEEE Transactions on Robotics and Automation, 1992, 8(5):573-584. DOI:10.1109/70.163782

DOI

[96]
Talluri R, Aggarwal J K. Image map correspondence for mobile robot self-location using computer graphics[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1993, 15(6):597-601. DOI:10.1109/34.216729

DOI

[97]
Woo J, Son K, Li T, et al. Vision-based UAV navigation in mountain area[J]. IAPR International Workshop on Machine Vision Applications, 2007.

[98]
Stein F, Medioni G. Map-based localization using the panoramic horizon[J]. IEEE Transactions on Robotics and Automation, 1995, 11(6):892-896. DOI:10.1109/70.478436

DOI

[99]
Behringer R. Improving the registration precision by visual horizon silhouette matching[J]. Proceedings of the First IEEE Workshop on Augmented Reality, 1999. DOI:10.1201/9781439863992-29

DOI

[100]
Naval P C. Camera pose estimation by alignment from a single mountain image[J]. International Symposium on Intelligent Robotic Systems, 1998:157-163.

[101]
Tang J, Gong C, Guo F, et al. Automatic geo-localization framework without GNSS data[J]. IET Image Processing, 2022: ipr2.12482. DOI:10.1049/ipr2.12482

DOI

[102]
Saurer O, Baatz G, Köser K, et al. Image based geo-localization in the Alps[J]. International Journal of Computer Vision, 2016, 116(3):213-225. DOI:10.1007/s11263-015-0830-0

DOI

[103]
Hammoud R I, Kuzdeba S A, Berard B, et al. Overhead-based image and video geo-localization framework[C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2013:320-327. DOI:10.1109/CVPRW.2013.55

DOI

[104]
Tang J, Gong C, Guo F, et al. Geo-localization based on CNN feature matching[J]. Optoelectronics Letters, 2022, 18(5):300-306. DOI:10.1007/s11801-022-1148-0

DOI

[105]
Ramalingam S, Bouaziz S, Sturm P, et al. SKYLINE2GPS: Localization in urban canyons using omni-skylines[C]// 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2010:3816-3823. DOI:10.1109/IROS.2010.5649105

DOI

[106]
Chen Y, Qian G, Gunda K, et al. Camera geolocation from mountain images[C]// 2015 18th International Conference on Information Fusion (Fusion). IEEE, 2015:1587-1596

[107]
Fukuda S, Nakatani S, Nishiyama M, et al. Geo-localization using ridgeline features extracted from 360-degree images of sand dunes[C]// Proceedings of the 15th International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. Valletta, Malta: SCITEPRESS - Science and Technology Publications, 2020:621-627. DOI:10.5220/0008914306210627

DOI

[108]
Ardeshir S, Zamir A R, Torroella A, et al. GIS-assisted object detection and geospatial localizationG// Fleet D, Pajdla T, Schiele B, et al. Computer Vision - ECCV 2014. Cham: Springer International Publishing, 2014, 8694:602-617. DOI:10.1007/978-3-319-10599-4_39

DOI

[109]
Zunker R R, Sinha A, Banerji S. House hunting: image-based geo-localization of buildings within a city[C]// ICCDE 2019: Proceedings of the 2019 5th International Conference on Computing and Data Engineering. New York: Assoc Computing Machinery, 2019:100-104. DOI:10.1145/3330530.3330549

DOI

[109]
Zunker R R, Sinha A, Banerji S. House hunting: Image-based geo-localization of buildings within a city[C]// Proceedings of the 2019 5th International Conference on Computing and Data Engineering. New York: ACM, 2019:100-104. DOI:10.1145/3330530.3330549

DOI

[110]
Schindler G, Krishnamurthy P, Lublinerman R, et al. Detecting and matching repeated patterns for automatic geo-tagging in urban environments[C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Anchorage, AK, USA: IEEE, 2008:1-7. DOI:10.1109/CVPR.2008.4587461

DOI

[110]
Schindler G, Krishnamurthy P, Lublinerman R, et al. Detecting and matching repeated patterns for automatic geo-tagging in urban environments[C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2008:1-7. DOI:10.1109/CVPR.2008.4587461

DOI

[111]
Lalonde J F, Narasimhan S G, Efros A A. What do the Sun and the sky tell us about the camera?[J]. International Journal of Computer Vision, 2010, 88(1):24-51. DOI:10.1007/s11263-009-0291-4

DOI

[112]
Baatz G, Koeser K, Chen D, et al. Handling urban location recognition as a 2d homothetic problem[C]// Daniilidis K, Maragos P, Paragios N. Computer Vision - ECCV 2010. 2010, 6316:266.

[113]
Zhang T Y, Johnson-Roberson M. Learning cross-scale visual representations for real-time image geo-localization[J]. IEEE Robotics and Automation Letters, 2022, 7(2):5087-5094. DOI:10.1109/LRA.2022.3154035

DOI

[114]
Zamir A R, Shah M. Image geo-localization based on multiple nearest neighbor feature matching using generalized graphs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(8):1546-1558. DOI:10.1109/TPAMI.2014.2299799

DOI PMID

[115]
Ali-bey A, Chaib-draa B, Giguère P. GSV-Cities: Toward appropriate supervised visual place recognition[J]. Neurocomputing, 2022, 513(C):194-203. DOI:10.1016/j.neucom.2022.09.127

DOI

[116]
Berton G, Masone C, Caputo B. Rethinking visual geo-localization for large-scale applications[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:4868-4878. DOI:10.1109/CVPR52688.2022.00483

DOI

[117]
Chen D M, Baatz G, Köser K, et al. City-scale landmark identification on mobile devices[C]// CVPR. IEEE, 2011:737-744. DOI:10.1109/CVPR.2011.5995610

DOI

[118]
Torii A, Sivic J, Okutomi M, et al. Visual place recognition with repetitive structures[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(11):2346-2359. DOI:10.1109/TPAMI.2015.2409868

DOI PMID

[119]
Özköse Y E, Yilikoğlu T A, Karacan L, et al. Finding location of a photograph with deep learning[C]// 2018 26th Signal Processing and Communications Applications Conference (SIU). IEEE, 2018:1-4. DOI:10.1109/SIU.2018.8404530

DOI

[120]
Torii A, Arandjelovic R, Sivic J, et al. 24/7 place recognition by view synthesis[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(2):257-271. DOI: 10.1109/TPAMI.2017.2667665

DOI PMID

[121]
Sattler T, Maddern W, Toft C, et al. Benchmarking 6DOF outdoor visual localization in changing conditions[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:8601-8610. DOI:10.1109/CVPR.2018.00897

DOI

[122]
Čadík M, Vašíček J, Hradiš M, et al. Camera elevation estimation from a single mountain landscape photograph[C]// Proceedings of the British Machine Vision Conference 2015. Swansea: British Machine Vision Association, 2015:30.1-30.12. DOI:10.5244/C.29.30

DOI

[123]
Jegou H, Douze M, Schmid C. Hamming embedding and weak geometric consistency for large scale image search[G]// Forsyth D, Torr P, Zisserman A. Computer Vision - ECCV 2008. Berlin, Heidelberg: Springer Berlin Heidelberg, 2008, 5302:304-317. DOI:10.1007/978-3-540-88682-2_24

DOI

[124]
Philbin J, Chum O, Isard M, et al. Object retrieval with large vocabularies and fast spatial matching[C]// 2007 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2007:1-8. DOI:10.1109/CVPR.2007.383172

DOI

[125]
Philbin J, Chum O, Isard M, et al. Lost in quantization: Improving particular object retrieval in large scale image databases[C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2008:1-8. DOI:10.1109/CVPR.2008.4587635

DOI

[126]
Teichmann M, Araujo A, Zhu M L, et al. Detect-to-retrieve: Efficient regional aggregation for image search[EB/OL]. 2018:arXiv:1812.01584. https://arxiv.org/abs/1812.01584

[127]
Hu S X, Lee G H. Image-based geo-localization using satellite imagery[J]. International Journal of Computer Vision, 2020, 128(5):1205-1219. DOI:10.1007/s11263-019-01186-0

DOI

[128]
Regmi K, Shah M. Bridging the domain gap for ground-to-aerial image matching[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2020:470-479. DOI:10.1109/ICCV.2019.00056

DOI

[129]
Vo N N, Hays J. Localizing and orienting street views using overhead imagery[C]// LeibeB, MatasJ, SebeN, et al. Computer Vision - ECCV 2016. Cham: Springer International Publishing, 2016:494-509.

[130]
Zheng Z D, Wei Y C, Yang Y. University-1652: A multi-view multi-source benchmark for drone-based geo-localization[C]// Proceedings of the 28th ACM International Conference on Multimedia. New York: ACM, 2020:1395-1403. DOI:10.1145/3394171.3413896

DOI

[131]
Crandall D, Owens A, Snavely N, et al. Discrete-continuous optimization for large-scale structure from motion[C]// CVPR. IEEE, 2011:3001-3008. DOI:10.1109/CVPR.2011.5995626

DOI

[132]
Hao Q, Cai R, Li Z W, et al. 3D visual phrases for landmark recognition[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012:3594-3601. DOI:10.1109/CVPR.2012.6248104

DOI

[133]
Blanco-Claraco J L, Moreno-Dueñas F Á, González-Jiménez J. The Málaga urban dataset: High-rate stereo and LiDAR in a realistic urban scenario[J]. International Journal of Robotics Research, 2014, 33(2):207-214. DOI:10.1177/0278364913507326

DOI

[134]
Bansal M, Daniilidis K. Geometric urban geo-localization[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:3978-3985. DOI:10.1109/CVPR.2014.508

DOI

[135]
Ozcanli O C, Dong Y, Mundy J L. Geo-localization using volumetric representations of overhead imagery[J]. International Journal of Computer Vision, 2016, 116(3):226-246. DOI:10.1007/s11263-015-0850-9

DOI

[136]
Geiger A, Lenz P, Urtasun R. Are we ready for autonomous driving? The KITTI vision benchmark suite[C]// 2012 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2012:3354-3361. DOI:10.1109/CVPR.2012.6248074

DOI

[137]
Yan Q, Zheng J H, Reding S, et al. CrossLoc: Scalable aerial localization assisted by multimodal synthetic data[EB/OL]. 2021:arXiv:2112.09081. https://arxiv.org/abs/2112.09081

[138]
Brejcha J, Čadík M. GeoPose3K: Mountain landscape dataset for camera pose estimation in outdoor environments[J]. Image and Vision Computing, 2017, 66:1-14. DOI:10.1016/j.imavis.2017.05.009

DOI

[139]
Gawel A, Del Don C, Siegwart R, et al. X-view: Graph-based semantic multi-view localization[J]. IEEE Robotics and Automation Letters, 2018, 3(3):1687-1694. DOI:10.1109/LRA.2018.2801879

DOI

[140]
Ros G, Sellart L, Materzynska J, et al. The SYNTHIA dataset: A large collection of synthetic images for semantic segmentation of urban scenes[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:3234-3243. DOI:10.1109/CVPR.2016.352

DOI

[141]
Matsuo S, Shimoda W, Yanai K. Twitter photo geo-localization using both textual and visual features[C]// 2017 IEEE Third International Conference on Multimedia Big Data (BigMM). IEEE, 2017:22-25. DOI:10.1109/BigMM.2017.74

DOI

[142]
Baatz G, Saurer O, Koeser K, et al. Leveraging topographic maps for image to terrain alignment[C]// 2012 Second International Conference on 3D Imaging, Modeling, Processing, Visualization & Transmission, 2012:487-492. DOI:10.1109/3DIMPVT.2012.33

DOI

[143]
Raguram R, Wu C C, Frahm J M, et al. Modeling and recognition of landmark image collections using iconic scene graphs[J]. International Journal of Computer Vision, 2011, 95(3):213-239. DOI:10.1007/s11263-011-0445-z

DOI

[144]
Ardeshir S, Zamir A R, Torroella A, et al. GIS-assisted object detection and geospatial localization[C]// European Conference on Computer Vision. Cham: Springer, 2014:602-617.10.1007/978-3-319-10599-4_39

DOI

[145]
Senlet T, El-Gaaly T, Elgammal A. Hierarchical semantic hashing: Visual localization from buildings on maps[C]// 2014 22nd International Conference on Pattern Recognition. IEEE, 2014:2990-2995. DOI:10.1109/ICPR.2014.516

DOI

[146]
Taneja A, Ballan L, Pollefeys M. Never get lost again: vision based navigation using streetview images[G]// CremersD, ReidI, SaitoH, et al. Computer Vision - ACCV 2014. Cham: Springer International Publishing, 2015, 9007:99-114. DOI:10.1007/978-3-319-16814-2_7

DOI

[147]
Gronát P, Sivic J, Obozinski G, et al. Learning and calibrating per-location classifiers for visual place recognition[J]. International Journal of Computer Vision, 2016, 118(3):319-336. DOI:10.1007/s11263-015-0878-x

DOI

[148]
Liu L, Li H D, Dai Y C. Efficient global 2D-3D matching for camera localization in a large-scale 3D map[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017:2391-2400. DOI:10.1109/ICCV.2017.260

DOI

[149]
Kim H J, Dunn E, Frahm J-M. Learned contextual feature reweighting for image geo-localization[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI: IEEE, 2017:3251-3260. DOI:10.1109/CVPR.2017.346

DOI

[150]
Liu R, Zhang J, Yin K, et al. Absolute orientation and localization estimation from an omnidirectional image[C]// Geng X, Kang B H. Pricai 2018:Trends in Artificial Intelligence, Pt II. Cham: Springer International Publishing Ag, 2018, 11013:309-316. DOI:10.1007/978-3-319-97310-4_35

DOI

[151]
Sun S H, Sarukkai R, Kwok J, et al. Accurate deep direct geo-localization from ground imagery and phone-grade GPS[EB/OL]. 2018:arXiv:1804.07470. https://arxiv.org/abs/1804.07470

[152]
Chen J N, Duan Y Z, Sobelman G E, et al. Memory segment matching network based image geo-localization[J]. IEEE Access, 2019, 7:77448-77459. DOI:10.1109/ACCESS.2019.2922378

DOI

[153]
Yang Y, Ma B, Liu X, et al. GSAP: A global structure attention pooling method for graph-based visual place recognition[J]. Remote Sensing, 2021, 13(8):1467. DOI:10.3390/rs13081467.

DOI

[154]
Jacobs N, Satkin S, Roman N, et al. Geolocating static cameras[C]// 2007 IEEE 11th International Conference on Computer Vision. IEEE, 2007:1-6. DOI:10.1109/ICCV.2007.4408995

DOI

[155]
Gallagher A, Joshi D, Yu J, et al. Geo-location inference from image content and user tags[C]// 2009 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops. IEEE, 2009:55-62. DOI:10.1109/CVPRW.2009.5204168

DOI

[156]
Kalogerakis E, Vesselova O, Hays J, et al. Image sequence geolocation with human travel priors[C]// 2009 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009:253-260. DOI:10.1109/ICCV.2009.5459259

DOI

[157]
Zheng Y T, Ming Z, Yang S, et al. Tour the world: Building a web-scale landmark recognition engine[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2009:1085-1092. DOI:10.1109/CVPR.2009.5206749

DOI

[158]
Kelm P, Schmiedeke S, Sikora T. A hierarchical, multi-modal approach for placing videos on the map using millions of Flickr photographs[C]// Proceedings of the 2011 ACM workshop on Social and behavioral networked media access - SBNMA'11. Scottsdale, Arizona, USA: ACM Press, 2011:15. DOI:10.1145/2072627.2072634.

DOI

[159]
Shrivastava A, Malisiewicz T, Gupta A, et al. Data-driven visual similarity for cross-domain image matching[J]. ACM Transactions on Graphics, 2011, 30(6):1-10. DOI:10.1145/2070781.2024188

DOI

[160]
Kelm P, Schmiedeke S, Sikora T. Multi-modal, multi-resource methods for placing Flickr videos on the map[C]// Proceedings of the 1st ACM International Conference on Multimedia Retrieval - ICMR'11. Trento, Italy: ACM Press, 2011:1-8. DOI:10.1145/1991996.1992048

DOI

[161]
Cabrera-Ponce A A, Martinez-Carranza J. Convolutional neural networks for geo-localisation with a single aerial image[J]. Journal of Real-Time Image Processing, 2022, 19(3):565-575. DOI:10.1007/s11554-022-01207-1

DOI

文章导航

/