图像地理定位研究进展
黄高爽(1997— ),男,河南新乡人,博士生,主要从事网络空间测绘、精密工业摄影测量等研究。E-mail: huanggaoshuang123@163.com |
收稿日期: 2023-02-17
修回日期: 2023-04-19
网络出版日期: 2023-06-30
基金资助
河南省自然科学基金项目(202300410536)
A Survey of the Research Progress in Image Geo-localization
Received date: 2023-02-17
Revised date: 2023-04-19
Online published: 2023-06-30
Supported by
Natural Science Foundation of Henan Province(202300410536)
图像地理定位是将没有地理位置的图像,通过一系列方法获得对应地理位置,使其与现实地理空间建立关联映射的技术。该技术对进一步挖掘图像信息有着重要的作用,在网络空间测绘、情报获取、用户室外定位、增强现实等方面具有较高的应用价值。尽管计算机视觉领域取得了巨大的进展,但是由于图像地理定位涉及到图像特征提取、大规模数据检索、大规模点云处理、深度学习、地理信息特征提取、几何建模与推理、语义场景理解、基于上下文的推理、多数据融合应用等多个领域,所以对图像的高精度自动地理定位仍是需要进一步解决的难题。本文对图像地理定位研究进展进行了梳理,主要包括图像地理定位方法、图像地理定位数据集、图像地理定位评价方法和图像地理定位总结与展望4个方面。首先按照研究内容相关性将图像地理定位方法分为了图像检索、2D-3D匹配和跨模态检索3类方法,并详细介绍了每一类方法的最新研究进展;其次对图像地理定位研究所用的数据集和评价方法进行了归类与总结;最后分析了图像地理定位的研究现状,并从全球地理定位、自然区域地理定位、多方法融合地理定位、基于POI数据的地理定位和预选位置的精细化定位等方面对图像地理定位的未来研究方向进行了展望。
黄高爽 , 周杨 , 胡校飞 , 赵璐颖 , 张呈龙 . 图像地理定位研究进展[J]. 地球信息科学学报, 2023 , 25(7) : 1336 -1362 . DOI: 10.12082/dqxxkx.2023.230073
Image geo-localization is a technique that obtains the geographic location information of an image through a series of methods, so as to establish a mapping relationship with the real geographic space. This technique is important for further image information mining and has potential application value in cyberspace surveying and mapping, intelligence acquisition, user outdoor positioning, and augmented reality. Despite the tremendous progress in the field of computer vision, high-precision automatic geo-localization of images still needs to be addressed due to the involvement of multiple fields such as image feature extraction, large-scale data retrieval, large-scale point cloud processing, deep learning, geographic information feature extraction, geometric modeling and reasoning, semantic scene understanding, context-based reasoning, and multiple data fusion. This paper reviews the progress of image geo-localization research, mainly including image geo-localization methods, image geo-localization datasets, image geo-localization evaluation methods, and summary and prospect of image geo-localization. Firstly, image geolocation methods are classified into three categories, i.e., image retrieval, 2D-3D matching, and cross-modal retrieval, according to the relevance of the research content. Secondly, the datasets and evaluation methods used for image geo-localization research are categorized and summarized. The geo-localization datasets include image datasets, cross-view datasets, Structure from Motion (SfM) datasets, and multimodal datasets, etc. The image geo-localization evaluation metrics include Top-k candidates, localization error, position and orientation error per video frame, and accuracy/recall. Finally, the current status of image geo-localization research is analyzed, and the future research directions of image geo-localization are outlined in terms of global geo-localization, natural area geo-localization, multi-method fusion for geo-localization, Point of Interest (POI) data-based geo-localization, and pre-selected location refinement.
附表1 图像地理定位研究汇总Attached Tab. 1 Summary table of image geo-localization methods |
方法 | 年份 | 方法类别 | 类别 | 测试区域 | 测试结果 | 阈值 | 评价方法 | ||
---|---|---|---|---|---|---|---|---|---|
Hakeem等[90] | 2006 | SLAM | 城市 | 校园 | 6 m | — | 平均定位误差 | ||
Schindler等[29] | 2007 | 图像检索 | 城市 | 单个城市 | 70% | 10 m | — | ||
Zhang等[15] | 2007 | 图像检索 | 城市 | 城市某区域 | 72% | 16 m | 定位正确率 | ||
Schindlert等[110] | 2008 | — | 城市 | 城市某建筑五张图像 | 6.4 m | — | 平均定位误差 | ||
Irschara等[78] | 2009 | SfM | 城市 | 地标 | 39% | Top-10 | Top-K | ||
Zamir等[16] | 2010 | 图像检索 | 城市 | 240 km2的街景 | 78% | 250 m | — | ||
Baatz等[112] | 2010 | 3D-2D图像检索 | 城市 | 单座城市 | 35% or 85% | — | 定位正确率 | ||
Li等[84] | 2010 | — | 城市 | 全球多个城市 | 92.4%(罗马) | 400 m | 定位正确率 | ||
Avrithis等[33] | 2010 | 图像检索 | 城市 | 地标 | 80.65% | — | 定位正确率 | ||
Ramalingam等[105] | 2010 | 天际线匹配 | 城市 | 纽约、波士顿、东京 | 2.8 m | — | 平均定位误差 | ||
Crandall等[131] | 2011 | SfM | 城市 | 罗马 | 1 m | — | 定位误差 | ||
Sattler等[79] | 2011 | 2D-3D匹配 | 城市 | 全球城市 | 97.6%(罗马) | 400 m | 定位正确率 | ||
Johns等[31] | 2011 | 图像检索 | 城市 | 地标建筑 | — | — | 精度/召回率 | ||
Raguram等[143] | 2011 | SfM | 城市 | 全球地标 | 95% & 47% | — | 精度和召回率 | ||
Vaca-Castano等[92] | 2012 | 图像检索 | 城市 | 匹兹堡市中心 | 268.6 m/9.94 m | — | 平均定位误差 | ||
Sattler等[80] | 2012 | 2D-3D、3D-2D | 城市 | 全球城市 | 99.1%(罗马) | 400 m | 定位正确率 | ||
Larnaout等[93] | 2012 | SLAM | 城市 | 城市中心区域 | — | — | — | ||
Li等[82] | 2012 | SfM | 城市 | 1000个地标 | 73% | 10 m | 定位正确率 | ||
Bergamo等[88] | 2013 | SfM | 城市 | 25个地标建筑 | 71.26% | — | 定位正确率 | ||
Svarm,等[85] | 2014 | 2D-3D | 城市 | Dubrovnik | 99.75% | 400 m | 定位正确率 | ||
Ardeshir等[144] | 2014 | 跨模态检索 | 城市 | 10 km2华盛顿区域 | 60% | Top-20 | Top-K | ||
Zamir等[4] | 2014 | 图像检索 | 城市 | 多座城市 | 44% | 100 m | 定位正确率 | ||
Senlet等[145] | 2014 | 图像检索 | 城市 | 16.5 km2城市区域 | 75.91% | — | 定位正确率 | ||
Zamir等[114] | 2014 | 图像检索 | 城市 | 美国多个城市 | 50% | 150 m | 定位正确率 | ||
Middelberg等[94] | 2014 | SLAM SfM | 城市 | 40 km2 | 1 m | — | 定位误差 | ||
Bansal等[134] | 2014 | 几何关系 | 城市 | 加拿大渥太华 | — | — | — | ||
Zeisl等[86] | 2015 | — | 城市 | 美国若干城市 | 99.75% | 400 m | 定位正确率 | ||
Sattler等[83] | 2015 | SfM | 城市 | — | 62.50% | — | — | ||
Lin等[45] | 2015 | 跨视角 | 城市 | 全球多个城市 | 80% | Top-20% | Top-K | ||
Kendall等[89] | 2015 | 深度学习CNN | 城市 | 城市建筑 | 2 m, 3° | — | 定位误差 | ||
Taneja等[146] | 2015 | 图像检索 | 城市 | — | 13 m, 16° | — | 平均定位误差 | ||
Gronat等[147] | 2016 | 多分类问题 | 城市 | 匹兹堡、东京 | — | — | — | ||
Tian等[46] | 2017 | 跨视角 | 城市 | 美国城市 | — | — | — | ||
Liu等[148] | 2017 | 2D-3D | 城市 | 全球城市 | 18.3 m | — | 平均定位误差 | ||
Kim等[149] | 2017 | 图像检索 | 城市 | 全球城市 | 69.45% | — | 定位正确率 | ||
Arandjelovic等[36] | 2018 | 图像检索 | 城市 | 匹兹堡、东京 | 90.80% | Top-10 | Top-K | ||
Liu等[150] | 2018 | — | 城市 | 杭州大学校园 | 96% | — | 定位正确率 | ||
Sun等[151] | 2018 | 深度学习 | 城市 | 旧金山 | 1.53 m | — | 定位误差 | ||
Cheng等[41] | 2018 | 图像检索SfM | 城市 | 南京180 km道路 | 43.2% | 50 m | 定位正确率 | ||
Hu等[48] | 2018 | 跨视角 | 城市 | 美国若干城市 | 67.10% | 100 m | 定位正确率 | ||
Ozkose等[119] | 2018 | 图像分类 | 城市 | 土耳其15个城市 | 57.60% | — | — | ||
Sun等[51] | 2019 | 跨视角 | 城市 | 美国若干城市 | CVUSA: 98.07% Vo&Hays:76.83% | Top-1% | Top-K | ||
Cai等[55] | 2019 | 跨视角 | 城市 | — | CVUSA: 98.3% Vo & Hays:71.9% | Top-1% | Top-K | ||
Liu等[53] | 2019 | 跨视角 | 城市 | 美国11个城市 | 93.10% | — | Top-K | ||
Chen等[152] | 2019 | 深度学习 | 城市 | — | ORC: 94% GSV: 92% | 40 m | 定位正确率 | ||
Iwami等[87] | 2019 | SfM | 城市 | 西班牙马拉加 | 6 m | — | 定位误差 | ||
Shi等[54] | 2019 | 跨视角 | 城市/自然 | 美国众多城市 | CVUSA: 89.84% CVACT: 81.03% | Top-1 | Top-K | ||
Hu等[127] | 2020 | 跨视角 | 城市 | 美国11个城市 | 67.10% | 100 m | 定位正确率 | ||
Shi等[69] | 2020 | 跨视角 | 城市 | 美国11个城市 | CVUSA: 61.43% CVACT: 61.05% | Top-1 | Top-K | ||
Chu等[20] | 2020 | 图像检索 | 城市 | 香港 | 82.14% | Top-1 | TOP-K | ||
Shi等[49] | 2020 | 跨视角 | 城市 | 美国若干城市与郊区 | CVUSA:78.11% CVACT:72.91% | Top-1 | TOP-K | ||
Mithun,等[9] | 2020 | 跨模态检索 | 城市/自然 | 普林斯顿143km2区域 | — | — | — | ||
Rodrigues等[72] | 2021 | 跨视角 | 城市 | 城市 | CVACT: 73.19% CVUSA: 75.95% | Top -1 | Top-K | ||
Toker等[67] | 2021 | 跨视角 | 城市 | 城市 | CVUSA: 92.56% CVACT: 83.28% | Top-1 | Top-K | ||
Yang等[61] | 2021 | 跨视角 | 城市 | 城市 | CVUSA: 83.14% CVACT: 58.33% | Top-1 | Top-K | ||
Huang等[68] | 2021 | 跨视角 | 城市 | 美国11个城市 | CVUSA: 92.3% Vo&Hays: 71.03% | Top-1% | Top-K | ||
Yang等[153] | 2021 | — | 城市 | — | 93.58% | — | 定位正确率 | ||
Yan等[21] | 2021 | 图像检索 | 城市 | 全球城市 | — | — | Top-K | ||
Zhu等[71] | 2021 | 跨视角 | 城市 | — | CVUSA: 54.5% Vo & Hays: 11.8% | Top-1 | Top-K | ||
Weng等[10] | 2021 | 跨模态检索 | 城市 | 巴黎 | 49.46% | 50 m | 定位正确率 | ||
Zhu等[70] | 2021 | 跨视角 | 城市 | 美国多座城市 | 49% | Top-1 | Top-K | ||
Chu等[23] | 2022 | 图像检索 | 城市 | 香港湾仔区50 km2区域 | 50.62% | 50 m | 定位正确率 | ||
Wang等[74] | 2022 | 跨视角 | 城市 | 全球地标 | CVUSA: 85.79% CVACT: 79.99% | Top-1 | Top-K | ||
Zhu等[52] | 2022 | 跨视角 | 城市 | 美国若干城市 | CVUSA: 97.4% Vo & Hay: 76.7% | Top-1% | Top-K | ||
Zeng等[73] | 2022 | 跨视角 | 城市 | 全球地标 | 40.87% | Top-1% | Top-K | ||
Li等[57] | 2022 | 跨视角 | 城市 | 美国等11座城市 | CVUSA: 81.39% CVACT: 71.52% | Top-1 | Top-K | ||
Berton等[116] | 2022 | 深度学习 | 城市 | 旧金山 | 83.4% | — | Top-K | ||
Wang等[63] | 2022 | 跨视角 | 城市 | 美国若干城市与郊区 | CVUSA: 94.15% CVACT: 84.92% | Top-1 | Top-K | ||
Guo等[64] | 2022 | 跨视角 | 城市/自然 | 美国若干城市与郊区 | CVUSA: 94.1% CVACT: 89.03% | Top-5 | Top-K | ||
Zhang等[58] | 2022 | 跨视角 | 城市/自然 | 美国众多城市 | CVUSA: 89.84% CVACT: 81.03% | Top-1 | Top-K | ||
Jacobs等[154] | 2007 | — | 全球 | 美国若干城市 | 71.8 km | — | 平均定位误差 | ||
Hays等[2] | 2008 | 图像检索 | 全球 | 南卡罗莱纳州 | 16% | 200 m | 定位正确率 | ||
Gallagher等[155] | 2009 | — | 全球 | 全球区域 | 33% | 200 km | 定位正确率 | ||
Kalogerakis等[156] | 2009 | — | 全球 | 全球区域 | 58% | 400 km | 定位正确率 | ||
Li等[30] | 2009 | 图像分类 | 全球 | 地标 | 40.58% | — | 定位正确率 | ||
Zheng等[157] | 2009 | 图像检索 | 全球 | 全球地标 | 80.80% | — | 定位正确率 | ||
kelm等[158] | 2011 | — | 全球 | 全球区域 | 35% | 1 km | 定位正确率 | ||
Shrivastava等[159] | 2011 | 跨模态检索 | 全球 | 跨模态图像 | 68.74% | Top-5 | Top-K | ||
Kelm等[160] | 2011 | — | 全球 | 全球区域 | 10% / 33% | 1 km / 5 km | 定位正确率 | ||
Lin等[43] | 2013 | 跨视角 | 全球 | 1 600 km2区域 | 17% | — | Top-K | ||
Workman等[42] | 2015 | 跨视角 | 全球 | 4 000 km2 | 22.70% | — | — | ||
Weyand等[26] | 2016 | 图像分类 | 全球 | 全球区域 | 37.60% | 200 km | 定位正确率 | ||
Noh等[17] | 2017 | 图像检索 | 全球 | 全球地标 | 91.75% | 定位正确率 | |||
Mueller-Budack等[27] | 2018 | 深度学习 | 全球 | 全球区域 | 10.5%/66.0% | 1 km/2500 km | 定位正确率 | ||
Chu等[19] | 2020 | 图像检索 | 全球 | 全球地标 | 86.84% | 500 m | 定位正确率 | ||
Ng等[18] | 2020 | 图像检索 | 全球 | 全球15 000地标 | 81.60% | — | 定位正确率 | ||
Dai等[60] | 2021 | 跨视角 | 全球 | 全球大学地标 | 86.71% | — | 定位正确率 | ||
Zhuang等[62] | 2022 | 深度学习 | 全球 | 全球地标 | 82.14% | Top-1 | Top-K | ||
Talluri等[95] | 1992 | 图像检索DEM | 自然 | 148 km2区域 | — | — | — | ||
Baboud等[6] | 2011 | 天际线匹配 | 自然 | 28张山脉图像 | 86% | 0.2° | 定位正确率 | ||
Baatz等[5] | 2012 | 天际线匹配 | 自然 | 瑞士山区 | 88% | Top-1 | Top-K | ||
Hammoud等[103] | 2013 | 多方法融合 | 自然 | 20 000 km2区域 | 49% | 14 km | 定位正确率 | ||
Tzeng等[8] | 2013 | 天际线匹配 | 自然 | 10 000 km2区域 | — | — | — | ||
Viswanathan等[44] | 2014 | 跨视角 | 自然 | c. 0.1 km2 | 31% | Top-10% | Top-K | ||
Cadik等[122] | 2015 | 图像检索 | 自然 | 阿尔卑斯山区 | 531.05 m | — | 定位误差 | ||
Chen等[106] | 2015 | 基于DEM检索 | 自然 | 全球10 000 km2区域 | 60% | 4.5 km | 定位正确率 | ||
Saurer等[102] | 2016 | 天际线匹配 | 自然 | 40 000 km2阿尔卑斯山 | 88% & 76% | 1 000 m | 定位正确率 | ||
Ozcanli等[135] | 2016 | 基于语义2D-3D | 自然 | 美国沿海634 km2区域 | — | — | — | ||
Fukuda等[107] | 2020 | 山脊线匹配 | 自然 | — | 1.81 m±1.44 m | — | 平均定位误差 | ||
Tang等[101] | 2022 | 天际线匹配 | 自然 | 中国202.6 km2区域 | 43.13 m | — | 平均定位误差 | ||
Cabrera-Ponce等[161] | 2022 | 深度学习 | 自然 | 1 716 m2/806.96 m2区域 | 4.5 m | — | 定位误差 | ||
Yan等[137] | 2022 | 深度学习 | 自然 | — | 14.1 m | — | 定位误差 | ||
Tan等[104] | 2022 | 天际线匹配 | 自然 | 202.6 km2丘陵区域 | 43.13 m | 200 m | 定位误差 |
注:Top-K包括Top-1、Top-5、Top-10、Top-1%、Top-10%等, Top-1、Top-5、Top-10分别为前1张图像、前5张图像、前10张图像,Top-1%为总测试图像的前1%图像,Top-10%为总测试图像的前10%图像。 |
表1 地面图像检索研究总结Tab. 1 Research summary of ground image retrieval |
研究主题 | 研究内容 | 优点 | 缺点 |
---|---|---|---|
基于特征的地面图像检索 | 手工特征[4,11⇓⇓⇓⇓-16] | 算法简单,解释性强 | 冗余度高,需要降维处理,易受环境变化影响,定位精度低 |
深度特征[17⇓⇓⇓⇓⇓-23] | 特征表达能力强,特征维度可定义,定位精度高 | 解释性不强,需要大量图像进行训练 | |
基于分类聚类的地面图像检索 | 全球图像检索[2,25⇓⇓⇓-29] | 可实现全球图像地理定位 | 分类粗糙,定位精度低,受数据库图像的数量与质量影响很大 |
全球地标识别[30⇓⇓-33] | |||
其他改进方法 | 应对环境变化[34⇓⇓⇓-38] | 面对环境变化鲁棒性好,定位精度高 | 算法复杂,检索效率低 |
多方法融合[39⇓-41] | 检索效率较高,定位精度高 | 算法复杂,适用范围小 |
表2 跨视角图像检索研究总结Tab. 2 Research summary of cross-view image retrieval |
研究主题 | 研究内容 | 特点 |
---|---|---|
基于特征的跨视角图像检索 | 手工特征[43-44] | 算法简单,解释性强;受视角差异影响较大,定位精度低 |
深度特征[42,45⇓⇓⇓-49] | 特征表达能力强,能更好适应视角差异,定位精度高;解释性不强,需要大量图像进行训练 | |
跨视角图像检索网络改进 | 添加胶囊网络[50⇓⇓-53] | 增强了神经网络的空间关系感知能力 |
添加注意力模块[54⇓⇓⇓-58] | 提高了特征表达能力 | |
引入ViT模块[60⇓⇓-63] | 提高了全局上下文推理能力,减少视觉歧义 | |
设计损失函数[55,64] | 进一步提高了特征表达能力 | |
基于视角转换的跨视角图像检索 | 几何转换[54] | 缩小了视角差异,几何结构关系明显,算法简单;转换会损失部分像素信息,定位精度较低 |
GAN网络转换[65⇓⇓-68] | 进一步缩小了视角差异,定位精度高;需要大量图像进行训练 | |
其他改进方法 | 跨视角特征同化[69] | 转换同化不同视角图像的特征,减少视角差异带来的影响 |
图像地理位置细化[70] | 通过回归预测偏移量来细化图像地理位置,提高定位精度 | |
无人机图像视角过渡[73] | 利用无人机图像作为桥梁,减少视角差异带来的影响 | |
方形回环特征划分[74] | 能更好适应图像的旋转变化 |
表4 跨模态检索研究总结Tab. 4 Research summary of cross-modal retrieval |
研究主题 | 研究内容 | 优点 | 缺点 |
---|---|---|---|
基于轮廓特征的跨模态检索 | 天际线特征[5,8,95⇓⇓⇓⇓⇓⇓⇓⇓⇓-105] | 不依赖图像数据,对查询图像纹理信息依赖较低 | 受图像视角影响较大,定位精度低 |
山脉轮廓线特征[6,7,106-107] | |||
基于GIS语义的跨模态检索 | GIS数据[108] | 数据库小,计算量小,轻量化 | 受图像质量、语义分割算法等影响较大,对数据库时效性要求高,定位精度低 |
语义数据[10,109] | |||
基于几何纹理特征的跨模态检索 | 建筑纹理特征[110] | 挖掘了图像的模式和几何规律,将图像匹配的劣势变为可利用的优势 | 耗时较多,计算复杂,受图像质量影响较大,定位精度低,适用范围小 |
太阳位置与天空特征[111] | |||
几何特征[112-113] |
附表2 图像地理定位数据集汇总Attached Tab. 2 Image geo-localization dataset summary table |
建立者 | 数据集名称 | 建立时间 | 用途 | 覆盖区域 | 数据类型 | 数量 | 备注 |
---|---|---|---|---|---|---|---|
Zamir和Shah[114] | GSV | 2014 | 图像检索 | 美国若干城市 | 街景图像 | 10.2万张 | |
Amar等[115] | GSV-CITIES | 2022 | 图像检索 | 全球40城市 | 街景图像 | — | 2007—2021年 |
Berton等[116] | SF-XL | 2022 | 图像检索 | 旧金山 | 街景图像 | 4 120万张 | 2009—2021年 |
Hays和Efros[2] | IM2GPS | 2008 | 聚类分类 | 全球 | 网络图像 | 600万张 | Flickr获取 |
Thomee等[77] | YFCC100 M | 2014 | 多用途 | 全球 | 图像/视频 | 9 920万张 | 2004—2014年 |
Chen等[117] | SFL | 2011 | 地标检索 | 旧金山 | 透视图像 | 170万张 | |
Cadik等[122] | Alps100 K | 2016 | 图像检索 | 阿尔卑斯山 | 网络图像 | 10万张 | Flickr获取 |
Chu等[20] | 香港街景 | 2020 | 图像检索 | 香港北部 | 街景图像 | 239 400张 | 谷歌街景 |
Sattler等[121] | Aachen Day-Night | 2018 | 不同光照 | 亚琛 | 图像/3D点云 | 4 848张 | |
Sattler等[121] | RobotCar Seasons | 2018 | 驾驶场景 | 牛津 | 图像/3D点云 | 20 862张 | |
Sattler等[121] | CMU Seasons | 2018 | 茂密植被场景 | 匹兹堡 | 图像/3D点云 | 82 494张 | |
Philbin等[124,125] | Oxford5 K | 2007 | 地标检索 | 牛津 | 地标图像 | 5 117张 | Flickr获取 |
Philbin等[124,125] | Paris6 K | 2007 | 地标检索 | 巴黎 | 地标图像 | 6 424张 | Flickr获取 |
Li等[84] | Dubrovnik | 2010 | 2D-3D | 杜布罗夫尼克 | 网络图像 | 约100张 | |
Li等[84] | Rome | 2010 | 2D-3D | 罗马 | 网络图像 | 约100张 | |
Li等[84] | Vienna | 2010 | 2D-3D | 维也纳 | 网络图像 | 约100张 | |
Ozkose等[119] | Turkey15 | 2018 | 深度学习 | 土耳其15城市 | 网络图像 | 2250张 | Flickr获取 |
Herne等[123] | INRIA Holidays | 2008 | 图像检索 | 全球 | 度假图像 | 1 991张 | Flickr获取 |
Herne等[123] | Flickr60 K | 2008 | 图像检索 | 全球 | 网络图像 | 67 714张 | Flickr获取 |
Herne等[123] | Flickr1 M | 2008 | 图像检索 | 全球 | 网络图像 | 100万张 | Flickr获取 |
Zemene等[28] | WorldCities | 2019 | 图像检索 | 全球14城市 | 街景图像 | 30万张 | |
Arandjelovic等[120] | Tokyo 24/7 | 2015 | 图像检索 | 东京 | 手机采集图像 | 1 125张 | 3个时刻采集 |
Torii等[118] | Pittsburgh 250 K | 2015 | 图像检索 | 匹兹堡 | 街景图像 | 254 064张 | |
Teichmann等[126] | GLB | 2019 | 地标检索 | 全球1500地标 | 地标图像 | 120万张 | |
Workman等[42] | CVUSA | 2015 | 跨视角 | 美国若干城市 | 地面/俯视图像 | 150万对 | Flickr/谷歌街景 |
Liu等[53] | CVACT | 2019 | 跨视角 | 堪培拉 | 地面/俯视图像 | 92 802对 | |
Regmi和Shah[128] | OP | 2019 | 跨视角 | 奥兰多/匹兹堡 | 地面/俯视图像 | 2 632对 | |
Vo和Hays[129] | Vo & Hays | 2016 | 跨视角 | 美国11城市 | 地面/俯视图像 | 100万对 | |
Zheng等[130] | University1652 | 2020 | 跨视角 | 全球72所大学 | 地面/俯视图像 | 146 581张 | |
Zhu等[70] | VIGOR | 2021 | 跨视角 | 美国4城市 | 地面/俯视图像 | 90 618对 | |
Li等[84] | Rome16K | 2010 | SfM | 罗马 | 城市地面图像 | 1.6万张 | |
Li等[84] | Dubrovnik6K | 2010 | SfM | 杜布罗夫尼克 | 城市地面图像 | 6 000张 | |
Crandall等[131] | Quad | 2011 | SfM | 罗马 | 地面图像 | 6 514张 | 手机采集 |
Hao等[132] | Landmark 3D | 2012 | SfM | 25个地标 | 地标图像 | 4.5万张 | |
Kendall等[89] | 剑桥地标 | 2015 | SfM | 剑桥地标 | 地标图像 | 10 929张 | |
Saurer等[102] | — | 2016 | 天际线 | 阿尔卑斯山 | DEM/地面图像 | 约1 000张 | |
Tang等[104] | — | 2022 | 天际线 | 长沙东北部 | DEM/地面图像 | 202.6 km2 | |
Blanco等[133] | Málaga | 2014 | 2D-3D | 马拉加 | 图像/3D点云 | 36 km道路 | |
Bansal和Daniilidis[134] | — | 2014 | 2D-3D | 加拿大某地 | 地面图像/DEM | 50张 | |
Ozcanli等[135] | — | 2016 | 2D-3D | 美国沿海 | 图像/3D点云 | 634 km2 | |
Mithun等[9] | GRAL | 2020 | 2D-3D | 新泽西州 | 地面/深度图像 | 55万多张 | |
Andreas等[136] | KITTI | 2012 | SLAM | 未知 | 光流图像/视频 | 389对 | 39.2 km道路 |
Qi等[137] | TOPO-DataGen | 2022 | 综合 | 瑞士 | 多源数据 | — | |
Brejcha和Cadik[138] | GeoPose3K | 2017 | 综合 | 某山区 | 多源数据 | — | |
Gawel等[139] | Airsim | 2018 | 跨视角 | 苏黎世 | RGB/深度图像 | — | |
Ros等[140] | SYNTHIA | 2016 | 驾驶场景 | 苏黎世 | 语义/深度图像 | 21万多张 |
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
杨晓云. 基于卷积神经网络的视觉位置识别方法研究[D]. 哈尔滨: 东北林业大学, 2021.
[
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
Sivic, Zisserman. Video Google: a text retrieval approach to object matching in videos[C]// Proceedings Ninth IEEE International Conference on Computer Vision. IEEE, 2003:1470-1477. DOI:10.1109/ICCV.2003.1238663
|
[33] |
|
[34] |
|
[35] |
仇晓松, 邹旭东, 王金戈, 等. 基于卷积神经网络的视觉位置识别方法[J]. 计算机工程与设计, 2019, 40(1):223-229.
[
|
[36] |
|
[37] |
刘耀华. 基于难例挖掘和域自适应的视觉位置识别[D]. 武汉: 华中科技大学, 2019.
[
|
[38] |
王红君, 郝金龙, 赵辉, 等. 大规模城市环境下视觉位置识别技术的研究[J]. 计算机应用与软件, 2021, 38(8):194-198,226.
[
|
[39] |
|
[40] |
袁一, 程亮, 宗雯雯, 等. 互联网众源照片的三维重建定位技术[J]. 测绘学报, 2018, 47(5):631-643.
[
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
|
[50] |
孙彬. 基于跨视角匹配的图像地理位置定位研究[D]. 深圳: 深圳大学, 2019.
[
|
[51] |
|
[52] |
|
[53] |
|
[54] |
|
[55] |
|
[56] |
何思瑾. 基于深度学习的跨视角图像地理定位技术研究[D]. 武汉: 华中科技大学, 2021.
[
|
[57] |
|
[58] |
|
[59] |
|
[60] |
|
[61] |
|
[62] |
|
[63] |
|
[64] |
|
[65] |
|
[66] |
|
[67] |
|
[68] |
|
[69] |
|
[70] |
|
[71] |
|
[72] |
|
[73] |
|
[74] |
|
[75] |
|
[76] |
|
[77] |
|
[78] |
|
[79] |
|
[80] |
|
[81] |
|
[82] |
|
[83] |
|
[84] |
|
[85] |
|
[86] |
|
[87] |
|
[88] |
|
[89] |
|
[90] |
|
[91] |
|
[92] |
|
[93] |
|
[94] |
|
[95] |
|
[96] |
|
[97] |
|
[98] |
|
[99] |
|
[100] |
|
[101] |
|
[102] |
|
[103] |
|
[104] |
|
[105] |
|
[106] |
|
[107] |
|
[108] |
|
[109] |
|
[109] |
|
[110] |
|
[110] |
|
[111] |
|
[112] |
|
[113] |
|
[114] |
|
[115] |
|
[116] |
|
[117] |
|
[118] |
|
[119] |
|
[120] |
|
[121] |
|
[122] |
|
[123] |
|
[124] |
|
[125] |
|
[126] |
|
[127] |
|
[128] |
|
[129] |
|
[130] |
|
[131] |
|
[132] |
|
[133] |
|
[134] |
|
[135] |
|
[136] |
|
[137] |
|
[138] |
|
[139] |
|
[140] |
|
[141] |
|
[142] |
|
[143] |
|
[144] |
|
[145] |
|
[146] |
|
[147] |
|
[148] |
|
[149] |
|
[150] |
|
[151] |
|
[152] |
|
[153] |
|
[154] |
|
[155] |
|
[156] |
|
[157] |
|
[158] |
|
[159] |
|
[160] |
|
[161] |
|
/
〈 |
|
〉 |