地球信息科学理论与方法

街景图像视觉位置识别技术研究综述

  • 张暖 , 1, 2 ,
  • 王涛 , 1, 2, * ,
  • 张艳 1 ,
  • 魏毅博 1 ,
  • 李镏文 1 ,
  • 刘熠晨 3
展开
  • 1.信息工程大学,郑州 450001
  • 2.智能空间信息国家级重点实验室,郑州 450001
  • 3.61646部队,北京 100080
*王 涛(1975— ),男,山东聊城人,博士,教授,主要从事航空航天遥感工程、遥感信息处理与应用等方向研究。 E-mail:

作者贡献:Author Contributions

张暖参与文献搜集、梳理归纳、论文撰写、论文修改;王涛、张艳、魏毅博、李镏文、刘熠晨参与论文的修改。所有作者均阅读并同意最终稿件的提交。

ZHANG Nuan participated in literature collection, sorting and summarizing, paper writing and revision; WANG Tao, ZHANG Yan, WEI Yibo, LI Liuwen and LIU Yichen participated in the revision of the paper. All the authors have read the last version of paper and consented for submission.

张 暖(2002— ),女,安徽铜陵人,硕士生,主要从事遥感影像定位、视觉图像位置识别技术等方向研究。E-mail:

收稿日期: 2025-03-25

  修回日期: 2025-06-08

  网络出版日期: 2025-07-23

基金资助

智能空间信息国家级重点实验室基金(a8235)

An Overview of Visual Place Recognition Based on Street View Images

  • ZHANG Nuan , 1, 2 ,
  • WANG Tao , 1, 2, * ,
  • ZHANG Yan 1 ,
  • WEI Yibo 1 ,
  • LI Liuwen 1 ,
  • LIU Yichen 3
Expand
  • 1. Information Engineering University, Zhengzhou 450001, China
  • 2. National Key Laboratory of Intelligent Spatial Information, Zhengzhou 450001, China
  • 3. Troop 61646, Beijing 10080, China
*WANG Tao, E-mail:

Received date: 2025-03-25

  Revised date: 2025-06-08

  Online published: 2025-07-23

Supported by

National Key Laboratory of Intelligent Spatial Information Fund(a8235)

摘要

【意义】街景图像视觉位置识别(Street View Image-based Visual Place Recognition, SV-VPR)是一种基于视觉特征信息的地理位置识别技术,其核心任务是通过分析街景图像的视觉特征,实现对未知地点的地理位置预测和精确定位。该技术需要克服不同环境条件下的外观变化(如昼夜光照差异、季节更替特征演变等)和视点差异(如车载相机与卫星图像的视角偏差),并通过计算图像特征相似性、几何约束等条件来实现精准识别。作为计算机视觉与地理信息科学的交叉领域,SV-VPR与视觉定位、图像检索、SLAM等技术密切相关,在无人机自主导航、自动驾驶高精度定位、网络空间地理围栏构建、增强现实场景融合等领域具有重要应用价值,特别是在GPS信号缺失场景下展现出独特的定位优势。【分析】本文系统综述了街景图像视觉位置识别技术的研究进展,主要包含以下内容:首先,阐述了图像视觉位置识别技术的基础概念与分类,深入探讨了街景图像视觉位置识别技术的基础概念与分类方法;其次,详细分析了该领域的关键技术研究;此外,全面梳理了街景图像视觉位置识别技术相关的数据集资源;同时,梳理了该技术的评价方法与指标体系;最后,对街景图像视觉位置识别技术的未来研究方向进行了展望。【目的】通过本综述,旨在为相关研究者提供系统化的技术发展脉络梳理,帮助快速把握领域研究现状;关键技术与评估方法的对比分析,为算法选型提供决策依据;前沿挑战与潜在突破方向的预判,启发创新性研究思路。

本文引用格式

张暖 , 王涛 , 张艳 , 魏毅博 , 李镏文 , 刘熠晨 . 街景图像视觉位置识别技术研究综述[J]. 地球信息科学学报, 2025 , 27(8) : 1751 -1779 . DOI: 10.12082/dqxxkx.2025.250137

Abstract

[Significance] Street View Image-based Visual Place Recognition (SV-VPR) is a geographical location recognition technology that relies on visual feature information. Its core task is to predict and accurately locate unknown locations by analyzing the visual features of street view images. This technology must overcome challenges such as appearance changes under different environmental conditions (e.g., lighting differences between day and night, seasonal variations) and viewpoint differences (e.g., perspective deviations between vehicle-mounted cameras and satellite images). Accurate recognition is achieved through calculating image feature similarity, applying geometric constraints, and related methods. As an interdisciplinary field of computer vision and geographic information science, SV-VPR is closely related to visual positioning, image retrieval, SLAM, and more. It has significant application value in areas such as UAV autonomous navigation, high-precision positioning for autonomous driving, construction of geographical boundaries in cyberspace, and integration of augmented reality environments. It is particularly advantageous in GPS-denied environments. [Analysis] This paper systematically reviews the research progress of visual location recognition based on street view images, covering the following aspects: First, the basic concepts and classifications of visual place recognition technologies are introduced. Second, the foundational principles and categorization methods specific to street view image-based visual place recognition are discussed in depth. Third, the key technologies in this field are analyzed in detail. Furthermore, relevant datasets for street view image-based visual place recognition are comprehensively reviewed. In addition, evaluation methods and index systems used in this domain are summarized. Finally, potential future research directions for SV-VPR are explored. [Purpose] This review aims to provide researchers with a systematic overview of the technological development trajectory of SV-VPR, helping them quickly understand the current research landscape. It also offers a comparative analysis of key technologies and evaluation methods to support algorithm selection, and identifies emerging challenges and potential breakthrough areas to inspire innovative research.

1 引言

在数字化信息时代,图像凭借直观性、丰富性的特点,成为信息传递、观点阐述和情感表达的核心载体,广泛应用于医疗诊断、安防监控、文化传播等日常生活和工作的各个领域。随着成像技术的迅猛发展,从智能手机到遥感卫星,多样化的成像设备大幅提升了图像获取能力,构建了二维平面与三维真实世界之间的桥梁。
图像视觉位置识别技术作为计算机视觉的重要研究方向,通过融合多源异构影像数据,结合特征提取、匹配、深度学习等技术,实现对图像地理位置信息的高效获取。国外研究起步较早,在传统方法、深度学习、VLMs方面均取得诸多创新性成果。加拿大的机器学习研究者Amar Ali-bey,先后提出了Conv-AP[1]、MixVPR[2]、BoQ[3]等创新算法,最新研究跻身于当前最优水平;Gabriele Berton是一位在视觉位置识别(VPR)领域取得诸多成果的都灵理工大学的研究者,在CVPR、ICCV等顶级会议上发表过多篇论文,先后提出Cosplace[4]、MeshVPR[5]、JIST[6]、EigenPlaces[7]等创新算法。国内研究近年来也呈现出快速发展态势,主要集中于基于深度学习的位置识别技术的研究创新上。众多科研机构和高校积极投入,在算法优化和应用拓展方面取得显著进展,如朱莹莹[8]提出的APANet金字塔聚合网络,葛一笑等[9]提出的SFRS自监督算法等,但与国际先进水平相比,国内研究在算法的通用性和实时性方面仍存在一定差距。
图像视觉位置识别技术在不同文献和研究中有多种表示形式:视觉位置识别(Visual Place Recognition, VPR)[10-11],视觉地理定位(Visual Geo-localization,VG)[12-14],基于图像的定位(Image-Based Localization,IBL)[15],图像增强定位(Image-Augmented Localization,IAL)[16],基于内容的图像检索(Content-Based Image Retrieval,CBIR)[17]。其对应的核心任务、应用场景和特点如表1所示。
表1 图像视觉位置识别表示形式

Tab. 1 Visual Place Recognition representation

缩写 全称 核心任务 应用场景 特点
VPR[10-11] Visual Place Recognition 通过视觉信息识别地点 自动驾驶、机器人导航 依赖图像内容,无需额外传感器
GL[18] Geo-localization 确定图像的地理位置 地图服务、社交媒体定位 结合图像和地理信息
IBL[15] Image-Based Localization 通过图像匹配确定地理位置 自动驾驶、机器人导航 依赖图像内容,无需额外传感器
IAL[16] Image-Augmented
Localization
结合图像和其他传感器数据提高定位 高精度地图、室内定位 多模态数据融合,定位精度高
CBIR[17] Content-Based Image Retrieval 基于图像内容检索相似图像 图像搜索引擎、医学图像分析 专注于图像相似性,不涉及定位
图像视觉位置识别技术具有重要的战略意义和多维应用(图1)。军事领域可实现无信号依赖的隐蔽定位,支撑战场侦察与指挥决策;民用领域应用于应急救灾中的灾情快速定位、智能交通系统的精准导航等场景,显著提升管理效能。然而,该技术在实际应用中仍面临多重挑战。场景外观因素如光照强度变化、季节更替、视角变换等,会显著影响识别精度;大尺度地理空间下,重复性建筑结构、动态天气及昼夜光照差异,考验算法的泛化能力;此外,系统部署方面,高精度要求与实时响应需求形成效率瓶颈。攻克这些难题不仅能够推动图像视觉位置识别技术的进一步发展,还将为相关产业升级和社会智能化转型提供重要的技术保障,对计算机视觉学科发展和社会数字化进程具有深远的推动作用。
图1 图像视觉位置识别技术应用价值

Fig. 1 The application value of VPR technology

图像视觉位置识别任务通常利用图像检索技术:输入未知位置图像后,经预处理提取关键视觉特征,与数据库参考图像匹配后关联GPS信息确定位置。该技术主要包括二维图像检索技术、场景几何匹配方法及跨模态数据匹配方法。前者可进一步细分为地面视角检索(Ground-level Image Retrieval)和跨视角检索(Cross-view Image Retrieval)2类技术分支。在场景几何匹配领域,2D-3D特征对应关系构建存在2种典型方法:单目图像匹配采用运动恢复结构(Structure from Motion, SfM)技术实现,时序图像序列的连续定位依赖于同步定位与建图(Simultaneous Localization and Mapping, SLAM)算法框架。最新研究进展表明,通过构建多模态数据联合匹配机制可显著提升地标定位精度,采用数字高程模型(Digital Elevation Model, DEM)[19]、激光雷达点云(LiDAR Point Cloud)[20]、地理信息系统属性数据(Geographic Information SystemAttribute Data)[21]、地形图、自然语言[22]以及合成深度图等多源异构数据,建立跨模态特征空间映射关系。核心方法包括但不限于:基于轮廓特征的形态学匹配、融合GIS(Geographic Information System)语义的层次化检索,以及整合几何拓扑与纹理特征的多维特征联合优化方法。如图2所示。
图2 图像视觉位置识别技术分类方法

Fig. 2 Classification method of VPR technology

本文聚焦于街景图像视觉位置识别技术(SV-VPR),该技术作为图像视觉位置识别领域的重要分支,是二维图像检索技术中地面视角图像检索的核心内容,从图像视角上区别于跨视角检索。街景图像视觉位置识别技术主要可以分为以下3类:基于传统手工特征的位置识别技术、基于深度学习的位置识别技术、基于视觉语言模型(VLMs)的位置识别技术,如图2所示。
基于以上分类,梳理了图像视觉位置识别技术分类方法的发展时期如图3所示,各方法现有研究论文数量占比如图4所示。由此可以看出,街景图像视觉位置识别技术于2005年前后崭露头角,作为综合性技术,为后续相关研究奠定基石。从现有研究论文数量占比来看,街景图像位置识别技术论文占比最大,凸显了其在研究领域的核心地位。街景图像视觉位置识别技术优势在于解决复杂场景地理定位难题,具体应用于自动驾驶高精度定位、城市动态监测系统构建、灾害应急快速响应等关键场景。当前,得益于多模态融合与深度学习的技术突破,该领域研究热度持续攀升,论文数量呈显著增长趋势,已成为推动智能交通、安防监控等产业升级的核心技术方向。
图3 图像视觉位置识别技术发展时期

Fig. 3 The period of development of VPR

图4 VPR各方法现有研究论文数量占比

Fig. 4 The proportion of existing research papers on each method of VPR

本文对引用的相关街景图像视觉位置识别技术的文献按照年份进行统计如图5所示。街景图像视觉位置识别技术研究从2003年左右开始起步,2015—2024年呈现出波动性增长的趋势,并在2019年和2022年分别达到显著增长点;2024年至今论文数量保持着迅速的增长速度,显示出该领域的研究热度持续上升。
图5 街景图像视觉位置识别技术研究领域历年来发表论文数量

Fig. 5 The number of papers published in the research field of SV-VPR technology over the years

基于上述研究背景,街景图像视觉位置识别技术具有强大的发展潜力和广泛的研究意义。由此本文旨在对街景图像视觉位置识别技术的研究进行全面梳理与系统综述。本文首先针对图像视觉位置识别技术进行宏观系统性地介绍,并由此引出街景图像视觉位置识别技术;然后阐述了街景图像视觉位置识别技术的基础概念与分类体系,并重点分析该领域的关键技术;接着系统地总结了当前主流的街景图像视觉位置识别数据集,并详细探讨了街景图像视觉位置识别技术的评价指标体系;最后对全文进行总结,并基于当前研究现状对未来的发展方向进行了展望,为后续研究提供思路指引。

2 街景图像视觉位置识别技术研究进展

街景图像视觉位置识别技术旨在通过分析街景图像确定拍摄设备的地理位置,并实现与街景数据库的匹配,如图6所示。其核心任务是解决动态城市环境下的鲁棒性、实时性和高精度定位需求,在自动驾驶、基于位置的服务(Location Based Service,LBS)和智慧城市领域具有关键作用。
图6 街景图像视觉位置识别技术示意图

Fig. 6 Schematic diagram of SV-VPR

本文利用CiteSpace软件对街景图像视觉位置识别技术文献的演化趋势进行分析,获得了街景图像视觉位置识别技术关键词时区图,如图7所示。对3类方法而言,大量的研究集中在深度学习方法的范畴内,同时基于视觉语言模型(VLMs)的视觉位置识别也作为近几年的新兴方法有着巨大的发展潜力,如图8所示。
图7 街景图像视觉位置识别技术关键词时区图

Fig. 7 SV-VPR technology keywords temporal-spatial map

图8 街景图像视觉位置识别技术不同研究阶段各方法研究趋势

Fig. 8 The research trends of different methods in the various stages of SV-VPR technology

基于上述分类,分别介绍3种街景图像视觉位置识别技术。
基于传统手工特征的位置识别技术的研究主要出现在早期街景图像位置识别研究阶段。这类方法的核心思想是提取街景影像中具有代表性的局部特征,例如尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)[23]、加速鲁棒特征(Speeded Up Robust Features, SURF)[24]或方向梯度直方图(Histogram of Oriented Gradients, HOG)[25],这些特征随后被量化为视觉词汇,并构建图像的词频直方图,作为街景影像的全局表示。
近年来,基于深度学习的位置识别技术的快速发展为街景图像视觉位置识别带来了显著的性能提升。卷积神经网络(CNNs)能够自动学习街景影像的层次化特征表示,无需人工设计特征。常用的CNN架构包括AlexNet[26]、VGGNet[27]、ResNet[28]、GoogleNet[29]等,这些网络通常在大规模图像数据集上进行预训练,然后通过微调(fine-tuning)适应特定的街景图像视觉位置识别任务,像NetVLAD[30]、 SuperPoint[31]等模型可以实现全局特征嵌入与局部特征优化,并进一步向端到端定位演进。为了更好地处理街景影像的视角变化和遮挡问题,研究者们也提出了基于注意力机制的CNN模型,例如SENet[32]、CBAM[33]。此外,一些研究还利用循环神经网络(Recurrent Neural Networks, RNNs)来建模街景影像序列的时序信息,以提高位置识别的准确性。
同时,视觉语言模型(VLMs)为位置识别带来新突破。这类模型通过联合编码图像与文本信息,实现更深层次的语义理解。在街景图像视觉位置识别中,VLMs可以利用街景影像中的视觉信息和相关的文本描述进行推理,从而提高位置识别的准确性、鲁棒性,比如CLIP[34]、ALIGN[35]等模型可以通过对比学习将跨模态数据映射到统一特征空间。一些研究还利用VLMs生成街景影像的文本描述,然后分析处理文本信息进而进行位置识别。

2.1 街景图像视觉位置识别技术路线

本节主要针对街景图像视觉位置识别任务流程进行梳理总结,现阶段的方法以基于深度学习的位置识别技术为主,并以此类方法为例,梳理流程如图9所示。
图9 基于深度学习的街景图像视觉位置识别技术基本流程

Fig. 9 Process of SV-VPR based on deep learning

技术路线如下: ① 数据准备阶段构建图像数据库并进行预处理(尺寸调整与数据增强),同时提取查询样本集; ② 特征提取阶段采用骨干网络获取深度特征,通过特征聚合增强表征能力; ③ 检索阶段结合最近邻搜索与预测优化(邻近裁剪/多数投票)实现精准匹配; ④ 后处理阶段通过排序过滤提升结果可靠性。整个流程通过多个分支展示了不同的图像检索方法或数据处理方式,体现了VPR技术在复杂场景下的灵活性和高效性。图10图9形成呼应:图9呈现街景VPR从数据输入到结果输出的纵向流程,图10则横向拆解各流程节点的技术选型与研究方向,共同构建“端到端流程 + 模块化研究”的完整技术视图,辅助读者理解街景图像视觉位置识别技术的体系化研究逻辑。
图10 街景图像视觉位置识别算法研究概况

Fig. 10 Flowchart of SV-VPR algorithm

2.2 街景图像视觉位置识别技术分类

按照技术方法,可将街景图像视觉位置识别技术研究分可为3类,如表2所示。
表2 街景图像视觉位置识别方法分类及特点对比

Tab. 2 Classification and feature comparison of SV-VPR

分类 内容 特点
传统手工特征方法 局部特征
全局特征
角点、边缘或特定的图像块
一个或多个向量描述整体特征
深度学习方法 卷积神经网络
Vision Transformer
通过卷积核提取特征信息
通过自注意力机制获取图像全局特征信息
视觉语言模型方法 Vision-Language Models, VLMs 利用视觉信息和相关的文本描述进行联合推理
其他 分类方法
语义分割方法
将地理空间划分为多个离散的区域或类别
将视觉词收集到描述符中的鲁棒机制

2.2.1 基于传统方法的位置识别技术研究现状

基于手工特征的图像视觉位置识别技术通常包含3个步骤:特征提取、特征表达与相似度量。手工提取特征可分为局部特征和全局特征两类:局部特征聚焦图像显著性区域(如角点、边缘等关键点),通过空间细节表征物体结构;全局特征基于颜色分布、纹理模式等统计信息,对图像进行整体表征。二者通过特征融合可实现协同互补,显著提升图像识别与检索性能。局部手工特征包括SIFT[23] (Scale Invariant Feature Transform)、SURF[24](Speeded Up Robust Features)、HOG[25](Histogram of Oriented Gradient)、ORB[36](Oriented Fast and Rotated Brief)等。SIFT算法生成数量众多且富含信息的特征描述子,这些描述子对于光照、旋转和尺度变化均表现出一定的不变性。在SIFT算法的基础上,Bay H等人提出了SURF算法,通过优化特征提取和描述子显著提高了检测速度。针对图像光照变化、季节更替等情况,将局部特征聚类成“视觉词汇”,进而生成图像全局描述符,如局部聚合描述符向量(Vector of Locally Aggregated Descriptors, VLAD)、词袋(Bag of Words, BoW)、Fisher向量(Fisher Vector, FV)。同时,LIFT[37]、、SuperPoint[31]和D2-net[38]等其余有代表性的新研究的局部特征方法也引起了关注。
全局特征如HOG、Gist(Global Image Feature based on Spatial Pyramid Matching)[39]等,通常通过一个向量来全面描述整幅图像的特征。Murillo和Kosecka[40]在全景图像上使用了Gist进行VPR;Sünderhauf和Protzel[41]将Gist与BRIEF[42]相结合,以执行大规模的视觉SLAM;Seq-SLAM[43]对原始RGB图像序列进行操作,以全局方式使用归一化像素强度匹配。

2.2.2 基于深度学习的位置识别技术研究现状

传统方法的性能受制于手工特征质量,而深度学习方法通过提升特征表示质量,能提取更具判别力的图像特征。早期VPR主要采用卷积神经网络(CNN),后来Vision Transformers(ViT)[44]逐渐兴起,二者构成当前深度学习的主流架构。
(1)基于CNN的VPR。Arandjelovic等[30]介绍了NetVLAD(Network-based Vector of Locally Aggregated Descriptors),这是VLAD的一种可训练版本,与CNN结合性能优越。后续研究包括:Kim等[3]引入了上下文重新加权网络(Contextual Reweighting Network,CRN),通过特征加权优化输入;此外,还提出了SPE-VLAD[45],通过合并金字塔结构来增强具有空间和区域特征的NetVLAD;最近,Zhang等[46]提出了Patch-NetVLAD,使用门控机制,将注意力纳入NetVLAD残差的计算中;其他技术如广义平均值(Generalized Mean, GeM)[47],这是一种可学习的全局池化形式;在GeM的基础上,Berton等[4]提出了CosPlace,将GeM与线性投影层相结合。
(2)基于Transformer的VPR。Transformer架构最初是为自然语言处理而引入的,后来被改编为用于计算机视觉应用的视觉转换器(ViT)。VPR主要有2种流行的Transformer架构:Vision Transformer(ViT)通过将图像分割成平坦的2D补丁序列来处理图像;紧凑卷积Transformer(CCT)[48],它包含卷积层以插入CNN的电感偏置。Noh等[49]介绍了一种图像局部特征描述符DELF和语义局部特征,这些特征通过注意力机制在关键点选择中发挥作用。杨晓云[50]通过空间注意力机制识别图像兴趣区域,结合高低层卷积特征减轻冗余,并采用VLAD方法构建全局特征向量。Wang等[51]引入了混合CNN-Transformer特征提取网络,基于CNN的特征金字塔来获得详细的视觉理解,同时使用视觉Transformer对图像上下文信息进行建模并动态聚合与任务相关的特征。此外, AnyLoc[52]使用了DINOv2的基础模型中提取的特征,并结合了VLAD等无监督聚合方法,从而在广泛的基准测试中获得了显著的性能。

2.2.3 基于视觉语言模型的位置识别技术研究现状

在街景视觉位置识别中,视觉语言模型(VLMs)通过联合建模图像内容与文本语义(如地标名称、街道地址),显著提升定位的准确性和鲁棒性。典型模型如CLIP[34]和ALIGN[35],通过跨模态对比学习实现图文特征对齐[53],支持基于语义的检索匹配;而检索增强生成(Retrieval-Augmented Generation, RAG)技术则通过集成外部知识库,增强模型对复杂场景的推理能力。然而,该方法仍面临两大挑战:细粒度地理语义标注数据稀缺和知识源覆盖度有限导致的推理偏差。
与传统方法不同,基于VLMs的定位技术将地理推理分解为3个关键阶段(图11)。
图11 基于VLMs的街景图像位置识别技术流程

Fig. 11 SV-VPR process based on VLMs

(1)高可定位性数据构建:基于视觉-文本关联性筛选街景图像,建立具有强地理标识的数据集。
(2)跨模态模型微调:在筛选数据集上优化VLM的视觉-地理语义关联能力。
(3)结构化推理定位:将待定位图像与地理推理问题(含空间关系约束)输入模型,输出包含地理位置及推理链的解析结果。
Waheed等[54]系统性研究了黑盒视觉语言模型(VLMs)在机器人图像地理定位任务中的应用潜力, NAVIG[55]提出了用于图像地理定位的NAVIG框架及高质量数据集NAVICLUES,但该方法存在数据集规模有限、模型和工具集受限等问题,尽管VLMs在粗尺度上(区域或国家级预测)可以进行很好的定位,但是也体现出其在细尺度上定位的局限性。Matsuzaki等[56]借助视觉语言模型CLIP,给地标添加自然语言标签并基于概念相似性提取对应关系,提出多模态地标关联方法用于基于对象地图的全局定位,提升了定位精度与效率。Chen等[57]构建FLORA框架,利用形式语言模型规范大语言模型输出,结合概率推理框架完成零样本对象指称分析,在多个数据集上实现零样本性能的领先,且无需额外训练。
基于VLMs的图像位置识别技术通过融合视觉与语言模态的跨模态理解能力,在医疗、机器人、交通、增强现实(AR)及图像检索等领域展现出显著的跨领域应用价值。在医疗领域,VPR技术通过精准定位医学图像中的异常区域提升诊断可靠性。机器人领域中,VPR技术使机器人能基于自然语言指令实时解析环境并定位目标物体,增强其在复杂场景下的交互与任务执行能力,推动服务机器人家庭化与物流自动化。交通领域中,通过相关技术可以实现对交通风险物体的语义定位与场景理解,助力自动驾驶系统预判潜在危险并优化决策。AR领域则利用VPR技术将虚拟信息与真实场景精准叠加,通过多模态数据融合提升用户交互的沉浸感与实用性。此外,在图像检索与标注领域,VPR技术能根据文本描述快速定位图像库中的目标内容,并自动生成细粒度标注信息。

2.2.4 其他技术方法

除此之外,一种创新解决思路是将视觉位置识别转化为分类任务[58]进行处理; Garg等还实验了基于语义分割的VPR [59-60];对于包含重复结构的图像,Torii等[61]提出了一种将视觉词收集到描述符中的鲁棒机制;袁一等[62]将三维重建与图像检索技术结合; Waheed等[63]提出基于概率互补的切换图像视觉位置识别系统SwitchHit,能依据查询图像正确匹配概率动态切换补充技术。

3 街景图像视觉位置识别关键技术研究

街景图像视觉位置识别技术实现如图12所示,在图9技术流程图的基础上进一步模块化分析,主要流程包括输入图像、特征提取、特征表达、相似性度量、图像两两之间的相似度检索,本节所述技术均适用于2.2.1节、2.2.2节和2.2.3节所述方法。起始预处理用数据增强策略,经旋转、缩放等几何变换及加噪声操作,扩充输入图像集合。特征提取靠骨干网络从图像提取关键信息,其质量影响系统性能。特征表达整合优化局部特征,形成全局特征,为相似性度量提供有效输入。在相似性度量阶段,损失函数和负例挖掘技术发挥着关键的优化作用。损失函数量化预测与真实结果差异,反向传播优化模型参数;负例挖掘筛选易误判负样本,加大其训练权重,增强模型区分和泛化能力,防止过拟合。在计算图像两两之间相似度进行图像检索时,高效最近邻搜索算法依特征表达和相似性准则,在大数据集快速找近邻图像。投票方案综合多匹配结果,按规则整合确定图像位置,分单、双阶段检索。
图12 街景图像视觉位置识别算法流程

Fig. 12 Flowchart of SV-VPR algorithm

3.1 数据增强策略

在VPR任务中,数据增强方法通过模拟真实场景的多样性和复杂性提升模型鲁棒性,具体可分为以下3类。
(1)基础图像增强:包括亮度、对比度、饱和度和色调调整,随机透视、水平翻转、旋转及随机裁剪(如裁剪至图像大小的50%后恢复分辨率)。其中,颜色抖动(亮度、对比度、饱和度调整)在跨域数据集(如MSLS、Tokyo 24/7)上显著提升召回率(R@1提升3%~5%),但对同源数据集(如Pittsburgh30k)可能因训练测试的同质性导致性能下降。
(2) 结构化增强:多视角聚类通过聚类同一地点的不同视角图像构建训练类,增强视角不变性;单应性自适应结合随机高斯噪声、运动模糊、直方图均衡化等模拟动态环境干扰,并通过中心裁剪(900像素×900像素→720像素×720像素)和随机缩放 (γ≤1)保留关键特征。
(3) 域驱动增强(Domain - Driven Design Augmentation, DDDA):合成增强像泊松噪声添加、图像变暗、下采样-上采样等,可结合HOPS融合描述符提升跨域泛化性;调整分辨率,降低分辨率 至40%(如192像素×256像素)可缓解域差距(如 St Lucia数据集),像NetVLAD在低分辨率下表现优于GeM,而60%分辨率是精度与效率的平衡点。
数据增强的有效性高度依赖任务场景——颜色抖动和低分辨率策略适用于跨域检索,而翻转和裁剪是通用增强手段。数据增强在VPR中需平衡领域适应性与计算效率,针对任务特点选择增强组合。

3.2 特征提取

特征提取是VPR流程中构建鲁棒场景表征的核心环节,其中骨干网络是特征提取的核心,直接影响全局与局部特征的表达能力,主要聚焦于卷积神经网络(CNN)和视觉注意力机制(Vision Transformer,ViT)。常用的骨干网络梳理如表3所示。
表3 街景图像视觉位置识别技术骨干网络

Tab. 3 Backbone network of SV-VPR

骨干网络 结构特点 核心优势 典型应用场景 改进方法 参考文献
ResNet 残差模块堆叠(残差连接+卷积层) 解决梯度消失问题,支持超深层网络训练 全局特征模块(EigenPlaces)、局部-全局特征融合(DOLG)、跨区域泛化(AdAGeo) 地理注意力模块、双分支门控机制、PCA降维 [7]、[64-66]
VGG 深度堆叠(16-19层)的3×3卷积与2×2池化 深度特征提取能力强,结构简单易扩展 NetVLAD系列描述符生成、区域特征池化(R-MAC)、自监督鲁棒性优化(CRN/SFRS) 多分辨率特征融合、对比学习策略、域自适应训练 [3]、[9]、[30]、[67-73]
AlexNet 5卷积层+3全连接层,ReLU与局部响应归一化 浅层特征保留丰富空间细节,适合轻量化部署 动态池化(GeM)、空间注意力迦百农(APANet)、序列特征融合(LSTS-VPR) 多尺度权重分配、LSTM时序建模、金字塔注意力机制 [8]、[47]、[75]
DINOv2 基于ViT架构,自监督预训练 无需微调即可迁移,具有强大场景泛化
能力
最优传输聚合(SALAD)、语义片段检索(SegVLAD)、遮挡鲁棒性定位 最优传输特征匹配、语义分割引导检索、多模态特征对齐 [74]、[76]
GoogLeNet Inception模块(并行多尺度卷积) 多尺度特征联合计算,提升计算效率 大规模场景识别(Places数据集)、动态注意力调整(CFAM) 上下文灵活注意力机制、跨层特征交互、轻量化Inception变体 [36]、[77-78]
图神经网络 GCN/GAT/GAE等图结构建模 拓扑关系建模能力强,支持多模态数据整合 空间金字塔注意力(GSAP)、层次化点云匹配(HiBi-GCN)、多模态融合(iB-GAT) 层次图聚类、双向图卷积、跨模态注意力门控 [79]、[80-81]
全卷积网络 全卷积层架构(无全连接层) 支持任意尺寸输入,完整保留空间信息 结构化特征提取(Superpoint)、建筑立面分块建模(多尺度SPP) 多尺度并行卷积、双输出热图-描述子联合训练、空间金字塔池化 [82-83]
MobileNetV2 倒置残差结构(深度可分离卷积+线性瓶颈层) 计算量减少75%,
适合移动端部署
低光环境定位(LSDNet)、边缘设备实时定位(动态NAS) 光照补偿模块、低位宽量化、多分支注意力
剪枝
[84-85]
基于所搜集的论文,将各个骨干网络的应用情况进行梳理,如图13所示。由此可见,主流骨干网络如ResNet和VGG的应用广泛,成为热门之选。相比之下,新兴及小众网络如DINOv2、GNN等应用较少,相关研究与应用尚待进一步拓展。
图13 街景图像视觉位置识别技术骨干网络应用情况

Fig. 13 Backbone network applications of SV-VPR

综上所述,各类神经网络与算法在实际应用中展现出鲜明的优缺点。ResNet网络在全局特征建模与优化、局部特征增强与融合等方面表现优秀,但随着网络加深,计算资源消耗与过拟合风险也随之攀升。VGG网络常被NetVLAD系列等方法用于图像全局特征提取,不过其结构导致计算资源需求较大。AlexNet作为经典CNN,在特征提取上有重要意义,然而其也面临参数多易过拟合的困扰。DINOv2基于自监督学习与Vision Transformer架构,无需下游任务微调即可应用于多种视觉任务,在视觉位置识别等方面表现出色,但是模型训练对计算资源和大规模无标签数据要求高。GoogLeNet引入Inception模块,在提高网络表达与计算效率上成效显著,用于场景识别等任务时效果良好,可模块设计复杂、计算复杂度过高也限制了其性能。图神经网络(GNN)通过节点与边信息传递捕捉全局上下文,提升视觉位置识别精度与鲁棒性,但图数据处理复杂,计算和内存需求随图规模增大。全卷积网络(FCN)能处理任意尺寸图像,提取多尺度特征助力理解图像内容,不过处理高分辨率图像时,计算量与内存消耗大。MobileNetV2以深度可分离卷积构建轻量化架构,在低光环境VPR等场景下能快速提取特征,但比大型卷积神经网络其特征提取能力稍弱。

3.3 特征表达

视觉位置识别(VPR)的核心任务是将图像转换为紧凑且具有区分度的特征表达。特征表达作为计算机视觉的基础环节,需兼顾关键视觉内容保留与视角、光照、遮挡等干扰的鲁棒性。其分类可按抽象层次分为低层(边缘、纹理)、中层(局部结构)、高层(语义对象)特征,按建模方式分为手工设计特征(如SIFT、HOG)和深度学习特征(如CNN激活图)。
特征聚合作为特征表达的核心技术之一,通过统计底层特征的空间分布进行构建全局描述向量。经典方法像基于词袋模型(BoW)的词频统计方法,通过K-means聚类构建视觉词典,统计局部特征(如SIFT)在各视觉词上的出现频率,形成直方图式全局描述符。VLAD计算局部特征与聚类中心的残差向量,在保留空间分布的同时降低维度,其改进型FV通过高斯混合模型将聚合转化为概率密度梯度计算。随着深度学习发展,NetVLAD[30]首次将VLAD残差计算过程转换为可微分形式,实现端到端训练优化聚类中心。同时,基于注意力机制的方法(如GeM池化)通过动态权重强化关键区域,其可调指数参数相比传统池化能提升匹配精度,成为当前主流。以下是街景图像视觉位置识别技术中主要特征聚合方法的分类与总结。

3.3.1 基于池化(Pooling)的聚合方法

广义平均池化(GeM),通过可调指数参数驱动非线性聚合函数,强化特征图关键区域响应强度。该技术已被EigenPlaces[7]、CosPlace[4]、DELG(全局特征)[86]、SegVLAD [76]、SOLAR[87]等代表性方法采用,并衍生出多尺度改进方案: ms-GeM[88]结合多尺度注意力图加权,增强多尺度信息; JIST[6]沿时间轴对视频帧嵌入应用GeM池化。对比传统池化方法,D&C(平均池化)[89]采用区域划分结合均值池化实现全局特征保持; R-MAC(多尺度区域最大池化)[51]在多个尺度下划分区域,有助于捕捉不同尺度下的显著特征。

3.3.2 基于VLAD的聚合方法

其核心思想是通过软分配策略优化VLAD,动态分配局部特征到聚类中心,提升端到端学习能力。NetVLAD[30]系列(含Patch-NetVLAD[67]、MultiRes-NetVLAD[69])构建了端到端优化的基础框架,EchoVPR[90]进一步拓展其时序建模能力。其技术演进呈现多维创新:多尺度扩展(SPE-VLAD[45]集成图像金字塔增强特征层次表达),语义增强(SegVLAD[76]基于超像素级特征聚合融合分割先验, SSR-VLAD[91]结合骨架关键点编码空间拓扑约束),以及传统特征融合(HMM[92]整合SIFT特征进行降维优化)。

3.3.3 基于注意力机制的动态聚合

在上下文自适应权重方法中,基于动态特征权重调节的模型通过整合多模态注意力机制增强抗干扰能力。典型工作包括: CRN[3]联合建模空间与通道注意力, APPSVR[93]构建三重注意力强化多尺度特征交互,以及APANet[8]通过空间金字塔结构集成多级注意力。这些方法通过自适应权重分配有效抑制了遮挡和背景噪声干扰。在多头注意力机制方向, BoQ[3]利用多头结构融合跨通道信息并优化特征交互效率,而ETR[94]则结合自注意力和交叉注意力构建端到端匹配框架。实验表明,动态权重分配与多模态注意力融合策略能显著提升模型对复杂场景的适应性,为解决特征冗余和语义歧义问题提供了创新思路。

3.3.4 多尺度与多分支特征融合

多尺度与多分支特征融合是提升视觉模型鲁棒性的关键技术,其通过整合不同层次、维度的特征信息增强场景表征能力。在多尺度特征提取方面, DenserNet[95]采用三分支结构分别提取浅层、中层和深层特征,有效融合局部细节与全局语义;DOLG-EfficientNet[96]则通过多空洞卷积捕捉不同感受野的局部特征,再与全局特征进行正交拼接,实现多层次特征的互补增强。在时序与空间融合方向, JIST[6]提出沿时间轴应用GeM池化,动态聚合视频序列的帧间特征,强化时间维度的上下文关联。这类方法通过多尺度金字塔、分支网络设计及时空联合建模,显著提升了模型对尺度变化、动态场景的适应能力。

3.3.5 局部-全局特征联合优化

局部-全局特征联合优化通过协同建模图像的细节特征与场景上下文信息,有效提升了视觉模型在复杂环境下的鲁棒性。DELG[86] (Deep Local Global)方法通过GeM池化生成全局特征并进行白化处理,结合自动编码器优化局部-全局特征的相关性,实现了语义信息与空间细节的深度融合。FUSELOC[97]提出加权平均策略,根据特征置信度动态融合全局描述符与局部特征,在保持场景整体结构的同时增强局部细节表达。DOLG[65]通过正交分解将局部特征投影到与全局特征互补的子空间,再通过特征拼接生成混合描述符,既保留了局部特征的空间定位能力,又增强了全局特征的语义概括性。

3.3.6 图结构与语义驱动方法

图结构与语义驱动方法通过融合关系建模与语义理解,有效挖掘深度视觉特征关联。典型方法包括:SSR-VLAD[91]首创基于语义分割的图构建策略,通过区域划分实现语义级物体分布建模; Forest[98]则专注于编码语义对象及其邻域拓扑关系,在复杂场景理解中展现出独特优势。这些方法验证了图网络在语义关联建模中的关键作用,为提升视觉特征解析精度提供了新范式。
综上,在实际应用中,基于池化的方法计算简单,但可能丢失细节。基于VLAD的方法提升端到端学习能力,却带来较高计算复杂度。基于注意力机制的动态聚合能有效抑制无关区域干扰,但计算量较大。多尺度与多分支特征融合增强场景表征,却增加模型复杂性。局部-全局特征联合优化提升复杂环境鲁棒性,设计实现却较复杂。图结构与语义驱动方法对复杂关系建模能力强,却依赖准确语义分割且模型复杂。

3.4 相似性度量

在街景图像视觉位置识别体系中,相似性度量是判定图像间关联程度的核心环节,其精准度对最终位置识别结果起着决定性作用。通过损失函数与负例挖掘的协同运作,相似性度量能够更为精准地评估街景图像间的相似程度。

3.4.1 损失函数

在VPR任务中,损失函数的设计围绕地理空间特性、特征判别性和多任务学习。为提高特征区分度,有多种损失函数发挥作用。三元组排序损失和对比损失通过拉近正样本、推远负样本优化嵌入空间;大间隔分类损失则在角度或余弦空间中增大类间间隔,提升跨场景泛化性。面对复杂任务需求,复合损失函数融合一阶、二阶相似性约束或结合知识蒸馏(特征对齐、拓扑关系迁移),平衡多目标优化;多任务损失则联合地理定位、语义分割等任务的监督信号,增强模型对多模态信息的利用。此外,弱监督损失(如WT-loss)通过动态调整权重缓解标注噪声问题,对抗损失和域适应损失则针对跨域场景对齐特征分布。VPR中几种常见的损失函数如表4所示,由表可以看出三元组损失、多相似性损失、均方误差、交叉熵损失在VPR领域已经成为主流的损失函数选择。
表4 街景图像视觉位置识别常用损失函数

Tab. 4 Commonly used loss functions of SV-VPR

损失函数 设计目标 方法或公式 公式说明 公式编号 应用
三元组损失(Triplet Loss) 增强特征区分性,拉近正样本对距离,推远负样本对距离 L = m a x ( d ( a , p ) - d ( a , n ) + m a r g i n , 0 ) a为锚点; p为正样本; n为负样本 (1) FedVPR[99]、GPM[100]、JIST[6]、SOLAR[87]、Patch-NetVLAD+[68]、MultiRes-NetVLAD[69]
对抗损失 对齐源域与目标域特征分布,缓解环境差异 域判别网络使用二分类交叉熵损失: L a d v = - E [ l o g D ( G ( x ) ) ] G为特征提取网络; D为判别网络 (2) 基于难例挖掘和域自适应的视觉位置识别[71]
多相似性损失 动态调整正、负样本对权重,优化相似性度量 结合样本对的相似性权重:
L = i 1 α l o g ( 1 + e - α ( S i p - λ ) ) + 1 β l o g ( 1 + e β ( S i n - λ ) )
αβ为正负样本的对损失计算的“温度系数”; Sip为正样本对的相似性得分; Sin为负样本对的相似性得分; λ为阈值偏移量 (3) DINOv2-SALAD[74]、MixVPR[54]、BoQ[3]、Conv-AP[1]
ArcFace
损失
在余弦空间中引入余量,增强特征区分性 L = - l o g e s ( c o s ( θ y + m ) ) e s ( c o s ( θ y + m ) ) + j y e s c o s θ j s为缩放因子; θy样本特征与真实类别y对应的中心向量之间的夹角; m为角度余量; cos θi样本特征与类别j对应的中心向量之间的余弦相似度 (4) DELG[86]、Divide&Classify(D&C)[89]、DOLG[65]
InfoNCE
损失
增强跨模态对比学习的鲁棒性 L = - l o g e f ( x ) T f ( y ) / τ j e f ( x ) T f ( y j ) / τ τ为温度系数 f(x)和f(y)分别为样本xy的特征表示; τ为温度系数 (5) 结合分类与检索的全球尺度图像定位[101]
负对数似然损失(NLL loss) 优化全局描述符的分类概率分布 将全局描述符输入MLP生成类别概率,通过Log Softmax计算对数概率,最小化负对数似然 GSAP[79]
多任务联合损失 同时优化定位与辅助任务(如语义分割) 加权和: L t o t a l = λ 1 L + λ 2 L ·
(如交叉熵损失)
λ1λ2控制不同任务对总损失的贡献度 (6) LSDNet[84]
均方误差(MSE) 回归任务中最小化预测值与真实值的平方差异 L = 1 n i = 1 n ( y i - y ^ i ) 2 n为样本数量; yi为真实值;
y ^ i为预测值
(7) MeshVPR[5]、SOLAR、JIST、AddressCLIP[102]
交叉熵损失(Cross-Entropy) 分类任务中优化概率分布匹配 L = - i = 1 n y i l o g ( y ^ i ) n为样本数量; yi为真实标签; y ^ i为预测概率 (8) Superpoint[31]、Places-CNN[77]、DELF[49]、GATs[103] 、FPN[104]、SFRS[9]、ETR[45]、EchoVPR[90]、GFS [105]
综上,不同损失函数各有优劣。三元组损失通过拉近正样本、推远负样本增强特征区分性,但对样本选取要求高,易陷入局部最优。对抗损失能对齐域特征分布、缓解环境差异,不过训练过程复杂,需注意平衡生成器与判别器。多相似性损失可动态调整样本权重,优化相似性度量,但计算量较大。ArcFace损失在余弦空间增强特征区分性,适用于人脸识别等对角度敏感任务,却对超参数敏感。InfoNCE损失增强跨模态对比学习鲁棒性,依赖合适温度系数,否则影响效果。负对数似然损失优化全局描述符分类概率分布,简单直接,却难以处理复杂数据分布。多任务联合损失同时优化多任务,提高模型对多模态信息利用,任务间可能存在冲突。均方误差在回归任务简单有效,对异常值敏感。交叉熵损失在分类任务广泛应用,但处理不均衡数据时表现欠佳。

3.4.2 负例挖掘

在VPR任务中,负例挖掘技术通过多维度策略提升模型判别能力,主要有: ① 基于数据分布的动态采样; ② 地理信息约束; ③ 特征空间优化。具体方法梳理如表5所示。
表5 街景图像视觉位置识别算法负例挖掘方法

Tab. 5 Negative example mining method of SV-VPR algorithm

方法分类 负例挖掘 核心描述
基于数据分布的
负例挖掘策略
全局与局部空间采样 1. 完整数据库挖掘:利用数据集全部负样本,适用于小规模数据集(PlaceNet[106]基于GPS坐标 阈值划分正负样本);
2. 数据库挖掘:随机采样部分负例池(如ETR[45]),或动态更新负样本池(SFRS[9]
困难样本挖掘机制 1.在线困难挖掘:在训练过程中实时筛选高损失样本(SARE),或基于特征空间最近邻动态构 建三元组(难例挖掘算法);
2. 离线困难挖掘:利用代理描述符缓存历史难例(如GPM[100]通过k-NN索引聚集相似负例), 或结合密集匹配筛选低匹配度样本(Patch-NetVLAD+通过RANSAC过滤候选)
基于地理信息的
负例生成方法
地理坐标约束 1. 采用GPS距离阈值划分正负例(SPE-NetVLAD以25 m为负例边界,PlaceNet以10 m为阈值);
2. 基于地球分区构建负例(如将不同地理单元格图像视为负例)
地理语义关联 1. 通过场景类别标签排除同类别样本;
2. 利用地理语义聚类(GPM代理描述符)
基于特征空间的
负例优化方法
特征相似度度量 1. 使用欧氏距离或余弦距离筛选难例(SARE通过特征嵌入空间最近邻选取负例);
2. 结合视觉单词匹配与3D点对应关系(直接匹配方法建立特征-3D点关联)
多模态特征融合 1. 联合地理与视觉特征(SPE-NetVLAD融合GPS与特征距离);
2. 构建多任务学习框架(SARE)
综上,负例挖掘技术借多维度策略提升模型判别力。在基于数据分布的负例挖掘中,全局与局部空间采样涵盖完整数据库挖掘和部分负例池采样,困难样本挖掘机制含在线和离线方式,能利用多样样本提升模型,但存在计算复杂、受样本分布影响等问题;在基于地理信息的负例生成方法中,依靠GPS距离阈值、地球分区或场景标签聚类构建负例,可增强模型鲁棒性,却受制于地理数据准确性和时效性;在基于特征空间的负例优化中,通过特征相似度度量筛选负例,或融合地理与视觉等多模态特征,从特征层面改进负例,但面临提取与融合难度大、计算开销高的挑战。研究表明,动态采样与地理-特征多模态融合是提升VPR鲁棒性的核心方向,GPS、视觉特征和地理分区的联合使用成为主流。

3.5 图像两两之间相似度检索

3.5.1 高效最近邻搜索算法

在VPR任务中,近邻搜索方法根据效率与场景需求分类。传统精确方法通过全量距离计算保证精度,适用于小规模或低维数据验证。面对大规模高维数据,量化压缩方法通过分段量化、倒排索引和二进制编码大幅降低存储与计算复杂度。树结构方法通过层次化空间划分优化搜索路径适用于中小规模动态数据或几何验证加速。图方法利用多层导航结构实现高召回实时检索,兼顾动态更新能力。混合策略通过多级索引或距离计算简化提升效率,适配硬件受限场景。工具层面,Faiss集成多种索引(IVF、HNSW、PQ)支持GPU加速,GSAP通过直接欧氏距离评估模型性能,具体见表6
表6 街景图像视觉位置识别技术最近邻搜索算法

Tab. 6 Nearest neighbor search agorithm of SV-VPR

方法分类 方法 原理与特点 适用场景
传统精确搜索方法 穷举kNN 遍历所有特征点计算距离(如欧氏距离),确保全局最优解,但计算复杂度高 小规模数据集验证基准
穷尽式欧氏搜索 直接计算查询特征与数据库特征间的欧氏距离,无需索引构建(如GeM未微调CNN的特征匹配) 低维度或小规模检索任务
基于量化与压缩的近似方法 乘积量化(PQ) 将高维向量分段量化,通过码本压缩表示,减少存储和计算量 大规模高维数据,内存受限场景
IVFPQ(Inverted File with Product Quantization) 倒排索引(IVF)聚类缩小搜索范围+PQ量化降低计算复杂度,平衡精度与效率 亿级规模图像检索
(如Faiss库实现)
基于树结构的搜索方法 KD树 递归划分空间维度构建二叉树,适合低维数据精确搜索(DELF结合KD树加速局部特征匹配) 中小规模结构化数据
(如2D特征验证)
k-means树 层次化聚类构建树,优先搜索最近聚类分支(HMM采用此方法优化搜索路径) 中高维动态数据集
随机KD树森林(AKM) 并行构建多棵随机KD树,通过投票机制选择最优分支,提升搜索鲁棒性(用于AKM聚类加速) 高维数据近似分配
基于图的近似搜索方法 HNSW(Hierarchical Navigable Small World) 分层可导航小世界图,利用多层图结构快速导航至最近邻,支持动态插入和高召回率 高维数据实时检索
混合方法与优化策略 倒排多索引(MultiIndex) 多级倒排索引结构,通过多维度分块提升检索速度 超大规模分布式检索
内积转欧氏搜索 通过数学变换将最小内积搜索转化为欧氏距离搜索 内积相似性优化场景
曼哈顿距离优化(ODNPSM) 采用曼哈顿距离(L1范数)替代欧氏距离,简化计算 硬件资源受限的嵌入式系统
综上,不同最近邻搜索算法适用场景各异。传统精确搜索方法(如穷举kNN)精度高、实现简单,但计算开销大,适用于低维或小规模数据。基于量化与压缩的方法(如PQ、IVFPQ)通过向量量化和倒排索引提升效率,适用于大规模高维数据和内存受限场景,但存在信息损失。基于树结构的方法(如KD树、AKM)能优化搜索路径、支持动态更新,KD 树在低维高效,AKM适用于高维近似分配,但高维下树结构易退化。基于图的HNSW可高召回实时检索、支持动态插入,适用于高维数据实时检索场景,但图构建与维护复杂、内存占用大。混合方法(如多级倒排索引、ODNPSM)适配特定需求,适用于超大规模分布式检索和硬件资源受限的嵌入式系统,但实现复杂且部分依赖特定假设。
综合对比来看,精度方面,传统方法 > HNSW ≈ IVFPQ > 树结构 > 其他近似方法;效率上,量化方法 > 图方法 > 树结构 > 传统方法;动态性上,HNSW与树结构支持动态更新,量化方法需重新训练码本;硬件适配方面,曼哈顿距离优化适合嵌入式设备, Faiss支持GPU加速提升大规模检索效率。实际应用时,亿级数据检索首选IVFPQ,实时高召回场景采用HNSW,嵌入式系统可选用 ODNPSM,而Faiss集成多种算法,为不同需求提供灵活支持。

3.5.2 投票方案

视觉位置识别(VPR)中的投票方案通过多模态特征融合显著提升匹配精度,其技术演进可分为 3大方向: ① 传统投票机制中,简单多数投票实现高效低噪匹配,加权投票结合置信度分配增强动态环境适应性,聚类投票[107]通过群体智能算法优化候选位置筛选; ② 前沿方法整合多模态数据,融合投票通过时空特征对齐提升抗光照变化能力,深度学习投票[108]基于Transformer实现端到端策略优化; ③ 高效检索方案采用倒排索引[109]架构,通过视觉词汇映射实现快速特征匹配。如表7所示,不同方法在计算效率、环境鲁棒性等方面形成互补优势。
表7 街景图像视觉位置识别技术投票方案

Tab. 7 Voting schemes of SV-VPR

方法 特点 适用场景
简单多数投票法 实现简单,计算效率高,但可能忽略不同模型的置信度差异 多模型并行处理且数据噪声较低的场景
加权投票法 能更精细地反映不同模块的重要性,但需设计合理的权重
分配策略
动态环境中需平衡多源信息时,如融合视觉和文本特征的VPR系统
聚类投票法 有效处理噪声和异常值,但计算复杂度较高 复杂路径规划或存在大量相似候选位置的场景
多模态融合投票 提升环境适应性,但需解决模态对齐和计算资源消耗问题 光照变化大或动态干扰多的环境,如自动驾驶中的实时定位。
基于深度学习的
投票机制
无需手动设计规则,依赖大量数据和算力 高精度要求的机器人导航,资源允许的情况下效果最佳。
基于倒排索引的
投票机制
检索速度快,适合大规模数据库,但对特征量化的精度
要求较高
适合大规模数据库
综上,简单多数投票法实现简单、计算效率高,能在多模型并行处理且数据噪声较低场景高效匹配,但易忽略不同模型置信度差异;加权投票法可精细反映不同模块重要性,适用于动态环境中融合多源信息(如视觉和文本特征融合的VPR系统),然而需设计合理权重分配策略;聚类投票法能有效处理噪声和异常值,在复杂路径规划或存在大量相似候选位置场景中优化候选位置筛选,不过计算复杂度较高;多模态融合投票法可提升环境适应性,用于光照变化大或动态干扰多的自动驾驶实时定位场景,但要解决模态对齐和计算资源消耗问题;基于深度学习的投票机制无需手动设计规则,适用于高精度要求的机器人导航,在资源允许时效果佳,只是依赖大量数据和算力;基于倒排索引的投票机制检索速度快,适合大规模数据库,却对特征量化精度要求高。

3.5.3 单阶段和双阶段检索

VPR根据特征提取与检索流程的复杂度可分为单阶段(端到端)和双阶段两类。单阶段方法通过端到端网络直接完成图像特征提取与匹配,将特征学习和匹配决策合并为单一过程,通常依赖深度卷积网络或注意力机制实现全局特征建模。双阶段方法则分为2个步骤: ① 生成候选区域或关键点(如SIFT描述子); ② 对候选结果进行精细化匹配或分类,强调分步优化的准确性。现将二者从不同维度进行对比,如表8所示。
表8 街景图像视觉位置识别技术单阶段检索和双阶段检索对比

Tab. 8 Comparison of single-stage and two-stage searches of SV-VPR

对比维度 单阶段方法 双阶段方法
速度与效率 实时性强,适合移动端或大规模检索(如NetVLAD) 计算开销大,依赖候选生成(如SIFT+R-MAC)
精度与鲁棒性 易受复杂背景干扰,依赖数据量(如CosPlace) 分阶段优化,复杂场景更稳定(如DELG)
模型复杂度 结构简单,参数量少(如BoQ) 多模块协同,需调参(如Hybrid-Swin-Transformer)
适用场景 高动态环境、实时导航 高精度地理匹配、小样本检索
代表性方法 NetVLAD、Patch-NetVLAD、DELF、SOLAR HF-Net、R-MAC、DELG、DOLG-EfficientNet
单阶段和双阶段方法的选择取决于具体应用场景和需求。单阶段方法适合实时应用和大规模场景,而双阶段方法则更适合复杂场景和高精度匹配任务。

4 街景图像视觉位置识别技术相关 数据集

为了评估和提升VPR算法的性能,研究人员开发了多种数据集,这些数据集涵盖了不同的环境、视角、光照、季节和天气条件。本文选取了一些具有代表性的数据集梳理如表9
表9 典型VPR数据集

Tab. 9 Typical VPR dataset

数据集 时间/年 环境 查询集/张 参考集/张 条件变化 适用方法 图片大小/(像素×像素)
查询 参考
Tokyo 24/7 2015 户外 315 75 984 光照 Pair-VPR、EffoVPR 3 264×2 448 640×480
SF-XL 2022 城市 1 000(v1)
598(v2)
41.2 M 光照、季节 EffoVPR 1 024×768 1 024×768
AmsterTime 2022 城市 1 231 1 231 长期时间、
光照
EffoVPR 1 024×1 024 1 920×1 080
SYNTHIA 2016 城市 200 200 天气、光照、
季节
- 300×200 300×200
Pittsburgh 2015 城市 1 000 23 000 视角 Pair-VPR、EffoVPR、BoQ 640×480 640×480
MSLS 2020 城市 11 000/514 000
(训练/测试)
19 000/934 000(训练/测试) 天气、季节 BoQ、SelaVPR 640×480 640×480
St Lucia 2018 城市郊区 1 464 1 509 天气、光照、
季节
EffoVPR、BoQ 640×480 640×480
SPEDtest 2018 户外 607 607 天气、季节 BoQ、DINOV2 SALAD 320×240 320×240
GSV-Cities 2022 户外 80 000 120 000 长期时间、光照、天气、动态 - 224×224 224×224
Tokyo Time
Machine
2016 城市 315 76 000 时间 - 640×480 640×480
Nordland 2013 火车视角 2 760 27 592 季节 EffoVPR、BoQ 1 920×1 080 1 920×1 080
GardensPoint 2018 大学校园 200 200 光照 AnyLoC、MixVPR 960×540 640×360
Campus Loop 2011 自然 100 100 光照、视角 - 640×480 640×480
Baidu Mall 2015 室内 500~1 000 >10 000 光照、
人群密度
SegVLAD、
AnyLoc
1 920×1 080 1 920×1 080
17 Places 2016 室内 406 406 光照 SegVLAD、
AnyLoc
640×480 640×480
7-scenes 2013 室内 15 000 56 000 视角、光照、重复纹理 - 640×480 640×480

4.1 城市环境数据集

4.1.1 Tokyo 24/7

为评估光照变化下的地理定位性能,Torii等[110]构建了多时段多角度测试基准:使用移动设备在125个地理位点采集1 125张带GPS标签的多视角图像。Tokyo 24/7数据集进一步扩展该基准至76 k数据库图像和315个查询样本,其多源异构特性为光照鲁棒性研究提供了标准测试平台。如表10实验对比所示,该数据集有效验证了典型VPR算法在复杂光照条件下的性能差异。
表10 数据集方法应用排行(Tokyo 24/7)

Tab. 10 Ranking of dataset method applications (Tokyo 24/7)

排名 方法 Recall@1 时间/年 备注
1 Pair-VPR-p 100.0 2024 Re-ranking
2 EffoVPR 98.7 2024 DINOv2, Re-ranking
3 Pair-VPR-s 98.1 2024 Re-ranking
4 BoQ 98.1 2024 ResNet-50
5 SelaVPR 94.0 2024 DINOv2, Re-ranking
6 EigenPlaces 93.0 2023 ResNet-50
7 ProGEO 88.6 2024 CLIP
8 Patch-NetVLAD 86.0 2021 Re-ranking
9 CosPlace 82.2 2022 ResNet-50

4.1.2 San Francisco eXtra Large(SF-XL)数据集

SF-XL是一个覆盖整个弗朗西斯科市并提供广泛挑战性案例的新数据, Berton等[4]构建的SF-XL数据集开创性地构建多场景时空基准:基于GSV的343万张全景图像经多视角分割生成4 120万训练样本,配备GPS+6-DoF时空元数据(2009—2021年),为长期视觉演化研究提供基础支撑。评估体系包含双测试集:SF-XL test v1(Flickr来源1 000张)验证城市级检索,test v2(地标数据集598张含 6-DoF标注)扩展至姿态估计任务。如表11表12所示,该数据集成功建立跨时段特征关联与多任务联合优化的新基准。
表11 数据集方法应用排行(SF-XL test v1)

Tab. 11 Ranking of dataset method applications (SF-XL test v1)

排名 方法 Recall@1 时间/年
1 EffoVPR 95.5 2024
2 ProGEO 84.7 2024
3 EigenPlaces 84.1 2023
4 CosPlace 64.7 2022
表12 数据集方法应用排行(SF-XL test v2)

Tab. 12 Ranking of dataset method applications (SF-XL test v2)

排名 方法 Recall@1 时间/年
1 EffoVPR 94.5 2024
2 ProGEO 93 2024
3 EigenPlaces 90.8 2023
4 CosPlace 83.4 2022

4.1.3 AmsterTime

AmsterTime[111]构建了跨世纪视觉定位新基准,其核心创新在于:数据架构上整合1 231组跨模态对(灰度历史影像和现代RGB街景),经专家校验形成2 500张时空匹配样本;挑战维度涵盖多域异构特性:长期跨度(历史档案和现代街景)、跨视角差异、 RGB-灰度模态鸿沟及异构相机参数。如表13所示,该数据集通过同步建模时空-模态耦合关系,为视觉定位算法建立了极具挑战性的多域异构基准。
表13 数据集方法应用排行(AmsterTime)

Tab. 13 Ranking of dataset method applications (AmsterTime)

排名 方法 Recall@1 时间/年 备注
1 EffoVPR 65.5 2024 DINOv2, Re-ranking
2 BoQ 63.0 2024 ResNet-50
3 SegVLAD 60.2 2024 -
4 EigenPlaces 48.9 2023 ResNet-50

4.1.4 SYNTHIA

SYNTHIA数据集[112]专为城市环境视觉位置识别(VPR)研究设计,包含200对查询-参考图像。该数据集通过高精度模拟多季节气象特征(四季变化)、全天候光照条件(日间/夜间)及动态天气模式(晴/雨/多云),构建了高度多样化的城市场景。其仿真环境可精确复现城市道路的视觉复杂性,为VPR算法提供了多维度性能验证平台,特别适用于评估自动驾驶系统在复杂城市场景下的定位鲁棒性。

4.1.5 Pittsburgh 250K数据集

Torii等[61]基于匹兹堡市谷歌街景全景图像构建Pittsburgh 250 K数据集,含254 064张透视图像(分辨率480像素×640像素),包含250 k数据库图像与24 k测试查询图像。数据按时间序列采集以反映城市场景动态变化,并按3:1比例划分为训练集(约83 k数据库图像+8 k查询)、验证集和测试集。其显著特征是高重复性外部结构(建筑立面/道路标线),可有效检验算法对城市场景的泛化能力。为提升实验效率,团队构建子集Pittsburgh30 K(含30 k数据库图像),细分为train、val、test 3个地理互斥子集(各10k数据库图像)。如表14表15所示,Pittsburgh-30k-test与Pittsburgh-250k-test被广泛用于对比测试先进算法性能。
表14 数据集方法应用排行 (Pittsburgh-30k-test)

Tab. 14 Ranking of dataset method applications (Pittsburgh-30k-test)

排名 方法 Recall@1 时间/年 备注
1 Pair-VPR-p 95.40 2024 Re-ranking
2 Pair-VPR-s 94.70 2024 Re-ranking
3 EffoVPR 98.10 2024 DINOv2, Re-ranking
4 BoQ 93.70 2024 DINOv2
5 SegVLAD- 93.10 2024 DINOv2
6 ProGEO 93.00 2024 CLIP
7 SelaVPR 92.80 2024 DINOv2, Re-ranking
8 EigenPlaces 92.50 2023 ResNet-50
9 MixVPR 91.52 2023 ResNet-50
10 CosPlace 90.45 2022 ResNet-50
11 Patch-NetVLAD 88.70 2021 Re-ranking
12 AnyLOC-VLAD-DINOV2 87.66 2023 -
13 NetVLAD 86.08 2015 -
表15 数据集方法应用排行(Pittsburgh-250k-test)

Tab. 15 Ranking of dataset method applications (Pittsburgh-250k-test)

排名 方法 Recall@1 时间/年 备注
1 BoQ 96.6 2024 DINOv2
2 SelaVPR 95.7 2024 DINOv2, Re-ranking
3 DINOV2 SALAD 95.1 2023 DINOv2
4 MixVPR 94.6 2023 ResNet-50
5 EigenPlaces 94.1 2023 ResNet-50
6 ConV-AP 92.4 2022 ResNet-50
7 ProGEO 92.2 2024 CLIP
8 NetVLAD (with GPM) 91.5 2023 ResNet-50
9 CosPlace 91.5 2022 ResNet-50

4.1.6 Mapillary Street-level Sequences(MSLS)

MSLS[113]是一个大规模、多样化的数据集,数据覆盖了六大洲,包含来自全球30个城市的160万张街道级图像。该数据集分为训练集(22个城市,140万张图像)、验证集(2个城市,30 k张图像)和测试集(6个城市,66 k张图像)。数据集的图像跨越了9年时间,涵盖了所有季节,能体现出不同季节下同一地点的外观差异,且包含了不同天气状况下的图像,如晴天、雨天、阴天等,增加了场景外观的多样性。有一天中不同时间的光照条件,如白天的强光和夜晚的弱光,以及不同的光照角度。并且每张图像都附带有GPS坐标、时间戳、相机方向等元数据,以及高级属性(如道路类型)。MSLS数据集在几种算法中的应用效果如表16所示。
表16 数据集方法应用排行(MSLS)

Tab. 16 Ranking of dataset method applications (MSLS)

排名 方法 Recall@1 时间/年 备注
1 BoQ 96.6 2024 DINOv2
2 SelaVPR 95.7 2024 DINOv2, Re-ranking
3 DINOV2 SALAD 95.1 2023 DINOv2
4 MixVPR 94.6 2023 ResNet-50
5 EigenPlaces 94.1 2023 ResNet-50
6 ConV-AP 92.4 2022 ResNet-50
7 ProGEO 92.2 2024 CLIP
8 NetVLAD (with GPM) 91.5 2023 ResNet-50
9 CosPlace 91.5 2022 ResNet-50

4.1.7 St Lucia数据集

St Lucia [114]是利用车载摄像头采集的数据集,数据源自澳大利亚昆士兰的城郊混合道路,涵盖直道、交叉路口、环岛等复杂场景。其中包含同一地理区域在不同季节、天气和光照条件下的多次采集图像。图像依据采集时间和路径分段保存,每段对应特定环境条件(如“晴天-夏季”“阴雨-冬季”),其文件名或元数据含有时间戳与地理位置信息。该数据集的核心价值在于捕捉长期动态环境变化,如植被生长、建筑变迁、道路维修等,以此考验算法对场景外观变化的适应能力。St Lucia 数据集在多种算法中的应用效果见表17
表17 数据集方法应用排行(St Lucia)

Tab. 17 Ranking of dataset method applications (St Lucia)

排名 方法 Recall@1 年份 备注
1 EffoVPR 100 2024 DINOv2, Re-ranking
2 BoQ 100 2024 DINOv2
3 SelaVPR 99.8 2024 Re-ranking
4 ProGEO 99.7 2023 CLIP
5 MixVPR 99.66 2023 ResNet-50
6 CosPlace 99.59 2022 ResNet-50
7 AnyLoC 96.17 2023
8 DINOv2 78.62 2023
9 NetVLAD 57.92 2015
10 DINO 45.22 2021

4.1.8 SPED数据集

SPED数据集[78]由世界各地CCTV摄像机提取的低质量、高场景深度帧构成,涵盖了全球多种不同天气、季节和光照条件下的各类场景,具备独特属性。它包含约15 000张图像(或视频帧),均源自多个监控摄像头的连续拍摄。该数据集以高密度行人场景和复杂监控条件为显著特色,是研究密集场景下行人感知与行为理解的关键基准测试平台。SPED数据集在多种算法中的应用效果见表18
表18 数据集方法应用排行(SPED)

Tab. 18 Ranking of dataset method applications (SPED)

排名 方法 Recall@1 年份 备注
1 BoQ 92.5 2024 ResNet-50
2 DINOV2 SALAD 92.1 2023 DINOv2
3 BoQ(ResNet-50) 86.5 2024
4 MixVPR 85.2 2023 ResNet-50

4.1.9 GSV-Cities数据集

GSV-Cities[1]是一个新的大规模数据集,涵盖了所有大陆的40个城市,包含约53万张图像,覆盖全球62 k个不同地点。该数据集提供了高度准确的地面真实值,允许简单的小批量采样,消除了弱监督的瓶颈。GSV-Cities包含超过67 000 k个位置,每个位置都由在4到20个不同日期拍摄的一组图像描述。该数据集照片分辨率包括480像素×640像素、300像素×400像素。数据量庞大且覆盖环境变化(如光照、季节),可用于训练鲁棒的深度学习模型。

4.1.10 Tokyo Time Machine

Tokyo Time Machine数据集[30]由东京地区的街景图像构成,包含丰富的场景内容。这些图像由移动手机拍摄,涵盖了白天、黄昏和夜晚等不同时段的场景,在拍摄视角和外观上存在显著变化,充分反映了真实场景的多样性与复杂性。该数据集拥有76 k张参考图像和315张查询图像,丰富的参考图像数量为研究提供了多样的场景样本,有助于算法学习不同场景特征;查询图像则用于测试算法在实际应用中的识别能力。图像的视角和外观变化大,增加了场景识别和地点定位的难度,对算法的鲁棒性提出较高要求。

4.2 自然环境数据集

4.2.1 Nordland

由Skrede开发,并由Sünderhauf等[115]引入VPR评估,该数据集代表了挪威四季728 km的火车行程,包含四季(春、夏、秋、冬)在同一地理路线上采集的图像序列,总计约40 k张图像(每个季节10 k张)。视频帧以序列形式存储,每个季节对应一个视频文件,帧率为10 fps,分辨率为1 920像素× 1 080像素。该数据集严格时空对齐,四季图像在同一路线、相同视角下拍摄,位置一一对应,是研究跨季节VPR和环境变化鲁棒性的理想数据集。Nordland数据集在几种算法中的应用效果如表19所示。
表19 数据集方法应用排行(Nordland)

Tab. 19 Ranking of dataset method applications (Nordland)

排名 方法 Recall@1 时间/年 备注
1 EffoVPR 95 2024 DINOv2, Re-ranking
2 BoQ 90.6 2024 ResNet-50
3 SelaVPR 86.6 2024 DINOv2, Re-ranking
4 DINOV2 SALAD 85.2 2023 DINOv2
5 MixVPR 76.0 2023 ResNet-50
6 Patch-NetVLAD 58.4 2021 Re-ranking
7 NetVLAD(with GPM) 44.9 2023 ResNet-50
8 Cony-AP 38.5 2022 ResNet-50

4.2.2 GardensPoint

由Glover[78]创建,在澳大利亚布里斯班的昆士兰州科技大学的Gardens Point校区进行了两次重复遍历,白天和晚上的视点不同,共同描绘了室外、室内和自然环境。该数据集包含3个图像序列,其中两个图像序列为白天所拍摄,一个图像序列为晚上所拍摄。该数据集具有白天与夜晚图像的显著光照差异,考验算法在极端光照变化下的鲁棒性。该数据集在几种算法中的应用效果如表20所示。
表20 数据集方法应用排行(GardensPoint)

Tab. 20 Ranking of dataset method applications (GardensPoint)

排名 方法 Recall@1 时间/年
1 AnyLoC 95.50 2023
2 MixVPR 91.50 2023
3 DINO 78.50 2021
4 CosPlace 74.00 2022
5 DINOv2 71.50 2023
6 NetVLAD 58.50 2015
7 CLIP 42.50 2023

4.2.3 Campus Loop数据集

Campus Loop由Meeeill等[116]提出,由100个查询图像和100个参考图像组成。其显著特点是包含大量具有视点和季节变化的帧。在数据集中,同一地点在不同视角及不同季节下被多次拍摄,产生了丰富多样的图像变化。这种变化涵盖了光照条件、场景元素的增减(如季节更替带来的植物生长或凋零)及拍摄角度的差异等方面。Campus Loop数据集常用于测试VPR算法在复杂环境变化下的性能。

4.3 室内环境数据集

4.3.1 Baidu Mall数据集

Baidu Mall 数据集[76]是由百度公司发布的专注于室内场景理解与“行人识别”任务的数据集,主 要用于测试算法在复杂商场环境中的目标检测、行人跟踪及多摄像头协同能力。该数据集含约5万张1 920像素×1 080像素的JPEG格式高分辨率图像,采集自大型商场多楼层与公共区域,覆盖工作日、节假日等不同时段客流变化,涵盖商场扶梯、走廊、中庭、店铺门口等多样区域,背景存在动态广告屏、反光玻璃等干扰,混合自然光(天窗)与人工光源(射灯)使得同一区域不同时间光照差异明显,这对细粒度目标识别及行人重识别极具挑战。该数据集在几种算法中的应用效果如表21所示。
表21 数据集方法应用排行(Baidu Mall)

Tab. 21 Ranking of dataset method applications (Baidu Mall)

排名 方法 Recall@1 时间/年 备注
1 SegVLAD- PreT 80.40 2024 DINOv2
2 AnyLoc 75.22 2024 DINOv2
3 MixVPR 64.44 2023 -
4 CLIP 56.02 2023 -
5 NetVLAD 53.10 2015 -
6 DINOv2 49.21 2023 -
7 CosPlace 41.62 2022 -

4.3.2 17 Places数据集

17 Places数据集[117]是一个专注于场景分类和场景理解的经典数据集,由麻省理工学院(MIT)的研究团队发布。该数据集旨在为场景分类任务提供多样化的图像数据,涵盖了多种室内场景。共包含17个场景类别,每个类别约200~400张图像,总数量约3~5 k张。覆盖室内常见场景,强调不同空间布局和环境复杂度,包含光照变化、视角差异、遮挡与动态物体等的挑战性因素。其在多种方法中的测试效果如表22所示。
表22 数据集方法应用排行(17 Places)

Tab. 22 Ranking of dataset method applications (17 Places)

排名 方法 Recall@1 时间/年
1 SegVLAD-FineT 95.30 2024
2 AnyLoc 65.02 2024
3 MixVPR 63.79 2023
4 DINOv2 61.82 2023
5 NetVLAD 61.58 2015
6 CosPlace 61.08 2022
7 CLIP 59.36 2023

4.3.3 7-scenes数据集

7-scenes数据集[118]由微软研究院于2013年发布,涵盖7个室内场景,通过手持Kinect RGB-D相机以 640×480 分辨率录制,利用Kinectfusion系统获取相机轨迹与密集3D模型。每个场景含多个序列,各序列为500~1 000帧连续跟踪的RGB-D相机帧,每帧有彩色图像、深度图像及相机位姿。图像存在无纹理表面、运动模糊、重复结构等挑战,适用于室内视觉定位算法研究与测试,可在场景坐标回归模型训练中优化室内场景定位精度。
本节梳理了多个用于评估和提升街景图像视觉位置识别算法性能的具有代表性的数据集,涵盖了城市环境、室内环境以及复杂场景变化。在动态场景、光照变化、多模态融合等方面, Tokyo 24/7和Nordland通过覆盖昼夜、季节、极端天气等条件,验证了算法对光照和环境变化的适应性; SF-XL和GSV-Cities作为大规模城市数据集,支撑了跨季节、跨视角的视觉定位研究,尤其在智能导航与增强现实中展现了高效性; SYNTHIA作为合成数据集,通过可控的天气与动态元素注入,为训练阶段提供了标准化测试基准。
在动态场景处理方面, AmsterTime和SPEDtest聚焦于人群、车辆等动态干扰,评估算法对实时变化的响应能力; Campus Loop和GardensPoint则通过校园环境中的动态人群与植被变化,测试算法的实时性与鲁棒性。St Lucia和Nordland进一步结合自然环境(如热带植被、北欧极端光照),挑战算法对复杂地理条件的适应性。
多模态与跨模态融合成为重要趋势, MSLS的多光谱图像为低光环境下的定位提供了新维度,结合几何与光谱信息显著提升分类精度; Baidu Mall的室内场景融合3D坐标、行人轨迹与光照分级,支持定位、重识别等多任务联合优化;Tokyo Time Machine通过历史与当前影像对比,推动了长期环境变化分析的研究。
此外, Pittsburgh和GSV-Cities通过街景数据的广泛覆盖,验证了算法在跨城市、跨文化场景中的泛化能力; CLIP-loc等研究在Baidu Mall上结合文本标签,证明多模态融合可有效解决室内“同构店铺”的歧义问题。这些数据集通过高密度动态干扰、复杂光照条件、多传感器标注等设计,推动语义分割、时序建模、跨模态检索等技术的突破,成为VPR、SLAM等领域的标杆数据集。
同时,现有的数据集与标准化建设需同步推进:一方面构建覆盖暴雨、沙尘暴等极端环境及地下车库、乡村道路等特殊场景的多样化数据集,另一方面亟待建立技术标准化体系,包括统一的数据标注规范、跨场景的测试基准以及多模态数据接口协议,以解决算法评估碎片化问题,促进跨平台协作与迭代优化。此外,开源工具生态的培育至关重要,需推动开放框架(如动态融合模块、轻量化推理工具链)的共享,鼓励权威机构贡献极端场景数据与预训练模型,降低技术落地门槛。

5 评价方法

在VPR领域,评价指标是衡量算法性能的关键,但尚无单一通用指标适用于所有场景。例如,高精度但检索耗时的算法,无法满足实时拓扑导航系统对处理帧率的要求,会导致系统运行迟缓;而在离线闭环检测、地图修正、运动恢复结构等非实时场景中,以较长检索时间换取高精度则是可接受的选择。因此本节梳理了已被验证应用于VPR领域的评价指标,根据其性质和用途,这些指标可以分为直接评价指标和间接评价指标。常用指标如表23所示。
表23 评价指标

Tab. 23 Evaluation indicators

指标类型 主要用途 指标输出形式 典型方法
RecallRate@N PL+LC+IR N个值输出 HF-Net、Hybrid-Swin-Transformer
AUC-PR PL+LC+IR 单个值输出 NetVLAD、DINOv2 SALAD
AUC-ROC PL+LC+IR 单个值输出 HOG、NetVLAD
真阳性分布 LC+IR 单个值输出 SegVLAD、EchoVPR
PCU PL+LC 单个值输出 BoQ、APANet

注: PL(primary localisation)代表初始定位; LC(loop-closure)代表闭环; IR(image retrieval)代表图像检索。

5.1 直接评价指标

直接评价指标主要用于衡量VPR算法的匹配精度、召回率以及对真阳性和真阴性的处理能力。

5.1.1 RecallRate@N

RecallRate@N指标[119]考虑到正确检索的参考图像不一定是最顶部的检索图像,只需要在前N个检索图像中,其核心在于衡量正确检索的参考图像在前N个检索图像中的情况。
R e c a l l R a t e @ N   =   M Q N Q
式中: MQ为前N个检索结果中包含正确匹配的查询数量; NQ为总查询数量。
在需要初步筛选图像检索结果的场景中,该指标考量检索的正确性,为后续过滤步骤提供基础,便于重新排列检索图像排名并避免误报。但不适用于需检索多个正确匹配及对假阳性拒绝要求高的场景。

5.1.2 AUC-PR(精度-召回曲线下面积)

AUC-PR(精度-召回曲线下面积)指标[120]通过计算不同相似性阈值下的精确率(Precision)和召回率(Recall),绘制PR曲线并计算其下方面积(AUC)。
P r e c i s i o n = T r u e P o s i t i v e s T r u e P o s i t i v e s + F a l s e P o s i t i v e s
R e c a l l = T r u e P o s i t i v e s T r u e P o s i t i v e s + F a l s e N e g a t i v e s
式中:True Positives(真正例,TP)表示被模型正确预测为正类的样本数量; False Positives(假正例,FP)为被模型错误预测为正类的样本数量;False Negatives(假负例,FN)为被模型错误预测为负类的样本数量。
该指标适用于对精度要求高且只需检索单个正确匹配的应用场景,如闭环检测,用于评估模型在不同相似性阈值下识别正类样本的综合性能,但在多正确匹配检索任务(如3D建模)中存在局限性,且需根据不同数据集动态调整阈值。

5.1.3 ROC曲线

ROC曲线[121]在VPR中,真阴性指不存在地面实况正确参考匹配的查询图像,可视作视觉系统此前未见过的 “新地点”。对用于探测任务的拓扑SLAM(Simultaneous Localization and Mapping)系统而言,识别这些真阴性对VPR意义重大。AUC-ROC通过绘制真阳性率(TPR)与假阳性率(FPR)的关系曲线进行计算。
T P R = T r u e P o s i t i v e s T r u e P o s i t i v e s + F a l s e N e g a t i v e s
F P R = F a l s e P o s i t i v e s F a l s e P o s i t i v e s + T r u e N e g a t i v e s
式中:True Positives(真正例,TP)表示被模型正确预测为正类的样本数量,False Positives(假正例,FP)为被模型错误预测为正类的样本数量,True Negatives(真阴例,TN)为没有正确参考匹配的样本数量。
与AUC-PR曲线相比,ROC曲线的真阳性、假阳性和假阴性定义相同,但额外纳入真阴性以衡量对未知地点的识别能力。ROC曲线纵轴为TPR(已检索到正确匹配的查询图像比例),横轴为FPR(误判为匹配的未知地点查询图像比例)。其优势在于:在类别分布敏感性上表现平衡,在视觉位置识别(VPR)等场景中,常出现未知地点样本远少于已知地点样本,导致真阴性数量极少,数据类别分布失衡的情况。此时,ROC曲线受类别不平衡的影响相对较小,因而更适合用于分析模型对“新地点”的泛化能力;能实现全局性能可视化,通过AUC-ROC值(取值范围在0~1之间),可以直观地展现模型在“匹配已知地点”与“拒绝未知地点”这二者之间的权衡情况,该数值越高,表明模型性能越优。

5.2 间接评价指标

间接评价指标主要用于衡量VPR算法的计算效率、资源消耗以及对硬件的要求。
(1)特征编码时间。衡量算法在特征匹配阶段所需的时间,直接体现了算法的匹配效率,并且明确适用于大规模数据集,特征编码时间一致,不直接反映匹配精度。
(2)描述符匹配时间。衡量算法在特征匹配阶段所需的时间,直接反映了算法的匹配效率,同时对大规模数据集的适用性明确,特征编码时间一致,不直接反映匹配精度。
(3)特征描述符大小。衡量算法生成的特征描述符的存储空间,直接反映算法对存储资源的要求,且对嵌入式设备的适用性明确,不直接反映匹配精度。
(4)每计算单元性能(PCU)。将位置识别精度与特征编码时间结合,评估算法的综合性能。综合考虑精度和效率,硬件资源的优化效果显著,但需要同时考虑多个指标,计算复杂度较高。
$P C U=\frac{A U C-P R}{\text { 特征编码时间 } \times \text { 描述符大小 }}$
式中: AUCPR曲线下方面积; PR为“Precision - Recall”(精确率-召回率)曲线。
按照这些评价指标的主要用途,将其大致分为3个方面:初级定位、闭环和图像检索。这些指标每一个都可能包含各种应用,例如图像检索可用于查询扩展、运动恢复结构、基于内容的搜索引擎以及许多其他方面。初始定位和闭环检测并不需要从数据库中检索出查询的所有现有匹配项,而是需要单个(或少数几个)正确匹配项,以便以高帧率进行位置估计。
表23可知,RecallRate@N指标适用于PL、LC、IR场景,以N个值输出形式,多维度刻画召回性能,典型方法如HF-Net、Hybrid-Swin-Transformer等通过该指标评估多任务下的召回表现,支持对算法在不同任务阶段的性能精细分析。AUC-PR和AUC-ROC指标同样覆盖PL、LC、IR场景,以单个值输出,综合衡量算法的匹配能力与分类性能。真阳性分布指标聚焦LC和IR任务,以单个值输出,量化真阳性结果的分布特性,SegVLAD、EchoVPR 等方法通过该指标优化闭环检测与图像检索中的匹配精度,提升系统对真实匹配的辨识能力。PCU指标针对PL和LC场景,以单个值输出,典型方法如BoQ、APANet借此评估初始定位与闭环检测中的计算效率或匹配成本,反映算法在实时性与资源消耗方面的性能。这些指标覆盖VPR核心应用场景(PL、LC、IR),从召回率、综合性能、真阳性特性到计算成本等维度构建评估框架,通过典型方法的实例化,为学术界提供了多视角、可量化的VPR技术性能分析工具,支撑不同应用场景下(如实时导航、离线地图修正、三维重建等)的技术选型与优化,推动VPR技术在机器人 学(Robotics Community, RC)与计算机视觉(Computer Vision community, CV)领域的深度应用与性能迭代。

6 结论与展望

本文系统综述了街景图像视觉位置识别(SV-VPR)技术,该技术作为基于视觉特征的地理位置识别技术,核心任务通过分析街景图像实现未知地点定位,需克服环境外观变化、视点差异等挑战,在网络空间测绘、自动驾驶等领域应用广泛。文中梳理了其基础概念与分类,包括传统手工特征、深度学习、视觉语言模型(VLMs) 3类技术路线。其中传统方法依赖SIFT等手工特征聚合,然而手工特征对光照、季节等外观变化鲁棒性不足,难以应对复杂动态环境。深度学习以CNN和Transformer为核心实现特征自动学习,NetVLAD首次将VLAD整合至CNN框架,通过端到端训练提升特征表达能力,Vision Transformer(ViT)通过自注意力机制建模全局语义,混合CNN-Transformer架构结合特征金字塔与动态聚合。VLMs则通过图文跨模态语义对齐提升定位鲁棒性,研究显示在粗尺度定位(区域级)中表现优异,但细粒度定位(米级)仍受限。
同时分析了数据增强、特征提取、相似性度量等关键技术,数据增强通过几何变换与域适应提升泛化性,特征提取依赖ResNet等骨干网络结合多尺度融合,相似性度量借助三元组损失等优化特征空间;总结了Tokyo 24/7、SF-XL等代表性数据集,其覆盖多场景但极端环境数据不足;构建了以RecallRate@N、AUC-PR为主的评价指标体系,但缺乏统一跨场景标准。
在未来街景图像视觉位置识别技术的研究中,在关键技术研究方面需要聚焦4个方向。
(1)增强跨区域泛化能力,针对现有技术受限于地区数据库的问题,研究领域自适应、迁移学习或元学习等方法,可借鉴经典影像检索系统(如Flickr的跨地域图像匹配框架)中迁移学习的实践经验,研究领域自适应与元学习方法,提升模型在未见过场景中的泛化性能,同时探索自监督或弱监督学习策略,减少对标注数据的依赖。
(2)研发动态环境适应技术,构建能实时处理如车辆遮挡、行人移动、天气突变等动态干扰的鲁棒模型,可借鉴Google Street View实时更新系统中动态遮挡处理机制,构建融合时序注意力与运动预测的鲁棒模型。同时还需解决高动态场景下模型推理速度与精度的平衡问题,Bing Maps街景服务通过混合轻量级Transformer与边缘计算模块,在车载终端实现了30帧/s的实时推理,其模型压缩方案对平衡算力与精度具有重要参考价值。
(3)深化多模态深度融合,通过图神经网络建模LiDAR点云、语义地图、数字高程模型等多源数据的空间关系,如华为Petal Maps手机端应用的语义-几何联合嵌入方法,通过建立分层注意力机制,成功解决了交通标志牌与建筑立面的跨模态匹配难题,但多模态数据的异构性对齐与跨模态特征映射仍面临计算复杂性和泛化能力不足的难题。
(4)创新AI在VPR领域的应用。技术突破上,借助其多模态深度对齐能力,可升级跨模态语义理解,突破细粒度定位瓶颈,还能凭知识迁移实现小样本、零样本学习,缓解数据集依赖难题;研究范式变革中,大模型与自动机器学习(AutoML)结合可构建自动化技术流程,同时需探索解释性技术增强鲁棒性与可信度。不过, AI应用仍面临算力、数据隐私等挑战,未来需跨领域协作,通过模型轻量化适配终端、建立数据合规框架,推动其在智慧交通、元宇宙地理测绘等领域规模化应用 。
AI使用情况:本文在第1节、第2.2.3节、第4节、第6节使用了AI技术进行文章润色。
■ 本文图文责任编辑: 黄光玉 蒋树芳

利益冲突:Conflicts of Interest 所有作者声明不存在利益冲突。

All authors disclose no relevant conflicts of interest.

[1]
Ali-bey A, Chaib-draa B, Giguère P. GSV-Cities: Toward appropriate supervised visual place recognition[J]. Neurocomputing, 2022, 513:194-203. DOI:10.1016/j.neucom.2022.09.127

[2]
Ali-Bey A, Chaib-Draa B, Giguére P. MixVPR: Feature mixing for visual place recognition[C]// 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE, 2023:2997-3006. DOI:10.1109/WACV56688.2023.00301

[3]
Ali-bey A, Chaib-draa B, Giguère P. BoQ: A place is worth a bag of learnable queries[C]// 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2024:17794-17803. DOI:10.1109/CVPR52733.2024.01685

[4]
Berton G, Masone C, Caputo B. Rethinking visual geo-localization for large-scale applications[C]//2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:4868-4878. DOI:10.1109/CVPR52688.2022.00483

[5]
Berton G, Junglas L, Zaccone R, et al. MeshVPR: Citywide visual place recognition using 3D meshes[M]// Computer Vision-ECCV 2024. Cham: Springer Nature Switzerland, 2024:321-339. DOI:10.1007/978-3-031-72904-1_19

[6]
Berton G, Trivigno G, Caputo B, et al. JIST: Joint image and sequence training for sequential visual place recognition[J]. IEEE Robotics and Automation Letters, 2024, 9(2):1310-1317.

[7]
Berton G, Trivigno G, Caputo B, et al. EigenPlaces: Training viewpoint robust models for visual place recognition[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2023:11046-11056. DOI: 10.1109/ICCV51070.2023.01017

[8]
Zhu Y Y, Wang J, Xie L X, et al. Attention-based pyramid aggregation network for visual place recognition[C]// Proceedings of the 26th ACM International Conference on Multimedia. ACM, 2018:99-107. 10.1145/3240508.3240525

[9]
Ge Y X, Wang H B, Zhu F, et al. Self-supervising fine-grained region similarities for large-scale image localization[M]// Computer Vision-ECCV 2020. Cham: Springer International Publishing, 2020:369-386. DOI:10.1007/97 8-3-030-58548-8_22

[10]
Garg S, Fischer T, Milford M. Where is your place, visual place recognition?[C]// Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence. International Joint Conferences on Artificial Intelligence Organization, 2021:4416-4425. DOI:10.24963/ijcai.2021/603

[11]
Lowry S, Sünderhauf N, Newman P, et al. Visual place recognition: A survey[J]. IEEE Transactions on Robotics, 2016, 32(1):1-19. DOI:10.1109/TRO.2015.2496823

[12]
Kim H J, Dunn E, Frahm J M. Learned contextual feature reweighting for image geo-localization[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:3251-3260. DOI:10.1109/CVPR.2017.346

[13]
Liu L, Li H D, Dai Y C. Stochastic attraction-repulsion embedding for large scale image localization[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2019: 2570-2579. DOI:10.1109/iccv.2019.00266

[14]
Zamir A R, Hakeem A, Van Gool L, et al. Large-Scale Visual Geo-Localization[M]. Cham: Springer International Publishing, 2016. DOI: 10.1007/978-3-319-25781-5

[15]
Sattler T, Leibe B, Kobbelt L. Efficient & effective prioritized matching for large-scale image-based localization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(9):1744-1756. DOI:10.1109/TPAMI.2016.2611662

[16]
Cadena C, Carlone L, Carrillo H, et al. Past, present, and future of simultaneous localization and mapping: Toward the robust-perception age[J]. IEEE Transactions on Robotics, 2016, 32(6):1309-1332. DOI:10.1109/TRO.2016.2624754

[17]
Smeulders A W M, Worring M, Santini S, et al. Content-based image retrieval at the end of the early years[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(12):1349-1380. DOI:10.1109/34.895972

[18]
Wilson D, Zhang X H, Sultani W, et al. Image and object geo-localization[J]. International Journal of Computer Vision, 2024, 132(4):1350-1392. DOI:10.1007/s11263-023-01942-3

[19]
Baatz G, Saurer O, Köser K, et al. Large scale visual geo-localization of images in mountainous terrain[M]//Computer Vision - ECCV 2012. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012:517-530. DOI:10.1007/978-3-642-33709-3_37

[20]
Zhang W, Kosecka J. Image based localization in urban environments[C]// Third International Symposium on 3D Data Processing, Visualization, and Transmission (3DPVT'06). IEEE, 2006:33-40. DOI:10.1109/3DPVT.2006.80

[21]
Weng L, Gouet-Brunet V, Soheilian B. Semantic signatures for large-scale visual localization[J]. Multimedia Tools and Applications, 2021, 80(15):22347-22372. DOI: 10.1007/s11042-020-08992-6

[22]
Chu M, Zheng Z D, Ji W, et al. Towards natural language-guided drones: GeoText-1652 benchmark with spatial relation matching[M]// Computer Vision-ECCV 2024. Cham: Springer Nature Switzerland, 2024:213-231. DOI: 10.1007/978-3-031-73247-8_13

[23]
Lowe D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110. DOI: 10.1023/B:VISI.0000029664.99615.94

[24]
Bay H, Tuytelaars T, Van Gool L. SURF: Speeded up robust features[M]// Computer Vision-ECCV 2006. Berlin, Heidelberg: Springer Berlin Heidelberg, 2006:404-417. DOI: 10.1007/11744023_32

[25]
Dalal N, Triggs B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05). IEEE, 2005:886-893. DOI:10.1109/CVPR.2005.177

[26]
Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6):84-90. DOI: 10.1145/3065386

[27]
Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: 1409.1556. https://arxiv.org/abs/1409.1556v6

[28]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:770-778. DOI:10.1109/CVPR.2016.90

[29]
Szegedy C, Liu W, Jia Y Q, et al. Going deeper with convolutions[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2015:1-9. DOI: 10.1109/CVPR.2015.7298594

[30]
Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]// IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:5297-5307. DOI:10.1109/CVPR.2016.572

[31]
DeTone D, Malisiewicz T, Rabinovich A. SuperPoint: Self-supervised interest point detection and description[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2018:337-33712. DOI:10.1109/CVPRW.2018.00060

[32]
Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]// IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:7132-7141. DOI:10.1109/CVPR.2018.00745

[33]
Woo S, Park J, Lee J Y, et al. CBAM: Convolutional Block attention module[M]// Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018:3-19. DOI:10.1007/978-3-030-01234-2_1

[34]
Radford A, Kim J W, Xu C, et al. Learning transferable visual models from natural language supervision[C]// International conference on machine learning. PMLR, 2021: 8748-8763. DOI:10.48550/arXiv.2103.00020

[35]
Jia C, Yang Y F, Xia Y, et al. Scaling up visual and vision-language representation learning with noisy text supervision[EB/OL]. 2021:2102.05918. https://arxiv.org/abs/2102.05918v2

[36]
Rublee E, Rabaud V, Konolige K, et al. ORB: An efficient alternative to SIFT or SURF[C]// 2011 International Conference on Computer Vision. IEEE, 2011:2564-2571. DOI:10.1109/ICCV.2011.6126544

[37]
Yi K M, Trulls E, Lepetit V, et al. LIFT: Learned invariant feature transform[M]//Computer Vision- ECCV 2016. Cham: Springer International Publishing, 2016:467-483. DOI:10.1007/978-3-319-46466-4_28

[38]
Dusmanu M, Rocco I, Pajdla T, et al. D2-net: A trainable CNN for joint description and detection of local features[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019:8084-8093. DOI:10.1109/CVPR.2019.00828

[39]
Oliva A, Torralba A. Modeling the shape of the scene: A holistic representation of the spatial envelope[J]. International Journal of Computer Vision, 2001, 42(3):145-175. DOI:10.1023/A:1011139631724

[40]
Murillo A C, Kosecka J. Experiments in place recognition using gist panoramas[C]// 2009 IEEE 12th International Conference on Computer Vision Workshops, ICCV Workshops. IEEE, 2009:2196-2203. DOI:10.1109/ICCVW.2009.5457552

[41]
Sünderhauf N, Protzel P. BRIEF-Gist - closing the loop by simple means[C]// 2011 IEEE/RSJ International Conference on Intelligent Robots and Systems. IEEE, 2011:1234-1241. DOI:10.1109/IROS.2011.6094921

[42]
Calonder M, Lepetit V, Ozuysal M, et al. BRIEF: Computing a local binary descriptor very fast[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7):1281-1298. DOI:10.1109/TPAMI.2011.222

PMID

[43]
Maddern W, Milford M, Wyeth G. CAT-SLAM: Probabilistic localisation and mapping using a continuous appearance-based trajectory[J]. The International Journal of Robotics Research, 2012, 31(4):429-451. DOI:10.1177/0278 364912438273

[44]
Wang R T, Shen Y Q, Zuo W L, et al. TransVPR: Transformer-based place recognition with multi-level attention aggregation[C]// 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2022:13638-13647. DOI:10.1109/CVPR52688.2022.01328

[45]
Yu J, Zhu C Y, Zhang J, et al. Spatial pyramid-enhanced NetVLAD with weighted triplet loss for place recognition[J]. IEEE Transactions on Neural Networks and Learning Systems, 2020, 31(2):661-674. DOI:10.1109/TNNLS.2019.2908982

PMID

[46]
Zhang J, Cao Y Y, Wu Q. Vector of locally and adaptively aggregated descriptors for image feature representation[J]. Pattern Recognition, 2021, 116:107952. DOI:10.1016/j.patcog.2021.107952

[47]
Radenović F, Tolias G, Chum O. Fine-tuning CNN image retrieval with No human annotation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(7):1655-1668. DOI:10.1109/TPAMI.2018.2846566

PMID

[48]
Hassani A, Walton S, Shah N, et al. Escaping the big data paradigm with compact transformers[EB/OL]. 2021:2104.05704. https://arxiv.org/abs/2104.05704v4

[49]
Noh H, Araujo A, Sim J, et al. Large-scale image retrieval with attentive deep local features[C]//2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017:3476-3485. DOI:10.1109/ICCV.2017.374

[50]
杨晓云. 基于卷积神经网络的视觉位置识别方法研究[D]. 哈尔滨: 东北林业大学, 2021. DOI:10.27009/d.cnki.gdblu.2021.000237.

[Yang X Y. Research on visual place recognition method based on convolutional neural network[D]. Harbin: Northeast Forestry University, 2021. ] DOI:10.27009/d.cnki.gdblu.2021.000237

[51]
Wang Y W, Qiu Y Y, Cheng P T, et al. Hybrid CNN-transformer features for visual place recognition[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2023, 33(3):1109-1122. DOI:10.1109/TCSVT.2022.3212434

[52]
Keetha N, Mishra A, Karhade J, et al. AnyLoc: Towards universal visual place recognition[J]. IEEE Robotics and Automation Letters, 2024, 9(2):1286-1293. DOI:10.1109/LRA.2023.3343602

[53]
Zhang G Y, Zhang Y R, Zhang K R, et al. Can vision-language models be a good guesser? exploring VLMs for times and location reasoning[C]//2024 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE, 2024:625-634. DOI: 10.1109/WACV57701.2024.00069

[54]
Waheed S, Ferrarini B, Milford M, et al. Image-based geo-localization for robotics:Are black-box vision-language models there yet?[EB/OL]. 2025:2501.16947. https://arxiv.org/abs/2501.16947v1

[55]
Zhang Z Y, Li R Z, Kabir T, et al. NAVIG: Natural language-guided analysis with vision language models for image geo-localization[EB/OL]. 2025:2502.14638. https://arxiv.org/abs/2502.14638v1

[56]
Matsuzaki S, Sugino T, Tanaka K, et al. CLIP-loc: Multi-modal landmark association for global localization in object-based maps[C]// 2024 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2024:13673-13679. DOI:10.1109/ICRA57147.2024.10611393

[57]
Chen Z, Chen Z J. FLORA:Formal language model enables robust training-free zero-shot object referring analysis[EB/OL]. 2025:2501.09887. https://arxiv.org/abs/2501.09887v1

[58]
Izbicki M, Papalexakis E E, Tsotras V J. Exploiting the earth’s spherical geometry to geolocate images[M]// Machine Learning and Knowledge Discovery in Databases. Cham: Springer International Publishing, 2020:3-19. DOI: 10.1007/978-3-030-46147-8_1

[59]
Arandjelović R, Zisserman A. Visual vocabulary with a semantic twist[M]// Computer Vision-ACCV 2014. Cham: Springer International Publishing, 2015:178-195. DOI:10.1007/978-3-319-16865-4_12

[60]
Schönberger J L, Pollefeys M, Geiger A, et al. Semantic visual localization[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:6896-6906. DOI:10.1109/CVPR.2018.00721

[61]
Torii A, Sivic J, Okutomi M, et al. Visual place recognition with repetitive structures[C]// IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE, 2015:2346-2359. DOI:10.1109/TPAMI.2015.2409868

[62]
袁一, 程亮, 宗雯雯, 等. 互联网众源照片的三维重建定位技术[J]. 测绘学报, 2018, 47(5):631-643.

DOI

[Yuan Y, Cheng L, Zong W W, et al. Crowd-sourced pictures geo-localization method based on 3D reconstruction[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(5):631-643. ]

DOI

[63]
Waheed M, Milford M, McDonald-Maier K, et al. SwitchHit: A probabilistic, complementarity-based switching system for improved visual place recognition in changing environments[C]// 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022:7833-7840. DOI:10.1109/IROS47612.2022.9981722

[64]
Chu T Y, Chen Y M, Huang L H, et al. Street view image retrieval with average pooling features[C]// IGARSS 2020-2020 IEEE International Geoscience and Remote Sensing Symposium. IEEE, 2020:1205-1208. DOI:10.1109/igarss39084.2020.9323667

[65]
Yang M, He D L, Fan M, et al. DOLG: Single-stage image retrieval with deep orthogonal fusion of local and global features[C]// 2021 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2021:11752-11761. DOI:10.1109/ICCV48922.2021.01156

[66]
Moreno Berton G, Paolicelli V, Masone C, et al. Adaptive-attentive geolocalization from few queries: A hybrid approach[C]// 2021 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2021:2917-2926. DOI:10.1109/wacv48630.2021.00296

[67]
Hausler S, Garg S, Xu M, et al. Patch-NetVLAD: Multi-scale fusion of locally-global descriptors for place recognition[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:14136-14147. DOI:10.1109/cvpr46437.2021.01392

[68]
Cai Y F, Zhao J Q, Cui J F, et al. Patch-NetVLAD: Learned patch descriptor and weighted matching strategy for place recognition[C]// 2022 IEEE International Conference on Multisensor Fusion and Integration for Intelligent Systems (MFI). IEEE, 2022:1-8. DOI:10.1109/MFI55806.2022.9913860

[69]
Khaliq A, Milford M, Garg S. MultiRes-NetVLAD: Augmenting place recognition training with low-resolution imagery[J]. IEEE Robotics and Automation Letters, 2022, 7(2):3882-3889. DOI:10.1109/LRA.2022.3147257

[70]
Tolias G, Sicre R, Jégou H. Particular object retrieval with integral max-pooling of CNN activations[EB/OL]. 2015: 1511.05879. https://arxiv.org/abs/1511.05879v2

[71]
Peng G H, Yue Y F, Zhang J, et al. Semantic reinforced attention learning for visual place recognition[C]//2021 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2021:13415-13422. DOI:10.1109/icra48506.2021.9561812

[72]
仇晓松, 邹旭东, 王金戈, 等. 基于卷积神经网络的视觉位置识别方法[J]. 计算机工程与设计, 2019, 40(1):223-229.

[Qiu X S, Zou X D, Wang J G, et al. Method of visual place recognition based on convolutional neural network[J]. Computer Engineering and Design, 2019, 40(1):223-229. ] DOI:10.16208/j.issn1000-7024.2019.01.037

[73]
刘耀华. 基于难例挖掘和域自适应的视觉位置识别[D]. 武汉: 华中科技大学, 2019. DOI: 10.27157/d.cnki.ghzku.2019.003830.

[Liu Y H. Visual place recognition based on hard example mining and domain adaptation[D]. Wuhan: Huazhong University of Science and Technology, 2019. DOI:10.27157/d.cnki.ghzku.2019.003830. ]

[74]
Izquierdo S, Civera J. Optimal transport aggregation for visual place recognition[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2024:17658-17668. DOI:10.1109/CVPR52733.2024.01672

[75]
Hou Y, Wang Y J, Fu Z J, et al. LSTS-VPR: Robust visual place recognition in challenging environments using landmarks associated with spatiotemporal and semantic information[C]// 2022 7th International Conference on Robotics and Automation Engineering (ICRAE). IEEE, 2022:350-357. DOI:10.1109/ICRAE56463.2022.10056180

[76]
Garg K, Puligilla S S, Kolathaya S, et al. Revisit anything: Visual place recognition via image segment retrieval[M]//Computer Vision - ECCV 2024. Cham: Springer Nature Switzerland, 2024:326-343. DOI:10.1007/978-3-031-73113-6_19

[77]
Zhou B L, Lapedriza A, Khosla A, et al. Places: A 10 million image database for scene recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6):1452-1464. DOI:10.1109/TPAMI.2017.2723009

PMID

[78]
Chen Z T, Liu L Q, Sa I, et al. Learning context flexible attention model for long-term visual place recognition[J]. IEEE Robotics and Automation Letters, 2018, 3(4):4015-4022. DOI:10.1109/LRA.2018.2859916

[79]
Yang Y K, Ma B, Liu X D, et al. GSAP: A global structure attention pooling method for graph-based visual place recognition[J]. Remote Sensing, 2021, 13(8):1467. DOI:10.3390/rs13081467

[80]
Shu D W, Kwon J. Hierarchical bidirected graph convolutions for large-scale 3-D point cloud place recognition[J]. IEEE Transactions on Neural Networks and Learning Systems, 2024, 35(7):9651-9662. DOI:10.1109/TNNLS.2023.3236313

[81]
Qin C, Zhang Y Z, Liu Y D, et al. A visual place recognition approach using learnable feature map filtering and graph attention networks[J]. Neurocomputing, 2021, 457:277-292. DOI:10.1016/j.neucom.2021.06.038

[82]
Grodal J, Lahtinen A. String topology of finite groups of Lie type[EB/OL]. 2020: 2003.07852. https://arxiv.org/abs/2003.07852v1

[83]
Zhi L Y, Xiao Z F, Qiang Y G, et al. Street-level image localization based on building-aware features via patch-region retrieval under metropolitan-scale[J]. Remote Sensing, 2021, 13(23):4876. DOI:10.3390/rs13234876

[84]
Peng G H, Huang Y F, Li H S, et al. LSDNet: A lightweight self-attentional distillation network for visual place recognition[C]// 2022 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2022:6608-6613. DOI:10.1109/IROS47612.2022.9982272

[85]
Grainge O, Milford M, Bodala I, et al. Design space exploration of low-bit quantized neural networks for visual place recognition[J]. IEEE Robotics and Automation Letters, 2024, 9(6):5070-5077. DOI:10.1109/LRA.2024.3386459

[86]
Cao B Y, Araujo A, Sim J. Unifying deep local and global features for image search[M]// Computer Vision-ECCV 2020. Cham: Springer International Publishing, 2020:726-743. DOI:10.1007/978-3-030-58565-5_43

[87]
Ng T, Balntas V, Tian Y R, et al. SOLAR: Second-order loss and attention for image retrieval[M]// Computer Vision-ECCV 2020. Cham: Springer International Publishing, 2020:253-270. DOI:10.1007/978-3-030-58595-2_16

[88]
Paolicelli V, Tavera A, Masone C, et al. Learning semantics for visual place recognition through multi-scale attention[M]//Image Analysis and Processing-ICIAP 2022. Cham: Springer International Publishing, 2022:454-466. DOI:10.1007/978-3-031-06430-2_38

[89]
Trivigno G, Berton G, Aragon J, et al. Divide&Classify: Fine-grained classification for city-wide visual place recognition[C]//2023 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2023:11108-11118. DOI:10.1109/ICCV51070.2023.01023

[90]
Özdemir A, Scerri M, Barron A B, et al. EchoVPR: Echo state networks for visual place recognition[J]. IEEE Robotics and Automation Letters, 2022, 7(2):4520-4527. DOI:10.1109/LRA.2022.3150505

[91]
Nie J W, Feng J M, Xue D Y, et al. A novel image descriptor with aggregated semantic skeleton representation for long-term visual place recognition[C]//2022 26th International Conference on Pattern Recognition (ICPR). IEEE, 2022:245-251. DOI: 10.1109/ICPR56361.2022.9956385

[92]
Doan D, Latif Y, Chin T J, et al. Scalable place recognition under appearance change for autonomous driving[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2019:9318-9327. DOI: 10.1109/iccv.2019.00941

[93]
Peng G H, Zhang J, Li H S, et al. Attentional pyramid pooling of salient visual residuals for place recognition[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2021:865-874. DOI:10.1109/ICCV48922.2021.00092

[94]
Zhang H, Chen X, Jing H M, et al. ETR: An efficient transformer for re-ranking in visual place recognition[C]// 2023 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). IEEE, 2023:5654-5663. DOI: 10.1109/WACV56688.2023.00562

[95]
Liu D F, Cui Y M, Yan L Q, et al. DenserNet: Weakly supervised visual localization using multi-scale feature aggregation[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(7):6101-6109. DOI:10.1609/aaai.v35i7.16760

[96]
Henkel C. Efficient large-scale image retrieval with deep feature orthogonality and Hybrid-Swin-Transformers[EB/OL]. 2021:2110.03786. https://arxiv.org/abs/2110.03786v2

[97]
Nguyen S T, Fontan A, Milford M, et al. FUSELOC:Fusing global and local descriptors to disambiguate 2D-3D matching in visual localization[EB/OL]. 2024:2408.12037. https://arxiv.org/abs/2408.12037v1

[98]
Hou P S, Chen J, Nie J W, et al. Forest: A lightweight semantic image descriptor for robust visual place recognition[J]. IEEE Robotics and Automation Letters, 2022, 7(4):12531-12538. DOI:10.1109/LRA.2022.3219030

[99]
Dutto M, Berton G, Caldarola D, et al. Collaborative visual place recognition through federated learning[C]//2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE, 2024:4215-4225. DOI:10.1109/CVPRW63382.2024.00425

[100]
Ali-bey A, Chaib-draa B, Giguère P. Global proxy-based hard mining for visual place recognition[EB/OL]. 2023: 2302.14217. https://arxiv.org/abs/2302.14217v1

[101]
Kordopatis-Zilos G, Galopoulos P, Papadopoulos S, et al. Leveraging EfficientNet and contrastive learning for accurate global-scale location estimation[C]// Proceedings of the 2021 International Conference on Multimedia Retrieval. ACM, 2021:155-163. DOI:10.1145/3460426.3463644

[102]
Xu S X, Zhang C H, Fan L B, et al. AddressCLIP: Empowering vision-language models for city-wide image address localization[M]// Computer Vision-ECCV 2024. Cham: Springer Nature Switzerland, 2024:76-92. DOI:10.1007/978-3-031-73390-1_5

[103]
Veličković P, Cucurull G, Casanova A, et al. Graph attention networks[EB/OL]. 2017: 1710.10903. https://arxiv.org/abs/1710.10903v3

[104]
Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:936-944. DOI:10.1109/CVPR.2017.106

[105]
Chu T Y, Chen Y M, Huang L H, et al. A grid feature-point selection method for large-scale street view image retrieval based on deep local features[J]. Remote Sensing, 2020, 12(23):3978. DOI:10.3390/rs12233978

[106]
王红君, 郝金龙, 赵辉, 等. 大规模城市环境下视觉位置识别技术的研究[J]. 计算机应用与软件, 2021, 38(8):194-198,226.

[Wang H J, Hao J L, Zhao H, et al. Visual position recognition technology in large-scale urban environment[J]. Computer Applications and Software, 2021, 38(8):194-198,226. ]

[107]
孔德磊, 方正, 李昊佳, 等. 基于事件的端到端视觉位置识别弱监督网络架构[J]. 机器人, 2022, 44(5):613-625.

DOI

[Kong D L, Fang Z, Li H J, et al. An end-to-end weakly supervised network architecture for event-based visual place recognition[J]. Robot, 2022, 44(5):613-625. ] DOI:10.13973/j.cnki.robot.210303

[108]
Grainge O, Milford M, Bodala I, et al. TeTRA-VPR: A ternary transformer approach for compact visual place recognition[EB/OL]. 2025: 2503.02511. https://arxiv.org/abs/2503.02511v1

[109]
Chu T Y, Chen Y M, Su H, et al. A news picture geo-localization pipeline based on deep learning and street view images[J]. International Journal of Digital Earth, 2022, 15(1):1485-1505. DOI: 10.1080/17538947.2022.2121437

[110]
Torii A, Arandjelović R, Sivic J, et al. 24/7 place recognition by view synthesis[C]// 2018 IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE, 2018:257-271. DOI:10.1109/TPAMI.2017.2667665

[111]
Yildiz B, Khademi S, Siebes R M, et al. AmsterTime: A visual place recognition benchmark dataset for severe domain shift[C]// 2022 26th International Conference on Pattern Recognition (ICPR). IEEE, 2022:2749-2755. DOI:10.1109/ICPR56361.2022.9956049

[112]
Ros G, Sellart L, Materzynska J, et al. The SYNTHIA dataset: A large collection of synthetic images for semantic segmentation of urban scenes[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:3234-3243. DOI:10.1109/CVPR.2016.352

[113]
Warburg F, Hauberg S, Lopez-Antequera M, et al. Mapillary street-level sequences: A dataset for lifelong place recognition[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:2623-2632. DOI:10.1109/cvpr42600.2020.00270

[114]
Stenborg E, Toft C, Hammarstrand L. Long-term visual localization using semantically segmented images[C]//2018 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2018:6484-6490. DOI: 10.1109/ICRA.2018.8463150

[115]
Sünderhauf N, Neubert P, Protzel P. Are we there yet? Challenging SeqSLAM on a 3000 km journey across all four seasons[J]. International Conference on Robotics and Automation, 2013:1-3

[116]
Merrill N, Huang G Q. Lightweight unsupervised deep loop closure[EB/OL]. 2018:1805.07703. https://arxiv.org/abs/1805.07703v2

[117]
Sahdev R, Tsotsos J K. Indoor place recognition system for localization of mobile robots[C]// 2016 13th Conference on Computer and Robot Vision (CRV). IEEE, 2016:53-60. DOI:10.1109/CRV.2016.38

[118]
Shotton J, Glocker B, Zach C, et al. Scene coordinate regression forests for camera relocalization in RGB-D images[C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2013:2930-2937. DOI: 10.1109/CVPR.2013.377

[119]
Vargas S, Castells P. Rank and relevance in novelty and diversity metrics for recommender systems[C]// Proceedings of the Fifth ACM Conference on Recommender Systems. ACM, 2011:109-116. DOI:10.1145/204393 2.2043955

[120]
Boyd K, Eng K H, Page C D. Area under the precision-recall curve: Point estimates and confidence intervals[M]// Advanced Information Systems Engineering. Berlin, Heidelberg: Springer Berlin Heidelberg, 2013:451-466. DOI: 10.1007/978-3-642-40994-3_29

[121]
Fawcett T. An introduction to ROC analysis[J]. Pattern Recognition Letters, 2006, 27(8):861-874. DOI:10.1016/j.patrec.2005.10.010

文章导航

/