Deep Learning based on Image Matching Method for Oblique Photogrammetry

  • YANG Jiabin , 1 ,
  • FAN Dazhao , 1, * ,
  • YANG Xingbin 2 ,
  • JI Song 1 ,
  • LEI Rong 1
Expand
  • 1. Institute of Geospatial Information, Information Engineering University, Zhengzhou 450001, China
  • 2. SenseTime Research, Beijing 100190, China
* FAN Dazhao, E-mail:

Received date: 2021-05-31

  Request revised date: 2021-07-02

  Online published: 2021-12-25

Supported by

China High-resolution Earth Observation System(42-Y30B04-9001-19/21)

National Natural Science Foundation of China(41971427)

Copyright

Copyright reserved © 2021

Abstract

To solve the problem of few points, low recall rate, and low accuracy of feature matching points in oblique image matching by traditional and deep learning methods, we propose a deep learning-based oblique photogrammetry image matching method. Firstly, the oblique image overlapping areas are computed using Position and Orientation System (POS) information. The geometric deformation of the image overlapping areas, caused by large angle change and inconsistent depth of scene, is compensated using perspective transformation. After removing geometric deformation, the transformed images only have small scale rotation changes. Secondly, we trained the feature point detection neural network in two stages to get the multi-scale feature detection network. The pre-trained multi-scale feature detection network is used to infer the Gaussian heat map on the transformed images. The robust sub-pixel feature points are detected in the extreme scale space of the Gauss heat maps, which effectively avoids the influence of image-scale changes. In order to assist feature points description, the feature points scale and direction are obtained based on the pre-trained self-supervised principal feature direction network. In the feature description stage, the scale and rotation invariant GeoDesc descriptor information is obtained by self-supervised feature detection and principal feature direction network. The feature descriptor is enhanced by considering the image geometric and visual context information, which is useful to describe oblique images with large angle change and those with less texture information. Finally, the initial matching points are obtained by a two-stage ratio purification method, which ensures that not many gross errors in the initial points. The mismatches of initial matching points are further removed by fundamental-based Random Sample Consensus (RANSAC) algorithm and geometry-based graph constraint method, which guarantees that the final obtained matching points accuracy is reliable for bundle block adjustment. In order to verify the matching effect of the proposed method, the two typical rural and city area oblique images in ISPRS oblique photogrammetry datasets are selected to qualitatively and quantitatively analyze the matching results of all methods. The experimental results show that our proposed method can obtain lots of uniformly distributed matching points in large scale perspective and poor-texture oblique images. Compared with SIFT, Affine SIFT (ASIFT), SuperPoint, GeoDesc, and ContextDesc algorithms, our proposed method can acquire more robust feature points in scale space of the Gauss heat maps, which is helpful to increase the matching recall rate and accuracy.

Cite this article

YANG Jiabin , FAN Dazhao , YANG Xingbin , JI Song , LEI Rong . Deep Learning based on Image Matching Method for Oblique Photogrammetry[J]. Journal of Geo-information Science, 2021 , 23(10) : 1823 -1837 . DOI: 10.12082/dqxxkx.2021.210305

1 引言

随着机载多相机系统的发展,倾斜摄影已成为地图、城市三维重建等应用的主要数据来源[1]。倾斜影像匹配作为影像定向的关键步骤,一直是研究的重点问题,其难点在于:① 倾斜影像间存在较大的倾斜角度,斜轴透视的场景深度变化造成了不同视角图像间存在较大的几何变形,因而提取的特征点并不稳定,加上当前大部分的特征点描述方法只能保证相似不变性[2],造成匹配失效;② 由于倾斜影像间存在较多的遮蔽区域,导致特征点复现率和描述子准确性降低,即使采用具有仿射不变性的特征匹配算法,获取到的匹配点数量和均匀度也难以保证。
针对上述问题,基于传统SIFTScale-Invariant Feature Transform)[3]、SURF (Speeded Up Robust Feature)[4]等方法获取匹配点的思路大体分为2类。① 面向特征匹配算法本身,通过在影像中提取具有仿射不变性的区域,建立描述子后再进行匹 配[5]。② 基于影像纠正的思想[6],通过降低尺度和旋转引起的几何形变来辅助完成匹配,但对处于视差剧烈变化区域影像,由于遮挡和影像变换会使特征点的复现率下降,实际同名点的特征描述区域内容也会存在较大差异,导致描述子可靠性不高、误匹配增多。
近年来,深度学习方法在影像特征匹配领域大有建树,涌现出了许多基于网络学习的匹配方法,并表现出较大的发展潜力。在深度学习方法进军特征匹配领域的初期,大部分研究集中于描述子的学习,这类方法在生成描述子过程中较好地顾及了几何、语义信息,因此在多种场景下能够保持较好的鲁棒性,如MatchNet[7]、PN-Net[8]、L2-Net[9]、DeepDesc[10]等。另外,一些研究发现通过几何信息约束描述子训练过程,或利用上下文信息对描述子进行增强能够有效提高描述子可靠性,从而在显著视角变化的影像上表现出较好的适应性,如GeoDesc[11]、ContextDesc[12]等。然而上述方法大都针对小范围简单场景获取描述子,在复杂地物特征的倾斜摄影匹配上运用较少。其次,通过深度学习完成特征点定位的研究略晚于特征描述。LIFT(Learned Invariant Feature Points)[13]是传统方法向深度学习方法过渡的一个典型案例,它基于深度卷积神经网络实现了特征点检测、方向估计和描述符提取,在光照变化场景下表现出了较好的鲁棒性。TILDE(Temporally Invariant Learned Detector)[14]、LF-Net(Learning Local Features from Images)[15]等方法是完全的基于学习思想完成特征点提取的方法,但这些方法对场景依赖性较强,需要大量训练数据保证算法鲁棒性。MagicPoint[16]、SuperPoint[17]等算法从图像特征点的几何结构出发,使用合成图像来训练特征点检测器实现自监督网络,大大减弱了算法对场景的依赖性,然而该方法检测的特征点精度和稳定性不高,其描述子不能较好抗拒图像旋转,因此较难应用于倾斜影像匹配。匹配点的粗差剔除是深度学习方法在特征匹配领域的另一个应用方向,在深度学习方法应用之前,RANSAC(Random Sample Consensus)算法[18,19,20]一直是误匹配点剔除的经典方法,之后出现的VFC( Vector Field Consensus)[21]、GMS(Grid-based Motion Statistics)等[22]也能够有效滤除匹配粗差,但在“是与否”、“对与错”等互斥语义属性的判别上,深度学习方法表现出了更好的效果,如ACNe[23]、SuperGlue[24]等。综上所述,端到端网络完成特征点提取和匹配已成为未来发展的主流趋势,然而该过程应用于倾斜摄影匹配尚有一些问题亟待解决:① 深度学习匹配方法的特征点稳定性和定位匹配精度尚不能和传统方法相媲美[25],导致空中三角测量精度受限;② 深度学习方法对场景的依赖性较强,网络推理的精度与训练集的质量、场景复杂度呈现明显的正相关关系(在数据集上的效果优于实际),对于具有复杂地物特征的大像幅倾斜影像其效果受较大影响。
针对上述问题,本文提出一种面向倾斜航空影像的深度学习特征匹配方法,该方法在特征点检测阶段,提出结合自监督网络预测高斯热力图尺度空间,从高斯热力图尺度空间检测高复现率的稳定特征点,同时精化了特征点定位精度;在特征点描述和匹配阶段,结合主方向估计网络实现了尺度旋转不变的GeoDesc基础描述子,同时利用几何、视觉上下文信息更好地描述了大视角变化和弱纹理场景下的局部窗口特征,使用基于图约束和RANSAC结合的误匹配点剔除方法得到了数量多、均匀分布的匹配点。

2 研究方法

图1所示,本文方法主要包含了预处理、特征点检测、特征点描述、匹配与粗差剔除4个过程。倾斜影像预处理主要是利用透视变形改正减弱影像间几何变形的影响;特征检测过程中,训练自监督网络预测高斯热力图尺度空间,从高斯热力图尺度空间检测高复现率的稳定特征点;在特征描述阶段,顾及特征点尺度和主方向信息,同时考虑几何、语义上下文信息为特征点形成了尺度旋转不变性的描述符;最后在双向比值提纯法匹配结果的基础上利用图约束方法剔除误匹配点后得到最终匹配结果。
图1 本文方法流程

Fig. 1 Flow chart of our method

2.1 倾斜影像预处理

倾斜航空影像间存在较大的视角变化,造成多视影像间产生尺度、旋转引起的变形。为了减弱视角变化造成的匹配难点问题,本文构建下视影像与侧视影像间的投影变换方程,将侧视影像校正到与下视影像统一的坐标系中,具体步骤如下:
(1)获取相机参数。假定下视影像 t和侧视影像 t '的内参矩阵分别为 K t K t ',由POS信息解算的影像旋转、平移矩阵分别为 R t R t ' T t T t ',其中旋转、平移矩阵满足世界坐标 P到影像坐标 p的投影变换关系 p = K R | T P
(2)计算投影变换方程。给定下视影像上的齐次像点坐标 x和对应的近似相对高程 d x,本文参考文献[26],将 x投影至侧视影像得到的齐次像点坐标 x '表示为。
x ' K t ' R t ' R t T d x K t - 1 x + K t ' R t ' ( - R t T T t + R t ' T T t ' ) = d x h t t ' x + c t t '
式中: h t t ' = K t ' R t ' R t T K t - 1, c t t ' = K t ' R t ' ( - R t T T t + R t ' T T t ' )。当测区高程变化不大时, d x可视为飞行时的平均相对航高 d ̅
(3)影像变形改正。当测区高程变化不大时可以利用式(1)和平均相对航高 d ̅将下视影像4个角点变换至侧视影像,然后利用4对对应点建立影像间的透视变换方程后计算得到校正后的侧视影像[27],如图2所示校正后影像间尺度、旋转变形基本消除。
图2 斜视影像校正结果

Fig. 2 The rectification result of oblique image

当测区地形起伏变化较大时,全局的透视变换模型不能较好地消除影像间的变形,此时先对左影像进行分块,结合粗略DEM信息获取影像块4个角点的相对航高,然后利用式(1)将4个角点变换至侧视影像后求解影像块之间的透视变换矩阵,对侧视影像逐块进行透视变形改正后消除局部地形起伏引起的影像变形。

2.2 基于深度学习的特征点匹配方法

2.2.1 特征点提取网络
特征点提取是影像匹配的关键步骤,其关键在于从多视图像上获取低冗余度、高复现率的特征点,其次是特征点具有较好的稳定性和定位精度。考虑到倾斜摄影影像上地物几何特性明显(例如城区存在较多的角点特征),这些特征可以简单表达成如图3所示的几何元素组合[16]
图3 几何元素与对应的地物影像块

Fig. 3 Geometric elements and corresponding image blocks

图3可以看出,对于几何特性明显的倾斜影像,尽管倾斜摄影影像间视角存在较大变化,但抽象出的几何元素在不同视角图像上的拓扑关系基本不变,这种几何结构和拓扑关系十分适合特征点位置和主方向的学习。鉴于此,本文在文献[16]合成形状数据集的基础上完成自监督特征点检测网络的训练,与文献[16]不同的是,本文方法数据集中的标注信息不仅包含影像及其特征点位置(x, y),还包含从已知几何元素结构的拓扑关系中建立的特征点主方向θ,同时本文在文献[16]的基础上提出一种结合多尺度的自监督特征点检测网络从而检测稳定特征点,在文献[28]的基础上结合上述自监督数据集训练主方向估计网络。图4为本文网络包含2个阶段的训练过程[17]
图4 训练特征点提取网络的过程

Fig. 4 Training process of feature point extraction network

(1)训练自监督特征点检测网络
首先,如图4中①所示,在合成形状数据集下训练基础特征点检测网络。网络结构包含关键点(特征点)位置检测网络和主方向估计网络。其中关键点检测网络参考文献[16]的网络结构和损失函数。主方向估计网络采用文献[28]的网络结构,与其不同的是本文在网络训练过程考虑图3中几何元素的拓扑关系,从已知几何元素结构中建立特征点主方向用于训练,而非文献[28]基于边缘检测获取主方向的方法,进而更好地发挥自监督训练的优势。
其次,生成真实影像数据集及对应的标注信息,标注信息包括(x, y, σ, θ)。由于第一次训练模型时使用了合成形状数据集,若直接将该模型用于预测倾斜影像关键点位置,会对关键点稳定性和定位精度产生较大影响,造成模型在倾斜影像推理关键点过程中精度下降。鉴于此,本文方法在网络推理前采用MS-COCO数据集影像作为真实数据集影像,对该数据集影像进行随机透视变换模拟视角变化,同时建立变换后影像的高斯尺度空间图像后利用第一次训练的模型预测高斯热力图尺度空间图像,最后检测高斯热力图尺度空间稳定特征点和主方向作为真实影像数据集标注信息,该过程类比于图5推理过程。
图5 多尺度空间上特征点检测网络推理过程

Fig. 5 The prediction of feature point extraction network in multi-scale image space

最后,在真实影像数据集下完成网络的第二次训练。该过程采用与第一次训练相同的网络结构,不同的是使用了高斯热力图尺度空间稳定特征点和主方向标注信息,因此训练的网络检测特征点会更加稳定。需要说明的是由于网络中并未训练描述符,因此训练时无需输入尺度信息,在实际推理时,尺度信息可在高斯热力图尺度空间中通过抛物面拟合得到。
(2)特征点检测网络推理过程
本文在透视变形改正后的倾斜影像对上推理特征点,考虑到图像视差变化较大(如建筑物)或接近视场边缘的区域,图像变形改正过程会引起地物几何结构的纹理模糊(影像对局部区域存在尺度不一致现象),同时地物遮挡和变形也会对特征点检测产生一定影响,从而降低特征点的定位精度和稳定性,鉴于此,本文使用如图5所示的多尺度空间特征点检测网络推理特征点,在高斯热力图尺度空间内完成特征点检测和精化。
首先将一组高斯尺度空间影像纳入过程(1)训练得到的特征点检测网络,预测其对应的高斯热力图尺度空间(本文生成N=6层尺度空间影像);然后在高斯热力图尺度空间上检测极大值点作为稳定特征点,使用文献[13]抛物面拟合方法精化至亚像素,同时获取精化后的尺度因子。最后根据精化后的特征点位置,采用过程(1)训练的主方向估计网络推理特征点主方向。构建高斯尺度空间图像的过程如下:
利用二维高斯函数 G ( x , y , σ )对预处理后的倾斜影像 I ( x , y )卷积形成N层(本文方法取 N = 6)高斯尺度空间图像,卷积过程如下式(2):
L ( x , y , σ ) = G ( x , y , σ ) I ( x , y )
式中: 表示对图像 I ( x , y )沿 x坐标轴方向(行方向)与 y坐标轴方向(列方向)进行卷积操作,二维高斯函数 G ( x , y , σ )表达式为:
G ( x , y , σ ) = 1 2 π σ 2 e - x 2 + y 2 2 σ 2
式中: σ为尺度空间因子; σ越大,尺度越大,图像越平滑。对于透视变换后的原始影像,设其初始尺度为 σ 0=1.6,其余影像层的尺度从式(4)得到。
σ = 2 r 4 σ 0
式中: r ( r = 0,1 , 2,3 , )代表尺度空间影像层,当 r = 0时表示原始影像尺度。
由于本文推理方法在高斯热力图尺度空间上获取特征点并精化,因此特征点冗余度更低,特征点稳定性和定位精度更好,同时推理特征点的过程可以获取特征点的尺度信息,从而辅助解决特征匹配过程中遇到的影像尺度不一致现象,使倾斜影像对间获取的匹配点更加可靠、匹配精度更高。
2.2.2 特征描述
特征描述的关键在于如何使错误匹配点描述符之间具有较大的区分度,同时使同名像点的描述符具有较高的相似度。由于倾斜影像视角变化较大,以特征点为中心的局部描述区域内容差异较大(图6),造成特征点描述过程存在一定困难。
图6 视角变化导致的特征描述内容差异

Fig. 6 The difference of feature description by image perspective changes

为解决上述问题,本文对特征点生成尺度旋转不变深度学习描述子,并通过几何上下文特征和语义上下文特征对描述子进行增强后得到128维特征,特征描述子的计算过程如图7所示。
图7 本文方法基础特征描述子跨模态上下文增强计算过程

Fig. 7 Basic feature descriptors augmentation with cross-modality context

(1)主方向的处理。尽管本文方法对影像进行了预处理,然而校正后的影像在视差变化明显的局部区域仍有可能存在几何形变造成特征描述失误,因此通过检测稳定的特征点主方向能够一定程度上抗拒图像局部几何变形的影响,从而进一步提高描述子可靠性,且在图匹配粗差剔除过程中发挥一定作用。考虑到透视变换后的像对,多数特征点间的尺度和旋转基本上被消除,为此,本文方法在为特征点学习主方向的同时,采用0°(水平)方向作为特征点的辅方向以提高主方向估计的鲁棒性。
(2)根据特征点位置 ( x , y )、尺度 σ及主方向 θ获取基础特征描述子。首先根据 x , y , σ , θ计算一个相似变换关系,然后计算特征点为中心的网格点坐标 ( x i ' , y i ' )(本文采用的初始网格范围为32×32),最后按照式(5)将网格坐标变换至同一尺度和主方向下,输出 12 σ × 12 σ范围的基础描述子窗口坐标 ( x ˆ i ' , y ˆ i ' )
x ˆ i ' = x + 2 cos θ x i ' + - 2 sin θ y i ' y ˆ i ' = y + 2 sin θ x i ' + 2 cos θ y i '
考虑到倾斜摄影场景视角变化较大,此时仅利用图像灰度信息难以完整描述特征点几何结构信息。为此,本文在输出的 12 σ × 12 σ尺度旋转不变窗口内获取GeoDesc描述子作为基础特征描述子,GeoDesc网络结构采用文献[12]的L2-Net网络,并引入两种相似度进行几何约束,使不同视角下的同名像点描述符具有较高相似度,因而具备良好的视角不变性,其网络训练数据与文献[12]相同。由于考虑了影像尺度和旋转的影响,因此本文的GeoDesc基础特征描述子在处理图像旋转和尺度方面更有优势。
(3)描述子几何与视觉上下文增强。由于航空影像上可能存在较多重复纹理,此时仅利用影像的局部区域特性难以完整描述关键点的特征,因此本文借鉴了ContextDesc网络[13]对基础特征描述子进行几何和语义上下文增强处理(网络训练数据为文献[29]发布的GL3D数据集)。如图7所示,几何上下文特征通过特征点的位置及其基础描述子纳入多层卷积获得,视觉上下文特征通过一个ResNet50[30]网络提取到图像区域特征,与基础描述子合并卷积得到,最后对基础特征描述子、几何上下文特征描述子以及视觉上下文特征描述子进行特征融合并进行L2归一化得到增强后的128维描述子向量。
采用本文描述子的优势主要有2个:① 本文描述子具有良好的尺度旋转不变性,能够一定程度上克服图像局部几何变形引起的描述失误。② 通过几何、视觉上下文信息来辅助获取尺度旋转不变GeoDesc特征描述符,使同名特征点的描述子具有较高的相似性,当场景视角存在较大变化或大量重复纹理时,通过顾及高层图像表示的视觉上下文信息和关键点位置建立的几何上下文信息也可以使重复纹理特征点描述子具有较好的区分度,大视角变化下的同名特征点具有较好的相似度。
2.2.3 特征点匹配
考虑到倾斜影像匹配时会存在较多的误匹配点,因此本文首先利用文献[13]的比值提纯法获取左右、右左两视影像的双向匹配点,仅保留满足唯一性约束和比值提纯匹配过程中描述子最近与次近邻欧式距离比值小于0.8的匹配点,并在此基础上利用RANSAC粗差剔除法删掉不满足极线约束的误匹配点(极线约束阈值设为1.5个像素),最后基于如图8所示的几何一致性图约束方法进一步剔除误匹配点,图约束的误匹配点剔除过程如下。
图8 图约束剔除误匹配过程

Fig. 8 The process of gross error elimination by graph constraint method

(1) 首先给定2对最邻近的匹配点 m ( P i , P i ' ' ) m ( P j , P j ' ' ),如图8(a)所示, P i P j为左影像上的 2个临近特征点, P i ' ' P j ' '为右影像上与 P i P j对应的初始匹配点。
(2)假定影像局部范围内的变形可以近似为相似变形,则可通过式(6)计算 P j在右影像上映射点 Q j '的坐标:
x Q j ' = x P i ' ' + σ P i ' ' σ P i L ( P i , P j ) cos α y Q j ' = y P i ' ' + σ P i ' ' σ P i L ( P i , P j ) sin α
式中: σ p i为特征点 P i的尺度 α P i ' ' P i主方向夹角 α = θ P i ' ' - θ P i; θ P i代表特征点 P i的主方向; L ( P i , P j )为特征点 P i P j的像素距离。
(3)在右影像上分别计算 P i ' ' P j ' ' P i ' ' Q j ' P i ' ' Q j '的长度 d i ' , j ' = L ( P i ' ' , P j ' ' ) t i ' , j ' = L ( P i ' ' , Q j ' ) e i ' , j ' = L ( P j ' ' , Q j ' ),然后通过式(7)计算匹配点不可信度 C
C ( m i , i ' , m j , j ' ) = min ( r i , i ' , j , j ' , r j , j ' , i , i ' )
其中, r i , i ' , j , j '可由式(8)获取:
r i , i ' , j , j ' = e i ' , j ' min ( d i ' , j ' , t i ' , j ' )
(4)若不可信度 C ( m i , i ' , m j , j ' ) < 0.5,则认为当前匹配点为正确匹配点,否则视为误匹配点,遍历所有匹配点完成上述过程得到匹配点结果。
利用图约束剔除误匹配后,再通过RANSAC粗差剔除法删除偏离极线1个像素以上的匹配点即可得到最终匹配点,由于本文粗差剔除过程同时顾及到了纹理一致性约束和几何一致性约束,因此最终得到的误匹配点概率也相应降低。

3 实验结果与分析

为验证本文算法的有效性,使用ISPRS提供的IGI-Pentacam倾斜相机平台获取的倾斜影像[31]进行实验验证。IGI-Pentacam倾斜相机平台搭载5个镜头,其结构和相机检校参数如图9表1所示。实验使用的硬件环境为华硕GFX72VY笔记本,处理器为Intel i7-6820HK、主频2.7 GHz,内存16 GB,在WIN10 64位系统下基于Python 3.7和C++实现了匹配算法,使用的深度学习网络框架为pytorch和tensorflow。
图9 两组典型场景的三视倾斜航空影像

Fig. 9 Oblique aerial images of two typical scenes

表1 相机检校参数

Tab. 1 Camera calibration parameters

相机 焦距/mm x0/mm y0/mm 影像大小/pixel Roll/(°) Pitch/(°) Yaw/(°)
163 50.193 50.193 18.345 6132×8176 -0.110 0.119 0.276
148 81.938 81.938 24.186 8176×6132 -0.243 45.134 -0.035
147 82.045 82.045 24.335 8176×6132 -0.506 -44.944 0.692
159 81.860 81.860 24.348 8176×6132 44.926 0.210 0.009
145 82.037 82.037 24.419 8176×6132 -45.198 -0.025 -0.085
本文使用两个典型场景的三视影像进行匹配实验,如图9所示上下两行分别为城区和乡村地区的三视影像图。

3.1 匹配点数量和均匀度对比结果

为了对比本文方法的匹配效果,选取两个典型场景中匹配难度较大的建筑物(建筑物区域影像存在较大的几何变形)和纹理贫乏的林地区域(林地区域影像纹理信息单一)影像块进行匹配实验,6组影像块图像大小为1000像素×1000像素,影像块描述信息如表2
表2 局部影像块描述

Tab. 2 Comparison of computing time

影像组 局部影像块描述 视角关系
A 大型建筑物区域1 下视-前视
B 大视角建筑物区域2 前视-左视
C 建筑物密集区1 下视-左视
D 大视角建筑物密集区2 前视-左视
E 建筑物+平坦区域 下视-前视
F 平坦区域 前视-左视
为定性评价本文方法匹配效果,分别统计2种经典的匹配方法(ISIFT[6]、ASIFT[32]),3种深度学习方法(GeoDesc[12]、SuperPoint[17]、ContextDesc[13])以及本文方法在上述6组局部影像块上的匹配结果。为了避免预处理对匹配结果的影响,除ASIFT外所有的匹配方法均在预处理后的影像上进行匹配,同时考虑到特征点数量对匹配统计结果会产生一定影响,因此仅提取每组数据中特征点响应度从高到低的前M个特征点(M为几种方法提取点数量,提取时保证左右影像特征点数量相同,受影像场景条件影响,特征点数量M不一定相同,M按A-F像对顺序分别为:7600、7150、8400、7400、10000、4130),保证特征点数量相同的条件下统计匹配点数量及特征点复现率,由于ISIFT、ASIFT在特征点提取数量远大于本文方法的同时不能取得良好的匹配结果,因此不再令其特征点提取数量与本文方法保持一致。此外,ISIFT是在单应校正后影像上采用SIFT算子匹配的结果,GeoDesc和ContextDesc方法沿用了原文的SIFT算子检测特征点后获取描述子并匹配。6种方法在6组预处理后影像块上的匹配结果如图10所示。
图10 典型区域影像块匹配对比结果

注:图中1-6行影像对分别对应表2中的A—F。

Fig. 10 The comparison of typical oblique aerial image block matching results

图10的6组影像块匹配结果可以看出,不论是在几何变形较大的建筑物区域还是纹理贫乏的林地影像区域,本文方法获取的匹配点数量和分布均匀度均优于其他方法。具体的,与传统的ISIFT和ASIFT方法,以及使用了SIFT特征点的GeoDesc、ContexDesc方法相比,本文方法在大视角变化的影像(B、C、D两组影像存在明显的几何变形)和弱纹理影像(F组影像)上表现出了较为明显的优势,这主要是因为本文训练的特征点检测网络能够获取几何稳定性更好的特征点,特征点复现率更高(SIFT、ISIFT和ASIFT检测斑点特征对纹理要求更高一些),同时本文描述子顾及了几何、视觉上下文信息要优于传统ISIFT、ASIFT的局部梯度描述方法。与SuperPoint相比,本文方法顾及了图像局部尺度对特征点定位的影响,在高斯热力图尺度空间推理得到的特征点更加稳定,且实现了描述子的旋转不变性,因此在图像旋转和视角变化大的影像上(B、C、D、F影像对)匹配效果有明显的提升。
为定量评价本文方法在倾斜像对上的匹配效果,分别统计上述方法在局部影像块的匹配点数量及匹配点复现率(复现率为匹配点数量/左右影像提取特征点数量最小值),统计结果如图11所示。
图11 匹配点数量与复现率对比结果

Fig. 11 The comparison of matching points and repetition rate

图11的匹配点数量和召回率结果可看出,本文方法相比其他方法能获取更多数量的匹配点,召回率也要好于其他方法,尤其是在几何特征较多的建筑物影像块上(A、C、E)表现出更明显的优势,这说明本文特征点检测网络比较适用于几何特征明显的倾斜摄影影像,且由于使用了高斯热力图尺度空间检测特征点,因此特征点更加稳定、召回率更高。具体地,相比于具备了一定仿射不变性的ASIFT和ISIFT方法,本文方法在视角变化大的影像上匹配效果显著(B、C、D、F),这主要得益于本文描述子同时具备尺度旋转不变性和几何视觉上下文信息;相比于GeoDesc和ContextDesc方法,本文方法检测的几何特征点更利于匹配(C、D);SuperPoint方法虽然具有一定的仿射不变性,但其在倾斜像对上提取的特征点并不稳定,导致匹配结果中部分匹配点存在几个像素的偏移,同时其描述子在局部几何形变明显和纹理贫乏的场景下(D、F)匹配结果不佳。

3.2 匹配点精度对比结果

为了进一步定量评价本文方法的匹配精度,选取图10中2个场景中三视影像的下视-前视、前视-左视影像进行两两匹配,考虑到原始图像本身分辨率较大,本文对图像降采样4倍(降采样后大小为1533×2044)进行匹配,同时将降采样影像导入Visual SFM、COLMAP和Photoscan软件中获取匹配点,如图12图16为本文方法匹配结果。
图12 城区下视-前视倾斜影像匹配点与匹配连线结果

Fig. 12 The matching points and connection line of nadia-front image in urban area

图13 城区前视-左视倾斜影像匹配点与匹配连线结果

Fig. 13 The matching points and connection line of front-left image in urban area

图14 乡村下视-前视倾斜影像匹配点与匹配连线结果

Fig. 14 The matching points and connection line of nadia-front image in rural area

图15 乡村前视-左视倾斜影像匹配点与匹配连线结果

Fig. 15 The matching points and connection line of front-left image in urban area

图16 2个典型区域平差后的三维空间加密点(图例色彩深度为高程值)

Fig. 16 Aero triangulation points of two typical area

表3为本文方法和Visual SFM、COLMAP和Photoscan共3个软件获取的匹配点数量统计结果,表中提取点为两视影像提取特征点数量的平均值,误匹配点为统计匹配点重投影误差后,通过3 σ准则剔除和人工逐对匹配点检查后发现的误匹配点。可以看出,本文方法匹配点数量要优于其他3个软件的匹配方法,尤其是在视角变化较大的前视和左视影像上,本文方法获取到的匹配点数量是其他软件的3倍以上,说明本文方法适合大视角倾斜摄影影像的特征匹配。
表3 匹配点对比结果

Tab. 3 Comparison results of matching points

像对 本文方法 COLMAP Visual SFM Photoscan
匹配点/提取点 误匹配点 匹配点 匹配点 匹配点
乡村下视-前视 1589/15 747 21 115 71 187
乡村前视-左视 599/12 134 13 21 22 12
城区下视-前视 1603/9805 17 466 270 753
城区前视-左视 998/14 949 8 151 80 302
在本文方法获取的匹配点基础上使用最小二乘匹配算法精化匹配点作为参考,统计本文方法与最小二乘精化后的匹配点在XY方向上的误差绝对值均值以及均方根误差作为精度指标,如表4所示。
表4 匹配点误差统计结果

Tab. 4 Statistical results of matching points error

倾斜像对 误差绝对值均值/像素 均方根误差/像素
X方向 Y方向 X方向 Y方向
城区下视-前视 0.3342 0.3432 0.2381 0.2422
城区前视-左视 0.3206 0.3279 0.223 0.2233
乡村下视-前视 0.3052 0.3088 0.2162 0.2207
乡村前视-左视 0.3188 0.3146 0.2283 0.2215
表4可以看出,以最小二乘匹配精化点作为参考值,评价本文方法的匹配点精度在0.4个像素以内。将2组数据的三视图匹配结果导入光束法平差过程,优化求解匹配点三维空间坐标如图16所示,优化后的乡村数据匹配点重投影误差的均方根误差为0.619 448像素,城区影像为0.376 694像素,乡村数据重投影误差偏大的原因推测是匹配点均匀度受到图像弱纹理区域影响,导致优化结果没有达到理想的全局最优,但从最终优化后的三维点和重投影误差来看,本文匹配方法的精度基本可以满足重建的要求。

4 结论

本文面向倾斜航空摄影影像特征匹配,提出一种面向倾斜摄影的深度学习特征点匹配方法,该方法在显著视角变化和纹理单一的场景下能够有效获取到均匀分布的匹配点,匹配点数量和精度基本能够满足重建的需求。本文方法的主要贡献在于:
(1)提出一种结合多尺度的深度学习特征点检测方法。通过在多尺度空间上训练自监督特征点检测网络,从而在高斯热力图尺度空间检测到了更加稳定性的特征点和主方向,实验表明,本文的多尺度特征点检测网络能够明显提升特征点定位精度和复现率,尤其是在大视角变化和纹理贫乏区域,本文方法的特征点复现率是5种对比方法的2倍以上。
(2)本文特征点描述方法结合了尺度、旋转信息和几何视觉上下文信息,获取的描述子具备尺度旋转不变性和全局图像信息,实验结果显示,同等特征点提取数量条件下,本文方法在多数场景下获取的匹配点数量是其余5种方法的2~3倍,且分布更加均匀,可见本文方法能够在大视角和纹理单一的场景下获取更为准确的描述子信息。
(3)搭建了适用于倾斜摄影影像的特征匹配流程。经实验验证,本文匹配方法流程获取的匹配数量和复现率要优于SIFT、ASIFT、SuperPoint、GeoDesc等算法,更加适合倾斜影像获取匹配点。
然而本文方法仍有一些尚待优化的地方,进一步统计本文方法耗时情况后发现,本文方法(GPU加速后)在1000×1000和2044×1533大小的倾斜影像匹配总耗时量分别为8.173 410 s、17.378 732 s,与其他方法相比本文方法构建了高斯热力图尺度空间,同时生成描述符过程结合了GeoDes和ContextDesc,因此耗时量较多,考虑到算法的实用性,因此下一步研究工作中也会综合使用GPU和多线程进一步优化算法从而减少耗时。
[1]
闫利, 费亮, 陈长海, 等. 利用网络图进行高分辨率航空多视影像密集匹配[J]. 测绘学报, 2016, 45(10):1171-1181.

[ Yan L, Fei L, Chen C H, et al. A muti-view dense matching algorithm of high resolution aerial images based on graph network[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(10):1171-1181.]

[2]
陈敏, 朱庆, 何海清, 等. 面向城区宽基线立体像对视角变化的结构自适应特征点匹配[J]. 测绘学报, 2019, 48(9):1129-1140.

[ Chen M, Zhu Q, He H Q, et al. Structureadaptive feature point matching for urban area wide-baseline images with viewpoint variation[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(9):1129-1140. ]

[3]
Lowe D G, Lowe D G. Distinctive Image Features from Scale-Invariant Keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110.

DOI

[4]
Bay H, Tuytelaars T, Gool L V. SURF: Speeded up robust features[C]. Proceedings of the 9th European conference on Computer Vision - Volume Part I, 2006.

[5]
张力, 艾海滨, 许彪, 等. 基于多视影像匹配模型的倾斜航空影像自动连接点提取及区域网平差方法[J]. 测绘学报, 2017, 46(5):554-564.

[ Zhang L, Ai H B, Xu B A, et al. Automatic Tie-point extraction based on multiple-image matching and bundle adjustment of large block of oblique aerial images[J]. Acta Geodaetica et Cartographica Sinica, 2017, 46(5):554-564. ]

[6]
赵霞, 朱庆, 肖雄武, 等. 基于同形变换的航空倾斜影像自动匹配方法[J]. 计算机应用, 2015, 35(6):1720-1725.

[ Zhao X, Zhu Q, Xiao X W, et al. Automatic matching method for aviation oblique images based on homography transformation[J]. Journal of Computer Applications, 2015, 35(6):1720-1725. ]

[7]
Han X, Leung T, Jia Y, et al. MatchNet: Unifying feature and metric learning for patch-based matching[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[8]
Balntas V, Johns E, Tang L L, et al. PN-net: Conjoined triple deep network for learning local image descriptors[EB/OL]. 2016: arXiv: 1601.05030[cs.CV], https://arxiv.org/abs/1601.05030

[9]
Simo-Serra E, Trulls E, Ferraz L, et al. Discriminative learning of deep convolutional feature point descriptors[C]. IEEE International Conference on Computer Vision (ICCV), 2016.

[10]
Tian Y, Fan B, Wu F. L2-Net: Deep learning of discriminative patch descriptor in euclidean space[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017.

[11]
Luo Z, Shen T, Zhou L, et al. GeoDesc: Learning local descriptors by integrating geometry constraints[C]. European Conference on Computer Vision (ECCV), 2018.

[12]
Luo Z, Shen T, Zhou L, et al. ContextDesc: Local descriptor augmentation with cross-modality context[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

[13]
Yi K M, Trulls E, Lepetit V, et al. LIFT: Learned invariant feature transform[C]. European Conference on Computer Vision (ECCV), 2016.

[14]
Verdie Y, Yi K M, Fua P, et al. TILDE: A temporally invariant learned DEtector[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2015.

[15]
Ono Y, Trulls E, Fua P, et al. LF-Net: Learning local features from images[J]. Advances in Neural Information Processing Systems, 2018:6237-6247.

[16]
DeTone D, Malisiewicz T, Rabinovich A. Toward geometric deep SLAM[EB/OL]. 2017: arXiv: 1707.07410[cs.CV]. https://arxiv.org/abs/1707.07410

[17]
DeTone D, Malisiewicz T. SuperPoint: self-supervised interest point detection and description[EB/OL]. 2017: arXiv: 1712.07629[cs.CV]. https://arxiv.org/abs/1712.07629

[18]
Fischler M A. Random sample consensus: a paradigm for model fitting with applications to image analysis and automated cartography[J]. Readings in Computer Vision, 1987:726-740.

[19]
Dániel Baráth, Noskova J, Matas J. MAGSAC: Marginalizing sample consensus[C]. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019.

[20]
Dusmanu M, Schönberger J L, Pollefeys M. Multi-view optimization of local feature geometry[EB/OL]. 2020: arXiv: 2003.08348[cs.CV]. https://arxiv.org/abs/2003.08348

[21]
Ma J, Zhao J, Tian J, et al. Robust Point Matching via Vector Field Consensus[J]. IEEE Transaction on Image Process, 2014, 23(4):1706-1721.

DOI

[22]
Bian J W, Lin W Y, Liu Y, et al. GMS: Grid-based motion statistics for fast, ultra-robust feature correspondence[J]. International Journal of Computer Vision, 2020, 128(6):1580-1593.

DOI

[23]
Sun W W, Jiang W, Trulls E, et al. ACNe: attentive context normalization for robust permutation-equivariant learning[EB/OL]. 2019: arXiv: 1907.02545[cs.CV]. https://arxiv.org/abs/1907.02545

[24]
Sarlin P E, DeTone D, Malisiewicz T, et al. SuperGlue: learning feature matching with graph neural networks[EB/OL]. 2019: arXiv: 1911.11763[cs.CV]. https://arxiv.org/abs/1911.11763

[25]
龚健雅, 季顺平. 摄影测量与深度学习[J]. 测绘学报, 2018, 47(6):693-704.

[ Gong J Y, Ji S P. Photogrammetry and deep learning[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(6):693-704. ]

[26]
Ling Y G, Wang K X, Shen S J. Probabilistic dense reconstruction from a moving camera[EB/OL]. 2019: arXiv: 1903.10673[cs.RO]. https://arxiv.org/abs/1903.10673

[27]
肖雄武, 李德仁, 郭丙轩, 等. 一种具有视点不变性的倾斜影像快速匹配方法[J]. 武汉大学学报·信息科学版, 2016, 41(9):1151-1159.

[ Xiao X W, Li D R, Guo B X, et al. A robust and rapid viewpoint-invariant matching method for oblique images[J]. Geomatics and Information Science of Wuhan University, 2016, 41(9):1151-1159. ]

[28]
Dai J, Zhang J, Nguyen T. A robust and rapid viewpoint-invariant matching method for oblique images[J]. Geomatics and Information Science of Wuhan University, 2019.

[29]
Shen T, Luo Z, Zhou L, et al. Matchable Image Retrieval by Learning from Surface Reconstruction[C]. The Asian Conference on Computer Vision (ACCV), 2018.

[30]
He K, Zhang X, Ren S, et al. Deep Residual Learning for Image Recognition[C]. IEEE Conference on Computer Vision and Pattern Recognition, 2016.

[31]
Nex F, Gerke M, Remondino F, et al. ISPRS Benchmark for Multi-Platform Photogrammetry[C]. Pia15+hrigi15-Joint Isprs Conference. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2015.

[32]
Morel J M, Yu G. ASIFT: A new framework for fully affine invariant image comparison[J]. SIAM Journal on Imaging Sciences, 2009, 2(2):438-469.

DOI

Outlines

/