LiDAR point cloud and optical imagery are different types of remote sensing data source. They have some unique merits, respectively, that are complementary to each other. Integrating these two dataset has significant value in many applications. However, as the existence of various error sources, point cloud and optical imagery are usually misaligned. For the purpose of further integrated processing, the registeration of point cloud and imagery is a preliminary step which will align them into a unified geo-reference frame. Although after decades of research, this registration problem is far from solved. This paper gave a detailed survey of registration between point cloud and optical images. To obtain thorough understanding of this problem, a general mathematical paradigm for the registration was established firstly. By analyzing the mathematical paradigm, we indicated three main difficulties in this registration problem, and then definitely divided the whole workflow of registration into three key parts which are named: (1) the acquisition of corresponding observations, (2) the selection of transformation models; (3) the optimization of unknowns. Afterwards, we reviewed a series of representative registration methods from the above three aspects. In the acquisition of corresponding observations, the existing methods were classified into area-based method, feature-based method and multiple-view geometry based method. In the stage of transformation models selection, frequently-used models were classified into sensor-based models and empirical models. In the unknowns’ optimization part, two principal optimization methods termed local optimization and global optimization were introduced and the general usages of these optimization in registration were described. Furthermore, we summarized the mentioned registration methods and gave a detailed comparison and analysis including the advantages / shortcomings and the applicable scope. At last, the trends of registration development were forecasted.

1 引言

激光探测与测距LiDAR(Light Detection And Ranging)技术在过去20年获得了巨大发展,作为一种主动遥感技术,LiDAR通过发射激光脉冲并接收目标反射信号来直接确定目标的空间位置,具有数据采集速度快、几何定位精度高等优点。而传统的光学影像能获得丰富的地物光谱信息和纹理细节,将2种数据结合可以充分发挥各自的优势,并广泛应用于数字城市、灾害评估、精准农业和林业等领域,取得了巨大的社会经济效益。

2 点云影像配准关键问题

对于机载、车载或地面固定平台获取的点云与影像数据,配准的目标都是实现二者的空间对准,因此尝试建立一般化的配准范式。假设对于某个场景S,由相机采集的光学影像记为IS),由LiDAR采集的点云记为DS),二者之间具有足够的重叠。由于影像是二维数据而点云是三维数据,设影像的坐标参考框架为 Ω I ,( Ω I R 2 ),点云的坐标参考框架为 Ω D ,( Ω D R 3 ),设A,B分别为影像和点云上的一组同名对应集合,其中 A Ω I , B Ω D 。配准过程可以理解为寻找一种合适的转换函数TX)(X为转换函数的参数向量),将二者转换到同一个参考框架下,并实现同名对应集合之间的精确几何对准。用数学形式表达如下:
T ( X ) : T ( X ) B A (1)
假设转换函数T的形式确定后,配准问题实际上是对函数的参数向量X的最优估计问题,即式(2),其中 ϕ 为优化的目标函数。
X ˜ = argmin ϕ ( T ( X ) B - A ) (2)

3 同名观测值获取

与传统的光学影像配准不同,点云和影像之间的巨大差异给同名观测值的确定造成了很大困难。二者之间的数据差异可概括为3个方面:① 二者的物理特性不同,点云反映的是目标对激光波束的后向散射特性以及场景的三维几何特征;而影像则记录目标对太阳光的反射,反映的是目标的物理和材质属性。② 二者的几何模型不同,点云是三维数据,采用的是基于测角和测距的直接定位模型;而影像是二维数据,采用的是基于共线方程的小孔成像模型。③ 二者的采样方式不同,点云是典型的离散采样,其数据分布受激光发射频率和系统扫描频率制约;而影像一般是面阵或线阵成像,是一种连续采样。
为了克服数据之间的差异,自动提取稳定可靠的同名观测值,学者们提出了许多方法。根据观测值的类型,本文将配准算法划分为3类:基于区域 的方法、基于特征的方法和基于多视几何的配准 方法。

3.1 基于区域的方法

基于区域的方法可以看成是一种传统的模板匹配方法,直接对给定模板窗口内的图像灰度信息进行处理,不需要提取特征,配准时计算影像对应窗口内的像元相似性,并将窗口中心点作为同名对应点。在处理影像与点云配准时,需要预先将点云转换为强度影像、DSM或距离图像(Range Image)。基于区域的配准方法可进一步分为空间域方法、频率域方法和统计方法。
3.1.1 空间域方法
空间域的配准方法通常也被称为基于影像灰度的配准方法(Intensity-based Method)[1,4],此类方法在空间域上直接比较影像窗口内灰度分布的相似程度。算法执行时,首先在参考影像上选择一个窗口,统计窗口内的灰度信息,然后在待配准影像上搜索,找到与参考影像窗口最相似的区域,将2个区域的中心点作为同名对应点,这类算法的关键问题在于相似性度量函数的设计。传统影像配准中常用的相似性度量函数有差绝对值SAD(Sum of Absolute Differences)、差平方和SSD(Sum of Squared Differences)、归一化相关系数NCC(Normalized Cross Correlation)、等级相关RC(Rank Correlation)、相关比CR(Correlation Ration)等[5]。由于光学影像和由点云产生的强度影像或DSM在灰度映射模式不同,二者在灰度值上存在很大相同,因此直接使用上述相似性测度难以获得稳定可靠的结果,Umeda等[6]和Duraisamy等[7]从光学影像和DSM上提取梯度信息后进行配准,而在文献[8]中通过结合局部自相似性特征(LSS)和NCC设计了一种形状相似性测度LSCC来克服影像之间非线性的灰度差异。基于区域的方法不需要预先对影像上的特征进行提取和定位,而是侧重于比较影像对应区域内所有像素点之间的相关性。
3.1.2 频率域方法
3.1.3 统计方法
由于光学影像与激光点云是由不同类型的传感器获得的数据,影像灰度值与点云强度值、高程值之间存在较大的差异,但对于同一个场景目标,其影像灰度和点云强度或高程存在一定的统计相似性,因此可以通过估计2幅图像像元灰度之间的联合概率分布来判断图像之间的相关性。互信息MI(Mutual Information)是信息论中的一种信息度量,最初被用来衡量2个随机变量之间的统计相关性,在医学影像[15]和多源遥感影像[16-18]的配准问题上已经取得了巨大的成功。近年来,互信息也被用于光学影像与激光点云的自动配准。邓非等[19]直接利用互信息作为相似性测度来衡量光学影像和点云强度影像之间灰度分布的相似性,并采用梯度下降法进行迭代优化。然而仅利用灰度互信息的配准方法忽视了图像上灰度特征本身所具有的空间位置信息,王蕾[20]用两张影像的梯度方向夹角对灰度互信息进行加权,改善了配准精度。闫利等[21]利用互信息对车载激光点云和全景影像进行配准。Mastin等[22]为了提高配准效率,采用最小化联合熵(Joint Entropy)对机载点云与影像进行配准。Wang等[23]指出车载LiDAR数据的联合熵易受小扰动的影像,而互信息更适合车载数据的配准。Parmehr等[24]则同时用激光点云的强度信息和高程信息与光学影像配准,采用归一化联合互信息NCMI(Normalized Combined Mutual Information)来度量三者之间的统计相关性。

3.2 基于特征的方法

3.2.1 点特征
基于特征点的配准中,特征描述是另一个关键问题,一些学者直接利用SIFT(Scale Invariant Feature Transform)[32]对光学影像与点云强度影像上的特征点进行描述,这种方法对地面激光扫描数据处理效果较好,但对机载数据却不理想[33]。Ju等[34]认为主要原因是地面激光点云与影像之间分辨率较为接近,而机载点云与影像间存在较大的尺度差异。此外点云强度值、高程值与影像灰度值之间的非线性差异,也会造成SIFT描述子失效。针对这些问题,Ding等[27]从几何关系着手,利用特征点所属的两条边缘线的夹角,设计了一种角度特征描述子;Bodensteiner等[35]和叶沅鑫等[8]利用邻域内像素灰度值之间的关系,设计了一种自相似性特征描述;Palenichka等[36]综合考虑了特征点的平面位置属性、邻域形状特征以及强度特征,设计了一种Salient Image Disk(SID)描述,取得了较为理想的效果。总的来看,点特征算法发展较为成熟,且在纹理丰富的区域效果较好。但由于点特征可区分性不高,在弱纹理和重复纹理较多的场景中,这一方法往往会失败,需要进行特殊的设计和改进[25]
3.2.2 线特征
线特征是对场景中线状几何结构的反映,对影像的辐射差异、成像角度变化更为鲁棒。Habib等[37]和马洪超等[38]将线特征作为配准基元,建立了二维影像和三维点云之间的几何平差模型。Yao等[39]从点云中提取屋脊线和屋檐线,与光学影像上的灰度边缘进行配准。徐景中等[40]对提取的直线按照距离、角度等几何关系进行筛选和聚类,进一步构造出结构特征,并利用这些线特征进行匹配。Wang等[41]为了减少对线特征的漏检,设计了一种新的检测策略,然后基于检测到的特征线构造了具有更好区分性和重复率的结构特征3CS(3 Connected Segments)用于配准。基于线特征的配准当前的研究主要聚焦在如何合理的提取特征线,如何构造具有更好区分性的结构特征上。在特征描述方面与点特征略有不同,主要是基于角度、距离等几何信息进行描述,特征匹配时利用RANSAC[41]或Hough[27]变换等优化算法,根据给定的几何约束条件搜索可能的匹配结果。
3.2.3 面特征
3.2.4 多特征融合
多特征融合并不是一类独立的方法,而是一种利用多种类型特征的综合框架。由于基于特征的配准需要有一定数量且分布均匀的特征,而在一些情况下采用单一类型的特征很难满足要求,因此一些学者提出了融合多种类型特征的配准思路。Habib等[46]推导了基于点、线、面特征进行影像与点云配准时的几何平差模型。张良等[47]同时利用SIFT点特征和边缘线特征进行配准,并根据局部空间中点-线相似不变性,用匹配点的相似变换参数来辅助线匹配,最后对匹配点和线特征进行联合平差求解配准参数。Zhang等[48]则综合利用Harris角点和BCF(Building Corner Feature)特征,首先在影像上提取Harris角点与点云生成的强度影像匹配,然后在原始点云和光学影像上检测BCF特征并进行配准。从上述公开发表的成果中看,多特征融合的方法,可以显著提高匹配特征的数量。

3.3 基于多视几何的配准方法

为了克服三维激光点云和二维光学影像之间特征差异大这一问题,一部分学者考虑对配准的数据源进行转换,利用多视几何原理从影像序列中恢复出三维信息,从而将三维激光点和二维影像的配准转化为2个三维点集的空间配准问题。Leberl等[49]对比分析了影像匹配点云和激光扫描点云,指出二者之间具有很多相似之处,相比于影像与激光点云的直接配准,2个三维点集之间的配准更容易实现。Postolov等[50]从影像中手工选择建筑物屋顶区域并匹配出屋顶的三维坐标,然后从激光点云中选择对应的屋顶点,采用共面约束进行迭代最小二乘配准。Stamos等[51]利用SIFT特征对影像序列进行匹配,然后用SFM(Structure From Motion)恢复稀疏的三维点云,最后将影像点云和激光点云配准。Zheng等[52]采用类似的思路首先对序列影像进行光束法平差,然后将平差得到的三维连接点坐标与激光点云按照ICP(Iterative Closest Point)方法进行匹配,最后用匹配出的同名激光点坐标来优化光学影像的内外方位元素。为了提高点集匹配时的稳健性,Li等[53]用PCA方法从扫描点云中检测平面,用匹配点到对应平面的距离代替ICP中最近点距离进行迭代平差;陈驰等[54]和Yang等[55]则采用相对运动阈值对ICP搜索对应点的过程进行约束。

4 几何转换模型


4.1 传感器严格模型

4.1.1 共线方程
共线方程是表达影像成像过程的一种经典数学模型,该模型基于小孔成像原理,描述了摄影瞬间物点、摄影中心和对应像点必须共线。其基本形式如式(3)所示,其中(X, Y, Z)是物点坐标,(x, y)是对应像点坐标,(x0, y0, f)为相机的主点坐标和主距,合称为内方位元素,(Xs, Ys, Zs)为像片曝光时刻的位置,R为像片姿态角 φ , ω , κ 构成的旋转矩阵, λ 为归一化比例尺因子。
x - x 0 y - y 0 - f = 1 λ R T X - X S Y - Y S Z - Z S (3)
利用共线方程进行配准时,一般以激光点云作为参考,在共线条件约束下,对影像的内外方位元素进行纠正。例如,Gneeniss等用激光点云作为控制对光学影像配准并对相机的内方位元素进行检校,取得了良好的效果[58]。由于共线方程中的旋转矩阵是角元素的非线性函数,陈为民等[59]利用罗德里格矩阵代替旋转矩阵,实现点云与影像的配准。此外,由于3个欧拉角 φ , ω , κ 无法表示欧式空间中的连续转动,一些学者采用四元数来描述旋转关系,提高了参数求解的稳定性[60-61]
4.1.2 直接线性变换
直接线性变换(Direct linear transformation,DLT)是通过对共线方程的简化,直接建立像点坐标和物点坐标的线性对应关系,其基本形式如 式(4)所示,其中(l1, …, l11)为直接线性变换参数。
x + l 1 X + l 2 Y + l 3 Z + l 4 l 9 X + l 10 Y + l 11 Z + 1 = 0 y + l 5 X + l 6 Y + l 7 Z + l 8 l 9 X + l 10 Y + l 11 Z + 1 = 0 (4)
4.1.3 鱼眼相机模型
由于普通相机的视场角较小,在城市街景测绘中,为了获得更大的视场,常常采用鱼眼相机。与传统镜头相比,鱼眼镜头采用非线性光学结构设计,不能用传统的共线方程来描述其成像几何关系。鱼眼相机的成像几何可以简单的看成是用不同类型的曲面去替换传统共线方程中的像平面[64],因此从物方到相方的构象方程也不固定,与具体的镜头性质有关。为了对鱼眼影像进行配准,常用的方法有2种:① 根据选定的构象方程对鱼眼影像进行图像校正,然后对校正后的影像利用传统的共线方程进行配准;② 利用鱼眼相机模型将点云采样成鱼眼视角下的距离影像,然后再进行二者的配准[65]
4.1.4 全景成像模型

4.2 经验模型

4.2.1 多项式模型
4.2.2 薄板样条模型

5 参数优化方法

当点云与影像之间的同名观测值和几何转换模型确定以后,需要利用优化方法获得模型参数的最优估计。配准中的参数优化问题一般可以表示为式(5),其中Ai, Bi为第i对同名对应点,将对应点坐标差值的平方和最小作为优化目标。
X ˜ = argmin i = 1 n ( A i - T ( X ) B i ) 2 (5)
如果将同名观测值提取也看成是一个优化估计问题,我们可以将同名观测值的确定与配准参数估计放在同一个优化过程中,如式(6)锁死,其中 Sim 是相似性度量函数。优化的目标是实现精确配准时所有同名点的相似度达到最大。
X ˜ = argmax i = 1 n Sim ( A i , T ( X ) B i ) (6)

5.1 局部优化

另外,在实际应用中,得到的同名观测值中难以避免会混入一些粗差点(Outliers)。这些粗差对结果影响极大,常常造成求解过程无法收敛,因此研究者常常在每次迭代完成后,增加一个稳健估计的步骤,对同名观测值进行检查。常用的稳健估计方法有RANdom SAmple Consensus(RANSAC)算法和选权迭代法。

5.2 全局优化

全局优化方法则是直接在待求未知数的解空间上进行全局搜索,以获得全局最优解。最基本的全局优化方法是穷举法(Brute-Force)。假设待求的转换参数是像片的3个线元素和3个角元素,它们的取值方位都是 0,1 ,如果采用0.1的间隔对取值区间进行量化,总共有需要搜索106种组合。可见穷举效率较低,而且解算精度和量化间隔相关,减小量化间隔又会极大的降低求解效率。
在利用互信息或ICP进行配准时,真正的同名观测值开始并不知道,需要进行一个迭代的搜索-配准参数求解过程。整个问题变成了一个无导优化问题(Derivative-free optimization,DFO),传统的最小二乘优化无法求解,部分学者利用全局搜索的优化方法,实现了观测值搜索和转换参数估计的整体优化。

6 方法比较

Tab.1 The comparison of correspondence extractions

表1 观测值获取方法比较

方法 数据源 特征提取 特征描述 相似性测度 鲁棒性 配准精度 备注
基于区域的方法 空间域方法 光学影像,强度影像或DSM 不需要 不需要 SAD,SSD,NCC,LSCC 较差,对灰度差异敏感 速度较慢,适用于机载数据
频率域方法 光学影像,强度影像或DSM 不需要 不需要 相位相关 对噪声和灰度差异具有一定鲁棒性 很高 计算速度快,适用于机载数据
统计方法 光学影像,强度影像或DSM 不需要 不需要 互信息 对灰度鲁棒性好 需要较好的初值,适用于机载、车载和地面固定站
基于特征的方法 点特征 光学影像,强度影像或DSM 检测角点或斑点 基于邻域内的灰度或几何结构的描述子 KNN或NCC 对灰度差异和几何变形鲁棒 自然场景和人工场景内都存在丰富的点特征,适应范围广
线特征 光学影像,强度影像或DSM 检测边缘,边缘编组 几何特征描述子 基于距离、角度等几何关系的判断 对灰度差异和几何变形鲁棒 适合城市区域,常用于车载数据和地面固定站数据
面特征 光学影像,激光点云或DSM 光学影像上检测纹理均质区域,点云中检测平面 不需要 基于距离判断 适合进行粗配准
多视几何配准方法 光学影像序列,激光点云 光学影像序列中恢复三维信息 不需要 基于ICP的对应点提取 需要较好的初值,常于车载数据
Tab.2 The comparison of transformation models (NA for not available, * for available )

表2 几何转换模型比较(NA表示不需要或不适用,*表示适用)

模型 所需附加数据 精度 适用平台 适用领域
机载 车载 地面
共线方程 相机参数 * * * 大部分应用领域
直接线性变换 NA 较高 * * * 城市场景
鱼眼相机模型 相机参数 NA * * 城市或室内场景
全景成像模型 全景模型参数(某些方法需要相机参数) 较高 NA * * 城市或室内场景
多项式模型 NA 一般,和对应点数量和分布相关 NA NA * 对精度要求不高的单片配准应用
薄板样条模型 NA 高,但需要大量对应点 NA NA * 基于地面平台的高精度纹理映射
Tab.3 The comparison of optimization methods

表3 优化方法比较

优化方法 适用问题 优化能力 计算效率
局部优化 适用于同名观测值已确定,仅需要对转换函数进行优化求解的情况 能够得到局部最优解,易受初值的影响 计算速度快
全局优化 能够同时优化同名观测值提取和转换函数估计 能够得到全局最优解 计算速度较慢

7 结论与展望

(1)同名观测值的获取是配准问题的难点,也是今后研究的重点。为了提取稳定可靠的同名观测值,需要克服影像与点云之间的几何与辐射差异,对于二者的几何差异,一种有效的思路是利用影像和点云之间的近似位置关系进行初步的几何纠正,一般采用虚拟成像技术,将点云投影到指定像平面,构造出中心投影的虚拟影像,利用虚拟影像进行配准即可初步消除二者之间的几何变形和尺度差异。对于点云与影像之间的辐射差异,主要是由于激光点云的强度值及高程值与光学影像的灰度值之间存在不同的灰度映射模型,造成二者之间的非线性差异。目前的解决思路是采用分块线性转换[12]或MTM(Matching by Tone Mapping)非线性灰度映射技术[76]来对辐射差异进行建模,并在配准过程中同时求解几何变换参数和辐射参数。此外,为了获得数量丰富且分布均匀的同名观测值,综合利用点、线、面等多类特征的方法也越来越受重视,且采用分块方式对不同区域的特征数量进行平衡也称为一种重要的策略。在特征描述方面,邻域内的梯度方向信息越来越受到重视,结合灰度信息和方向信息的描述子比传统方法具有更好的可区分性;在相似性测度方面,互信息成为一种主流的测度,对互信息的稳健性、收敛性问题的研究逐渐深入,在概率密度函数估计、互信息加权等方面,都出现了一些针对性的改进方法[77];在多视几何配准方面,研究主要集中在三维点集之间的ICP配准改进方法上,通过选取具有几何稳定性的特征点[78-79],改进对应点搜索策略[80],以及对ICP进行全局优化求解[75]来提高算法的稳定性和计算效率。

