地球信息科学理论与方法

结合三维边缘特征约束的网格模型优化方法

  • 张昊 , 1 ,
  • 王竞雪 , 1, * ,
  • 谢潇 2
展开
  • 1.辽宁工程技术大学测绘与地理科学学院,阜新 123000
  • 2.中国科学院沈阳应用生态研究所 辽宁省环境计算与可持续发展重点实验室,沈阳 110116
*王竞雪(1981—),女,辽宁兴城人,博士,教授,博士生导师,主要研究方向为近景摄影测量与计算机视觉。 E-mail:

张 昊(1997—),男,四川成都人,硕士,主要研究方向为网格模型构建与优化。E-mail:

收稿日期: 2023-10-26

  修回日期: 2024-02-26

  网络出版日期: 2024-05-21

基金资助

国家自然科学基金面上项目(41871379)

辽宁省兴辽英才计划项目(XLYC2007026)

辽宁省应用基础研究计划项目(2022JH2/101300273)

辽宁省应用基础研究计划项目(2022JH2/101300257)

Optimization of Mesh Model with 3D Edge Feature Constraints

  • ZHANG Hao , 1 ,
  • WANG Jingxue , 1, * ,
  • XIE Xiao 2
Expand
  • 1. School of Geomatics, Liaoning Technical University, Liaoning, Fuxin 123000, China
  • 2. Key Laboratory for Environment Computation & Sustainability of Liaoning Province, Institute of Applied Ecology, Chinese Academy of Sciences, Shenyang 110116, China
*WANG Jingxue, E-mail:

Received date: 2023-10-26

  Revised date: 2024-02-26

  Online published: 2024-05-21

Supported by

National Natural Science Foundation of China(41871379)

Liaoning Revitalization Talents Program(XLYC2007026)

Fundamental Applied Research Foundation of Liaoning Province(2022JH2/101300273)

Fundamental Applied Research Foundation of Liaoning Province(2022JH2/101300257)

摘要

对于具有复杂几何结构特征的建筑物,三维网格模型重建结果易存在表面扭曲、边缘特征平滑的问题,无法较好地反映重建目标的真实信息。针对上述问题,本文提出一种结合三维边缘约束的网格模型优化方法。该方法以OpenMVS算法得到的初始网格为基础数据,利用变分原理构建能量函数,将网格模型优化问题转换为能量函数最小化问题。首先,从多视图像中提取三维边缘点,以三维边缘点构成的边缘轮廓来定位网格模型边缘区域;接着,利用灰度一致性测度构建数据项,利用顶点自身曲率构建平滑项,利用三维边缘轮廓约束构建附加约束项,将3个约束项构建为一个总体能量函数;最后,采用梯度下降法迭代求解总体能量函数最小值,将梯度变化量分配到网格模型的顶点上来驱动网格形变,以此优化模型。选取Strecha数据集中两个真实室外场景和ETH3D数据集中一个真实室内场景进行优化实验,使用ETH3D评估框架对实验结果进行评估。结果表明,经本文算法优化后的网格模型完整度和精度最高为89.76%、94.45%,本文算法在解决复杂几何结构建筑物模型边缘优化问题的基础上,提高了建筑物模型的准确程度。

本文引用格式

张昊 , 王竞雪 , 谢潇 . 结合三维边缘特征约束的网格模型优化方法[J]. 地球信息科学学报, 2024 , 26(5) : 1138 -1150 . DOI: 10.12082/dqxxkx.2024.230633

Abstract

The dense point cloud of the urban scene reconstructed by Multi-View Stereo reconstruction technology (MVS) often contains noise, resulting in surface distortion of the generated model and loss of some edge features, which cannot well reflect the real information of the reconstructed target. To solve these problems, a variational method combining 3D edge constraints is proposed to optimize the mesh model. Based on the initial grid data obtained by MVS algorithm, the energy function is constructed by the variational principle, and the grid model optimization problem is transformed into an energy function minimization problem. Firstly, the initial grid model is reconstructed from the dense point cloud. Then, the energy function is constructed by using the luminosity consistency measure, using the vertex curvature as the smooth term, and using the three-dimensional edge point constraint as the additional constraint term. Finally, the gradient descent method is used to solve the minimum energy function iteratively, and the grid deformation is driven by discretizing the gradient change to the vertex of the triangle to optimize the model. In order to construct 3D edge constraints, 3D edges must be extracted first. In this paper, 2D edges are extracted from multi-view images first, and the 2D edges are represented as multi-segment lines according to the polar constraints. Then, the 2D multi-segment line nodes are restored as 3D edge points according to the polar constraints, and the 3D edge points of the recovery points are a series of 3D multi-segment lines representing the edge outline. Finally, the edge region of the mesh model is located by taking the vertex of the mesh model closest to the 3D edge point as the neighborhood point. In this way, 3D edge features are constructed. In order to verify the effectiveness of the proposed algorithm, two real outdoor scenes from the Strecha dataset and one real indoor scene from the ETH3D dataset are selected to evaluate the reconstruction results of the proposed algorithm. In addition, the efficiency of this algorithm is analyzed by comparisons with other algorithms. Experimental results show that the proposed algorithm can effectively improve the accuracy and integrity of the grid model and retain the edge features of the target better on the grid model.

1 引言

基于多视图立体视觉(Multi-View Stereo,MVS)的三维重建技术利用多个视角获取的图像或视频重建三维场景。它能捕捉目标物体丰富的纹理信息,且灵活性高,适用范围广泛。因此,能够生成高精度、多细节网格模型的MVS方法一直是摄影测量和计算机视觉领域研究的关键热点。
MVS的主要流程包括多视角相机校准、图像采集、稀疏点云重建、稠密点云重建、网格模型构建、网格模型优化、纹理映射。从数据采集到稠密点云重建这些过程的现有方法均已成熟[1-3]。网格模型构建是将点云数据转换为三维模型表面的关键过程。目前主流的网格模型构建方法有泊松重建(Poisson Surface Reconstruction,PSR)[4]、移动最小二乘重建(Moving Least Squares,MLS)[5]、Delaunay四面体表面重建。其中泊松重建会用曲面拟合点云数据,这种方法本身会具有一定程度的抗噪性,但是在去除噪点的同时也会损失网格模型的一部分几何细节。MLS算法在点云中的每个点周围使用局部多项式拟合,这使其对噪声的鲁棒性较好,但MLS有着较高的计算成本。Delaunay四面体表面重建算法能够较好地重建出模型细节,目前广泛使用的Delaunay四面体表面重建算法[6]通过对Delaunay四面体的内外进行标记,利用最小s-t切割构造曲面,这使得Delaunay四面体表面重建算法具有一定的抗噪性,但其自身没有平滑网格模型表面的措施,导致重建出的网格模型表面缺乏平滑性。在此基础上,Vu等[7]引入灰度一致性约束与正则化约束,优化了模型表面的平滑性,并设计了可扩展的变分精化框架来提高网格模型的准确性,使得基于变分法的重建算法能够应用于重建在不受控制的成像条件下拍摄的大规模混乱场景。
在城市场景中,遮挡、反射等问题是普遍存在的。存在这种问题的区域在图像上表现为弱纹理区域。Nair等[8]使用全局信息同时估计图像中所有像素的深度,以此推断出弱纹理区域的深度。Stathopoulou等[9]利用图像像素上的语义标签施加特定类别的几何约束,以此填补弱纹理区域的信息空白。Jancosek等[10]改变了最小s-t切割曲面构造中的t边权值来重建弱纹理的曲面,有效应对了对遮挡及灰度变化显著的区域进行重建时所面临的挑战。此外,城市场景中存在复杂的结构和几何特征,多种不同种类的建筑物要素在三维空间中有着复杂关联性,这使得由轮廓锥体构建可视外壳的方法[11-15]难以有效处理城市场景中复杂的几何关系。但通过几何轮廓来约束网格模型的方法是有效的。一些方法通过在重建过程中嵌入几何特征信息的方法来优化网格模型,Bódis-Szomorú等[16]使用三维直线作为约束,进行Delaunay受限剖分,生成有显著线特征的网格模型。Guo等[17]使用三维直线作为约束,驱动三维直线附近的网格模型顶点形变,重建出带有锐利边缘的建筑物模型。在此基础上,一些方法通过基于图像定义的纹理驱动力和几何轮廓驱动力使模型产生趋于现实场景的形变。俞思帆等[18]提出一种在像方坐标系下约束直线边缘的方法,通过二维线特征定位网格模型边缘,并对边缘区域顶点附加多视线特征约束。邓非等[19]拓展了变分精化框架,依据从多视图像中提取的三维直线来约束模型的直线边缘。以上方法均未考虑到城市场景中同样包含较多的曲线边缘。 Romanoni等[20]提出使用三维边缘点作为特征点来进行Delaunay四面体重建,重建出具有更好几何视觉效果的网格模型,Bignoli等[21]提出一种估计三维边缘点的方法,将二维边缘图像识别为二维多段线集合,根据多段线上的节点来匹配同名多段线,运用极线约束恢复二维边缘的三维位置,并展示了使用三维边缘点进行Delaunay四面体表面重建对模型视觉效果的改善,恢复的三维边缘点集能够表示目标的三维曲线特征和直线特征,但将三维边缘点直接加入到密集点云中会使边缘区域的点云过于密集,不利于构建网格模型表面。
鉴于以上方法对目标建筑物的不规则边缘约束有限,本文基于变分原理,提出一种结合三维边缘特征约束的网格模型优化方法,对重建的模型引入三维边缘特征信息,将三维边缘轮廓位置差异定义为模型优化的轮廓驱动力,将图像灰度信息差异定义为模型优化的纹理驱动力,将纹理驱动力和轮廓驱动力构建能量函数,并引入与两个驱动力互补的正则化力,通过最小化能量函数来驱动网格模型顶点位置变化来优化网格模型。该方法主要贡献体现在以下3个方面: ① 通过三维边缘点集与模型边缘区域顶点的位置差异作为模型优化的轮廓驱动力,相对于使用三维直线约束网格模型的方法,本文算法解决三维几何约束无法顾及曲线特征的问题; ② 本文以网格顶点与其邻域顶点的曲率信息构建正则化约束,与三维边缘约束构成互补关系,可有效避免三维边缘约束可能造成的模型表面异常凸起或凹陷; ③ 通过设置自适应距离阈值定位三维边缘邻域点,且满足距离阈值的邻域点不能为同一三角形中3个顶点,增加了三维边缘约束的稳健性,有效避免出现狭长三角形而在模型纹理映射阶段出现失真的问题。

2 算法原理

本文在初始网格模型的基础上,利用变分原理构建能量函数,将网格模型优化问题转换为能量函数的最小化问题,驱动顶点向顶点的更优解位置移动,以此优化网格模型。算法流程如图1所示,首先是由多视图像重建出初始模型和三维边缘特征点。以Delaunay四面体重建网格模型作为初始网格模型;以一系列连续的三维边缘点作为三维边缘特征,根据三维边缘点定位模型边缘区域。接着,基于图像纹理信息构建灰度一致性项,基于网格顶点的邻域曲率信息构建正则化项,基于三维边缘特征构建三维边缘约束项。依据3个约束项构建总体能量函数E(V)。最后,用梯度下降法最小化能量函数,驱动三维模型顶点位置更新,以此优化模型表面。
图1 网格模型优化技术路线

Fig 1 Flow chart of mesh model refinement

2.1 模型重建

本文算法以Delaunay四面体重建算法重建出的网格模型为初始网格模型,采用OpenMVS算法提供的Delaunay四面体重建方法构建网格模型,重建参数设置为默认参数。三维边缘点提取以及初始网格构建所需的初始点云由OpenMVG算法使用默认参数进行重建获得。

2.1.1 三维边缘特征提取

本文将三维边缘点集作为目标轮廓的三维表示,以此作为目标的三维边缘特征。采用文献[21]中EdgeGraph3D算法提取三维边缘点。首先使用嵌入置信度的边缘检测[22]算法对多视图像进行边缘检测并生成边缘图像,将边缘图像中的边缘提取为二维折线边,并对折线进行平滑以匹配边缘。接着,依据二维折线上的节点建立二维折线边的对应关系,通过对二维折线进行采样,采样方法为沿折线方向移动一个固定长度,依据折线边对应将二维边上的采样点通过极线约束来恢复出二维边缘采样点的三维位置。本文参考文献[21]中方法将固定长度设为10个像素大小。最后,对3D多段线边缘进行可见性细化和异常值过滤,恢复的三维边缘点序列定义了一条三维折线来表示三维边缘。提取的三维边缘点间隔小于初始网格模型的平均三角网边长,因此,可以检测模型边缘区域的网格顶点的最邻近三维边缘点,驱动边缘区域网格顶点向其最邻近的边缘顶点移动,以此构建三维边缘特征约束。使用DTU数据集[23]提取的三维边缘点如图2所示,可见提取的三维边缘点可以表示目标的直线特征和曲线特征。
图2 三维边缘点

Fig. 2 3D edge points

2.1.2 三维边缘邻域点定位

本文将从多视图像中提取的三维边缘点集表示为{ei, i=1, 2, …, X},X为三维边缘点总数。如图3所示,寻找网格顶点vi的最邻近三维边缘点ei作为其邻域点,具体邻域点定位过程如下:
图3 三维边缘点约束示意图

Fig. 3 Schematic diagram of 3D edge points constraints

(1)初始网格模型中顶点的集合为$V=\left\{v_{i}\right., i=1,2, \cdots, Y\}$,Y为所有网格顶点总数。以网格顶点vi为节点,计算vi与三维边缘点ei的欧式距离dis(vi, ei),选择距离最短的值MinD=dis(vi, ei)对应的三维边缘点ei作为vi的最近点。
(2)判断MinD是否小于距离阈值γ,小于距离阈值γ的三维边缘采用点被看作邻域点。阈值γ大小设置为初始网格中三角形平均边长的二分之一,将满足距离阈值γ的网格顶点vi与其邻域点ei构成点对,加入到集合Vpair中。
(3)根据集合Vpair中的网格顶点的索引,判断vi所在三角网内的其余两个顶点是否在集合Vpair中,如果其余2个顶点都在集合Vpair中,则舍弃同一三角形内最大dis(vi, ei)值对应的网格顶点vi以及其对应的最邻近三维边缘点,如图3所示。最终得到的网格顶点与其对应的最邻近三维边缘点e'i构成集合Vpair,其距离表示为dis(e'i, ei)。
另外,在寻找最邻近点的过程中,可能出现同一个三维边缘点为多个网格模型顶点的最邻近点,因此,如果一个顶点已经有满足阈值γ三维边缘点后,此三维边缘点不再参与运算,该处理也减少了运算时长。

2.2 构建能量函数

本文构建的能量函数是对模型优化过程的公式化,优化过程中不改变模型表面三角面片的拓扑结构,因此可将网格表面的能量转换为网格顶点的能量并记为E,总体能量函数记为E(V),表示为:
E V = E e r r o r N V + E e d g e V + E s m o o t h V
式中: E e r r o r N V为数据项,由灰度一致性约束表示,根据图像灰度信息来修改网格顶点位置,以此保持顶点对应的灰度信息在多个相关图像上的一致性; E e d g e V为附加约束项,由三维边缘特征约束表示,用于将边缘区域的顶点约束在三维边缘上; E s m o o t h V为平滑项,由一阶、二阶拉普拉斯算子表示,用于平滑相邻顶点之间的位置差异;此外, E e r r o r N V E e d g e V改变了顶点的位置,可能造成模型表面的错误凸起或凹陷, E s m o o t h V E e r r o r N V E e d g e V成互补关系,平滑这类凸起或凹陷。用3个能量项加权相加后得到总能量函数E(V),通过梯度下降法最小化能量函数E(V)。最后,将最小化能量函数引起的梯度变化量分配到网格顶点上,实现网格顶点的位置优化,该算法在驱动网格顶点向更优解形变和更新顶点位置之间交替进行。

2.2.1 灰度一致性约束

基于可见性信息的一致性,灰度一致性约束确保不同视角下图像中的灰度信息与重建模型顶点的投影一致。归一化交叉相关系数(Normalized Cross-Correlation,NCC)和零均值归一化交叉相关系数(Zero Mean Normalized Cross-Correlation,ZNCC)都是常用的图像之间灰度一致性的度量函数,但NCC不考虑图像的零均值,这一点导致在灰度变化大的场景下鲁棒性较低,因此本文使用ZNCC作为灰度一致性计算测度,参考文献[7]方法将数据项定义为一个离散网格模型的所有三角面片上的灰度一致性测度的总和,如式(2)所示。
E e r r o r N V = f F I A , I B V f r x i C f , I A , I B
式中: f为像素xi投影到模型表面所在的物方三角面片; F为网格模型中所有三角形表面的集合;IAIB为一对可见表面f的图像;Vf为可见表面f的图像对集合; C f , I A , I B为表面f在2幅图像IAIB上的灰度一致性测度。对于每个考虑的图像对,该测度函数表示像素xi所对应的表面f投影在图像IA的区域与投影在图像IB的区域之间的相似程度。
在计算灰度一致性测度不可靠的地方,特别是在无纹理和低纹理的图像区域,需优先考虑正则化项。因此,通过添加可靠因子rxi)作为灰度一致性约束的权重系数来解决灰度一致性约束项和正则化项之间的平衡问题,将每个图像对IAIB中对应像素点x处加入可靠性因子权重项,r(xi)计算[7]如式(3)所示。
r x i = m i n σ A 2 , σ B 2 m i n σ A 2 , σ B 2 + ε 2
式中: σ A 2 σ B 2分别表示像素xi所对应的表面f投影在图像IAIB的区域的局部方差; ε2是一个常数,本文参考文献[19],将此常数设为0.001 5。可靠性因子越大,说明灰度一致性约束项更加稳健,所占权重更大。
构建能量函数后,计算当前顶点的能量函数梯度值,驱动顶点沿着梯度的负方向移动,使得能量函数最小化。假设vi(xi,yi,zi)是网格模型上的顶点,当前顶点的能量函数的梯度计算方式如下:
E v i = E x i , E y i , E z i
为了提高算法效率,灰度一致性约束项的梯度不会根据坐标轴方向分别计算三次,而是只沿着顶点法线方向计算一次,灰度一致性梯度是投影到法线上的;另一方面,法线方向通常是灰度一致性约束的关键方向,因此只用其在法向量方向的投影。根据链式法则推导的灰度一致性约束项梯度如式(5)所示
E e r r o r   N V = d 1 - Z N C C d I   d I d x   d x d V N V N V
式中:N(V)为当前顶点的法向量;第一项 d ( 1 - Z N C C ) d I ( 1 - Z N C C )指数对图像灰度的导数,表示在图像上应用梯度算子来计算梯度;第二项 d I d x为图像灰度对像方点的导数,表示在像方点坐标横向和纵向上的梯度分量;第三项 d x d V为像方点对物方点的导数,表示像方点与物方点位置变化的映射关系,将相机成像方程推导为雅可比矩阵形式求解。最终求解的梯度变化量应用到此三维点所在的三角形的重心坐标上,再由重心坐标将此变化量分配到三角形的3个顶点上。

2.2.2 正则化约束

由多视图像匹配获得的密集点云中不可避免地包含一定数量的噪点,这使得重建出的模型表面曲率变化与真实世界不符,并且灰度一致性约束计算时并没有考虑自正则化,因此模型优化时需要构建与数据项形成互补关系的正则化项。针对离散的网格数据,由一阶拉普拉斯算子和二阶拉普拉斯算子定义正则化项[24],如式(6)所示。
E s m o o t h ( V ) = i = 1 n α U 2 v i - β U v i
式中:α是二阶拉普拉斯算子的权重;β是一阶拉普拉斯算子的权重。拉普拉斯算子在三维空间中对重建结果进行平滑,以减少噪声和不连续性。如图4所示。假设有一个凸起的顶点v,拉普拉斯算子的作用是将顶点v平滑到其邻域点vn构成形状的重心位置vi'。本文使用当前网格顶点的一阶环邻域顶点坐标的平均值作为驱动顶点形变的目标位置[24],如式(7)所示。
U v = 1 n i = 1 n v i - v
式中:vn是中心顶点v的环邻域顶点的坐标;n为中心顶点的邻域顶点个数。此时,U(v)又被称为伞算子。
图4 一阶拉普拉斯平滑算子(伞算子)

Fig. 4 First-order Laplace operator (umbrella operator)

在处理具有复杂或曲折特征的网格模型时,仅靠一阶拉普拉斯算子作为平滑项,会导致点平滑不足或细节模糊。假设有一个凹陷的顶点v,伞算子的梯度方向会指向周围凸起的邻域顶点。针对这种情况,需要应用更高阶的平滑项来感知高阶曲率信息。二阶拉普拉斯算子能够捕捉到模型的更剧烈的局部曲率信息,此时,二阶拉普拉斯算子考虑二阶邻域,包括一个顶点的一阶邻域的一阶邻域。由一阶拉普拉斯算子递归应用到二阶拉普拉斯算子U2v),根据文献[25]中U2v)的定义方法如式(8)所示。
U 2 v = 1 n i = 1 n U v i - U v
式中: Uv)为顶点v的一阶拉普拉斯算子;Uvi)表示v的环邻域点的一阶拉普拉斯算子。二阶拉普拉斯算子考虑更远的区域,因此,在平滑网格模型时,将一阶拉普拉斯算子的梯度减去可以更好地控制平滑过程。最终,正则化项的梯度计算公式如式(9)所示。
E s m o o t h V = α Δ 2 v i - β Δ v i
式中:αβ分别为平滑项中的刚性权值和柔性权值,根据文献[7]分别设置为0.18和0.02。具体正则化项梯度计算推导过程见文献[24]。由于二阶拉普拉斯算子检测更高阶的曲率特征,因此二阶拉普拉斯算子的权重更大。

2.2.3 三维边缘约束

为了突出目标边缘的视觉效果,本文添加三维边缘特征约束作为总体能量函数E(V)的附加约束项Eedge(V)。在得到的点对集合Vpair中,计算Vpair中网格顶点到其对应最邻近边缘点之间的距离,附加约束项能量函数如式(10)所示。
E e d g e V = i = 1 n ω · d i s v i - e i
式中:ei为由vi所确定的满足2.1.2节所述条件的最邻近点;ω的数值为0或1,当 v i V p a i r时,ω为1,否则ω为0。此项含义为当vi为边缘区域点时,驱动vi向所确定的最邻近边缘点移动;当vi为非边缘区域点时,不附加三维边缘约束。计算出的梯度变化量沿梯度方向分配到网格顶点vi上。结合2.2.1节以及2.2.2节,最终梯度求解公式为:
v i t + 1 = v i t + Δ t E e r r o r N v i + E s m o o t h v i + E e d g e v i
式中:t为迭代次数; Δ t为每次迭代的步长。通过迭代运算至收敛,来计算能量函数的最小值解。实际计算过程中,循环所有顶点,每个顶点对应一个梯度变化量,这个梯度变化量是3个约束项的梯度之和。将梯度变化量分配到顶点坐标上,被分配了梯度变化量的顶点记为 v i t,顶点位置发生变化,其对应的3个约束项的能量函数结果发生变化,产生一个新的梯度变化量,被分配了新的梯度变化量的顶点记为 v i t + 1。为了便于对三维边缘特征约束的有效性进行验证,迭代运算的步长与终止条件设置与OpenMVS算法设置一致。

3 实验结果与分析

为了验证本文算法的可行性和效果,本文采用3组具有复杂几何结构的建筑物数据集进行测试,这3组数据集均包含雕塑、门框、支柱、孔洞等要素。其中前2组数据来自Strecha[26]户外真实场景数据集,分别为Fountain-P11和Herz-Jesu-P8 2个场景,分别包含11张、8张图像,图像大小为 3 072×2 048。第三组数据为ETH3D数据集[27]的Relief室内真实场景,包含25张图像,图像大小为1 600× 1 200,使用LiDAR点云作为参考真值Ground Truth。所有算法测试均在Linux环境下进行测试(处理器:Ryzen 5 5600H 3.30 GHz,运行内存:DDR4 16 GB)。本文将多种算法优化结果与本文算法优化结果进行对比,以此验证本文算法的有效性。

3.1 三维边缘点精度分析

三维边缘约束的核心思想是驱动模型边缘区域顶点向更精确的位置移动,因此,本文计算三维边缘点的点位误差结果,以此作为三维边缘点精度分析基准。使用CloudCompare软件计算三维边缘点到Ground Truth顶点的最短距离,计算三维边缘点与Ground Truth的模型顶点的绝对平均误差(Mean Absolute Error,MAE)与方差(σ)。以初始网格中三角形平均边长的二分之一作为误差阈值γ,分别计算绝对平均误差小于误差阈值γ的初始网格模型数量占比和三维边缘点数量占比。使用Fountain-P11、Herz-Jesu-P8、Relief图像序列重建出的初始网格模型,三角形平均边长分别为1.22、2.09、0.38 cm。
表1为三维边缘点点位误差统计结果,从中可以看出,提取的三维边缘点的绝对平均误差均小于初始网格顶点,其绝对平均误差通常只有初始网格顶点点位绝对平均误差的一半。图5为三维边缘点与Ground Truth的绝对平均误差分布图,将误差数值按4个区间分布,可以看出使用Fountain-P11图像序列提取的三维边缘点绝对平均误差小于 0.2 cm的点占比约为98%,只有约1%的点被看作不可靠点,且绝大多数三维边缘点误差分布在 0~0.2 cm的区间内。使用Herz-Jesu-P8图像序列的提取的三维边缘点有类似情况,绝对平均误差小于0.3 cm的三维边缘点占比约为94%,只有约4%的点为不可靠点。使用Relief图像序列所提取的三维边缘点,其绝对平均误差在0.04 cm以内的点占比为95%,仅有约2%的点被看作不可靠点。由此可见,将三维边缘约束的距离阈值设置为平均三角形边长的二分之一,可以有效筛选出高精度的邻域三维边缘点。
表1 三维边缘点点位误差

Tab. 1 3D edge points position error

数据 点集 MAE/cm σ 占比/% 三维边缘点数量/个
Fountain-P11 初始网格顶点 2.48 17.18 96.7
三维边缘点 0.66 9.41 97.9 16 567
Herz-Jesu-P8 初始网格顶点 0.78 4.86 97.4
三维边缘点 0.39 2.41 99.1 27 390
Relief 初始网格顶点 1.78 11.57 95.8
三维边缘点 0.91 6.12 98.6 38 245

注:加粗数值为误差较小值。

图5 不同数据集提取的三维边缘点MAE分布直方图

Fig. 5 MAE distribution histograms of 3D edge points extracted from different dataset

以Herz-Jesu-P8图像序列的实验结果为例,在拱门、雕刻、墙体缝隙上的边缘被较好地提取出来,如图6所示。结合表1分析,三维边缘点中的可靠点占绝大多数,不可靠点可分为三类:第一类是少量距离较远的噪点,常见于有序多段线数量较少的区域,如墙体缝隙;第二类是明显的错误边缘匹配点,例如中间楼梯两侧;第三类点为细微纹理区域提取的质量较差的多段线节点,如Herz-Jesu-P8序列图像目标中间人像雕塑部位的纹理。第一类和第二类点均能够在距离阈值中被剔除。第三类点通常为短边缘的采样点,其在文献[28]提出的Line3D++算法的三维直线提取结果中也存在。对于第三类点可能造成的异常凸起或凹陷,可以通过正则化项平滑处理。此外,在一些图像重叠度较低的区域,没有三维边缘点覆盖,这是因为文献[21]算法在匹配二维多段线时,构建的同名多段线需要满足在5张图像上能够观测到的条件,因此,对于更多视角拍摄的数据集,三维边缘点提取会有更好的效果。
图6 三维边缘点和激光扫描模型

Fig. 6 3D edge points and laser scanning models

3.2 网格模型精度分析

将本文算法优化结果与MVE[29]算法、OpenMVS算法、文献[19]算法的优化结果进行对比分析。其中,OpenMVS算法使用灰度一致性约束以及正则化约束来优化模型,并没有使用附加约束项,其能量函数E(S)与本文能量函数E(V)类似,如式(12)所示。
E S = E p h o t o S + λ E f a i r S
类似地,文献[19]使用灰度一致性约束以及正则化约束来优化网格模型,并附加三维线约束。本文利用OpenMVS算法对三维边缘约束的有效性进行检验,利用文献[19]算法对曲线边缘约束的有效性进行检验。对于Fountain-P11数据集,网格模型优化结果如图7所示,可见基于密集点云的重建算法均能够较好显示目标细节,但是MVE算法有较多数据缺失,OpenMVS算法在细节和数据完整度上都有较好表现,但是在有较多曲线边缘特征区域表现不如本文算法,例如墙体缝隙、拱形结构、雕饰区域。在模型中部的支柱上,本文算法优化后的模型与文献[19]优化结果相比,经本文算法优化后的网格模型表面平滑度不如文献[19]算法,但模型细节表现更好,在中部雕塑处更完整,刻画更深。对于Herz-Jezu-P8数据集,网格模型的优化结果如图8所示,可见本文算法优化结果在拱形门框上的曲线特征更明显,模型右上方的支柱形状更完整,大门两侧的锯齿状边缘更清晰。
图7 Fountain-P11数据集模型细节对比

Fig. 7 Comparison of details of model obtained using the fountain-P11 dataset

图8 Herz-Jezu-P8数据集模型细节对比

Fig. 8 Comparison of details of model obtained using the Herz-Jezu-P8 dataset

对于包含多细节要素的Relief数据集,优化结果如图9所示,可见3种算法都还原了局部细节。由于Relief序列图像有较高的分辨率,提取的三维边缘质量更好,因此与OpenMVS算法的优化结果相比,文献[19]算法与本文算法的结果更精细。同时相比文献[19]算法,本文算法优化结果在有曲线特征的区域刻画更深,例如人物雕塑的服装、面部区域。总体上看,与不使用边缘约束的算法相比,本文采用边缘约束的优化方法在模型细节上有显著提升;与使用直线约束的算法相比,本文算法优化后的模型曲线特征更明显,同时也更接近Ground Truth。
图9 Relief数据集模型局部细节

Fig. 9 Comparison of details of model obtained using the relief dataset

为了进一步验证算法的有效性,在ETH3D评估基准下对OpenMVS算法、文献[19]算法、本文算法的优化结果进行定量分析。有效性评价指标包括完整度、精度、F1指数。完整度和精度是一对互补的评价指标,测量Ground Truth点到重建模型顶点的最短距离,设置评估阈值Te,将最短距离低于Te的Ground Truth点数量的百分比定义为模型完整度,完整度数值越大,重建结果更完整。测量重建模型顶点到Ground Truth点的最短距离,以最短距离低于Te的重建模型顶点数量的百分比定义模型精度,精度数值越大,模型准确度越高。F1分数是精度和完整度的调和平均值,根据精度和完整度对方法进行整体评估。不同方法在不同Te下的评估结果如表2所示。
表2 不同方法在不同评估阈值下的评估结果

Tab. 2 Evaluation results of different methods under different evaluation thresholds

数据 方法 阈值(Te) = 2 cm 阈值(Te)= 10 cm
完整度/% 精度/% F1 完整度/% 精度/% F1
Fountain-P11 初始网格 57.32 89.36 70.57 69.54 94.88 80.26
OpenMVS 58.48 89.99 70.89 70.04 97.50 81.52
文献[19]算法 58.53 90.11 70.96 70.51 96.82 81.59
本文算法 57.69 92.72 71.12 69.95 98.21 81.71
Herz-Jezu-P8 初始网格 36.15 65.68 46.63 63.15 93.61 75.42
OpenMVS 41.38 68.63 51.63 63.18 94.09 75.60
文献[19]算法 41.94 72.16 53.05 63.68 94.31 76.02
本文算法 42.39 74.29 53.98 63.80 95.20 76.39
Relief 初始网格 89.17 94.89 91.94 93.46 97.47 95.43
OpenMVS 89.77 94.43 92.04 93.46 97.82 95.59
文献[19]算法 89.56 94.07 91.75 93.39 97.79 95.53
本文算法 89.76 95.45 92.22 93.48 97.85 95.62

注:加粗数值为评估结果的最优值。

在使用Fountain-P11数据集的实验中,当Te为2 cm时,经本文算法优化后的网格模型与初始网格模型相比,完整度和精度分别提升0.37%和3.36%,F1指数提升0.55%;经本文算法优化后的网格模型与经OpenMVS算法优化后的网格模型相比,完整度损失0.79%,但精度提升2.73%,F1指数提升0.23%;经本文算法优化后的网格模型与经文献[19]算法优化后的网格模型相比,完整度损失0.84%,但精度提升2.61%,F1指数提升0.16%。随着Te增加到10 cm,本文实验完整度和精度进一步提升,与初始网格模型相比,完整度和精度提升0.41%和3.33%,F1指数提升1.45%;与OpenMVS算法优化的网格模型相比,完整度损失0.09%,精度提升0.71%,F1指数提升0.19%;与文献[19]算法对比,完整度损失0.56%,精度提升1.39%,F1指数提升0.12%。这说明本文算法有效提升了网格模型边缘区域的高精度点的数量。对于Herz-Jezu-P8序列图像的实验结果,本文算法在Te为2 cm时的完整度和精度有更大的提升,相对于初始网格模型分别提升6.24%和8.61%;相对于OpenMVS算法优化后的网格模型,完整度和精度分别提升了1.01%和5.66%;相对于文献[19]算法优化后的网格模型,完整度和精度分别提升0.45%和2.13%。当Te为10 cm时,本文算法比其他几种算法优化结果的完整度和精度均有提升,其提升幅度相对于Te为2 cm时的评估结果较小。
对于Relief数据集的实验结果,当Te为2 cm时,经本文算法优化后的网格模型与初始网格模型相比,完整度和精度分别提升0.59%和0.56%,F1指数提升0.28%;经本文算法优化后的网格模型与经OpenMVS算法优化后的网格模型相比,完整度损失0.01%,但精度提升1.02%,F1指数提升0.18%。当Te为10 cm时,经本文算法优化后的网格模型与初始网格模型相比,完整度和精度分别提升0.02%和0.38%,F1指数提升0.19%;经本文算法优化后的网格模型与经OpenMVS算法优化后的网格模型相比,完整度和精度分别提升0.02%和0.03%,F1指数提升0.03%;与文献[19]算法优化后的网格模型相比,本文算法优化后的网格模型的完整度和精度分别提升0.20%和1.38%,F1指数提升0.47%。可见,本文算法结果相对OpenMVS算法和文献[19]算法结果完整度和精度都有所提升。3组实验评估结果显示,随着Te变大,本文算法相对于OpenMVS算法优化结果的提升幅度变小。产生这一现象的原因是OpenMVS算法重建出边缘区域的顶点与Ground Truth点云的距离有部分处于2 ~ 10 cm之间,而本文算法则有较多边缘区域的顶点与Ground Truth点云的距离处于2 cm以内。与文献[19]算法的对比结果也出现类似情况,原因是文献[19]算法采用三维直线约束网格模型边缘,能够较好地约束直线边缘,但在网格模型的曲线边缘处有效性受限。结合图9可知,本文算法对边缘区域的点位精度有较大提升,这一点在模型细节在视觉上的提升有所体现,本文算法生成的网格模型在雕塑部分的细节刻度更深,并且还原了人像雕塑的面部细节。在雕塑的柱体部分,本文算法结果也更加平直锐利。从整体上看,本文算法有效提高了网格模型的准确性,进一步减少了建筑物结构复杂对重建模型边缘带来的不确定性影响,优化后网格模型的直线边缘更加平直锐利,曲线边缘更完整,整体细节更丰富。
为评估本文算法的计算效率,对本文算法构建能量函数和能量函数求解过程的用时和内存占用情况进行统计和对比分析。从3组序列图像中分别提取的三维边缘点数量分别为:16 567、27 390、 38 245。分析表3可知,由于本文算法中三维边缘约束项的存在,本文算法相对OpenMVS算法耗时更长、内存占用更多,相对文献[19]算法用时更少,但是计算用时和内存占用大小相差不大,并且三维边缘约束项进一步减少了噪声对模型边缘区域的影响。因此,本文算法需要在后续研究中进一步提升算法性能,以更好地运行于大规模城市场景的实景三维重建的工作中。
表3 算法效率统计

Tab. 3 Algorithm performance statistics

数据 方法 用时/s 内存占用/GB
Fountain-P11 OpenMVS 177 5.6
文献[19]算法 323 7.2
本文算法 249 6.7
Herz-Jezu-P8 OpenMVS 136 6.2
文献[19]算法 215 7.8
本文算法 173 6.9
Relief OpenMVS 2 441 15.4
文献[19]算法 3 816 15.5
本文算法 2 937 15.5

4 结论

城市场景三维重建过程中,边缘约束可以有效保留建筑物的边缘特征,提高重建结果的准确程度以及视觉效果。针对已有的结合边缘约束的网格模型优化方法存在对建筑物的不规则边缘作用有限的问题,本文提出一种结合三维边缘特征约束的多视立体网格模型优化方法。将网格模型顶点向真实世界表面移动问题转换为对模型表面顶点的总体能量求解最小值问题,引入灰度一致性约束项、正则化项以及三维边缘约束项,通过梯度下降法迭代求解总体能量函数的最小值,将每次梯度的变化量应用到顶点上,驱动模型顶点产生形变。该方法具有以下优势:
(1)本文使用三维边缘点与模型边缘区域顶点的位置差异作为模型优化的轮廓驱动力,相对于提取三维直线约束网格模型的方法,本文算法可以同时约束直线边缘与曲线边缘;
(2)相比利用可视外壳进行约束的方法,在三维空间中对模型顶点的边缘进行约束,能够处理城市场景的复杂结构特征,此外,这种优化模式可以在模型构建过程中采用多种密集匹配策略,以获取更好质量的网格模型作为优化前的初始网格模型;
(3)本文以网格顶点与其邻域顶点的曲率信息构建正则化约束,与三维边缘约束构成互补关系,可有效避免三维边缘约束可能造成的模型表面异常凸起或凹陷。
本文分别选取室内与室外场景中具有代表性的建筑物数据集进行优化实验,对优化结果在ETH评估框架下进行综合分析和定量评价。实验结果表明,与文献[19]方法相比,本文方法优化结果精度与完整度最高提升2.61%、0.45%;与OpenMVS算法相比,本文方法优化结果精度与完整度最高提升5.66%、1.01%;与上述两种算法相比,经本文方法优化的模型边缘特征更明显,细节更丰富。然而,应对一些图像重叠度较低的区域,本文方法优化结果表面平滑性欠佳。此外,模型优化效果依赖三维边缘的提取质量,非建筑区域的边缘特征也会对建筑区域的边缘特征造成影响,例如阴影,导致三维边缘约束的可靠点数量减少、降低算法效率。后续进一步研究工作主要包括以下两方面:第一,研究如何更好地提取长边缘,将三维边缘点分组排序,通过最短路径算法来定位邻域点,以此提升算法计算效率;第二,优化模型表面的平滑性。
本文图文责任编辑:蒋树芳
[1]
Hirschmuller H. Stereo processing by semiglobal matching and mutual information[J]. Pattern Analysis and Machine Intelligence, 2008, 30(2):328-341. DOI:10.1109/TP AMI.2007.1166

[2]
Bleyer M, Rhemann C, Rother C. PatchMatch stereo - stereo matching with slanted support windows[C]// Proceedings of the British Machine Vision Conference 2011. British Machine Vision Association, 2011:1-11. DOI:10.5244/c.25.14

[3]
Shen S H. Accurate multiple view 3D reconstruction using patch-based stereo for large-scale scenes[J]. IEEE Transactions on Image Processing: A Publication of the IEEE Signal Processing Society, 2013, 22(5):1901-1914. DOI:10.1109/TIP.2013.2237921

[4]
Kazhdan M, Hoppe H. Screened Poisson surface reconstruction[J]. ACM Transactions on Graphics, 32(3):29. DOI:10.1145/2487228.2487237

[5]
Lancaster P, Salkauskas K. Surfaces generated by moving least squares methods[J]. Mathematics of Computation, 1981, 37(155):141158. DOI:10.1090/s0025-5718-1981-0616367-1

[6]
Labatut P, Pons J P, Keriven R. Robust and efficient surface reconstruction from range data[J]. Computer Graphics Forum, 2009, 28(8):2275-2290. DOI:10.1111/j.1467-8659.2009.01530.x

[7]
Vu H H, Labatut P, Pons J P, et al. High accuracy and visibility-consistent dense multiview stereo[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(5):889-901. DOI:10.1109/TPAMI.2011.172

[8]
Nair N S, Nair M S. Multi-view stereo using graph cuts-based depth refinement[J]. IEEE Signal Processing Letters, 2022, 29:1903-1907. DOI:10.1109/LSP.2022.3201778

[9]
Stathopoulou E K, Battisti R, Cernea D, et al. Semantically derived geometric constraints for MVS reconstruction of textureless areas[J]. Remote Sensing, 2021, 13(6):1053. DOI:10.3390/rs13061053

[10]
Jancosek M, Pajdla T. Multi-view reconstruction preserving weakly-supported surfaces[C]// CVPR. IEEE, 2011:3121-3128. DOI:10.1109/CVPR.2011.5995693

[11]
Laurentini A. The visual hull concept for silhouette-based image understanding[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1994, 16(2):150-162. DOI:10.1109/34.273735

[12]
Kolev K, Klodt M, Brox T, et al. Continuous global optimization in multiview 3D reconstruction[J]. International Journal of Computer Vision, 2009, 84(1):80-96. DOI: 10.1007/s11263-009-0233-1.

[13]
Sinha S N, Pollefeys M. Multi-view reconstruction using photo-consistency and exact silhouette constraints: A maximum-flow formulation[C]// Tenth IEEE International Conference on Computer Vision (ICCV'05) Volume 1. IEEE, 2005:349-356. DOI:10.1109/ICCV.2005.159

[14]
Furukawa Y, Curless B, Seitz S M, et al. Towards Internet-scale multi-view stereo[C]// 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2010:1434-1441. DOI:10.1109/CVPR.2010.5539802

[15]
Delaunoy A, Prados E. Gradient flows for optimizing triangular mesh-based surfaces: Applications to 3D reconstruction problems dealing withVisibility[J]. International Journal of Computer Vision, 2011, 95(2):100-123. DOI: 10.1007/s11263-010-0408-9

[16]
Bódis-Szomorú A, Riemenschneider H, Van Gool L. Superpixel meshes for fast edge-preserving surface reconstruction[C]// Pro-ceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015:2011- 2020. DOI:10.1109/CVPR.2015.7298812

[17]
Guo H W, Guo F S. Urban scene 3D reconstruction optimization leveraged by line information[C]// Proceedings of the 2nd International Conference on Innovation in Artificial Intelligence. ACM, 2018:92-96. DOI:10.1145/3194206.3194212

[18]
俞思帆, 闫利, 谢洪, 等. 附加多视线特征约束的城市场景网格模型优化[J]. 测绘科学, 2022, 47(2):102-109.

[Yu S F, Yan L, Xie H, et al. Refinement of urban mesh model with multi-view line feature constraints[J]. Science of Surveying and Mapping, 2022, 47(2):102-109.] DOI: 10.16251/j.cnki.1009-2307.2022.02.014

[19]
邓非, 陈欣, 颜青松, 等. 带线约束的摄影测量网格变分精化算法[J]. 测绘学报, 2020, 49(4):469-479.

DOI

[Deng F, Chen X, Yan Q S, et al. Variational refinement of mesh with line constraint for photogrammetry[J]. Acta Geodaetica et Cartographica Sinica, 2020, 49(4):469-479.] DOI:10.11947/j.AGCS.2020.20190255

[20]
Romanoni A, Matteucci M. Incremental reconstruction of urban environments by Edge-Points Delaunay triangulation[C]// 2015 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). IEEE, 2015:4473-4479. DOI:10.1109/IROS.2015.7354012

[21]
Bignoli A, Romanoni A, Matteucci M, et al. Multi-view stereo 3D edge reconstruction[C]// 2018 IEEE Winter Conference on Applications of Computer Vision (WACV). IEEE, 2018:867-875. DOI:10.1109/WACV.2018.00100

[22]
Meer P, Georgescu B. Edge detection with embedded confidence[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2001, 23(12):1351-1365. DOI:10.1109/34.977560

[23]
Jensen R, Dahl A, Vogiatzis G, et al. Large scale multi-view stereopsis evaluation[C]// 2014 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2014:406-413. DOI:10.1109/CVPR.2014.59

[24]
Botsch M, Sorkine O. On linear variational surface deformation methods[J]. IEEE Transactions on Visualization and Computer Graphics, 2008, 14(1):213-230. DOI: 10.1109/TVCG.2007.1054

PMID

[25]
Kobbelt L, Campagna S, Vorsatz J, et al. Interactive multi-resolution modeling on arbitrary meshes[C]// Proceedings of the 25th annual conference on Computer graphics and interactive techniques. ACM, 1998:105-114. DOI: 10.114 5/280814.280831

[26]
Strecha C, von Hansen W, Van Gool L, et al. On benchmarking camera calibration and multi-view stereo for high resolution imagery[C]// 2008 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2008:1-8. DOI:10.1109/CVPR.2008.4587706

[27]
Schöps T, Schönberger J L, Galliani S, et al. A multi-view stereo benchmark with high-resolution images and multi-camera videos[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:3260-3269.2538-2547. DOI:10.1109/CVPR.2017.272

[28]
Hofer M, Maurer M, Bischof H. ine3D: efficient 3D scene abstraction for the built environment[M]//Gall J, Gehler P, Leibe B, eds. Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015:237-248. DOI:10.1007/978-3-319-24947-6_19

[29]
Fuhrmann S, Langguth F, Goesele M. Mve-a multi-view reconstruction environment[J]. GCH, 2014,3:4.

文章导航

/