Online Tracking Registration Method based on Indoor Space Layout Constraints

  • CAO Xingwen , 1, 2, 5 ,
  • WU Mengquan , 2, * ,
  • ZHENG Xueting 1, 3 ,
  • ZHENG Hongwei 1 ,
  • LI Yingxiang 4 ,
  • ZHANG Anan 5
Expand
  • 1. State Key Laboratory of Desert and Oasis Ecology, Xinjiang Institute of Ecology and Geography, Chinese Academy of Sciences, Urumqi 830011, China
  • 2. School of Resources and Environmental Engineering, Ludong University, Yantai 264025, China
  • 3. College of Agriculture and Animal Husbandry, Qinghai University, Xining 810003, China
  • 4. Institute of Agricultural Resources and Regional Planning, Chinese Academy of Agricultural Sciences, Beijing 100081, China
  • 5. College of Resources and Environment, University of Chinese Academy of Sciences, Beijing 100049, China
*WU Mengquan, E-mail:

Received date: 2022-10-20

  Revised date: 2022-12-13

  Online published: 2023-06-30

Supported by

Natural Science Foundation of China(42071385)

Shandong Offshore Aerospace Equipment Technology Innovation Center Project(HHCXZX-2021-12)

Yantai Science and Technology Innovation Development Plan Key R&D Category(2022MSGY062)

Abstract

The integration of mobile augmented reality and geographic information system is becoming an ideal platform for spatial information visualization. Aiming at the problems of the inaccurate description of indoor spatial information location, weak reasoning spatial structure, and limited scene understanding ability in existing augmented reality tracking and registration techniques, this paper proposes an online learning tracking and registration method under spatial layout constraints. Firstly, the image feature matching algorithm is used to estimate the relative initial pose of the camera. Next, the end-to-end encoding-decoding network is used to extract the edge and semantic feature information of the indoor scene, and the 2D layout hypothesis is generated. Then the greedy strategy is used to refine the 2D layout hypothesis and extract the key coordinate point information of the corresponding layout. Finally, the semantic feature and the key coordinate point of the layout are taken as constraints to jointly optimize the initial pose of spatial information. In the complex indoor scene, the maximum position error of the registered virtual model is 9 cm, the maximum scaling error is 17%, and the maximum rotation error is 16 °. The experimental results show that the proposed method can add constraints to spatial information registration and achieve accurate registration in indoor scenes with a strong scene understanding ability.

Cite this article

CAO Xingwen , WU Mengquan , ZHENG Xueting , ZHENG Hongwei , LI Yingxiang , ZHANG Anan . Online Tracking Registration Method based on Indoor Space Layout Constraints[J]. Journal of Geo-information Science, 2023 , 25(7) : 1418 -1431 . DOI: 10.12082/dqxxkx.2023.220806

1 引言

近年来,移动增强现实(Mobile Augmented Reality, MAR)与地理信息系统(Geographic Information System, GIS)的融合研究不断深入,地理信息的增强可视化逐渐成为人们关注焦点[1-2]。随着室内空间实体信息量和结构复杂性的增加,对GIS可视化的灵活性和现势性提出更高要求,而传统的室内二维或三维地图等可视化载体难以满足用户日益增长的可视化需求,如室内场景重建、虚拟现实和机器人导航等[3-5]。为了帮助用户更好理解室内场景中的空间信息,移动增强现实地理信息系统(Mobile Augmented Reality-Geographic Information System, MAR-GIS)是对这些挑战的回应。事实上,构建一个MAR-GIS 系统的核心在于如何实现精确的三维注册,即将室内场景中大量空间信息叠加至设备显示屏上,当用户从不同视角观察时都能与现实世界精确融合,并能为用户提供准确、精细、与位置相关的信息服务[6-7],这已经成为限制MAR-GIS走向更广泛应用的一个关键问题[8]
目前在研究MAR-GIS跟踪注册技术中,基于视觉特征和位姿传感器的注册研究占主要部分[9]。与室外MAR-GIS研究使用GPS和定位传感器获取位置姿态不同,由于室内场景结构复杂,GPS和定位传感器在室内存在信号穿透力差、定位精度低、无法确定方向等问题,而基于视觉特征注册方法通过建立二维图像特征与三维场景特征间的对应关系,求解相机投影矩阵,确定空间信息相对于现实世界位置和方向,逐渐成为室内MAR-GIS研究首选。目前基于视觉特征注册方法可分为人工标识符注册和自然场景特征注册两类,第一类人工标识符的注册方法最具代表性的是加拿大国家科学院开发的ARTag[10],通过在现实场景下放置人工标识物,提取对应特征信息进行跟踪注册,但此方法在跟踪注册时稳定性差,无法解决遮挡及环境光照变化所带来的影响。另一类自然场景特征注册方法大多采用离线、在线场景模型和平面场景进行注册。Huang等[11]开发了一个基于位姿传感器的户外AR实时系统来展示空间信息,但需要3DGIS来辅助提高在户外环境中跟踪注册的效率和准确性。Deng等[6]提出一种基于2D地图的户外ARGIS视觉辅助地理配准方法,在位姿传感器基础数据上,将2D地图作为辅助参考数据进行户外视觉定位进而提高户外AR地理配准精度。Skrypnyk等[12]提出了一种基于尺度不变特征变换(Scale-Invariant Feature Transform, SIFT)算法实现全自动无标记AR定位系统,该识别方法需要完整的观察场景模型且依赖于多视图对应关系建立的3D模型,无法处理注册信息间的相互遮挡。Zhang等[13]通过视觉同步定位与地图构建技术(Simultaneous Localization And Mapping, SLAM)进行三维重建,求解相机位姿与场景结构,但该方法依赖于场景三维模型和静态环境,缺乏实时性。
上述基于视觉特征的注册方法大多集中于对不变特征和特征检测器、描述符和匹配方法的改进上,注重相机姿态求解和跟踪效率的提升[14-16],对跟踪注册后与室内场景的融合没有进行深入研究,缺乏场景理解能力,不正确的融合可能会导致注册的3D模型与真实场景存在语义逻辑不匹配问题,如时钟应该挂在墙上,而不是仅注册在室内空间中。在这种背景下,场景理解任务中的空间估计技术可以为室内导航、视觉认知和增强现实等任务提供几何约束[17-19]。2D图像布局估计任务实质是找到墙与天花板、墙与地面、墙与墙之间的边界[20]。近年来,机器学习算法在提取室内空间布局性能优异,早期研究大多采用图像几何技术生成大量候选布局,而后利用支持向量机(Support Vector Machine, SVM)、方向图、先验知识和随机采样等方法对每个候选布局进行评分排序,预测出最优空间布 局[20-23]。随着深度学习的兴起,研究人员开始将卷积神经网络(Convolutional Neural Networks, CNN)应用于空间布局估计问题。Mallya等[24]通过全卷积神经网络(Fully Convolutional Networks, FCN)从图像中提取边缘和语义信息,并基于边缘信息的自适应消失线采样方法,生成布局假设,随后通过支持向量机(SVM)选出最优布局。Ren等[25]提出一种由粗至精的室内布局估计方法,同时训练边缘和语义信息,将边缘信息作为参考,结合空间轮廓和表面属性生成2D布局假设,并制定一个优化框架对布局优化进行实时约束,但语义信息只用于辅助训练网络,没有用于布局生成和选择。Lee等[26]设计一种端到端的空间布局网络框架,通过布局分类的输出选择对应的概率图作为关键点的预测,生成布局估计,在预测参考图像的空间布局上速度提升明显,但并未考虑不同类型训练数据不均衡问题。
现有视觉特征跟踪注册方法只考虑图像间的单应关系,无法为空间信息提供准确的注册位置[7],其次是注册时没有考虑周围环境信息和缺乏对场景的理解能力,易出现不符合语义逻辑问题。在综合分析以上算法基础上,本文提出一种室内空间布局约束下的在线跟踪注册学习方法,首先使用特征匹配算法计算相机初始位姿,接着利用编码-解码网络提取的室内场景边缘和语义信息,对室内场景的空间结构和语义信息进行有效学习,优化初始位姿信息,实现场景的精确跟踪注册。实验结果表明,本文在跟踪注册精度上得到很好提升,模型具有较强的场景理解能力,能实现符合语义逻辑的跟踪注册。

2 室内空间布局约束下的在线跟踪 注册学习方法

本文所提出的室内空间布局约束的在线跟踪注册学习方法框架如图1所示,分为5个部分: ① 特征提取与初始位姿估计:对参考图像与关键帧进行特征匹配与单应矩阵计算,获取相机相对于室内场景初始位姿,为虚拟信息在室内场景提供初始绘制范围;② 端到端编码-解码网络:提取场景图像的边缘和语义信息;③ 候选布局生成:定义评分函数对特征信息进行排序,同时联合自适应采样和预定义布局池生成候选布局假设; ④ 布局优化与坐标提取:基于贪心策略对布局假设进行优化,提取最优空间布局坐标信息;⑤ 在线跟踪注册融合:对注册信息进行定位定向,在初始姿态信息基础上融合布局关键坐标和场景语义信息,其中布局坐标优化姿态,语义信息辅助虚拟模型加载至场景中符合语义逻辑的位置。
图1 空间布局约束下的在线学习跟踪注册方法框架

Fig. 1 Framework diagram of online learning tracking registration method under spatial layout constraints

2.1 特征匹配与初始位姿估计

基于自然场景特征的跟踪注册方法大多在计算相机与场景间位置关系后开始注册空间信息,这个过程涉及相机成像模型中不同坐标系之间的转换和建立目标图像和视频帧图像之间的单应性关系,具体可以描述为将现实世界坐标点Xw=(xw,yw,zw,,1)转换像素坐标点Xi=(ui,vi,1)的过程,文中设目标平面zw =0,则转换过程表示为:
u i v i 1 = λ f χ 0 u 0 0 f y v 0 0 0 1 R T 0 1 x w y w 1 = K T C W x w y w 1 = λ H x w y w 1
式中:λ表示比例系数; fxfyu0v0为相机对应内参数,构成内参矩阵K,不随相机的姿态变化而改变,可通过张定友相机标定法[27]进行求解;RT为相机外参矩阵 T C W的旋转向量和平移向量,在实际应用中通过图像间单应性关系求解; ( x w , y w , 1 )为世界坐标; ( v i , v i )为像素坐标;H为单应矩阵,包含内参矩阵K和外参矩阵 T C W,描述物体在世界坐标系和像素坐标系之间的位置映射关系,具有8个自由度。图2展示从不同角度拍摄同一平面的2幅室内场景图像,文中设图2(a)为基准图像,图2(b)为目标图像,红点代表2幅图像中相同的位置。利用基准图像和目标图像间的单应矩阵H,可以根据a点计算b点的值,令基准图像中aPa=(xa,ya,1),目标图像中bPb=(xb,yb,1),则其映射关系为:
P a = K a * H b a * K b - 1 * P b
其中, H b a = z a z b R b a 1 + 1 d t n T
式中:Za/Zb是度量图像的齐次坐标;Hba为单应性矩阵,Rbab相对于a旋转的旋转矩阵;tab的平移向量;nd分别为平面法向量及到平面的距离,KaKb为内参矩阵,单应矩阵Hba可通过特征匹配算法[28]求解,由于实际计算的特征点对受噪声影响会产生误差,还需使用随机抽样一致性(Random Sample Consensus, RANSAC)方法剔除错误特征点对,降低噪声的影响。在求解单应性矩阵H之后,即可确定要叠加的空间信息的像素坐标,从而将待添加模型绘制在屏幕上,完成虚拟模型在室内场景中的初始绘制。
图2 2幅图像间的单应性关系

Fig. 2 The homography matrix between images

2.2 端到端编码-解码神经网络

本文设计了一个端到端编码-解码网络用于提取场景边缘和语义信息,网络结构如图3(a)所示,包含一个编码器和2个独立的解码器,编码器与VGG-16网络结构相似[29](Conv1_1到Conv5_3层),卷积层提取场景图像全局语义特征,池化层对卷积后的图像进行下采样,缩小图像的尺寸,随后连接两层各有1024个神经元的全连接层汇总全局信息,使感受野扩大至整幅图像。针对不同的输出,网络被分为2个结构相似的DCGAN(Deep Convolutional Generative Adversarial Networks, DCGAN)解码器[30],每个解码器由四层不同尺寸的转置卷积层组成,每一层转置卷积层可以将特征图的分辨率逐渐增大输出,全连接层与转置卷积层之间均采用ReLU激活函数。2个解码器共享编码器卷积层所提取的特征向量,互相补充其学习到的信息,并解码为不同的全局特征,最后一层采用sigmoid激活函数将输出转化为softmax概率图。
图3 端到端编码-解码网络结构及各层参数

Fig. 3 End-to-end encoding-decoding network structure and parameters of each layer

网络各层具体参数如图3(b)所示,网络输入图像尺寸设置为224×224,2个解码器输出的尺寸分别为56×56, 第1个DCGAN解码器用于生成单通道边缘信息图,并同时执行(σ=6)的高斯模糊,用以平滑边缘和非边缘区域的边界,使训练损失逐渐减少;第2个DCGAN解码器用于提取场景语义信息,输出分别表示图像中各个像素为天花板、地面、中墙、左墙与右墙区域的五通道概率图;该特征预测过程被视为一个多值求解过程,网络总损失函数表示为2个交叉熵分类损失函数的总和:① 边缘信息二值分类概率预测; ② 5个场景语义标签的预测:
L I , E , G = - 1 n E i * l o g E i + G i * l o g G i
式中:I为输入场景图像;E为预测的边缘图;G为预测的语义信息; E *为标注的边缘信息标签; G *为标注的语义信息标签;n为图像像素点个数;i为图像像素点索引位置。

2.3 候选布局生成

本节旨在生成由边缘信息图E和语义分割标签 G i , i 1,2 , , 5组成的参数化候选布局L,本文通过空间自适应采样法和预定义布局池联合来生成候选布局假设集合。如图4所示,文中根据LSUN场景数据集[31]将室内空间划分成11种类型布局的先验知识,定义参数化候选布局L由其所述的类型和关键角点坐标表示:
l = t , P 1 , P 2 , , P n
式中:t是布局L的类型, P 1 P nL的关键角点坐标,角点排序由类型t决定。每一个参数化布局L都能生成唯一与其对应的边缘信息图 E L与场景语义信息 G L,定义fg 2个将参数化布局L转换为对应的边缘图 E l和语义分割图 G l函数:
E l = f L , G l = g ( L )
进一步地,融合了边缘和场景语义信息,并用于反映候选布局L与编码-解码网络预测的概率图 ( E , G )匹配程度的评分函数如式(6)所示:
S G l , E l | G , E = S 1 G l , G + λ S 2 E l , E
式中: S 1为候选布局和网络预测的2个语义标签之间最大双向匹配分数; S 2为2个边缘图之间的余弦相似度,系数λ调节两者权重。
图4 LSUN场景数据集中预定义11种室内布局类型

Fig. 4 11 predefined interior layout types in the LSUN scene dataset

文中使用的空间自适应采样法基于曼哈顿世界假设[32],将原始室内场景视作一个三维盒子,采用Canny边缘检测器在室内场景不同立面上进行直线段检测,进而估计每一组直线段较可靠的消隐点位置[20],在室内场景不同立面上进行直线段检测并估计消隐点。Mallya等[24]将边缘图划分为等间距扇区,并密集采样平均边缘强度的较强扇区的消隐点射线构建候选布局。本文做了对应改进,使选定扇区的数量具有自适应性,从而显著减少了不良布局假设的发生,将扇区总数用 H表示,每个扇区的平均边缘强度用 d i , i = 1,2 , , H表示,在本文中只有i同时满足式(7)条件,才选择第i个扇区:
d i > d i - 1 d i > d i + 1 d i - d i + 1 > D d i - d i - 1 > D
式中:图像边界上的扇区 d 0 = 0 d H + 1 = 0,第一个条件用于选取局部最大边缘强度扇区,第二个条件避免由于噪声导致扇区选择错误。满足式(8)条件的消隐点射线采样布局过程如图5所示,(Ⅰ)、(Ⅱ)与(Ⅲ)分别为水平消隐点(远) V P 1、垂直消隐点 V P 2、水平消隐点(近) V P 3在边缘强度最大扇区进行射线采样示例,每个消隐点在边缘强度最大的扇区均匀采样M=3条射线,两两组合生成候选布局,由于预定义空间布局类型有11种,通过式(7)评分函数S对布局进行排序,选取每种类型N1=2个最佳布局,生成基于消隐点的布局假设 L v。由于空间自适应采样生成的候选布局 L v精度受估计的消隐点影响较大,在布局优化算法中可以纠正较小的误差,但如果估计的消隐点误差很大,则生成的 L v候选布局会完全错误。受室内场景可能存在相似的空间结构[33]的启发,本文通过引入一组额外的布局假设作为补充,提高布局容错能力,首先将LSUN数据集[31]所有训练样本的布局作为预定义布局池样本,使用式(7)中评分函数进行排名,仅保留每种类型的最佳布局,在此基础上选择N2 (例如N2=2)个布局以形成布局假设 L p图5为从预定义布局池中选择与网络预测的边缘图和场景语义标签相似的候选布局,可以看出,布局池选择出的布局与网络预测的结果非常接近,说明预定义布局池方法能有效提高候选布局的准确性,最后参数化布局 L = L v + L p,共包含N= N1+ N2个不同的布局。
图5 参数化候选布局L生成

Fig. 5 Parametric candidate layout L generation

2.4 布局优化与坐标提取

本节采用贪心策略对候选布局进行排序生成最优参数化布局L,提取最优布局关键坐标信息,并通过式(1)将坐标信息进行转换存储,如图6所示,(a)中绿线为待优化候选布局,红线为真实基准布局,对于参数化布局 l L P i表示l中一个关键点,设 Π i = { P i 1 , P i 2 , P i 3 , , P i m } P i对应的邻近点集,若 P i为内部关键点,则 Π i包含 P i在内的9个像素,若 P i为边缘角点且像素点不足时用0补齐。 Π 1是内部关键点 P 1对应的像素点图集, Π 1- Π 4是边缘角点 P 2- P 4对应的像素点图集。图6(b)中蓝线为本文提出布局优化算法优化后布局,图6(c)为最优布局结果,将室内场景分为左边墙、右边墙、地板3个区域,图6(d)为布局关键坐标信息,每个区域像素坐标按照逆时针顺序记录。算法1具体描述空间布局优化过程,对于给定初始布局l,为了便于计算,先将其对应的关键角点坐标数值进行取整,依次搜索每个角点坐标相邻像素,并根据式(6)中评分函数计算当前布局 l的分数 s,对于内部关键点 P 1,每次使用 Π 1内一个点取代 P 1,得到一个新的布局 l ' l '的匹配分数用 s '表示。若 s '高于s,则用 l ' s '更新 l s,循环迭代,直到所有 Π i内邻近点集全部更新完成,布局分数不再上升。此时L中的每一个布局假设都被单独细化,最终优化后的布局L一致性评分最高,具体伪代码如算法1所示。
图6 空间布局优化及坐标提取

Fig. 6 Spatial layout optimization and coordinate extraction

算法1 空间布局优化
输入: 候选布局假设集合 L, 语义信息图G, 边缘信息图 E
输出: 优化后的布局 l *
对每个 l k ϵ L , k = 1,2 , , K
赋值 l= l k, 其中 l = t , P 1 , P 2 , , P n
计算s= S(Gl , El |G,E)
开始循环
l中每个点 P i,生成其邻近点集 Π i = { P i 1 , P i 2 , P i 3 , , P i m }
对每个 P i j Π i
P i j代替 P i, 得到新布局 l '
s '= S G l , E l | G , E
s ' > s
更新 l = l ' , s = s '
当分数不在上升,退出循环
赋值 l k *= l
返回 l * = m a x ( l k * )

2.5 在线跟踪注册融合

虚拟模型在室内场景的在线注册融合流程如图7所示,首先从视频流中选取关键帧,与参考图像进行特征点匹配;使用RANSAC方法将错误匹配的特征点对剔除,降低噪声影响,接着利用优化后的特征点对计算参考图像和关键帧图像之间的单应矩阵H,获取摄像机与室内场景的初始位姿信息,为待注册虚拟模型提供基础注册范围;在初始姿态信息基础上,根据上文空间布局估算结果,确定室内场景语义标签中墙体、天花板、地板的准确位置,将虚拟模型按5个语义分割标签进行存储:0-地板、1-中间墙、2-左边墙、3-右边墙、4-天花板。在确定需要绘制的模型类别时,其在室内场景中的几何位置会被场景语义标签所约束。在渲染前通过式(1)将提取的空间布局关键点的像素坐标(u, v, 1)转换为世界坐标(xw, yw, zw,, 1)。图7(d)绘制虚拟模型时,在OpenGL(Open Graphics Library)中创建一个转换矩阵用于将相机旋转变换传递给OpenGL坐标系,使参考图像的原点注册在世界坐标系中的对应点上,参考图像在x-y平面上采用OpenGL通用右手坐标系, x正半轴指向参考图像右侧, y正半轴指向参考图像上侧, z正半轴指向参考图像外部。图7(e)转换后布局坐标信息能够绘制出虚拟模型在空间中的精确位置,语义标签确定虚拟模型与真实场景之间的语义关系(如地面上的书桌和墙上的钟表),最后利用OpenGL渲染实现在线跟踪注册。
图7 空间信息注册融合流程

Fig. 7 Spatial information registration fusion process

3 实验结果与分析

3.1 实验环境与数据集介绍

实验基于Caffe[34]深度学习框架建立网络模型,Python版本为2.7,Cuda版本为10.0,训练和验证工作在Ubuntu18.04服务器上进行,处理器为Intel(R) Core(TM) i9-10900K CPU @3.70 GHz、内存为64GB RAM、显卡为 Nvidia RTX 2080Ti GPU,测试工作在移动设备Realme x2 pro上进行,操作系统为:Android 11.0,内存为12 GB RAM。本文使用LSUN[31]数据集训练编码-解码网络,包含4 000张训练图像,394张验证图像,1 000张测试图像。LSUN数据集将室内场景分为卧室、酒店房间、餐厅、教室、办公室、客厅、会议室和教室8个类别,所有图像都具有有效的房间布局,可以手动注释,文中通过裁剪、水平翻转和颜色抖动等数据增强方法对训练集进行扩充。文中使用移动设备采集多个目标场景作为样本场景,摄像机拍摄的视频帧分辨率统一设置为650×500, DPI(Dots Per Inch)值为100。

3.2 参数设置与评价指标

本文设计的端到端编码-解码网络使用ILSVRC[35]数据集上预训练权重进行初始化,使用训练好的参数可以缩短训练时间和避免过拟合的问题,为了提高网络训练的稳定性和收敛速度将初始学习率设置为 10 - 4,每十轮迭代后下降为原来的90%,动量因子设为0.5。式(7)中阈值D=0.2,避免由于噪声导致扇区选择错误。为评估文中提出模型跟踪注册精度,根据文献[36]提出的缩放误差(Scaling Error)、位置误差(Position Error)、垂直旋转误差(Vertical Rotation Error) 3个评价指标来评估注册精度。缩放误差表示为在(x,y,z) 3个维度上虚拟模型与真实物体间的绝对差值百分比,由真实物体与估计注册模型间的均方根误差(RMSE)平均值得出;位置误差通过计算真实物体3D边界框中心与虚拟模型边界框中心均方根误差平均值;虚拟模型旋转误差通过所提出的布局优化算法计算。布局评估采用角点误差(Corner Error, CE)和像素误差(Pixel Error, PE)2个指标。角点误差反映每个关键角点的预测坐标与真实坐标之间的欧式距离与图像的对角线长度的比值:
E C i = x p r e d - x g t 2 + y p r e d - y g t 2 h 2 + w 2
E C = E C i n × 100 %
式中:EC表示角点误差,(xpred, ypred)表示预测空间布局关键点坐标;(xgt , ygt)为真实空间布局关键点坐标;wh表示图像的宽高。像素误差表示预测语义分割标签与真实语义分割标签之间的像素误差:
E P = 1 - i = 0 k p i i i = 0 k j = 0 k p i j
式中: p i j表示真实类别为i类却被预测为j类像素点个数; p i i表示预测类别与真实类别均为i类像素个数;k表示网络预测语义标签类别数,文中设置为5。

3.3 参考图像特征训练

本文对样本场景中参考图像集进行多分辨率采样,生成AR系统所需图像集文件,此文件集包含用于跟踪的原始图像数据。根据相机拍摄目标场景远近,使用SURF特征提取算法[28]对参考图像进行3种或以上不同分辨率特征提取,生成特征数据集。图8展示4个场景参考图像特征提取的结果,在连续跟踪中使用的特征点用红框表示,用于标识页面和初始化跟踪的特征点用绿色标记。
图8 特征提取结果

Fig. 8 Feature extraction results

表1图8中4个场景的特征点总数、特征点检测、描述符计算和特征匹配时间的统计。从表1中可以得出:对于纹理较深的图像提取的特征点数目会超过130个;纹理较浅的图像会提取100个特征点。同时特征点的检测和描述符计算时间都较短,都小于30 ms,特征匹配时间在135~165 ms内,较符合构建实时增强现实应用。
表1 特征点检测结果

Tab. 1 Experimental result in detecting features

编号 特征点数/个 特征检测/ms 计算描述符
/ms
特征匹配
/ms
图像1 138 16.13 15.48 140.74
图像2 128 15.23 14.02 134.62
图像3 161 25.87 22.20 161.13
图像4 143 18.62 17.41 141.58

3.4 布局约束的在线跟踪注册结果分析

3.4.1 跟踪注册可视化分析

图9为部分注册场景融合布局估计的跟踪注册可视化结果,从上至下为注册场景、边缘信息、语义标签、布局预测结果、融合注册结果。从图9中可以看出,尽管拍摄注册场景没有标注真实布局,但本文提出的基于端到端编码-解码网络的空间局估计方法对于遮挡和混乱仍具有很好稳定性,这是因为边缘信息和语义标签在提取参考图像信息时由2个单独的DCGAN解码器生成,解码器的多层转置卷积层可以逐层改善预测结果,使预测准确且清晰。图9(b)中预测边缘信息线条平直干净,在于训练时执行(σ=6)的高斯模糊,用以平滑边缘和非边缘区域的边界,利于后续空间自适应采样和候选布局评价;图9(c)中预测的语义标签边缘平滑完整,各个区域没有变形。在某些场景中,边缘信息和语义标签任意一个的预测受到室内环境影响较大时,通过联合学习边缘信息和语义标签,在预测布局时可以相互补偿,如图9场景Ⅲ中桌椅完全遮住了墙和地板的边界,造成边缘信息的错误估计,但在语义标签辅助下,网络仍能得到较为准确的布局估计,将室内场景正确分为左墙、中墙、天花板和地板4个部分。布局可视化实验结果表明经过重新设计训练的模型具有较强泛化性,能预测大多数室内环境的几何结构,为后续增强现实地理信息系统跟踪注册提供高精度的坐标几何约束和语义标签。图9(e)为融合布局约束的跟踪注册渲染结果,与传统相机姿态场景注册方法不同,前者仅考虑将模型注册至场景空间中,没有具备对真实场景的认知和识别能力。本文方法将虚拟模型按照其功能性被语义标签限定初始化绘制位置,将虚拟模型按5个语义分割标签进行存储:0-地板、1-中间墙、2-左边墙、3-右边墙、4-天花板。在确定需要绘制的模型类别时,其在室内场景中的几何位置会被场景语义标签所约束,如场景Ⅲ和Ⅳ中桌子和椅子被限定初始化在地面标签上,场景V中的时钟被限定初始化在中间墙标签上。接着通过空间布局坐标进一步优化模型的位置和姿态,建立起物体功能性与真实场景的逻辑关系,将物体绘制在更加合理区域。从上述各场景中可以看出空间信息跟踪注册的准确性与空间布局密切相关,展示在空间布局约束和语义标签辅助下空间信息的高质量注册,保证空间信息的功能和位置姿态正确性。
图9 融合布局约束的在线跟踪注册可视化结果

Fig. 9 Online tracking of registration visualization results with fused layout constraints

3.4.2 跟踪注册定量分析

表2将像素误差(CE)和角点误差(PE)作为布局估计定量评估指标,在LSUN数据集上比较分析了几种主流方法的性能。从表中结果来看,本文方法在LSUN数据集上评估指标都优于其他基线方法,像素误差(CE)精度较文献[26]提高1.41%,角点误差精度提高0.04%,其主要原因是提取的边缘信息和语义特征具有显著的几何线索,一定程度上能减弱室内混乱杂物和光照不均对布局边界的遮挡影响,通过引入空间自适应采样和预定义布局池有利于弥补传统基于外观颜色和场景文理特征方法感知能力不足。细化模块中联合生成候选布局增加候选布局数量,使得贪心策略优化算法学习到参数更有利于生成最佳布局估计。可以看出,将上述信息特征和布局优化算法融合在同一室内场景布局估计模型下,可以有效提高像素误差(PE)和角点误差(CE)估计的准确率,为后续优化初始位姿提供精确绘制坐标。
表2 不同方法在LSUN数据集定量评估结果

Tab. 2 Quantitative evaluation results of different methods in LSUN dataset (%)

方法 像素误差 角点误差
Hedau[20] 24.23 15.48
Mallya[24] 16.71 11.02
Dasgupta[37] 10.63 8.20
Ren[25] 9.31 7.95
Lee[26] 9.86 6.30
本文方法 8.45 6.26
表3为跟踪注册的虚拟模型在场景中位置误差、旋转误差和缩放误差的RMSE平均值,PSR表示用于评估位置缩放和旋转误差的图像数量。从表3中看出,注册的虚拟模型沿x轴的最大位置误差10 cm,最小1 cm,沿y轴的最大位置误差7 cm,最小1 cm,沿z轴最大位置误差9 cm,最小2 cm;沿x轴最大缩放误差16%,最小6%,沿y轴最大缩放误差13%,最小5%,沿z轴最大缩放误差17%,最小8%;最大垂直旋转误差16°(绕y轴旋转),最小6°。如果物体表面不平坦或存在部分遮挡物体表面的障碍物,则沿y轴的位置和缩放误差逐渐增大,从而干扰空间布局估计算法,轻微遮挡可以通过细化算法进行优化,如图9场景Ⅰ中笔记本电脑覆盖了桌子的一部分,而严重遮挡和混乱的场景会引起布局估计的失败,进一步导致姿态优化失效。对于旋转误差,在少数具有不对称形状的注册模型中出现了围绕垂直轴(y轴)旋转180°的错误,如图9场景Ⅳ中电脑和柜子的不对称组合。一般来说,当物体在视频关键帧中没有被完全捕捉到时,特征匹配算法在求解两幅图像之间的单应性关系较差,从而产生错误的初始姿态,旋转误差会逐渐增加。
表3 在线跟踪注册定量评估结果

Tab. 3 Online tracking registration quantitative evaluation results

物体(PS/R) Avg. RMSE Position/m Avg. RMSE Scaling/% Avg. RMSE Rotation/°
x y z x y z y
转椅(15/7) 0.04 0.03 0.02 9 7 11 8
书籍(31/13) 0.02 0.01 0.03 16 12 14 9
桌子(12/5) 0.10 0.07 0.09 8 10 17 11
沙发(9/5) 0.08 0.07 0.09 7 10 14 12
电脑(25/8) 0.02 0.03 0.02 9 13 11 6
时钟(17/4) 0.01 0.02 0.02 6 5 8 7
柜子(23/6) 0.04 0.06 0.04 13 7 17 16

3.4.3 跟踪注册耗时

表4图9的5个场景在跟踪注册过程各步骤耗时统计,从表中得出,在5个场景平均初始姿态时间为321.70 ms,包含特征点检测匹配和RANSAC优化2阶段,平均布局生成时间136.01 ms,布局优化的平均时间为31.40 ms,姿态优化阶段5个场景平均用时32.21 ms。在场景Ⅰ和场景Ⅱ中室内遮挡较少,在布局估计阶段精度较高,而场景Ⅲ、Ⅳ和Ⅴ中受到办公桌和沙发遮挡和墙体复杂结构影响,布局估计和优化时间花销较大,经过优化后各注册场景总时长的平均时间为521.32 ms。通过实验分析得,本文方法基本满足室内环境中大范围空间信息检测和实时绘制,较快地完成目标跟踪注册及虚拟模型的叠加,且能应对室内大多数复杂场景三维注册,具有较强稳定性。
表4 注册过程时间开销明细

Tab. 4 Computation time details for registration process (ms)

场景 注册时间
初始位姿 布局生成 布局优化 姿态优化 总注册时间
场景Ⅰ 312.30 134.26 23.94 21.73 492.23
场景Ⅱ 310.56 135.17 24.11 19.52 489.36
场景Ⅲ 335.44 138.13 36.47 44.37 554.41
场景Ⅳ 327.72 135.79 36.56 38.26 538.33
场景Ⅴ 322.46 136.68 35.93 37.19 532.26
平均时间 321.70 136.01 31.40 32.21 521.32

4 结论与展望

针对现有室内MAR-GIS方法在空间中绘制虚拟模型时缺乏与场景几何逻辑关联和难以提供有效空间结构信息问题,本文从改进MAR-GIS可视化角度出发,将视觉场景理解任务中的布局估计技术与跟踪注册技术相融合,提出一种空间布局约束下的在线跟踪注册学习方法,旨在优化室内场景的空间信息注册质量,增强可视化效果,与传统MAR-GIS方法相比,所提方法主要有2点创新:
(1) 将室内场景理解与跟踪注册技术相结合,通过室内空间布局提取结果与相机姿态的共同约束,建立起场景语义与物体功能性之间的关系,进一步限制虚拟模型在场景中位置,实现与室内场景的准确融合,提高融合可视化的合理性与语义逻辑性。
(2) 设计的端到端编-解码网络能提取高质量场景信息,在网络训练中边缘信息和语义标签相互补偿,提高预测的准确率。此外本文还提出一种布局估计优化算法,对候选布局进行排序精细化,进一步提高准确率,为后续空间信息注册增添精确空间约束,实验结果表明,此方法不需要专业的数据采集设备(如深度相机),能灵活适应室内空间变化,对室内AR导航和环境布局检测也具有良好的应用前景。
本文所提方法能较好的优化MAR-GIS系统可视化效果,但仍具有一定局限性: ① 在LSUN数据集中,预定义11种布局类型基于曼哈顿空间假设[32],且大约60%的样本布局属于类型4或5,模型难以判别如弧形和不规则等室内复杂连续结构,导致候选布局生成失败;② 本文布局估计建立在特征图预测上,场景的语义标签划仅划分为5种类型,没有对室内物体进行实例分割,当特征图预测失败时,布局估计结果较差,影响最终空间信息位姿优化。后续使用对室内复杂场景结构适应性更强的神经网络来增强场景理解过程,并对场景物体进行实例分割,进一步细化空间信息注册的功能性和位置精度是下一步需要深入研究的问题。
[1]
杜清运, 刘涛. 户外增强现实地理信息系统原型设计与实现[J]. 武汉大学学报·信息科学版, 2007, 32(11):1046-1049.

[Du Q Y, Liu T. Design and implementation of a prototype outdoor augmented reality GIS[J]. Geomatics and Information Science of Wunan University, 2007, 32(11):1046-1049.] DOI:10.3969/j.issn.1671-8860.2007.11.021

DOI

[2]
别勇攀, 关庆锋, 姚尧. 基于边云协同的AR空间分析计算框架[J]. 地球信息科学学报, 2020, 22(6):1383-1393.

DOI

[Bie Y P, Guan Q F, Yao Y. A framework for AR spatial analysis based on edge-cloud integration[J]. Journal of Geo-Information Science, 2020, 22(6):1383-1393.] DOI:10.12082/dqxxkx.2020.190472

DOI

[3]
Weng Z Z, Yeung S. Holistic 3D human and scene mesh estimation from single view images[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:334-343. DOI:10.1109/CVPR46437.2021.00040.

DOI

[4]
孙敏, 陈秀万, 张飞舟, 等. 增强现实地理信息系统[J]. 北京大学学报(自然科学版), 2004, 40(6):906-913.

[Sun M, Chen X W, Zhang F Z, et al. Augment reality geographical information system[J]. Acta Scicentiarum Naturalum Universitis Pekinesis, 2004, 40(6):906-913.] DOI:10.13209/j.0479-8023.2004.133

DOI

[5]
Gillsjö D, Flood G, Åström K. Semantic room wireframe detection from a single view[EB/OL]. 2022: arXiv: 2206.00491. https://arxiv.org/abs/2206.00491

[6]
邓晨, 游雄, 张威巍, 等. 基于2D地图的城市户外ARGIS视觉辅助地理配准技术[J]. 测绘学报, 2019, 48(10):1305-1319.

DOI

[Deng C, You X, Zhang W W, et al. A vision-aided geo-registration method for outdoor ARGIS in urban environments based on 2D maps[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(10):1305-1319.] DOI:10.11947/j.AGCS.2019.20190007

DOI

[7]
Ma W, Xiong H J, Dai X F, et al. An indoor scene recognition-based 3D registration mechanism for real-time AR-GIS visualization in mobile applications[J]. ISPRS International Journal of Geo-Information, 2018, 7(3):112. DOI:10.3390/ijgi7030112

DOI

[8]
Guan T, Duan L Y, Yu J Q, et al. Real-time camera pose estimation for wide-area augmented reality applications[J]. IEEE Computer Graphics and Applications, 2011, 31(3):56-68. DOI:10.1109/MCG.2010.23

DOI PMID

[9]
Duan L Y, Guan T, Luo Y W. Wide area registration on camera phones for mobile augmented reality applications[J]. Sensor Review, 2013, 33(3):209-219. DOI:10.1108/02602281311324663

DOI

[10]
Fiala M. Artag, an improved marker b system based on artoolkit[J]. National Research Council Canada, 2004, 6:1-36.

[11]
Huang W, Sun M, Li S N. A 3D GIS-based interactive registration mechanism for outdoor augmented reality system[J]. Expert Systems With Applications, 2016, 55:48-58. DOI:10.1016/j.eswa.2016.01.037

DOI

[12]
Skrypnyk I, Lowe D G. Scene modelling, recognition and tracking with invariant image features[C]// Third IEEE and ACM International Symposium on Mixed and Augmented Reality. IEEE, 2005:110-119. DOI:10.1109/ISMAR.2004.53

DOI

[13]
张一, 姜挺, 江刚武, 等. 特征法视觉SLAM逆深度滤波的三维重建[J]. 测绘学报, 2019, 48(6):708-717.

DOI

[Zhang Y, Jiang T, Jiang G W, et al. 3D reconstruction with inverse depth filter of feature-based visual SLAM[J]. Acta Geodaetica et Cartographica Sinica, 2019, 48(6):708-717.] DOI:10.11947/j.AGCS.2019.20180421

DOI

[14]
Wagner D, Reitmayr G, Mulloni A, et al. Real-time detection and tracking for augmented reality on mobile phones[C]// IEEE Transactions on Visualization and Computer Graphics. IEEE, 2009:355-368. DOI:10.1109/TVCG.2009.99.

DOI

[15]
Chia K W, Cheok A D, Prince S J D. Online 6 DOF augmented reality registration from natural features[C]// Proceedings of the 1st International Symposium on Mixed and Augmented Reality. New York: ACM, 2002:305-313. DOI:10.1109/ISMAR.2002.1115123

DOI

[16]
Wagner D, Reitmayr G, Mulloni A, et al. Pose tracking from natural features on mobile phones[C]// 2008 7th IEEE/ACM International Symposium on Mixed and Augmented Reality. IEEE, 2008:125-134. DOI:10.1109/ISMAR.2008.4637338

DOI

[17]
Joseph S L, Zhang X C, Dryanovski I, et al. Semantic indoor navigation with a blind-user oriented augmented reality[C]// Proceedings of the 2013 IEEE International Conference on Systems, Man, and Cybernetics. New York: ACM, 2013:3585-3591. DOI:10.1109/SMC.2013.611

DOI

[18]
Qiao H, Li Y L, Li F F, et al. Biologically inspired model for visual cognition achieving unsupervised episodic and semantic feature learning[J]. IEEE Transactions on Cybernetics, 2016, 46(10):2335-2347. DOI:10.1109/TCYB.2015.2476706

DOI PMID

[19]
Xiao J X, Furukawa Y. Reconstructing the world’s museums[J]. International Journal of Computer Vision, 2014, 110(3):243-258. DOI:10.1007/s11263-014-0711-y

DOI

[20]
Hedau V, Hoiem D, Forsyth D. Recovering the spatial layout of cluttered rooms[C]// 2009 IEEE12th International Conference on Computer Vision. IEEE, 2010:1849-1856. DOI:10.1109/ICCV.2009.5459411

DOI

[21]
Lee D C, Gupta A, Hebert M, et al. Estimating spatial layout of rooms using volumetric reasoning about objects and surfaces[C]// Proceedings of the 23rd International Conference on Neural Information Processing Systems - Volume 1. New York:ACM, 2010:1288-1296. DOI: 10.5555/2997189.2997333

DOI

[22]
Wang H Y, Gould S, Roller D. Discriminative learning with latent variables for cluttered indoor scene understanding[J]. Communications of the ACM, 2013, 56(4):92-99. DOI:10.1145/2436256.2436276

DOI

[23]
Del Pero L, Bowdish J, Kermgard B, et al. Understanding Bayesian rooms using composite 3D object models[C]// 2013 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2013:153-160. DOI:10.1109/CVPR.2013.27

DOI

[24]
Mallya A, Lazebnik S. Learning informative edge maps for indoor scene layout prediction[C]// 2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2016:936-944. DOI:10.1109/ICCV.2015.113

DOI

[25]
Ren Y Z, Li S W, Chen C, et al. A coarse-to-fine indoor layout estimation (CFILE) method[M]// Computer Vision - ACCV 2016. Cham: Springer International Publishing, 2017:36-51. DOI:10.1007/978-3-319-54193-8_3

DOI

[26]
Lee C Y, Badrinarayanan V, Malisiewicz T, et al. RoomNet: end-to-end room layout estimation[C]// 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2017:4875-4884. DOI:10.1109/ICCV.2017.521

DOI

[27]
Zhang Z. A flexible new technique for camera calibration[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(11):1330-1334. DOI:10.1109/34.888718

DOI

[28]
Bay H, Ess A, Tuytelaars T, et al. Speeded-up robust features (SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3):346-359. DOI:10.1016/j.cviu.2007.09.014

DOI

[29]
Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. 2014: arXiv: 1409.1556. https://arxiv.org/abs/1409.1556.

[30]
Radford A, Metz L, Chintala S. Unsupervised representation learning with deep convolutional generative adversarial networks[EB/OL]. 2015: arXiv: 1511.06434. https://arxiv.org/abs/1511.06434

[31]
Zhang Y, Yu F, Song S, et al. Large-Scale Scene Understanding Challenge: Room Layout Estimation[OL]. http://lsun.cs.princeton.edu/leaderboard/#roomlayout.

[32]
Coughlan J M, Yuille A L. The Manhattan world assumption: Regularities in scene statistics which enable Bayesian inference[C]// Proceedings of the 13th International Conference on Neural Information Processing Systems. New York: ACM, 2000:809-815. DOI:10.5555/3008751.3008869

DOI

[33]
Zhang W D, Zhang W, Gu J. Edge-semantic learning strategy for layout estimation in indoor environment[J]. IEEE Transactions on Cybernetics, 2020, 50(6):2730-2739. DOI:10.1109/TCYB.2019.2895837

DOI PMID

[34]
Jia Y Q, Shelhamer E, Donahue J, et al. Caffe: Convolutional architecture for fast feature embedding[C]// Proceedings of the 22nd ACM international conference on Multimedia. New York: ACM, 2014:675-678. DOI:10.1145/2647868.2654889

DOI

[35]
Deng J, Dong W, Socher R, et al. ImageNet: A large-scale hierarchical image database[C]// 2009 IEEE Conference on Computer Vision and Pattern Recognition. IEEE, 2009:248-255. DOI:10.1109/CVPR.2009.5206848

DOI

[36]
Manni A, Oriti D, Sanna A, et al. Snap2cad: 3D indoor environment reconstruction for AR/VR applications using a smartphone device[J]. Computers & Graphics, 2021, 100:116-124. DOI:10.1016/j.cag.2021.07.014

DOI

[37]
Dasgupta S, Fang K, Chen K, et al. DeLay: Robust spatial layout estimation for cluttered indoor scenes[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2016:616-624. DOI:10.1109/CVPR.2016.73

DOI

Outlines

/