Classification of Textured 3D Mesh Models Based on Multiview 2D Mapping

QU Fenglei; HU Zhongwen; ZHANG Yinghui; ZHANG Jinhua; WU Guofeng

doi:10.12082/dgxxkx.2024.230520

Journal of Geo-information Science >

2024 , Vol. 26 >Issue 3: 654 - 665

DOI: https://doi.org/10.12082/dgxxkx.2024.230520

Classification of Textured 3D Mesh Models Based on Multiview 2D Mapping

QU Fenglei ^,¹^,²^,³ ,
HU Zhongwen ^,¹^,²^,³^,^* ,
ZHANG Yinghui ¹^,²^,³ ,
ZHANG Jinhua ¹^,²^,³ ,
WU Guofeng ¹^,²^,³

Expand

1. MNR Key Laboratory for Geo-Environmental Monitoring of Great Bay Area, Shenzhen University, Shenzhen 518060, China
2. Guangdong Key Laboratory of Urban Informatics, Shenzhen University, Shenzhen 518060, China
3. School of Architecture and Urban Planning, Shenzhen University, Shenzhen 518060, China

*HU Zhongwen, E-mail: zwhoo@szu.edu.cn

Received date: 2023-09-02

Revised date: 2023-10-20

Online published: 2024-03-31

Supported by

National Natural Science Foundation of China(41871227)

Shenzhen Science and Technology Program(JCYJ20220818101617037)

Shenzhen Science and Technology Program(JCYJ20230808105201004)

Fold

Abstract

Textured 3D mesh models are digital virtual spaces that provide a true, three-dimensional representation of human production, living, and ecological spaces. They have been widely used as foundational data input in areas such as smart cities and visual exhibitions. The semantic interpretation of textured 3D models is the foundation for fully exploring the potential of these models to achieve automatic understanding and analysis of scenes. Existing interpretation methods suffer from issues such as incomplete interpretation of occluded objects and inaccurate interpretation of different object boundaries. To address these challenges, in this study, we propose a multiview-based classification method for textured 3D mesh models. A textured 3D mesh model is first segmented into ground surfaces and 3D objects by Cloth Simulation Filtering (CSF) method. The ground surface is projected to a 2D orthophoto and classified using object-based image analysis methods. The textured 3D objects are transformed into five 2D images through orthographic and multiview oblique projections. These 2D images are then classified using object-based image analysis methods. Furthermore, these 2D semantic maps are inverse-projected to the 3D mesh model, and a multiview voting strategy is proposed for fusing sematic information from different views to obtain the sematic 3D objects. Finally, the semantic terrain surface and 3D objects are merged together to obtain the semantic 3D mesh model. A textured 3D mesh model of Shenzhen University is used to verify the effectiveness of the proposed method. Besides, the proposed method is compared with two state-of-the-art methods. The results show that the proposed method effectively addresses the problems in interpreting occluded objects and distinguishing edges between different objects. It outperforms the competing methods, particularly in the areas of orthographic occlusion and where different ground objects are connected or adhered, and achieves the highest classification accuracy (overall accuracy is 96.69%, Kappa coefficient is 0.942). Future research endeavors could consider the introduction of hyper-facet as the basic unit for classification and multiview fusion. Besides, we used only five fixed views in this study, and adaptive multiview estimation strategy could be further investigated to enhance the accuracy and robustness of the method. This method makes full use of the multiview information of the textured 3D mesh models, which holds significant theoretical and practical values. It not only contributes valuable insights but also offers methodological support for advancing the development and utilization of textured 3D models, especially in the field of natural resources management using textured 3D mesh models.

Key words： textured 3D mesh model; 3D classification; multi-level analysis; multiview projection; object-based approach; semantic information; weighted multiview voting; oblique projection

Cite this article

QU Fenglei , HU Zhongwen , ZHANG Yinghui , ZHANG Jinhua , WU Guofeng . Classification of Textured 3D Mesh Models Based on Multiview 2D Mapping[J]. Journal of Geo-information Science, 2024 , 26(3) : 654 -665 . DOI: 10.12082/dgxxkx.2024.230520

1 引言

实景三维模型是一种数字虚拟空间，逼真地反映了人类的生产、生活和生态空间，已成为数字城市建设和智慧城市发展的重要支撑技术，也是新基建战略的重要组成部分^[1]。目前，实景三维的应用和研究在自动化建模、可视化展览和智慧城市等多个领域发挥了重要作用。分利用实景三维模型的丰富信息，实现场景的自动理解与分析，是推动实景三维模型进行资源环境监测的基础，已经成为当前实景三维应用研究的重要方向^[2⇓-4]。

目前实景三维模型的解译主要采用三维语义分割、基于多视影像的解译以及三维模型和二维影像结合解译等策略。三维语义分割方法包括基于点云的三维语义分割^{[5⇓⇓⇓-9]}、基于mesh的三维语义分割^{[10⇓⇓-13]}等。该类方法可以利用实景三维模型中的几何、纹理等信息进行物体识别和分类，但是其对模型的精度和噪声敏感性要求较高^[14-15]。此外，由于其计算量大和泛化能力弱，在大规模城市场景下的实景三维模型解译的问题上仍然存在一定的局限性。

基于二维多视影像进行实景三维的解译是先对采集的多视影像进行解译，再将解译结果叠加到模型上^{[15⇓⇓-18]}。这类方法是对采集的多视影像进行解译，能够得到较准确的地物信息或场景重建结果。这类方法大多数基于机器学习方法，具有较强的泛化能力，然而采集、处理和存储多视影像数据通常需要更多的时间、资源和设备，从而增加了成本。

采用三维模型和二维影像解译相结合的策略则可以利用高分辨率遥感影像和地面采集的图像对实景三维模型进行补充和验证，降低解译难度，并且提高实景三维模型解译的精度和可信度。如刘志刚等^[19]使用基于面向对象的方法将实景三维模型分成地面层和立体层，并采用随机森林算法对其进行语义标注。该方法实现了立体地物和平面地物的分层处理，极大降低了解译难度，提升了解译效率，极大提高了实景三维解译时地物语义表达的准确性。然而，该方法未对立体地物做进一步的分割，导致部分地物粘连、遮挡、边缘不准确等问题。

本研究以二三维相结合方法为基础，针对其地物粘连、遮挡、边缘不准确等问题，提出基于多视角的实景三维模型解译方法，将立体模型进行多个视角的二维投影，并对二维投影结果分别进行面向对象的影像解译，最终进行多视角解译结果的自动加权融合。

2 研究方法

本研究总体技术路线如图1所示。实景三维模型采用层次分割方法实现平缓地表模型和三维立体地物的分层分割。

显示原图|下载原图ZIP|生成PPT

图1 总体技术路线

Fig. 1 Flowchart of the proposed approach

针对三维立体地物，首先采用多视角倾斜投影，获取多个视角下的二维影像；然后，对各视角影像采用面向对象的影像解译方法进行语义解译；最后，基于二维影像与三维模型的几何投影关系，将解译结果逆向投影到三维模型表面。其中，对于有多个解译结果的区域，本研究提出了多视角加权投票法综合不同观测视角下的三维语义信息，获得最优的解译结果。

针对平缓地面模型部分，由于其地势相对平缓且无遮挡，仅采用正射视角投影获取正射影像，并采用面向对象的影像解译方法获得解译结果，最终将结果投影到三维表面获得语义三维模型。将立体语义模型与地面语义模型进行合并，形成最终的实景三维模型解译结果。

2.1 三维模型分层

实景三维模型分层旨在将立体地物与起伏平缓的地形表面分开，以降低处理难度，提升精度和处理效率^[19]。本研究基于布料模拟滤波（Cloth Simulation Filtering, CSF）算法^[20]将实景三维模型的顶点分为地面和非地面点，进一步基于顶点分割结果将实景三维模型分成地形表面与立体地物两部分，并分别进行解译。

(1) 三维模型顶点分割：CSF滤波算法是一个物理过程的模拟，通过模拟布料在外部驱动力（重力，式（1））和内部联系作用（刚性或柔性，式（2）、式（3））下的行为来确定地面点，算法流程如图2所示。

显示原图|下载原图ZIP|生成PPT

图2 CSF算法流程

Fig. 2 Flowchart of CSF algorithm

（1）

F g r a v i t y = m × g

（2）

F b e n d = - k b e n d × (θ - θ 0)

（3）

F s t r e t c h = - k s t r e t c h × (| d | - d 0) × d | d |

式中：

F g r a v i t y

表示重力受力；

m

表示布料颗粒的质量；

g

表示重力加速度；

F b e n d

表示弯曲受力；

k b e n d

表示弯曲弹性系数；

θ

表示当前角度；

θ 0

表示平衡角度；

F s t r e t c h

表示拉伸受力；

k s t r e t c h

表示拉伸弹性系数，

d

表示当前距离；

d 0

表示平衡距离。

首先，布料受重力作用逐渐下沉并附着于地表的建筑物和树木上，此时

m

设置为极大，

k b e n d

与

k s t r e t c h

设置为极小，使模拟布料呈现出柔性，形成数字地表模型(图3（a）)。然后，将地形倒置并假设布料具有一定的刚性，此时

m

设置为极小，

k b e n d

与

k s t r e t c h

设置为极大，使布料形成数字地面模型的形状（图3（b））。最终通过结合2个模拟过程（图3（c）），能够将点云数据区分为地面点云和非地面点云。本研究使用CSF滤波算法完成实景三维模型顶点的分割(图4)。

显示原图|下载原图ZIP|生成PPT

图3 CSF滤波示意

Fig. 3 Illustration of Cloth Simulation Filtering

显示原图|下载原图ZIP|生成PPT

图4 点云滤波结果示例

Fig. 4 Segmentation of vertexes

(2) 基于点云滤波结果的模型分层:统计三角网格中的所有三角面片的3个顶点的属性，若一个面片由两个以上的非地面点构成，则该面片为立体地物的面片。此时模型分层结果较均衡，利于后续的解译。通过将三维模型拆解为地面层和立体层两个层次分别解译，可有效降低立体地物对地面层遮挡的影响，充分利用立体层的侧面信息并且简化地面模型的解译难度。模型分层示例如图5所示。

显示原图|下载原图ZIP|生成PPT

图5 实景三维分层

Fig. 5 Multi-level segmentation of textured 3D mesh model

2.2 多角度投影影像获取

由于地物的立体分布层次差异，在某些视角下部分地物会被遮挡，造成无法被观测到。为了解决该问题，本研究使用多视角的策略进行解译，通过从多个视角观察同一场景，可以得到更全面的信息，从而提高对被遮挡物体的解译能力。

对模型中每个三角面片进行仿射变换，即可获得三维模型单一角度下的投影影像，通过正交投影获取不同角度三维模型的投影影像。本研究采用渲染到纹理技术(Render To Texture, RTT)^[21]获取模型分层后立体地物模型的5个不同视角下的投影影像。如图6所示，分别为正射影像、绕x轴逆时针旋转45° (X_45)、绕x轴顺时针旋转45° (X45)、绕y轴逆时针旋转45° (Y_45)和绕y轴顺时针旋转45°(Y45)的投影影像。

显示原图|下载原图ZIP|生成PPT

图6 不同角度投影影像

Fig. 6 Projected images with different views

2.3 面向对象的二维投影影像解译

不同视角三维模型的解译，主要包括面向对象的投影影像分类和分类结果三维映射。本研究采用面向对象方法对二维投影影像进行分类，采用无尺度参数的尺度集遥感影像解译方法^[22]。这一方法主要包括影像分割、特征提取、机器学习分类以及尺度自动估算等。与传统的基于像素的解译方法相比，面向对象影像分类通过影像分割将像素聚集为一系列内部同质的多边形，将像素点特征转换为对象的特征，从而充分利用影像的光谱、纹理、形状等信息，分类精度更高。特别是对于高分辨率无人机遥感影像，本方法可以克服大量细节的影响，消除影像分类的椒盐噪声现象。最后，将地形表面正射影像分类结果映射到三维实景模型，得到地形表面模型的分类结果，如图7所示。

显示原图|下载原图ZIP|生成PPT

图7 不同角度解译结果示意

Fig. 7 Illustration of classified 2D images and semantic 3D mesh models

2.4 视角加权投票法

视角加权投票法是一种多视角三维解译结果融合方法，主要用于融合来自不同视角的解译结果。对于一个实景三维模型，当观测视角位于模型的一侧时，部分面片可能会被其他部分遮挡，导致某些面片的可见性降低，从而降低了该视角的面积，解译结果的可靠性降低。因此，本研究根据不同视角下三角面片的面积，为每个面片的不同视角赋予不同的权重值，通过加权每个视角的解译结果(图8)得到最终的解译结果如图9所示。

显示原图|下载原图ZIP|生成PPT

图8 视角加权投票法处理流程

Fig. 8 Flowchart of weighted voting

显示原图|下载原图ZIP|生成PPT

图9 多角度三维语义融合示意

Fig. 9 An illustration of multiview semantical fusion

首先计算每个视角下的三维模型中每个面片赋予权重值，权重值的大小取决于该视角下面片的可见性和正交面积。本研究基于视角组合中各视角的面积比进行权重的计算^[23]。针对实景三维模型的每一个三角面，其实际面积表示为

s T

，在第i个视角，其在二维影像上的投影面积表示为

s i

，则该角度的权重计算具体公式如下：

（4）

P i = s i s T

（5）

w i = P i ∑ j = 1 n P j

式中：

P i

表示第

i

个投影面积与三维表面积的比值；

n

表示视角的总数；

w i

表示该三角面第

i

个视角的权重。

式(5)得到的视角权重能够更加准确地反映每个视角对该三角面解译的重要程度。

然后在三角面内以像元为单位，逐像元统计权重最大的类别，并将该结果作为该像素的最终解译类别。通过对不同视角进行加权投票，克服单一视角的错误解译，以及遮挡造成的结果不完整，提高解译的准确性和可靠性。

3 实验及结果分析

3.1 实验数据与参数设置

为验证三维模型解译方法的有效性，本研究使用无人机采集研究区(长宽分别约为300 m和200 m)倾斜相片，并重建实景三维模型(图10)。该场景地形具有一定起伏，包含建筑、树木、草地、水体以及道路等地物类型，且各种地物空间分布上高低错落，具有较好的代表性。研究区三维模型共有2 398 483个三角面，1 012 527个顶点。本文所提算法采用C++编程语言实现，实验环境为Windows10系统，CPU为AMD 5800 H，内存24 GB。

显示原图|下载原图ZIP|生成PPT

图10 实验用实景三维模型

Fig. 10 Textured 3D mesh model used in the study

实验中CSF滤波算法的参数分别为：场景参数设置为3，即城市场景，布料分辨率为0.3、最大迭代次数为500、分类阈值为0.5。为了模型分层结果较为均衡，统计三角网格中的所有三角面片的3个顶点的属性，将包含2个及以上非地面点的面片标记为立体地物面片。

本研究共选取5个观测视角对立体的实景三维模型进行解译，分别为X45、X_45、Y45、Y_45以及正射投影，进一步采用SuperSIAT软件^[22]对二维投影影像进行解译，其中决策树数量设置为100、最大树深为20、最小剪枝为5、最大特征数设置为总特征数的平方根。

3.2 总体解译结果与精度

本文算法结果如图11（a）所示。为验证本算法的有效性和优势，将分类结果与文献[18]采用的算法、以及文献[19]用的分层解译结果进行比较。人工解译真值如图11（d）所示。文献[18]所提方法采用正射投影的方式获得二维影像，并进行二维影像的解译和结果的映射。文献[19]方法首先将模型立体分层，然后分别对立体地物层和平缓地表层进行了面向立体对象和二维对象的模型解译。各方法的解译结果如图10（b）和（c）所示。

显示原图|下载原图ZIP|生成PPT

图11 分类结果对比

Fig. 11 Comparison of classification results

将各方法的分类结果（图11（a）—图11（c））与验证真值进行对比，生成各方法的混淆矩阵，并根据混淆矩阵计算各方法的总体精度、Kappa系数以及不同地物类别的生产者精度、用户精度，如表1 —表3所示。

表1 本文算法混淆矩阵

Tab. 1 The confusion matrix of proposed method

类别	参照样本（三角面片）/个					用户精度/%	生产者精度/%
类别	树木	建筑	草地	道路	水体	用户精度/%	生产者精度/%
树木	1 016 152	28 429	26	59	0	97.27	95.75
建筑	36 046	1 123 208	18	113	0	96.88	97.07
草地	5 571	1 058	65 763	37	0	90.80	99.83
道路	3 182	4 328	66	105 467	1	93.30	99.79
水体	291	112	0	17	8 539	95.31	99.99
总体精度/%	96.69
Kappa 系数	0.942

表2 文献[18]的算法混淆矩阵

Tab. 2 The confusion matrix of the method proposed in [18]

类别	参照样本（三角面片）/个					用户精度/%	生产者精度/%
类别	树木	建筑	草地	道路	水体	用户精度/%	生产者精度/%
树木	960 377	22 426	37 008	19 451	1 378	92.29	90.50
建筑	55 842	1 071 502	2 055	6 797	38	94.30	92.60
草地	13 542	4 598	22 045	1 964	0	52.30	33.47
道路	30 714	58 582	4 765	77 434	707	44.97	73.26
水体	767	27	0	47	6 417	88.41	75.14
总体精度/%	89.13
Kappa 系数	0.811

表3 文献[19]的算法混淆矩阵

Tab. 3 The confusion matrix of the method proposed in [19]

类别	参照样本（三角面片）/个					用户精度/%	生产者精度/%
类别	树木	建筑	草地	道路	水体	用户精度/%	生产者精度/%
树木	949 888	3 819	684	398	8	99.49	89.51
建筑	108 271	1 149 114	907	2 561	69	91.13	99.31
草地	2 659	1 706	63 594	696	30	92.59	96.54
道路	381	2 447	638	101 924	81	96.64	96.43
水体	43	49	50	114	8 352	97.03	97.80
总体精度/%	94.76
Kappa 系数	0.908

如图11（a）及表1所示，本文所提方法的总体分类精度为96.69%，Kappa系数为0.942，显示了该分类方法的高准确性和一致性。其中，对于草地、道路和水体等类别，生产者精度均达到99%以上，验证了本文方法在识别和捕捉这些地物特征和模式上的有效性和优异表现。然而，树木与建筑的生产者精度分别为95.75%和97.07%，略低于其他类别。这意味着本部分树木被错误地被分类为建筑等其他类别；部分建筑物也被错误分类为树木等其他地物。草地的用户精度最低，为90.80%，主要是部分树木被错误地分类为草地。这是由于模型分层时能将高大树木与草地分开，但会将一些低矮的灌木类植物划分到地面层模型中，因此容易误归类为草地。此外，所有地物的用户精度均在90%以上，表明本方法在各种地物分类方面均具有非常优异的表现。

文献[18]的方法分类结果如图11（b），总体精度为89.13%，Kappa 系数为0.811(表2)，远低于本研究的方法。虽然在树木和建筑类别的生产者精度和用户精度均达到较高水平(超过90%)，但草地、道路和水体等地面地物的用户精度和生产者精度都明显较低。尤其是草地的生产者精度仅为33.47%，道路的用户精度仅为44.97%。这是由于该方法建筑侧面，以及被建筑和树木遮挡的地面部分被遮挡引起错分。特别是被高大乔木林下的草地，易被错分为树木类别。

文献[19]的方法分类结果如图11（c），精度计算见表3。该方法在大多数类别（建筑、草地、道路和水体）的生产者精度和用户精度均达到较高水平，超过90%。这表明分类器能将这些地物较好区分。该方法总体精度为94.76%和Kappa系数为0.908进一步验证了分类器在总体分类任务上的高准确性和一致性。

3.3 算法原理与结果细节对比

文献[18]的算法以正射影像为主要数据，忽略了地物的立体分布层次，未充分利用地物高度、形状等特征，影响了解译的精度。此外，将二维解译的结果映射到三维模型时，未考虑地物遮挡问题，造成地物侧面、被遮挡地物的分类错误，如图12（b）所示屋顶和房屋侧面出现了较多的错误分类。

显示原图|下载原图ZIP|生成PPT

图12 分类结果细节对比

Fig. 12 Comparison of details

文献[19]的算法针对此问题，提出了地物立体层次分割的方法，考虑了地物分布规律，充分利用了地物的立体信息，有效的避免了立体地物对地面地物的遮挡问题。但是其单体化处理过程可能无法合理地分离相连的立体地物，如图12（c）所示房屋旁边的花坛中草地和树木空间相连，无法区分。

本文所提方法在模型立体分层基础上采用多视角投影，并对投影影像进行面向对象的解译，以更小处理单元进行地物的解译。本文所提算法对实景三维模型在三维层面进行像素级的信息融合，从而能够更精细地区分空间上粘连的地物。如图12（a）所示，本文所提算法正确的分类了花坛中的草地与树木。

根据对表1 —表3的精度比较，本研究的算法表现出比文献[18]和文献[19]的算法更高的精度。本研究的算法更适用于地物变化多样的复杂区域，多视角的方法能够更好的利用地物的侧面信息，对地物交界处通过多视角来改正，且对三维模型的精细度要求低于文献[19]的方法。文献[19]的算法适用于三维模型非常精细和地物种类丰富的城市区域。采用分层解译和面向对象的方法，在地物类型变化大的区域，分类效果较好。而文献[18]的算法更适用于地物种类较少、地形变化相对平缓的场景，或要求快速解译且解译精度要求不高的场景。在实际应用中，可以根据研究区的实际情况和研究目的来选择合适的算法。

4 结论与讨论

本文提出了一种基于多视角二维投影的实景三维模型解译方法，通过正射投影、多角度倾斜投影的方法，将实景三维模型转换为多张二维影像，通过面向对象影像解译方法分类。进一步采用逆向投影将语义信息映射到三维模型，并采用加权投票策略实现不同视角语义信息的决策融合。

实验结果表明本方法能够准确地解译出实景三维模型的语义信息，解译的总体精度能够达到96.69%，Kappa 系数达到了0.942。对比本文方法与已有同类方法发现，本文所提方法的语义解译精度显著高于已有同类方法。本文采用的多视角策略能够充分利用实景三维中不同视角中的三维侧面信息，有效提高语义解译的精度。此外，本文采用的模型分层策略能够一定程度上减弱在解译时立体地物对表面地物的遮挡影响。

但本研究也有需进一步优化的地方，例如，由于加权投票不是基于面片的，可能会导致解译结果出现斑驳的现象。另外，由于本研究选取的视角是固定的，仍然存在一些侧面甚至底面信息观测不到的情况，导致错分。未来的研究可以针对上述问题，引入超面元和视角自适应的策略，进一步提升解译方法的准确性和鲁棒性。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	李德仁, 张洪云, 金文杰. 新基建时代地球空间信息学的使命[J]. 武汉大学学报(信息科学版), 2022, 47(10):1515-1522. [ Li D R, Zhang H Y, Jin W J. The mission of geo-spatial information science in new infrastructure era[J]. Geomatics and Information Science of Wuhan University, 2022, 47(10):1515-1522. ] DOI:10.13203/j.whugis20220078

[2]	朱勇, 程海翔. 基于倾斜摄影技术的城市实景三维建模研究[J]. 经纬天地, 2022(6):27-30. [ Zhu Y, Cheng H X. Research on 3D modeling of urban real scene based on tilt photography technology[J]. Survey World, 2022(6):27-30. ] DOI:10.3969/j.issn.1673-7563.2022.06.008

[3]	曲林, 冯洋, 支玲美, 等. 基于无人机倾斜摄影数据的实景三维建模研究[J]. 测绘与空间地理信息, 2015, 38(3):38-39,43. [ Qu L, Feng Y, Zhi L M, et al. Study on real 3 D modeling of photographic data based on UAV[J]. Geomatics & Spatial Information Technology, 2015, 38(3):38-39,43. ]

[4]	杨秀德. 基于语义描述的马尔科夫随机场无人机影像三维重建[J]. 北京测绘, 2018, 32(7):814-818. [ Yang X D. Three dimensional reconstruction of UAV images based on Markov Random Field using semantic description[J]. Beijing Surveying and Mapping, 2018, 32(7):814-818. ] DOI:10.19580/j.cnki.1007-3000.2018.07.013

[5]	Yang B, Wang J N, Clark R, et al. Learning object bounding boxes for 3D instance segmentation on point clouds[J]. Advances in Neural Information Processing Systems, 2019, 605:6740-6749

[6]	Rouhani M, Lafarge F, Alliez P. Semantic segmentation of 3D textured meshes for urban scene analysis[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2017, 123:124-139. DOI: 10.1016/j.isprsjprs.2016.12.001

[7]	Verdie Y, Lafarge F, Alliez P. LOD generation for urban scenes[J]. ACM Transactions on Graphics, 2015, 34(3):30. DOI:10.1145/2732527

[8]	Qi C R, Yi L, Su H, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[J]. Advances in Neural Information Processing Systems, 2017, 30:5105-5114

[9]	Wang Y, Sun Y B, Liu Z W, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2018, 38(5):146. DOI:10.1145/3326362

[10]	Hu X Y, Yuan Y. Deep-learning-based classification for DTM extraction from ALS point cloud[J]. Remote Sensing, 2016, 8(9):730. DOI:10.3390/rs8090730

[11]	Hanocka R, Hertz A, Fish N, et al. MeshCNN: a network with an edge[J]. ACM Transactions on Graphics., 2019, 38(4):90. DOI:10.1145/3306346.3322959

[12]	Tutzauer P, Laupheimer D, Haala N. Semantic urban mesh enhancement utilizing a hybrid model[J]. ISPRS Annals of the Photogrammetry, Remote Sensing and Spatial Information Sciences, 2019, IV-2/W7:175-182. DOI: 10.5194/isprs-annals-iv-2-w7-175-2019

[13]	George D, Xie X H, Tam G K. 3D mesh segmentation via multi-branch 1D convolutional neural networks[J]. Graphical Models, 2018, 96:1-10. DOI:10.1016/j.gmod.2018.01.001

[14]	黄印. 基于傅里叶变换的倾斜三维模型建筑物分层提取方法[D]. 武汉: 武汉大学, 2018. [ Huang Y. Method of extracting floor in 3D model of oblique photogrammetry based on Fourier transform[D]. Wuhan: Wuhan University, 2018. ]

[15]	郭慧婷. 基于拓扑结构的三维模型特征提取方法研究[D]. 太原:中北大学, 2017. [ Guo H T. Algorithm for feature extraction of 3D model based on topological structure[D]. Taiyuan: North University of China, 2017. ]

[16]	Sengupta S, Greveson E, Shahrokni A, et al. Urban 3D semantic modelling using stereo vision[C]//2013 IEEE International Conference on Robotics and Automation. 2013:580-585. DOI:10.1109/ICRA.2013.6630632

[17]	He H, Upcroft B. Nonparametric semantic segmentation for 3D street scenes[C]// 2013 IEEE/RSJ International Conference on Intelligent Robots and Systems. 2014:3697-3703. DOI:10.1109/IROS.2013.6696884

[18]	Wu Z C, Ni M, Hu Z W, et al. Mapping invasive plant with UAV-derived 3D mesh model in mountain area—a case study in Shenzhen Coast, China[J]. International Journal of Applied Earth Observation and Geoinformation, 2019, 77:129-139. DOI:10.1016/j.jag.2018.12.001

[19]	刘志刚, 胡忠文, 黄乐平, 等. 面向对象的实景三维模型分层解译方法研究[J]. 地理信息世界, 2022, 29(1):28-34. [ Liu Z G, Hu Z W, Huang L P, et al. Hierarchical object-based classification of 3D textured meshes[J]. Geomatics World, 2022, 29(1):28-34. ] DOI:10.3969/j.issn.1672-1586.2022.01.006

[20]	Zhang W M, Qi J B, Wan P, et al. An easy-to-use airborne LiDAR data filtering method based on cloth simulation[J]. Remote Sensing, 2016, 8(6): 501. DOI:10.3390/rs8060501

[21]	Saeidi C, Hodjatkashani F. Modified angular Z-buffer as an acceleration technique for ray tracing[J]. IEEE Transactions on Antennas and Propagation, 2010, 58(5):1822-1825. DOI:10.1109/TAP.2010.2044342

[22]	Hu Z W, Shi T Z, Wang C S, et al. Scale-sets image classification with hierarchical sample enriching and automatic scale selection[J]. International Journal of Applied Earth Observation and Geoinformation, 2021, 105:102605. DOI:10.1016/j.jag.2021.102605

[23]	Zeng S, Geng G H, Zhou M Q. Automatic representative view selection of a 3D cultural relic using depth variation entropy and depth distribution entropy[J]. Entropy, 2021, 23(12):1561. DOI:10.3390/e23121561

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 研究方法

图1 总体技术路线

2.1 三维模型分层

图2 CSF算法流程

图3 CSF滤波示意

图4 点云滤波结果示例

图5 实景三维分层

2.2 多角度投影影像获取

图6 不同角度投影影像

2.3 面向对象的二维投影影像解译

图7 不同角度解译结果示意

2.4 视角加权投票法

图8 视角加权投票法处理流程

图9 多角度三维语义融合示意

3 实验及结果分析

3.1 实验数据与参数设置

图10 实验用实景三维模型

3.2 总体解译结果与精度

图11 分类结果对比

表1 本文算法混淆矩阵

表2 文献[18]的算法混淆矩阵

表3 文献[19]的算法混淆矩阵

3.3 算法原理与结果细节对比

图12 分类结果细节对比

4 结论与讨论

References