融合颜色信息和多尺度几何特征的点云语义分割方法

张华; 徐瑞政; 郑南山; 郝明; 刘东烈; 史文中

doi:10.12082/dqxxkx.2024.240014

地球信息科学学报 >

2024 , Vol. 26 >Issue 6: 1562 - 1575

DOI: https://doi.org/10.12082/dqxxkx.2024.240014

遥感科学与应用技术

融合颜色信息和多尺度几何特征的点云语义分割方法

张华 ^,¹ ,
徐瑞政 ¹ ,
郑南山 ^,¹^,^* ,
郝明 ¹ ,
刘东烈 ³ ,
史文中 ²

展开

1.中国矿业大学环境与测绘学院，徐州 221116
2.香港理工大学土地测量及地理资讯学系，香港 999077
3.贵州省基础地理信息中心，贵阳 550004

*郑南山（1974— ），男，安徽安庆人，博士，教授，主要从事遥感数据处理与应用。E-mail: znshcumt@163.com

张华（1979— ），男，安徽合肥人，博士，教授，主要从事遥感数据智能解译及GIS理论与应用研究。E-mail: zhhua_79@163.com

收稿日期: 2024-01-09

修回日期: 2024-02-18

网络出版日期: 2024-05-24

基金资助

国家自然科学基金项目(U22A20569)

收起

Integrating Color Information and Multi-Scale Geometric Features for Point Cloud Semantic Segmentation

ZHANG Hua ^,¹ ,
XU Ruizheng ¹ ,
ZHENG Nanshan ^,¹^,^* ,
HAO Ming ¹ ,
LIU Donglie ³ ,
SHI Wenzhong ²

Expand

1. School of Environment and Spatial Informatics, China University of Mining and Technology, Xuzhou 221116, China
2. Department of Land Surveying and Geo-informatics, The Hong Kong Polytechnic University, Hong Kong 999077, China
3. Geomatics Center of Guizhou Province, Guiyang 550004, China

*ZHENG Nanshan, E-mail: znshcumt@163.com

Received date: 2024-01-09

Revised date: 2024-02-18

Online published: 2024-05-24

Supported by

National Natural Science Foundation of China(U22A20569)

Fold

摘要

大规模室外点云具有丰富的空间结构，是地理信息获取重要手段之一，由于其本身具有不规则性、复杂几何结构特征及地物尺度变化大等特征，点云分割的准确性依然是一个巨大的挑战。特别是目前大规模点云几何信息及颜色等信息利用不充分等问题，为解决这些问题，本文提出了一种融合颜色信息和多尺度几何特征的点云语义分割方法（Integrating Color Information and Multi-Scale Geometric Features for Point Cloud Semantic Segmentation（CMGF-Net））。该方法中，分别设计了几何特征信息提取和语义特征信息提取模块。在几何特征信息提取模块中，为了充分利用点云数据的几何特征信息，设计了2个特征提取模块，分别是局部邻域的相对位置特征提取模块（RPF）和局部邻域的几何属性提取模块（LGP）。其中，RPF模块利用三维点云的空间法向信息以及相对空间距离，提取邻域点与当前点的相对位置关系； LGP模块利用点云几何属性在不同地物上有独特的表现特性，融合局部区域的几何属性特征；然后通过所设计的几何特征融合模块（LGF）将RPF模块和LGP模块所提取的特征信息进行融合得到融合后的几何特征信息。此外，为了从点云中学习到多尺度的几何特征， CMGF-Net在不同尺度的网络层中都进行了几何特征的提取，最终将所提取的几何特征与基于颜色特征提取的语义特征信息分层进行融合，以提高网络的学习能力。实验结果表明所提出的网络模型在Semantic3D数据集上的平均交并比（mIoU）和平均准确率（OA）达到了78.2%和95.0%，相较于KPConv提高了3.6%和2.1%；在SensatUrban数据集上达到了59.2%和93.7%，由此可见本文所提出的网络模型CMGF-Net在大规模室外场景点云分割具有较好的结果。

关键词： 大规模点云; 语义分割; 法向量; 几何属性; 相对位置关系; 多尺度特征融合; 几何特征提取

本文引用格式

张华 , 徐瑞政 , 郑南山 , 郝明 , 刘东烈 , 史文中 . 融合颜色信息和多尺度几何特征的点云语义分割方法[J]. 地球信息科学学报, 2024 , 26(6) : 1562 -1575 . DOI: 10.12082/dqxxkx.2024.240014

Abstract

Large outdoor point clouds have rich spatial structures and are one of the important means of obtaining geographic information. They have broad application prospects in fields such as autonomous driving, robot navigation, and 3D reconstruction. Due to its inherent irregularity, complex geometric structural features, and significant changes in land scale, the accuracy of point cloud segmentation remains a huge challenge. At present, most point cloud segmentation methods only extract features based on the original 3D coordinates and color information of point cloud data and have not fully explored the information contained in point cloud data with rich spatial information, especially the problem of insufficient utilization of geometric and color information in large-scale point clouds. In order to effectively address the aforementioned issues, this paper introduces the CMGF-Net, a method for semantic segmentation of point clouds that effectively integrates color information and multi-scale geometric features. In this network, dedicated modules are designed for extracting geometric feature information and semantic feature information. In the geometric feature information extraction path, to fully leverage the geometric characteristics of point cloud data, two feature extraction modules are designed: the Relative Position Feature (RPF) extraction module and the Local Geometry Properties (LGP)extraction module, both focusing on the characteristics of the local neighborhood. In the RPF module, spatial normal information of the 3D point cloud and relative spatial distances are utilized to extract the relative positional relationships between neighboring points and the central point. The LGP module exploits the unique performance characteristics of point cloud geometric properties across different terrains, integrating geometric attribute features from the local region. Subsequently, the designed Local Geometric Feature Fusion module (LGF) combines the extracted feature information from the RPF and LGP modules, yielding fused geometric feature information. Furthermore, to learn multi-scale geometric features from the point cloud, CMGF-Net conducts geometric feature extraction at different scales within the network layers. Eventually, the extracted geometric features are hierarchically fused with semantically extracted features based on color information. By extracting multi-scale geometric features and integrating semantic features, the learning ability of the network is enhanced. The experimental results show that our proposed network model achieves a mean Intersection Over Union (mIoU) of 78.2% and an Overall Accuracy (OA) of 95.0% on the Semantic3D dataset, outperforming KPConv by 3.6% and 2.1%, respectively. On the SensatUrban dataset, it achieves a mIOU of 59.2% and an OA of 93.7%. These findings demonstrate that the proposed network model, CMGF-Net, yields promising results in the segmentation of large-scale outdoor point clouds.

Key words： large-scale point clouds; semantic segmentation; normal vector; geometric properties; relative positional relationship; multi-scale feature fusion; geometric feature extraction

1 引言

随着硬件设备的快速发展，获取地理信息的方式也逐渐增多，三维点云由于其丰富的空间结构，在空间信息的表达上有着极其明显的优势。目前点云数据在诸多方面都有广泛的应用，例如，智能驾驶、高精地图、智慧城市等一系列领域。最早的一些分割点云数据的方法，主要致力于人工特征描述，明显存在费时费力的缺陷。为了更加智能地对点云数据进行分割，借鉴图像领域的深度学习算法，将其引入点云分割领域中，目前已经取得了较为突出的成果。但是，由于点云数据本身的不规则性和复杂的结构特征，点云分割的准确性依然是一个巨大的挑战。

目前点云分割的深度学习算法主要分为3个方面，在早期，学者将三维点云投影到二维平面，代表性的有MVCNN网络^[1]和GVCNN网络^[2]，MVCNN通过整合二维信息获取三维物体的特征，可以有效提高三维物体的分类精度，但是其无法充分利用影像特征，GVCNN在MVCNN基础上进行改进，通过加权求和分组后的特征，更好地利用了多视图之间的特征，提升了语义分割的精度，但是这些方法都会一定程度造成空间信息的损失；为了解决这些问题，学者又提出了直接基于点的点云语义分割方法，其中最具代表性的是PointNet^[3]，它是最早将原始点云直接作为输入进行训练的点云分割网络，但是它存在一个明显的缺点，那就是无法获取局部特征，为了解决这一问题，后面又提出了PointNet++^[4]，该方法可以融合点云的局部和全局之间的关系，但是依然没有解决点与点之间的相互关系。为了模仿图像中的卷积操作，用以提取不同点之间的关系，有科学家又将点云数据进行体素化，意图将不规则的三维数据强行放入规则的体素中，再通过规则的三维卷积进行特征提取，代表性的有VoxelNet网络^[5]，但这种方式会造成明显的空间冗余，以及体素化后的三维数据会忽视掉原始数据的一些细节信息。随后有学者提出SegCloud网络^[6]，该网络除了引入三维的卷积网络，还融合了条件随机场和线性插值的方法用以提升语义分割精度。体素化还存在的问题是计算效率和内存消耗的问题，为了解决这些问题，OctNet^[7]通过八叉树的方式分割三维空间，将计算集中到密集区域。虽然针对体素化带来的问题有许多解决方案，但是在计算过程中仍需要很大的开销，对于大规模的数据集并不实用。对于存在的这些问题，之后有许多直接基于点的神经网络相继被提出，PointCNN^[8]对输入数据学习χ变换，将点云转换为潜在的有序数据，再对数据运用经典的卷积操作。KPConv^[9]通过一种新型的核点卷积获取点云数据中的局部信息，其中的可变性核点卷积有很强的扩展性，可以学习到局部邻域的几何形状。ConvPoint^[10]提出离散卷积网络，使用连续替换的离散内核对点云结构进行学习。RandLA-Net^[11]通过随机采样的方式进行下采样，并通过局部特征聚合模块获取点云的局部信息。Chen等^[12]提出了一种特征增强的核点卷积网络，通过研究邻域点与当前点、核点之间的位置关系，使网络学习到更多的信息。这些方法都很好地解决了点与点之间的相互关系；也有学者将图卷积神经网络^[13]引入点云分割，将点作为图结构的顶点，建立顶点与其邻域点的边结构，通过图运算提取内在特征进行点云分割，代表性的网络有DGCNN^[14]、LDGCNN^[15]、LGGCM^[16]、GAPNet^[17]，DGCNN通过构建动态图获取更加丰富的空间信息，LDGCNN通过连接不同层的特征以提高网络性能，LGGCM使用自注意力机制学习局部特征，通过局部区域的邻接矩阵提取点对之间的特征，GAPNet通过嵌入图注意力机制学习局部的几何信息。

以上的一些方法都是基于点云数据的原始三维坐标和颜色信息进行的特征提取，三维点云作为特殊的空间数据，可以利用的信息还有很多，相比于图像数据，点云的优势在于更加全面的空间信息表达以及更加丰富的几何特征。有学者针对点云数据的几何特征做了相关研究，将几何特征与点云的颜色信息相互融合^[18]，获得的新特征作为神经网络的输入，从而学习到更加丰富的特征信息，通过实验表明，结果精度有明显提升。但是，此方法是将点云的几何特征与颜色信息直接进行拼接，形成的多特征向量作为一个整体输入网络进行训练，理论上采用这种方式可以学习到更加丰富的信息，但是多特征拼接作为整体输入，相互之间可能产生干扰，并且，颜色信息与几何特征信息是两种不同的特征，两者同时编码有可能会覆盖对方的有用信息，通过消融实验，也验证了这一观点。为了避免这一潜在影响，本文设计了一种融合颜色信息和多尺度几何特征的点云语义分割网络（CMGF-Net），该网络包含几何特征信息提取和语义特征信息提取模块。几何特征信息提取模块包含相对位置特征的提取模块（RPF）以及局部几何属性信息的提取模块（LGP）。相对位置特征提取模块（RPF）通过编码局部相邻点与当前点的法向量以及距离，获取更深层次的局部相对位置关系；局部几何属性信息提取模块（LGP）利用点云几何属性在不同地物上具有独特的表现特性，融合局部区域的几何属性特征；最后将两个模块获取的特征通过几何特征融合模块（LGF）进行融合，得到最终融合后的几何特征信息。语义特征信息提取模块基于颜色信息进行特征提取，并且与几何特征信息提取模块分层融合，提升网络学习深层特征的性能。最终，CMGF-Net通过编码层融合多层次的几何特征信息与语义特征信息，使用跳跃连接与解码层相连，实现点云数据的语义分割。

2 研究方法

2.1 融合颜色信息和多尺度几何特征的点云语义分割网络

本文的技术路线图如图1所示，整体流程从原始数据到结果分析自上而下顺序执行，核心部分的融合颜色信息和多尺度几何特征的点云语义分割网络（CMGF-Net）如图2所示，左侧编码层为几何特征提取模块与语义特征提取模块的分层融合结构，右侧为解码层，中间采用跳跃连接相连。几何特征提取模块的核心结构局部几何特征融合（LGF）如图3所示，LGF的输入有2个部分，分别是R_relative和G_L，它们分别由2个模块对原始点云数据编码得到，即局部邻域的相对位置特征提取模块（RPF）和局部邻域的几何属性提取模块（LGP）。

显示原图|下载原图ZIP|生成PPT

图1 融合颜色信息和多尺度几何特征的点云语义分割方法总技术路线

Fig. 1 The overall technical roadmap of integrating color information and multi-scale geometric features for point cloud semantic segmentation

显示原图|下载原图ZIP|生成PPT

图2 融合颜色信息和多尺度几何特征的点云语义分割网络（CMGF-Net）

Fig. 2 Point cloud semantic segmentation network integrating color information and multi-scale geometric features

显示原图|下载原图ZIP|生成PPT

图3 局部几何特征融合模块(LGF)

Fig. 3 Local geometric feature fusion module (LGF)

RPF主要是提取每个点与其邻域点相对位置的特征关系，LGP主要是融合每个点附近邻域点的自身几何属性信息，最后通过LGF进行几何特征的融合，得到每个点的局部几何特征，然后与基于颜色信息进行特征提取的语义特征提取模块进行融合，使得几何特征与颜色信息更好地相互结合。为了加强几何特征在网络中的重要性，本文采用多尺度的几何特征融合方案，在每一层下采样过程中，都会将几何特征与上层降采样后的语义特征进行拼接，以提高网络提取特征的性能。在解码过程中，采用传统的跳跃连接，以防止信息的损失。

2.2 局部邻域的相对位置特征提取

图4为局部邻域的相对位置特征提取模块（RPF）示意图，该模块提取邻域点和当前点的相对位置特征，采用平均池化操作、残差连接和多层感知器提取邻域点的相对位置特征，以充分融合每个邻域点相对当前点以及其他邻域点之间的关系。

显示原图|下载原图ZIP|生成PPT

图4 局部邻域的相对位置特征提取模块示意图

Fig. 4 Schematic illustration of the relative position feature extraction module in the local area

（1）法向量特征提取

法向量是描述点云数据的一个重要属性，它表示一个点的朝向和在该点处拟合曲面的法向信息，但是，单个点法向量表示的信息十分局限，将当前点和相邻点的法向量进行特殊的计算，使得当前点包含相邻点的法向信息，这样一个点表示的信息会更加全面。如图5所示，点p和p'处的法向量相同，但是它们周围点的布局却不相同，由此看出，单一的法向量并不能完全反映出一个点的局部信息。

显示原图|下载原图ZIP|生成PPT

图5 法向量示意图

Fig. 5 Schematic illustration of normal vectors

获取单个点局部邻域的信息，则需要该点与其他邻域点之间建立联系，如图6所示，每个邻域点的法向量与当前点的法向量形成一个夹角，图6（a）中p点的邻域点法向量与p点的法向量方向相同，因此它们之间的夹角为0，而图6（b）中p'点的邻域点法向量与p'点的法向量有所差异，它们之间的法向量会形成一定的角度，使用法向量夹角可以表示2个点之间的相对关系，也可以将法向量夹角视为邻域点与当前点之间的相对特征。

显示原图|下载原图ZIP|生成PPT

图6 法向量夹角示意图

Fig. 6 Schematic illustration of the angle between normal vectors

在三维空间中，计算所得的向量夹角没有方向信息，2个大小相同的夹角不意味着是2个完全相同的角，因此为了区分大小相同但方向不同的夹角，可以将向量夹角投影到空间直角坐标系的3个平面上，如图7所示，向量OP与OP'的夹角∠POP'，将其投影至3个坐标平面上，则变成∠AOA'， ∠BOB'， ∠COC'，也可表示为θ_xoy、θ_xoz、θ_yoz。

显示原图|下载原图ZIP|生成PPT

图7 向量夹角投影示意图

Fig. 7 Schematic illustration of vector angle projection

（2）相对位置特征编码

如图4所示，K表示当前点的邻域点个数，p^kj表示第j个邻域点， j∈{1，2，3，…，K}，相对位置特征提取（RPF）的输入

R i j

可以表示为如下操作：

（1）

R i j = C o n c a t (θ x o y, θ x o z, θ y o z, d i s t)

式中：i表示第i个当前点，i∈{1，2，3，…，N}，N为点云的总数； j表示当前点的第j个邻域点；θ_xoy、θ_xoz、θ_yoz是由2.2节的（1）中计算出的法向量夹角投影分量，即当前点与每一个邻域点法向量夹角的投影分量；dist为邻域点与当前点的相对欧氏距离；Concat是拼接操作。

输入特征

R i j

表示每个邻域点与当前点之间的相对关系，为了得到全部邻域点相对当前点的整体特征信息，对

R i j

使用平均池化操作，得到的R_M表示邻域点与当前点的整体关系，使用重复操作，将R_M扩展为与输入特征相同尺度，得到的

R M j

与输入特征

R i j

进行残差连接，这样得到的R_W聚合了单个邻域点与当前点的相对关系和全部邻域点与当前点的整体关系。最后经过多层感知器得到最终局部邻域的相对位置特征R_relative。

2.3 局部邻域的几何属性提取

如图8所示，LGP模块将当前点周围邻域点的几何属性作为输入，通过求和池化、残差连接和多层感知器以充分聚合每个邻域点的几何属性信息。

显示原图|下载原图ZIP|生成PPT

图8 局部邻域的几何属性提取示意图

Fig. 8 Schematic illustrations of local geometric properties extraction

（1）点云几何属性

点云数据是一种三维空间数据，相比二维数据具有更加丰富的空间几何信息，利用这些几何信息，可以提高点云分割的结果精度。本文选择的几何属性有粗糙度、高斯曲率、平均曲率、垂直度、全方差和表面变化率。

将当前点局部邻域拟合的曲面按照其平均法向量的方向投影，该曲面真实表面积与投影面积的比值作为当前点的粗糙度C，值越大表示该点越粗糙；将一点局部区域进行拟合得到曲面，曲面在该点处的弯曲程度可由高斯曲率K和平均曲率H进行表示；计算某一点法向量与竖直方向的夹角，并使用夹角的余弦值表示垂直度V的大小，值越大该点的垂直度越大；基于点云的三维坐标，获取点云的协方差矩阵，得到协方差矩阵的特征值，根据特征值得到点云的全方差δ；表面变化率S反应某点云处拟合曲面的变化情况。它们的计算公式如下所示^[18]：

（2）

C = Ω t r u t h Ω p r o

（3）

K = k 1 ∙ k 2

（4）

H = (k 1 + k 2) 2

（5）

V = n ∙ n z n ∙ n z

（6）

δ = r 1 ∙ r 2 ∙ r 3 3

（7）

S = r 1 r 1 + r 2 + r 3

式中：Ω_truth是曲面真实表面积；Ω_pro是投影面的面积；k₁、k₂是曲面在该点处的2个主曲率；n是该点的法向量；n_z是z轴的单位向量；||·||是取模操作；r₁、r₂、r₃是协方差矩阵的特征值；δ是全方差，能够较为清晰地描述点云表面起伏的差异。

单一的几何属性信息在某些地物上的表现没有足够的辨识度，多种属性的组合可以弥补单个属性的缺陷。如图9所示，图9（a）表示点云数据的垂直度，图9（b）表示点云数据的全方差，图9（c）表示点云数据的表面变化率，图中红色圈中的内容是自然地面，可以看出人工路面和自然地面，虽然它们在垂直度和表面变化率上近乎一致，但是在全方差之间的差距较大；墙壁和地面的表面变化率近似，但是在垂直度方面有较大差异，所以，融合多种几何属性信息有助于提高地物辨识度。

显示原图|下载原图ZIP|生成PPT

图9 垂直度、全方差与表面变化率示意图

Fig. 9 Schematic illustrations of verticality, total variance and surface change rate

（2）局部邻域的几何属性提取

如图8所示，K表示当前点的邻域点个数，p^kj表示第j个邻域点，j∈{1，2，3，…，K}，局部邻域的几何属性提取（LGP）的输入

G i j

可表示为如下操作：

（8）

G i j = C o n c a t (C, K, H, V, δ, S)

式中：i表示第i个当前点，i∈{1，2，3，…，N}； N为点云的总数； j表示当前点的第j个邻域点；C，K，H，V，δ，S是2.3节中（1）所提的点云数据的6个几何属性信息，Concat表示拼接操作。

通过求和池化，将邻域点的几何属性进行求和，可以得到当前点附近的整体几何属性，再通过重复操作，将池化后的特征G_s扩展到与输入特征相同维度，得到的

G S i

与

G i j

进行残差连接，这样得到的G_concat聚合了单个点的几何属性与局部邻域整体的几何属性，最后通过多层感知器，得到最终的局部几何属性信息G_L。

2.4 局部几何特征融合

如图3所示，局部几何特征融合模块旨在将点云局部邻域的相对位置特征和几何属性信息相互融合，以提高点云分割的结果精度，其中，N表示点云总数，d表示每个点的特征维度，K表示每个点的邻域点个数。首先将相对位置特征R_relative和几何属性信息G_L经过多层感知器进行升维，得到相同维度的特征，接着将二者拼接起来得到F_c，具体操作过程如式（9）所示。

（9）

F c = C o n c a t (M L P 1 (R r e l a t i v e), M L P 2 (G L))

式中：Concat是拼接操作；MLP₁、MLP₂是多层感知器。

对拼接后的特征F_c使用多层感知器MLP，得到融合相对位置特征和几何属性信息后的新特征F_m，接着对F_m使用softmax进行计算，得到每个邻域点在每一维特征中的权重矩阵F_s，具体计算公式如下：

（10）

F s = s o f t m a x (M L P (F c))

将F_s与F_c的对应元素进行相乘操作，得到F_w，具体操作如下公式：

（11）

F w = F s ⊙ F c

式中：

⊙

表示矩阵之间对应元素之间相乘。

接着对得到的F_w进行求和池化操作，如下所示：

（12）

F s u m = S u m p o o l i n g (F w)

式中：Sumpooling是求和池化操作，

F s u m ∈ R N × 1 × 2 d

，聚合了所有邻域点的特征。

最后使用多层感知器得到最终融合后的几何特征F_result，如下所示：

（13）

F r e s u l t = M L P (F s u m)

式中：MLP是多层感知器；

F r e s u l t ∈ R N × 1 × 2 d

。

3 实验及结果分析

3.1 实验设计

本文使用Semantic3D^[19]和SensatUrban^[20] 2个大规模场景的3D数据集测试CMGF-Net的性能。Semantic3D数据集提供了一个大型户外自然场景3D点云数据集，共有超过40亿个标记点。数据集中的点云由静态地面激光扫描系统收集，包含密度不同的高精度点，距离扫描设备近端区域的点云密度较大，远端区域较为稀疏，地物正对扫描设备一侧采集的数据较为清晰，其他侧面的采集结果有些许缺失，如图10（a）所示。

显示原图|下载原图ZIP|生成PPT

图10 激光雷达点云和摄影测量点云

Fig. 10 Lidar point cloud and photogrammetric point cloud

这些3D点被标记为8类，分别是人工地面、自然地面、高植被、低植被、建筑物、人造景观、扫面虚影和汽车，由XYZ坐标、RGB信息和强度组成。在实验中，使用了reduced-8版本，其中训练集有15个区域，测试集有4个区域，每一个区域的数据点数量分布如图11所示，横轴表示区域。

显示原图|下载原图ZIP|生成PPT

图11 Semantic3D数据集数据分布

Fig. 11 Illustration of data distribution in Semantic3D dataset

SensatUrban数据集是一个城市尺度的摄影测量点云数据集，该数据集包含近30亿个丰富注释的点，由2个英国城市的大片区域组成，分别是伯明翰和剑桥周边区域，每个区域划分为多个小的模块，具体不同区域的数据分布如图12所示，共覆盖了约6 km²的城市景观，该数据集有13个语义类别。摄影测量点云相比激光雷达点云，前者的整体密度较为均匀，摄影测量点云由多视角的航摄影像得来，所以表达地物完整程度方面优于激光雷达点云，图10（b）是摄影测量点云的可视化示意图。

显示原图|下载原图ZIP|生成PPT

图12 SensatUrban数据集数据分布

Fig. 12 Illustration of data distribution in SensatUrban dataset

本文实验的硬件环境为Windows 10操作系统，Intel Xeon Gold 6154处理器，128 G内存，单个NVIDIA TITAN RTX 24GB显卡。采用Pytorch 1.8.1、CUDA11.1和Python 3.8进行网络的训练。在训练过程中，使用随机梯度下降（SGD）优化器对网络权值进行优化，将加权交叉熵损失函数应用于平衡各类别之间的数量差异，每一个类别的权重采用该类别数量的倒数，参考经典网络KPConv^[9]和RandLA-Net^[11]的超参数设置，综合考虑网络性能与现有的硬件条件，初始学习率设置为0.001，并且每5个epoch的衰减率为0.9。参考KPConv网络中，最大收敛轮次（epoch）为第400个epoch，本文一共设置500个训练轮次（epoch），确保可观察到网络的收敛情况，每一个epoch设置500次迭代（iteration）。在点云下采样过程中，使用的采样方法为网格下采样。

本文应用KPConv^[9]和RandLA-Net^[11]共同使用的指标，总体准确率（OA）、交并比（IoU）和平均交并比（mIoU）来定量评估CMGF-Net和其他用于对比网络的性能。具体计算公式如下所示：

（14）

O A = T P + T N T P + F P + F N + T N

（15）

I o U = T P T P + F P + F N

（16）

m I o U = 1 M ∑ k = 1 M T P k T P k + F P k + F N k

式中：TP、TN、FP和FN分别表示真阳性、真阴性、假阳性和假阴性；TP_k, TN_k, FP_k 和 FN_k分别表示类别 k的TP、TN、FP和FN，其中M是类别的数量。

3.2 实验结果分析

表1是本文网络与其他经典网络在Semantic3D数据集上的分割结果。从表1中可以看出，本文方法在平均交并比（mIoU）和平均准确率（OA）相比ShellNet^[21]高出8.9%和1.8%，，比GACNet^[22]高出7.4%和3.1%，与KPConv相比，高出3.6%和2.1%，相比于RandLA-Net和SCF-Net^[23]，也有显著的提高。其中的ShellNet提出一种Shellconv的置换不变卷积，通过查询多尺度同心球，使用最大池化统计不同壳内的信息，再使用多层感知器和一维卷积获得最终输出； GACNet选择性地从局部相邻区域学习相关特征，动态分配注意力权重给相邻点，并且可以学习捕捉判别特征进行分割； SCF-Net提出一种学习空间上下文的模块，使用极坐标表示模块构建对z轴旋转不变的局部空间表示，利用邻域点学习局部特征信息，最后通过区域与全部点云的体积比获取全局信息； LFEAM-DCB通过局部特征提取模块捕获几何、颜色以及语义特征，再通过局部特征聚合模块减少信息损失，最后通过密集连接得到全局上下文信息。上述的多种方式都有各自的优势，但是个别方法未对几何特征进行学习，其余方法对几何信息地提取不够全面，本文通过对几何信息地充分提取，并融合颜色信息，提取到更加丰富的点云数据特征，并得到良好的分割结果。表1中列举了9种地物类别，在人工地面和自然地面的分割精度是对比方法中最高的，可以看出本文方法在融合多尺度的几何特征后，对不同地面的分辨能力有所提升，在汽车类别中的分割精度也是对比方法中最高的，证明本文方法对单个物体的识别也有较好的性能。

表1 Semantic3D数据集上各种方法的对比

Tab. 1 Quantitative comparison of IoU, mIoU and OA of the Semantic3D dataSet (%)

类别	ShellNet^[21]	GACNet^[22]	KPConv^[9]	RandLA-Net^[11]	SCF-Net^[23]	LFEAM-DCB^[24]	本文方法
人工地面	96.3	86.4	90.9	95.6	97.1	97.2	97.9
自然地面	90.4	77.7	82.2	91.4	91.8	92.3	93.1
高植被	83.9	88.5	84.2	86.6	86.3	88.2	86.5
低植被	41.0	60.6	47.9	51.5	51.2	51.3	53.5
建筑物	94.2	94.2	94.9	95.7	95.3	96.4	95.2
人造景观	34.7	37.3	40.0	51.5	50.5	43.6	45.0
扫描虚影	43.9	43.5	77.3	69.8	67.9	71.9	72.0
汽车	70.2	77.8	79.7	76.8	80.7	81.3	81.9
mIoU	69.3	70.8	74.6	77.4	77.6	77.8	78.2
OA	93.2	91.9	92.9	94.8	94.7	94.9	95.0

注：加粗数值为所有对比方法中的最优结果。

图13展示了本文方法在Semantic3D测试集上部分场景的分割结果，如图中红色方框所示，与KPConv相比，在汽车整体性的判别能力上，本文方法能够更好地将汽车完整地分割出来，在场景三中，KPConv将人造景观与建筑物没有很好地区分开，本文方法能够将人造景观完整地分割开。图14展示了本文方法在Semantic3D验证集上部分场景的分割结果，如图中红色方框所示，与真实标签相比，在场景一中，KPConv未能将人造景观分割完全，其中混有其他地物类别，本文方法相对更加完整地将其分割出来；在场景二中，本文方法相比于KPConv能更好地将人工地面与自然地面区分开，这些都受益于融合的多尺度几何特征，使网络能够学习到更详细的几何信息，可以区分更加细节的部分。

显示原图|下载原图ZIP|生成PPT

图13 Semantic3D测试集部分场景的分割结果示意

Fig. 13 Schematic illustrations of segmentation results for some scenes in the Semantic3D test set

显示原图|下载原图ZIP|生成PPT

图14 Semantic3D验证集部分场景的分割结果示意

Fig. 14 Schematic illustrations of segmentation results for some scenes in the Semantic3D validation set

为了验证本文方法的有效性，本文在SensatUrban数据集上也进行了实验，实验结果如表2所示，本文方法相对于经典方法在平均交并比（mIoU）和平均准确率（OA）上都有所提升，相对于KPConv，平均交并比（mIoU）提升了1.6%，平均准确率（OA）提升了0.5%。表中提及的TangentConv^[25]将每个点周围的局部曲面几何体投影到虚拟切平面，然后直接在曲面几何体上操作切线卷积，该方法具有很强的可扩展性，能够处理较大规模点云；SPGraph^[26]使用属性有向图（超点图）来捕捉结构和上下文信息；SparseConv^[27]通过将卷积的输出限制为仅与占用的体素相关，显著降低了内存和计算成本；LGS-Net^[28]利用邻域中的相对和全局几何关系，对单个点的细粒度几何结构进行建模，最终与语义信息并行融合，得到更具区别性的上下文特征。本文与多视图、体素和图卷积等不同种类的方法进行对比，本文的平均准确率（OA）是最高的，并且在植被、建筑物和墙壁这3个类别中，交并比（IoU）也是所有方法中最高的，这得益于本文方法充分提取到了这几类地物的几何特征。由表2可以看出，在地面与道路的分割结果中没有同表1中一样获得最高精度，这是由于摄影测量点云与激光雷达点云的获取方式有所区别，所以二者在精度方面具有差异，对于不同地面的点云数据，摄影测量点云在个别几何属性的表达上没有激光雷达点云精确。

表2 SensatUrban数据集上各种方法的对比

Tab. 2 Quantitative comparison of IoU, mIoU and OA of the SensatUrban dataSet

方法	mIoU	OA	地面	植被	建筑	墙壁	桥梁	停车场	轨道	道路	街道设施	汽车	人行道	水
TangentConv^[25]	33.3	76.9	71.5	91.4	75.9	35.2	0.0	45.3	0.0	26.7	19.2	67.6	0.0	0.0
SPGraph^[26]	37.3	85.3	69.9	94.6	88.9	32.8	12.6	15.8	15.5	30.6	23.0	56.4	0.5	44.2
SparseConv^[27]	42.7	88.7	74.1	97.9	94.2	63.3	7.5	24.2	0.0	30.1	34.0	74.4	0.0	54.8
KPConv^[9]	57.6	93.2	87.1	98.9	95.3	74.4	28.7	41.4	0.0	56.0	54.4	85.7	40.4	86.3
RandLA-Net^[11]	58.6	91.6	83.0	98.4	93.4	57.4	49.5	55.1	27.3	60.7	39.4	84.6	39.5	74.0
LGS-Net^[28]	60.2	92.1	84.7	98.5	94.6	59.7	69.6	49.8	27.4	57.5	43.8	81.8	42.5	72.7
本文方法	59.2	93.7	86.7	99.0	96.8	78.7	46.7	50.6	0.0	60.4	53.7	84.8	42.4	69.4

注：加粗数值为所有对比方法中的最优结果。

3.3 消融实验

为了验证本文所提不同模块对网络的作用，本文使用Semantic3D数据集进行消融实验，针对本文2个核心模块局部邻域的相对位置特征提取模块（RPF）和局部邻域的几何属性提取模块（LGP）进行相关实验，验证各模块对网络的影响，并且对比了本文方法和直接拼接几何特征方法的区别，最终结果如表3所示。

表3 Semantic3D数据集上的消融实验结果

Tab. 3 Ablation comparison of mIoU and OA of the Semantic3D dataSet

模块	mIoU%	OA/%	参数量/百万	收敛轮次/次(epoch)
KPConv	74.6	92.9	14.9	400
KPConv + RPF	77.3	94.8	15.2	330
KPConv + LGP	77.5	94.8	15.2	310
KPConv（直接拼接几何特征方法）	76.2	93.9	14.9	400
KPConv + RPF + LGP（本文方法）	78.2	95.0	15.3	280

由表3可以看出当使用KPConv做为网络骨干算子，单独加入本文的相对位置特征提取模块（RPF），通过学习点云局部邻域之间的相对距离关系和法向量之间的相对关系，使得网络学习到局部邻域的相对位置特征，在较少参数量提升的情况下，网络达到收敛需要的训练轮次有所减少，证明该模块提升了网络学习几何特征的能力，使网络在更少的训练次数下学到更多的特征，并且分割结果有显著提升，mIoU达到了77.3%，OA达到了94.8%；单独加入本文的几何属性提取模块（LGP），由于网络学习到不同地物之间的几何属性信息差异，相比仅使用骨干算子，参数量虽然增加，但是达到收敛的训练轮次有显著减少，这也证明此模块使得网络充分学习到点云数据具有的空间几何信息，mIoU也提高到77.5%，OA提高到94.8%；为了更加充分地学习到空间几何特征，将RPF和LGP同时加入网络，由表3中数据可以看出，在少量参数增加的情况下，网络训练达到收敛的轮次显著减少，并且最终结果有明显的提高，mIoU和OA分别提升到78.2%和95.0%。

由表中数据还可以看出直接将几何特征拼接在原始特征之后，虽然比KPConv的mIoU和OA有所提升，但是与本文方法相比，由于此种方法未充分提取到几何特征的深层信息，所以精度明显低于本文方法，并且在网络训练达到的收敛轮次也高于本文方法，由此可以进一步印证本文方法的有效性。

4 结论

针对大规模点云几何信息及颜色信息利用不充分等问题，为了提升点云语义分割精度，本文提出一种融合颜色信息和多尺度几何特征的点云语义分割方法CMGF-Net。该网络充分利用点云的几何结构信息，引入了局部邻域的相对位置特征提取模块（RPF）和局部邻域的几何属性提取模块（LGP），再通过局部几何特征融合模块（LGF）将RPF和LGP相互融合。最后得到的几何特征与基于颜色信息的语义特征提取模块相互融合，再通过解码层得到语义分割结果。通过在Semantic3D和SensatUrban 2个大场景数据集中进行测试，并与几种经典网络进行了对比，结果表明：

（1）在CMGF-Net中引入RPF，通过学习点云局部邻域之间的相对距离关系和法向量之间的相对关系，使得网络学习到局部邻域的相对位置特征，提升了网络学习几何特征的能力。

（2） CMGF-Net中的LGP模块，使得网络充分学习到不同地物之间的几何属性信息差异，更好地学习到点云数据具有的空间几何信息。

（3）在网络设计中，不同尺度的网络层中都会进行几何特征的提取，并与同一尺度下基于颜色信息提取的语义特征进行融合，提升网络学习多尺度特征的能力。

（4）在Semantic3D数据集上，CMGF-Net在mIoU和OA指标中获得了最高精度，分别达到了78.2%和95.0%，与ShellNet、GACNet、KPConv、RandLA-Net、SCF-Net和LFEAM-DCB相比，mIoU分别提高了8.9%、7.4%、3.6%、0.8%、0.6%和0.4%，OA分别提高了1.8%、3.1%、2.1%、0.2%、0.3%和0.1%。在SensatUrban数据集上，与TangentConv、SPGraph、SparseConv、KPConv和RandLA-Net相比，mIoU分别提高了25.9%、21.9%、16.5%、1.6%和0.6%，OA分别提高了16.8%、8.4%、5.0%、0.5%和2.1%。表明本文方法较于其他几种方法有较高的分割精度，并且在保持地物分割完整度上，本文方法也较为突出。

本文网络在对拼接后特征进行进一步特征融合和下采样时，采用的是卷积操作，今后的工作会采用Transformer结构进行替代，验证是否会取得更好的结果；在网络参数方面，虽然参数增量不多，但整体的网络参数依然庞大，后续会尝试调整网络架构以减少参数量；本文仅采用有限的几类点云属性进行融合，接下来会尝试融合更多的属性信息，以验证是否会有更好的分割效果。

本文图文责任编辑：蒋树芳黄光玉

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Su H, Maji S, Kalogerakis E, et al. Multi-view convolutional neural networks for 3D shape recognition[C]// 2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2015:945-953. DOI:10.1109/ICCV.2015.114

[2]	Feng Y F, Zhang Z Z, Zhao X B, et al. GVCNN: Group-view convolutional neural networks for 3D shape recognition[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:264-272. DOI: 10.1109/CVPR.2018.00035

[3]	Charles R Q, Hao S, Mo K C, et al. PointNet: Deep learning on point sets for 3D classification and segmentation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:77-85. DOI:10.1109/CVPR.2017.16

[4]	Qi C R, Yi L, Su H, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. ACM, 2017:5105-5114. DOI:10.5555/3295222.3295263

[5]	Zhou Y, Tuzel O. VoxelNet: End-to-end learning for point cloud based 3D object detection[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:4490-4499. DOI:10.1109/CVPR.2018.00472

[6]	Tchapmi L, Choy C, Armeni I, et al. SEGCloud: Semantic segmentation of 3D point clouds[C]// 2017 International Conference on 3D Vision (3DV). IEEE, 2017:537-547. DOI:10.1109/3DV.2017.00067

[7]	Riegler G, Ulusoy A O, Geiger A. OctNet: Learning deep 3D representations at high resolutions[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2017:6620-6629. DOI:10.1109/CVPR.2017.701

[8]	Li Y, Bu R, Sun M, et al. Pointcnn: convolution on x-transformed points[C]// Advances in neural information processing systems, 2018, 31

[9]	Thomas H, Qi C R, Deschaud J E, et al. KPConv: Flexible and deformable convolution for point clouds[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2019:6410-6419. DOI:10.1109/ICCV.2019.00651

[10]	Boulch A. ConvPoint: Continuous convolutions for point cloud processing[EB/OL]. 2019: arXiv:1904.02375. http://arxiv.org/abs/1904.02375.pdf

[11]	Hu Q Y, Yang B, Xie L H, et al. RandLA-net: Efficient semantic segmentation of large-scale point clouds[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:11105-11114. DOI:10.1109/CVPR42600.2020.01112

[12]

陈科, 管海燕, 雷相达, 等. 基于特征增强核点卷积网络的多光谱LiDAR点云分类方法[J]. 地球信息科学学报, 2023, 25(5):1075-1087.

DOI

[Chen

, Guan

H Y

, Lei

X D

, et al. A multispectral LiDAR point cloud classification method based on enhanced features kernel point convolutional network[J]. Journal of Geo-information Science, 2023, 25(5):1075-1087. ] DOI:10.12082/dqxxkx.2023.220736

[13]	Zhang S, Tong H H, Xu J J, et al. Graph convolutional networks: A comprehensive review[J]. Computational Social Networks, 2019, 6(1):11. DOI:10.1186/s40649-019-0069-y PMID

[14]	Wang Y, Sun Y, Liu Z, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2018, 38(5):146. DOI:10.1145/3326362

[15]	Zhang K G, Hao M, Wang J, et al. Linked dynamic graph CNN: Learning through point cloud by linking hierarchical features[C]// 2021 27th International Conference on Mechatronics and Machine Vision in Practice (M2VIP). IEEE, 2021:7-12. DOI:10.1109/M2VIP49856.2021.9665104

[16]	Du Z J, Ye H L, Cao F L. A novel local-global graph convolutional method for point cloud semantic segmentation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022:1-15. DOI:10.1109/TNNLS.2022.3155282

[17]	Chen C, Fragonara L Z, Tsourdos A. GAPointNet: Graph attention based point neural network for exploiting local feature of point cloud[J]. Neurocomputing, 2021, 438:122-132. DOI:10.1016/j.neucom.2021.01.095

[18]	李健, 姚亮. 融合多特征深度学习的地面激光点云语义分割[J]. 测绘科学, 2021, 46(3):133-139,162. [Li J, Yao L. Ground laser point cloud semantic segmentation based on multi-feature deep learning[J]. Science of Surveying and Mapping, 2021, 46(3):133-139,162. ] DOI:10.16251/j.cnki.1009-2307.2021.03.020

[19]	Hackel T, Savinov N, Ladicky L, et al. SEMANTIC3D.NET: A new large-scale point cloud classification benchmark[J]. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2017. DOI:10.5194/isprs-annals-IV-1-W1-91-2017

[20]	Hu Q Y, Yang B, Khalid S, et al. Towards semantic segmentation of urban-scale 3D point clouds: A dataset, benchmarks and challenges[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:4975-4985. DOI:10.1109/CVPR46437.2021.00494

[21]	Zhang Z Y, Hua B S, Yeung S K. ShellNet: Efficient point cloud convolutional neural networks using concentric shells statistics[C]// 2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE, 2019:1607-1616. DOI:10.1109/ICCV.2019.00169

[22]	Wang L, Huang Y C, Hou Y L, et al. Graph attention convolution for point cloud semantic segmentation[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2019:10288-10297. DOI: 10.1109/CVPR.2019.01054

[23]	Fan S Q, Dong Q L, Zhu F H, et al. SCF-net: Learning spatial contextual features for large-scale point cloud segmentation[C]// 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2021:14499-14508. DOI:10.1109/CVPR46437.2021.01427

[24]	马天恩, 刘涛, 杜萍, 等. 一种聚合全局上下文信息的三维点云语义分割方法[J]. 武汉大学学报(信息科学版),2023:1-16. [Ma T E, Liu T, Du P, et al. A 3d point cloud semantic segmentation method for aggregating global context information[J]. Geomatics and Information Science of Wuhan University, 2023:1-16. ] DOI:10.13203/j.whugis20230143

[25]	Tatarchenko M, Park J, Koltun V, et al. Tangent convolutions for dense prediction in 3D[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:3887-3896. DOI:10.1109/CVPR.2018.00409

[26]	Landrieu L, Simonovsky M. Large-scale point cloud semantic segmentation with superpoint graphs[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:4558-4567. DOI:10.1109/CVPR.2018.00479

[27]	Graham B, Engelcke M, van der Maaten L. 3D semantic segmentation with submanifold sparse convolutional networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:9224-9232. DOI:10.1109/CVPR.2018.00961

[28]	Shao Y Y, Tong G F, Peng H. Mining local geometric structure for large-scale 3D point clouds semantic segmentation[J]. Neurocomputing, 2022, 500(C):191-202. DOI:10.1016/j.neucom.2022.05.060

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 研究方法

2.1 融合颜色信息和多尺度几何特征的点云语义分割网络

图1 融合颜色信息和多尺度几何特征的点云语义分割方法总技术路线

图2 融合颜色信息和多尺度几何特征的点云语义分割网络（CMGF-Net）

图3 局部几何特征融合模块(LGF)

2.2 局部邻域的相对位置特征提取

图4 局部邻域的相对位置特征提取模块示意图

图5 法向量示意图

图6 法向量夹角示意图

图7 向量夹角投影示意图

2.3 局部邻域的几何属性提取

图8 局部邻域的几何属性提取示意图

图9 垂直度、全方差与表面变化率示意图

2.4 局部几何特征融合

3 实验及结果分析

3.1 实验设计

图10 激光雷达点云和摄影测量点云

图11 Semantic3D数据集数据分布

图12 SensatUrban数据集数据分布

3.2 实验结果分析

表1 Semantic3D数据集上各种方法的对比

图13 Semantic3D测试集部分场景的分割结果示意

图14 Semantic3D验证集部分场景的分割结果示意

表2 SensatUrban数据集上各种方法的对比

3.3 消融实验

表3 Semantic3D数据集上的消融实验结果

4 结论

参考文献