A Multispectral LiDAR Point Cloud Classification Method based on Enhanced Features Kernel Point Convolutional Network

  • CHEN Ke ,
  • GUAN Haiyan , * ,
  • LEI Xiangda ,
  • CAO Shuang
Expand
  • School of Remote Sensing & Geomatics Engineering, Nanjing University of Information Science & Technology, Nanjing 210044, China
*GUAN Haiyan, E-mail:

Received date: 2022-09-28

  Revised date: 2022-12-14

  Online published: 2023-04-27

Supported by

National Natural Science Foundation of China(41971414)

Abstract

The multispectral LiDAR system can simultaneously provide the 3D space and spectral information of the target ground object, which is convenient for ground object recognition, land cover/use classification, and scene understanding. However, most multispectral LiDAR point cloud classification methods cannot fully mine the geometric information of point clouds and achieve poor performance in fine-scale classification. To overcome this limitation, this paper presents a continuous kernel point convolutional network which uses local point cloud geometric information to enhance features. Firstly, the network combines a random sampling with a farthest point sampling to quickly process large-scale multispectral LiDAR point clouds. Then, an enhanced convolution module based on continuous variable convolution is designed to improve the semantic information expression of multispectral LiDAR point cloud data. In order to address the problem that kernel point convolution simply using the distance relationship between the geometric space and feature space of neighboring points and centroids is insufficient to express the local information as a complementary feature of the kernel point convolution network, the local features given to the kernel points are enhanced by using the position relationship between neighboring points and centroids while aggregating the local features to provide richer semantic information for the multispectral LiDAR point cloud classification network. Finally, the weighted label smoothing loss and the Lovasz-Softmax loss are combined to further improve the classification performance. The results on the Titan multispectral LiDAR dataset show that the proposed network achieves an overall accuracy of 96.80%, a macro-F1 index of 88.51%, and a mIoU value of 83.42%, which is superior to the state-of-the-art (SOTA) multispectral LiDAR data networks. The proposed model uses the combination of grid sampling and KD-Tree to better preserve the geometric features of the original point cloud. In the case of a single batch of 65,536 points, the point cloud sampling time is reduced by 28 261.79 ms compared with similar multispectral LiDAR point cloud classification networks. This Study demonstrates the potential of enhanced feature kernel points convolutional network for multispectral LiDAR point cloud classification tasks.

Cite this article

CHEN Ke , GUAN Haiyan , LEI Xiangda , CAO Shuang . A Multispectral LiDAR Point Cloud Classification Method based on Enhanced Features Kernel Point Convolutional Network[J]. Journal of Geo-information Science, 2023 , 25(5) : 1075 -1087 . DOI: 10.12082/dqxxkx.2023.220736

1 引言

多光谱LiDAR系统可通过同时采集多波段的点云数据,提供目标地物空间几何和光谱的集成信息,从不同维度直接、真实地描述地物信息。近年来,为更好地实现对地物三维与光谱信息的一体化遥感探测,一些研究机构相继开展了探索性研究,并推出了多光谱LiDAR系统原型,如英国爱丁堡大学[1]、芬兰大地测量研究所[2]、武汉大学[3-4]。2014年,加拿大Teledyne Optech公司发布了第一台商用机载多光谱激光雷达系统——“Titan”(泰坦),配备了3个独立的激光波长(532,1064 和 1550 nm)。研究表明,相较于单波段LiDAR数据,多光谱LiDAR数据可显著提高目标识别与点云分类精度[5-7],已在地物覆盖分类、环境建模、森林管理、城市土地利用检测和海岸线变化检测等领域[8-11]展开大范围应用。
相较于传统LiDAR,多光谱LiDAR系统可以在一个激光脚点上获取地物不同波段的光谱强度信息。为了充分利用这种新型手段获得的点云数据,研究者开展了特有数据处理方法探索研究。从数据处理角度一般分为2类方法:① 利用多光谱LiDAR点云栅格化后的二维多光谱特征图像进行基于机器学习[12-15]或深度学习[16-18]的目标识别和地物分类,但数据栅格化会不可避免地出现信息转换错误以及空间信息的丢失,从而限制后续数据处理算法性能。② 直接输入三维多光谱LiDAR点云数据,输出具有标签信息的点集。传统基于机器学习点云分类方法,如光谱模型分析法[19]、三维点聚类[20]、主成分分析方法[21]和似然分类模型[22]等受限于人工特征在显著性、易区分性以及空间几何结构信息表达等方面不足,对三维多光谱LiDAR点云分类性能提升有限。
相较于机器学习,深度学习可自动提取高阶特征,提升复杂场景三维点云分类精度。因此,目前阶段基于深度学习模型展开三维多光谱LiDAR点云分类与目标识别等探索研究已成为研究热点。Jing等[23]将注意力机制模块(Squeeze-and-Excitation block, SE-block)嵌入PointNet++网络中,提出SE-PointNet++,通过建模通道之间相互依赖关系,提升多光谱LiDAR点云分类性能,并利用PointNet++、DGCNN、GACNet和RSCNN作为对比模型,展现了SE-PointNet++在完成多光谱LiDAR点云地物分类的优越性。但是,其分块操作严重破坏了点云目标的整体结构,使得网络难以有效地学习地物完整的几何结构。为保留训练样本的整体结构并提高训练效率,Zhao等[24]提出基于特征推理的图卷积网络FR-GCNet。该网络使用FPS-KNN采样生成训练样本,有效地提高点云几何结构的完整性;通过从邻域图中点之间的依赖关系中学习具有代表性的局部特征,并从原始点云推断全局上下文关系,从而实现高效地机载多光谱LiDAR点云的分类。但是,FPS-KNN采样获得训练样本数据过于冗余,且该网络过于依赖物体几何差分特性,产生大量误判。Li等[25]在图卷积网络中引入几何矩特征卷积加强对点云特征描述,实现了机载多光谱LiDAR点云的高精度建筑物提取;随后,该团队在几何矩基础上提出了一种注意力图几何矩卷积算子,并利用特征金字塔融合不同尺度的机载多光谱 LiDAR点云特征[26],进一步加强图卷积网络对于不同尺度的细节特征描述,但图几何矩卷积算子对三维多光谱LiDAR点云几何信息挖掘十分有限,并且这2个方法处理大规模点云数据效率低。尽管多光谱信息的融合以及深度学习模型提升了三维多光谱LiDAR数据解译精度,但是以上方法存在对机载多光谱LiDAR点云几何信息利用十分有限,无法充分聚合点云局部特征与点云的高阶特征,且最远点下采样的策略采样速率过慢,导致大规模多光谱点云数据处理效率不高。
针对以上问题,本文结合随机采样与连续卷积算子,提出了一个端到端的特征增强核点卷积多光谱LiDAR点云分类网络。该网络模型基于RandLA-Net模型[27],结合随机采样和最远点采样方法快速处理单批次大规模多光谱LiDAR点云,扩大模型训练时感受野范围;通过连续卷积算子聚合局部特征并利用原始点云中中心点与的位置关系增强点云光谱特征。同时,针对多光谱LiDAR数据集中普遍存在地物类别不平衡问题,本网络模型平均加权标签平滑损失函数与Lovasz-Softmax损失函数[28]计算损失。

2 研究方法

2.1 特征增强核点卷积网络

鉴于RandLA-Net在高效处理大数据量点云上的优势,本文网络模型以RandLA-Net为基础网络,针对RandLA-Net易丢失关键点云信息以及严格的信息编码与注意力机制组合难以很好地聚合局部特征的问题,提出特征增强核点卷积网络,网络结构如图1所示,由编码器与解码器两部分组成。
图1 特征增强核点卷积网络架构

Fig. 1 Architecture diagram of enhanced feature kernel points convolutional network

(1)编码器
编码器首先利用一个全连接层将输入的多光谱点云数据(点云输入点数为N)的数据维度统一扩充至8维。随后搭建5层下采样率分别为1/4,1/16,1/64,1/256,1/512的下采样层以及相应的5个增强卷积模块。其中前3次下采样层采用与RandLA-Net一样的随机采样策略,提高点云采样速率;不同于RandLA-Net模型,后2次下采样层使用最远点采样策略。这是由于通过3次随机采样后,点云数量相比较于原始输入点已极大减少,这样可以在保证采样速度的同时最大程度保留输入点云的关键信息,减少随机采样导致的关键几何结构信息缺失。增强卷积模块用于动态提取输入点云的上下文信息并提高逐渐点云的特征维度(如:8 →16 → 64 → 128 → 256 → 512维度)。5组下采样层与增强卷积模块可聚合场景中点云局部特征,学习获得高维度分类特征。
(2)解码器
解码器结构与编码器对应,同样堆叠5层上采样及5层多层感知器(Multilayer Perception,MLP),将下采样后的高维点云数据还原至原始多光谱LiDAR点云输入维度。随后使用3层全连接层结合dropout输出每个点的预测分类信息。其中,5次最近邻插值上采样方法将编码器输出的点云信息逐层上采样至原始点云大小(即1/256,1/64,1/16,1/4,1);同时利用1×1 卷积作为MLP层,将点云特征维度还原至8个维度,即512 →256 → 128 → 64 → 16 → 8,每次MLP操作时利用跳跃连接,将上采样得到的特征映射与对应的编码层特征进行跳跃式拼接,使深层网络的梯度向上传播时不受阻碍,从而有效训练浅层网络参数,缓解梯度消失的问题。每个点的预测类别信息由3个1×1的全连接层 (N,8)→(N,64)→(N,32)→(N,n_class)和一个dropout层获得。dropout层中随机丢弃一半神经网络训练单元来缓解模型过拟合。

2.2 增强卷积模块

图2所示,增强卷积模块主要由可变核点卷积模块与特征增强模块组成。网络通过特征增强模块输出邻近点光谱增强特征,可变核点卷积模块聚合局部特征。具体而言,首先以所有输入样本点作为中心点,寻找该点的K个邻近点,将特征增强模块输出的增强特征与归一化处理后的邻近点几何信息一起输入到可变核点卷积模块,叠加所有可变核点卷积模块输出的聚合特征,并通过修正线性激活函数(Rectified Linear Activation Function,ReLU)激活该层输出特征,传递进下一层网络。
图2 增强卷积模块示意

Fig. 2 Diagram of enhanced convolutional block

(1)可变核点卷积模块
由于多光谱LiDAR点云的无序性与离散性,传统2D卷积网络难以处理3D离散点云数据。因此,本文利用可变核点建立离散点云之间语义关系,从而学习到关联点之间依存关系,聚合局部特征。如图2所示,在欧式空间内的一个单位球中定义卷积核点,利用线性相关函数即归一化处理后的邻近点与核点之间的距离作为权重,将特征增强模块输出特征赋予每个核点;然后核点特征与学习到的核点权重矩阵相乘并在特征维度求和,最终输出中心点卷积后的点云特征。
具体而言,对于特征为 f i R N × C的任意给定点 p i R N × 3,其中N为点云集合 R中点个数,C为点云除空间坐标外其他特征属性维度。以 p i为中心寻找其特征定义为 f i k的K个邻近点 p i k R ( p i ) R ( p i )代表以 p i为中心点的邻近点集。在一个单位球中定义一组数量为N的核点 x j,计算任意一点 p i的邻近点特征聚合 F i,见式(1)。
F i = k = 1 K j = 1 N W j h ( p i k , x j + Δ j ( x ) ) f i k ~
式中: W j是根据邻近点与核点位置关系学习到的权重矩阵; Δ是在训练过程中学习的核点偏移量; f i k ~表示经过特征增强模块处理后的邻近点特征 f i k,这意味着在训练过程中核点位置也是可学习的,而非固定不动。函数 h表示为 p i k与核点位置关系的线性相关函数,具体如式(2)所示。
(2) h p i k , x j + Δ j x = m a x   ( 0,1 - | | p i k - ( ( x j + Δ j x ) | | d )
式中:d为核点的影响半径,从式(2)可以看出近邻点与核点的距离越近,其权重则越大。
(2)特征增强模块
传统三维点云核点卷积网络中,普遍利用邻近点与核点位置关系作为权重赋予该核点特征,之后将学习到的权重矩阵与核点相乘获得局部聚合特征。然而这类方法重用邻近点与核点的位置关系,忽略了十分重要的邻近点与中心点的位置关系。当邻近点与核点位置相差过大时,核点无法很好地聚合局部特征。但是单纯利用邻近点与中心点的几何空间和特征空间的距离关系不足以表达作为核点卷积网络补充特征的局部信息,因为空间内严格信息编码会降低网络在高维度特征空间中的泛化能力。因此,为缓解核点卷积网络难以有效聚合邻近点与核点位置差异过大时的局部特征问题,同时充分利用邻近点与中心点、邻近点和核点两种位置关系信息,为网络学习提供更多信息,本文提出特征增强模块(图2)。如图2所示,①拟先利用邻近点与其中心点的几何距离关系输入进MLP生成可学习的局部特征偏移量; ②将局部特征偏移量与邻近点和中心点的特征信息之差相拼接得到局部特征信息;③利用MLP动态地调整局部特征信息,从而实现邻近点光谱特征增强,增强后的邻近点特征除自身特征外,包含通过邻近点与中心点的位置关系调整后的局部特征信息,然后再输入进可变核点卷积模块,使卷积模块获得更加丰富的邻近点特征,为点云分类提供更多信息。
具体而言,首先将定点 p i的几何信息和该点与其每个邻近点 p i k R ( p i )的距离信息相拼接得到 ϕ p i k,然后利用MLP层处理 ϕ p i k,从而学习获得中心点 p i的局部特征偏移量 Δ p i;之后该中心点 p i的特征信息 f i和每个邻近点 p i k的特征信息 f i k与中心点 p i的特征信息 f i之差以及特征偏移量 Δ p i相拼接得到 ϕ f i k,最后通过MLP将 ϕ f i k的维度降低至邻近点原始特征维度后得到增强特征 f i k ~,如式(3)所示。
f i k ~ = M ( c o n c a t ( M ( ϕ p i k ) , f i k - f i , f i ) )
式中: c o n c a t代表数组拼接; ϕ p i k = c o n c a t ( p i k - p i , p i )表示点 p i的邻近点 p i k p i的差值和激光点 p i拼接,即邻近点与中心点位置关系。M代表MLP处理。

2.3 损失函数

由于机载多光谱LiDAR数据集普遍存在类别严重不平衡问题,常用基于加权交叉熵的损失函数对每个类别根据其数量赋予不同权重,促使监督信号偏向于激光点数量较少的类别,提高少量点云类别的分类精度。但当少量点云样本中存在错误标签时,加权交叉熵损失函数则会放大错误标签影响。相较而言,标签平滑损失可以使模型不过分依赖人工标签,合理地调整网络模型对少量样本监督信号偏移,提高模型的泛化能力。因此,本文将权重交叉熵损失函数与标签平滑策略结合。首先,需要平滑处理真实样本标签,并使用更新后的标签向量 y i '代替传统独热编码(one-hot encoding)标签向量 y h o t,再计算其损失,其中标签向量 y i '表示为:
y i ' = y h o t 1 - ε + ( 1 - y h o t ) ε M
式中: M为点云分类地物类别数,常量; ε为平滑因子。同时,交叉熵损失函数基于模型预测概率计算损失,本文引进一种直接针对精度评价指标交并比优化的Lovasz-Softmax损失函数来平衡模型损失表现。本文最终损失函数 L见式(5)所示。
L = - 1 N i = 1 N w i j = 1 M y i ' l o g P i j + 1 M c M J c ¯ ( M c )
式中: N为一次迭代中的样本点云数量,常量; M为点云分类地物类别数,常量; P i j表示第 i个样本预测属于类别 j的概率; w i代表样本 i的类别权重; J c ¯ ( M c )表示使用属于类别 c样本的错误分布概率向量 M c构建的Jaccard系数。

3 实验设计

3.1 实验区域与实验数据

本文试验区域位于加拿大安大略省惠特彻奇-史托维尔(Whitchurch-Stouffiville)的一个小镇。由于惠特彻奇-史托维尔研究区域中包含两个大湖区域,因此从其裁剪一个面积为2052 m×1566 m作为本文研究区域,该区域内地物类别相对丰富,主要包含了建筑物、草地、裸地、树木、道路等五类。另外,该区域中存在少量电力线,为了验证本文算法鲁棒性,本文也将其作为一个分类类别。
多光谱LiDAR实验数据由加拿大Optech公司的Titan机载多光谱LiDAR系统采集,飞行高度为1000 m左右。如图3所示,该系统包含3个波段,即532、1064 和1550 nm,按照3.5°偏转角进行排列。每个激光脉冲波段的脉冲重复率为300 kHz,则对应着一个平均点密度为3.6个/m2点的点云数据集。由于Optech公司未提供该传感器辐射检校的相关数据,本文只对采集数据进行相对辐射校正。

3.2 数据预处理

(1)数据融合与标注
由于Titan机载多光谱LiDAR系统的532、1064和1550 nm波段可获得独立点云数据集,因此需要将3个波段独立点云数据集融合为单个高密度的多光谱LiDAR点云集,使其中每个点云除包含自身几何信息外,还包含上述3个波段光谱信息(即532 、1064和1550 nm),其具体融合方法可见文献[23]-[24]。
为了验证算法鲁棒性,从剪裁研究区域中选取地物类型丰富的13块小场景并逐点标注为道路、建筑物、草地、树木、裸地和电力线6种类型。其中10块场景为训练数据集(图3(a)),3块场景数据用于评估网络模型性能(图3(b))。13块场景的具体面积和点云数量见表1所示,训练场景覆盖面积为 1 491 035 m2,包含5 969 982激光点;测试场景覆盖面积为491 808 m2,包含2 262 429个激光点。 表2进一步展示所选13个区域中,6类地物的具体激光点数目。由于采集时间为7月,树木和草地植被类别激光点数目占比多,而电力线激光点数量较少,存在着严重类别数据不均衡问题。
表1 实验数据场景面积和激光点数目

Tab. 1 The size of experimental scenes and number of points

训练场景 测试场景
场景面积/ m2 1 491 035 491 808
激光点数目/个 5 969 982 2 262 429
(2)数据采样
由于计算平台内存和运算性能限制,深度学习模型无法一次性处理大规模点云数据。此外,本文所提网络模型需要输入数量固定的激光点集。因此,采用格网采样方式并结合KD-Tree(K-dimensional tree)获得具有固定激光点数的样本。具体而言,① 根据实验场景下多光谱LiDAR数据的平均点云密度,将整块点云数据以0.5 m为边长,均匀划分为多个立体子网格;② 统计每个立方体内所有激光点的几何和光谱信息,并将其均值作为该网格整体几何和光谱信息;③ 统计网格内不同类别点的数量,并将占比最大的类别作为采样后该网格类别;④ 将每个采样点作为树根节点建立KD-Tree索引,找出该点的N-1个近邻点,其中N为给定采样样本点数。利用KD-Tree索引可以在不破坏点云几何结构的同时,获得固定数量的样本点进行模型训练。最终输入进网络的样本点包含几何信息(XYZ坐标信息)、3个波段光谱信息(532、1064和1550 nm)与类别信息。

3.3 实验设置

本文实验平台为一台配置Intel Core i7-9700 [CPU],16G RAM和6GB NVIDIA GeForce RTX 2070 [GPU]等主要硬件的工作站。软件环境为Python 3.6编程语言和TensorFlow1.5的Ubuntu20.04深度学习系统。训练时,单批次输入点数为65 536,批次大小设为3,初始学习率设为0.001,训练周期(epoch)和每周期衰减率分别设为100和5%,采用Adam优化器。可变核点卷积的核点数设为9,KNN算法中最邻近点个数设为16。受限于样本数量,对所处理点云进行随机缩放和随机平移以扩充数据,增强模型学习能力,减少过拟合,其随机缩放范围设为[-0.66,1.5],随机平移范围设为[-0.2,0.2]。在本文所提损失函数中,平滑因子 ε设为0.2,类别权重 w为数据集中各类别激光点数量占总类别所有激光点数量比重的平方根倒数。本文采用综合精度(Overall Accuracy, OA)、交并比(IoU)、均交并比(mIoU)、综合评价指标F1-score以及macro-F1指数5种评价指标定量分析模型性能。

4 实验分析

4.1 多光谱LiDAR点云分类

图4所示为Optech Titan多光谱LiDAR 3个场景测试数据(Test1、Test2、Test3)的标签数据和本文模型预测结果。从图4可以看出,相比较于真实标签数据,本文网络模型对绝大多数建筑物、树木、电力线等具有清晰、明显空间结构特征的地物点云分类效果较好,而对裸地等不规则地物分类性能不佳。从图5可以看出,尽管场景边缘有部分道路点被错分类为草地,但数据场景内部所有道路点均可以被正确分类。该现象主要由于在测试场景边缘部分,特征增强核点卷积网络模型缺乏足够道路点邻域特征信息学习。另外,由于数据采集时间为7月,植被茂盛,导致点缀在草地中的裸地被草地覆盖;另一方面,裸地在光谱特征上与其临近道路相似,从而也产生很多分类误差,其中有近一半的裸地点被错误分类成草地或者道路点。
图4 基于特征增强核点卷积网络的多光谱LiDAR点云分类结果

Fig. 4 Visual results obtained by the proposed Enhanced Feature Convolutional network on the three test scenes of the multispectral LiDAR data

图5 测试场景1细节图

Fig. 5 A close view of the classification results for Test1

为进一步定量分析本文所提出的网络模型分类性能,表3所示为3个测试场景中6类地物分类结果的F1-score指数以及IoU值。由表3可知,本文所提特征增强核点卷积网络模型的macro-F1指数以及mIoU值分别为88.51%和83.42%。具体来看,特征增强核点卷积网络模型在建筑物(F1-score:99.44%,IoU:98.89)、草地(F1-score:96.95%,IoU:94.09%)、树木(F1-score:99.72%,IoU:99.45%)以及仅占测试集数据量0.2%且分布不均的电力线类别(F1-score:98.19%,IoU:96.50%)取得优秀的结果。与定性比较一致,裸地的分类精度较差,F1-score与IoU仅为42.98%与32.27%。图6为点云分类混淆矩阵Pearson相关性热力图。由图6可知,主要错分类别集中于裸地、道路与草地部分,特别是草地与裸地2种类别相关性较高,相互错分数量较大。如上文分析所示,裸土、道路和草地这3类地物在几何特征与空间信息上较为相似,且存在部分遮蔽现象;此外,裸地光谱特征与道路相似且同物异谱线性明显,从而导致裸地点云分类效果较差。
表3 点云分类结果定量分析

Tab. 3 Statistical results obtained by the proposed method on the Optech multispectral LiDAR data

类别 F1-score/% IoU/%
道路 88.46 79.31
建筑物 99.44 98.89
草地 96.95 94.09
树木 99.72 99.45
裸地 48.32 32.27
电力线 98.19 96.50
均值 88.51 83.42
图6 混淆矩阵相关性热力图

Fig. 6 Confusion matrix correlation thermogram

4.2 与同类方法比较

为进一步验证本文网络在多光谱LiDAR点云分类的可行性与优越性,将本文所提特征增强核点卷积网络与6个先进点云分类网络模型的分类结果进行比较。
表4所示,表中前6列为类别F1-score指数。其中,PointNet++、DGCNN、RSCNN与RandLA-Net是目前常用的三维点云处理模型,实验结果皆使用其官方源码得出;SE-PointNet++和FR-GCNet是最近提出的2个SOTA机载多光谱LiDAR点云分类网络,这2种网络分类精度结果出自文献[24]中的实验数据。为了确保公平,体现出本文网络模型设计上的优势,使用FR-GCNet中的训练参数即FPS-KNN样本采样,批次大小4、单批次输入点云数为4096、KNN算法中最邻近点个数设为32训练本文方法作为比对,表中表示为本文方法*。
表4 对比网络对测试场景的分类结果

Tab. 4 Classification results of test scenes by the compared networks (%)

模型 F1-score OA macro-F1 mIoU
道路 建筑物 草地 树木 裸地 电力线
PointNet++[29] 73.91 83.98 86.64 96.74 30.24 57.28 90.19 71.47 55.84
SE-PointNet++[23] 70.32 85.64 94.70 97.05 37.02 70.35 93.01 75.84 64.32
DGCNN[30] 70.43 90.25 93.62 97.93 21.97 55.24 91.36 71.57 52.04
GACNet[31] 64.51 84.21 93.41 96.66 22.77 33.83 89.91 67.65 55.14
FR-GCNet[24] 82.63 90.81 95.33 98.77 28.72 74.11 93.55 78.61 65.78
RSCNN[32] 71.18 89.00 91.42 95.63 26.43 70.03 92.44 73.90 56.10
RandLA-Net[27] 84.72 93.47 96.34 99.12 31.68 82.75 95.57 81.35 73.42
本文方法* 86.66 99.13 96.36 99.31 39.89 91.31 95.91 85.44 79.93
本文方法 88.46 99.44 96.95 99.72 48.32 98.19 96.80 88.51 83.42

注:本文方法*表示使用FR-GCNet中的训练参数训练本文方法,即FPS-KNN样本采样,批次大小4、单批次输入点云数为4096,KNN算法中最邻近点个数设为32。

表4中可以看出,本文提出的特征增强卷积网络模型无论是比较参数还是最佳训练参数都获得了最佳的性能指标,其最佳训练参数下的OA、macro-F1值和mIoU值分别为96.80%、88.51%和83.42%;同时,6种地物类别的F1-score值也获得最佳性能,远高于其他对比网络模型。具体而言,与同样利用利用邻域位置与注意力机制的进行局部特征聚合的RandLA-Net相比,本文所提网络模型网络性能提高了0.23% OA、7.16% macro-F1值以及10.00 mIoU,说明通过可变连续卷积算子与特征增强模块相比较严格的空间信息编码与注意力机制的组合,可以更好地聚合局部特征,从而进一步提升模型性能。此外,与目前先进的SOTA的机载多光谱LiDAR点云分类模型FR-GCNet相比,本文提出的特征增强卷积网络模型在相同训练参数下的OA、macro-F1值和mIoU值分别提高了2.36%、6.83%和14.15%,说明可变连续卷积算子相较于图卷积算子更好地表达多光谱LiDAR点云特征细节。

4.3 消融实验

本文所提特征增强核点卷积网络分别通过特征增强模块、增强卷积模块、最远点采样和可变卷积核4个核心部分提升对多光谱LiDAR点云分类能力。本节通过消融实验分别验证这4部分对特征增强核点卷积网络性能影响(表5)。具体而言,从特征增强核点卷积网络中移除特征增强模块,得到模型A;将最远点采样策略特换成五次下采样策略得到模型B;使用刚性卷积核代替可变卷积核得到模型C;使用简单的MLP代替增强卷积模块聚合局部特征得到模型D。所有消融实验采用相同的训练和测试数据,且数据预处理中训练策略、网络超参数以及学习策略皆保持一致。
表5 消融实验结果

Table 5 Ablation experiment results

模型 特征增强模块 增强卷积模块 FPS
采样
可变卷积核 OA/% mIoU/%
A - 96.51 82.23
B - 96.25 81.39
C - 95.77 78.16
D - 81.62 46.65
本文方法 96.80 83.42
表5可知,模型A分类总体精度和mIoU较本文方法分别降低0.29%和1.19%。由此可见特征增强模块根据中心点与邻近点的空间位置关系来增强邻近点特征,可为网络模型分类点云更多有利特征,从而提升模型多光谱点云分类性能。模型B的总体精度和mIoU降低0.55%和1.03%,表明,最远点采样在点云规模不大时,可以在保证采样效率的同时,最大程度地保留具有关键几何特征的点云信息。模型C的OA和mIoU分别降低了1.03%和5.26%,随着网络训练而自适应调整的可变卷积核更好地适应点云学习。模型D使用简单的MLP聚合局部特征,导致总体精度与mIoU大幅降低,分别降低了15.18%和36.77%。由此可知,增强卷积模块可以有效聚合局部特征,并通过近邻点、中心点以及核点之间的位置关系,充分挖掘点云之间相关性,为模型点云分类提供更多分类依据,有助于提高大规模复杂场景的多光谱LiDAR点云分类性能。

4.4 学习策略分析

本节面向多光谱LiDAR点云数据,详细分析样本采样与损失函数2种学习策略对于特征增强核点卷积网络的性能影响。
(1)样本采样
本文结合格网采样与KD-Tree来获得具有固定激光点数的训练样本。为验证其有效性,本节将其与分块后采样[23]以及最新的FPS-KNN采样[24]方法作对比。3种采样方法所获得的训练样本与地面真值对比如图7所示。表6所示为3种采样方法所获样本的测试精度。分块后采样方法由于破坏原始点云的几何结构,从而获得了较差的测试精度; FPS-KNN方法利用最远采样点结合最邻近(KNN)方法,可以缓和几何结构破坏,但是仍导致大量地面点云被丢弃。而本文使用的采样方法获得的OA和mIoU值分别为96.80%和83.42%,具有一定优越性。这是由于本文所提格网采样与KD-Tree结合采样方法可以均匀获得训练样本数据,且直接在完整场景上建立索引获得固定点数的样本,从而完整保留原始点云的几何结构并保证模型精度较高。
图7 训练场景1的3种采样方法结果与地面真值

Fig. 7 Comparison between three sampling methods and ground truth on Train1

表6 使用3种采样方法的特征增强核点卷积网络的分类精度

Tab. 6 EFConv. of different sampling strategy for classification accuracies

OA/% mIoU/%
分块后采样 94.92 80.29
FPS-KNN 采样策略 96.11 81.89
格网采样与KD-Tree结合 96.80 83.42
(2)网络下采样方法
本文在网络下采样中结合最远点采样与随机采样方法,共实施5次下采样,前3次下采样为随机采样,后2次采样为最远点采样。采样率分别为1/4,1/16,1/64,1/256,1/512,单批次输入进网络的点云数为65 536,5次采样后点数分别为16 384、4096、1024、256、128。如表7所示,第1次最远点采样花费26 088.04 ms,而随机采样仅花费5.29 ms。一般在网络训练中,单批次输入进大量点云可以有效地增加模型感受野,提高模型性能。SE-PointNet++和FR-GCNet等机载多光谱LiDAR点云分类网络使用的最远点采样方法则计算复杂度高,难以单次处理大规模输入点云。可见随机采样方法在处理大范围点云时突显了其高效率的优越性。第4次与第5次最远点采样分别花费33.02 ms与13.00 ms,随机采样花费3.89 ms与3.72 ms,在处理小数量点云时,最远点采样虽然计算复杂度高,但是所花费时间已大大降低。表8中5层随机采样与4层随机采样结合1层最远点采样的网络性能分别比本文所采用的采样策略精度分别降低了0.67% OA、1.22% mIoU与0.51% OA、0.8%mIoU。在处理小数量点云时,最远点采样策略可以在保证采样效率的同时减少随机采样导致的关键几何结构信息缺失。
表7 单批次下采样时间

Tab. 7 Downsampling time of a batch (ms)

最远点采样 随机采样
1st 26 088.04 5.29
2nd 1896.42 4.47
3rd 291.06 3.97
4th 33.02 3.89
5th 13.00 3.72
(3)损失函数
在损失函数方面,本文比较了目前普遍使用的4种损失函数:交叉熵损失、加权交叉熵损失、标签平滑损失以及Lovasz-Softmax损失。由于加权交叉熵损失和标签平滑损失都是基于交叉熵损失改进的损失函数,因此,表9中没有出现将交叉熵损失与另外3种损失函数组合的实验。
表8 不同下采样方法的特征增强核点卷积网络的分类精度

Tab. 8 EFConv. of different downsampling strategy for classification accuracies

OA/% MIoU/%
5次随机采样 96.13 82.20
4次随机采样结合1次最远点采样 96.29 82.62
3次随机采样结合2次最远点采样 96.80 83.42
表9 特征增强核点卷积网络采用不同损失函数的分类精度

Tab. 9 Classification accuracies from EFConv with varying loss functions

损失函数 精度
交叉熵损失 权重交叉熵损失 标签平滑损失 Lovasz-Softmax
损失
OA/% mIoU/%
实验1 - - - 95.26 78.16
实验2 - - - 95.66 81.43
实验3 - - - 95.71 81.38
实验4 - - - 95.69 81.55
实验5 - - 96.39 82.48
实验6 - - 96.52 82.96
本文方法 - 96.80 83.42
表9可知,加权交叉熵损失(实验2)、标签平滑损失(实验3)以及Lovasz-Softmax损失(实验4)性能优于交叉熵损失(实验1)。通过实验(4)—(6)研究发现:以上3种损失函数同时应用在同一网络中时,其性能并未产生冲突,可以更进一步改进网络性能。相比较于实验(1)仅使用交叉熵损失函数,本文同时使用加权交叉熵损失、标签平滑损失以及Lovasz-Softmax损失3种损失函数,其模型性能的OA与mIoU值分别提高了1.54 %和5.26 %。说明了加权交叉熵损失函数能有效地缓解类别不平衡问题,提高少数量类别的精度;标签平滑损失平滑处理原始标签,降低了错误标记对于加权交叉熵的影响,直接针对分类精度交并比优化的Lovasz-Softmax损失与基于模型预测概率驱动的交叉熵损失相结合可以进一步提高模型性能。

5 讨论

本文首先将Titan多光谱LiDAR点云惠特彻奇-史托维尔数据集进行数据融合和标注,采用格网采样与KD-Tree结合的采样方法更好地保留原始点云的几何特征输入进深度学习网络,完成地物分类任务。综合模型实验结果分析可知,特征增强核点卷积网络通过随机采样和最远点采样结合可以快速处理单批次大规模多光谱LiDAR点云数据,网络模型利用原始点云位置信息对局部特征进行增强,充分利用邻近点与中心点、邻近点和核点两种位置关系信息,赋予核点更多特征信息,增强核点的局部特征表示,实现了对于道路、建筑物、树木、草地和电力线等地物的高精度分类。最后为缓解多光谱点云数据集普遍存在的类别不平衡问题,结合加权标签平滑损失与Lovasz-Softmax损失,进一步提高了网络模型的性能。
本文在多光谱LiDAR点云数据集上将特征特征核点卷积网络和SE-PointNet++、FR-GCNet等8个模型进行对比实验和定量评估以体现模型的优越性。实验结果表明,本文模型优于对比模型。此外,消融实验中,本文采用的格网采样与KD-Tree结合的采样方法优于其他采样方法,使用的3次随机采样结合2次最远点采样也取得性能上的进步。
本文网络对受同物异谱和异物同谱影响较为严重的裸地类别的性能表现虽优于其他对比模型,但是仍无法取得较高精度结果。此外,由于本文所提网络学习参数量较大,导致了学习难度较高。对于不同场景和规模的点云数据集,本文采用的核点卷积中核点数量对于模型性能表现有一定影响,需根据点云场景的密度大小合理地调整核点数量,以更好地聚合局部特征。下一步工作中,将进一步挖掘有限的光谱信息特征,提高点 云分类精度,同时改进网络模型架构,减少网络参数量。

6 结论

本文针对大数据量机载多光谱LiDAR点云分类,提出了一个利用局部点云位置进行特征增强的端到端可变核点卷积网络——特征增强核点卷积网络,并在Titan多光谱LiDAR点云惠特彻奇-史托维尔数据集上验证模型的性能。具体结论如下:
(1)特征增强核点卷积网络使用随机采样和最远点采样结合实现了单批次海量多光谱LiDAR点云数据快速处理,保证采样效率的同时减少随机采样导致的关键几何结构信息缺失。为解决核点卷积网络存在的忽略邻近点与中心点的位置关系且当邻近点与核点位置相差过大时,核点无法很好地聚合局部特征的问题。本文提出特征增强模块,充分利用邻近点与中心点、邻近点和核点2种位置关系信息,为网络学习提供更多信息。为缓解类别不平衡问题,结合加权标签平滑损失与Lovasz-Softmax损失,进一步改善模型性能表现。
(2)通过Optech Titan 多光谱LiDAR点云分类实验表明,模型所得综合精度OA、macro-F1指数和mIoU值分别为96.80%、88.51%和83.42%,相较对比模型,均有不同程度提高。实验结果表明特征增强核点卷积网络更有效地挖掘点云信息和聚合点云局部特征,对于道路、建筑物、树木、草地和电力线等地物能实现高精度自动分类。
[1]
Morsdorf F, Nichol C, Malthus T, et al. Assessing forest structural and physiological information content of multi-spectral LiDAR waveforms by radiative transfer modelling[J]. Remote Sensing of Environment, 2009, 113(10):2152-2163. DOI:10.1016/j.rse.2009.05.019

DOI

[2]
Hakala T, Suomalainen J, Kaasalainen S, et al. Full waveform hyperspectral LiDAR for terrestrial laser scanning[J]. Optics Express, 2012, 20(7):7119-7127. DOI:10.1364/OE.20.007119

DOI PMID

[3]
Gong W, Song S L, Zhu B, et al. Multi-wavelength canopy LiDAR for remote sensing of vegetation: Design and system performance[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2012, 69:1-9. DOI:10.1016/j.isprsjprs.2012.02.001

DOI

[4]
史硕, 龚威, 祝波, 等. 新型对地观测多光谱激光雷达及其控制实现[J]. 武汉大学学报(信息科学版), 2013, 38(11):1294-1297.

[ Shi S, Gong W, Zhu B, et al. A novel multi-spectral LiDAR for earth observation and implementation of control system[J]. Geomatics and Information Science of Wuhan University, 2013, 38(11):1294-1297. ] DOI: 10.13203/j.whugis2013.11.019

DOI

[5]
Ghaseminik F, Aghamohammadi H, Azadbakht M. Land cover mapping of urban environments using multispectral LiDAR data under data imbalance[J]. Remote Sensing Applications: Society and Environment, 2021, 21:100449. DOI:10.1016/j.rsase.2020.100449

DOI

[6]
Wang Q W, Gu Y F. A discriminative tensor representation model for feature extraction and classification of multispectral LiDAR data[J]. IEEE Transactions on Geoscience and Remote Sensing, 2020, 58(3):1568-1586. DOI: 10.1109/TGRS.2019.2947081

DOI

[7]
Ekhtari N, Glennie C, Fernandez-Diaz J C. Classification of airborne multispectral lidar point clouds for land cover mapping[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2018, 11(6):2068-2078. DOI:10.1109/JSTARS.2018.2835483

DOI

[8]
Teo T A, Wu H M. Analysis of land cover classification using multi-wavelength LiDAR system[J]. Applied Sciences, 2017, 7(7):663. DOI:10.3390/app7070663

DOI

[9]
Wallace A M, McCarthy A, Nichol C J, et al. Design and Recognition (CVPR). IEEE, 2020:11105-11114. DOI: 10.1109/CVPR42600.2020.01112

DOI

[10]
Berman M, Triki A R, Blaschko M B. The lovasz-softmax loss: A tractable surrogate for the optimization of the intersection-over-union measure in neural networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. IEEE, 2018:4413-4421. DOI:10.1109/CVPR.2018.00464

DOI

[11]
Qi C R, Yi L, Su H, et al. PointNet++: Deep hierarchical feature learning on point sets in a metric space[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. New York: ACM, 2017:5105-5114. DOI:10.5555/3295222.3295263

DOI

[12]
Wang Y, Sun Y B, Liu Z W, et al. Dynamic graph CNN for learning on point clouds[J]. ACM Transactions on Graphics, 2019, 38(5):1-12. DOI:10.1145/3326362

DOI

[13]
Wang L, Huang Y C, Hou Y L, et al. Graph attention convolution for point cloud semantic segmentation[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:10288-10297. DOI: 10.1109/CVPR.2019.01054

DOI

[14]
Liu Y C, Fan B, Xiang S M, et al. Relation-shape convolutional neural network for point cloud analysis[C]// 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2020:8887-8896. DOI: 10.1109/CVPR.2019.00910

DOI

Outlines

/