Plot-level Forest Height Inversion Using Airborne LiDAR Data Based on the Random Forest

LU Lin; ZHOU Xiaocheng; YU Zhizhong; HAN Shang; WANG Xiaoqin

doi:10.3724/SP.J.1047.2016.01133

Journal of Geo-information Science >

2016 , Vol. 18 >Issue 8: 1133 - 1140

DOI: https://doi.org/10.3724/SP.J.1047.2016.01133

Plot-level Forest Height Inversion Using Airborne LiDAR Data Based on the Random Forest

LU Lin ^,¹ ,
ZHOU Xiaocheng ^,¹^,^* ,
YU Zhizhong ¹ ,
HAN Shang ² ,
WANG Xiaoqin ¹

Expand

1. Key Laboratory of Spatial Data Mining & Information Sharing of Ministry of Education, National Engineering Research Center of Geospatial Information Technology, Fuzhou University, Fuzhou 350002, China
2. Institute of Surveying and Mapping of Fujian Province, Fuzhou 350002, China

*Corresponding author: ZHOU Xiaocheng, E-mail:zhouxc@fzu.edu.cn

Received date: 2015-10-26

Request revised date: 2016-02-23

Online published: 2016-08-10

Copyright

《地球信息科学学报》编辑部所有

Fold

Abstract

It has been a hot study field to extract forest structure parameter using Airborne LiDAR. This paper evaluated the validity of random forests technique (RF) in the estimation of forest height, based on both of the physical and statistical features of airborne LiDAR data with the utilization of a new detection method to find the crown height. The study area was selected to be the Zhuxi river basin of Changting county in Fujian Province. At first, the ground point dataset, vegetation and elevation normalized vegetation point dataset of stands were generated by using the progressive TIN filter algorithm. Then, 24 independent variables, such as the percentile of heights and the statistical metrics of points, were derived from the normalized vegetation point dataset. Based on the 24 laser-derived features and the field data, the estimation model for the random forest regression of the mean canopy height in the study area was established. 29 of the samples were used to construct the prediction model, and the remaining 11 samples were used to verify the accuracy of the model. Finally, we compared the average value of the estimated tree heights in each plot with the measured values. The result showed that they were highly correlated with each other, the regression coefficient between them was 0.938, and the correlation coefficient was 0.968. The accuracies of all plots were higher than 87% and the total average accuracy was 93.17%. Moreover, the importance of each variable was calculated in this paper to evaluate the accuracy of model estimation closely. And a conclusion was drawn that the importance of the variable sand the model estimation accuracy were positive correlated, which implies that the greater the importance of the variables, the greater their impact on the accuracy of the model estimation. Among all variables, the Mean_P90 and the percentiles between 70%~95% were representatively having a great influence on the accuracy of model estimation. According to the results, it was concluded that the estimation model of forest height based on random forest technique (RF) with multi-factor was proved to be feasible and efficient.

Key words： airborne LiDAR; random forest; forest structural parameters; Zhuxi river basin; average tree height

Cite this article

LU Lin , ZHOU Xiaocheng , YU Zhizhong , HAN Shang , WANG Xiaoqin . Plot-level Forest Height Inversion Using Airborne LiDAR Data Based on the Random Forest[J]. Journal of Geo-information Science, 2016 , 18(8) : 1133 -1140 . DOI: 10.3724/SP.J.1047.2016.01133

1 引言

激光雷达（Light Detection And Ranging,LiDAR）是一种通过传感器所发射的激光来测定传感器与目标物之间距离的主动遥感技术。近年来,激光雷达技术在森林资源监测中得到广泛应用,包括获取常规的森林郁闭度、生物量以及蓄积量等特征,以及提取林分冠层结构参数,如树高、胸径和冠幅等^[1]。而林分平均树高作为森林资源调查和管理监测中的重要测量因子,是反演估测其他森林参数的基础^[2-3]。

目前从激光点云数据中提取林分平均树高主要包括间接法和直接法2种。间接法一般根据提取的单木树高信息进行算术平均得到,包括从点云数据获取的林冠高度模型（CHM）进行树冠分割^[4-5]和局部最大值查找法^[6-7]等方法获取单木高度信息,其缺点是对于点云的密度有一定要求,而且地形坡度也会导致CHM中的树冠顶点发生位置偏移^[8]。直接法则直接从林分样地提取点云参数进行回归,估测林分平均高,包括采用多元回归方法和非参数的回归方法。其中,Yu等^[9]通过提取样方冠层高度参数、激光回波的垂直分布、树冠面积等参数进行回归分析估测样方平均树高。Tesfamichael等^[10]分析了不同采样密度的LiDAR点云数据进行林分均高的估测,通过从点云数据中提取相关参数进行逐步回归分析,得出林分均高估测的均方根误差在不同密度水平下均达到1.0 m左右。庞勇、尤号田、焦义涛等^[11-13]也分别用获取的不同LiDAR点云参数对平均树高进行估测,估测精度都在90%以上。

采用逐步多元线性回归方法,需假设限制样本必须服从正态分布和无共线性。为克服假设限制,非参数的估测方法被引入到LiDAR回归统计中,从而更加灵活地用于森林参数的估测^[14]。目前,较常用的非参数估计方法包括K近邻法回归（K-nearest Neighbor Regression）、支持向量机方法SVM（Support Vector Machine）和随机森林（Random Forest）等^[15-16]。相关研究表明,虽然前2种方法在林业参数估算中得到了较积极的结果,但对于多样本和多变量的预测问题则会表现出过拟合现象。而随机森林算法（RF）则因其具有较高的预测精度和学习过程快、且不易产生过拟合现象等特征而逐渐应用于森林参数的估算^[17-20]。本文针对以往采用线性回归方法估测平均树高中所选用参数的不确定性和多变量问题的限制,以及目前相应非参数方法在估测平均树高中所产生的问题,将随机森林算法（RF）引入到林分平均树高估测中来,并以福建长汀朱溪河流域为试验区,探讨了随机森林算法（RF）在机载LiDAR数据林分平均树高估测中的适用性。

2 研究区概况与数据获取

2.1 研究区概况

朱溪河流域位于福建省长汀县河田镇,介于北纬25°33′~25°48′,东经116°18′~116°31′之间。流域整个地势自东北向西南倾斜,海拔270~680 m,地貌类型以低山、丘陵为主。气候属于中亚热带季风性湿润气候,全年平均气温19 ℃;年平均降水量为1700 nm,其中4-6月降水量约占全年的1/2,且降雨强度大;土壤类型主要为山地丘陵红壤,含沙量大,风化壳深厚。整个流域区域作为长汀县水土流失重点治理区,其以人工种植的马尾松（Pinus massoniana）为主要树种,且以次生马尾松为主逐渐向四周扩展为马尾松成熟林、针阔混交林等。

2.2 机载LiDAR数据获取

机载激光雷达数据由Leica ALS70-HP机载三维激光扫描系统获取,数据采集时间为2013年11月。飞行绝对航高为3500 m,发射的激光波长为1064 nm,最大激光脉冲频率为500 kHz,最大扫描频率为200 Hz,飞行过程中分别记录了激光脉冲的3次回波信号。整个飞行过程的旁向重叠度控制在25%左右,LiDAR平均扫描点距小于2 m,整个点云密度约为0.7个/m²。获取的LiDAR点云数据经过噪声和异常值的剔除等预处理。

2.3 野外实测数据

2015年8月在朱溪河流域共设置了40块圆形样地（图1）,样地半径均为15 m。样地主要在参考流域内划分的林业小班基础上再结合实际可观测条件进行布置,且实测树种均为流域内的优势树种马尾松。在样地内,采用皮尺测量每株树木胸径部位（树干1.3 m高度处）的周长,再根据圆周长关系计算出平均树高胸径。采用森林罗盘仪测量每株树木的树高,采用皮尺测量树南北和东西方向的冠幅,利用差分GPS对每个样地中心点进行定位并记录其坐标（图1）,图中坐标系统为CGCS2000。

View original graphic|Download|PPT slide

Fig.1 Distribution of the study plots

图1 样地分布图

林分平均树高采用断面积加权法计算,其计算公式如式（1）所示。

H = ∑ i = 1 n h i g i ∑ i = 1 n g i

（1）

式中：

h i

为第i株林木的树高;

g i

为第i株林木的胸高断面积;n为林分株数。

3 研究方法

3.1 LiDAR估测树高基本原理

激光雷达以激光脉冲作为技术手段,工作频段一般在可见光和近红外光谱区,通过测量地面采样点激光回波脉冲相对于发射激光主波之间的延迟时间,得到传感器到地面采样点之间的距离。其测距基本原理可表示为式（2）。

R = c ∙ t 2

（2）

式中：R为传感器到目标物体的距离;c为光速;t为激光脉冲从激光器到被测目标的往返传输时间。

由于LiDAR对森林冠层具有穿透性,当飞行器在林地上空进行激光扫描时,传感器能接收到由林地树冠层、树干部分和地表部分反射的激光能量,通过计算来自树顶的回波与来自地面回波高程的差值,便可得到树高^[21]。小光斑LIDAR的采样密度决定了所获取冠层结构的详细程度,在采样密度较高时,平均每棵树上有几个、十几个甚至更多的激光脉冲点,因而可以用来估测每棵树的参数;采样密度低时,单个树冠的激光点太少而无法准确刻画树冠的表面变化,甚至“错失”树顶,因而只能用来估测森林的平均树高信息^[11]。

3.2 随机森林方法估测树高

利用随机森林方法估测林分平均树高,需要从归一化植被点云中获取相应点云变量参数,然后利用这些参数构建随机森林回归模型,对平均树高进行估测。

3.2.1 点云滤波

点云数据的滤波是指从点云中分离出地面点和非地面点的LiDAR数据处理方法。鉴于森林地区的复杂地形和相应滤波算法的适用情况,本文主要采用隋立春等^[22]提出的基于渐进三角网的LiDAR数据滤波方法对森林地区进行处理。该算法是基于不规则三角网方法的一种改进,其充分考虑到全局地形情况,通过对TIN内点云按高程进行排序后再逐渐加密三角网以提取地面点。相对于常规的不规则TIN算法,改进后的方法能有效地滤除不同尺寸的建筑物、低矮的植被和其他地物,且地形特征保持较好。

在本研究中因为样地都分布于山地区域,因而通过该滤波处理后得到的非地面点就是样地区域的植被点。整个LiDAR数据滤波过程通过MATLAB编程实现。

3.2.2 植被点高程归一化

通过对获取的样地区域地面点进行TIN插值即可得到DEM高程,将植被点的高程减去DEM高程值,便可消除地形起伏变化对数字表面模型（DSM）中地物高程及其形状的干扰,从而获取相对准确的地物形态和高度等信息。为了排除林下灌丛等低矮植被点对林分平均树高的影响,本文只保留了归一化高程值大于2 m的植被点用于后续分析^[23]。

3.2.3 植被点云特征提取

本文采用植被冠层的第一回波数据估算林分参数^[24]。通过比较分析目前利用机载LIDAR数据估算林分参数所采用的点云变量情况^[10,25],并根据不同的参数组合对比试验,最后选出24个估测树高的最优特征集,包括平均高度Hmean、高度分布范围Hrange、点云高度标准差HSTD、百分位高度（H10、H20、H25、

⋯

、H95）、最大高度H100、和不同百分位高度点云高度均值（Mean_P25、Mean_P50、

⋯

、Mean_P90）等（表1）。

Tab.1 Independent variable metrics extracted from the LiDAR points.

表1 从植被点云中获取的自变量指标

点云变量	变量描述
Hmean	点云高度的均值
Hrange	点云高度分布范围,计算公式为： $Hrange = H 100 - 2.0$
HSTD	点云高度标准差,计算公式： $HSTD = 1 n ∑ i = 1 n x i - x ̅$
Hqd	点云四分位高度偏差,计算公式： $Hqd = 0.5 75 th - 25 th$
Hvar	点云高度方差,计算公式： $Hvar = 1 n - 1 ∑ i = 1 n x i - x ̅ 2$
Hcov	点云高度的变化系数,计算公式： $Hcov = HSTD Hmean$
H100	点云高度最大值
H10、H20、···、H95	点云的百分位高度值,即所有点云10%、20%、25%、30%、40%、···、95%处对应的高度值
Mean_P25、···、Mean_P90	点云各百分位高度处对应点云高度的均值,如Mean_P25表示为所有大于H25的点云的平均值


	注：n为每个样地对应归一化植被点云的个数; $x i$ 为每个植被点对应的高度值; $x ̅$ 为点云高度均值; $75 th$ 为样地内点云高度的上四分位数; $25 th$ 为样地内点云高度的较小四分位数

3.2.4 随机森林模型构建

（1）RF算法原理

随机森林算法RF由Breiman^[26]提出,是一个树型分类器

{h (x, β k), k = 1, ⋯

的集合,其中

h (x, β k)

是用CART算法构建的没有剪枝的分类决策树;x是输入向量;

β k

是独立同分布的随机向量,决定了单棵树（基分类器）的生长过程。随机森林利用Bagging算法产生不同的训练样本集,即通过自助法boot-strap重采样技术从原始样本集中有放回的重复随机抽取K个新的自助样本集,并由此构建K棵决策树,且决策树在生长过程中不进行剪枝操作,然后组合多个决策树分类器进行结果预测。

由于作为因变量的林分平均高为数值变量,因而在进行林分平均高RF预测的建模过程中采用随机森林回归模型。随机森林算法用Bagging方法在形成新的训练集时,通常在一个boot-strap样本使用大约2/3的原始样本,而另外的接近1/3的样本则不会出现在训练集中,而成为袋外数据（Out-Of-Bag,OOB）。使用这些数据可用来估计模型的性能（OOB估计）,包括对单个变量重要性的估计以及模型的泛化误差。在回归模型中,主要由伪复相关系数（RSQ）和均方误差向量（MSE）来进行泛化误差的评估,其计算公式分别如式（3）–（4）所示。

RSQ = n - ∑ i = 1 n F x i - y i 2 ∑ i = 1 n y i - y ̅

（3）

MSE = ∑ i = 1 n F x i - y i 2 n

（4）

（2）模型构建与优化

本文在相关研究基础上,基于有限的样本数据,将野外采集的40个样地随机分成2部分^[9,17],即选取其中29个样地作为训练集进行参数优化和建立随机森林回归模型,11个样地作为测试训练集对模型进行检验。通过使用R软件中的randomForest数据包来进行随机森林回归模型的构建。模型构建过程涉及到2个关键的参数：ntree和mtry。其中,ntree为决策树的数量,即使用boot-strap重抽样的次数;mtry为随机特征的数量,即用来决定在随机森林中决策树的每次分支时所选择的变量个数,在回归模型中通常为输入变量数的1/3。

将从每个样地点云中获取的变量值以及对应的平均高实测数据作为原始数据集输入分析,便可得到模型误差与回归树数量的关系图。图2为决策树数量与数据集均方差和伪复相关系数的关系图,通过分析可得出在树数量为3000左右时,二者的变化趋于稳定。对ntree和mtry参数不同取值下的

R 2

和MSE的比较可知,当ntree为3000,mtry取值为5时能达到最好的预测效果。因此,为了让模型的整体误差率趋于稳定,并保证RF收敛,在提高算法效率的基础上,本文选取参数ntree为3000,mtry为5构建随机森林回归模型来对林分平均高进行估测。

View original graphic|Download|PPT slide

Fig.2 Relationship between the model error and the ntree number

图2 随机森林决策树数目与模型误差关系图

4 实验分析

4.1 树高估测结果

根据获取的随机森林回归模型,对样地的平均树高进行预测。为检验该模型预测的精度,分别对29个训练集和11个测试集进行平均高的估测,然后分析其估测值与实测平均高的相关关系。图3（a）所示为训练集预测林分平均树高与实测平均高的相关关系,其决定系数为0.928,相关系数为0.963。图3（b）所示为测试集预测林分平均高与实测平均高的相关关系,其决定系数为0.938,相关系数为0.968。二者差别不大,其在一定程度上也反映出所构建的随机森林回归模型在对林分平均树高进行估测时较为稳定,且精度较高。

View original graphic|Download|PPT slide

Fig.3 Comparison of forest height between the ground measured values and the model estimations

图3 模型估测平均树高与实测树高对比图

根据树高估测精度的计算公式如式（5）所示。

p = 1 n ∑ i = 1 n 1 - y i - y^i y i × 100 %

（5）

式中：

y i

为实际观测值;

y^i

为模型预测值;n为预测的样本数。

本文对11块检验样本的平均树高估测结果分别进行精度评价。如表2可知,模型估测的最高精度为99.29%,最低为83.80%。总体平均估测精度为93.17%,实测值与预测值没有显著差异,从11个样本的预测值与实测值的散点图也可看出,估测的平均树高与实测值吻合较好。

Tab.2 The inversion results of forest height compared with the ground measured results for the control plots

表2 检验样地的树高反演结果与实测对比

样地编号	实测平均树高/m	估测平均树高/m	树高差值/m	精度/(%)
30	9.37	8.51	-0.86	90.82
31	7.11	7.06	-0.05	99.29
32	15.54	15.16	-0.38	97.55
33	8.07	7.58	-0.49	93.92
34	14.94	15.57	0.63	95.78
35	6.26	7.09	0.83	86.74
36	10.74	11.77	1.03	90.41
37	9.57	11.12	1.55	83.80
38	8.73	8.28	-0.45	94.84
39	7.57	7.48	-0.09	98.81
40	14.52	13.50	-1.02	92.97

由表2可看出,第37个样本的估测精度较差,其原因可能是原样地区域树之间穿插交错,激光回波脉冲难以穿透到地面而导致后续归一化植被点高程值偏高。其次,从整体上来看,估测的平均树高与实测树高均偏低。这与目前小光斑激光点云的相关研究结果类似^[27-28]。

4.2 模型估测结果解释

随机森林算法相对于其他非参数估测方法的优势在于对结果的可解释性,即对变量重要性的测算。图4为根据节点不纯度计算得到的自变量参数的重要性。从图4中可得出,点云百分位高度处的均值,这组参数对模型的估测精度重要性最大,且主要以参数Mean_P90为代表。其次是点云百分位高度变量中的75%和70%高度变量。这与前人的研究结论吻合,即植被首次回波的80%~90%分位数或最大高度通常能很好地估测平均树高或优势树高^[10]。重要性最差的是点云的几个统计变量,如HSTD和Hmean等。

View original graphic|Download|PPT slide

Fig. 4 Influence evaluation of the independent variables for the random forest approach

图4 随机森林自变量影响力评价

此外,为更好地描述变量重要性对模型估测精度的影响,这里分别选取Mean_P90、H75和Hmean对林分样地数据进行预测分析,分析过程中仍然将样本数据分为29个样本的训练集和11个样本的测试集。首先通过训练集来获取相应的回归方程,然后对11个样本数据进行预测分析。

从图5可发现,Mean_P90、H75和Hmean与林分平均高实测值的相关性都很明显,其判定系数均达到90%以上,相关系数也达到了96%左右。通过将这3个变量与平均高实测值进行回归分析获取拟合方程,然后用拟合方程对11个验证样本进行预测分析。从图5的右边一列可看出,其相关系数均能达到93%以上,且随着变量参数重要性的增强,对应的估测值与实测值的相关关系也逐渐增强,其中以变量Mean_P90的相关关系最为明显。根据树高估测精度计算公式,得出三者的平均精度分别为94.48%、93.36%和90.92%。由此可得出,变量的重要性与模型的预测精度呈正相关关系,即变量重要性越强,其对模型估测精度的贡献越大。

View original graphic|Download|PPT slide

Fig.5 The influences of Mean_P90, H75 and Hmean variables on the estimation accuracy of the model

图5 Mean_P90、H75和Hmean变量对模型估测精度的影响

5 结论与讨论

本文以朱溪河流域内林分平均树高为研究对象,结合获取的较低密度机载LiDAR点云数据和野外实测的平均树高数据,将随机森林算法用于对林分平均树高的估测,并建立了相应的随机森林回归模型。主要结论如下：

（1）基于随机森林算法构建的林分平均树高估测模型对于平均树高的估测精度较高。模型对29个训练样本和11个测试样本的估测值与实测值的相关性较强,相关系数均达到96%以上。其中,对于验证样本的估测精度都高于86%,总体平均精度达到了93.17%。可以证明该算法对林分平均树高的估测是可行的。

（2）随机森林算法处理的是非线性多重符合的回归问题,构建的模型预测性能比较稳健,能很好地应用于多变量的数据分析中,且对结果具有可解释性。本文分析得出,变量的重要性越强,其对于模型估测精度的贡献越大。

（3）利用随机森林算法在对变量重要性分析时,点云百分位高度处的均值对于模型的估测精度重要性最大,主要以参数Mean_P90为代表。其次则是点云百分位高度变量,主要以70%~95%分位数为主。

（4）基于LiDAR点云数据获取的树高估测值整体偏低,这与相关研究结果一致。而将LiDAR数据与同步获取的航片数据结合起来获取相应的林分参数变量,则可为树高估测精度的提高提供一个思路。

The authors have declared that no competing interests exist.

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]

Lee A

, Lucas R

A LiDAR-derived canopy density model for tree stem and crown mapping in Australian forests[J]. Remote Sensing of Environment, 2007,111(4):493-518.

The retrieval of tree and forest structural attributes from Light Detection and Ranging (LiDAR) data has focused largely on utilising canopy height models, but these have proved only partially useful for mapping and attributing stems in complex, multi-layered forests. As a complementary approach, this paper presents a new index, termed the Height-Scaled Crown Openness Index (HSCOI), which provides a quantitative measure of the relative penetration of LiDAR pulses into the canopy. The HSCOI was developed from small footprint discrete return LiDAR data acquired over mixed species woodlands and open forests near Injune, Queensland, Australia, and allowed individual trees to be located (including those in the sub-canopy) and attributed with height using relationships ( r 2 =0.81, RMSE=1.85m, n =115; 4 outliers removed) established with field data. A threshold contour of the HSCOI surface that encompassed 6590% of LiDAR vegetation returns also facilitated mapping of forest areas, delineation of tree crowns and clusters, and estimation of canopy cover. At a stand level, tree density compared well with field measurements ( r 2 =0.82, RMSE=133stems ha 611 , n =30), with the most consistent results observed for stem densities ≤700stems ha 611 . By combining information extracted from both the HSCOI and the canopy height model, predominant stem height ( r 2 =0.91, RMSE=0.77m, n =30), crown cover ( r 2 =0.78, RMSE=9.25%, n =30), and Foliage & Branch Projective Cover (FBPC; r 2 =0.89, RMSE=5.49%, n =30) were estimated to levels sufficient for inventory of woodland and open forest structural types. When the approach was applied to forests in north east Victoria, stem density and crown cover were reliably estimated for forests with a structure similar to those observed in Queensland, but less so for forests of greater height and canopy closure.

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 研究区概况与数据获取

2.1 研究区概况

2.2 机载LiDAR数据获取

2.3 野外实测数据

Fig.1 Distribution of the study plots

3 研究方法

3.1 LiDAR估测树高基本原理

3.2 随机森林方法估测树高

Tab.1 Independent variable metrics extracted from the LiDAR points.

Fig.2 Relationship between the model error and the ntree number

4 实验分析

4.1 树高估测结果

Fig.3 Comparison of forest height between the ground measured values and the model estimations

Tab.2 The inversion results of forest height compared with the ground measured results for the control plots

4.2 模型估测结果解释

Fig. 4 Influence evaluation of the independent variables for the random forest approach

Fig.5 The influences of Mean_P90, H75 and Hmean variables on the estimation accuracy of the model

5 结论与讨论

References