Plot-level Forest Height Inversion Using Airborne LiDAR Data Based on the Random Forest

  • LU Lin , 1 ,
  • ZHOU Xiaocheng , 1, * ,
  • YU Zhizhong 1 ,
  • HAN Shang 2 ,
  • WANG Xiaoqin 1
  • 1. Key Laboratory of Spatial Data Mining & Information Sharing of Ministry of Education, National Engineering Research Center of Geospatial Information Technology, Fuzhou University, Fuzhou 350002, China
  • 2. Institute of Surveying and Mapping of Fujian Province, Fuzhou 350002, China
*Corresponding author: ZHOU Xiaocheng, E-mail:

Received date: 2015-10-26

  Request revised date: 2016-02-23

  Online published: 2016-08-10


It has been a hot study field to extract forest structure parameter using Airborne LiDAR. This paper evaluated the validity of random forests technique (RF) in the estimation of forest height, based on both of the physical and statistical features of airborne LiDAR data with the utilization of a new detection method to find the crown height. The study area was selected to be the Zhuxi river basin of Changting county in Fujian Province. At first, the ground point dataset, vegetation and elevation normalized vegetation point dataset of stands were generated by using the progressive TIN filter algorithm. Then, 24 independent variables, such as the percentile of heights and the statistical metrics of points, were derived from the normalized vegetation point dataset. Based on the 24 laser-derived features and the field data, the estimation model for the random forest regression of the mean canopy height in the study area was established. 29 of the samples were used to construct the prediction model, and the remaining 11 samples were used to verify the accuracy of the model. Finally, we compared the average value of the estimated tree heights in each plot with the measured values. The result showed that they were highly correlated with each other, the regression coefficient between them was 0.938, and the correlation coefficient was 0.968. The accuracies of all plots were higher than 87% and the total average accuracy was 93.17%. Moreover, the importance of each variable was calculated in this paper to evaluate the accuracy of model estimation closely. And a conclusion was drawn that the importance of the variable sand the model estimation accuracy were positive correlated, which implies that the greater the importance of the variables, the greater their impact on the accuracy of the model estimation. Among all variables, the Mean_P90 and the percentiles between 70%~95% were representatively having a great influence on the accuracy of model estimation. According to the results, it was concluded that the estimation model of forest height based on random forest technique (RF) with multi-factor was proved to be feasible and efficient.

LU Lin , ZHOU Xiaocheng , YU Zhizhong , HAN Shang , WANG Xiaoqin . Plot-level Forest Height Inversion Using Airborne LiDAR Data Based on the Random Forest[J]. Journal of Geo-information Science, 2016 , 18(8) : 1133 -1140 . DOI: 10.3724/SP.J.1047.2016.01133

1 引言

激光雷达(Light Detection And Ranging,LiDAR)是一种通过传感器所发射的激光来测定传感器与目标物之间距离的主动遥感技术。近年来,激光雷达技术在森林资源监测中得到广泛应用,包括获取常规的森林郁闭度、生物量以及蓄积量等特征,以及提取林分冠层结构参数,如树高、胸径和冠幅等[1]。而林分平均树高作为森林资源调查和管理监测中的重要测量因子,是反演估测其他森林参数的基础[2-3]
目前从激光点云数据中提取林分平均树高主要包括间接法和直接法2种。间接法一般根据提取的单木树高信息进行算术平均得到,包括从点云数据获取的林冠高度模型(CHM)进行树冠分割[4-5]和局部最大值查找法[6-7]等方法获取单木高度信息,其缺点是对于点云的密度有一定要求,而且地形坡度也会导致CHM中的树冠顶点发生位置偏移[8]。直接法则直接从林分样地提取点云参数进行回归,估测林分平均高,包括采用多元回归方法和非参数的回归方法。其中,Yu等[9]通过提取样方冠层高度参数、激光回波的垂直分布、树冠面积等参数进行回归分析估测样方平均树高。Tesfamichael等[10]分析了不同采样密度的LiDAR点云数据进行林分均高的估测,通过从点云数据中提取相关参数进行逐步回归分析,得出林分均高估测的均方根误差在不同密度水平下均达到1.0 m左右。庞勇、尤号田、焦义涛等[11-13]也分别用获取的不同LiDAR点云参数对平均树高进行估测,估测精度都在90%以上。
采用逐步多元线性回归方法,需假设限制样本必须服从正态分布和无共线性。为克服假设限制,非参数的估测方法被引入到LiDAR回归统计中,从而更加灵活地用于森林参数的估测[14]。目前,较常用的非参数估计方法包括K近邻法回归(K-nearest Neighbor Regression)、支持向量机方法SVM(Support Vector Machine)和随机森林(Random Forest)等[15-16]。相关研究表明,虽然前2种方法在林业参数估算中得到了较积极的结果,但对于多样本和多变量的预测问题则会表现出过拟合现象。而随机森林算法(RF)则因其具有较高的预测精度和学习过程快、且不易产生过拟合现象等特征而逐渐应用于森林参数的估算[17-20]。本文针对以往采用线性回归方法估测平均树高中所选用参数的不确定性和多变量问题的限制,以及目前相应非参数方法在估测平均树高中所产生的问题,将随机森林算法(RF)引入到林分平均树高估测中来,并以福建长汀朱溪河流域为试验区,探讨了随机森林算法(RF)在机载LiDAR数据林分平均树高估测中的适用性。

2 研究区概况与数据获取

2.1 研究区概况

朱溪河流域位于福建省长汀县河田镇,介于北纬25°33′~25°48′,东经116°18′~116°31′之间。流域整个地势自东北向西南倾斜,海拔270~680 m,地貌类型以低山、丘陵为主。气候属于中亚热带季风性湿润气候,全年平均气温19 ℃;年平均降水量为1700 nm,其中4-6月降水量约占全年的1/2,且降雨强度大;土壤类型主要为山地丘陵红壤,含沙量大,风化壳深厚。整个流域区域作为长汀县水土流失重点治理区,其以人工种植的马尾松(Pinus massoniana)为主要树种,且以次生马尾松为主逐渐向四周扩展为马尾松成熟林、针阔混交林等。

2.2 机载LiDAR数据获取

机载激光雷达数据由Leica ALS70-HP机载三维激光扫描系统获取,数据采集时间为2013年11月。飞行绝对航高为3500 m,发射的激光波长为1064 nm,最大激光脉冲频率为500 kHz,最大扫描频率为200 Hz,飞行过程中分别记录了激光脉冲的3次回波信号。整个飞行过程的旁向重叠度控制在25%左右,LiDAR平均扫描点距小于2 m,整个点云密度约为0.7个/m2。获取的LiDAR点云数据经过噪声和异常值的剔除等预处理。

2.3 野外实测数据

2015年8月在朱溪河流域共设置了40块圆形样地(图1),样地半径均为15 m。样地主要在参考流域内划分的林业小班基础上再结合实际可观测条件进行布置,且实测树种均为流域内的优势树种马尾松。在样地内,采用皮尺测量每株树木胸径部位(树干1.3 m高度处)的周长,再根据圆周长关系计算出平均树高胸径。采用森林罗盘仪测量每株树木的树高,采用皮尺测量树南北和东西方向的冠幅,利用差分GPS对每个样地中心点进行定位并记录其坐标(图1),图中坐标系统为CGCS2000。
Fig.1 Distribution of the study plots

图1 样地分布图

H = i = 1 n h i g i i = 1 n g i (1)
式中: h i 为第i株林木的树高; g i 为第i株林木的胸高断面积;n为林分株数。

3 研究方法

3.1 LiDAR估测树高基本原理

R = c t 2 (2)

3.2 随机森林方法估测树高

3.2.1 点云滤波
3.2.2 植被点高程归一化
通过对获取的样地区域地面点进行TIN插值即可得到DEM高程,将植被点的高程减去DEM高程值,便可消除地形起伏变化对数字表面模型(DSM)中地物高程及其形状的干扰,从而获取相对准确的地物形态和高度等信息。为了排除林下灌丛等低矮植被点对林分平均树高的影响,本文只保留了归一化高程值大于2 m的植被点用于后续分析[23]
3.2.3 植被点云特征提取
本文采用植被冠层的第一回波数据估算林分参数[24]。通过比较分析目前利用机载LIDAR数据估算林分参数所采用的点云变量情况[10,25],并根据不同的参数组合对比试验,最后选出24个估测树高的最优特征集,包括平均高度Hmean、高度分布范围Hrange、点云高度标准差HSTD、百分位高度(H10、H20、H25、 H95)、最大高度H100、和不同百分位高度点云高度均值(Mean_P25、Mean_P50、 Mean_P90)等(表1)。
Tab.1 Independent variable metrics extracted from the LiDAR points.

表1 从植被点云中获取的自变量指标

点云变量 变量描述
Hmean 点云高度的均值
Hrange 点云高度分布范围,计算公式为:Hrange=H100-2.0
HSTD 点云高度标准差,计算公式:HSTD=1ni=1nxi-x̅
Hqd 点云四分位高度偏差,计算公式:Hqd=0.575th-25th
Hvar 点云高度方差,计算公式:Hvar=1n-1i=1nxi-x̅2
Hcov 点云高度的变化系数,计算公式:Hcov=HSTDHmean
H100 点云高度最大值
H10、H20、···、H95 点云的百分位高度值,即所有点云10%、20%、25%、30%、40%、···、95%处对应的高度值
Mean_P25、···、Mean_P90 点云各百分位高度处对应点云高度的均值,如Mean_P25表示为所有大于H25的点云的平均值


3.2.4 随机森林模型构建
随机森林算法RF由Breiman[26]提出,是一个树型分类器 { h ( x , β k ) , k = 1 , 的集合,其中 h ( x , β k ) 是用CART算法构建的没有剪枝的分类决策树;x是输入向量; β k 是独立同分布的随机向量,决定了单棵树(基分类器)的生长过程。随机森林利用Bagging算法产生不同的训练样本集,即通过自助法boot-strap重采样技术从原始样本集中有放回的重复随机抽取K个新的自助样本集,并由此构建K棵决策树,且决策树在生长过程中不进行剪枝操作,然后组合多个决策树分类器进行结果预测。
RSQ = n - i = 1 n F x i - y i 2 i = 1 n y i - y ̅ (3)
MSE = i = 1 n F x i - y i 2 n (4)
将从每个样地点云中获取的变量值以及对应的平均高实测数据作为原始数据集输入分析,便可得到模型误差与回归树数量的关系图。图2为决策树数量与数据集均方差和伪复相关系数的关系图,通过分析可得出在树数量为3000左右时,二者的变化趋于稳定。对ntree和mtry参数不同取值下的 R 2 MSE的比较可知,当ntree为3000,mtry取值为5时能达到最好的预测效果。因此,为了让模型的整体误差率趋于稳定,并保证RF收敛,在提高算法效率的基础上,本文选取参数ntree为3000,mtry为5构建随机森林回归模型来对林分平均高进行估测。
Fig.2 Relationship between the model error and the ntree number

图2 随机森林决策树数目与模型误差关系图

4 实验分析

4.1 树高估测结果

Fig.3 Comparison of forest height between the ground measured values and the model estimations

图3 模型估测平均树高与实测树高对比图

p = 1 n i = 1 n 1 - y i - y ^ i y i × 100 % (5)
式中: y i 为实际观测值; y ^ i 为模型预测值;n为预测的样本数。
Tab.2 The inversion results of forest height compared with the ground measured results for the control plots

表2 检验样地的树高反演结果与实测对比

样地编号 实测平均树高/m 估测平均树高/m 树高差值/m 精度/(%)
30 9.37 8.51 -0.86 90.82
31 7.11 7.06 -0.05 99.29
32 15.54 15.16 -0.38 97.55
33 8.07 7.58 -0.49 93.92
34 14.94 15.57 0.63 95.78
35 6.26 7.09 0.83 86.74
36 10.74 11.77 1.03 90.41
37 9.57 11.12 1.55 83.80
38 8.73 8.28 -0.45 94.84
39 7.57 7.48 -0.09 98.81
40 14.52 13.50 -1.02 92.97

4.2 模型估测结果解释

Fig. 4 Influence evaluation of the independent variables for the random forest approach

图4 随机森林自变量影响力评价

Fig.5 The influences of Mean_P90, H75 and Hmean variables on the estimation accuracy of the model

图5 Mean_P90H75Hmean变量对模型估测精度的影响

5 结论与讨论


