The Classification of Urban Greening Tree Species Based on Feature Selection of Random Forest

  • WEN Xiaole , 1, 2, 3 ,
  • ZHONG Ao 1, 2 ,
  • HU Xiujuan , 1, 2, 3, *
  • 1. College of Environment and Resources,Fuzhou University, Fuzhou 350116, China
  • 2. Institute of remote Sensing Information Engineering, Fuzhou University, Fuzhou 350116, China
  • 3. Fujian Provincial Key Laboratory of Remote Sensing of Soil Erosion and Disaster Protection, Fuzhou University, Fuzhou 350116, China
*Corresponding author: HU Xiujuan, E-mail:

Received date: 2018-07-03

  Online published: 2018-12-20


Since Urban forests played important roles in improving air, water and land quality, absorbing and mitigating carbon dioxide and many pollutants, mitigating urban heat island and reducing storm water runoff, its monitoring is a major issue for urban planners. It is of great significance to obtain the tree species timely and precisely in urban planning and green space management. At present, urban forest tree species mapping has benefitted from advances in remote sensing techniques. Using an object-oriented method combing spectral, textural, indicial and geometric features from high-resolution WorldView-2 imagery, this paper aimed to carry out the classification of seven main tree species in Fuzhou university, including Banyan (Ficus microcarpa), Mango(Mangifera indica L.), Camphor tree (Cinnamomum camphora), Bishop wood (Bischofia polycarpa), Chinese orchid tree(Bauhinia purpurea L.), Weeping fig (Ficus benjamina L.), and Kapok tree (Bombax malabaricum DC.). A random forest method was employed to determine the feature selection in this study. When eliminating 20 percent of the total features, the in situ validation results showed that the overall accuracy reached a highest value of 74.95% with Kappa coefficient of 0.67 when using 34 features for classification, which including 15 spectral features, 6 textural features, 8 indicial features and 5 geometric features, and the feature of mean spectral was the most significant, however, the standard deviation of each band is less important. The results also revealed that the feature selection of random forest could reduce or avoid the data redundancy and Hughes phenomenon, and thus could improve the classification accuracy of same type tree species. Moreover, the four additional bands of WorldView-2 imagery, especially the yellow and red edge band, and their composite indexes showed a higher importance in classification, which also indicates that these bands have great application prospects in vegetation remote sensing, especially in tree species classification.

Cite this article

WEN Xiaole , ZHONG Ao , HU Xiujuan . The Classification of Urban Greening Tree Species Based on Feature Selection of Random Forest[J]. Journal of Geo-information Science, 2018 , 20(12) : 1777 -1786 . DOI: 10.12082/dqxxkx.2018.180310

1 引言

目前获取准确的树种信息有一定的难度,现有的树种调查方法大致分为实地调查和遥感解译 2种。基于实地调查的树种分类只适用于较小的区域范围,需要投入大量的人力物力且耗时巨大[5]。近年来,遥感解译识别树种信息正成为研究热点,遥感数据源多为多光谱、高光谱、LiDAR以及SAR等。其中,有部分学者利用雷达以及高光谱数据进行树种分类的研究[6,7,8],但成本高昂以及应用的地域局限性,限制了其应用的前景。多光谱数据(如IKONOS及Sentinel-2A等)都在树种分类研究中得到了一定的应用[9,10],但由于IKONOS波段数量较少、Sentinel-2A空间分辨率较低等原因,在城市树种分类的研究中也有一定的局限性。而WorldView-2数据在保持高空间分辨率的同时加入了4个新增波段,在满足空间分辨率需求的同时也满足光谱分辨率的需求,因此本文选用该影像进行研究。
现有的树种分类研究多针对农田以及森林地区,而针对城市地区的树种分类研究相对较少。由于景观美化的需求以及植物配置多样化的原因,城市绿化是复杂多变的,相对较高的局部空间变化为遥感自动分类研究带来了一定的困难[11]。仅依靠光谱曲线无法区分不同的绿化树种,而面向对象的方法可以将影像分割成均匀区域并且通过一系列特征如光谱、纹理和几何等来提取该区域的信息[12],从而解决这个问题。如Immitzer等[13]对奥地利布尔根兰州的10种乔木树种进行分类,使用基于像元的方法分类总精度为69%,当使用面向对象的方法时,精度得到提高。机器学习算法在进行大量且复杂的遥感数据分析时表现出卓越的性能,如Pu等[14]利用LDA和CART方法对美国坦帕市的7种乔木树种进行分类,总精度分别为65.61%和67.22%,表明非参数机器学习算法在树种分类上的性能要优于参数机器学习算法。随机森林(Random Forest,RF)是一种基于决策树分类的非参数机器学习算法,只需较少的训练数据即可获得较高的分类精度,已有部分学者将其应用于城市树种分类的研究当中,并取得了较好的分类结果,如Naidoo等[15]结合LiDAR与高光谱数据对克鲁格国家公园8种热带稀树草原树种进行研究,得出RF是在异质性较高的环境中,对树种分类最适用的方法;李丹等[16]对首都师范大学和北京师范大学周边地区分别进行优势乔木树种分类,利用RF算法分类精度分别为75.8%和65.3%。由于大量的特征数据集不但会造成数据的冗余,还容易产生休斯效应[17],因此利用RF中的特征重要性分析,对相关特征进行筛选,并分析得出适合的特征以提高分类精度。

2 研究区概况

本文以福建省福州市福州大学旗山校区为研究区(图1),其地理坐标为26°03′~26°05′ N,119°11′~119°13′ E,属于典型的亚热带季风气候,年平均气温为20~25 ℃。选取校区内人工绿化较为完善的地块(面积约0.6 km2)作为实验区(图1中黑色多边形区域)进行主要绿化乔木的判别与分类。
Fig. 1 A location map of the study area in Fuzhou

图1 研究区在福州市的地理位置

3 数据源及技术方法

3.1 遥感数据源

本文选用的WorldView-2卫星影像获取时间为2017年9月25日10时58分,影像无云且质量好,平均侧摆角为11.7°。WorldView-2卫星由DigitalGlobe公司发射,是具有8个多光谱波段的商用高分辨率卫星(传感器),幅宽为16.4 km,重访周期平均为1.1 d。详细的光谱和空间信息见表1
Tab. 1 The spectral and spatial information of WorldView-2 imagery

表1 WorldView-2影像的光谱和空间信息

波段名 波长/nm 空间分辨率/m
海岸波段 400~450 2.00
蓝光波段 450~510 2.00
绿光波段 510~580 2.00
黄光波段 585~625 2.00
红光波段 630~690 2.00
红边波段 705~745 2.00
近红外1波段 770~895 2.00
近红外2波段 860~1040 2.00
全色波段 450~800 0.50

3.2 遥感数据预处理

对影像进行辐射定标以及FLAASH大气校正等,将其亮度值(DN)转换为传感器处反射率(At-sensor Reflectance),用来消除大气引起的影响。影像融合可以使丰富的纹理和色彩信息相结合,充分利用高分辨率遥感影像的信息内容。本次使用Gram-Schmidt Spectral Sharpening方法对影像进行融合,该方法不受波段数量的限制并且可以较好地保持原影像的光谱和纹理信息[18]

3.3 技术方法

3.3.1 样本数据选取
样本数据的获取均通过实地调查进行,沿着研究区主要道路进行绿化树种的记录,排除数量较少以及被其他冠层遮挡的树种最终将研究树种分为7类,分别为榕树(Ficus microcarpa)、杧果(Mangifera indica L.)、香樟(Cinnamomum camphora)、重阳木(Bischofia polycarpa)、羊蹄甲(Bauhinia purpurea L.)、垂叶榕(Ficus benjamina L.)以及木棉(Bombax malabaricum DC.),其中榕树包括黄葛树(Ficus virens Aiton)和高山榕(Ficus altissima)。各树种训练样本如图2所示。
Fig. 2 Locations of training data for different tree species

图2 各树种的训练样本位置

3.3.2 影像分割
NSAVIi=(SAVIi-SAVImin)/(SAVImax-SAVImin) (1)
3.3.3 随机森林
Leo Breiman于2001年提出了随机森林算法[21],是一种基于分类和回归树的多决策树分类器。每一棵决策树执行Bootstrap抽样(一种有放回的抽样算法)之后基于样本的袋外数据误差OOB(out-of-bag)error来估计计算误差。RF不考虑每个节点上的所有变量来确定最佳的分割阈值,而是使用原始特征集的随机子集,因此产生了大量的非相关决策树。RF具有不需要变量遵循特定的统计分布、训练样本少、对过度拟合不太敏感以及可以对特征重要性进行排序等优点,适用于城市树种分类的研究。本次研究中决策树的数量设为500,每个节点的特征数使用默认的数值即特征总数的平方根。
3.3.4 特征提取与选择
Tab. 2 Image-object (IO) features extracted from WorldView-2 imagery

表2 从WorldView-2影像对象中提取的特征

特征类型 特征名称 描述或公式
光谱特征 平均值 1-8波段的光谱平均值
标准差 1-8波段的光谱标准差
指数特征 NDI61 ρRed-Edge-ρCoastalρRed-Edge+ρCoastal
NDI84 ρNIR2-ρYellowρNIR2+ρYellow
NDI86 ρNIR2-ρRed-EdgeρNIR2+ρRed-Edge
NDI65 ρRed-Edge-ρRedρRed-Edge+ρRed
NDI74 ρNIR1-ρYellowρNIR1+ρYellow
NDI85 ρNIR2-ρRedρNIR2+ρRed
NDVI ρNIR1-ρRedρNIR1+ρRed
SAVI (ρNIR1-ρRed)(1+L)ρNIR1+ρRed+L,其中L=0.5
纹理特征 GLCM Mean i,j=0N-1Pi,jN2
GLCM i,j=0N-1Pi,j(i,j-μi,j)
GLCM Homogeneity i,j=0N-1Pi,j1+(i-j)2
GLCM Contrast i,j=0N-1Pi,j(i-j)2
GLCM Dissimilarity i,j=0N-1Pi,j|i-j|
GLCM Entropy i,j=0N-1Pi,j(-lnPi,j)
GLCM Angular second moment i,j=0N-1(Pi,j)(i,μi)(j-μj)(σi2)(σj2)
GLCM Correlation i,j=0N-1(Pi,j)2
GLDV Entropy k=0N-1Vk(-lnVk)
GLDV Mean k=0N-1k(Vk)
GLDV Contrast k=0N-1Vkk2
GLDV Angular second moment k=0N-1Vk2
几何特征 Compactness P 4×π×面积周长
Compactness 对象的紧致程度
Shape index 对象的光滑程度
Roundness 对象与椭圆的相似程度
Border index 对象的不规则程度
Number of edges 对象边的数量

注:其中i是行号;j是列号;Pij是单元格i,j中的归一化值;N是行数或者列数;μi, j是GLCM的平均值;σi, j是GLCM的标准差;Vk是单元格i,j矩阵中的值,k=1, 2, …, n

(2)纹理特征使用Haralick等[22]于1973年提出的灰度共生矩阵来描述。灰度共生矩阵(Gray-Level Co-occurrence Matrix,GLCM)提供了影像中像元与整体影像及像元与像元之间的空间关系,用2个位置像元的联合条件概率密度来表示纹理。灰度差异矢量(Gray-Level Difference Vector,GLDV)是GLCM对角线的总和,它计算相邻像元间的绝对差异。共产生12个纹理特征。如果对8个波段分别计算则产生96个特征,计算量巨大并产生信息冗余。主成份分析(PCA)可以将多个变量通过多维数据压缩技术选出少数重要变量,将多维的信息集中到少数的几个特征分量上,一般主要信息集中在前2个分量中[23]。因此,通过PCA对影像进行分析,选用占据了90.46%特征贡献率的第一主成分影像来提取纹理特征,共8个GLCM特征和4个GLDV特征。
(3)指数特征是指利用指数对影像进行特征提取。比值型指数通常选取反射差异较大的两个波段,反射强的波段置于分子,通过比值运算强化差异。利用WorldView-2影像新增的4个波段,将树木反射率差异较大的波段选出构建比值型指数并进行归一化处理。因此,本文创建了6个比值型指数(Normalized Difference Index,NDI)进行研究,分别用NDI61NDI65NDI84NDI74NDI85以及NDI86表示,其中NDImnm代表反射率较高波段,n代表反射率较低波段。此外,本文还选用SAVI以及归一化差值植被指数(NDVI)进行提取,共得到8个指数特征。

4 结果与分析

4.1 影像分割结果

Fig. 3 Segmentation results

图3 影像分割的结果

4.2 特征选择结果

特征数量与分类总精度的关系如图4所示,为了验证特征选择的有效性,本文采用两种非参数机器学习算法,RF与支持向量机(Support Vector Machine,SVM)同时进行实验。结果表明,并非特征数量越多精度越高,无论是RF还是SVM,特征选择都有助于分类精度的提高,且RF在本次研究中的表现总是优于SVM。
Fig. 4 Relationship between the number of features and overall accuracy

图4 特征数量与分类总精度的关系

对特征选择中淘汰的特征以及精度最高的一次分类中的特征重要性的排名(图5)进行分析可知,黄光波段的光谱平均值特征在特征重要性中排名第一,这是由于研究区内存在叶色黄绿的羊蹄甲和香樟,2类共占研究区乔木树种的37.71%,叶绿素含量降低和类胡萝卜素的增多会导致叶色发黄,在光谱变化上表现为黄光附近反射率升高[24]。因此,树种在黄光波段的可分性增强;几乎所有的指数特征和光谱平均值特征都在前50%,说明这2个特征对城市绿化乔木树种分类有着重要的作用。由WorldView-2新增的4个波段构成的指数特征的重要性也大部分位于前40%,并且优于SAVI,这表明海岸、黄、红边和近红外2波段对树种分类的研究具有帮助。GLCM Angular second moment、Number of edges分别位于第2、3名,这表明纹理和几何特征对树种的分类研究也有着一定的帮助。各波段的标准差的重要性较低,排名基本都在后20%。
Fig. 5 Importance Ranking of Seleted Features

图5 选取的特征重要性排序

被淘汰的8个特征分别为4个GLDV、1个标准差特征(Standard Deviation Yellow)、1个几何特征(Border Index)以及2个GLCM特征(GLCM Dissimilarity和GLCM Correlation),其中,GLDV的重要性最低,在第一次的选择中就全部被淘汰。对于GLCM和几何特征而言,特征内重要性差异较大。例如,GLCM Angular second moment与GLCM Entropy是排名前两位的GLCM特征,二者反映了图像中纹理的均匀或复杂程度,即图像灰度分布的均匀性,若灰度共生矩阵内所有值越相近,则越均匀,而淘汰的GLCM Dissimilarity与GLCM Correlation则表示纹理的差异性或一致性,当灰度共生矩阵行或列元素值之间越相近,则一致性越高。这表明对于城市绿化乔木树种分类的纹理特征选取,应选用与均匀性相关的特征。被淘汰的几何特征为Border index,体现了分割对象的不规则程度,该值越大,对象多边形越扭曲,即与真实树冠的形状相差越大。

4.3 分类的结果

首先利用NIR1波段对水体和阴影进行掩膜,其次通过SAVI对植被进行提取,由于草地和灌木在影像分割中的面积都相对较大,因此内部像元数量较多,利用对象内像元数量(Number of pixels)对其进行掩膜,最终得到绿化乔木占总面积的32.23%,其中各树种占其面积比例见表3
Tab. 3 The statistics of areas and proportion of tree species

表3 树种分类的面积和比例统计

树种 面积/m2 百分比/%
香樟 57 047.10 30.00
木棉 6693.53 3.52
重阳木 3232.67 1.70
垂叶榕 15 649.92 8.23
杧果 59 462.09 31.27
榕树 33 410.58 17.57
羊蹄甲 14 661.10 7.71
Fig. 6 The false color composite image and mapping results of the study area

图6 遥感影像与分类结果

Tab. 4 Accuracy assessment of results

表4 精度验证

验证数据 行合计 使用者精度/%
木棉 榕树 羊蹄甲 香樟 杧果 重阳木 垂叶榕
木棉 16 0 0 1 0 0 0 17 94.11
榕树 0 53 0 4 2 2 0 61 86.88
羊蹄甲 2 0 38 4 7 0 1 52 73.07
香樟 0 3 5 49 19 3 5 84 58.33
杧果 0 6 6 17 176 3 18 226 77.87
重阳木 0 1 0 0 5 18 0 24 75.00
垂叶榕 0 1 1 4 8 0 33 47 70.21
列合计 18 64 50 79 217 26 57
生产者精度/% 88.89 82.81 76.00 62.02 81.11 69.23 57.89
总精度/% 74.95
Kappa系数 0.67

5 结论

分类结果表明:① 利用RF算法进行特征选择明显有助于提高分类精度,当使用34个特征对城市绿化乔木树种进行分类时,精度达到最高的74.95%,Kappa系数为0.67;② 特征重要性分析表明,黄光波段的光谱平均值、GLCM Angular second moment、Number of edges为重要性排名前三的特征,各波段的标准差的光谱特征排名均在后20%,GLDV提取的纹理特征重要性最低,全部被淘汰;③ WorldView-2影像的黄光、红边波段以及新增4个波段所构成的比值型指数重要性排名靠前,在植被遥感领域,特别是树种分类的研究中极具应用前景;④ 基于GLCM的纹理特征和几何特征存在较大的内部差异,反映纹理均匀或复杂程度的特征重要性较高,但反映一致或差异性的特征重要性却很低,对于城市绿化乔木树种的研究,应选用表征均匀或复杂程度的特征。然而,各种提取特征对树种分类精度的影响机理,还有待于进一步深入探索。

The authors have declared that no competing interests exist.

