Remote Sensing Estimation of Grassland Aboveground Biomass based on Random Forest

  • XING Xiaoyu , 1 ,
  • YANG Xiuchun , 1, 2, * ,
  • XU Bin 1, 2 ,
  • JIN Yunxiang 1 ,
  • GUO Jian 3, 4 ,
  • CHEN Ang 2 ,
  • YANG Dong 1 ,
  • WANG Ping 2 ,
  • ZHU Libo 5
Expand
  • 1. Key Laboratory of Agri-informatics, Ministry of Agriculture/Institute of Agricultural Resources and Regional Planning, Chinese Academy of Agricultural Sciences, Beijing 100081, China
  • 2. Research Center of Grassland Ecology and Resources, School of Grassland Science, Beijing Forestry University, Beijing 100083, China
  • 3. State Key Laboratory of Remote Sensing Science, Faculty of Geographical Science, Beijing Normal University, Beijing 100875, China
  • 4. Beijing Key Laboratory for Remote Sensing of Environment and Digital Cities, Faculty of Geographical Science, Beijing Normal University, Beijing 100875, China
  • 5. Hulunbeier Institute of animal husbandry, Inner Mongolia, Hailar 021008, China
* YANG Xiuchun, E-mail:

Received date: 2020-10-15

  Request revised date: 2021-01-21

  Online published: 2021-09-25

Supported by

National Key Research and Development Program of China(2017YFC0506504)

National Natural Science Foundation of China(41571105)

Copyright

Copyright reserved © 2021

Abstract

Grassland is the largest terrestrial ecosystem in China. Biomass is a key indicator of ecosystem quality and ecosystem function. It is of great significance for us to accurately estimate the grassland biomass for the effective and rational use of grassland resources, the restoration of damaged grassland ecosystem, and the high-quality development of animal husbandry. In this study, we took Xilinguole league of Inner Mongolia autonomous region as the research area. We used GF-1 satellite images, ground sample data of 216 sites, and Random Forest (RF) algorithm to estimate Grassland Aboveground Biomass (AGB) and explore the applicability of the algorithm in grassland biomass estimation. Moreover, in order to evaluate the applicability of random forest algorithm in aboveground biomass estimation, we carried out a series of analysis when using the algorithm, such as k-fold cross validation, multicollinearity diagnosis, partial effect and so on. Based this, we completed the construction of the random forest model and compared the modeling results with those from other models. Then, we selected the best model to realize the inversion estimation of grassland aboveground biomass in Xilinguole league. The main conclusions are as follows: (1) In the process of biomass model construction in Xilinguole league, random forest algorithm can avoid multicollinearity problem if there are multiple input variables; (2) The random forest model has better applicability than other models in the estimation of grassland biomass. The accuracy of the random forest model is 85% while the RMSE is 202.13 kg/hm2; (3) Using the random forest model, we estimated the grassland aboveground biomass of the whole study area in 2017. The results indicated that the spatial distribution had a decreasing trend from east to west. When grassland types are concerned, the grassland aboveground biomass yield of mountain meadow was the highest among all grassland types while the total yield of temperate grassland was the highest among all grassland types. The results are not only beneficial to the monitoring and evaluation of grassland ecosystem, but also have a certain reference value for grassland macro management.

Cite this article

XING Xiaoyu , YANG Xiuchun , XU Bin , JIN Yunxiang , GUO Jian , CHEN Ang , YANG Dong , WANG Ping , ZHU Libo . Remote Sensing Estimation of Grassland Aboveground Biomass based on Random Forest[J]. Journal of Geo-information Science, 2021 , 23(7) : 1312 -1324 . DOI: 10.12082/dqxxkx.2021.200605

1 引言

草原是世界上分布最广泛的植被类型之一,天然草原生产力占陆地植被生产力总量的20%以上[1],同时,草原也是我国面积最大的陆地生态系统,对畜牧业发展、荒漠化防治、生物多样性保护和生态系统服务有着重要的作用和价值[2,3]。草原植被生物量不仅可以反映生态系统碳库的变化,还可以直接反映草原的自然资源状况[4]。因此,草原植被生物量的准确估算是草原资源合理利用的基础,对草原的可持续发展和草原管理有着重要的意义[5]
目前,利用遥感影像估算生物量是常用的方法之一,该方法具有时效强、成本低、大面积估算、连续观测的优势。草原生物量遥感的估算可以通过构建统计模型实现,基于遥感影像计算出植被指数,再结合实地采集的样方数据,建立回归模型[6,7,8,9],经过精度验证后选用精度最好的模型进行反演和应用[10,11]。统计模型方法不仅应用于青藏高原高寒草甸区、天山北坡等[12,13]小区域的生物量估算,在估算中国、蒙古国等[14,15]范围较大的区域时也应用较为普遍。统计模型方法简单,对于空间异质性小的区域能获得较高的精度,但当区域扩展或在样本点发生变化时,模型就需要重新构建[16],表明统计模型方法的外推性具有一定的限制。
人工智能技术的发展给予机器可以处理数据的能力即机器学习,相比于传统的统计模型方法,其算法本身更具有弹性和包容性[17],可以包含相关性强的变量,对于预测变量与响应变量之间的关系及其分布无严格要求,变量类型和数量也不受限制。机器学习算法目前在估算生物量方面有一定的应用研究,包括人工神经网络模型与传统线性回归模型对比、季节性草原生物量估算、结合Google Earth Engine进行零散草原生物量估算等[18,19,20,21]。随机森林是采用了集成算法的机器学习方法,优势在于数据选择和特征选择的随机性,理论上较大多数单个算法具有更好的效果,已有研究使用随机森林模型分别对青藏高原草原和黄土高原草原进行了AGB的估算,结果表明随机森林算法在草原生物量估算方面表现良好[22,23]。然而,当草地类型多样且类间生物量差距较大时,随机森林能否发挥其随机性优势实现模型构建并适用于草原生物量遥感估算,仍有待探究。
本研究以草原类型丰富多样的内蒙古锡林郭勒盟为实验区,利用2017年地面调查数据,结合同期高分一号(GF-1)遥感影像数据,探讨随机森林算法在草原生物量估算方面的适用性,同时与传统一元曲线回归(Univariate Curve Regression,UCR)、多元线性回归(Multiple Linear Regression,MLR)模型、支持向量机模型进行比较,并应用最优模型对研究区草原生物量空间分布进行分析。

2 研究方法、实验区概况及数据来源

2.1 研究方法

本研究基于GF-1影像与地面样方数据,以包含9种草地类型的内蒙古锡林郭勒盟为研究区,主要分析了随机森林算法在草原生物量估算方面的应用,具体流程可见图1。同时,为了对比随机森林模型的建模效果,与其他3种模型进行了对比。
图1 随机森林模型构建研究方法流程

Fig. 1 Flow chart of research methods

2.1.1 随机森林模型构建方法
随机森林通过自助采样法,在给定的m个样本数据集中,经过m次随机采样,可以得到含m个训练样本的采样集,然后基于每个采样集进行训练构造成决策树,而在决策树的结点处,会先从该结点的属性集合中随机选择一个包含k个属性的子集,然后再从这个子集中选择一个最优属性进行划分[24]。当随机森林构建完成,测试样本会进入每一棵决策树进行类型输出或回归输出;若是分类问题,以投票的方式输出最终类别,若是回归问题,每一棵决策树输出的均值作为最终结果。
随机森林算法构建的所有过程都在R Studio软件中完成,所用到的R包主要有以下3个部分。 ① plyr包。使用其实现K-折交叉验证,K-折交叉验证将样本集随机分为K份,其中K-1份作为训练数据集,剩余1份作为验证数据集,依次循环,为满足75%的训练数据和25%的验证数据,将K设为4。 ② Random Forest包。使用其分析偏效应和构建随机森林模型。模型构建时,mtryntree是2个关键参数,其中,mtry是指每次拆分时随机抽样作为候选变量的变量数,在回归分析中通常为输入变量数的1/3。ntree是随机森林所包含的决策树数目,通过K-折交叉验证测试出最优输入数目。解释方差百分比可以反映随机森林回归的拟合优度,值越高,拟合效果越好。③ ggplot2包。使用其完成画图。
2.1.2 其它模型构建方法
支持向量机模型是一种非参数模型,在回归建模时需要先确定核函数以及惩罚系数(Cost)、核函数内部参数(Gamma),使用网格搜索法进行参数寻优,模型构建在R Studio软件中使用e1071包实现。
一元曲线回归模型和多元线性回归模型在SPSS软件中进行回归分析和检验。
2.1.3 精度评价方法
模型的优劣主要通过模型精度来评价,评价指标包括决定系数(R2)、均方根误差(RMSE)和平均相对误差(REE),3个指标可评价估算生物量与实测生物量相关性、误差以及模型精度。其计算公式分别为:
R 2 = 1 - i = 1 n y i - f i 2 i = 1 n y i - y ¯ 2
RMSE = i = 1 n ( y i - f i ) 2 n
REE = 1 n i = 1 n ( y i - f i ) 2 y ¯
式中: y i 实测生物量; f i 为估算生物量; y ¯ 为样本平均值;n为样本个数。

2.2 实验区概况

锡林郭勒盟位于中国的内蒙古自治区中部(图2),地处42°32′N—46°41′N,111°59′E—120°00′E,总面积约20万 km2,其中,草原面积约18万 km2,占总面积的89.85%;天然草原类型多样,包括温性草甸草原、温性草原、温性荒漠草原、低地草甸等多个类别。锡林郭勒盟属于中温带干旱半干旱大陆性季风气候,寒冷、风沙大,全年盛行偏西风,年降雨量自东向西逐渐递减,大部分地区年降雨量在200~350 mm之间,雨量集中于6—8月。
图2 锡林郭勒盟位置、草地类型及样本点分布

Fig. 2 Location, Grassland Type and distribution of sample sites in Xilinguole

2.3 数据来源及处理

2.3.1 地面样方数据及处理
本研究使用的草原样方数据来源于原农业部草原监理中心,采样时间为2017年7—8月且天气晴朗,样方采集严格按照《草原资源和生态监测技术规程》(NY/T 1233-2006)[25]执行。2017年在锡林郭勒盟的地面样方共960个,根据规程要求,一个样地通常采集3个样方,因此本研究使用3个样方的平均值作为一个样本点。为了更好地消除地面样方采集过程中的人为影响,对地面样方数据进了严格质量检验和标准化处理,将由于坐标记录有问题导致样本点超出研究区范围、样本点生物量数据与实际严重不符等表现异常的数据进行剔除[26]。最终获得样本点共216个,随机选择其中75%用于建模训练,25%用于验证(图2)。
2.3.2 遥感数据来源及处理
高分一号卫星是我国于2013年成功发射的高分辨率对地观测首发星,通过中国资源卫星中心( http://218.247.138.119:7777/DSSPlatform/index.html)获取,可以满足高精度、宽范围的空间观测服务。选用GF-1 WFV的16m分辨率影像[27],时间为2017年的7—8月,云量10%以下,共13景影像(表1),并对影像进行辐射定标、大气校正、正射校正、图像镶嵌等预处理。
表1 GF-1影像数据信息

Tab. 1 GF-1 data information

采集时间 云量覆盖/% 传感器标识 景序列号 采集时间 云量覆盖/% 传感器标识 景序列号
2017-07-17 0 WFV1 3893398 2017-07-17 0 WFV3 3892267
2017-07-17 0 WFV1 3893464 2017-07-17 0 WFV4 3892289
2017-07-17 0 WFV2 3893487 2017-08-05 0 WFV1 3961704
2017-07-17 0 WFV2 3893486 2017-08-30 0 WFV2 4048027
2017-07-17 0 WFV2 3893485 2017-08-31 0 WFV3 4053670
2017-07-17 0 WFV3 3892265 2017-08-31 0 WFV4 4053690
2017-07-17 0 WFV3 3892266
高分一号影像包含红、绿、蓝和近红外共4个波段,结合遥感影像的波段特点,计算得到5种植被指数(表2),包括可以反映地表植被状况以及其空间分布密度的NDVI(Normalized Difference Vegetation Index)、能够减少残留气溶胶污染且不易饱和的EVI(Enhanced Vegetation Index)、在植被密集的区域对绿色植物反映更敏感的RVI(Ratio Vegetation Index)、修正了NDVI对土壤背景敏感性的SAVI(Soil Adjusted Vegetation Index)和OSAVI(Optimized Soil Adjusted Vegetation Index)[28,29,30,31,32,33,34]。根据地面样本点的采集时间和地理坐标信息,以样方点为中心建立16 m的缓冲区,提取每个样方点周围2~3个像元各植被指数的平均值,并构建植被指数与样本点AGB时空匹配的数据库。
表2 植被指数计算方法

Tab. 2 Calculation formula of vegetation index

植被指数 计算方法 公式编号 优缺点
NDVI NDVI= ρ nir - ρ r ρ nir + ρ r (4) 反映地表植被状况以及植被空间分布密度,但易饱和
RVI RVI= ρ nir ρ r (5) 在植被密集的区域,比NDVI的灵敏度更高
EVI EVI= 2.5 ( ρ nir - ρ r ) 1 + ρ nir + 6 ρ r - 7.5 ρ b (6) 能够减少残留气溶胶污染、不易饱和
SAVI SAVI= ( ρ nir - ρ r ) ( 1 + L ) ρ nir + ρ r + L (7) 修正了NDVI对土壤背景敏感性
OSAVI OSAVI= ρ nir - ρ r ρ nir + ρ r + 0.16 (8) 修正了NDVI对土壤背景敏感性,把参数值进行了固定

注: ρ nir 为近红外波段反射率; ρ r 为红光波段反射率; ρ b 为蓝光波段反射率;L为土壤调节系数。

3 结果及分析

3.1 随机森林回归模型构建

3.1.1 K-折交叉验证
通过K-折交叉验证结果可以看出(图3),随机划分的4组数据中的第1组的验证数据集的RMSE普遍低于另外3组,并且在随机森林决策树的数量为1500时,RMSE达到最低值351.06 kg/hm2。因此,将划分后的第1组结果作为模型构建的训练集和测试集。
图3 不同分组验证集的RMSE与决策树数目变化

Fig. 3 Root mean square error of different group verification sets and change graph of decision tree number

3.1.2 多元共线性诊断和偏效应分析
根据选出的训练集,计算出5种植被指数与草原AGB的Pearson相关系数,结果可以看出(图4),本研究所选5种植被指数与AGB都有着较好的正相关性,NDVI所表现出来的正相关性最好,相关系数达到了0.88, EVIAGB的相关系数为0.66,相关性较弱。然而, AGB与各个植被指数之间的相关性较高的同时,各个植被指数之间的相关系数很高,如SAVIOSAVI之间的相关性达到了0.99。因此,针对该问题对植被指数进行了共线性诊断(表4),条件指数和相关系数矩阵的结果均表明,自变量之间存在多重共线性。若使用这5个变量构建草原AGB预测模型,多元共线性是不可避免的,且多元共线性会导致回归系数不稳健,从而严重影响模型的准确性。但是,随机森林算法的优势之一就在于擅长处理有多元共线性的数据[34]
图4 训练集草原AGB与植被指数相关系数示意

注: *表示显著相关。

Fig. 4 Correlation coefficient between grassland AGB and vegetation index in training set

表4 植被指数共线性诊断结果

Tab. 4 Co-linear diagnosis results of vegetation index

维数 特征值 条件指标 方差比例
常量 NDVI EVI OSAVI RVI SAVI
1 5.79 1.00 0.00 0.00 0.00 0.00 0.00 0.00
2 0.11 7.14 0.17 0.00 0.01 0.00 0.00 0.00
3 0.06 9.54 0.06 0.02 0.26 0.00 0.02 0.00
4 0.01 17.38 0.01 0.38 0.44 0.00 0.00 0.00
5 0.00 31.52 0.14 0.00 0.14 0.01 0.64 0.05
6 0.00 118.62 0.62 0.59 0.15 0.99 0.34 0.94
为了分析模型的稳健性,同时对比当自变量存在共线性时的不同建模结果,本研究分别使用多元线性回归、支持向量机、随机森林回归进行建模,在建模时均输入全部5种植被指数,并重复100次,得到RMSE值(图5)。通过对比3种回归建模精度评价结果可以看出,随机森林模型的RMSE值远远低于支持向量机回归模型和多元线性回归模型。因此,随机森林回归时可以比较好的规避变量之间的共线性问题。
图5 具有强烈多元共线性数据分别进行RFSVMMLR建模后的RMSE分布结果

Fig. 5 RMSE distribution results of RF, SVM and MLR models with strong multicollinearity data

随机森林的偏效应可以反映在随机森林算法中控制其他所有自变量保持不变时1个自变量对因变量的影响[35]。在随机森林的偏效应分析中,当因变量是连续变量时,其纵坐标是其预测值的平均值,定义如下:
f ¯ x = 1 n 1 n f ( x , x ic )
式中: x是产生偏效应的自变量; xic是其他自变量;n为自变量个数[33]
本研究中,使用训练集数据解释随机森林的偏效应(图6),以确定在进行随机森林建模时输入自变量的个数。当构建随机森林回归模型输入1个NDVI自变量时,得到NDVI对草原AGB的偏效应,此时曲线波动较大;当输入2个自变量时,在控制RVI保持不变的前提下,NDVIAGB的偏效应曲线波动较小,说明输入2个自变量时的模型较输入一个变量时变得更加稳定;然后,逐渐增加输入自变量的个数,输入3个自变量时,便是控制RVIOSAVI不变,得出NDVI对草原AGB的偏效应曲线,该曲线较输入2个自变量时更为平缓,再依次输入4个自变量和5个自变量,当输入5个自变量时,曲线波动最小,模型的稳定性达到最好。但由于在建模时输入2个以上的自变量模型就已经趋于稳定,且差异不大,同时,无法明确输入哪些自变量能使模型效果达到最好,因此本研究在确定输入自变量为2个以上后,进行了多种随机模型构建。
图6 随机森林自变量对因变量的偏效应

Fig. 6 Partial effects of random forest independent variables on dependent variables

3.1.3 随机森林最优模型选取
随机森林除了可以输入单个变量外,还可以通过一系列输入变量的随机线性组合来定义更多的特征,适量的特征会得到最佳的结果,同时减小过度拟合[24,36,39]。为了确定最优特征个数和效果最优的模型,本研究根据相关系数结果,进行了如下随机森林模型构建(表5),经过比较发现,特征变量为2~5个的组合情况,解释方差百分比在64.04%~76.43%之间波动,其中,模型14的3个特征变量组合(NDVIRVISAVI)具有最高的解释方差百分比76.43%,比较而言,模型14具有较高的拟合优度,因此,选取模型14进行基于随机森林算法的回归预测。
表5 随机森林模型构建结果

Tab. 5 Results of random forest model

模型 特征变量 解释方差百分比/% 模型 特征变量 解释方差百分比/%
1 NDVIRVI 75.08 14 NDVIRVISAVI 76.43
2 NDVIEVI 72.66 15 NDVIOSAVISAVI 74.93
3 NDVISAVI 75.45 16 NDVIOSAVIEVI 75.47
4 NDVIOSAVI 72.74 17 RVIOSAVISAVI 67.32
5 EVIOSAVI 67.33 18 RVIEVISAVI 70.72
6 RVIEVI 70.35 19 RVIOSAVIEVI 69.81
7 RVISAVI 68.05 20 OSAVIEVISAVI 68.11
8 RVIOSAVI 65.69 21 NDVIRVIOSAVIEVI 75.57
9 SAVIEVI 64.04 22 NDVIRVIOSAVISAVI 75.40
10 SAVIOSAVI 66.12 23 NDVIRVIEVISAVI 76.40
11 NDVIEVISAVI 75.26 24 NDVIOSAVIEVISAVI 75.75
12 NDVIRVIOSAVI 74.60 25 RVIOSAVIEVISAVI 69.70
13 NDVIRVIEVI 75.50 26 NDVIRVIOSAVIEVISAVI 74.98

3.2 其它回归模型构建

支持向量机模型使用较为广泛的RBF核函数,参数Costgamma通过网格搜索法寻找,得到的最优结果分别为1和0.5。
一元曲线回归模型根据建模的R2来选取最优的模型,结果表明(表6),5种植被指数回归得到的函数中,以NDVI为自变量的模型R2普遍较高,R2最高的是NDVI参与构建的线性函数模型,R2为0.77,因此选取NDVI线性函数作为一元曲线回归的代表模型。
表6 一元曲线回归建模结果

Tab. 6 Results of UCR

自变量x 函数 方程 R2 F
NDVI 线性函数 y=8578.34x-682.73 0.77 535.69
指数函数 y=220.71e6.57x 0.64 281.28
幂函数 y=13601.63x1.70 0.69 352.18
RVI 线性函数 y=1053.71x-513.01 0.55 197.42
指数函数 y=282.33e0.74x 0.39 99.96
幂函数 y=380.49x1.95 0.50 158.87
EVI 线性函数 y=9308.95x-301.56 0.43 122.90
指数函数 y=272.34e7.60x 0.41 110.52
幂函数 - - -
OSAVI 线性函数 y=9214.90x-321.26 0.65 291.12
指数函数 y=301.50e6.86x 0.51 163.04
幂函数 y=16726.34x1.55 0.60 234.53
SAVI 线性函数 y=10055.66x-407.66 0.60 231.82
指数函数 y=284.69e7.44x 0.46 135.05
幂函数 y=19424.01x1.61 0.53 180.02
多元线性回归模型为了降低共线性的影响,采用逐步回归分析法,将5种植被指数作为自变量,训练集样本生物量为因变量引入模型拟合,逐步剔除对因变量影响较弱的因素变量。最终获得2个有效多元线性回归模型。其中,第一个模型与一元曲线回归中以NDVI为自变量的线性回归模型相同;第二个模型为y=7353.25NDVI+230.05RVI-796.72,该模型R2为0.78,因此采用该模型进行草原AGB的模型精度比较。

3.3 模型评价及优选

通过对比分析4类模型构建的结果,最终选取4种类型的最优模型,其模型精度如表7,其中,随机森林最优模型的RMSE为202.13 kg/hm2,REE为15%,模型精度为85%,高于传统回归模型和支持向量机模型。为了进一步评价模型,对预留的54个样本数据进行验证,通过验证结果可以看出,随机森林最优模型具有最高的预测精度70%和最低的平均相对误差346.73 kg/hm2,说明随机森林最优模型在草原AGB估算中较高的适用性。因此,本研究选用随机森林模型对2017年锡林郭勒盟草原AGB进行估算。
表7 训练集及验证集模型精度评价

Tab. 7 Accuracy evaluation of training set and verification set model

模型 模型或输入变量 训练集 验证集
RMSE
/(kg/hm2)
REE/% 精度/% RMSE
/(kg/hm2)
REE/% 精度/%
RF NDVIRVISAVI 202.13 15 85 346.73 30 70
SVM NDVIRVISAVI 360.38 27 73 413.88 36 64
UCR y=8578.34NDVI-682.73 434.46 33 67 401.94 35 65
MLR y=7353.25NDVI+230.05RVI-796.72 259.63 20 80 417.99 36 64

3.4 草原生物量的空间分布

锡林郭勒盟草原AGB分布具有明显的空间差异(图7),东南部和东北部分布有温性草甸草原的地区AGB较高,鲜重普遍大于2500 kg/hm2;位于浑善达克沙地腹地的西部地区,草原AGB处于较低水平,鲜重小于500 kg/hm2。总体上,锡林郭勒盟草原AGB呈现自东向西逐步递减的趋势,以及东高西低的空间分布格局。
图7 2017年锡盟草原AGB鲜重分布

Fig. 7 Fresh weight distribution of AGB in grassland of Xilinguole in 2017

2017年锡林郭勒盟草原AGB不同草原类型之间存在较大的差异(表8),山地草甸类和温性草甸草原类的AGB鲜重单产达到了2500 kg/hm2以上;鲜重单产介于1000~2000 kg/hm2之间的类型有低地草甸类、改良草地、沼泽类以及温性草原类;鲜重单产低于1000 kg/hm2的类型有温性荒漠类、温性草原化荒漠类、温性荒漠草原类。从总产量上来看,锡盟的温性草原类所占面积最大,其AGB鲜重总量最高,温性草甸草原类和低地草甸类分别位列第二和第三,这三类的总量之和占锡林郭勒盟2017年草原AGB鲜重总量的90%以上。
表8 2017年锡盟不同草原类型AGB鲜重单产、总量

Tab. 8 Fresh weight per unit area yield and total amount of AGB of different grassland types in Xilinguole in 2017

草原类型 面积/km2 AGB鲜重
单产/(kg/hm2) 总产量/t
低地草甸类 26 014 1756.45 4 569 384
山地草甸类 1577 3029.59 477 963
改良草地 473 1092.77 51 777
沼泽类 334 2165.15 72 456
温性草原化荒漠类 5122 552.77 283 132
温性草原类 108 445 1249.61 13 551 464
温性草甸草原类 24 883 2616.22 6 510 032
温性荒漠类 142 576.49 8191
温性荒漠草原类 29 659 596.31 1 768 611

4 讨论

4.1 随机森林算法估算草原AGB的优劣势

随机森林在进行回归时的优势有3点:① 该模型在回归时可以输入非常多的特征,且在输入前不用对特征进行选择,它可以计算出每个变量对最终模型的贡献,并使变量的识别更加相关,当输入变量很多时,也能较快的计算出结果[23,36]。② 在数据有缺失的情况下,随机森林能实现比较准确的模拟,且相较于其它的单值插补法,其能够有效处理高维数据,适合在大数据背景下处理缺失数据[38]。③ 随机森林有比较好的抗过拟合能力,在森林建立过程中内部可以产生一个对一般误差的无偏估计,不会产生过度估计[39]
但随机森林回归算法在估算草原AGB时也可能受到各种因素影响,因为随机森林在回归时的整个实现过程是不可见的,就像把所有特征和数据放入一个“黑盒子”里,输入运行规则后,内部便开始运行,而操作者只能通过调整参数、对比结果来进行一次次的试验。此外,虽然理论上随机森林不会产生过拟合现象,但在实际应用中仍会受到噪声的干扰,增加树虽然能够减小过拟合,但没有办法完全消除过拟合。
本研究中随机森林模型精度为85%,RMSE为202.13 kg/hm2,RMSE的值略好于高晓霞[40]等用随机森林结合样本点和MODIS数据在青藏高原高寒草地区域构建出的最好模型(R2= 0.7459,RMSE = 346.06 kg/hm2)。而本研究中通过对比得出随机森林回归建模的结果要好于支持向量机回归,与王茵茵等[23]的研究结果相一致。

4.2 变量个数对模型精度的影响分析

随机森林和支持向量机在建模时一般会考虑多个与因变量相关的特征变量[33],在青藏高原等不同区域、不同尺度下应用也取得了较好的效果[35,39]。为了分析变量个数对模型精度的影响,以一元回归模型为例(表9),对比了在相同变量个数的情况下,不同方法构建模型的模拟精度。在随机森林和支持向量机建模时均输入1个特征变量NDVI。结果可以看出(表9),随机森林回归模型的精度与支持向量机的模型精度持平,均为66%,略高于一元线性回归模型的65%。同时,结合表5表7的结果可以看出,当模型输入变量为1~5个的情景下,具有3个输入变量的随机森林模型具有更大的解释方差百分比和更小的RMSE。对比分析也表明,随机森林并非变量越多精度越高,找准适合的特征变量和个数,才能构建出效果最好的模型。
表9 输入单个变量模型精度对比

Tab. 9 Precision comparison of input single variable models

模型 模型或输入变量 验证集
RMSE/(kg/hm2) REE/% 精度/%
RF NDVI 389.00 34 66
SVM NDVI 381.65 33 66
UCR y=8578.34NDVI-682.73 401.94 35 65

4.3 草原生物量估算模型的不确定性分析

草原生物量估算模型的不确定性来源于3个方面:① 本研究使用了基于GF-1计算出的植被指数作为输入特征,图8将高分一号计算出的NDVI结果和MODIS的NDVI结果进行了比较,将NDVI分为5个组,分别统计相应分组中的栅格数量,并计算每个分组所占的频率,通过结果对比可以看出, GF-1的NDVI值在0~0.2阶段的频率要高于MODIS,但在0.2~0.4和0.4~0.6 分段内,MODIS的NDVI值频率要高于GF-1,MODIS和GF-1的NDVI值频率在0.6~1.0分段内的频率基本持平,因此,使用不同遥感卫星影像所带来的植被指数差异,会造成生物量估算有一定的偏差。② 通过样本点分布图和草原类型图可以看出(图9),温性草甸草原类型的采样点比较少,在模型反演时可能会给东北部地区的草原AGB带来一定的误差。③ 在本研究中,由于使用遥感影像配合地面数据完成模型构建以及生物量反演,因此未考虑经纬度、单波段特征、降水、气温、地形等因素的影响。
图8 MODIS和GF-1数据NDVI结果对比

Fig. 8 Comparison of NDVI results between MODIS and GF-1 data

图9 锡林郭勒盟温性草甸草原样本点分布

Fig. 9 Distribution of sample sites of temperate meadow steppe in Xilinguole League

4.4 高分数据在草原生物量估算研究中的应用

近年来,国内外诸多学者针对草原AGB估算究运用了许多不同的方法和数据,但结果仍存在一定差异。王建步等[41]基于GF1 WFV卫星数据黄河口湿地草本植被生物量的估算模型研究,但研究未进一步对生物量进行估算。此外,构建出模型并估算出草原生物量结果的研究中,金云翔等[5]基于多年采集的样本点并结合MODIS数据估算的2005—2009年锡林郭勒盟山地草甸类草原平均产草量单产为1213.60 kg/hm2、温性草原类为557.20 kg/hm2、温性荒漠类为203.06 kg/hm2;方精云等[42]根据《中国草地资源数据》中记录的不同草原类型生物量数据估算的中国荒漠草原、典型草原以及草甸草原的AGB分别为342、1351和1224 kg/hm2。经过折算对比后,本研究估算的结果,不管是与同区域研究相比还是与全国平均结果相比,都偏低一些。造成差异可能的原因为估算方法的不同、地面数据采样时间的差异以及研究区域尺度的不同等。

5 结论

本研究以高分一号遥感影像计算的5种植被指数为特征,结合地面216个样本点,采用随机森林等方法进行了草原AGB遥感估算方法研究,研究区选取内蒙古锡林郭勒盟,以期为草原遥感监测提供一定的科学参考。主要结论如下:
(1)通过K-折交叉验证、多元共线性诊断和偏效应分析的结果可以看出,随机森林在随机选取最优样本训练集、降低自变量多元共线性的影响方面有较大的优势。
(2)在R Studio软件中能够完成随机森林模型的构建,当模型输入变量为NDVIRVISAVI时,模型具有最高的解释方差百分比76.43%,即模型具有较高的拟合优度。
(3)随机森林模型相较于一元曲线回归、多元线性回归和支持向量机模型,具有更高的精度85%。
(4)随机森林模型可以完成2017年锡林郭勒盟草原AGB鲜重估算反演,从结果分布图可以看出,2017年锡林郭勒盟草原AGB空间分布上呈现为自东向西逐渐递减的趋势;从草地类型上看,山地草甸类AGB单产最高,为3029.59 kg/hm2,温性草原类总产量最高,达到1355万t以上。
综上,随机森林算法在草原AGB的估算中有一定的适用性和可行性,未来在草原遥感监测应用中具有较大潜力,可为草原遥感监测提供一定的支持和帮助。
[1]
Scurlock J M, Hall D O. The global carbon sink: A grassland perspective[J]. Global Change Biology, 1998, 4(2):229-233.

DOI

[2]
张江, 袁旻舒, 张婧, 等. 近30年来青藏高原高寒草地NDVI动态变化对自然及人为因子的响应[J]. 生态学报, 2020, 40(18):6269-6281.

[ Zhang J, Yuan M S, Zhang J, et al. Responses of the NDVI of alpine grasslands on the Qinghai-Tibetan plateau to climate change and human activities over the last 30 years[J]. Acta Ecologica Sinica, 2020, 40(18):6269-6281. ]

[3]
Hieronymus J, Giovanni P, Ulrike T, et al. Grassland biomass balance in the European Alps: Current and future ecosystem service perspectives[J]. Ecosystem Services, 2020, 45,101163.

[4]
白永飞, 陈世苹. 中国草地生态系统固碳现状、速率和潜力研究[J]. 植物生态学报, 2018, 42(3):261-264.

DOI

[ Bai Y F, Chen S P. Carbon sequestration of Chinese grassland ecosystems: stock, rate and potential[J]. Chinese Journal of Plant Ecology, 2018, 42(3):261-264. ]

[5]
金云翔, 徐斌, 杨秀春, 等. 内蒙古锡林郭勒盟草原产草量动态遥感估算[J]. 中国科学:生命科学, 2011, 41(12):1185-1195.

[ Jin Y X, Xu B, Yang X C, et al. Remote sensing dynamic estimation of grass production in Xilinguole, Inner Mongolia[J]. Scientia Sinica (Vitae), 2011, 41(12):1185-1195. ]

[6]
Zeng N, He H, Ren X, et al. The utility of fusing multi-sensor data spatio-temporally in estimating grassland aboveground biomass in the three-river headwaters region of China[J]. International Journal of Remote Sensing, 2020, 41(18):7068-7089.

DOI

[7]
葛静, 孟宝平, 杨淑霞, 等. 基于ADC和MODIS遥感数据的高寒草地地上生物量监测研究—以黄河源区为例[J]. 草业学报, 2017, 26(7):26-37.

[ Ge J, Meng B P, Yang S X, et al. Monitoring of above-ground biomass in alpine grassland based on agricultural digital camera and MODIS remote sensing data: A case study in the Yellow River headwater region[J]. Acta Prataculturae Sinica, 2017, 26(7):26-37. ]

[8]
孟宝平, 陈思宇, 崔霞, 等. 基于多源遥感数据的高寒草地生物量反演模型精度—以夏河县桑科草原试验区为例[J]. 草业科学, 2015, 32(11):1730-1739.

[ Meng B P, Chen S Y, Cui X, et al. The accuracy of grassland vegetation biomass estimated model based on multi-source remote sensing data—as a case of experimental area in Sangke grassland in Xiahe County[J]. Pratacultural Science, 2015, 32(11):1730-1739. ]

[9]
朴世龙, 方精云, 贺金生, 等. 中国草地植被生物量及其空间分布格局[J]. 植物生态学报, 2004, 28(4):491-498.

DOI

[ Piao S L, Fang J Y, He J S, et al. Spatial distribution of grassland biomass in China[J]. Chinese Journal of Plant Ecology, 2004, 28(4):491-498. ]

[10]
张雅, 尹小君, 王伟强, 等. 基于Landsat 8 OLI遥感影像的天山北坡草地地上生物量估算[J]. 遥感技术与应用, 2017, 32(6):1012-1021.

[ Zhang Y, Yin X J, Wang W Q, et al. Estimation of grassland aboveground biomass using Landsat 8 OLI satellite image in the northern hillside of Tianshan mountain[J]. Remote Sensing Technology and Application, 2017, 32(6):1012-1021. ]

[11]
Erica G, Andrew H, Rick L. Using NDVI and EVI to map spatiotemporal variation in the biomass and quality of forage for migratory elk in the greater Yellowstone ecosystem[J]. Remote Sensing, 2016, 8(5):404-426.

DOI

[12]
赖炽敏, 赖日文, 薛娴, 等. 基于植被盖度和高度的不同退化程度高寒草地地上生物量估算[J]. 中国沙漠, 2019, 39(5):127-134.

[ Lai C M, Lai R W, Xue X, et al. Estimation of aboveground biomass of different degraded alpine grassland based on vegetation coverage and height[J]. Journal of Desert Research, 2019, 39(5):127-134. ]

[13]
孙世泽, 汪传建, 尹小君, 等. 无人机多光谱影像的天然草地生物量估算[J]. 遥感学报, 2018, 22(5):848-856.

[ Sun S Z, Wang C J, Yin X J, et al. Estimating aboveground biomass of natural grassland based on multispectral images of unmanned aerial vehicles[J]. Journal of Remote Sensing, 2018, 22(5):848-856. ]

[14]
Li G, Wang J L, Wang Y J, et al. Estimation of grassland production in central and eastern Mongolia from 2006 to 2015 via remote sensing[J]. Journal of Resources and Ecology, 2019, 10(6):676-684.

DOI

[15]
徐斌, 杨秀春, 陶伟国, 等. 中国草原产草量遥感监测[J]. 生态学报, 2007, 27(2):405-413.

[ Xu B, Yang X Y, Tao W G, et al. Remote sensing monitoring upon the grass production in China[J]. Acta Ecologica Sinica, 2007, 27(2):405-413. ]

[16]
Yang S X, Feng Q S, Liang T G, et al. Modeling grassland aboveground biomass based on artificial neural network and remote sensing in the Three-river headwaters region[J]. Remote Sensing of Environment, 2018, 204:448-455.

DOI

[17]
何清, 李宁, 罗文娟, 等. 大数据下的机器学习算法综述[J]. 模式识别与人工智能, 2014, 27(4):327-336.

[ He Q, Li N, Luo W J, et al. A survey of machine learning algorithms for big data[J]. Pattern Recognition and Artificial Intelligence, 2014, 27(4):327-336. ]

[18]
Xie Y, Sha Z, Yu M, et al. A comparison of two models with Landsat data for estimating above ground grassland biomass in Inner Mongolia, China[J]. Ecological Modelling, 2009, 220(15):1810-1818.

DOI

[19]
Li B, Wang W, Bai L, et al. Estimation of aboveground vegetation biomass based on Landsat-8 OLI satellite images in the Guanzhong Basin, China[J]. International Journal of Remote Sensing, 2019, 40(10):3927-3947.

DOI

[20]
Jie W, Xiang M X, Rajen B, et al. Estimating leaf area index and aboveground biomass of grazing pastures using Sentinel-1, Sentinel-2 and Landsat images[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2019, 154:189-201.

DOI

[21]
修晓敏, 周淑芳, 陈黔, 等. 基于Google Earth Engine与机器学习的省级尺度零散分布草地生物量估算[J]. 测绘通报, 2019(3):46-52,75.

[ Xiu X M, Zhou S F, Chen Q, et al. Above-ground biomass estimation of provincial scattered grassland based on Google Earth Engine and machine learning[J]. Bulletin of Surveying and Mapping, 2019(3):46-52,75. ]

[22]
Zeng N, Ren X, He H, et al. Estimating grassland aboveground biomass on the Tibetan Plateau using a random forest algorithm[J]. Ecological Indicators, 2019, 102:479-487.

DOI

[23]
Wang Y, Wu G, Deng L, et al. Prediction of aboveground grassland biomass on the Loess Plateau, China, using a random forest algorithm[J]. Scientific Reports, 2017, 7(1):940-943.

DOI

[24]
Breiman L. Random forests[J]. Machine Learning, 2001, 45:5-32.

DOI

[25]
NY/T 1233-2006,草原资源与生态监测技术规程[S].

[NY/T 1233-2006, Technical rules for monitoring of rangeland resources and ecology[S]. ]

[26]
杨秀春, 徐斌, 朱晓华, 等. 北方农牧交错带草原产草量遥感监测模型[J]. 地理研究, 2007, 26(2):213-221,425.

[ Yang X C, Xu B, Zhu X H, et al. Models of grass production based on remote sensing monitoring in northern agro grazing ecotone[J]. Geographical Research, 2007, 26(2):213-221,425. ]

[27]
中国资源卫星应用中心. 高分一号WFV数据[DB/OL]. http://218.247.138.119:7777/DSSPlatform/index.html.

[China center for resources satellite data and application. GF-1 WFV dataset[DB/OL]. http://218.247.138.119:7777/DSSPlatform/index.html.]

[28]
Rouse J W, Haas R H, Schell J A, et al. Monitoring vegetation systems in the great plains with ERTS[J]. Nasa Special Publication, 1974, 1:309-317.

[29]
Jodi R, Norris, Jessica J. Walker solar and sensor geometry, not vegetation response, drive satellite NDVI phenology in widespread ecosystems of the western United States[J]. Remote Sensing of Environment, 2020, 249,112013.

[30]
Jordan C F. Derivation of leaf-area index from quality of light on the forest floor[J]. Ecology, 1969, 50(4):663-666.

DOI

[31]
Thomas K, Georgios O, Jan G, et al. Relationship between MODIS EVI and LAI across time and space[J]. Geocarto International, 2020, 35(13):1385-1399.

DOI

[32]
Liu H Q, Huete A. A feedback based modification of the NDVI to minimize canopy background and atmospheric noise[J]. IEEE Transactions on Geoscience and Remote Sensing, 1995, 33(2):457-465.

DOI

[33]
Huete A R. A soil-adjusted vegetation index (SAVI)[J]. Remote Sensing of Environment, 1988, 25(3):295-309.

DOI

[34]
Steven M D. The sensitivity of the OSAVI vegetation index to observational parameters[J]. Remote Sensing of Environment, 1998, 63(1):49-60.

DOI

[35]
李欣海. 随机森林是特点鲜明的模型,不是万能的模型[J]. 应用昆虫学报, 2019, 56(1):170-179.

[ Li X H. Random forest is a specific algorithm, not omnipotent for all datasets[J]. Chinese Journal of Applied Entomology, 2019, 56(1):170-179. ]

[36]
Fabian E F, Javiera P, Lucas R, et al. Using Sentinel-2 and canopy height models to derive a landscape-level biomass map covering multiple vegetation types[J]. International Journal of Applied Earth Observations and Geoinformation, 2021, 94,102236.

DOI

[37]
姚登举, 杨静, 詹晓娟. 基于随机森林的特征选择算法[J]. 吉林大学学报(工学版), 2014, 44(1):137-141.

[ Yao D J, Yang J, Zhan X J. Feature selection algorithm based on random forest[J]. Journal of Jilin University (Engineering and Technology Edition), 2014, 44(1):137-141. ]

[38]
孟杰, 李春林. 基于随机森林模型的分类数据缺失值插补[J]. 统计与信息论坛, 2014, 29(9):86-90.

[ Meng J, Li C L. Missing data imputation for categorical data based on random forest model[J]. Statistics & Information Forum, 2014, 29(9):86-90. ]

[39]
张雷, 王琳琳, 张旭东, 等. 随机森林算法基本思想及其在生态学中的应用—以云南松分布模拟为例[J]. 生态学报, 2014, 34(3):650-659.

[ Zhang L, Wang L L, Zhang X D, et al. The basic principle of random forest and its applications in ecology: A case study of Pinus yunnanensis[J]. Acta Ecologica Sinica, 2014, 34(3):650-659. ]

[40]
Gao X X, Dong S K, Li S, et al. Using the random forest model and validated MODIS with the field spectrometer measurement promote the accuracy of estimating aboveground biomass and coverage of alpine grasslands on the Qinghai-Tibetan Plateau[J]. Ecological Indicators, 2020, 112:106-114.

[41]
王建步, 张杰, 马毅, 等. 基于高分一号WFV卫星影像的黄河口湿地草本植被生物量估算模型研究[J]. 激光生物学报, 2014, 23(6):604-608.

[ Wang J B, Zhang J, Ma Y, et al. Study on the above ground vegetation biomass estimation model based on GF-1 WFV satellite image in the Yellow River estuary wetland[J]. Acta Laser Biology Sinica, 2014, 23(6):604-608. ]

[42]
方精云, 刘国华, 徐嵩龄. 中国陆地生态系统的碳库[A]//王庚辰, 温玉璞.温室气体浓度和排放监测及相关过程[C].北京:中国环境科学出版社, 1996. 81-149.

[ Fang J Y, Liu G H, Xu S L. Carbon pool of terrestrial ecosystem in China[A]//Wang G C, Wen Y P, editor. Greenhouse gas concentration and emission monitoring and related processes[C]. Beijing: China Environmental Science Press, 1996.81-149. ]

Outlines

/