Application of Random Forest Algorithm in Global Drought Assessment

  • FANG Xiuqin , 1, 2, * ,
  • GUO Xiaomeng 1 ,
  • YUAN Ling 1 ,
  • YANG Lulu 1 ,
  • REN Liliang 1 ,
  • ZHU Qiuan 1, 2
Expand
  • 1. College of Hydrology and Water Resources, Hohai University, Nanjing 211100, China
  • 2. Key Laboratory of Ministry of Education for Coastal Disaster and Protection, Hohai University, Nanjing 210024, China
*FANG Xiuqin, E-mail:

Received date: 2020-08-19

  Request revised date: 2020-12-23

  Online published: 2021-08-25

Supported by

National Key Research and Development Program of China(2016YFA0601500)

National Natural Science Foundation of China(42071040)

Fundamental Research Funds for the Central Universities(2019B04714)

Copyright

Copyright reserved © 2021

Abstract

Drought is one of the most frequent and widespread climate extremes, causing devasting social, economic and ecological damages. It is of key importance to evaluate drought reliably and effectively. In this study, in order to assess global drought grade, the Random Forest (RF) algorithm was used to establish the drought grade assessment models for the 11 climate zones in the world. We chose monthly mean precipitation, mean temperature, maximum temperature, minimum temperature, soil moisture, evapotranspiration (ET), Normalized Difference Vegetation Index (NDVI), and Sun/Solar-induced Chlorophyll Fluorescence (SIF) as explanatory variables and drought grades based on Standardized Precipitation Index (SPI) as target variable. The SPI on different timescales of 1 month, 3 months, 6 months and 12 months were labeled as SPI1, SPI3, SPI6 and SPI12, respectively. The data from 2007 to 2012 were used as training data of the assessment models while those from 2013 to 2014 were used as prediction data. The results showed that: (1) The temporal scale of SPI influenced the model accuracy. Among the models with drought grade based on SPI1、SPI3、SPI6 and SPI12, the one with drought grade based on SPI1 had the highest accuracy (60%~75%) and prediction performance. The model with drought grade based on SPI1 was able to capture 90.91% of the drought records in the global emergency events database (EM-DAT). It could capture 78.47% of the drought duration month in the EM-DAT. The agreements with records and drought duration month in the EM-DAT indicated the good performance of the drought grade assessment model based on 1-month SPI and RF algorithm. (2) The drought grading criterion had little impact on the model performance. Users could select criterion I (drought/not drought) or criterion II (severe/not severe) depending on the real needs. (3) The relative importance of each explanatory variable depended on both the temporal scale of SPI and climatic differences. Precipitation was the most important factor for the drought grade based on SPI1. The importance of precipitation decreased and the ones of other explanatory variables such as temperature, soil moisture, NDVI, and ET increased as the timescale of SPI increased. The importance of variables except precipitation showed differences in different climate zones. Among the tropical, subfrigid, and tundra climate zones, temperature or ET is relatively important for drought. Soil moisture is relatively important in dry climate zone and precipitation is the most important in mild temperate climate zone, while vegetation is relatively important in the humid continental climate zone.

Cite this article

FANG Xiuqin , GUO Xiaomeng , YUAN Ling , YANG Lulu , REN Liliang , ZHU Qiuan . Application of Random Forest Algorithm in Global Drought Assessment[J]. Journal of Geo-information Science, 2021 , 23(6) : 1040 -1049 . DOI: 10.12082/dqxxkx.2021.200474

1 引言

干旱是发生最频繁,造成社会、经济损失和生态破坏最广泛、最严重的自然灾害之一[1],通常是指由于一段时间内的降水不足引起的水分短缺现象[2]。世界气象组织将干旱定义为“持续的、长期的降水不足”。《联合国防治干旱和荒漠化公约》[3]对干旱的定义是:“干旱是指降水量明显低于正常水平,导致严重水文失衡,对土地资源生产系统产生不利影响的自然现象。”与其他自然灾害(如地震、洪涝灾害)相比,干旱具有成因复杂、影响因子众多的特点,研究干旱与这些因子之间的关系,监测和预测干旱的发生状况和严重程度,对决策制定和灾害防治具有重要意义[4]
随机森林是由Breiman[5]提出的一种基于分类与回归树的机器学习算法,预测精度高,且不易产生过拟合。与神经网络、分类回归树和线性回归相比,随机森林的表现更为稳定,对噪声和异常值也有很好的容忍性[6,7],在干旱的监测和预测方面取得了较好的效果:沈润平等[8]以多源遥感数据和干旱因子为自变量,以气象站点的综合气象干旱指数为因变量,基于随机森林算法构建了河南省的遥感干旱监测模型;吴晶等[9]利用随机森林模型对站点的干旱等级进行预测;Park等[10]用标准化降水指数(Standardized Precipitation Index,SPI)表征气象干旱,用农作物产量表征农业干旱,采用随机森林等3种机器学习方法建立了干旱监测模型,其中随机森林模型的性能最好,拟合系数最大,均方根误差最小。
然而,现有的干旱监测和预测研究大多限于区域或站点尺度,缺乏对全球尺度干旱评估模型的研究,并鲜见对干旱解释因子重要性的分析。近20年遥感技术的发展使全球尺度的干旱评估成为可能,在全球尺度上评估干旱等级并分析不同气候区干旱的解释因子,有利于了解干旱的物理驱动因素,对干旱的评估和预测具有重要意义。因此本文在全球尺度上以SPI表征的干旱等级作为目标变量,以气温、降水、蒸散发、土壤湿度、植被状况作为解释变量,采用随机森林算法对全球11个气候区构建干旱等级评估模型,分析不同气候区的干旱驱动因子,以期了解不同气候区的干旱物理驱动因素,为全球尺度干旱的评估和预测提供科学依据。

2 研究区概况和数据来源

2.1 研究区概况及气候区划分

本文参考吴陶樱等[11]的全球气候区划分方法,将全球划分为12个气候区,气候区的划分条件以及文中缩写如表1,其中冰原气候区的研究数据均为缺失值,故实际上本文只讨论除其以外的11个气候区。表1中,Tmin表示最冷月月均温,Tmax表示最热月月均温,Tmon表示月均温,Pmin表示最干燥月份降水量,Pann表示年降水量,Psmin表示夏半年降水最少月份降水量,Pwmin表示冬半年降水最少月份降水量,Pwmax表示冬半年降水最多月份降水量,Pth表示降水阈值,计算如式(1)所示。
P th = 2 T ann 2 T ann + 28 2 T ann + 14 一年中至少 67 % 的降水发生在冬半年 一年中至少 67 % 的降水发生在夏半年 其他
式中: T ann 表示年均温,夏半年指北半球的4—9月,南半球的10—次年3月,冬半年指北半球的3—10月,南半球的4—9月。
表1 气候区划分条件及文中缩写[11]

Tab. 1 Climatic condition and acronym for each climate zone

气候区 归类条件 文中缩写
热带雨林气候 Tmin≥18 °C,Pmin≥60 mm Ay
热带季风气候 Tmin≥18 °C,Pann≥(100-Pmin)×25 Aj
热带稀树草原气候 Tmin≥18 °C,Pann<(100-Pmin)×25 Ax
半干旱气候 5 Pth<Pann<10 Pth Bb
沙漠气候 Pann≤5 Pth Bs
地中海气候 -3°C<Tmin<18 °C,Psmin<Pwmin,Pwmax>3Psmin,Psmin<40 mm Cd
湿润亚热带气候 -3°C<Tmin<18 °C,Tmax≥22 °C Cs
海洋性气候 -3°C<Tmin<18 °C,Tmax<22 °C Ch
湿润大陆性气候 Tmin≤-3 °C,至少有4个月的Tmon≥10 °C Ds
亚寒带气候 Tmin≤-3 °C,Tmon≥10 °C少于4个月 Dy
冰原气候 Tmax<0 °C Eb
苔原气候 0 °C≤Tmax<10 °C Et

2.2 数据来源

本文聚焦于各气候分区的干旱评估和预测,考虑到降水和气温是气候的主要表现,也是干旱的主要影响因素和致灾因子,土壤水分能够通过改变地表的热容量和向大气输送的感热、潜热而影响气候变化,蒸散发是水循环和能量循环的重要组成部分,植被是气候变化的综合指示器,也是干旱影响程度的重要反馈,归一化植被指数(NDVI)和日光诱导叶绿素荧光(SIF)均能反映植被的生长状况,因此本文选择这几种数据作为模型的解释因子,用于反映全球气候区中不同圈层的水热情况、植被生长状况,对干旱等级做出预测。
本文所用研究数据包括标准化降水指数(SPI)和8项解释因子:土壤湿度(SM)、蒸散发(ET)、月平均降水(PRE)、月最低温度(TMN)、月平均温度(TMP)、月最高温度(TMX)、归一化植被指数(NDVI)和叶绿素荧光(SIF),各数据来源、时间和空间分辨率及时间序列如表2所示。综合考虑所有数据的分辨率,本研究采用的评估单元时间尺度为月,空间分辨率为0.5°。
表2 研究数据基本信息

Tab. 2 Information of the data

数据 来源 时间分辨率 空间分辨率 时间序列
SPI http://amir.eng.uci.edu/ 0.625° 1980.06—2016.12
SM http://cci.esa.int/ 0.25° 1978.11—2016.12
ET http://www.ntsg.umt.edu/ 0.05° 2000.01—2014.12
PRE https://crudata.uea.ac.uk/ 0.5° 1901.01—2017.12
TMN https://crudata.uea.ac.uk/ 0.5° 1901.01—2017.12
TMP https://crudata.uea.ac.uk/ 0.5° 1901.01—2017.12
TMX https://crudata.uea.ac.uk/ 0.5° 1901.01—2017.12
NDVI https://modis.gsfc.nasa.gov/ 1 km 2000.02至今
SIF https://avdc.gsfc.nasa.gov/ 0.5° 2007.01—2018.10
(1)干旱指数
SPI是表征某时段降水量出现概率的干旱指数,由于其计算所需参数少,能用于表征不同时间尺度和区域的干旱状况,因此被广泛用于气象干旱评估。SPI能够计算不同时间尺度的干旱,通常采用1、3、6、12、24和48个月的时间尺度。时间尺度的多样性使得SPI既能监测短期水供应(如土壤湿度),也能监测长期水资源状况(如地下水供应、径流、湖泊和水库水位)[12,13]表3为不同时间尺度SPI反映的现象及其相关应用[13]。因此本文采用不同时间尺度的SPI(SPI1、SPI3、SPI6、SPI12)划分干旱等级,分析干旱的时间尺度对模型性能和解释因子重要性的影响,SPI数据来自NASA的MERRA数据集(http://amir.eng.uci.edu/)。
表3 不同时间尺度SPI反映的现象及其相关应用

Tab. 3 Phenomena reflected by SPI on different timescales and their applications

SPI时间尺度 反映现象 应用
1个月 短期湿度条件 短期土壤水分和作物胁迫(特别是在生长季节)
3个月 短期和中期湿度条件 对降水量的季节估计
6个月 中期降水趋势 表征不同季节降水的潜力
12个月 长期降水模式 与水流、水库水位和地下水水位有关
(2)土壤湿度
土壤水分能够通过改变地表的热容量和向大气输送的感热、潜热而影响气候变化[14],而干旱的一个重要特征是可用土壤水分极少,土壤湿度极低[15],因此本文将土壤湿度作为干旱评估的解释变量之一。ESA CCI土壤湿度产品通过融合多个卫星的主动和被动微波土壤湿度产品得到表层1 cm的土壤湿度,综合评价显示其总体精度略优于其他产品[16],因此本文选用ESA CCI土壤湿度数据产品(http://cci.esa.int/)。
(3)蒸散发
蒸散发(ET)包括土壤、水面的蒸发和植被蒸腾,是水循环和能量循环的重要组成部分,影响着区域甚至全球的生态、气候及农业生产[17]。本文使用的蒸散发数据来源于MODIS的MOD16A2数据产品(http://www.ntsg.umt.edu/)。
(4)气象数据
降水和气温等气象要素是干旱的主要影响因素和致灾因子,本文使用的气象数据包括月平均降水(PRE)、月最低温度(TMN)、月平均温度(TMP)和月最高温度(TMX),数据来源于CRU的CRU TS 4.04数据产品(https://crudata.uea.ac.uk/)。
(5)NDVI
植被是气候变化的综合指示器,也是干旱影响程度的重要反馈[18]。归一化植被指数(NDVI)可以定量监测植被的动态变化,是反映地表植被覆盖、植被生长状况的最有效的参数之一[19]。因此本文使用NDVI作为解释变量之一,数据来源于MODIS的MOD13A3产品(https://modis.gsfc.nasa.gov/)。
(6)SIF
SIF是指光合作用过程中叶绿素分子通过吸收蓝光和红光得到能量,从基态跃迁到激发态,处于激发态的叶绿素重新放出一个光子回到基态时产生的光信号。Gianotti等[20]的研究表明干旱异常会导致干旱地区的SIF呈负异常。因此本文将SIF作为干旱解释变量之一,数据来源于NASA的Gome-2 SIF数据(https://avdc.gsfc.nasa.gov/)。

2.3 数据预处理

(1)根据《气象干旱等级GB/T 20481—2017》[21]国家标准,结合实际情况,将SPI划分为干旱等级作为模型的目标变量:根据标准Ⅰ将SPI划分为非干旱和干旱,或根据标准Ⅱ将SPI划分为非重旱和重旱(表4)。
表4 标准化降水指数干旱等级划分表

Tab. 4 Classification of the drought grades indicated by SPI

分类标准 等级 SPI
标准Ⅰ 非干旱 SPI >-1.0
干旱 SPI≤-1.0
标准Ⅱ 非重旱 SPI >-2.0
重旱 SPI≤-2.0
(2)将土壤湿度(SM)、蒸散发(ET)、月平均降水(PRE)、月最低温度(TMN)、月平均温度(TMP)、月最高温度(TMX)和NDVI的空间分辨率统一至0.5°。剔除SPI数据的缺失值,提取SPI中心点位置的其他8项数据作为模型的解释变量。

3 研究方法

3.1 随机森林模型

随机森林算法由Leo Breiman于2001年提出,核心思想是以多棵决策树为基分类器构建集成分类器。它通过抽取多个不同的训练样本集和随机选取节点分类特征来增大分类模型之间的相异性,从而提高模型的泛化和预测能力。与其他机器学习算法相比,随机森林算法具有精度高、参数少、性能稳定的特点,因此在各个领域得到了广泛应用。随机森林算法流程主要包括训练和分类两个过程。模型训练过程为首先通过Bootstrap自主抽样方法有放回地随机抽取M个与原样本集大小相同的训练样本集,对M个训练样本集分别构建决策树。对单个决策树的每个节点有放回地抽取N(N小于等于训练样本集中的特征总数)个特征,通过计算每个特征包含的信息量来分裂生长。对每一棵决策树的决策结果使用多数投票法进行综合,输出分类结果。此外,随机森林还能计算指标的相对重要性[22]

3.2 预测模型构建

本文以月平均降水、月平均温度、月最高温度、月最低温度、土壤湿度、蒸散发、NDVI、叶绿素荧光作为解释变量,以SPI表征的干旱等级作为目标变量,以2007—2012年的数据作为训练数据,以2013—2014年的数据作为预测数据,对不同气候区分别构建干旱等级预测模型。以半干旱气候区为例,模型构建过程如下:
(1)训练样本选取:考虑到训练样本中不同类别(非干旱与干旱、非重旱与重旱)的样本数相差较大,而使用Bootstrap方法生成训练集时等概率抽取样本,易使得生成的训练集中不同类别的样本数量不平衡,因此本文对训练期样本采用向下抽样的方法,即以各类别样本数中最小值的80%作为各类别抽样个数,对训练期样本进行分层抽样。
(2)预测模型构建:本文基于R语言随机森林程序包(http://cran.r-project.org/)进行模型构建与干旱预测。随机森林包含2个参数:树的个数M和树中节点划分所依据的变量个数NM越大,随机森林模型的过拟合效应越小;N越大,子树之间的差异越小。一般来说,M取值越大越好,N取值为 lo g 2 J J为解释变量个数)。本文将M取值为1000,N取值为对应袋外估计误差最小的变量数。
(3)预测模型评价:采用向下抽样的方法抽取测试数据,使训练数据与测试数据的样本数比例为3:1,进行干旱等级预测,评价模型精度。

3.3 模型性能评价

一般来说,干旱为稀缺事件,在评估干旱时,若对干旱的查全率较低,会导致评估效果不全面,不能及时地根据评估结果进行决策和预警,而若对干旱的查准率较低,则易造成不必要的人力物力浪费。因此,在预测模型评价中,本文将标准Ⅰ中的干旱作为正类,非干旱作为负类,将标准Ⅱ中的重旱作为正类,非重旱作为负类,选用精度(Accuracy)、查全率(Recall)、查准率(Precision)和F值(F-Value)进行模型效果的评价[6]。另外,本文还根据全球紧急灾难数据库(Emergency Events Database,EM-DAT)中的旱灾记录的命中率来评估本研究所构建的模型对于全球干旱的捕捉能力。

3.4 因子重要性计算

随机森林主要提供2种因子重要性度量方法,分别为MDA(Mean Decrease Accuracy)值和MDG(Mean Decrease Gini)值。① MDA原理为:对每棵树,首先计算袋外估计误差(EOOB1),然后将指标k的数据加入噪声并计算袋外估计误差(EOOB2),计算所有树EOOB1EOOB2差值的平均值,并用标准差归一化,即为指标k的重要性;② MDG原理为:计算指标k在节点递归分割时的基尼系数减少值Dk,对森林中所有节点的Dk求和,然后对树求平均,即为指标k的重要性[23]。本文采用MDA方法进行解释变量重要性度量。

4 结果与分析

4.1 模型性能评价

以模型的预测精度为评价指标,各气候区以不同SPI表征的干旱等级为目标变量的模型(以下简称SPIx模型)的性能如图1所示。由图1可知,当以标准Ⅰ划分干旱等级(干旱/非干旱)时,除了热带季风区和热带稀树草原区的预测精度较低外,其他气候区的SPI1模型的预测精度都在60%~75%之间,模型效果较好,SPI3模型、SPI6模型、SPI12模型的预测精度均低于SPI1模型的预测精度;当以标准Ⅱ划分干旱等级(重旱/非重旱)时,除热带季风区、热带稀树草原区的预测精度较低外,其他气候区的SPI1模型的预测精度均在60%~75%之间,11个气候区中的8个气候区均表现为SPI1模型的预测精度最高。
图1 各气候区对基于不同SPI的干旱等级(分别以标准I和II划分)的预测精度

Fig. 1 Prediction accuracy for drought grades based on different SPI (classified by criterion I and II) in each climate zone

因此,无论是使用标准Ⅰ还是标准Ⅱ划分干旱类别,总体来说以SPI1表征的干旱等级为目标变量的模型预测精度最高,表明模型对短期干旱条件的评估效果较好,更适用于评估短期土壤水分和作物胁迫。
此外,根据EM-DAT中2007—2014年的旱灾记录,在44次旱灾事件中,基于SPI1表征干旱等级的模型共评估成功40次,成功率为90.91%,在497个发生旱灾的月份中,模型共评估成功390次,成功率为78.47%,表明模型能够较好地捕捉实际干旱事件。

4.2 干旱划分标准适用性评价

以SPI1表征的干旱等级为目标变量的模型的精度、查全率、查准率、F1图2)表明,以标准Ⅰ和标准Ⅱ为干旱等级划分标准的模型的平均预测精度分别为64.87%和64.57%,干旱等级划分标准对模型总精度的影响较小,其对模型性能的影响主要体现在查全率和查准率方面。因此应当视需求确定划分标准:若对划分标准有严格要求,如只针对重旱采取措施,则应选择标准Ⅱ;若需要对干旱或重旱进行精确预防,则选择查准率较高的标准,如湿润大陆性气候区(Ds)和亚寒带气候区(Dy)中,标准Ⅱ的查准率高于标准Ⅰ,因此应将标准Ⅱ作为划分标准;若需要对干旱全面预防,则选择查全率较高的标准,如地中海气候区(Cd)中,标准Ⅰ的总精度、查全率、F1均高于标准Ⅱ,因此应将标准Ⅰ作为划分标准。
图2 各气候区对以标准I和II划分的干旱等级(基于SPI1)的预测精度、查全率、查准率和F1

Fig. 2 Accuracy, Recall, Precision and F1 for SPI1-based drought grades classified by criterion I and II in each climate zone

4.3 解释因子重要性分析

4.3.1 SPI时间尺度对解释因子重要性的影响
表5为不同的气候区中8个解释变量对基于不同时间尺度SPI(SPI1、SPI3、SPI6、SPI12)的干旱等级的相对重要性排序。SPI是基于降水的干旱指数,因此一般来说降水的相对重要性最大。表5显示随着SPI时间尺度的增加,降水的相对重要性逐渐减小,而其他解释变量的相对重要性增加,表明降水主要影响短期干旱,而长期干旱更多地受到其他因素的影响。SIF对海洋性气候和湿润大陆性气候的短期干旱的重要性较高,对其他气候区的干旱的重要性均较低。NDVI对干旱的重要性较低且受到SPI时间尺度的强烈影响:在热带季风气候区、半干旱气候区和沙漠气候区,随着SPI时间尺度的增加,NDVI的相对重要性呈增大趋势,表明在这些气候区中,长期干旱对植被的影响较大;在湿润亚热带气候、湿润大陆性气候和亚寒带气候中,随着SPI时间尺度的增加,NDVI的相对重要性呈减小趋势,表明在这些气候区中,植被主要影响短期干旱。
表5 各气候区8个解释变量对基于SPI1、SPI3、SPI6、SPI12的干旱等级的相对重要性排序

Tab. 5 Rank of the relative importance of the 8 explanatory variables for drought grades based on different SPI (SPI1, SPI3, SPI6, SPI12) in each climate zone

重要性排序 热带雨林气候 热带季风气候 热带稀树草原气候 半干旱气候
SPI1 SPI3 SPI6 SPI12 SPI1 SPI3 SPI6 SPI12 SPI1 SPI3 SPI6 SPI12 SPI1 SPI3 SPI6 SPI12
1 PRE PRE TMX TMX PRE TMX TMX TMX PRE ET ET ET PRE PRE SM SM
2 TMX TMP SM SM TMP TMP TMP TMP ET PRE PRE TMX SM SM PRE PRE
3 TMP TMX TMP TMN TMN PRE SM SM TMN TMX TMN PRE ET ET TMX TMN
4 SM SM PRE ET TMX SM TMN TMN TMX TMN SM TMN TMX TMN ET TMX
5 TMN ET TMN TMP SM TMN PRE NDVI TMP TMP TMX SM TMP TMX TMN NDVI
6 ET TMN ET PRE ET ET NDVI PRE SM SM TMP TMP NDVI TMP NDVI ET
7 SIF SIF NDVI NDVI SIF NDVI ET ET NDVI NDVI NDVI NDVI TMN NDVI TMP TMP
8 NDVI NDVI SIF SIF NDVI SIF SIF SIF SIF SIF SIF SIF SIF SIF SIF SIF
重要性排序 沙漠气候 地中海气候 湿润亚热带气候 海洋性气候
SPI1 SPI3 SPI6 SPI12 SPI1 SPI3 SPI6 SPI12 SPI1 SPI3 SPI6 SPI12 SPI1 SPI3 SPI6 SPI12
1 PRE PRE PRE TMN PRE PRE PRE PRE PRE PRE PRE PRE PRE PRE PRE PRE
2 SM SM SM SM TMX SM TMX TMN TMX TMX TMX TMX TMX ET ET TMX
3 ET ET ET NDVI TMN TMN SM SM SM ET ET TMN ET TMX TMX ET
4 TMN TMN TMX PRE TMP TMP TMN ET NDVI TMN TMN ET NDVI TMN TMN TMN
5 TMX TMX TMN TMX ET ET TMP TMX TMP SM SM TMP SIF SM SM SM
6 TMP TMP TMP ET NDVI TMX ET TMP TMN SIF TMP SM TMN TMP NDVI NDVI
7 NDVI NDVI NDVI TMP SM NDVI NDVI NDVI ET NDVI SIF NDVI TMP SIF TMP TMP
8 SIF SIF SIF SIF SIF SIF SIF SIF SIF TMP NDVI SIF SM NDVI SIF SIF
重要性排序 湿润大陆性气候
亚寒带气候 苔原气候
SPI1 SPI3 SPI6 SPI12 SPI1 SPI3 SPI6 SPI12 SPI1 SPI3 SPI6 SPI12
1 PRE PRE PRE SM PRE PRE PRE PRE PRE PRE PRE PRE
2 NDVI SM TMN PRE ET ET ET ET TMX TMN TMN TMN
3 SIF TMX SM TMN TMX TMX TMN TMN ET TMX TMX TMX
4 TMX TMN ET ET NDVI TMN TMX TMX TMN ET ET ET
5 ET NDVI TMX TMX TMN SM SM SM TMP TMP TMP TMP
6 TMP ET NDVI NDVI SM NDVI TMP NDVI SM SM SM NDVI
7 TMN TMP TMP SIF TMP TMP NDVI TMP NDVI NDVI NDVI SM
4.3.2 气候差异对解释因子重要性的影响
从不同气候区中各解释因子对基于SPI1的干旱等级的相对重要性(图3)可以看出,解释因子的重要性表现出区域差异性:在热带雨林气候区和热带季风气候区,降水、月平均温度、月最高温度和土壤湿度对干旱的重要性较大,蒸散发的重要性较小;在热带稀树草原气候区和亚寒带气候区,蒸散发和降水对干旱的重要性较大,土壤湿度的重要性较小;在半干旱气候区和沙漠气候区,降水、土壤湿度和蒸散发对短期干旱(1~6个月)的重要性较大,土壤湿度、降水和月平均温度对长期干旱的重要性较大,蒸散发对长期干旱的重要性较小;在地中海气候区,降水对干旱的重要性最大;在湿润亚热带气候区和海洋性气候区,降水和月最高温度对降水的重要性最大;在苔原气候区,降水和温度对干旱的重要性最大。
图3 各气候区不同的解释因子对基于SPI1的干旱等级的相对重要性

Fig. 3 Relative importance (%) of explanatory factors for SPI1-based drought grades in each climate zone

5 结论与讨论

5.1 结论

本文以降水、月平均温度、月最高温度、月最低温度、土壤湿度、蒸散发、NDVI、叶绿素荧光等作为解释变量,以不同时间尺度的SPI表征的干旱等级作为目标变量,基于随机森林方法在全球11个气候区分别建立干旱等级预测模型,并分析了不同气候区中各解释变量对干旱的影响,研究结论如下:
(1)就模型性能而言,SPI1、SPI3、SPI6和SPI12中,以SPI1表征的干旱等级为目标变量的模型预测精度最高,范围在60%~75%左右,表明模型更适用于评估短期干旱状况。另外,模型能够捕捉到 EM-DAT旱灾记录次数的90.91%、旱灾记录月份的78.47%,表明模型对实际干旱事件具有良好的评估性能。本研究提出的基于气候分区应用RF构建的模型适用于全球尺度的干旱评估。
(2)就干旱划分标准而言,以标准Ⅰ(干旱/非干旱)和标准Ⅱ(重旱/非重旱)划分的干旱等级作为模型的目标变量建立的干旱等级预测模型,各气候区的平均预测精度分别为64.87%和64.57%,说明划分标准对模型总精度的影响较小,可根据实际需求选择标准Ⅰ或标准Ⅱ,或根据查全率和查准率选择适当的划分标准。
(3)就解释因子的重要性而言,分析结果表明解释因子的相对重要性与SPI的时间尺度和气候差异等均有关:除湿润大陆性气候区外,随着SPI时间尺度的增加,降水的相对重要性呈减小趋势,NDVI的相对重要性呈增大趋势,表明降水对短期干旱的影响较大,而植被对长期干旱的影响较大。各气候区中降水的相对重要性最大,降水以外的解释因子的相对重要性表现出气候差异性:在热带气候区、亚寒带气候区和苔原气候区,温度或蒸散发的影响较大;在干燥气候区,土壤湿度的影响较大;在温带气候区,仍以降水的相对重要性最大;在湿润大陆性气候区,植被对干旱的影响较大。

5.2 讨论

本研究尝试用机器学习算法进行全球尺度的干旱评估和预测,并分析气候、植被、土壤等因素对干旱发生的相对重要性。国内外已有许多基于机器学习算法进行干旱评估和预测的研究,但侧重点各有不同,如沈润平等[8]的研究侧重于对综合多因子的干旱监测研究,吴晶等[9]的研究侧重于站点尺度的干旱预测,Park等[10]的研究虽然对不同气候区分别建立干旱监测模型,但研究区局限于美国。本文在全球不同气候区分别建立干旱评估模型,分析SPI的时间尺度和干旱等级划分标准对模型性能的影响,为全球尺度干旱评估模型的建立提供参考。此外,本文分析了SPI时间尺度以及气候差异对解释因子重要性的影响,有利于明确不同物理驱动因素对干旱的不同影响以及不同气候区的干旱驱动差异,有利于理解干旱的物理过程,为有效选择解释因子进行干旱预测提供科学依据。然而,由于干旱本身的复杂性,导致对其量化具有相当的难度,本研究也存在需要改进的地方。比如对于干旱程度的表征,本研究仅利用了SPI来表征气象干旱,未考虑其他干旱指数;对于机器学习算法,本研究仅使用了适用性较广的随机森林,未考虑其他算法做比较;对于干旱物理驱动因素的考虑,本研究仅考虑了气候、植被、土壤等因素,忽略其他环境因素尤其是人类活动等。这些不足也导致本研究结果存在一定不确定性,未来需要针对这些不足进行进一步的深入研究。
[1]
Wang F, Yang H, Wang Z, et al. Drought evaluation with cmorph satellite precipitation data in the yellow river basin by using gridded standardized precipitation evapotranspiration index[J]. Remote Sensing, 2019,11(5):485.

DOI

[2]
McKee T B, Doesken N J, Kleist J. The relationship of drought frequency and duration to time scales[C]. Proceedings of the 8th Conference on Applied Climatology, Boston , 1993.

[3]
United nations: Convention to combat desertification in those countries experiencing serious drought and/or desertification, particularly in africa[J]. International Legal Materials, 1994,33(5):1328-1382.

DOI

[4]
Herrera-Estrada J E, Satoh Y, Sheffield J. Spatiotemporal dynamics of global drought[J]. Geophysical Research Letters, 2017,44(5):2254-2263.

DOI

[5]
Breiman L. Random forests[J]. Machine Learning, 2001,45(1):5-32.

DOI

[6]
王奕森, 夏树涛. 集成学习之随机森林算法综述[J]. 信息通信技术, 2018,12(1):49-55.

[ Wang Y S, Xia S T. A survey of Random Forests algorithms[J]. Information and Communications Technologies, 2018,12(1):49-55.]

[7]
Friedhelm Schwenker, Fabio Roli, Josef Kittler. Multiple classifier systems[M]. Berlin: Springer, Cham, 2015.

[8]
沈润平, 郭佳, 张婧娴, 等. 基于随机森林的遥感干旱监测模型的构建[J]. 地球信息科学学报, 2017,19(1):125-133.

DOI

[ Shen R P, Guo J, Zhang J X, et al. Construction of a drought monitoring model using the Random Forest based on remote sensing[J]. Journal of Geo-information Science, 2017,19(1):125-133. ]

[9]
吴晶, 陈元芳, 余胜男. 基于随机森林模型的干旱预测研究[J]. 中国农村水利水电, 2016(11):17-22.

[ Wu J, Chen Y F, Yu S N. Research on drought prediction based on Random Forest model[J]. China Rural Water and Hydropower, 2016(11):17-22. ]

[10]
Park S, Im J, Jang E, et al. Drought assessment and monitoring through blending of multi-sensor indices using machine learning approaches for different climate regions[J]. Agricultural and Forest Meteorology, 2016,216:157-169.

DOI

[11]
吴陶樱, 方秀琴, 吴小君, 等. 基于气候区的全球干旱形势分析[J]. 水土保持研究, 2019,26(3):166-173.

[ Wu T Y, Fang X Q, Wu X J, et al. Analysis of globe drought conditions based on climate zones[J]. Research of Soil and Water Conservation, 2019,26(3):166-173. ]

[12]
Mishra A K, Singh V P. A review of drought concepts[J]. Journal of Hydrology, 2010,391(1-2):204-216.

[13]
Zargar A, Sadiq R, Naser B, et al. A review of drought indices[J]. Environmental Reviews, 2011,19:333-349.

DOI

[14]
马柱国, 符淙斌, 谢力, 等. 土壤湿度和气候变化关系研究中的某些问题[J]. 地球科学进展, 2001(4):563-568.

[ Ma Z G, Fu C B, Xie L, et al. Some problems in the study on the relationship between soil moisture and climatic change[J]. Advances in Earth Science, 2001(4):563-568. ]

[15]
Nicolai-Shaw N, Zscheischler J, Hirschi M, et al. A drought event composite analysis using satellite remote-sensing based soil moisture[J]. Remote Sensing of Environment, 2017,203:216-225.

DOI

[16]
Ma H, Zeng J, Chen N, et al. Satellite surface soil moisture from SMAP, SMOS, AMSR2 and ESA CCI: A comprehensive assessment using global ground-based observations[J]. Remote Sensing of Environment, 2019,231:111215.

DOI

[17]
张荣华, 杜君平, 孙睿. 区域蒸散发遥感估算方法及验证综述[J]. 地球科学进展, 2012,27(12):1295-1307.

[ Zhang R H, Du J P, Sun R. Review of estimation and validation of regional evapotranspiration based on remote sensing[J]. 地球科学进展, 2012,27(12):1295-1307. ]

[18]
Wang Q, Zhang Q-p, Zhou W. Grassland coverage changes and analysis of the driving forces in maqu county[J]. Physics Procedia, 2012,33:1292-1297.

DOI

[19]
孟晗, 黄远程, 史晓亮. 黄土高原地区2001-2015年植被覆盖变化及气候影响因子[J]. 西北林学院学报, 2019,34(1):211-217.

[ Meng H, Huang Y C, Shi X L. Vegetation coverage change and climate impact factors in the Loess Plateau from 2001 to 2015[J]. Journal of Northwest Forestry University, 2019,34(1):211-217. ]

[20]
Gianotti D J S, Rigden A J, Salvucci G D, et al. Satellite and station observations demonstrate water availability's effect on continental‐scale evaporative and photosynthetic land surface dynamics[J]. Water Resources Research, 2019,55(1):540-554.

DOI

[21]
GB/T 20481-2017 气象干旱等级. 2017.

[ GB/T 20481-2017 Grades of meteorological drought. 2017.]

[22]
Dorigo W A, Gruber A, Jeu R A M D, et al. Evaluation of the esa cci soil moisture product using ground-based observations[J]. Remote Sensing of Environment, 2015,162:380-395.

DOI

[23]
赖成光, 陈晓宏, 赵仕威, 等. 基于随机森林的洪灾风险评价模型及其应用[J]. 水利学报, 2015,46(1):58-66.

[ Lai C G, Chen X H, Zhao S W, et al. A flood risk assessment model based on Random Forest and its application[J]. Journal of Hydraulic Engineering, 2015,46(1):58-66.]

Outlines

/