Risk Assessment of Mountain Torrents based on Three Machine Learning Algorithms

  • ZHOU Chao ,
  • FANG Xiuqin , * ,
  • WU Xiaojun ,
  • WANG Yuchen
Expand
  • School of Earth Sciences and Engineering, Hohai University, Nanjing 211100, China
FANG Xiuqin, E-mail:

Received date: 2019-04-23

  Request revised date: 2019-06-17

  Online published: 2019-12-11

Supported by

National Key Research and Development Program of China(No.2016YFA0601500)

Copyright

Copyright reserved © 2016

Abstract

In China, floods are considered the most frequent natural disaster that can cause serious damages to the safety of human beings and severe economic losses. We chose Jiangxi Province as the study area, which frequently suffered from mountain torrents. According to the conceptual model of flood risk, 12 flood risk assessment indexes were selected from three aspects: trigger factor, hazard inducing environment, and hazard bearing agent. Three models of flood risk assessment were constructed using different machine learning algorithms, including k-Nearest Neighbor (kNN), Random Forest (RF), and AdaBoost. To evaluate the models' performances, we applied three quantitative performance indexes: accuracy, Kappa coefficient, and the ROC curve (AUC value). We analyzed the importance of indexes based on Random Forest algorithm and the feature extraction algorithm of Boruta. Then, the zoning maps of mountain flood risk drawn by the three models were used to compare and analyze the pattern of mountain flood disasters. According to the outcomes of the performance analysis, the average values of accuracy, Kappa coefficient, and AUC of the AdaBoost model were 0.902, 0.870, and 0.826, respectively. The accuracy and Kappa coefficient were slightly higher than RF, the AUC value was equivalent to RF. The three performance indexes of the kNN model were all lower than those of the other two. Our findings suggest that five indexes play very important roles in the formation of the final flood disaster risk, including potential farmland productivity, average annual maximum rainstorm within six hours, average annual maximum rainstorm within one hour, NDVI, and average annual rainfall. Our mapping results show that the areas of higher and highest risk zones account for 34.4% of Jiangxi Province. The regions with higher and highest risk are mainly distributed in the vicinity of mountains with high rainfall, heavy rainstorm, and high potential of farmland production.

Cite this article

ZHOU Chao , FANG Xiuqin , WU Xiaojun , WANG Yuchen . Risk Assessment of Mountain Torrents based on Three Machine Learning Algorithms[J]. Journal of Geo-information Science, 2019 , 21(11) : 1679 -1688 . DOI: 10.12082/dqxxkx.2019.190185

1 引言

山洪一般指山区溪流中的特大径流或水位急剧上涨现象,它具有流速大、冲刷力大、历时短暂、暴涨暴落等特点[1]。洪灾风险评价是对洪灾的自然属性以及社会属性的综合评价,其目的在于清晰把握洪灾风险的空间格局以及内在规律[2]。由于山洪灾害的复杂性以及风险评价指标的多样性,使得山洪灾害定量评估一直是国内外研究的热点和难点之一[3,4,5,6,7,8]
针对洪灾风险评价指标的不同,产生了众多洪灾风险评价的方法。常用于山洪灾害风险评价的方法有层次分析法[5]、统计分析评价法[6]、模糊综合评价法[7]、水文水力学模型法[8]等,这些方法的难点都是各个指标因子权重值的确定。而近年来,人工智能技术的快速发展使得引用机器学习算法进行对象分类评价成为一种趋势,国内外学者逐渐将逻辑回归[9] (Logistic Regression, LR)、支持向量机[10,11](Support Vector Machine, SVM)、人工神经网络[11,12](Artificial Neural Network, ANN)、随机森林[11,13-14](Random Forest, RF)和决策树[13,15](Decision-making Tree, DT)等机器学习算法应用于洪灾研究。机器学习算法通过对山洪灾害训练样本点的学习,从而发现山洪灾害规律并评价山洪灾害,因此可避免确定指标因子权重值这一难点。
在应用机器学习算法的洪灾风险研究中,RF算法表现出优越的分类性能。RF是一种基于集成学习思想的组合分类智能算法,利用Bootstrap重采样法从总数据中抽取多个样本,并对每个样本进行树分类器构建,最后对所有树分类器的预测结果进行组合以投票方式得出最终结果[16]。赖成光等[14]采用RF算法对东江流域构造洪灾风险模型,获取RF模型测试平均精度高达89.42%。Lee[15]与Zhao[11]的研究均采用RF等多种机器学习算法对洪灾风险进行分类评价,结果表明RF算法效果显著,且优于SVM、ANN等算法。除此之外,还有部分应用于其他对象分类的性能优越机器学习算法,如k近邻(k-Nearest Neighbor, kNN)、AdaBoost和k均值(k-means)算法。kNN算法在医学疾病预测[17]、医学影像分类[18]和文本分类[19]等应用中表现出优越的分类性能,其算法思想与地理学第一定律[20]相契合,理论上是适应于本文的基于地理位置上的相互独立的洪灾风险预测。AdaBoost(Adaptive Boosting)算法是基于集成学习技术,将预测精度比随机精度略高的弱学习器(WeakLearn)提升为高预测精度的强学习器(StrongLearn)[21,22]。基本的AdaBoost算法主要用于解决二分类问题,Schapire之后提出AdaBoost.M1、AdaBoost.M2、AdaBoost.MO和AdaBoost.MR等衍生算法用于解决多分类问题[22]。 AdaBoost算法在水果生熟检测[23]、垃圾邮件分类[24]和车辆分类识别[25]等应用中表现出优越性能,该算法与RF较相似,也是基于决策树设计的算法,两者主要区别在RF使用投票法对分类数据判定并进行分类,而AdaBoost使用加权法。k-means算法是利用距离函数对数据进行不断迭代聚类的算法,不适用于本文的洪灾风险分类评价。
综上,鉴于kNN和AdaBoost算法在对象分类的应用中性能优越,并且从算法特点上分析可知其适应于本文的洪灾风险分类评价,但它们却鲜见于洪灾风险评价研究。因此本文选择RF、kNN和AdaBoost3种机器学习算法用于洪灾风险评价研究,探索是否存在优于RF的其他机器学习算法。
本文以山洪灾害频发的江西省为研究区,采用上述3种非线性机器学习算法构建江西省山洪灾害风险评价模型,借以探究山洪灾害风险分布规律,为江西省山洪灾害风险管理、防灾减灾对策制定等工作提供支持。

2 研究区概况及数据来源

2.1 研究区概况

江西省位于24°29′N-30°04′N,113°34′E-118°28′E之间,属于亚热带季风性气候,年降水量约为1400~2000 mm,溪河密集,并且地形以山地、丘陵为主(图1),因此山洪灾害频发[26]。据2015年12月江西省水文局撰写的江西省山洪灾害调查资料统计,1950-2015年江西省因山洪造成的受灾人数接近80万,死亡人数近2000人,直接经济损失逾1000亿元。
图1 江西省洪灾风险样本点空间分布

Fig. 1 The map of sample points of flood risk in Jiangxi Province

2.2 指标选取及数据来源

Davidson在提出的灾害风险概念模型中指出,灾害是触发因子、孕灾环境和承灾体等综合作用的结果[27]。山洪灾害风险的准确评估需基于正确地选取指标,结合江西省山洪灾害发生特点和规律以及数据的可获取性,从触发因子、孕灾环境和承灾体3个方面选取12个指标,具体为:年最大10 min暴雨均值、年最大1 h暴雨均值、年最大6 h暴雨均值、年降雨量均值和年暴雨天数5项触发因子指标,高程、地形湿度指数、到河最近距离和归一化差值植被指数(Normalized Difference Vegetation Index, NDVI)4项孕灾环境指标,人口密度、GDP和农田生产潜力3项承灾体指标。
指标数据中,触发因子的栅格数据均由2010版江西省暴雨洪水查算手册对应的等值线数据插值而成。地形湿度指数(Topographic Wetness Index, TWI)可认为是综合考虑了流域的地形和水文特性,在通讯作者前期的研究中[28]发现,地形湿度指数在江西省山洪灾害的风险研究中比坡度信息更有价值,因此本文选择地形湿度指数而不考虑坡度指标。其计算公式如下:
TWI = ln A s tan β
式中: A s 为汇流面积; β 为坡度。到河最近距离表示某点与水系之间最短的距离,通过ArcGIS中的近邻分析工具计算得到,水系数据来自江西省水文局,河流等级至5级。NDVI取的是2000-2015年的多年平均值作为其空间分布。人口密度和GDP均采用2000、2005、2010和2015年的平均值。农田生产潜力一般指农田在一定条件下可以持续生产人类所需的生物产品的潜在能力,本文根据2000年和2010年的平均值绘制农田生产潜力的空间分布图(①中国科学院资源环境科学数据中心提供的最新农田生产潜力数据只有2000年和2010年,因为本文采用2000年和2010年的均值数据作为参考。)。本研究的指标数据网格单元大小均为1 km × 1 km,研究数据及来源如表1所示。
表1 研究数据来源

Tab. 1 Data and sources

因子 指标 缩写 数据来源
触发因子 年最大10 min暴雨均值/mm exm10 江西省暴雨洪水查算手册(2010版)[29]
年最大1 h暴雨均值/mm exm60
年最大6 h暴雨均值/mm exh6
年降雨量均值/mm rain
年暴雨天数/d rainday
孕灾环境 高程/m dem 中国科学院资源环境科学数据中心[30]
归一化差值植被指数 ndvi
到河最近距离/m neardist 利用ArcGIS计算
地形湿度指数 twi
承灾体 人口密度/(人/km2) pop 中国科学院资源环境科学数据中心[30]
GDP/万元 gdp
农田生产潜力/(kg/ha) fpp
根据江西省2015年完成的历史山洪灾害数据库获取江西省历史山洪灾害和危险区数据,同时参照Google影像地图进行样本区的矢量多边形构建,并统计其洪灾发生次数和洪灾影响范围特征。将江西省洪灾风险等级分为四级:低风险、中等风险、较高风险和最高风险,分级的原则为:若样本区内洪灾发生3次及以上或者影响范围很大的区域,将其作为最高风险样本区;样本区内洪灾发生2次或者影响范围很大的区域为较高风险样本区;除去上述的区域,样本区内洪灾发生1次为中等风险样本区;样本区内洪灾发生0次为低风险样本区。利用ArcGIS中的创建随机点工具,在各等级的样本区矢量多边形中分别提取750个样本点,样本点分布如图1所示。

3 风险评价算法及模型评估指标

3.1 风险评价算法

3.1.1 kNN算法
kNN算法的主要算法步骤如下:
(1)计算测试数据与各个训练数据之间距离,本文采用曼哈顿距离度量方式,公式如下:
D u , v = i = 1 n | u i - v i |
式中: D u , v 表示数据点间曼哈顿距离, u , v 表示数据点。本文的洪灾数据点数据格式为 x 1 , x 2 , , x n , y , x i 为某个指标的值, y 为该洪灾点的风险等级,n表示向量维数,在本文为指标数据的个数,即12。
(2)选取距离最小的k个数据点组成近邻数组 L ,确定出现频率最高的类别作为测试数据的最终分类,即洪灾风险等级。若出现几种类别频率相同,以高频率中距测试数据最近的样本点类别作为最终类别。
$y'=arg\mathop{}_{y}^{max}\sum_{x_{i},y_{i}\in L}I(y=y_{i})$
式中: y ' 为最终分类;I(·)为判别函数。若参数 y = y i 为真,则I ( y = y i ) 为1,否则为0。
由kNN算法步骤可知,k值的选取影响该算法的性能,本文通过交叉验证方法不断尝试k值,最终选择较优k值。
3.1.2 RF算法
RF算法具体步骤为:
(1) 应用Bootstrap重采样法在原数据集中有放回地随机抽取s个子训练集,组成s棵决策树,即D1D2D3、…、Dss值依据模型的OOB误差曲线稳定程度选取。
(2) 指定树节点预选的变量(即洪灾数据点的 x i )个数m,即随机产生m个变量用于节点上的二叉树构建。m值通过逐次计算模型的残差平方和选取,使得残差平方和最小的m值为最佳变量个数。
(3) 对于单棵决策树,在m个变量中依据节点不纯度最小原则(即GINI系数最小)进行节点递归分割,GINI系数公式如下:
GINI t = 1 - j p ( j | t ) 2
式中: t 为决策树节点; p ( j | t ) 为在节点 t 处类别为 j 的概率。
(4)遍历每棵决策树重复步骤(3)操作,决策树任意生长,无需剪枝操作。
(5)s棵决策树组成森林并采用投票法对待分类数据判定并进行分类。
3.1.3 AdaBoost算法
本文基于单标签多类问题进行研究,因此选择较为简单、直接的AdaBoost.M1算法,算法主要步骤如下:
(1)初始化训练数据点权重分布,调用弱学习器迭代T次,每次迭代后都产生一个弱假设 h t : X Y T值可根据最终强分类的误差曲线进行选取。
(2)分类错误率计算,公式如下:
h t : ϵ t = D t ( i )
式中: D t 为第 t 次迭代时训练数据权重分布。在此次迭代中,若 ϵ t > 1 / 2 ,则中止此次迭代。
(3)根据分类错误率赋予该弱假设权重,并更新训练数据点权重分布。
D t + 1 i = D t ( i ) Z t × β t h t x i = y i 1 其他
式中: β t = ϵ t / ( 1 - ϵ t ) ; Z t 为归一化常数。
(4)将所有带权重的弱假设组合成最终预测函数 h fin , h fin 计算公式如下:
h fin x = arg max y Y t = 1 T ln 1 β t [ h t x = y ]

3.2 评估指标

传统的分类器性能衡量通常是用测试集的精度(Accuracy)、Kappa系数来表征,但这样的评价指标会忽略机器学习算法的后验概率大小程度,因而不能反映机器学习算法构造的分类器真实性能[31]。而ROC(Receiver Operating Characteristic)曲线下面积(Area Under Curve,AUC)能度量机器学习算法的后验概率、分类性能和排序性能,因此在机器学习算法领域得到非常多的应用[31,32]。本文利用精度、Kappa系数、ROC曲线来综合评估模型性能。
(1)精度评价
精度为分类正确的样本数与样本总数的比值,公式如下:
acc = 1 m i = 1 m I ( f x i = y i )
式中:m为样本总数;I )为判别函数。若参数 f x i = y i 为真,则I )为1,否则为0。
(2)Kappa系数
Kappa系数计算基于混淆矩阵,公式如下:
κ = p 0 - p c 1 - p c = N i = 1 R x ii - i = 1 R ( x i + x + i ) N 2 - i = 1 R ( x i + x + i )
式中: R 为类别数; x ii 为第 i 行第 i 列上的数目; x i + 为第 i 行的总数目; x + i 为第 i 列的总数目; N 为数据集中总数目。评估标准[33]为: κ ≤0.4,Fail(失败);0.4< κ ≤0.55,Fair(一般);0.55< κ ≤0.7,Good(好);0.7< κ ≤0.85,Very good(很好);0.85< κ , Excellent(完美)。
(3)ROC曲线
以FPR(假正类率)为横轴,以TPR(真正类率)为纵轴,通过不断调整分类器阈值获得坐标轴上一组不同的(FPR,TPR)点,将点连接成线即形成该分类器的ROC曲线[34,35]。特别注意的是ROC曲线无法作为分类器评价指标,采用AUC值作为评价指标,评估准则[35]为:AUC≤0.5,Fail(失败);0.5<AUC≤0.7,Good(好);0.7<AUC≤0.9,Very good(很好);0.9<AUC,Excellent(完美)。ROC曲线一般运用在二分类问题,本文通过生成n个不同的ROC曲线图,即为每个类别生成一个ROC曲线,来解决n分类问题。具体地说:如果 C 是所有类的集合,以 c i 为正类,其他类为负类,即:
P i = c i
N i = c j C
式中: P i 表示正类; N i 表示负类。以此生成ci类的ROC曲线,对其他类重复同样操作,以n条ROC曲线下面积的平均值作为最终AUC值,即:
AU C fin = 1 n i = 1 n S i

4 结果及分析

4.1 模型评估结果

本文采用K折交叉检验(K-Fold cross validation),一般K取10,因为它具有相对低的偏倚和方差。因此本文将3000个洪灾样本点数据分为相等的10份,即T1T2T3,…,T10。取Ti作为测试数据集,剩余部分为训练数据集,由此构建第i组测试训练集( Tes t i , Trai n i )(i=1,2,…,10)。计算各个模型的Accuracy值、Kappa系数、AUC值的平均值,结果如表2所示。
表2 模型指标平均值计算结果

Tab. 2 Performances of the three algorithms

Accuracy值 Kappa系数 AUC值
kNN 0.867 0.822 0.803
RF 0.888 0.850 0.827
AdaBoost 0.902 0.870 0.826
表2可知:① 结合3.2节中评估指标标准,kNN模型很好,RF和AdaBoost模型接近于完美。② 从Accuracy值和Kappa系数的角度分析,AdaBoost模型优于kNN和RF模型;从AUC值的角度,RF模型与AdaBoost模型相差无几,且都优于kNN模型。
综合3种评价指标考虑,AdaBoost模型的Accuracy值和Kappa系数分别高于RF模型1.4%和2%,而RF模型的AUC值高于AdaBoost算法0.1%,因此本文认为针对江西省山洪灾害风险评价的研究而言,AdaBoost模型能高效地表征指标因子与洪灾风险等级之间的关系,略优于kNN和RF模型。
对AdaBoost.M1算法进行分析,从3.1节的算法步骤中可知 D t + 1 根据 D t 和弱假设 h t 计算。如果 h t 对样本 x i 分类正确,将样本 x i 的权重乘以 β t [ 0,1 ) ,否则权重不变,然后将样本权重除以归一化常数 Z t ,使权值重新标准化。因此,被弱分类器正确分类的样本得到低权重,被弱分类器错误分类的样本得到高权重。而最终构建的强分类器 h fin 中的每个弱分类器权重被定义为 ln 1 / β t ,即弱分类器的错误率越高,其构建 h fin 时被定义的权重值越小。所以Freund指出在进行T次迭代过程中,每轮调用弱分类器产生的错误率为 ϵ 1 , ϵ 2 , , ϵ T ,假设所有 ϵ t 1 / 2 ,令 γ t = 1 / 2 - ϵ t ,则:
ϵ h fin = | { i : h fin ( x i ) y i } | N t = 1 T 1 - 4 γ t 2 exp - 2 t = 1 T γ t 2
式中: ϵ h fin 表示强分类器 h fin 的错误率。由上述公式可知AdaBoost.M1算法具有2个特性:① 强分类器 h fin 的错误率存在上限[21,36];② 弱分类器的错误率若一直小于1/2,则强分类器 h fin 的错误率将以指数速率降低,且无需了解 γ t 的下界[36]
本文AdaBoost.M1算法的迭代次数T为200,图2(a)为每轮迭代过程中调用弱分类器产生的误差曲线图,由图可知弱分类器产生的误差 ϵ t 差异不显著且均小于1/2。图2(b)为每次迭代后强分类器 h fin 在测试数据集上的误差曲线图,可知曲线以指数速率下降。基于上述AdaBoost.M1算法的2个特性,本文构建的AdaBoost洪灾风险评价模型具有优越的分类性能,且略优于kNN和RF模型。
图2 AdaBoost算法误差

Fig. 2 Error diagrams of the AdaBoost algorithm

4.2 指标重要性分析

RF算法提供指标重要性度量方法,主要提供2种方法用于指标重要性计算[14],本文选择平均基尼减小值(Mean Decrease Gini)方法,该方法原理为在节点依据节点不纯度最小原则进行分割时计算指标 x i 的基尼系数减少值Di,将RF中所有Di求和后对所有决策树求平均值,以此作为指标 x i 的重要性。kNN、AdaBoost算法不提供指标重要性度量方法,对于这些无法计算指标重要性的算法,可通过Boruta算法获取指标重要性。Boruta算法是基于随机森林分类思想,利用Z分数与“阴影”(shadow)属性值比较获取指标重要性度量值。该算法实现了寻找所有相关变量的特征选择,具体步骤及详细内容参考Kursa等[37]的研究。
本文利用RF算法的MeanDecreaseGini方法和Boruta算法共同对指标的重要性进行分析,基于MeanDecreaseGini方法做出风险指标重要性评估图如图3所示(2幅图的指标重要性值均已换算成总和的百分比度量,且该方法中没有shadowMax等属性值,图3中加入该3个属性值是为了方便与图 4比较),Boruta算法生成的指标重要性图如图4所示。分析图4可知,本文所选取的12个指标均大于“阴影”最大属性值(shadowMax),因此所有指标均被确认为重要,即对最终的洪灾风险起着一定作用。结合2幅图分析,neardist、twi、gdp、pop这4个指标虽然在2幅图中排列顺序不同,但均位于指标重要性后4位;fpp、exh6、exm60、ndvi、rain这5个指标在两幅图中均位于指标重要性前5位;dem、exm10、rainday这3个指标均位于指标重要性度量图中间段。虽然指标重要性差异并不显著,但基于此可将本文洪灾指标因子分成3种类型:对最终的洪灾风险形成非常重要,有fpp、exh6、exm60、ndvi、rain 5个指标因子;对最终的洪灾风险形成较重要,有dem、exm10、rainday 3个指标因子;对最终的洪灾风险形成一般重要,有neardist、twi、gdp、pop 4个指标因子。从指标因子重要性结果可以看出,对于江西省山洪灾害风险而言,致灾因子中最大6 h暴雨、最大1 h暴雨和年降雨量都是非常重要的因子,孕灾环境中植被条件(归一化差值植被指数)是非常重要的因子,高程是比较重要的因子,承灾体易损性和承灾能力中农田生产潜力是最重要的因子,人口密度和GDP一般重要。
图3 随机森林算法中的指标重要性度量图

Fig. 3 Indexes importance chart (Random Forest)

图4 Boruta算法中的指标重要性度量图

Fig. 4 Indexes importance chart (Boruta algorithm)

4.3 洪灾风险分布特征分析

利用kNN、RF和AdaBoost模型绘制江西省山洪灾害风险评估图(网格大小均为1 km×1 km),如图5所示。由图5(a)可知,kNN模型绘制的风险评估图相对于后2种算法破碎度非常大,主要原因在于:对每个栅格数据的待测点的类别进行判断时,kNN算法是利用通过曼哈顿距离度量方式确定与待测点指标属性值最接近的k个样本点进行类别判定,因此判别结果极大依赖于选取的这k个样本点,使得即使是相邻的区域也可能由于具体样本点的不同而得出不同的风险级别,最终导致风险区划图存在非常高的破碎度,与实际不相符。而RF和AdaBoost都是基于决策树构建,决策树根据不同的指标属性值进行不同的类别判定,决策树的规则依赖于构建每棵决策树的样本集,而不是依赖于具体的几个样本点,因此风险区划图不存在高破碎度。基于此,后面的江西省山洪灾害风险分布规律分析不参考kNN风险评估图。
图5 基于3种不同算法的江西省洪灾风险评估

Fig. 5 Assessed flood risk of Jiangxi province by the three algorithms

图5(b)和5(c)可知,二者总体洪灾风险等级分布非常相似,分级结果差异度较小。分析后两图可知,江西省山洪灾害整体分布比较广泛,总体而言东部较西部更严重,北部较南部更严重。统计后2种算法的洪灾风险图中较高风险区与最高风险区的面积,分别约占江西省总面积的33.1%、35.5%,平均值为34.3%。山洪灾害最高风险分区主要分布于江西省东北部的景德镇市、浮梁县与中馆镇,东部的南丰县、黎川县、广昌县、宁都县与瑞金市,南部的大余县与信丰县,中部乐安县、永丰县、万安县、遂川县、兴国县、于都县与临川区等,西北部的靖安县、奉新县、安义县与宜丰县。上述的洪灾很高风险区与文献[28]描述的高风险区较一致。分析最高风险区域发现,这些区域较多分布于山脉(如九岭山脉、武夷山脉、怀玉山脉等)附近,并且相对于其他地方暴雨量(exm60、exh6)和降雨量(rain)都较多,农田生产潜力(fpp)都较大。分析可知雨量是山洪爆发的前提,而人类社会主体的损失程度才是衡量洪灾风险等级的关键因素。江西省是农业省,因此农田生产潜力大的区域,隐含的人口和经济体量相对大,所以综合表现出上述洪灾风险分布特征。
对比图5(b)和5(c)的局部区域,如二者图中的A(114°46′40″E,29°13′40″N)和B(115°31′8″E,26°25″N)区域。分析两区域的山洪灾害调查报告、指标数据及Google影像地图,修水县的A区域属于山洪灾害频发、风险非常高的地区;于都县的B区域属于风险较高的区域。综上,从风险区划结果上看AdaBoost模型的风险评估结果更合理。

5 结论

山洪灾害是江西省最严重的灾害之一,本文采用3种非线性机器学习算法构建洪灾风险评价模型,并利用3种定量指标评价3种模型,最后对比 3种模型绘制的江西省山洪灾害风险分区图,并探究江西省山洪灾害风险分布规律。对本研究总结如下:
(1)AdaBoost模型高效地表征指标因子与洪灾风险等级之间的关系,AdaBoost模型的Accuracy值、Kappa系数和AUC值的平均值为别为0.902、0.870和0.826,Accuracy值和Kappa系数略优于RF模型,AUC值与RF模型相差无几,kNN模型指标均低于前两种算法。
(2)通过MeanDecreaseGini方法和Boruta特征提取算法共同评价12个指标因子的重要性,本文将指标因子分成3种类型:对最终的洪灾风险形成非常重要(农田生产潜力、年最大6小时暴雨均值、年最大1小时暴雨均值、归一化差值植被指数、年降雨量均值)、较重要(高程、年最大10分钟暴雨均值、年暴雨天数)、一般重要(到河最近距离、地形湿度指数、GDP、人口密度)。
(3)江西省较高风险区与最高风险区的面积和约占江西省总面积的34.3%,多数分布于高降雨量、高暴雨量、农田生产潜力大等山区。针对于上述洪灾高风险区,必须将其列为灾害重点防治区域,适当增加人力、物力、财力,及时做好保障人民安全及减少洪灾损失等工作。
机器学习算法用于洪灾风险评价越来越广泛,但很少有学者使用AdaBoost、kNN算法构建洪灾风险评价模型,AdaBoost算法在某些环境下性能高于RF算法。本文所比较的3种机器学习算法的一个共性问题是在每个位置上的预测是相互独立的,并没有体现相邻栅格间空间相互作用关系,在以后洪灾研究中可以进一步考虑解决此问题。
[1]
徐在庸 . 山洪及其防治[M]. 北京: 水利出版社, 1981.

[ Xu Z Y. Mountain torrents and their prevention[M]. Beijing: Water Publishing, 1981. ]

[2]
黄大鹏, 刘闯, 彭顺风 . 洪灾风险评价与区划研究进展[J]. 地理科学进展, 2007,26(4):11-22.

DOI

[ Huang D P, Liu C, Peng S F . Progress on assessment and regionalization of flood risk[J]. Progress in Geography, 2007,26(4):11-22. ]

[3]
王秋香, 崔彩霞, 姚艳丽 . 新疆不同区域洪灾受灾面积变化趋势及多尺度分析[J]. 地理学报, 2008,63(7):769-779.

DOI

[ Wang Q X, Cui C X, Yao Y L . Variation trends and multi-scale analysis of flood affected area in various regions of Xinjiang[J]. Acta Geographica Sinica, 2008,63(7):769-779.]

[4]
González-Arqueros M L, Mendoza M E, Bocco G , et al. Flood susceptibility in rural settlements in remote zones: The case of a mountainous basin in the Sierra-Costa region of Michoacán, Mexico[J]. Journal of Environmental Management, 2018,223:685-693.

DOI PMID

[5]
Gigovic L, Pamucar D, Bajic Z , et al. Application of GIS-interval rough AHP methodology for flood hazard mapping in urban areas[J]. Water, 2017,9(6):360-386.

DOI PMID

[6]
Tingsanchali T, Karim F . Flood-hazard assessment and risk-based zoning of a tropical flood plain: Case study of the Yom River, Thailand[J]. Hydrological Sciences Journal, 2010,55(2):145-161.

DOI

[7]
Jiang W, Deng L, Chen L , et al. Risk assessment and validation of flood disaster based on fuzzy mathematics[J]. Progress in Natural Science: Materials International, 2009,19(10):1419-1425.

DOI

[8]
Patro S, Chatterjee C, Mohanty S , et al. Flood inundation modeling using MIKE FLOOD and remote sensing data[J]. Journal of the Indian Society of Remote Sensing, 2009,37(1):107-118.

DOI

[9]
Kalantari Z, Cavalli M, Cantone C , et al. Flood probability quantification for road infrastructure: Data-driven spatial-statistical approach and case study applications[J]. Science of the Total Environment, 2017,581:386-398.

DOI PMID

[10]
Tehrany M S, Pradhan B, Mansor S , et al. Flood susceptibility assessment using GIS-based support vector machine model with different kernel types[J]. Catena, 2015,125:91-101.

DOI

[11]
Zhao G, Pang B, Xu Z , et al. Mapping flood susceptibility in mountainous areas on a national scale in China[J]. Science of the Total Environment, 2018,615:1133-1142.

DOI PMID

[12]
Kia M B, Pirasteh S, Pradhan B , et al. An artificial neural network model for flood simulation using GIS: Johor River Basin, Malaysia[J]. Environmental Earth Sciences, 2012,67(1):251-264.

DOI

[13]
Tehrany M S, Jones S, Shabani F . Identifying the essential flood conditioning factors for flood prone area mapping using machine learning techniques[J]. Catena, 2019,175:174-192.

DOI

[14]
赖成光, 陈晓宏, 赵仕威 , 等. 基于随机森林的洪灾风险评价模型及其应用[J]. 水利学报, 2015,46(1):58-66.

[ Lai C G, Chen X H, Zhao S W . et al. A flood risk assessment model based on Random Forest and its application[J]. Journal of Hydraulic Engineering, 2015,46(1):58-66. ]

[15]
Lee S, Kim J C, Jung H S . Spatial prediction of flood susceptibility using random-forest and boosted-tree models in Seoul metropolitan city, Korea[J]. Geomatics Natural Hazards & Risk, 2017,8(2):1185-1203.

DOI PMID

[16]
Breiman L . Random forests[J]. Machine Learning, 2001,45(1):5-32.

DOI

[17]
Sánchez A S, Iglesias-Rodríguez F J, Fernández P R , et al. Applying the K-nearest neighbor technique to the classification of workers according to their risk of suffering musculoskeletal disorders[J]. International Journal of Industrial Ergonomics, 2016,52:92-99.

DOI

[18]
Deng Z Y, Zhu X S, Cheng D B , et al. Efficient kNN classification algorithm for big data[J]. Neurocomputing, 2016,195:143-148.

DOI PMID

[19]
Jiang S Y, Pang G S, Wu M L , et al. An improved K-nearest-neighbor algorithm for text categorization[J]. Expert Systems with Applications, 2012,39(1):1503-1509.

DOI

[20]
Tobler W . A computer movie simulating urban growth in the Detroit region[J]. Economic Geography, 1970,46(2):234-240.

DOI

[21]
Freund Y, Schapire R E . A decision-theoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997,55(1):119-139.

DOI

[22]
曹莹, 苗启广, 刘家辰 , 等. AdaBoost算法研究进展与展望[J]. 自动化学报, 2013,39(6):745-758.

DOI

[ Cao Y, Miao Q G, Liu J C , et al. Advance and prospects of AdaBoost algorithm[J]. Acta Automatica Sinica, 2013,39(6):745-758. ]

[23]
Zhao Y, Gong L, Zhou B , et al. Detecting tomatoes in greenhouse scenes by combining AdaBoost classifier and colour analysis[J]. Biosystems Engineering, 2016,148:127-137.

DOI

[24]
Nizamani S, Memon N, Wiil U K . Detection of illegitimate emails using boosting algorithm[J]. Counter Terrorism and Open Source Intelligence, 2011,2:249-264.

[25]
Rios-Cabrera R, Tuytelaars T, Van Gool L . Efficient multi-camera vehicle detection, tracking, and identify-cation in a tunnel surveillance application[J]. Computer Vision and Image Understanding, 2012,116(6):742-753.

DOI

[26]
管珉, 陈兴旺 . 江西省山洪灾害风险区划初步研究[J]. 暴雨灾害, 2007(4):339-343.

[ Guan M, Chen X W . Research of regional torrent risk zonation in Jiangxi Province[J]. Torrential Rain and Disasters, 2007(4):339-343. ]

[27]
Davidson R A, Lambert K B . Comparing the hurricane disaster risk of U.S. coastal counties[J]. Natural Hazards Review, 2001,2(3):132-142.

DOI

[28]
方秀琴, 王凯, 任立良 , 等. 基于GIS的江西省山洪灾害风险评价与分区[J]. 灾害学, 2017,32(1):111-116.

[ Fang X Q, Wang K, Ren L L , et al. Risk assessment and zoning of mountain torrent disaster based on GIS in Jiangxi Province[J]. Journal of Catastrophology, 2017,32(1):111-116. ]

[29]
江西省水文局. 江西省暴雨洪水查算手册(2010版)[EB/OL].

[ Hydrographic Office of Jiangxi Province. Rainstorm and flood calculation manual in Jiangxi Province (2010) [EB/OL].

[30]
中国科学院资源环境科学数据中心[DB/OL].

[ Resource and Environment Data Cloud Platform[DB/OL].

[31]
Huang J, Ling C X . Using AUC and accuracy in evaluating learning algorithms[J]. IEEE Transactions on Knowledge & Data Engineering, 2005,17(3):299-310.

DOI PMID

[32]
Bradley A P . The use of the area under the ROC curve in the evaluation of machine learning algorithms[J]. Pattern Recognition, 1997,30(7):1145-1159.

DOI PMID

[33]
Monserud R A, Leemans R . Comparing global vegetation maps with the Kappa statistic[J]. Ecological Modelling, 1992,62(4):275-293.

DOI

[34]
汪云云, 陈松灿 . 基于AUC的分类器评价和设计综述[J]. 模式识别与人工智能, 2011,24(1):64-71.

[ Wang Y Y, Chen S C . A survey of evaluation and design for AUC based classifier[J]. Pattern Recognition and Artificial Intelligence, 2011,24(1):64-71. ]

[35]
Swets J A . Measuring the accuracy of diagnostic systems[J]. Science, 1988,240(4857):1285-1293.

DOI PMID

[36]
Freund Y, Schapire R E . Experiments with a new boosting algorithm[J]. Machine Learning: Proceedings of the Thirteenth International Conference, 1996,13:148-156.

DOI PMID

[37]
Kursa M B, Rudnicki W R . Feature selection with the Boruta package[J]. Journal of Statistical Software, 2010,36(11):1-13.

Outlines

/