地球信息科学理论与方法

人工神经网络和决策树模型在滑坡易发性分析中的性能对比

  • 田乃满 , 1, 3 ,
  • 兰恒星 , 1, 2, * ,
  • 伍宇明 1 ,
  • 李郎平 1
展开
  • 1.中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101
  • 2.长安大学地质工程与测绘学院,西安 710054
  • 3.中国科学院大学,北京 100049
* 兰恒星(1972— ),男,山东招远人,博士,研究员,主要从事工程地质与地质灾害研究。E-mail:

田乃满(1996— ),男,内蒙古通辽人,博士生,主要从事地质灾害与地理信息科学研究。E-mail:

收稿日期: 2019-12-11

  要求修回日期: 2020-04-03

  网络出版日期: 2021-02-25

基金资助

中国科学院战略性先导科技专项(A类)(XDA23090301)

国家自然科学基金项目(41701458)

国家自然科学基金项目(41525010)

国家自然科学基金项目(41790443)

国家自然科学基金项目(41807291)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Performance Comparison of BP Artificial Neural Network and CART Decision Tree Model in Landslide Susceptibility Prediction

  • TIAN Naiman , 1, 3 ,
  • LAN Hengxing , 1, 2, * ,
  • WU Yuming 1 ,
  • LI Langping 1
Expand
  • 1. State Key Laboratory of Resources and Environmental Information Systems, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 2. School of Geological Engineering and Geomatics, Chang'an University, Xi'an 710054, China
  • 3. University of Chinese Academy of Sciences, Beijing 100049, China
* LAN Hengxing, E-mail:

Received date: 2019-12-11

  Request revised date: 2020-04-03

  Online published: 2021-02-25

Supported by

Strategic Priority Research Program of Chinese Academy of Sciences(XDA23090301)

National Natural Science Foundation of China(41701458)

National Natural Science Foundation of China(41525010)

National Natural Science Foundation of China(41790443)

National Natural Science Foundation of China(41807291)

Copyright

Copyright reserved © 2020

摘要

机器学习模型广泛应用于区域性滑坡易发性分析。模型的选择关系到评价结果的可信度、准确率和稳定性。现有滑坡易发性分析模型对比研究侧重模型的预测精度。模型的稳定性和数据量敏感性对机器学习模型的性能评估同样非常重要。本文以福建省南平市蔡源流域为研究区,以四川省绵阳市北川县为验证区,从预测精度、稳定性和数据量敏感性3个方面深入对比BP(Back Propagation)人工神经网络模型和CART(Classification and Regression Tree)决策树模型在滑坡易发性分析中的效果,主要结论如下:① 在逐渐增加一定数量训练样本的过程中,BP人工神经网络模型预测精度的增长率更高。在蔡源流域内,当训练样本数量增加10 000时,BP人工神经网络模型的预测精度上升5.22%,CART决策树模型的预测精度上升2.11%。② BP人工神经网络的预测精度高于CART决策树模型,且较为稳定。在100组数据集上,BP人工神经网络模型验证集预测精度的均值和验证集滑坡样本预测精度的均值分别为81.60%和84.86%,高于CART决策树模型的72.97%和76.59%。与此同时,BP人工神经网络模型对应预测精度的标准差分别是0.32%和0.37%,小于CART决策树模型的0.35%和0.67%。③ BP人工神经网络模型分析的滑坡易发区相比CART决策树模型,更接近实际滑坡的空间分布。最后,北川县的验证实验也出现了相同的现象。

本文引用格式

田乃满 , 兰恒星 , 伍宇明 , 李郎平 . 人工神经网络和决策树模型在滑坡易发性分析中的性能对比[J]. 地球信息科学学报, 2020 , 22(12) : 2304 -2316 . DOI: 10.12082/dqxxkx.2020.190766

Abstract

Machine learning has been widely applied to analyze regional landslide susceptibility, such as the artificial neural network and decision tree model. Model selection depends on both the reliability and accuracy of model results, therefore comprehensively evaluating the performance of a model is necessary. Previous studies of landslide susceptibility focused more on the prediction accuracy of a model. However, model stability and model sensitivity to data volume also reflect important model performances in different aspects. In this study, we employed Back-Propagation (BP) artificial neural network and Classification and Regression Tree (CART) model for model performance comparison in landslide susceptibility prediction. We evaluated model performance from three aspects: Data sensitivity, prediction accuracy, and model stability. The Caiyuan basin in Fujian Province was taken as the study area and 11 landslide-related factors were selected. Additionally, Beichuan county in Sichuan Province was taken as the verification area and 12 landslide-related factors selected. Firstly, two models were both trained using different amounts of data as input. With increasing data volume, the prediction accuracy of BP artificial neural network increased faster than that of CART model. Specifically, in Caiyuan basin, the prediction accuracy of BP artificial neural network and CART decision tree model increased by 5.22% and 2.11%, respectively, for every additional 10 000 samples. In Beichuan county, the prediction accuracy of these two models increased by 4.88% and 3.40%, respectively. Secondly, 100 sets of training data and validation data generated by random sampling were fed into two models for training. The experimental results show that, for Caiyuan basin, the mean prediction accuracy was 81.60% and 72.97% for BP artificial neural network and CART model, respectively, and the standard deviation was 0.32% and 0.35% for BP and CART, respectively. For Beichuan county, the mean prediction accuracy of two models was 77.45% and 72.61%, respectively, and the standard deviation was 0.47% and 0.61%, respectively. Finally, landslide susceptibility maps were generated based on two models. Compared to real landslide spatial distribution map, the result of BP artificial neural network was more consistent with the actual landslide distributions. In general, our study demonstrates that BP artificial neural network is more sensitive to the increase of data volume and has better model stability and prediction accuracy than CART model. But it is worth noting that the performance of two models is close with small data volume. The study provides a new perspective of model selection for landslide susceptibility analysis.

1 引言

广义的滑坡是指斜坡岩土体向下的失稳运动,包括崩塌、滚石、碎屑流和狭义的滑坡[1],是我国最常见的地质灾害,每年都会造成大量的人员伤亡和经济损失[2,3]。滑坡易发性分析用于预测滑坡可能发生的高危险区域,可以帮助决策部门制订防灾减灾政策。现有滑坡易发性分析模型可以分为3类:物理模型、知识驱动模型和数据驱动模型[4]。物理模型的分析结果准确、有物理意义,但是需要大量的地质、水文工程参数,因此更适合特定边坡的易发性评价[5]。知识驱动模型更多地依赖专家自身的经验和知识结构,易受主观因素影响[6]。目前,在大范围滑坡易发性快速分析中一般使用数据驱动模型[7,8,9,10,11,12,13,14,15]。机器学习模型作为数据驱动模型的一类,近年来逐渐成为应用最广泛的滑坡易发性分析模型,常用的机器学习模型有人工神经网络(Artificial Neural Network, ANN)、支持向量机(Support Vector Machine, SVM)、逻辑回归(Logistic Regression, LR)、决策树(Decision Tree, DT)模型等。
模型的选择关系到评价结果的可信度、准确率和稳定性[16]。相关研究对常用的机器学习模型进行了对比分析:Falaschi等[17]发现ANN的预测精度高于LR;Yilmaz[18]发现ANN的预测精度优于SVM、LR和条件概率模型;Park等[19]、邱海军等[20]和Nourani等[21]发现ANN的预测精度高于FR、LR和层次分析法(Analytic Hierarchy Process, AHP)。这些研究证明,ANN被用于滑坡易发性分析可以得到较好的结果。决策树模型和人工神经网络是机器学习模型中的重要分支,都可以用于分类工作。我们发现不同类型决策树模型之间的对比研究较多[22,23,24],但是ANN和DT之间的对比却较少:其中Wang等[25]发现分类与回归树(CART)模型的预测效果优于误差逆传播(BP)人工神经网络;Pourghasemi等[26]发现BP人工神经网络模型的预测精度优于CART决策树模型,无法为2种模型的选择提供更全面的依据。这些研究主要侧重于模型的预测精度,而模型的稳定性和数据量敏感性对机器学习模型的性能评估同样非常重要。因此,本文将从模型预测精度、稳定性和对数据量的敏感性3个方面分析BP人工神经网络模型和CART决策树模型在滑坡易发性分析中的效果。
福建省和四川省是我国2个滑坡灾害多发区,受降雨和地震影响的区域产生了大量密集的滑坡灾害,对当地的发展造成了严重的影响。选择合适的滑坡易发性分析模型对这些地区的安全发展具有重要意义。本文选取福建省南平市延平区蔡源流域为实验区,以四川省绵阳市北川县为验证区,深入对比BP人工神经网络模型和CART决策树模型的滑坡易发性分析性能。

2 研究方法

BP人工神经网络和CART决策树模型在优化方式和模型特征方面存在显著的差异。BP人工神经网络模型属于非线性模型,基于累积误差优化模型参数[27];CART决策树模型[28]采用逐节点优化的方式,生成线性判断规则的序列对目标进行分类。

2.1 BP人工神经网络模型

人工神经网络模型由包含不同数量神经元的输入层、一个或多个隐藏层和输出层组成,相邻层神经元之间全连接,每个连接分配权重。根据Kolmogorov定理[29],具有一个隐藏层的人工神经网络模型能在闭集上以任意精度模拟任何从n维到m维的非线性映射。因此本研究采用3层网络结构,包括输入层、输出层和一个隐藏层。输入层神经元数量即滑坡孕灾因子的数量;输出层激活函数使用Softmax函数,输出2个节点,代表滑坡易发与不易发,滑坡易发标记为(1, 0),不易发标记为(0, 1);隐藏层激活函数使用tanh函数。本文使用的模型结构如图1所示。
图1 人工神经网络模型结构

Fig. 1 Structure of artificial neural network model

计算过程中,每个神经元接收上一层神经元的输出数据,根据对应的连接权重处理数据,并将计算结果输出至下一层神经元,人工神经网络模型的学习过程就是不断的调整网络参数的过程。BP人工神经网络模型,基于真实值和输出值之间的累积误差,采取梯度下降算法优化参数[27]

2.2 CART决策树模型

CART决策树模型由根节点、内部结点和叶子节点构成,叶子节点对应分类结果,其它节点对应分类规则(图2)。CART决策树模型的分类规则是逐节点形成的,根节点根据分类标准,将训练数据集分割为2个子集,其他每个内部节点接收来自上一层的数据集并继续划分为2个子集,直到在叶子节点获得分类结果。从根节点到叶子节点的每条路径都可以构成一个分类规则序列。CART决策树模型使用基尼指数制定每个节点的分类规则[28],基尼指数越小代表划分子集的纯度越高,对应的分类标准越好。
图2 CART决策树模型结构

Fig. 2 Structure of CART decision tree model

3 研究区概况与数据来源

福建省地处我国东南沿海,受台风和强降雨的影响每年都会产生大量的滑坡灾害,严重影响了该地区的民生和经济发展。福建省滑坡灾害具有规模小、频率高、群发性等特点。选择适合的滑坡易发性分析模型对该地区的防灾减灾非常重要。本文以福建省南平市延平区蔡源流域为研究对象,选取了11个孕灾因子进行滑坡易发性分析。

3.1 研究区概况

蔡源流域位于福建省南平市延平区,面积约25.47 km2。2010年6月中旬的连日强降雨,在该流域诱发了大量的山体滑坡、崩塌、泥石流等次生灾害,造成了巨大的人员伤亡和财产损失。本研究数据来源于伍宇明等[30]使用的数据。数据内容包含滑坡、崩塌、碎屑流等边坡地质灾害,即广义的滑坡灾害。全流域共有1400余处滑坡区域,具有规模小、数量多、频率大3种特征。大量的滑坡样本可以为本研究提供充足的数据,滑坡的具体分布情况如图3所示。
图3 蔡源流域滑坡灾害分布

Fig. 3 Landslides distribution in Caiyuan basin

3.2 滑坡影响因子

在前人的研究基础[5,7,10,31-36]上,本文结合研究区特征以及数据可获取情况,选取了高程、坡度、坡向、地形起伏度、标准曲率、剖面曲率、平面曲率、归一化植被指数、到水系距离、到主要道路距离、岩性11个孕灾因子。本文使用的数据情况如表1所示。
表1 本实验应用数据

Tab. 1 Data information of this study

类型 比例尺或分辨率 来源 时间
SPOT影像 2.5 m 福建省地质环境监测中心 2010年6月
地形数据 5 m 滑坡事件前
归一化植被指数 30 m Landsat影像 2010年4月
地质图 1:500 000 中国地质调查局资料 滑坡事件前
3.2.1 地形孕灾因子
杨城等[32]发现仅用地形因子分析滑坡易发性也可以得到较好的结果,证明了地形因子的重要性。杨根云等[8]认为不同高程的区域存在人类活动和工程建设强度的差异,导致边坡受到的扰动也会存在差异。本文地形数据采用5 m分辨率数字高程模型(DEM)(图4(a))。
图4 地形影响因子分布

Fig. 4 Landslide influence factors

坡度是滑坡启动的重要条件,过于低缓无法提供足够动力,过于陡峭又不利于坡积物的累积,无法为滑坡提供物源基础(图4(b))。坡向则会影响太阳的照射时间和强度,也会影响降雨在边坡的分布特征,导致边坡在不同方向上产生不同程度的侵蚀,形成不同程度的边坡稳定性(图4(c))。
李郎平等[33]认为虽然地形起伏度与坡度同样反映了地形在特定邻域范围内的变化,但是地形起伏度可以从更大的尺度上反映地形的起伏状况。地形起伏度较大的地区为滑坡提供了物源基础和启动条件。本文以10×10的窗口生成了地形起伏度数据(图4(d)),该尺度的地形起伏度用于该流域可以得到较好的结果[7]
地形曲率在微观尺度上反映了地表形态[35]。剖面曲率(图4(e))对地表物质的流动速度有重要影响,可以控制滑坡物质和降雨汇流的移动速度和能量;平面曲率会影响地表流的汇聚和分散;标准曲率(图4(g))反映了地表凸起或凹陷的形状和程度,对滑坡物源的空间分布和存量有重要影响。本研究使用数字高程模型在ArcGIS平台获取了上述地形因子数据。
3.2.2 其他孕灾因子
植被冠层和根系一般被认为具有保水作用,可以促进边坡稳定。但是,也有研究发现不同的植物根系和根系密度可以通过影响土壤的入渗率促进滑坡的产生。袁东等[36]对闽北地区滑坡进行研究时发现植被覆盖能增强表层土体的入渗能力,当表层土体的入渗率过高,而下层岩石的入渗率较低时,会造成上层土体产生积水,容易诱发滑坡。因此本文选择归一化植被指数(NDVI)和岩性数据作为孕灾因子。归一化植被指数由灾害发生前(2010年4月29日)的Landsat卫星影像计算(图5(a)),岩性分布来源于1:50万地质图(图5(b))。
图5 其他影响因子分布

注:岩性A代表变质杂砂岩、变质凝灰质砂岩、千枚岩,局部夹大理岩;岩性B代表灰绿色二长浅粒岩、钠长变粒岩夹云母石英片岩;岩性C代表灰绿色绿泥白云石英片岩,二长石英片岩夹石墨云母片岩;岩性D代表肉红色少斑中粒钾长花岗岩。

Fig. 5 Landslide influence factors

道路体现了人类的活动范围,沿道路周围是工程建设活跃区,频繁的工程扰动容易造成边坡失稳,易发生滑坡。主要道路数据由SPOT影像目视解译提取(图5(c))。水流对坡脚的下切侵蚀是导致边坡失稳的重要原因之一,在暴雨时期离河网水系近的边坡受到的侵蚀更为严重,因此选取到水系距离为孕灾因子。水系分布使用ArcGIS平台的水文分析工具获得(图5(d))。
岩性以外的孕灾因子都属于连续值属性,如果对这些数据进行分级处理,会减少数据量以及丢失信息量,导致样本绝对数量的降低,无法充分体现机器学习模型处理大量的复杂滑坡孕灾因子数据方面的性能。因此,本文使用连续值孕灾因子分析滑坡易发性。

3.3 数据去相关处理

针对孕灾因子之间存在的共线性问题,本文采用主成分分析的方法,根据特征值累积贡献率达到95%以上选取了8个主成分(表2),消除了原始孕灾因子间的相关性。
表2 孕灾因子主成分

Tab. 2 Principle components of landslide influence factors

主成分 PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8
特征值 2.86 2.45 1.32 1.23 0.94 0.82 0.53 0.47
贡献率 0.26 0.22 0.12 0.11 0.09 0.07 0.05 0.04
累计贡献率 0.26 0.48 0.60 0.71 0.80 0.87 0.92 0.96
模型稳定性分析需要大量的训练集和验证集。本文对流域内滑坡和无滑区域采用随机采样方法,根据Basheer等[37]的建议,每次将70%的滑坡区域作为训练集,剩余的30%作为验证集,生成了100组训练集和验证集,其中滑坡和非滑坡样本的比例为1:1,同一组训练集和验证集数据互不重复。

4 模型对比分析

本文主要进行了BP人工神经网络和CART决策树2种模型的数据量敏感性、预测精度和稳定性分析。首先,为了保证对比分析时2种模型可以达到较优的状态,采用计算节点递增法来确定适合模型的计算节点数量;在此基础上,对2种模型进行数据量敏感性分析,模型预测精度和稳定性分析,并使用2种模型分别制作蔡源流域滑坡易发性分布图,以对比2种模型预测结果的空间分布;最后,以四川省绵阳市北川县为验证区来分析实验结果的准确性。

4.1 模型参数设置

内部节点和隐藏层神经元是决策树和人工神经网络模型的主要计算单元,节点数量的设置根据数据的复杂性而不同。本文采用逐渐增加计算节点数量的方式迭代训练模型,得到计算节点数量和预测精度之间的关系曲线(图6),以此为模型设置合适的节点数量。图6中实线代表从100组数据集中随机抽取的5组数据集的预测精度均值,阴影部分代表最大、最小预测精度范围。图6(a)显示BP人工神经网络模型的预测精度随着隐藏层神经元数量的增加逐渐上升,当神经元达到一定数量后预测精度开始在一个范围内波动,无明显抬升,可以据此规律选择合适的计算节点数量,根据图6(a)可在280—320区间内设置隐藏层神经元数量。图6(b)反映了随着分割结点数量的增加CART决策树的预测精度呈阶梯状上升,当最大分割节点数达到一定区间后精度处于较优状态,而后会出现降低的趋势,据此规律可以设置合理的最大分割节点数,根据图6(b)最大分割节点数在3700—4000区间时预测精度最高,此时决策树深度不超过12层。
图6 计算节点与预测精度关系曲线

Fig. 6 Relationship between computational node and prediction accuracy

4.2 数据量敏感性分析

训练集数据量对机器学习模型非常重要。本研究使用在训练过程中逐渐增加数据量的方法,观察2种模型的验证集预测精度随训练样本数量的变化情况。结果表明(图7),BP人工神经网络模型对数据量的增加更加敏感,预测精度趋势线的斜率更高。就蔡源流域而言,当增加10 000训练样本时BP人工神经网络模型的预测精度上升5.22%,CART决策树模型的预测精度上升2.11%。同时也表明,在训练样本数量较少时2种模型的预测能力更接近。
图7 训练样本数量和验证集预测精度关系

Fig. 7 Relationship between the number of training samples and prediction accuracy of validation sets

4.3 模型精度和稳定性分析

在100组同样的训练集和验证集上分别应用 2种模型,并统计2种模型的验证集预测精度和验证集滑坡样本预测精度。验证集预测精度统计结果如图8(a)和表3所示。BP人工神经网络模型在验证集上的预测精度平均值为81.60%,标准差为0.32%;CART决策树模型在验证集上的预测精度平均值为72.97%,标准差为0.35%。2组预测精度的KS检验拒绝了原假设,p值等于1.55e-45,证明 2种模型的预测精度存在显著的差异。由此表明,BP人工神经网络模型的预测精度显著高于CART决策树模型,且标准差显示BP人工神经网络模型比CART决策树模型更为稳定。
图8 决策树和人工神经网络模型预测精度对比

Fig. 8 Predictionaccuracy of CART decision tree model and BP artificial neural network

表3 验证集预测精度和标准差

Tab. 3 Prediction accuracy and standard deviation of validationsets (%)

模型 均值 95%置信区间 标准差 95%置信区间
验证集 BP 81.60 (81.53,81.66) 0.32 (0.28,0.38)
预测精度 CART 72.97 (72.90,73.04) 0.35 (0.31,0.40)
验证集正样 BP 84.86 (84.78,84.93) 0.37 (0.33,0.43)
本预测精度 CART 76.59 (76.45,76.72) 0.67 (0.59,0.78)
验证集中滑坡样本的预测精度被认为是考察模型性能的重要指标之一。100组模型的验证集滑坡样本预测精度的统计分析结果如图8(b)和 表3所示。BP人工神经网络模型的预测精度平均值为84.86%,标准差为0.37%;CART决策树模型的预测精度平均值为76.59%,标准差为0.67%。

4.4 空间特征分析

本文从100组模型中随机选取一组模型,并将选择的2种模型分别应用于整个流域,获得了蔡源流域滑坡灾害易发区分布图。图9显示了2种模型分析结果的空间分布和实际滑坡灾害的空间分布。宏观上,BP人工神经网络模型滑坡易发区域的空间分布(图9(a)),相比CART决策树模型预测的滑坡易发区(图9(b))更符合滑坡的实际空间分布。细节上,BP人工神经网络模型预测的滑坡易发区相比CART决策树模型的结果,更好地覆盖了实际滑坡边界;此外,BP人工神经网络模型分析结果的碎斑相对CART决策树模型较少。
图9 蔡源流域滑坡易发区分布

Fig. 9 Distribution of landslide prone areas in Caiyuan basin

4.5 实验验证

为了进一步验证研究结果,本文选取四川省绵阳市北川县为验证区,分别进行模型数据量敏感性、预测精度和稳定性分析。
4.5.1 验证区概况和孕灾因子
2008年发生的汶川大地震在北川县诱发了大量滑坡。实际的滑坡空间分布如图10所示。受龙门山断裂带的影响,由此次地震产生的滑坡主要分布于断裂带附近,其中绝大部分滑坡密集的分布在断裂带的西侧。滑坡数据来源于Xu等[38]解译并发布的公开滑坡数据集(https://www.sciencebase.gov/catalog/item/586d7498e4b0f5ce109fc93b)。
图10 北川县滑坡分布

Fig. 10 Landslides distribution of Beichuan county

根据验证区的特征和数据可获取性,本文选择了高程、坡度、坡向、地形起伏度、标准曲率、平面曲率、剖面曲率、到水系距离、到主要道路的距离、归一化植被指数、岩性、到断层距离12个孕灾因子。由于该区域的滑坡受断层活动的作用明显,因此增加到断层的距离作为重要的孕灾因子。地形因子来源于90 m分辨率的SRTM数据;地形起伏度使用10×10窗口进行计算;水系基于DEM数据使用水文分析工具获得,主要道路数据来源于Open Street Map公开道路数据、断层数据和岩性数据来源于1:50万地质图,归一化植被指数数据来源于MODIS数据。对上述孕灾因子使用主成分分析法进行了去相关性处理,保留了前9个主成分。使用与蔡源流域相同的方式,制作了100组训练集和验证集。
4.5.2 数据量敏感性分析结果
数据量敏感性分析结果如图11(a)所示,BP人工神经网络模型验证集预测精度的斜率(4.88)高于CART决策树模型的斜率(3.40),与第4.2节的结果相符。2种模型在训练样本数量较少时预测精度更接近,随着训练样本数量的增加BP人工神经网络模型验证集预测精度的提升相比CART决策树模型更大。
图11 BP人工神经网络和CART决策树模型对比

Fig. 11 Comparison of BPartificial neural network and CART decision tree model in Beichuan county

4.5.3 预测精度和稳定性
2种模型在100组数据集上的验证集预测精度和验证集滑坡样本预测精度统计结果如图11(b)—图11(d)所示。图11(b)的分析结果显示,BP人工神经网络模型的验证集预测精度的均值(77.45%)高于CART决策树模型(72.61%),对应的标准差(0.47%)低于CART决策树模型(0.61%)。
图11(c)和图11(d)的分析结果显示,BP人工神经网络模型对验证集内滑坡样本的预测精度均值(78.71%)高于CART决策树模型(74.31%),对应的标准差(0.75%)低于CART决策树模型(2.78%)。
4.5.4 滑坡易发性空间分布
分别使用2种模型计算的北川县滑坡易发区分布如图12所示。BP人工神经网络模型的滑坡易发区分布更符合滑坡灾害的空间分布特征,具体而言:① BP人工神经网络模型未能准确预测的滑坡区域相比CART决策树模型更少; ② CART决策树模型在滑坡灾害稀疏的区域计算出密集的滑坡易发区,而BP人工神经网络模型分析的滑坡易发区主要集中在滑坡灾害密集区域。
图12 北川县滑坡易发区分布

Fig. 12 Landslides susceptibility map of BP artificial neural network and CART decision tree model in Beichuan county

5 结论

决策树和人工神经网络是常用的2种滑坡易发性分析模型,它们在优化方式和模型特征方面存在显著差异。深入对比2种模型在滑坡易发性分析时的性能,可以为模型选择提供更多依据。
本文以福建省南平市延平区蔡源流域为研究区,选取高程、坡度、坡向、地形曲率、地形起伏度和到水系距离、到道路距离、归一化植被指数、岩性等滑坡影响因子。从数据量敏感性、预测精度和稳定性3个方面深入对比BP人工神经网络模型和CART决策树模型在滑坡易发性分析中的性能。并以四川省绵阳市北川县为验证区,验证实验结果。最终得到如下结论:
(1)BP人工神经网络模型相比CART决策树模型对训练样本数量的增加更敏感。实验结果表明,在蔡源流域,增加10 000个训练样本时,BP人工神经网络模型的预测精度提高5.22%,CART决策树模型提高2.11%。同样,在验证区,增加10 000训练样本时,BP人工神经网络模型的预测精度提高 4.88%,CART决策树模型提高3.40%。此外,当训练样本数量较少时2种模型的预测精度接近。
(2)BP人工神经网络的预测精度高于CART决策树模型,并且较为稳定。在100组训练集和验证集上2种模型的结果显示:在蔡源流域,BP人工神经网络模型和CART决策树模型的验证集预测精度均值为81.60%和72.97%,标准差为0.32%和0.35%。同时,BP人工神经网络模型和CART决策树模型对验证集内滑坡样本的预测精度均值为84.86%和76.59%,标准差为0.37%和0.67%。在验证区,BP人工神经网络模型和CART决策树模型的验证集预测精度均值分别为77.45%和72.61%,标准差为0.47%和0.61%。BP人工神经网络模型和CART决策树模型对验证集内滑坡样本的预测精度均值为78.71%和74.31%,标准差为0.75%和2.78%。
(3)在滑坡易发区的空间分布特征方面,BP人工神经网络模型预测的滑坡易发区相比CART决策树模型的结果,更接近滑坡灾害的空间分布。
[1]
王治华. 滑坡图像自动识别浅议[J]. 地球信息科学学报, 2013,15(5):726-733,782.

[ Wang Z H. A preliminary discussion on landslide pattern recognition[J]. Journal of Geo-information Science, 2013,15(5):726-733,782. ]

[2]
黄润秋. 20世纪以来中国的大型滑坡及其发生机制[J]. 岩石力学与工程学, 2007,26(3):433-454.

[ Huang R Q. Large-scale landslides and their sliding mechanisms in China since the 20th century[J]. Chinese Journal of Rock Mechanics and Engineering, 2007,26(3):433-454. ]

[3]
章诗芳, 王玉芬, 贾蓓, 等. 中国2005-2016年地质灾害的时空变化及影响因素分析[J]. 地球信息科学学报, 2017,19(12):1567-1574.

[ Zhang S F, Wang Y F, Jia B, et al. Spatial-temporal changes and influencing factors of geologic disasters from 2005 to 2016 in China[J]. Journal of Geo-information Science, 2017,19(12):1567-1574. ]

[4]
Corominas J, Westen C V, Frattini P, et al. Recommendations for the quantitative analysis of landslide risk[J]. Bulletin of Engineering Geology and the Environment, 2014,73(2):209-263.

[5]
陶舒, 胡德勇, 赵文吉, 等. 基于信息量与逻辑回归模型的次生滑坡灾害敏感性评价——以汶川县北部为例[J]. 地理研究, 2010,29(9):1594-1605.

[ Tao S, Hu D Y, Zhao W J, et al. Susceptibility assessment of secondary landslides triggered by earthquakes: A case study of northern Wenchuan[J]. Geographical Research, 2010,29(9):1594-1605. ]

[6]
林金煌, 张岸, 邓超, 等. 闽三角城市群地质灾害敏感性评价[J]. 地球信息科学学报, 2018,20(9):1286-1297.

[ Lin J H, Zhang A, Deng C, et al. Sensitivity assessment of geological hazards in unban agglomeration of Fujian Delta Region[J]. Journal of Geo-information Science, 2018,20(9):1286-1297. ]

[7]
Li L P, Lan H X, Guo C B, et al. A modified frequency ratio method for landslide susceptibility assessment[J]. Landslides, 2017,14(2):727-741.

[8]
杨根云, 周伟, 方教勇. 基于信息量模型和数据标准化的滑坡易发性评价[J]. 地球信息科学学报, 2018,20(5):674-683.

[ Yang G Y, Zhou W, Fang J Y. Assessment of landslide susceptibility based on information quantity model and data normalization[J]. Journal of Geo-information Science, 2018,20(5):674-683. ]

[9]
许冲, 徐锡伟. 逻辑回归模型在玉树地震滑坡危险性评价中的应用与检验[J]. 工程地质学报, 2012,20(3):326-333.

[ Xu C, Xu X W. Logistic regression model and its validation for hazard mapping of landslides triggered by Yushu earthquake[J]. Journal of Engineering Geology, 2012,20(3):326-333. ]

[10]
叶超凡, 张一驰, 熊俊楠, 等. 湖南省山丘区小流域山洪灾害危险性评价[J]. 地球信息科学学报, 2017,19(12):1593-1603.

[ Ye C F, Zhang Y C, Xiong J N, et al. Hazard assessment of mountain torrent disaster in small watersheds of the hilly areas of Hunan Province[J]. Journal of Geo-information Science, 2017,19(12):1593-1603. ]

[11]
Caniani D, Pascale S, Sdao F, et al. Neural networks and landslide susceptibility: A case study of the urban area of Potenza[J]. Natural Hazards, 2008,45(1):55-72.

[12]
许冲, 徐锡伟. 基于GIS与ANN模型的地震滑坡易发性区划[J]. 地质科技情报, 2012,31(3):116-121.

[ Xu C, Xu X W. GIS and ANN model for earthquake triggered landslides susceptibility zonation[J]. Geological Science and Technology Information, 2012,31(3):116-121. ]

[13]
Yeon Y K, Han J G, Ryu K H. Landslide susceptibility mapping in Injae, Korea, using a decision tree[J]. Engineering Geology, 2010,116(3):274-283.

[14]
戴福初, 姚鑫, 谭国焕. 滑坡灾害空间预测支持向量机模型及其应用[J]. 地学前缘, 2007,14(6):153-159.

[ Dai F C, Yao X, Tan G H. Landslide susceptibility mapping using support vector machines[J]. Earth Science Frogtiers, 2007,14(6):153-159. ]

[15]
李远远, 梅红波, 任晓杰, 等. 基于确定性系数和支持向量机的地质灾害易发性评价[J]. 地球信息科学学报, 2018,20(12):1699-1709.

[ Li Y Y, Mei H B, Ren X J, et al. Geological disaster susceptibility evaluation based on certainty factor and support vector machine[J]. Journal of Geo-information Science, 2018,20(12):1699-1709. ]

[16]
兰恒星, 王苓涓, 周成虎. 地理信息系统支持下的滑坡灾害分析模型研究[J]. 工程地质学报, 2002(4):421-427.

[ Lan H X, Wang L J, Zhou C H, et al. Study on GIS-aided model for analysis of landslide hazard[J]. Journal of Engineering Geology, 2002(4):421-427. ]

[17]
Falaschi F, Giacomelli F, Federici P R, et al. Logistic regression versus artificial neural networks: Landslide susceptibility evaluation in a sample area of the Serchio River valley, Italy[J]. Natural Hazards, 2009,50(3):551-569.

[18]
Yilmaz I. Comparison of landslide susceptibility mapping methodologies for Koyulhisar, Turkey: Conditional probability, logistic regression, artificial neural networks, and support vector machine[J]. Environmental Earth Sciences, 2010,61(4):821-836.

[19]
Park S, Choi C, Kim B, et al. Landslide susceptibility mapping using frequency ratio, analytic hierarchy process, logistic regression, and artificial neural network methods at the Inje area, Korea[J]. Environmental Earth Sciences, 2013,68(5):1443-1464.

[20]
邱海军, 曹明明, 刘闻, 等. 基于三种不同模型的区域滑坡灾害敏感性评价及结果检验研究[J]. 地理科学, 2014,34(1):110-115.

[ Qiu H J, Cao M M, Liu W, et al. The susceptibility assessment of landslide and its calibration of the models based on three different models[J]. Scientia Geographica Sinica, 2014,34(1):110-115. ]

[21]
Nourani V, Pradhan B, Ghaffari H, et al. Landslide susceptibility mapping at Zonouz Plain, Iran using genetic programming and comparison with frequency ratio, logistic regression, and artificial neural network models[J]. Natural Hazards, 2014,71(1):523-547.

[22]
Park I, Lee S. Spatial prediction of landslide susceptibility using a decision tree approach: A case study of the Pyeongchang area, Korea[J]. International Journal of Remote Sensing, 2014,35(16):6089-6112.

[23]
Youssef A M, Pourghasemi H R, Pourtaghi Z S, et al. Landslide susceptibility mapping using random forest, boosted regression tree, classification and regression tree, and general linear models and comparison of their performance at Wadi Tayyah Basin, Asir Region, Saudi Arabia[J]. Landslides, 2016,13(5):839-856.

[24]
Chen W, Xie X, Wang J, et al. A comparative study of logistic model tree, random forest, and classification and regression tree models for spatial prediction of landslide susceptibility[J]. Catena, 2017,151:147-160.

[25]
Wang L J, Guo M, Sawada K, et al. A comparative study of landslide susceptibility maps using logistic regression, frequency ratio, decision tree, weights of evidence and artificial neural network[J]. Geosciences Journal, 2016,20(1):117-136.

[26]
Pourghasemi H R, Rahmati O. Prediction of the landslide susceptibility: Which algorithm, which precision?[J]. Catena, 2018,162:177-192.

[27]
Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Nature, 1986,323(6088):533-536.

[28]
周志华. 机器学习[M]. 北京: 清华大学出版社, 2016.

[ Zhou Z H. Machine learning[M]. Beijing: Tsinghua University Press, 2016. ]

[29]
Hecht-Nielsen R. Kolmogorov's mapping neural network existence theorem[C]. Proceedings of the international conference on Neural Networks. New York: IEEE Press, 1987,3:11-14.

[30]
伍宇明, 兰恒星, 高星, 等. 一种基于贝叶斯理论的区域斜坡稳定性评价模型[J]. 工程地质学报, 2014,22(6):1227-1233.

[ Wu Y M, Lan H X, Gao X, et al. Bayes theory based model for regional slope stability analysis[J]. Journal of Engineering Geology, 2014,22(6):1227-1233. ]

[31]
兰恒星, 伍法权, 周成虎, 等. 基于GIS的云南小江流域滑坡因子敏感性分析[J]. 岩石力学与工程学报, 2002(10):1500-1506.

[ Lan H X, Wu F Q, Zhou C H, et al. Analysis on susceptibility of GIS based landslide triggering factors in Yunnan Xiaojiang watershed[J]. Chinese Journal of Rock Mechanics and Engineering, 2002(10):1500-1506. ]

[32]
杨城, 林广发, 张明锋, 等. 基于DEM的福建省土质滑坡敏感性评价[J]. 地球信息科学学报, 2016,18(12):1624-1633.

[ Yang C, Lin G F, Zhang M F, et al. Soil landslide susceptibility assessment based on DEM[J]. Journal of Geo-information Science, 2017,19(12):1623-1633. ]

[33]
李郎平, 兰恒星, 郭长宝, 等. 基于改进频率比法的川藏铁路沿线及邻区地质灾害易发性分区评价[J]. 现代地质, 2017,31(5):911-929.

[ Li L P, Lan H X, Guo C B, et al. Geohazard susceptibility assessment along the Sichuan-Tibet railway and its adjacent area using an improved frequency ratio method[J]. Geoscienc, 2017,31(5):911-929. ]

[34]
林齐根, 刘燕仪, 刘连友, 等. 支持向量机与Newmark模型结合的地震滑坡易发性评估研究[J]. 地球信息科学学报, 2017,19(12):1623-1633.

[ Lin Q G, Liu Y Y, Liu L Y, et al. Earthquake-triggered landslide susceptibility assessment based on support vector machine combined with Newmark displacement model[J]. Journal of Geo-information Science, 2017,19(12):1623-1633. ]

[35]
陈霄燕, 潘军, 邢立新, 等. 桂林-阳朔地区DEM地形特征与岩性相关性分析及分类研究[J]. 地球信息科学学报, 2019,21(12):1867-1876.

[ Chen X Y, Pan J, Xing L X, et al. Correlation analysis and classification of DEM topographic features and lithology in Guilin-Yangshuo, China[J]. Journal of Geo-information Science, 2019,21(12):1867-1876. ]

[36]
袁东, 池永翔, 程刚. 闽北地区不同植被类型下滑坡体土层入渗性能研究[J]. 长江科学院院报, 2010,27(5):8-12.

[ Yuan D, Chi Y X, Cheng G. Research on soil infiltration performances under different vegetations in landslides of Northern Fujian Province[J]. Journal of Yangtze River Scientific Research Institute, 2010,27(5):8-12. ]

[37]
Basheer I A, Hajmeer M N. Artificial neural networks: fundamentals, computing, design, and application[J]. Journal of Microbiological Methods, 2000,43(1):3-31.

DOI PMID

[38]
Xu C, Xu X W, Yao X, et al. Three (nearly) complete inventories of landslides triggered by the May 12, 2008 Wenchuan Mw 7.9 earthquake of China and their spatial distribution statistical analysis[J]. Landslides, 2013,11(3):441-461.

文章导航

/