Landslide Susceptibility Prediction based on Non-Landslide Samples Selection and Heterogeneous Ensemble Machine Learning

  • ZHOU Chao , 1, 2 ,
  • GAN Lulu 1, 2 ,
  • WANG Yue 2, 3 ,
  • WU Hongyang 1, 2 ,
  • YU Jin 1, 2 ,
  • CAO Ying , 2, 3, * ,
  • YIN Kunlong 2, 3
Expand
  • 1. School of Geography and Information Engineering, China University of Geosciences(Wuhan), Wuhan 430074, China
  • 2. Research Center of Geohazard Monitoring and Warning in the Three Gorges Reservoir, Chongqing 404199, China
  • 3. Faculty of Engineering, China University of Geosciences(Wuhan), Wuhan 430078, China
*CAO Ying, E-mail:

Received date: 2022-11-30

  Revised date: 2023-02-28

  Online published: 2023-07-14

Supported by

National Natural Science Foundation of China(41907253)

National Natural Science Foundation of China(41702330)

Key Research and Development Program of Hubei Province(2021BCA219)

Abstract

The single machine learning-based landslide susceptibility prediction model has different focuses of features and a weak classification ability, and also the accuracy of traditional random sampling of non-landslide is low. To solve these problems, this study optimized Non-Landslide Samples (NLS) based on the information value model and utilized Stacking heterogeneous ensemble models to evaluate the landslide susceptibility of Fengjie County in the Three Gorges Reservoir. Firstly, 16 evaluation indexes were extracted based on multiple sources of topographic, geologic, and remote sensing data, including elevation, slope, aspect, profile curvature, plan curvature, lithology, distance to fault, topographic wetness index, stream power index, distance to river, normalized difference vegetation index, distance to road, and land use, and the correlation analysis was carried out to exclude high correlation indicators and construct the landslide susceptibility evaluation criteria system. Then, the NLS index was proposed based on the information value model to divide the non-landslide samples into two categories: information values less than or equal to 0, and greater than 0. Finally, the logistic regression model was used to compare the non-landslide samples under different NLS conditions, and the NLS index was used to obtain optimized non-landslide samples, which forms the training set with the same number of landslide samples. Finally, Random Forest (RF), Light Gradient Boosting Machine (LGBM), Gradient Boosting Decision Tree (GBDT), and homogeneous (Boosting-RF, Boosting-LGBM, Boosting-GBDT) and heterogeneous (Stacking) ensemble methods based on these three models were compared for susceptibility evaluation. The results show that non-landslide sampling using NLS can produce non-landslide samples of high quality and generalization ability, which in turn improves the learning ability of the model and the accuracy of susceptibility evaluation. The Stacking heterogeneous ensemble model has the best accuracy of 0.941, which is better than the Boosting homogeneous ensemble models (an accuracy of 0.902, 0.897, 0.870, respectively) and other single models (an accuracy of 0.882, 0.864, 0.855, respectively). These results indicate that the Stacking heterogeneous ensemble algorithm is capable of extracting landslide and non-landslide features from various spatial angles, realizing the complementary advantages and disadvantages of the models, significantly improving the performance of machine learning, and obtaining better predictions, and thus is a reliable landslide susceptibility evaluation model. This study contributes to a better understanding of the landslide activity, improves the reliability of regional landslide hazard risk assessment, and provides support for carrying out reasonable land use planning, disaster prevention, and mitigation strategies.

Cite this article

ZHOU Chao , GAN Lulu , WANG Yue , WU Hongyang , YU Jin , CAO Ying , YIN Kunlong . Landslide Susceptibility Prediction based on Non-Landslide Samples Selection and Heterogeneous Ensemble Machine Learning[J]. Journal of Geo-information Science, 2023 , 25(8) : 1570 -1585 . DOI: 10.12082/dqxxkx.2023.220934

1 引言

滑坡是一种常见的地质灾害,每年都会造成大量人员伤亡,对人类生命和财产安全构成了严重威胁[1-2]。据统计,2010—2019年,我国共发生山体滑坡约90 000起,造成约8 000人伤亡,经济损失高达数百亿美元[3]。科学、准确的滑坡易发性评价不仅有助于了解滑坡活动规律,还能预测可能发生滑坡的空间位置[4],从而进行合理的土地利用规划与防灾减灾。
滑坡易发性的评价方法可分为定性分析和定量分析2类[5-6]。定性分析基于专家的经验知识库,主观性较强,如层次分析法[7]和加权线性组合法[8]等。定量分析分为物理模型和基于数据驱动的统计模型。其中物理模型根据滑坡发生过程中的物理规律构建模型,并进行模拟,如TRIGRS模型[9]和Newmark位移模型[10]等,对岩土或水文数据的要求较高,难以推广到大范围区域[11]。统计模型多采用机器学习[12-13],如逻辑回归[14]、随机森林[15]和支持向量机[16]等。但由于机器学习对不同特征的捕获侧重点不同,易出现局部最优解,模型存在局限性且泛化能力较差。而集成学习能结合单个模型的优点,充分学习滑坡与非滑坡的样本特征,取得更好的预测结果[17]。集成学习的原理是将多个基分类器通过某种策略组合在一起,构建新分类器来完成学习任务[18],包含同质集成和异质集成2种方法。同质集成选择相同的学习器作为基分类器,模型之间的关联性较大,如Bagging和Boosting等,易发生过拟合问题[19]。异质集成算法则通过选取差异性更大的相异模型作为基分类器,从不同的数据空间角度提取特征,实现模型的优缺点互补,从而提高模型的精度[20],如Staking等。
基于机器学习技术的易发性建模精度与非滑坡样本的选取质量密切相关[21]。目前,国内外对于易发性建模中非滑坡样本的选取方式主要有5种。① 随机法:从已知滑坡区域外随机选取[14],所确定的非滑坡样本可能与滑坡区域的工程地质环境相似,属于潜在滑坡。② 缓冲法:从距历史滑坡一定缓冲范围外随机选取[22],缓冲范围的确定具有较强的主观性。③ 易发性法:从初始的极低易发区中随机选取[23]。④ 坡度法:从坡度小于某一阈值的非滑坡区域中随机选取[24]。易发性法与坡度法选取的样本具有局限性,不足以反映非滑坡样本的总体特征。⑤ 其他方法:基于自组织图(SOM)法[25]或基于相似性抽样(SBS)法[26],均过于依赖完整的滑坡清单来反映真实的特征空间,抽取的样本具有不确定性[27]。因此,如何准确选取高质量的非滑坡样本,仍是应用机器学习进行易发性建模需要解决的重要问题。
综上所述,本文以三峡库区奉节县为例,应用信息量模型分析滑坡发育和各影响因素的关系;选取高程、坡度和地层岩性等13个指标建立滑坡易发性评价指标体系;采用提出的非滑坡样本选取指数对非滑坡样本进行优化;以随机森林(Random Forest, RF),轻量级梯度提升树(Light Gradient Boosting Machine, LGBM)和梯度提升决策树(Gradient Boosting Decision Tree, GBDT)3种机器学习方法为基模型,采用Stacking算法构建异质集成机器学习模型开展滑坡易发性建模,并与同质集成模型和基模型进行综合对比分析,以期建立一种精准可靠的滑坡易发性评价方法。

2 研究方法

2.1 易发性建模流程

论文通过提出非滑坡样本选取指数优化机器学习建模中的非滑坡样本,并利用异质集成机器学习模型进行区域滑坡易发性建模(图1),主要步骤包括:① 通过野外调查,滑坡历史编录和遥感影像得到更新的滑坡编录数据;应用数字高程模型,地质图等数据提取滑坡易发性评价指标数据;② 采用信息量模型分析评价指标与滑坡空间发育的定量关系,并通过相关性分析剔除高相关指标,构建滑坡易发性评价指标体系;③ 随机选取70%/30%的滑坡作为训练/验证样本;应用信息量模型提出非滑坡样本选取指数,选取优化非滑坡样本;④ 采用异质集成和机器学习耦合模型进行易发性预测建模;⑤ 分析滑坡发育的影响因素,非滑坡样本的优化结果以及对模型的预测结果进行精度评估。
图1 滑坡易发性预测建模流程

Fig. 1 Flowchart of the landslide susceptibility assessment

2.2 非滑坡样本选取指数计算方法

信息量模型是一种简单可靠的易发性评价方法[28],公式如下:
I = i = 1 n l o g 2 N 0 i / N i S 0 / S
式中: I为研究区的信息量预测值; i为第 i个评价指标, n为评价指标的个数; N i为评价指标 i某一分级所占的面积; N 0 i为评价指标 i某一分级中发生滑坡灾害的面积总和; S为研究区的总面积; S 0为含有滑坡灾害的单元面积之和。当信息量值大于0时,表明该单元的地质环境对滑坡灾害的形成有促进作用;当信息量值小于或等于0时,则表明该单元的地质环境不利于滑坡灾害的形成;信息量的绝对值越大,则表明作用越强。
将未发生滑坡的区域按照信息量大于0和信息量小于或等于0分成2类。由于非滑坡样本的总数与滑坡样本保持一致,因此可将信息量大于0和信息量小于或等于0样本数的比值定义为非滑坡样本选取(Non-Landslide Samples, NLS)指数,用来描述非滑坡样本选取的信息量分布情况,公式如下:
N L S = X 1 X 2  
式中: N L S为非滑坡样本选取指数; X 1为信息量小于或等于0的非滑坡样本数; X 2为信息量大于0的非滑坡样本数。
非滑坡样本选取的主要步骤如下。① 利用信息量模型,计算每个评价单元的信息量值I:统计评价指标每种类别中的滑坡灾害面积 N 0 i,类别所占的面积 N i,研究区的滑坡灾害总面积 S 0和研究区的总面积 S,根据式(1)计算得到指标不同类别的信息量值,叠加所有的评价指标得到总信息量结果。将未发生滑坡的评价单元分为I≤0 (数据集A)和 I>0 (数据集B) 2类。② 基于逻辑回归模型,采用试算法确定最优NLS指数。③ 计算得到在不同类型中的样本数量,并采用随机函数分别进行选取,将各自得到的非滑坡样本组合在一起即为最终的非滑坡样本。

2.3 模型原理

2.3.1 机器学习模型

梯度提升决策树,轻量级梯度提升树和随机森林都属于树型分类器,在优化方式和模型特征方面存在一定差异。本文以这3个模型分别作为单模型以及集成模型的基分类器进行易发性建模研究。
(1)梯度提升决策树
梯度提升决策树(Gradient Boosting Decision Tree, GBDT)以决策树作为底层分类器,采用加法模型,通过不断减小训练过程中产生的样本残差来完成学习任务[29]图2)。GBDT算法先利用数据集来学习一棵决策树,在叶子处得到预测值以及残差,此后的决策树都基于前面已训练好的决策树进行训练,每一次迭代都在残差减少的梯度方向上建立新的组合模型,即在迭代过程中使用提升树算法中损失函数的负梯度作为残差近似值,通过逐渐减小残差来最小化损失函数。GBDT算法的优点是所有树都相互关联,每创建一棵新树可减少之前的样本残差。
图2 GBDT算法原理[29]

Fig. 2 The architecture of GBDT

(2)轻量级梯度提升树
轻量级梯度提升树(Light Gradient Boosting Machine, LGBM)是一种基于树的梯度增强算法。它利用深度限制的按叶子生长算法代替了传统的按层生长策略,可以在提升精度的同时避免过拟合[30]。按叶子生长算法每次选择具有最大增益的叶子进行生长(图3),按与层生长策略相比,在分裂次数相同的情况下,按叶子生长算法可以避免按层生长带来的更多误差,保证准确率的同时减少了增益较低的叶子节点的分裂计算,确保模型的高效性。
图3 LGBM算法原理[30]

Fig. 3 The architecture of LGBM

(3)随机森林
随机森林(Random Forest, RF)也是一种基于决策树的算法[31]。RF算法通过对大小为N的原始样本进行有放回的随机抽样,得到M个大小为N的新训练集,然后对新训练集进行决策树建模,组合多棵决策树的预测信息,通过投票(少数服从多数)方式得出最终的分类和预测结果。随机森林对噪声和异常值的容忍性较高,对高维数据的分类问题有良好的可扩展性和并行性。

2.3.2 集成学习模型

集成学习通过一定的学习策略融合多个模型,可分为同质集成与异质集成2类。同质集成以相同模型作为基分类器进行集成,异质集成则选择相异模型进行集成。本文分别采用Boosting同质集成和Stacking异质集成算法进行集成建模对比研究。
(1)Boosting算法
Boosting算法的基本思想是给定一个基础学习器和一个训练样本集,给每个训练样本赋予相等的权值,然后利用基础学习器和训练样本进行多次训练;每次训练后会得到样本的预测函数,对训练失败的样本赋予较大权值,让基础学习器在后续的训练中重点学习,将多次训练后得到的预测函数组成一个序列,其中预测效果好的函数权值较大,反之较小。最终的预测函数采用带权值的投票法对样本进行判别。本文中利用Boosting算法分别以GBDT,LGBM和RF模型作为基础学习器生成3种同质集成模型,即Boosting-GBDT,Boosting-LGBM和Boosting-RF模型。
(2)Stacking算法
Stacking集成是一种经典的异质集成学习算法,通过使用元分类器将不同的基分类器组合在一起,形成新的模型以获得更准确的预测结果[32]。如图4所示,首先将数据集分为训练集和验证集,采用K折交叉验证的方式,用基分类器对训练集和验证集进行预测,输出的预测信息和数据集的真实分类结果整合为新的数据集,利用元分类器进行预测,得到最终的预测结果。本文以逻辑回归模型(Logistic Regression, LR)为元分类器,将基分类器GBDT,LGBM和RF模型组合在一起,形成异质集成机器学习模型,以Stacking集成模型代称。
图4 Stacking集成算法原理

Fig. 4 The architecture of Stacking

2.4 受试者工作特征曲线

受试者工作特征曲线(Receiver Operation Characteristic Curves, ROC)能准确反映特异性与敏感性的相互关系,已被广泛应用于滑坡易发性模型的精度评价中[33]。ROC曲线的纵轴为真阳性率(敏感性),代表研究区中各易发性等级内滑坡灾害的面积累加百分比;横轴为假阳性率(特异性),代表研究区中各易发性等级的面积累加百分比。为了更加鲜明地表示评价效果,通常用ROC曲线下面积(Area Under Curve, AUC)作为一个指标来衡量模型预测的准确程度。AUC的取值范围在0~1之间,ROC曲线越接近左上角,即AUC值越大,说明模型精度越高。

3 研究区概况与数据来源

3.1 研究区概况

奉节县位于重庆市东北部,在三峡库区腹心,地处30°29′19″N—31°22′33″N、109°1′17″E—109°45′58″E。如图5所示,研究区平均海拔949 m,地势南北两端高,中部低,属于典型的高山低谷地貌。该县位于大巴山弧形褶断带、川东弧形凹褶带及川鄂湘黔隆褶带的交接部位,构造应力场复杂;区内出露均为沉积岩,从志留系至第四系均有分布,受构造控制,地层走向多呈北东向及近东西向,与山脉延伸大体一致。奉节县属于中亚热带温湿气候,四季分明,年降雨量分配不均,多集中在5—9月,占年降雨量的67.52%,最大日降雨量为80~120 mm。由于区域地质环境复杂,人类工程活动频繁以及三峡库水位动态变化,奉节县滑坡等地质灾害类型多,规模大,危害深[34]。揭示滑坡的空间分布规律,分析并预测其空间位置,可以一定程度上减少滑坡带来的经济财产损失与人员伤亡。
图5 研究区地理位置及滑坡分布

Fig. 5 Location and landslide distribution of the study area

3.2 数据准备与分析

3.2.1 滑坡编录

滑坡编录数据是进行滑坡易发性评价的基础资料,编录数据的完整性与准确性对滑坡易发性评价具有重要意义。以历史滑坡编录数据为基础,结合卫星影像和野外调查,最终确定奉节县共发育滑坡1 525处,其中单体滑坡的面积范围为115~106 743 m2,中小型滑坡约占60%。从滑坡类型来看,土质滑坡居多,约占滑坡总数的89%,滑坡体厚度多在6~15 m之间,岩质滑坡仅占11%。

3.2.2 评价指标

根据奉节县内的滑坡特征及相关研究成果[35-36],利用数字高程模型等数据提取坡度、地层岩性等共16个评价指标(图6)。其中坡度、坡向等评价指标从数字高程模型(DEM)中提取;地层岩性及断层从1:5万地质图中提取;归一化植被指数(NDVI)由Landsat-8遥感影像提取;土地利用类型从清华大学数据中心获取;道路从全国路网数据中提取(表1);河流从DEM中提取;河流距离、断层距离与道路距离分别对河流、断层和道路进行缓冲分析得到。根据岩土的形成条件、岩性组合特征及工程地质的性质,岩性较好的坡体抗风化能较强,风化程度较弱,发育滑坡的可能性也就较小。研究区的地层岩性按岩性特征可分为6类:松散类岩组、坚硬厚层砂岩组、软硬相间砂泥岩互层岩组、软弱薄层粘土岩组、碳酸盐岩类和较软弱中薄层砂页岩组(表2)。
图6 滑坡易发性评价指标空间分布

Fig. 6 Spatial distribution of landslide susceptibility evaluation indexes

表1 数据类型与来源

Tab. 1 Data types and sources

数据类型 分辨率 年份 来源
滑坡编录 - 2014 重庆市规划与自然资源局
DEM 10 m 2016 重庆市规划与自然资源局
地质图 1: 50 000 2018 重庆市规划与自然资源局
Landsat 8影像 30 m 2014 地理空间数据云(https://www.gscloud.cn/)
土地利用 10 m 2014 清华大学数据中心(http://data.ess.tsinghua.edu.cn/)
全国路网 1: 100 000 2015 Open Steet Map(http://www.openstreetmap.org/)
表2 地层岩性类型分布

Tab. 2 Lithological classification in the study area

类型 岩性性质 地层符号
A 松散类岩组 粉质粘土,碎石土 Q4el+dl
B 坚硬厚层砂岩组 厚层长石砂岩、石英砂岩、粉砂岩 J3p,T3xj,J2x
C 软硬相间砂泥岩互层 紫红色泥岩、粉砂质泥岩、长石砂岩、粉砂岩与黄灰色块状长石岩屑砂岩 J3S,J1z1,J1z
D 软弱薄层粘土岩组 薄层泥岩、页岩、粉砂岩 J2S,T2b,P3d
E 碳酸盐岩类 灰岩、白云岩和少量泥岩 T1,P1,P3w,C2h,D3S
F 较软弱中薄层砂页岩组 绿色、灰绿色中薄层粉砂岩和砂页岩 S1+2lr
滑坡的评价指标数据可分为离散型和连续型[37],其中地层岩性和土地利用等属于离散型数据,坡度和NDVI等属于连续型数据。离散型数据可根据其固有的自然属性进行分级,如土地利用有耕地与建设用地等类别。连续型数据则先以极小间隔对其进行初步离散,再依据信息量值定量分析滑坡发育与评价指标之间的关系,以信息量值的突变点为临界值再次离散化,将对滑坡发育影响作用相同的分级状态合并为同一级。各评价指标最终的信息量值计算结果如表3所示。
表3 滑坡易发性评价指标信息量值

Tab. 3 The information value of landslide susceptibility evaluation indexes

评价指标 分级范围 信息量 评价指标 分级范围 信息量
高程/m <450 1.465 河流距离/m <400 0.463
450~850 0.641 400~1 000 0.415
850~1 100 -0.320 1 000~1 600 -0.283
1 100~1 350 -2.108 1 600~2 300 -0.978
>1 350 -5.406 >2 300 -1.196
坡度/° <9 -0.947 道路距离/m <200 0.704
9~18 0.599 200~500 0.356
18~24 0.449 500~1 100 0.218
24~33 -0.199 1 100~2 000 -0.163
>33 -0.961 >2 000 -0.484
径流强度指数 <0.1 0.008 断层距离/m <300 -0.107
0.1~1 -0.352 300~900 -0.080
1~10 -0.950 900~1 300 0.083
10~100 -0.978 1 300~2 000 -0.240
>100 -1.180 >2 000 0.049
湿度指数 <5 -0.454 NDVI <0.08 -3.275
5~6 0.033 0.08~0.40 0.404
6~7 0.447 0.40~0.48 0.474
7~9 0.483 0.48~0.56 0.164
>9 -0.419 >0.56 -0.877
平面曲率 <-1 -0.872 剖面曲率 <-2 -1.488
-1~0 0.037 -2~0 0.026
0~1 0.135 0~2 0.049
>1 -1.270 >2 -1.402
曲率 <-2 -1.072 地形起伏度/m <15 -0.370
-2~0 0.040 15~30 0.600
0~2 0.148 30~45 0.011
>2 -1.289 45~74 -0.762
地面粗糙度 <1.2 0.169 >74 -1.522
1.2~1.4 -0.875 土地利用 耕地 0.926
1.4~1.6 -1.302 林地 -0.293
>1.6 -1.893 建设用地 0.822
坡向 平面 -1.994 水体 0.000
0.294 裸地 0.297
东北 -0.025 地层岩性 A 松散类岩组 1.662
-0.212 B 坚硬厚层砂岩组 0.511
东南 -0.074 C 软硬相间砂泥岩互层 1.120
0.316 D 软弱薄层粘土岩组 0.546
西南 0.153 E 碳酸盐岩坚硬岩组 -3.650
西 -0.307 F 较软弱中薄层砂页岩组 0.662
西北 -0.181

4 滑坡易发性评价

4.1 评价指标体系构建

进行滑坡易发性评价时,为保证模型评价的准确性,参与建模的评价指标之间需具有相对独立性。开展评价指标间的相关性分析,剔除相关性较高的指标。采用Pearson相关系数分析评价指标之间的相关性,当2个因子间的相关系数大于0.5时,认为其具有较高的相关性[38]。由图7可知,曲率、地面粗糙度和地形起伏度的相关系数均大于0.5,相关性较高;因此,剔除曲率、地面粗糙度和地形起伏度3个高相关指标,将高程、NDVI、湿度指数、径流强度指数、剖面曲率、平面曲率、坡向、坡度、距河流距离、距道路距离、距断层距离、土地利用和地层岩性共13个评价指标作为研究区的易发性评价指标。
图7 滑坡易发性评价指标相关性分析

Fig. 7 Correlation analysis of landslide influencing factors

4.2 训练样本选取

依据中国地质调查局《地质灾害调查技术要求(1: 50 000)》[39],采用30 m空间分辨率的栅格作为基础评价单元。据表3叠加13个评价指标不同分级的信息量值,得到研究区的信息量总结果(图8)。研究区共有滑坡单元93 687个,随机选取70% (65 581个)作为训练样本,剩余的则为检验样本。通过试算法将NLS指数设置为4,从数据集A中抽取 X 1=13 116个,数据集B中抽取 X 2=52 465个,即在信息量大于0的样本集中随机选取52 465个,在信息量小于或等于0的样本集中则随机选取 13 116个,共同组成65 581个非滑坡样本。将滑坡样本与非滑坡样本组合在一起形成模型的训练样本集。
图8 基于信息量模型的初始滑坡易发性

Fig. 8 Landslide susceptibility map of the information model

4.3 易发性预测建模

依据信息量值对评价指标进行归一化处理 (表3),以减少指标之间的量纲影响并保证模型精度;滑坡与非滑坡标签则分别用1和0表示。利用Stacking异质集成机器学习模型进行易发性预测建模,为验证模型性能,同时采用3个单模型(RF,GBDT和LGBM)和3个同质集成模型(Boosting-RF,Boosting-GBDT和Boosting-LGBM)模型分别进行易发性建模,模型参数通过试算法获取(表4)。
表4 模型参数设置

Tab. 4 Parameters of the used models

模型名称 模型参数
RF 决策树个数 = 120, 最大树深度 = 5
GBDT 损失函数 = l s, 学习率 = 0.1, 决策树个数=100
LGBM Bagging比例 = 0.8, Bagging频率 = 6
Boosting-GBDT 基分类器数量 = 45,学习率 = 1
Boosting-LGBM 基分类器数量 = 5, 学习率 = 1
Boosting-RF 基分类器数量 = 10,学习率 = 1
Stacking 类别概率值 = True
利用训练好的模型对研究区的所有栅格单元开展滑坡易发性预测,得到易发性指数值。随后按易发性指数值从大到小依次划分为极高易发性(5%)、高易发性(10%)、中易发性(15%)、低易发性(25%)和极低易发性(45%)共5个等级,结果如图9所示。
图9 滑坡易发性分级

Fig. 9 Landslide susceptibility maps

5 结果与分析

5.1 滑坡发育影响因素分析

奉节县的滑坡主要发育在松散类岩组发育区,高程小于450 m,土地利用类型为耕地和道路距离小于200 m的区域,其信息量分别为最高的1.662、1.465、0.926和0.704。研究区的松散类岩组主要分布在第四系全新统残积层,由于结构松散,力学强度低,是滑坡发育主要物质基础;剧烈的人类工程活动主要发生在低海拔区域,耕种和切坡等活动都将破坏自然斜坡的稳定性。此外,三峡库区库水位在145~175 m之间周期性调度,库水位升降形成的岩土体劣化,动水压力和浮托力都将诱发滑坡的密集发育[40]。然而,当高程大于1 350 m,地层岩性为碳酸盐岩坚硬岩组时,对应信息量分别为-5.406和-3.650,几乎不发育滑坡。研究区的高海拔地区工程活动少且为硬岩分布区,不具备滑坡发育所需的外界诱发因素和物质基础。

5.2 非滑坡样本选取

采用23组不同的NLS指数进行了易发性建模,为确保试验结果的可靠性,每组试验重复5次(表5)。由试验可知,随着NLS指数的取值减小,非滑坡样本的多样化特征逐渐增多,预测精度不断提高;当NLS取值为4或3时,更能表征非滑坡区域的工程地质环境特征,其建模精度为最高的0.801。随着NLS指数的逐渐增大,信息量值较大的样本也被选取作为非滑坡样本,降低了样本的质量,建模精度逐渐降低。NLS指数能准确的刻画非滑坡样本的分布情况,有效的选取具有多样性和代表性的非滑坡样本,提升样本的质量,保证易发性建模的精度。
表5 不同NLS指数的滑坡易发性建模精度

Tab. 5 Landslide susceptibility modeling accuracy of NLS indexes

NLS 数据集A 数据集B AUC NLS 数据集A 数据集B AUC
50 64 294 1 286 0.799 1/2 21 860 43 720 0.795
20 62 547 3 123 0.800 1/3 16 395 49 185 0.792
10 59 618 5 962 0.800 1/4 13 116 52 464 0.788
9 59 022 6 558 0.800 1/5 10 930 54 650 0.784
8 58 293 7 287 0.800 1/6 9 369 56 211 0.780
7 57 382 8 198 0.800 1/7 8 198 57 382 0.775
6 56 211 9 369 0.800 1/8 7 287 58 293 0.772
5 54 650 10 930 0.800 1/9 6 558 59 022 0.768
4 52 464 13 116 0.801 1/10 5 962 59 618 0.764
3 49 185 16 395 0.801 1/20 3 123 62 457 0.731
2 42 808 22 772 0.800 1/50 1 296 64 294 0.675
1 32 790 32 790 0.799 - - - -
常用的非滑坡样本选取方法是采用随机函数从当前未发生滑坡的所有区域中随机选取。由于随机选取的多变性,建模的精度随样本选取质量发生波动,不确定性较大。而基于信息量模型提出的NLS指数按照信息量值将非滑坡样本分为2大类,并以比值的形式具体化,可以保障非滑坡样本选取的质量和稳定性。

5.3 模型精度评价

5.3.1 频率比统计分析

为了定量分析易发性分区图,使用频率比来衡量预测结果的可靠性与准确性。频率比的定义为滑坡易发性分区内滑坡栅格数占总滑坡栅格数的比例与该分区总栅格数占总研究区栅格数比例的比值,可表征滑坡在各易发区中的强度。频率比在极低易发区中值越小,在极高易发区中值越大,表明该模型预测效果越好。据统计,Stacking集成模型的预测结果在极高、高、中、低和极低易发区的滑坡面积比分别为0.63、0.25、0.08、0.03和0.01,对应的频率比分别为12.58、2.54、0.53、0.13和0.01;极高和高易发区的滑坡面积比和频率比最高,而极低和低易发区的滑坡面积比和频率比最低,说明该模型的易发性分区结果较为合理。Stacking集成模型中落入极高易发区的滑坡面积比高达0.63,比同质集成模型高0.19~0.27,比单模型高0.25~0.30;落入极低易发区中的滑坡面积比仅为0.01(图10)。总体而言,Stacking集成模型在极高易发区的分类正确率更高,在极低易发区的误分类率更低,能更好地预测滑坡的空间分布情况。
图10 滑坡易发性等级的频率比统计分析

Fig. 10 Statistical analysis of the frequency ratio of landslide susceptibility levels

5.3.2 ROC曲线分析

通过ROC曲线结果(图11)可以发现,异质集成(Stacking)模型的易发性建模精度最好,其AUC值为最高的0.941。3个同质集成模型Boosting-RF,Boosting-LGBM和Boosting-GBDT的建模精度分别为0.902,0.897和0.870,均优于对应的单模型RF,LGBM和GBDT。同质和异质集成学习技术通过耦合多个单模型,都较大提升了建模的精度,说明集成方法可以耦合不同机器学习模型的优点,有效提升模型预测性能(表6)。Staking集成模型的性能提升分别为0.059、0.077和0.086,显著优于同质集成模型的0.020、0.033和0.015,说明基础单模型的差异性越大,集成建模的效果越好。此外,在应用的3个机器学习模型中,RF的精度为0.882,说明其预测性能最好,其后依次是LGBM (0.864)和GBDT (0.855)。
图11 各模型预测滑坡易发性的ROC曲线

Fig. 11 The ROC curves of the models in landslide susceptibility

表6 易发性建模精度统计与对比

Tab. 6 Statistics and comparison of the accuracy of susceptibility modeling

精度 单模型(a) 同质集成(b) 异质集成(c) 精度提升1(b-a) 精度提升2(c-a) 精度提升3(c-b)
RF 0.882 0.902 0.941 0.020 0.059 0.039
LGBM 0.864 0.897 0.033 0.077 0.044
GBDT 0.855 0.870 0.015 0.086 0.071

注:a、b、c分别为单模型,同质集成与异质集成的精度;b-a为同质集成相比于单模型的精度提升;c-a为异质集成相比于单模型的精度提升;c-b为异质集成相比于同质集成的精度提升。

6 讨论

易发性模型的不确定性是影响其迁移应用的关键。由于滑坡空间发育规律的差异性,单模型的迁移应用可能存在失效现象,在有些地区可以取得较好的精度,但在有些地区的精度则欠佳。如神经网络模型在恩施市龙凤镇取得了较好的建模精度(0.909)[41],但在三峡库区万州区的精度仅有0.716[42]。异质集成学习可将不同基模型的优缺点进行互补,相对于单个基模型而言,降低了不确定性,能得到更高的建模精度,且基模型的差异性越大,精度提升效果越高。此外,提出的NLS指数可以量化表征非滑坡样本的选取准则,然而,由于不同区域的工程地质环境及其滑坡发育情况可能差异显著,这使得NLS指数的最优取值范围可能也不同。因此,在应用NLS指数时,科学试算得到目标区域合理的最优取值范围是必要的。
目前数据驱动的易发性评价模型多以栅格为基础单元,如本文采用的30 m空间分辨率的栅格单元。虽然栅格单元在处理效率上有优势,但是它未考虑滑坡的地质特征,在一定程度上弱化了单体滑坡灾害的整体性和联动性。在基于栅格单元的评价方法中,滑坡通常被划分为多个栅格单元,由于各个栅格单元的条件属性不同,单体滑坡范围内可能会出现差异较大的易发性等级评价结果,如存在大量极高易发性栅格的同时也存在部分极低易发或者低易发的栅格单元,导致预测结果与滑坡灾害联动变形/失稳的特征不吻合。后续可以采用栅格矩阵代替单个栅格作为基础评价单元,将目标栅格邻域的地质环境也考虑至易发性建模中,构建目标单元易发性指数与周边地质环境的量化关系,降低单体滑坡范围内易发性等级差异较大的误差。

7 结论

滑坡易发性评价是滑坡风险评价的基础,本文以三峡库区奉节县为例,应用信息量法定量分析了滑坡空间发育规律与评价指标之间的关系,结合非滑坡样本选取指数优化样本并利用异质集成机器学习模型进行区域易发性评价。研究发现:
(1)不同的评价指标对滑坡发育的影响不同,通过信息量法可以定量分析评价指标。地层岩性(松散类岩组),高程(<450 m),土地利用(耕地)和道路距离(<200 m)是控制滑坡空间发育的最主要因素条件,信息量值分别为1.662、1.465、0.926和0.704。
(2)提出的NLS指数能量化表征非滑坡样本的选取准则。采用逻辑回归模型确定NLS指数的最佳取值范围,可以有效选取能充分表征非滑坡区域工程地质环境特征的样本集,且规避了传统随机选取方法中样本质量不稳定的问题,有效提升易发性建模的精度。
(3)以RF、LGBM和GBDT为基模型,采用Staking异质集成算法构建的易发性模型取得了最高的预测精度(0.941),优于3种Boosting同质集成模型和3种单模型,说明Stacking异质集成模型通过组合不同基模型的优点,可以比同质集成更有效的提升易发性建模的精度。总体而言,耦合NLS指数和异质集成机器学习模型是一种有效的区域滑坡易发性建模方法,值得在灾害风险制图中推广应用。
[1]
Zhou C, Cao Y, Yin K L, et al. Landslide characterization applying Sentinel-1 images and InSAR technique: The Muyubao landslide in the Three Gorges Reservoir area, China[J]. Remote Sensing, 2020, 12(20):3385. DOI:10.3390/rs12203385

DOI

[2]
Liu L L, Zhang J, Li J Z, et al. A bibliometric analysis of the landslide susceptibility research (1999-2021)[J]. Geocarto International, 2022, 37(26):14309-14334. DOI:10.1080/10106049.2022.2087753

DOI

[3]
Lv L, Chen T, Dou J, et al. A hybrid ensemble-based deep-learning framework for landslide susceptibility mapping[J]. International Journal of Applied Earth Observation and Geoinformation, 2022, 108:102713. DOI:10.1016/j.jag.2022.102713

DOI

[4]
Zhou C, Cao Y, Hu X, et al. Enhanced dynamic landslide hazard mapping using MT-InSAR method in the Three Gorges Reservoir Area[J]. Landslides, 2022, 19(7):1585-1597. DOI:10.1007/s10346-021-01796-1

DOI

[5]
Lan H X, Zhou C H, Wang L J, et al. Landslide hazard spatial analysis and prediction using GIS in the Xiaojiang watershed, Yunnan, China[J]. Engineering Geology, 2004, 76(1/2):109-128. DOI:10.1016/j.enggeo.2004.06.009

DOI

[6]
Corominas J, van Westen C, Frattini P, et al. Recommendations for the quantitative analysis of landslide risk[J]. Bulletin of Engineering Geology and the Environment, 2014, 73(2):209-263. DOI:10.1007/s10064-013-0538-8

DOI

[7]
许冲, 戴福初, 姚鑫, 等. GIS支持下基于层次分析法的汶川地震区滑坡易发性评价[J]. 岩石力学与工程学报, 2009, 28(S2):3978-3985.

[Xu C, Dai F C, Yao X, et al. Gis-based landslide susceptibility assessment using analytical hierarchy process in Wenchuan earthquake region[J]. Chinese Journal of Rock Mechanics and Engineering, 2009, 28(S2):3978-3985.] DOI:10.3321/j.issn:1000-6915.2009.z2.100

DOI

[8]
王进, 郭靖, 王卫东, 等. 权重线性组合与逻辑回归模型在滑坡易发性区划中的应用与比较[J]. 中南大学学报(自然科学版), 2012, 43(5):1932-1939.

[Wang J, Guo J, Wang W D, et al. Application and comparison of weighted linear combination model and logistic regression model in landslide susceptibility mapping[J]. Journal of Central South University(Science and Technology), 2012, 43(5):1932-1939.]

[9]
Listo F, Gomes M, Ferreira F S. Evaluation of shallow landslide susceptibility and Factor of Safety variation using the TRIGRS model, Serra do Mar Mountain Range, Brazil[J]. Journal of South American Earth Sciences, 2021, 107:103011. DOI:10.1016/j.jsames.2020.103011

DOI

[10]
林齐根, 刘燕仪, 刘连友, 等. 支持向量机与Newmark模型结合的地震滑坡易发性评估研究[J]. 地球信息科学学报, 2017, 19(12):1623-1633.

DOI

[Lin Q G, Liu Y Y, Liu L Y, et al. Earthquake-triggered landslide susceptibility assessment based on support vector machine combined with Newmark displacement model[J]. Journal of Geo-information Science, 2017, 19(12):1623-1633.] DOI:10.3724/SP.J.1047.2017.01623

DOI

[11]
Merghadi A, Yunus A P, Dou J, et al. Machine learning methods for landslide susceptibility studies: A comparative overview of algorithm performance[J]. Earth-Science Reviews, 2020, 207:103225. DOI:10.1016/j.earscirev.2020.103225

DOI

[12]
Korup O, Stolle A. Landslide prediction from machine learning[J]. Geology Today, 2014, 30(1):26-33. DOI:10.1111/gto.12034

DOI

[13]
Reichenbach P, Rossi M, Malamud B D, et al. A review of statistically-based landslide susceptibility models[J]. Earth-Science Reviews, 2018, 180:60-91. DOI:10.1016/j.earscirev.2018.03.001

DOI

[14]
Zhou C, Yin K L, Cao Y, et al. Landslide susceptibility modeling applying machine learning methods: A case study from Longju in the Three Gorges Reservoir area, China[J]. Computers & Geosciences, 2018, 112:23-37. DOI:10.1016/j.cageo.2017.11.019

DOI

[15]
吴润泽, 胡旭东, 梅红波, 等. 基于随机森林的滑坡空间易发性评价:以三峡库区湖北段为例[J]. 地球科学, 2021, 46(1):321-330.

[Wu R Z, Hu X D, Mei H B, et al. Spatial susceptibility assessment of landslides based on random forest: A case study from Hubei section in the Three Gorges Reservoir area[J]. Earth Science, 2021, 46(1):321-330.] DOI:10.3799/dqkx.2020.032

DOI

[16]
徐胜华, 刘纪平, 王想红, 等. 熵指数融入支持向量机的滑坡灾害易发性评价方法——以陕西省为例[J]. 武汉大学学报·信息科学版, 2020, 45(8):1214-1222.

[Xu S H, Liu J P, Wang X H, et al. Landslide susceptibility assessment method incorporating index of entropy based on support vector machine: A case study of Shaanxi Province[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8):1214-1222.] DOI:10.13203/j.whugis20200109

DOI

[17]
周超, 殷坤龙, 曹颖, 等. 基于集成学习与径向基神经网络耦合模型的三峡库区滑坡易发性评价[J]. 地球科学, 2020, 45(6):1865-1876.

[Zhou C, Yin K L, Cao Y, et al. Landslide susceptibility assessment by applying the coupling method of radial basis neural network and adaboost: A case study from the Three Gorges Reservoir area[J]. Earth Science, 2020, 45(6):1865-1876.] DOI:10.3799/dqkx.2020.071

DOI

[18]
Polykretis C, Grillakis M G, Argyriou A V, et al. Integrating multivariate (GeoDetector) and bivariate (IV) statistics for hybrid landslide susceptibility modeling: A case of the vicinity of Pinios artificial lake, Ilia, Greece[J]. Land, 2021, 10(9):973. DOI:10.3390/land10090973

DOI

[19]
Dietterich T G. An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, boosting, and randomization[J]. Machine Learning, 2000, 40(2):139-157. DOI:10.1023/A:1007607513941

DOI

[20]
徐慧丽. Stacking算法的研究及改进[D]. 广州: 华南理工大学, 2018.

[Xu H L. The study and improvement of stacking[D]. Guangzhou: South China University of Technology, 2018.]

[21]
Liu M M, Liu J P, Xu S H, et al. Landslide susceptibility mapping with the fusion of multi-feature SVM model based FCM sampling strategy: A case study from Shaanxi Province[J]. International Journal of Image and Data Fusion, 2021, 12(4):349-366. DOI:10.1080/19479832.2021.1961316

DOI

[22]
段宇英, 汤军, 刘远刚, 等. 基于随机森林的山西省柳林县黄土滑坡空间敏感性评价[J]. 地理科学, 2022, 42(2):343-351.

DOI

[Duan Y Y, Tang J, Liu Y G, et al. Spatial sensitivity evaluation of loess landslide in Liulin County, Shanxi based on random forest[J]. Scientia Geographica Sinica, 2022, 42(2):343-351.] DOI:10.13249/j.cnki.sgs.2022.02.016

DOI

[23]
黄发明, 潘李含, 姚池, 等. 基于半监督机器学习的滑坡易发性预测建模[J]. 浙江大学学报(工学版), 2021, 55(9):1705-1713.

[Huang F M, Pan L H, Yao C, et al. Landslide susceptibility prediction modelling based on semi-supervised machine learning[J]. Journal of Zhejiang University (Engineering Science), 2021, 55(9):1705-1713.] DOI:10.3785/j.issn.1008-973X.2021.09.012

DOI

[24]
Kavzoglu T, Sahin E K, Colkesen I. Landslide susceptibility mapping using GIS-based multi-criteria decision analysis, support vector machines and logistic regression[J]. Landslides, 2014, 11(3):425-439. DOI:10.1007/s10346-01 3-0391-7

DOI

[25]
何书, 鲜木斯艳·阿布迪克依木, 胡萌, 等. 基于自组织特征映射网络-随机森林模型的滑坡易发性评价—以江西大余县为例[J]. 中国地质灾害与防治学报, 2022, 33(1):132-140.

[He S, Abudikeyimu XMSY, Hu Meng, et al. Evaluation on landslide susceptibility based on self-organizing feature map network and random forest model:A case study of Dayu County of Jiangxi Province[J]. The Chinese Journal of Geological Hazard and Control, 2022, 33(1):132-140.] DOI:10.16031/j.cnki.issn.1003-8035.2022.01-16

DOI

[26]
Zhu A X, Miao Y, Liu J, et al. A similarity-based approach to sampling absence data for landslide susceptibility mapping using data-driven methods[J]. Catena. 2019, 183:104188. DOI:10.1016/j.catena.2019.104188

DOI

[27]
Chen S, Miao Z L, Wu L X, et al. A one-class-classifier-based negative data generation method for rapid earthquake-induced landslide susceptibility mapping[J]. Frontiers in Earth Science, 2021, 9:609896. DOI:10.3389/feart.2021.609896

DOI

[28]
周超, 殷坤龙, 向章波, 等. 基于GIS的淳安县滑坡易发性定量评价[J]. 安全与环境工程, 2015, 22(1):45-50,55.

[Zhou C, Yin K L, Xiang Z B, et al. Quantitative evaluation of the landslide susceptibility in Chun'an County based on GIS[J]. Safety and Environmental Engineering, 2015, 22(1):45-50,55.] DOI:10.13578/j.cnki.issn.1671-1556.2015.01.008

DOI

[29]
Zhang W H, Yu J Q, Zhao A J, et al. Predictive model of cooling load for ice storage air-conditioning system by using GBDT[J]. Energy Reports, 2021, 7:1588-1597. DOI: 10.1016/j.egyr.2021.03.017

DOI

[30]
Wang Y, Wang T. Application of improved LightGBM model in blood glucose prediction[J]. Applied Sciences, 2020, 10(9):3227. DOI:10.3390/app10093227

DOI

[31]
Hong H Y, Miao Y M, Liu J Z, et al. Exploring the effects of the design and quantity of absence data on the performance of random forest-based landslide susceptibility mapping[J]. Catena, 2019, 176:45-64. DOI:10.1016/j.catena.2018.12.035

DOI

[32]
Wolpert D H. Stacked generalization[J]. Neural Networks, 1992, 5(2):241-259. DOI:10.1016/S0893-6080(05)80023-1

DOI

[33]
Wang H J, Zhang L M, Luo H Y, et al. AI-powered landslide susceptibility assessment in Hong Kong[J]. Engineering Geology, 2021, 288:106103. DOI:10.1016/j.enggeo.2021.106103

DOI

[34]
刘月, 王宁涛, 周超, 等. 基于ROC曲线与确定性系数法集成模型的三峡库区奉节县滑坡易发性评价[J]. 安全与环境工程, 2020, 27(4):61-70.

[Liu Y, Wang N T, Zhou C, et al. Evaluation of landslide susceptibility based on ROC and certainty factor method in Fengjie County, Three Gorges Reservoir[J]. Safety and Environmental Engineering, 2020, 27(4):61-70.] DOI:10.13578/j.cnki.issn.1671-1556.2020.04.009

DOI

[35]
Sun D L, Wen H J, Wang D Z, et al. A random forest model of landslide susceptibility mapping based on hyperparameter optimization using Bayes algorithm[J]. Geomorphology, 2020, 362:107201. DOI:10.1016/j.geomorph.2020.107201

DOI

[36]
徐帅, 王尚晓, 牛瑞卿. 基于InSAR技术的三峡库区巫山—奉节段潜在滑坡识别[J]. 安全与环境工程, 2020, 27(1):32-38.

[Xu S, Wang S X, Niu R Q. Identification of the potential landslide in Wushan—Fengjie in the Three Gorges Reservoir area based on InSAR technology[J]. Safety and Environmental Engineering, 2020, 27(1):32-38.] DOI:10.13578/j.cnki.issn.1671-1556.2020.01.006

DOI

[37]
王佳佳, 殷坤龙, 肖莉丽. 基于GIS和信息量的滑坡灾害易发性评价——以三峡库区万州区为例[J]. 岩石力学与工程学报, 2014, 33(4):797-808.

[Wang J J, Yin K L, Xiao L L. Landslide susceptibility assessment based on GIS and weighted information value: A case study of Wanzhou district, Three Gorges Reservoir[J]. Chinese Journal of Rock Mechanics and Engineering, 2014, 33(4):797-808.] DOI:10.13722/j.cnki.jrme.2014.04.012

DOI

[38]
刘坚, 李树林, 陈涛. 基于优化随机森林模型的滑坡易发性评价[J]. 武汉大学学报·信息科学版, 2018, 43(7):1085-1091.

[Liu J, Li S L, Chen T. Landslide susceptibility assessment based on optimized random forest model[J]. Geomatics and Information Science of Wuhan University, 2018, 43(7):1085-1091.] DOI:10.13203/j.whugis20160515

DOI

[39]
中国地质调查局. 地质灾害调查技术要求(1:50 000):DD2019-08[S]. 北京: 中国标准出版社, 2019.

[Technical requirement for geohazard survey (1:50 000): DD2019-08[S]. Beijing: Standards Press of China, 2019.]

[40]
Zhou C, Cao Y, Yin K L, et al. Characteristic comparison of seepage-driven and buoyancy-driven landslides in Three Gorges Reservoir area, China[J]. Engineering Geology, 2022, 301:106590. DOI:10.1016/j.enggeo.2022.106590

DOI

[41]
唐睿旋, 晏鄂川, 唐薇. 基于粗糙集和BP神经网络的滑坡易发性评价[J]. 煤田地质与勘探, 2017, 45(6):129-138.

[Tang R X, Yan E C, Tang W. Landslide susceptibility evaluation based on rough set and back-propagation neural network[J]. Coal Geology & Exploration, 2017, 45(6):129-138.] DOI:10.3969/j.issn.1001-1986.2017.06.021

DOI

[42]
郭子正, 殷坤龙, 付圣, 等. 基于GIS与WOE-BP模型的滑坡易发性评价[J]. 地球科学, 2019, 44(12):4299-4312.

[Guo Z Z, Yin K L, Fu S, et al. Evaluation of landslide susceptibility based on GIS and WOE-BP model[J]. Earth Science, 2019, 44(12):4299-4312.] DOI:10.3799/dqkx.2018.555

DOI

Outlines

/