基于特征筛选与差分进化算法优化的滑坡危险性评估方法
周侯伯(1997— ),男,福建泉州人,硕士研究生,主要从事数据挖掘、机器学习与突发性地质灾害风险评估研究。E-mail: 979072677@qq.com |
收稿日期: 2022-04-04
修回日期: 2022-05-18
网络出版日期: 2023-02-25
基金资助
中央引导地方科技发展专项(2020L3005)
中国科学院A类战略性先导科技专项(XDA23100504)
Landslide Hazard Assessment Method based on Feature Screening and Differential Evolution Algorithm Optimization
Received date: 2022-04-04
Revised date: 2022-05-18
Online published: 2023-02-25
Supported by
Central Guided Local Development of Science and Technology Project(2020L3005)
Strategic Priority Research Program of the Chinese Academy of Sciences(Class A)(XDA23100504)
突发性地质灾害危险性评估对灾害防治与风险管理具有重要意义。由于不同地区影响灾害发生的因子各不相同,实际评估过程中难以全面客观地选取适宜的评估因子。机器学习对处理灾害系统的高维非线性问题独具优势,但因模型难以调优而评估效果有限。本文尝试提出一种双向优化的滑坡危险性评估方法:在构建因子敏感性指数开展定量敏感性分析的基础上,结合重要性分析、相关性分析、共线性分析构建四维(Four-Dimensional, 4D)特征筛选法用于评估因子综合优选;为克服模型难以调优的问题,引入差分进化(Differential Evolution, DE)算法优化支持向量机(Support Vector Machine, SVM)与多层感知机(Multi-Layer Perceptron, MLP) 2种推广能力较强的机器学习模型。最后,以福建省滑坡为例,开展评估方法研究。研究表明:4D特征筛选法能更加客观全面地选取适宜性更高的危险性评估因子,从而降低数据维度、减少信息冗余以提升评估模型性能;DE算法对SVM与MLP具有显著的优化效果,有益于增强模型滑坡危险性的评估准确度,DE-SVM、DE-MLP相较于未优化前模型的AUC值分别提升了4.43%与4.37%;基于双向优化的滑坡危险性评估结果表明,降雨与土地利用类型对福建省滑坡发生具有重要影响作用,福建省滑坡极高危险区普遍年均降雨较高、地形复杂多变,极低危险区主要位于东南沿海一带及闽江流域两侧。本研究为滑坡危险性评估中的影响因子客观选取与机器学习模型调优提供了一定思路。
周侯伯 , 肖桂荣 , 林炫歆 , 尹玉环 . 基于特征筛选与差分进化算法优化的滑坡危险性评估方法[J]. 地球信息科学学报, 2022 , 24(12) : 2373 -2388 . DOI: 10.12082/dqxxkx.2022.220158
Hazard assessment of sudden geological disasters is of great significance for disaster prevention and risk management. Due to different factors affecting the occurrence of disasters in different regions, it is difficult to select appropriate factors comprehensively and objectively in an actual evaluation process. Machine learning has unique advantages in dealing with high-dimensional nonlinear problems of disaster systems, but its evaluation performance is limited because the model is difficult to tune. This paper attempted to propose a two-way optimization method for landslide hazard assessment. Based on a factor sensitivity index built for quantitative sensitivity analysis, combining importance analysis, correlation analysis, and collinearity analysis, and following the principle of “guarantee sensitivity, retain importance, eliminate correlation, and avoid collinearity", a four-dimensional (4D) feature screening method was constructed to evaluate the comprehensive optimization of factors. In order to overcome the problem that the model is difficult to tune, the Differential Evolution (DE) algorithm was further introduced. Two machine learning models with strong generalization ability, i.e., Support Vector Machine (SVM) and Multi-Layer Perceptron (MLP), were optimized. Finally, we took the landslide in Fujian Province as an example to verify the proposed evaluation method. We found that the 4D feature screening method can more objectively and comprehensively select suitable hazard assessment factors, thereby reducing the data dimension and reducing information redundancy to improve the performance of the assessment model. Ten suitability assessment factors were finally used for landslide hazard assessment in Fujian Province including aspect, variance coefficient in elevation, land use type, average annual rainfall, surface cutting depth, distance to river, distance to road, engineering geological rock group, topographic wetness index, and stream power index. The DE algorithm can obtain better hyperparameters from global search and has a significant optimization effect on SVM and MLP, which is beneficial to improve the evaluation accuracy of the landslide hazard of the model. Compared with the unoptimized models, the AUC values of DE-SVM and DE-MLP increased by 4.43% and 4.37%, respectively. The results of landslide hazard assessment based on two-way optimization show that rainfall and land use types have an important impact on the occurrence of landslides in Fujian Province. Terrain curvature elements, terrain variability elements, and fault structures have little impact on landslide occurrence. The extremely high-hazard areas generally have high annual rainfall and complex and changeful terrain. The extremely low-hazard areas are mainly located along the southeast coast and on both sides of the Minjiang River Basin. This research provides some ideas for objective selection of influencing factors in landslide hazard assessment and machine learning model tuning.
表1 危险性评估因子初步选取结果Tab. 1 Preliminary selection results of hazard assessment factors |
危险性评估因子类型 | 初选评估因子 |
---|---|
微观地形因子 | 高程、坡向、坡度、地形曲率、平面曲率、剖面曲率、坡度变率、坡向变率 |
宏观地形因子 | 地形起伏度、地表切割深度、高程变异系数、地表粗糙度 |
水文环境因子 | 地形湿度指数、径流强度指数 |
自然地理因子 | 年均降雨量、年均归一化植被指数、到河流距离 |
地质影响因子 | 工程地质岩组、到断裂距离 |
社会影响因子 | 土地利用类型、到道路距离 |
表2 危险性评估因子敏感性分析计算结果Tab. 2 Calculation results of sensitivity analysis of hazard assessment factors |
敏感性排序 | 危险性评估因子 | ||||
---|---|---|---|---|---|
1 | 土地利用类型 | 3.09 | 2.02 | 1.25 | 2.12 |
2 | 地表切割深度 | 2.03 | 2.85 | 1.41 | 2.10 |
3 | 工程地质岩组 | 1.40 | 2.33 | 1.21 | 1.65 |
4 | 地形起伏度 | 1.62 | 2.05 | 1.22 | 1.63 |
5 | 地表粗糙度 | 1.19 | 2.15 | 1.10 | 1.48 |
6 | 年均降雨量 | 1.26 | 1.67 | 1.06 | 1.33 |
7 | 年均归一化植被指数 | 1.31 | 1.57 | 1.05 | 1.31 |
8 | 坡向 | 1.01 | 1.80 | 0.98 | 1.26 |
9 | 高程 | 1.03 | 1.53 | 0.95 | 1.17 |
10 | 坡度 | 0.95 | 1.17 | 0.85 | 0.99 |
11 | 高程变异系数 | 0.98 | 1.05 | 0.81 | 0.95 |
12 | 到道路距离 | 1.13 | 0.91 | 0.71 | 0.92 |
13 | 到河流距离 | 0.76 | 0.69 | 0.57 | 0.67 |
14 | 径流强度指数 | 0.49 | 0.64 | 0.49 | 0.54 |
15 | 地形湿度指数 | 0.57 | 0.56 | 0.49 | 0.54 |
16 | 平面曲率 | 0.46 | 0.54 | 0.45 | 0.48 |
17 | 剖面曲率 | 0.46 | 0.51 | 0.44 | 0.47 |
18 | 坡度变率 | 0.44 | 0.50 | 0.43 | 0.46 |
19 | 坡向变率 | 0.20 | 0.20 | 0.19 | 0.20 |
20 | 到断裂构造距离 | 0.19 | 0.18 | 0.17 | 0.18 |
21 | 地形曲率 | 0.07 | 0.07 | 0.07 | 0.07 |
表3 危险性评估因子重要性分析计算结果Tab. 3 Calculation results of importance analysis of hazard assessment factors |
重要性排序 | 危险性评估因子 | GBDT重要性特征值 | RF重要性特征值 | 复合重要性特征值 |
---|---|---|---|---|
1 | 年均降雨量 | 0.29 | 0.10 | 0.35 |
2 | 年均归一化植被指数 | 0.12 | 0.08 | 0.19 |
3 | 高程 | 0.12 | 0.08 | 0.19 |
4 | 地表切割深度 | 0.10 | 0.09 | 0.17 |
5 | 土地利用类型 | 0.13 | 0.06 | 0.17 |
6 | 地形起伏度 | 0.10 | 0.07 | 0.16 |
7 | 到道路距离 | 0.04 | 0.05 | 0.08 |
8 | 高程变异系数 | 0.01 | 0.05 | 0.07 |
9 | 工程地质岩组 | 0.04 | 0.03 | 0.06 |
10 | 到河流距离 | 0.01 | 0.04 | 0.05 |
11 | 到断裂距离 | 0.01 | 0.04 | 0.05 |
12 | 地表粗糙度 | 0.00 | 0.04 | 0.04 |
13 | 坡度变率 | 0.00 | 0.04 | 0.04 |
14 | 坡度 | 0.01 | 0.04 | 0.04 |
15 | 地形湿度指数 | 0.01 | 0.03 | 0.04 |
16 | 平面曲率 | 0.00 | 0.03 | 0.04 |
17 | 径流强度指数 | 0.00 | 0.04 | 0.04 |
18 | 坡向变率 | 0.00 | 0.03 | 0.04 |
19 | 剖面曲率 | 0.00 | 0.03 | 0.03 |
20 | 坡向 | 0.00 | 0.03 | 0.03 |
21 | 地形曲率 | 0.00 | 0.01 | 0.01 |
表4 危险性评估因子共线性分析计算结果Tab. 4 Calculation results of collinearity analysis of hazard assessment factors |
危险性评估因子 | TOL | VIF | 危险性评估因子 | TOL | VIF |
---|---|---|---|---|---|
坡度 | 0.07 | 14.00 | 年均降雨量 | 0.56 | 1.79 |
地形起伏度 | 0.09 | 10.61 | 高程变异系数 | 0.62 | 1.62 |
地表切割深度 | 0.10 | 9.90 | 坡度变率 | 0.75 | 1.33 |
地表粗糙度 | 0.12 | 8.71 | 土地利用类型 | 0.83 | 1.21 |
年均归一化植被指数 | 0.37 | 2.69 | 到河流距离 | 0.84 | 1.19 |
地形曲率 | 0.40 | 2.51 | 到道路距离 | 0.85 | 1.18 |
高程 | 0.47 | 2.13 | 到断裂构造距离 | 0.87 | 1.15 |
平面曲率 | 0.50 | 1.99 | 工程地质岩组 | 0.90 | 1.12 |
坡向变率 | 0.52 | 1.92 | 径流强度指数 | 0.91 | 1.10 |
剖面曲率 | 0.53 | 1.90 | 坡向 | 1.00 | 1.01 |
地形湿度指数 | 0.55 | 1.81 |
表5 基于4D特征筛选法的模型对比计算结果Tab. 5 Results of model comparison calculations based on 4D feature screening method |
实验组别 | 输入因子说明 | ROC曲线AUC值 | |
---|---|---|---|
SVM | MLP | ||
初始对照组 | 21个初选因子 | 0.83 | 0.84 |
敏感性实验组 | 15个保留因子 | 0.83 | 0.84 |
重要性实验组 | 20个保留因子 | 0.83 | 0.84 |
重要性与敏感性实验组 | 15个保留因子 | 0.83 | 0.84 |
4D特征筛选结果对照组 | 10个优选因子 | 0.80 | 0.81 |
年均降雨量实验组Ⅰ | NDVI与其他9个优选因子 | 0.79 | 0.80 |
年均降雨量实验组Ⅱ | DEM与其他9个优选因子 | 0.80 | 0.82 |
地表切割深度实验组Ⅰ | Slope与其他9个优选因子 | 0.78 | 0.79 |
地表切割深度实验组Ⅱ | Rough与其他9个优选因子 | 0.78 | 0.79 |
地表切割深度实验组Ⅲ | RA与其他9个优选因子 | 0.80 | 0.81 |
注:NDVI表示年均归一化植被指数;DEM表示高程;Slope表示坡度;Rough表示地表粗糙度;RA表示地形起伏度。 |
图5 SVM与DE-SVM福建省滑坡危险性评估分级Fig. 5 SVM and DE-SVM landslide hazard assessment classification charts for Fujian Province |
表6 SVM与DE-SVM滑坡危险性分级统计结果Tab. 6 Results of SVM and DE-SVM landslide hazard classification statistics |
评估模型 | 栅格单元数量/个 | 栅格单元面积占比/% | 滑坡数量/个 | 滑坡数量占比/% | 频率比 | 危险性等级 |
---|---|---|---|---|---|---|
SVM | 13 428 847 | 10 | 132 | 2.14 | 0.21 | 极低 |
26 857 694 | 20 | 541 | 8.79 | 0.44 | 较低 | |
53 715 388 | 40 | 2471 | 40.14 | 1.00 | 中等 | |
26 857 694 | 20 | 2048 | 33.27 | 1.66 | 较高 | |
13 428 847 | 10 | 964 | 15.66 | 1.57 | 极高 | |
DE-SVM | 13 428 847 | 10 | 167 | 2.71 | 0.27 | 极低 |
26 857 694 | 20 | 474 | 7.70 | 0.38 | 较低 | |
53 715 388 | 40 | 2568 | 41.72 | 1.04 | 中等 | |
26 857 694 | 20 | 2026 | 32.91 | 1.65 | 较高 | |
13 428 847 | 10 | 921 | 14.96 | 1.50 | 极高 |
图6 MLP与DE-MLP福建省滑坡危险性评估分级Fig. 6 MLP and DE-MLP landslide hazard assessment classification charts for Fujian Province |
表7 MLP与DE-MLP滑坡危险性分级统计结果Tab. 7 Results of MLP and DE-MLP landslide hazard classification statistics |
评估模型 | 栅格单元数量/个 | 栅格单元面积占比/% | 滑坡数量/个 | 滑坡数量占比/% | 频率比 | 危险性等级 |
---|---|---|---|---|---|---|
MLP | 13 428 847 | 10 | 153 | 2.49 | 0.25 | 极低 |
26 857 694 | 20 | 584 | 9.49 | 0.47 | 较低 | |
53 715 388 | 40 | 2328 | 37.82 | 0.95 | 中等 | |
26 857 694 | 20 | 1816 | 29.50 | 1.47 | 较高 | |
13 428 847 | 10 | 1275 | 20.71 | 2.07 | 极高 | |
DE-MLP | 13 428 847 | 10 | 146 | 2.37 | 0.24 | 极低 |
26 857 694 | 20 | 570 | 9.26 | 0.46 | 较低 | |
53 715 388 | 40 | 2264 | 36.78 | 0.92 | 中等 | |
26 857 694 | 20 | 1885 | 30.62 | 1.53 | 较高 | |
13 428 847 | 10 | 1291 | 20.97 | 2.10 | 极高 |
表8 各类数据集分类准确率及ROC曲线计算结果Tab. 8 Classification accuracy and ROC curve calculation results for various datasets |
项目 | SVM | DE-SVM | MLP | DE-MLP |
---|---|---|---|---|
训练集准确率 | 0.85 | 0.89 | 0.85 | 0.85 |
测试集准确率 | 0.86 | 0.89 | 0.86 | 0.85 |
完整集准确率 | 0.85 | 0.89 | 0.85 | 0.85 |
训练集AUC值 | 0.92 | 0.95 | 0.92 | 0.92 |
测试集AUC值 | 0.92 | 0.95 | 0.93 | 0.92 |
完整集AUC值 | 0.92 | 0.95 | 0.92 | 0.92 |
表9 各个模型混淆矩阵计算结果Tab. 9 Results of confusion matrix calculations for each model |
注:0表示滑坡不发生;1表示滑坡发生。 |
表10 各类数据集成功率曲线计算结果Tab. 10 Calculation results of success rate curves of various data sets |
数据集类别 | SVM | DE-SVM | MLP | DE-MLP |
---|---|---|---|---|
训练数据集 | 0.78 | 0.82 | 0.73 | 0.77 |
测试数据集 | 0.78 | 0.82 | 0.74 | 0.78 |
完整数据集 | 0.78 | 0.82 | 0.73 | 0.78 |
[1] |
张洪吉, 赵铮, 陈建华, 等. 面向滑坡危险性评价的深度一维卷积神经网络方法——以四川省芦山县为例[J]. 自然灾害学报, 2021, 30(3):191-198.
[
|
[2] |
|
[3] |
|
[4] |
杨城, 林广发, 张明锋, 等. 基于DEM的福建省土质滑坡敏感性评价[J]. 地球信息科学学报, 2016, 18(12):1624-1633.
[
|
[5] |
牛全福, 冯尊斌, 党星海, 等. 黄土区滑坡研究中地形因子的选取与适宜性分析[J]. 地球信息科学学报, 2017, 19(12):1584-1592.
[
|
[6] |
王毅, 方志策, 牛瑞卿, 等. 基于深度学习的滑坡灾害易发性分析[J]. 地球信息科学学报, 2021, 23(12):2244-2260.
[
|
[7] |
李远远, 梅红波, 任晓杰, 等. 基于确定性系数和支持向量机的地质灾害易发性评价[J]. 地球信息科学学报, 2018, 20(12):1699-1709.
[
|
[8] |
黄发明, 殷坤龙, 蒋水华, 等. 基于聚类分析和支持向量机的滑坡易发性评价[J]. 岩石力学与工程学报, 2018, 37(1):156-167.
[
|
[9] |
黄锦林, 赵吉国, 张婷, 等. 基于层次分析法的库岸高速滑坡危险度评价[J]. 自然灾害学报, 2011, 20(5):95-99.
[
|
[10] |
张钟远, 邓明国, 徐世光, 等. 镇康县滑坡易发性评价模型对比研究[J]. 岩石力学与工程学报, 2022, 41(1):157-171.
[
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
胡安龙, 王孔伟, 李建林, 等. 基于智能算法优化支持向量机模型的滑坡稳定性预测[J]. 自然灾害学报, 2016, 25(5):46-54.
[
|
[22] |
|
[23] |
邹强. 洪灾风险综合分析与智能评价的理论与方法[D]. 武汉: 华中科技大学, 2013.
[
|
[24] |
丁青锋, 尹晓宇. 差分进化算法综述[J]. 智能系统学报, 2017, 12(4):431-442.
[
|
[25] |
唐川. 德国波恩地区滑坡特征与危险性评价[J]. 水土保持学报, 2000, 14(1):48-53,81.
[
|
[26] |
李益敏, 谢亚亚, 蒋德明, 等. 怒江州斜坡地质灾害孕灾环境因素敏感性研究[J]. 水土保持研究, 2018, 25(5):300-305.
[
|
[27] |
林荣福, 刘纪平, 徐胜华, 等. 随机森林赋权信息量的滑坡易发性评价方法[J]. 测绘科学, 2020, 45(12):131-138.
[
|
[28] |
宋英旭. 基于空天地一体化监测的滑坡风险动态评价研究[D]. 武汉: 中国地质大学, 2019.
[
|
[29] |
徐胜华, 刘纪平, 王想红, 等. 熵指数融入支持向量机的滑坡灾害易发性评价方法——以陕西省为例[J]. 武汉大学学报·信息科学版, 2020, 45(8):1214-1222.
[
|
[30] |
王志恒, 胡卓玮, 赵文吉, 等. 基于多层感知器模型的区域滑坡敏感性评价研究——以四川低山丘陵区为例[J]. 防灾减灾工程学报, 2015, 35(5):691-698.
[
|
[31] |
刘杰, 武震. 基于GIS的白龙江流域舟曲—武都段的滑坡危险性评价[J]. 地震工程学报, 2020, 42(6):1723-1734.
[
|
[32] |
施紫越, 朱海燕, 王晶菁, 等. 耦合模型视角下的湘西州土质滑坡易发性探讨[J]. 水土保持研究, 2021, 28(3):377-383.
[
|
[33] |
|
[34] |
狄靖月, 许凤雯, 李宇梅, 等. 东南地区引发地质灾害降水分型及阈值分析[J]. 灾害学, 2019, 34(1):62-67,93.
[
|
[35] |
叶龙珍, 柳侃, 黄国平, 等. 福建重大地质灾害特征及其影响因素[J]. 中国地质灾害与防治学报, 2015, 26(1):98-102.
[
|
[36] |
地质灾害点空间分布数据[DB/OL]. 2019. https://www.resdc.cn/data.aspx?DATAID=290
[Data on the spatial distribution of geological hazard sites[DB/OL]. 2019. https://www.resdc.cn/data.aspx?DATAID=290 ]
|
[37] |
徐新良. 中国年度植被指数(NDVI)空间分布数据集.资源环境科学数据注册与出版系统(http://www.resdc.cn/DOI), 2018.
[
|
[38] |
ASTER Global Digital Elevation Model V003[DB/OL]. 2019. https://search.earthdata.nasa.gov/search
|
[39] |
1:100万公众版基础地理信息数据[DB/OL]. 2021. https://www.webmap.cn/commres.do?method=result100W
[1:1 million public version of basic geographic information data[DB/OL]. 2021. https://www.webmap.cn/commres.do?method=result100W ]
|
[40] |
庞健峰, 丁孝忠, 韩坤英, 等. 1:100万中华人民共和国地质图空间数据库[DB].地质科学数据, http://dcc.ngac.org.cn/geologicalData/rest/geologicalData/geologicalDataDetail/402881f75d9bc10e015d9bc11be70000
[
|
[41] |
30米全球地表覆盖数据[DB/OL]. 2020. http://www.globallandcover.com/defaults.html?src=/Scripts/map/defaults/download.html&head=download&type=data
[30m global ground cover data[DB/OL]. 2020. http://www.globallandcover.com/defaults.html?src=/Scripts/map/defaults/download.html&head=download&type=data ]
|
[42] |
温室数据共享平台气象数据[DB/OL]. 2019. http://data.sheshiyuanyi.com/
[Meteorological data[DB/OL]. 2019. http://data.sheshiyuanyi.com/. ]
|
[43] |
陈学兄, 常庆瑞, 郭碧云, 等. 基于SRTM DEM数据的中国地形起伏度分析研究[J]. 应用基础与工程科学学报, 2013, 21(4):670-678.
[
|
[44] |
工程岩体分级标准: GBT50218-2014[S]北京: 中国计划出版社, 2014.
[Standard for engineering classification of rock mass: GBT50218-2014[S]. Beijing: China Planning Press, 2014. ]
|
[45] |
|
[46] |
|
[47] |
|
/
〈 | 〉 |