耦合统计方法、机器学习模型和聚类算法的滑坡易发性评价方法
王启盛(1999— ),男,四川广安人,硕士生,主要从事机器学习与灾害风险评估研究。 E-mail: wqqqqqqs@163.com |
Copy editor: 蒋树芳
收稿日期: 2023-07-23
修回日期: 2023-10-11
网络出版日期: 2024-03-31
基金资助
四川省科技厅重点研发项目(2021YFQ0042)
西藏自治区科技计划项目(XZ201901-GA-07)
国家重点研发计划课题(2020YFD1100701)
中国科学院战略先导专项(A类)(XDA20030302)
四川省科研院所基本科研业务费项目(2023JDKY0039-01)
Landslide Susceptibility Mapping Methods Coupling with Statistical Methods, Machine Learning Models and Clustering Algorithms
Received date: 2023-07-23
Revised date: 2023-10-11
Online published: 2024-03-31
Supported by
Key R&D project of Sichuan Science and Technology Department(2021YFQ0042)
The Science and Techno-logy Project of Xizang Autonomous Region(XZ201901-GA-07)
National Key R&D Program of China(2020YFD1100701)
Strategic Priority Research Program of the Chinese Academy of Sciences(XDA20030302)
Sichuan Provincial Research I-nstitutes Basic Scientific Research Operating Expenses Program(2023JDKY0039-01)
我国西部山区滑坡灾害频发,精确评估滑坡易发性对地质灾害防治至关重要。结合统计方法与机器学习模型的集成模型已广泛的应用于滑坡易发性评价,然而对其结果的进一步优化仍值得考虑。本文提出一种耦合统计方法、机器学习模型以及聚类算法的综合评价方法,以宁南县为例,研究其对滑坡易发性评价精度的提升效应。该方法首先将信息量法(Information Value, IV)、确定系数法(Certainty Factor, CF)和频率比法(Frequency Ratio, FR)分别与随机森林模型(Random Forest, RF)结合,得到三种集成模型(IV-RF、CF-RF、FR-RF)。此后,引入ISO聚类算法对三种集成模型的结果进行分级,得到三种耦合模型(IV-RF-ISO、CF-RF-ISO、FR-RF-ISO)。AUC值(Area Under the Curve)、准确率、F1分数和种子单元面积指数(Seed Cell Area Indexes,SCAI)被用于评估模型的精度。结果显示,集成模型性能均优于单一模型,其准确率和F1分数均大于0.85,AUC值均大于0.9。其中FR-RF模型表现最优,准确率(0.911)、F1分数(0.912)和AUC值(0.965)较FR模型分别提升了0.095、0.096和0.074。与自然断点法和Kmeans聚类法相比,引入ISO算法的耦合模型FR-RF-ISO分级效果最优,其高低易发区SCAI值的差异更为显著。本研究成果表明,耦合统计方法、机器学习与聚类算法的综合评价方法具有较高精度,为提高滑坡易发性评价精度提供思路。
王启盛 , 熊俊楠 , 程维明 , 崔兴洁 , 庞全 , 刘俊 , 陈文杰 , 唐浩然 , 宋南霄 . 耦合统计方法、机器学习模型和聚类算法的滑坡易发性评价方法[J]. 地球信息科学学报, 2024 , 26(3) : 620 -637 . DOI: 10.12082/dqxxkx.2024.230427
Landslides frequently occur in the mountainous areas of western China. Accurate mapping of landslide susceptibility is essential for geohazard management. Integrated models combining statistical methods and machine learning models have been widely applied to landslide susceptibility mapping. However, further optimization of their results is still worth investigation. This study proposes a comprehensive assessment method that couples statistical methods, machine learning models, and clustering algorithms. The effectiveness of the proposed method on improving the accuracy of landslide susceptibility mapping in Ningnan County is investigated. Firstly, the landslide influencing factors are selected from five aspects: geological environment, topography and geomorphology, meteorology and hydrology, vegetation and soil, and human engineering activities in the study area. Indicators are initially selected based on correlation analysis using the Pearson correlation coefficient method, and highly correlated factors are eliminated to establish the landslide susceptibility mapping index system. Next, the Information Value (IV), Certainty Factor (CF), and Frequency Ratio (FR) methods are combined with Random Forest (RF) model respectively to obtain three integrated models (IV-RF, CF-RF, and FR-RF). Then, the ISO clustering algorithm, Natural Breaks clustering, and Kmeans clustering algorithms are introduced to classify the results of the three integrated models, obtaining nine coupled assessment models (IV-RF-ISO, CF-RF-ISO, FR-RF-ISO, IV-RF-NBC, CF-RF-NBC, FR-RF-NBC, IV-RF- Kmeans, CF-RF- Kmeans, and FR-RF- Kmeans). Lastly, Area Under the Curve value (AUC), accuracy, F1 score, and Seed Cell Area Indexes (SCAI) are used to evaluate the accuracy of the models. The results demonstrate that all the integrated models outperform single models. The accuracy and F1 score of all integrated models both exceed 0.85, and their AUC values exceed 0.9. The integrated models effectively address the misclassification of non-landslide samples, which is especially prominent in single IV and CF models. Among the integrated models, the FR-RF model performs the best. The accuracy (0.911), F1 score (0.912), and AUC value (0.965) of FR-RF model improves by 0.095, 0.096, and 0.074, respectively, compared to the FR model. Compared with the natural break and Kmeans clustering methods, the coupled FR-RF-ISO model exhibits the optimal classification results, and the difference in SCAI values between its high and low susceptibility zones is more significant. The extremely high landslide susceptibility zones are primarily concentrated in the southern, eastern, and central parts of Ningnan County. The study demonstrates the high accuracy of the integrated assessment method that couples statistical methods, machine learning, and clustering algorithms, and provides insights for improving the accuracy of landslide susceptibility mapping.
表1 研究区数据源Tab. 1 Data sources for the study area |
数据名称 | 来源 | 类型 | 分辨率/比例尺 | 数据年份 |
---|---|---|---|---|
滑坡灾害点 | 宁南县2022年地质灾害普适型项目 | 数据表 | - | 1976—2022 |
DEM | 美国航空航天局 | 栅格 | 12.5 m | 2015 |
地层 | 全国1:20万数字地质图[43] | 矢量 | 1:20万 | - |
断裂带 | 全国1:20万数字地质图 | 矢量 | 1:20万 | - |
降水 | 中国气象局 | 站点 | - | 2015—2019 |
水系 | 全国基础地理数据库 | 矢量 | 1:25万 | 2015 |
道路 | 全国基础地理数据库 | 矢量 | 1:25万 | 2015 |
土壤质地 | 国家山洪灾害调查与评估项目 | 矢量 | 1:25万 | - |
NDVI | Google Earth Engine | 栅格 | 30 m | 2013—2021 |
土地利用 | GLOBELAND30 | 栅格 | 30 m | 2020 |
表2 各评价指标IV、CF和FR值Tab. 2 Values of each assessment index IV, CF and FR |
评价指标 | 指标分级 | 滑坡数 | IV | CF | FR |
---|---|---|---|---|---|
地层 | 各侵入岩组 | 2 | -1.04 | -0.65 | 0.35 |
奥陶系 | 51 | -0.53 | -0.41 | 0.59 | |
白垩系 | 6 | 0.40 | 0.33 | 1.49 | |
第四系 | 31 | 0.71 | 0.51 | 2.03 | |
二叠系 | 22 | -0.40 | -0.33 | 0.67 | |
寒武系 | 17 | -1.58 | -0.79 | 0.21 | |
泥盆系、三叠系 | 0 | 0.00 | -1.00 | 0.00 | |
元古界 | 3 | 0.07 | 0.07 | 1.08 | |
震旦系 | 3 | -2.52 | -0.92 | 0.08 | |
志留系 | 4 | 0.91 | 0.60 | 2.48 | |
侏罗系 | 237 | 0.83 | 0.56 | 2.29 | |
距断层距离/m | <500 | 162 | 0.25 | 0.22 | 1.28 |
500~1 000 | 96 | 0.20 | 0.18 | 1.22 | |
1 000~1 500 | 45 | -0.10 | -0.10 | 0.90 | |
1 500~2 000 | 21 | -0.53 | -0.41 | 0.59 | |
>2 000 | 52 | -0.50 | -0.40 | 0.60 | |
高程/m | <1 000 | 57 | 0.52 | 0.41 | 1.69 |
1 000~1 400 | 117 | 0.62 | 0.46 | 1.86 | |
1 400~1 800 | 129 | 0.46 | 0.37 | 1.58 | |
1 800~2 200 | 54 | -0.22 | -0.20 | 0.80 | |
2 200~2 600 | 19 | -1.15 | -0.68 | 0.32 | |
>2 600 | 0 | 0.00 | -1.00 | 0.00 | |
坡度/° | <14.8 | 97 | 0.48 | 0.38 | 1.62 |
14.8~23.9 | 159 | 0.43 | 0.35 | 1.54 | |
23.9~32.7 | 86 | -0.18 | -0.16 | 0.84 | |
32.7~43.0 | 29 | -1.03 | -0.64 | 0.36 | |
>43.0 | 5 | -1.73 | -0.82 | 0.18 | |
坡向 | 平地 | 0 | 0.00 | -1.00 | 0.00 |
北 | 37 | -0.21 | -0.19 | 0.81 | |
东北 | 81 | 0.36 | 0.30 | 1.42 | |
东 | 82 | 0.16 | 0.15 | 1.17 | |
东南 | 63 | 0.13 | 0.12 | 1.13 | |
南 | 32 | -0.19 | -0.17 | 0.83 | |
西南 | 28 | -0.39 | -0.33 | 0.67 | |
西 | 23 | -0.37 | -0.31 | 0.69 | |
西北 | 30 | -0.13 | -0.13 | 0.87 | |
剖面曲率 | 0~7.9 | 159 | 0.33 | 0.28 | 1.38 |
7.9~14.4 | 121 | -0.04 | -0.04 | 0.96 | |
14.4~22.3 | 74 | -0.12 | -0.11 | 0.89 | |
22.3~33.4 | 23 | -0.56 | -0.43 | 0.57 | |
>33.4 | 0 | 0.00 | -1.00 | 0.00 | |
年降水量 /mm | <838 | 94 | 0.72 | 0.51 | 2.05 |
838~872 | 154 | 0.65 | 0.48 | 1.91 | |
872~902 | 65 | -0.41 | -0.33 | 0.67 | |
902~935 | 28 | -1.09 | -0.67 | 0.33 | |
>935 | 35 | -0.67 | -0.49 | 0.51 | |
距水系距离/m | <500 | 82 | 0.15 | 0.14 | 1.16 |
500~1 000 | 61 | -0.05 | -0.05 | 0.95 | |
1 000~1500 | 55 | -0.04 | -0.04 | 0.96 | |
1 500~2 000 | 48 | -0.03 | -0.03 | 0.97 | |
>2 000 | 131 | -0.03 | -0.03 | 0.97 | |
植被覆盖度 | <0.45 | 5 | 0.27 | 0.24 | 1.31 |
0.45~0.62 | 10 | 0.14 | 0.13 | 1.15 | |
0.62~0.71 | 73 | 0.77 | 0.54 | 2.15 | |
0.71~0.78 | 101 | 0.25 | 0.22 | 1.29 | |
0.78~0.84 | 130 | 0.04 | 0.04 | 1.04 | |
>0.84 | 57 | -0.80 | -0.55 | 0.45 | |
土壤类型 | 粉壤土 | 6 | -0.43 | -0.35 | 0.65 |
粉粘壤土 | 55 | 1.14 | 0.68 | 3.13 | |
壤土 | 0 | 0.00 | -1.00 | 0.00 | |
砂粘壤土 | 6 | -2.25 | -0.89 | 0.11 | |
砂粘土 | 135 | 0.04 | 0.04 | 1.04 | |
粘壤土 | 121 | 0.22 | 0.20 | 1.24 | |
粘土 | 53 | -0.16 | -0.15 | 0.85 | |
距道路距离 (m) | <500 | 136 | 0.28 | 0.24 | 1.32 |
500 ~1 000 | 79 | 0.01 | 0.01 | 1.01 | |
1 000 ~1 500 | 45 | -0.28 | -0.24 | 0.76 | |
1 500 ~2 000 | 62 | 0.32 | 0.27 | 1.38 | |
>2 000 | 84 | -0.07 | -0.07 | 0.93 | |
土地利用 | 耕地 | 292 | 0.94 | 0.61 | 2.56 |
森林 | 60 | -1.37 | -0.75 | 0.25 | |
草地 | 9 | -0.52 | -0.41 | 0.59 | |
灌木林 | 5 | 0.24 | 0.21 | 1.27 | |
湿地 | 0 | 0.00 | -1.00 | 0.00 | |
水体 | 1 | -0.93 | -0.61 | 0.39 | |
防渗区 | 9 | 0.70 | 0.50 | 2.01 |
表3 各模型精度评估结果Tab. 3 Results of accuracy assessment of each model |
模型 | 准确率 | 精确率 | 召回率 | F1分数 | AUC |
---|---|---|---|---|---|
IV | 0.750 | 0.672 | 0.976 | 0.796 | 0.889 |
CF | 0.778 | 0.705 | 0.955 | 0.811 | 0.895 |
FR | 0.816 | 0.820 | 0.811 | 0.816 | 0.891 |
IV-RF | 0.908 | 0.909 | 0.907 | 0.908 | 0.963 |
CF-RF | 0.876 | 0.871 | 0.883 | 0.877 | 0.955 |
FR-RF | 0.911 | 0.897 | 0.928 | 0.912 | 0.965 |
表4 各模型的滑坡易发性分级结果Tab. 4 Results of landslide susceptibility grading for each model |
模型 | 等级 | 面积/km2 | 滑坡数 | 滑坡密度/(个/km2) | SCAI值 |
---|---|---|---|---|---|
IV-RF-ISO | 极低 | 538.80 | 0 | 0.00 | ** |
低 | 376.95 | 8 | 0.02 | 10.58 | |
中 | 296.81 | 25 | 0.08 | 2.10 | |
高 | 257.83 | 79 | 0.31 | 0.50 | |
极高 | 208.27 | 264 | 1.27 | 0.10 | |
IV-RF-NBC | 极低 | 567.15 | 0 | 0.00 | ** |
低 | 368.83 | 10 | 0.03 | 8.10 | |
中 | 287.21 | 23 | 0.08 | 2.14 | |
高 | 248.71 | 77 | 0.31 | 0.48 | |
极高 | 206.76 | 266 | 1.29 | 0.10 | |
IV-RF-Kmeans | 极低 | 981.23 | 10 | 0.01 | 57.36 |
低 | 232.67 | 22 | 0.09 | 1.47 | |
中 | 240.66 | 72 | 0.30 | 0.48 | |
高 | 118.88 | 102 | 0.86 | 0.08 | |
极高 | 105.22 | 170 | 1.62 | 0.04 | |
CF-RF-ISO | 极低 | 571.99 | 0 | 0.00 | ** |
低 | 358.22 | 9 | 0.03 | 8.49 | |
中 | 290.09 | 30 | 0.10 | 1.67 | |
高 | 244.21 | 82 | 0.34 | 0.43 | |
极高 | 214.16 | 255 | 1.19 | 0.11 | |
CF-RF- NBC | 极低 | 607.33 | 0 | 0.00 | ** |
低 | 345.28 | 12 | 0.03 | 5.92 | |
中 | 292.78 | 33 | 0.11 | 1.55 | |
高 | 230.92 | 85 | 0.37 | 0.37 | |
极高 | 202.35 | 246 | 1.22 | 0.10 | |
CF-RF-Kmeans | 极低 | 1 027.36 | 16 | 0.02 | 39.30 |
低 | 226.44 | 34 | 0.15 | 0.90 | |
中 | 214.91 | 74 | 0.34 | 0.37 | |
高 | 94.95 | 84 | 0.88 | 0.06 | |
极高 | 115.00 | 168 | 1.46 | 0.05 | |
FR-RF-ISO | 极低 | 557.62 | 0 | 0.00 | ** |
低 | 353.14 | 5 | 0.01 | 14.86 | |
中 | 298.64 | 20 | 0.07 | 2.66 | |
高 | 253.18 | 78 | 0.31 | 0.49 | |
极高 | 216.09 | 273 | 1.26 | 0.10 | |
FR-RF-NBC | 极低 | 594.16 | 0 | 0.00 | ** |
低 | 341.42 | 6 | 0.02 | 11.57 | |
中 | 290.11 | 25 | 0.09 | 2.01 | |
高 | 243.90 | 76 | 0.31 | 0.47 | |
极高 | 209.07 | 269 | 1.29 | 0.10 | |
FR-RF-Kmeans | 极低 | 1 004.94 | 9 | 0.01 | 66.85 |
低 | 232.31 | 27 | 0.12 | 1.19 | |
中 | 215.31 | 62 | 0.29 | 0.45 | |
高 | 124.31 | 117 | 0.94 | 0.08 | |
极高 | 101.78 | 161 | 1.58 | 0.04 |
注:**表示极低等级滑坡点在易发性分区的面积占比为0,无法作为SCAI公式的分母。 |
[1] |
朱庆, 曾浩炜, 丁雨淋, 等. 重大滑坡隐患分析方法综述[J]. 测绘学报, 2019, 48(12):1551-1561.
[
|
[2] |
中华人民共和国应急管理部. 国家减灾委员会关于印发《“十四五”国家综合防灾减灾规划》的通知:国减发〔2022〕1号[EB/OL].(2022-06-19)[2023-09-23].
[ Ministry of Emergency Management of the People's Republic of China. The National Disaster Reduction Commission on the issuance of the "14th five year plan for national comprehensive disaster prevention and reduction": Guo Jian Fa [2022] No.1[EB/OL] (2022-06-19)[2023-09-23]https://www.mem.gov.cn/gk/zfxxgkpt/fdzdgknr/202207/t20220721_418698.shtm
|
[3] |
周侯伯, 肖桂荣, 林炫歆, 等. 基于特征筛选与差分进化算法优化的滑坡危险性评估方法[J]. 地球信息科学学报, 2022, 24(12):2373-2388.
[
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
熊俊楠, 朱吉龙, 苏鹏程, 等. 基于GIS与信息量模型的溪洛渡库区滑坡危险性评价[J]. 长江流域资源与环境, 2019, 28(3):700-711.
[
|
[11] |
庄建琦, 崔鹏, 葛永刚, 等“5.12"汶川地崩塌滑坡危险性评价一一以都汶公路沿线为例[J]岩石力学与工程学报, 2010, 29(2):3736-3742.
[
|
[12] |
冯杭建, 周爱国, 唐小明, 等. 基于确定性系数的降雨型滑坡影响因子敏感性分析[J]. 工程地质学报, 2017, 25(2):436-446.
[
|
[13] |
|
[14] |
刘璐瑶, 高惠瑛. 基于证据权与Logistic回归模型耦合的滑坡易发性评价[J]. 工程地质学报, 2023, 31(1):165-175.
[
|
[15] |
张钟远, 邓明国, 徐世光, 等. 镇康县滑坡易发性评价模型对比研究[J]. 岩石力学与工程学报, 2022, 41(1):157-171.
[
|
[16] |
吴润泽, 胡旭东, 梅红波, 等. 基于随机森林的滑坡空间易发性评价:以三峡库区湖北段为例[J]. 地球科学, 2021(1):321-330.
[
|
[17] |
|
[18] |
刘纪平, 梁恩婕, 徐胜华, 等. 顾及样本优化选择的多核支持向量机滑坡灾害易发性分析评价[J]. 测绘学报, 2022, 51(10):2034-2045.
[
|
[19] |
黄武彪, 丁明涛, 王栋, 等. 基于层数自适应加权卷积神经网络的川藏交通廊道沿线滑坡易发性评价[J]. 地球科学, 2022, 47(6):2015-2030.
[
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
罗路广, 裴向军, 黄润秋, 等. GIS支持下CF与Logistic回归模型耦合的九寨沟景区滑坡易发性评价[J]. 工程地质学报, 2021, 29(2):526-535.
[
|
[25] |
徐胜华, 刘纪平, 王想红, 等. 熵指数融入支持向量机的滑坡灾害易发性评价方法——以陕西省为例[J]. 武汉大学学报(信息科学版), 2020, 45(8):1214-1222.
[
|
[26] |
王世宝, 庄建琦, 樊宏宇, 等. 基于频率比与集成学习的滑坡易发性评价——以金沙江上游巴塘—德格河段为例[J]. 工程地质学报, 2022, 30(3):817-828.
[
|
[27] |
林炫歆, 肖桂荣, 周侯伯. 顾及土地利用动态变化的滑坡易发性评估方法[J]. 地球信息科学学报, 2023, 25(5):953-966.
[
|
[28] |
田乃满, 兰恒星, 伍宇明, 等. 人工神经网络和决策树模型在滑坡易发性分析中的性能对比[J]. 地球信息科学学报, 2020, 22(12):2304-2316.
[
|
[29] |
谭玉敏, 郭栋, 白冰心, 等. 基于信息量模型的涪陵区地质灾害易发性评价[J]. 地球信息科学学报, 2015, 17(12):1554-1562.
[
|
[30] |
张晓东. 基于遥感和GIS的宁夏盐池县地质灾害风险评价研究[D]. 北京: 中国地质大学(北京).
[
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
[
|
[36] |
|
[37] |
|
[38] |
仉文岗, 何昱苇, 王鲁琦, 等. 基于水系分区的滑坡易发性机器学习分析方法:以重庆市奉节县为例[J]. 地球科学, 2023(5):2024-2038.
[
|
[39] |
|
[40] |
|
[41] |
程振全. 宁南县干田坝滑坡风险评价[D]. 西安: 长安大学.
[
|
[42] |
|
[43] |
李晨阳; 王新春; 何春珍; 等. 全国1∶200000数字地质图(公开版)空间数据库(V1).中国地质调查局发展研究中心;中国地质调查局[创建机构, 1957.全国地质资料馆[传播机构],2019-06-30.10.23650/data.A.2019.NGA120157.K1.1.1.V1;
[
|
[44] |
李文彬, 范宣梅, 黄发明, 等. 不同环境因子联接和预测模型的滑坡易发性建模不确定性[J]. 地球科学, 2021, 46(10):3777-3795.
[
|
[45] |
李松林, 许强, 汤明高. 三峡库区滑坡空间发育规律及其关键影响因子[J]. 地球科学, 2020, 45(1):341-354.
[
|
[46] |
王世宝, 庄建琦, 郑佳, 等. 基于深度学习的CZ铁路康定—理塘段滑坡易发性评价[J]. 工程地质学报, 2022, 30(3):908-919.
[
|
[47] |
黄发明, 曹昱, 范宣梅, 等. 不同滑坡边界及其空间形状对滑坡易发性预测不确定性的影响规律[J]. 岩石力学与工程学报, 2021, 40(S02):3227-3240.
[
|
[48] |
刘佳, 伍宇明, 高星, 等. 基于GEE和U-net模型的同震滑坡识别方法[J]. 地球信息科学学报, 2022, 24(7):1275-1285.
[
|
[49] |
苏巧梅, 赵尚民, 郭建立. 霍西煤矿区地表滑坡灾害敏感性数值建模与等级划分[J]. 地球信息科学学报, 2017, 19(12):1613-1622.
[
|
[50] |
麦鉴锋, 冼宇阳, 刘桂林. 气候变化情景下广东省降雨诱发型滑坡灾害潜在分布及预测[J]. 地球信息科学学报, 2021, 23(11):2042-2054.
[
|
[51] |
黄发明, 殷坤龙, 蒋水华, 等. 基于聚类分析和支持向量机的滑坡易发性评价[J]. 岩石力学与工程学报, 2018, 37(1):156-167.
[
|
[52] |
|
[53] |
兰恒星, 伍法权, 周成虎, 等. 基于GIS的云南小江流域滑坡因子敏感性分析[J]. 岩石力学与工程学报, 2002, 21(10):1500-1506.
[
|
[54] |
|
/
〈 | 〉 |