Application of Machine Learning Method in Prediction of Potential Exposure Position of Spring Water

  • LI Huixiang , 1, 2 ,
  • PAN Yun , 1, 2, * ,
  • GONG Huili 1, 2 ,
  • SUN Ying 3
Expand
  • 1. Beijing Laboratory of Water Resources Security, Capital Normal University, Beijing 100048, China
  • 2. College of Resources Environment and Tourism, Capital Normal University, Beijing 100048, China
  • 3. Beijing Institute of Hydrogeology and Engineering Geology ( Beijing geological environment monitoring station), Beijing 100195, China
*PAN Yun, E-mail:

Received date: 2020-09-11

  Request revised date: 2020-12-12

  Online published: 2021-08-25

Copyright

Copyright reserved © 2021

Abstract

The exposure of spring is usually difficult to be monitored over mountainous terrain. In this study we investigated the performance of statistical models (Weight of Evidence) and two machine learning models (Random Forest and Classification and Regression Tree) in predicting the potential exposure positions of spring water in Beijing. A total of 1378 springs from field survey were used for model training and validation. The environmental factors included elevation, slope, aspect, topographic wetness index, stream power index, distance to rivers, distance to faults, lithology, normalized difference vegetation index, and land use. The predicted results from the three models are validated using the receiver operating characteristics curve. The area under the curve for the Weight of Evidence model was 0.80, while that for Classification and Regression Tree and Random Forest the AUC was 0.81 and 0.86, respectively. Therefore, the Random Forest model has the best prediction performance. Moreover, the Random Forest model revealed that lithology, distance to faults, and distance to rivers had the greatest impact on the spring exposure. This study shows that the machine learning method has good prediction ability and is expected to be applied in future spring protection and restoration researches.

Cite this article

LI Huixiang , PAN Yun , GONG Huili , SUN Ying . Application of Machine Learning Method in Prediction of Potential Exposure Position of Spring Water[J]. Journal of Geo-information Science, 2021 , 23(6) : 1028 -1039 . DOI: 10.12082/dqxxkx.2021.200522

1 引言

我国山区分布着大量裸露及半裸露的基岩,其中蕴藏大量的裂隙水。与孔隙水不同,裂隙水具有分布不均匀,无统一的水力联系等特性[1,2]。因此相比孔隙水,裂隙水更难利用。目前关于裂隙水的开采及勘探主要有传统的裂隙水管井、核磁共振探查、电法勘探法、大型放射性探测法及大地电磁法TE等方法[3,4,5],这些方法通常会消耗较大的人力及物力。而泉水的出露位置与地下水尤其是裂隙地下水的分布情况息息相关,本文希望能通过对泉水潜在出露位置的预测进而对之后裂隙水的开发利用起到一定的作用。
目前国内外有许多利用不同模型方法、选取不同影响因子预测泉水出露位置的研究。Zohre[6]等、Hyun-Joo Oh[7]等、Ghimire[8]等及Ozdemir[9]学者利用传统的统计模型,如:频率比模型、证据权重模型和逻辑回归模型等模型对不同地区的泉水潜在出露位置进行了预测研究,经过验证,预测结果准确率在0.70~0.83之间,预测结果较好。Naghibi等[10]、Chen等[11]及Choubin等[12]学者利用机器学习的方法,例如:分类回归树模型、随机森林模型、增强回归树模型等预测了不同地区的泉水潜在分布。相比其它运用统计模型预测研究的准确率,机器学习模型的预测效果更好,预测结果的准确率在0.75~0.95之间,其中Chen在中国陕西省吴起县的研究中随机森林模型的预测准确率达到0.96。国内外学者在选择影响因子时通常会考虑到影响泉水出露位置的一些因素:地形地貌、地表区域富水性和地质条件等。
赵春红等[13]探讨了北京西山泉域岩溶水系统特征:北京西山岩溶地下水系统具有以泉的形式多点排泄的特点,并且北京西山大大小小的泉域岩溶水系统都接受地表水渗透补给,同时西山南北两侧发育大量断层,断层对地下水汇集、泉水发育有重要意义。秦大军等[14]在关于永定河对北京西山岩溶水和玉泉山泉的影响的研究中提出玉泉山泉主要补给源来自潭柘寺和永定河,玉泉山泉的形成受到不同地质构造的控制。唐春雷等[15]在关于玉泉山泉出露的研究中也提到玉泉山泉出露明显受构造影响,断裂起到隔水作用改变地下水流动方向。以上研究均说明泉水出露受到地表水补给及地质构造分布的影响。
故本文以北京市为实验区选取一个统计模型(证据权重模型)和2个机器学习模型(分类回归树模型及随机森林模型)预测北京市泉水潜在出露位置,比较不同模型预测结果之间的差异,探索机器学习方法在预测泉水潜在出露位置方面的应用潜力,为强烈人类活动影响下的泉水保护、恢复提供新的技术方法。同时,本文根据前人的研究及水文地质理论选取高程、坡度、坡向、地形湿度指数、径流强度指数、距河流距离、距断裂距离、岩性、归一化植被指数及土地利用类型作为影响因子。

2 实验区概况、影响因子选择及数据来源

2.1 实验区概况

北京市位于39°30′N—41°26′N,115°25′E—117°30′E,北京市西部、北部、及东北部三面环山,地势西北高东南低。研究区内气候属于温带半湿润半干旱大陆性季风气候。
根据北京野外调查的结果,在研究区内确定1378个测试样本泉点,在其中随机选取965个点(70%)作为训练泉点,其余413个点(30%)作为验证泉点(图1)。
图1 实验区范围及测试样本泉点分布

Fig. 1 Study area and spring distribution

2.2 影响因子选择

由于泉水出露受到多种因素控制,例如:地质构造、岩性、地形地貌和人类活动等[13,14,15,16]。其中,人类对于水资源的剧烈开采及破坏活动,往往直接影响了泉水的流量变化及出露情况。因此本文主要选取了10个影响因子,地形地貌因子:高程、坡度、坡向;区域地表富水性因子:地形湿度指数(Topographic Wetness Index, TWI)、径流强度指数(Stream Power Index, SPI)及距河流距离;地质构造及特征因子:距断裂距离和、岩性;人类活动影响因子:归一化植被指数(Normalized Difference Vegetation Index, NDVI)及土地利用类型(表1)。
表1 数据来源

Tab. 1 Data source

影响因子 数据来源 数据年份
高程/m ASTER GDEM[18] 2011
坡度/° ASTER GDEM
坡向/° ASTER GDEM
地形湿度指数 ASTER GDEM
径流强度指数 ASTER GDEM
距河流距离/m ASTER GDEM
距断裂距离/m 北京市地质图[19] 1979
归一化植被指数 Landsat8[20] 2018
土地利用类型 Landsat8
岩性 北京市地质图 1979
研究中高程采用分辨率为30 m的数字高程模型(Digital Elevation Model, DEM),利用等间隔的划分方法将研究区内高程划分为<0 m、0~400 m、400~800 m、800~1200 m、1200~1800 m共5类。同时,根据DEM计算坡度及坡向,将坡度划分为 <10°、10~20°、20~30°、>30°。
地形湿度指数可以准确的刻画地形的变化以及地形变化对土壤径流的影响[17]。地形湿度指数(TWI)由DEM数据在ArcGIS中计算得到,计算公式如下:
TWI = ln α tan β
式中: α 为通过某点累计的上坡面积/m2; β 为坡度/°。
径流强度指数可以衡量水流侵蚀的能力,径流强度指数(SPI)计算公式如下:
SPI = λ × tanη
式中: λ 为某点汇流面积/m2; η 为坡度/°。
研究将地形湿度指数分为2~8、8~14、14~22、>22这4类,并按照等间隔的划分方法将径流强度指数分为10类(图2(e))。距河流距离为某点到河网水系最近距离,其中河网分布由ArcGIS的水文分析工具计算得到,将其划分为6类(图2(g))。研究中的北京断裂分布及北京岩性分布来源于北京市地质图,在本研究中将岩性分为5组(图2(j)):松散岩类、碳酸岩类、岩浆岩类、碎屑岩类、变质岩类。将距断裂距离分为8类(图2(f))。归一化植被指数(NDVI)根据2018年Landsat8数据计算,分为10类(图2(h))。土地利用类型分类则使用同DEM数据相同分辨率的2018年Landsat8数据进行监督分类,分类类型为水体、草地、森林、城市及裸地(图2(i))。
图2 预测实验区泉水潜在位置的影响因子空间分布

Fig. 2 Spatial distribution of influencing factors for predicting the potential location of spring water in experimental area

3 研究方法

本文技术路线如图3所示。
图3 预测泉水潜在出露位置的技术路线

Fig. 3 Technical roadmap for predicting potential spring water exposure locations

3.1 证据权重模型

证据权重模型(Weight of Evidence, WOE)是一种基于GIS的将离散事件位置点与多个相关影响因子的图层叠加分析,从而预测研究区内发生这一事件概率的方法[21,22]。本文在研究区内以30 m为分辨率生成18 200 399个栅格,预测每个栅格中泉水出露的概率。证据权重模型具体计算方法如下[6,23]
W + = lo g e M 1 M 1 + M 2 M 3 M 3 + M 4
W - = lo g e M 2 M 1 + M 2 M 4 M 3 + M 4
C = W + - W -
式中: W + 为已知泉点与预测泉点存在的正相关程度; W - 为已知泉点与预测泉点存在的负相关程度; M 1 为给定影响因子中有泉点的栅格个数; M 2 为给定影响因子中没有泉点的栅格个数; M 3 为有给定影响因子但没有出现泉点的栅格数; M 4 为没有给定影响因子也没有出现泉点的栅格数目;C为预测泉点与影响因子之间的空间关联性,C值为正表示为正相关,C值为0表示无相关性,C值为负则为负相关。
将计算得到的每个影响因子的正相关权重值叠加计算,得到后验概率 P ( s ) ,后验概率即为该栅格内会有泉点存在的概率。后验概率计算公式为:
P ( s ) = exp W + + ln P P ( s )
式中: P ( s ) 为后验概率; P P ( s ) 为先验概率, P P ( s ) = 已知泉点面积 / 研究区面积 。根据以上公式可计算得到每个影响因子相关的权重值及概率(表2)。
表2 计算的各影响因子权重

Tab. 2 Weight calculation of each influence factor

影响因子 分类 栅格数目/个 训练泉点数目 正相关权重W+ 负相关权重W- 空间相关性C 后验概率P(s)
高程/m <0 175 681 0 - - - 0
0~400 10 485 480 326 -0.5338 0.4460 -0.9798 3.1091E-05
400~800 5 103 572 486 0.5857 -0.3714 0.9570 9.5234E-05
800~1200 2 033 781 133 0.2098 -0.0298 0.2396 6.5399E-05
1200~1600 345 649 20 0.0874 -0.0018 0.0892 5.7865E-05
坡度/° 0~10 9 015 882 379 -0.2321 0.1851 -0.4172 4.2038E-05
10~20 3 944 854 335 0.4711 -0.1821 0.6532 8.4926E-05
20~30 3 054 769 171 0.0543 -0.0113 0.0656 5.5981E-05
30~40 1 688 169 67 -0.2896 0.0254 -0.3150 3.9689E-05
40~50 438 911 12 -0.6623 0.0119 -0.6742 2.7341E-05
50~60 54 453 1 -1.0602 0.0020 -1.0622 1.8365E-05
>60 3 361 0 - - - 0
坡向/° 2 077 367 100 -0.0966 0.0118 -0.1084 4.8140E-05
东北 2 214 218 126 0.0707 -0.0102 0.0810 5.6908E-05
2 332 611 178 0.3642 -0.0668 0.4309 7.6314E-05
东南 2 417 942 146 0.1301 -0.0215 0.1516 6.0385E-05
2 480 078 133 0.0114 -0.0018 0.0132 5.3630E-05
西南 2 233 444 89 -0.2856 0.0342 -0.3197 3.9850E-05
西 2 134 969 94 -0.1858 0.0223 -0.2081 4.4030E-05
西北 2 104 272 95 -0.1607 0.0192 -0.1800 4.5148E-05
平面 205 498 4 -1.0021 0.0072 -1.0093 1.9465E-05
影响因子 分类 栅格数目 训练泉点数目 正相关权重W + 负相关权重W - 空间相关性C 后验概率P(s)
距河流距离/m 0~200 4 093 718 460 0.7512 -0.3928 1.1440 1.1238E-04
200~400 3 554 978 153 -0.2086 0.0447 -0.2532 4.3040E-05
400~600 3 051 250 116 -0.3326 0.0554 -0.3880 3.8018E-05
600~800 2 537 820 88 -0.4246 0.0545 -0.4792 3.4676E-05
800~1000 1 999 299 66 -0.4738 0.0455 -0.5193 3.3013E-05
>1000 2 963 334 82 -0.6503 0.0889 -0.7392 2.7672E-05
距断裂距离/m 0~500 2 608 221 276 0.6911 -0.1822 0.8734 1.0583E-04
500~1000 1 951 677 148 0.3579 -0.0531 0.4110 7.5837E-05
1000~1500 1 584 723 112 0.2875 -0.0323 0.3197 7.0679E-05
1500~2000 1 311 105 90 0.2583 -0.0231 0.2815 6.8649E-05
2000~2500 1 051 075 64 0.1384 -0.0091 0.1476 6.0894E-05
2500~3000 841 660 41 -0.0847 0.0039 -0.0886 4.8716E-05
3000~3500 699 895 37 -0.0029 0.0001 -0.0030 5.2868E-05
>3500 8 152 043 197 -0.7857 0.3657 -1.1514 2.4166E-05
地形湿度指数 2~8 14 966 464 663 -0.1797 0.5660 -0.7457 4.4299E-05
8~14 2 935 668 248 0.4659 -0.1212 0.5870 8.4484E-05
14~22 217 898 54 1.5423 -0.0455 1.5878 2.4788E-04
>22 80 369 0 - - - 0
径流强度指数 0~10 16 681 699 723 -0.2016 1.1004 -1.3019 4.3341E-05
10~20 483 216 29 0.1240 -0.0036 0.1276 6.0018E-05
20~30 199 579 19 0.5854 -0.0089 0.5943 9.5209E-05
30~40 117 099 9 0.3714 -0.0029 0.3743 7.6864E-05
40~50 79 251 14 1.2037 -0.0103 1.2139 1.7668E-04
50~60 58 232 7 0.8187 -0.0041 0.8227 1.2022E-04
60~70 45 302 8 1.2033 -0.0058 1.2092 1.7662E-04
70~80 36 436 7 1.2876 -0.0053 1.2929 1.9215E-04
80~90 30 290 4 0.9127 -0.0025 0.9152 1.3207E-04
>90 469 295 145 1.7629 -0.1367 1.8996 3.0907E-04
归一化植被指数 -1~-0.1 288 943 2 -2.0360 0.0139 -2.0499 6.9218E-06
-0.1~0.06 1 429 937 33 -0.8318 0.0470 -0.8788 2.3078E-05
0.06~0.08 1 617 730 90 0.0482 -0.0048 0.0530 5.5636E-05
0.08~0.1 2 542 398 173 0.2496 -0.0471 0.2967 6.8050E-05
0.1~0.12 3 778 473 257 0.2491 -0.0770 0.3261 6.8021E-05
0.12~0.14 3 809 386 215 0.0625 -0.0172 0.0798 5.6442E-05
0.14~0.16 2 284 891 132 0.0858 -0.0130 0.0988 5.7774E-05
0.16~0.18 1 125 212 40 -0.3997 0.0215 -0.4212 3.5550E-05
0.18~0.4 1 312 834 24 -1.0648 0.0497 -1.1145 1.8281E-05
0.4~1 10 595 0 - - - 0
土地利用类型 水体 250 428 2 -1.8929 0.0118 -1.9047 7.9864E-06
草地 2 199 456 34 -1.2325 0.0929 -1.3254 1.5459E-05
城市 5 059 188 206 -0.2640 0.0856 -0.3495 4.0719E-05
森林 10 003 205 676 0.2426 -0.4081 0.6507 6.7580E-05
裸地 688 122 48 0.2744 -0.0125 0.2869 6.9760E-05
岩性 松散岩类 7 370 387 15 -3.2601 0.5035 -3.7636 2.0352E-06
碳酸岩类 3 768 433 198 -0.0090 0.0023 -0.0114 5.2544E-05
岩浆岩类 4 688 911 558 0.8086 -0.5654 1.3740 1.1901E-04
碎屑岩类 1 264 728 98 0.3795 -0.0351 0.4146 7.7493E-05
变质岩类 1 107 940 96 0.4912 -0.0420 0.5332 8.6654E-05

3.2 分类回归树模型

分类回归树模型(Classification and Regression Tree, CART)是一种决策树模型。将训练集输入模型中,构建二分类决策树,根据训练集内的每个数据的特征将其按照一定的规则生成节点之后进行分类,直至按照某种标准节点无法再生,生成最终分类结果[8,24]。在决策树分类过程中,当利用基尼系数选择最优特征进行分类时,此时模型为分类回归树模型。在分类过程中,为避免树生长的过于庞大,需要对树进行剪枝,使其生成最优的分类结果。通过限制树的深度、节点个数及特征个数使模型分类结果达到最优。

3.3 随机森林模型

随机森林模型(Random Forest, RF)是一种由多个决策树分类模型组成的分类模型,在训练集内有放回的抽取k个样本集,生成k棵决策树,之后会得到k个决策树分类结果,对生成的k个分类结果进行投票选择最优分类结果[12,25-28]
在研究区内随机生成965个与训练泉点数目相同的非泉点(图4)。将非泉点与训练泉点作为训练集一同输入分类回归树模型及随机森林模型中进行训练,之后将验证泉点作为验证集输入进行验证。模型构建完成后将18 200 399个栅格点的影响因子输入模型中,即可判断出研究区内每个栅格内泉水出露的概率。
图4 实验区随机非泉点分布

Fig. 4 Random non spring points distribution in experimental area

4 结果及分析

4.1 多重共线性检验

为判断影响因子是否满足建模需求,需对影响因子进行多重共线性检验。本文使用方差膨胀因子(VIF)和容差(TOL)来评估。若VIF>10或TOL<0.1,则说明影响因子之间有很强的相关性,不满足建模需求[6]。经验证,本研究选取的10个影响因子均满足建模需求(表3)。
表3 基于VIF和TOL指数的影响因子的多重共线性检验

Tab. 3 Multicollinearity diagnosis indexes for independent variables used in the analysis

影响因子 VIF TOL
高程 1.305 0.766
坡度 1.410 0.709
坡向 1.021 0.979
距断裂距离 1.349 0.741
距河流距离 1.078 0.927
地形湿度指数 1.461 0.684
径流强度指数 1.375 0.727
土地利用 1.349 0.741
归一化植被指数 1.023 0.977
岩性 1.403 0.713

4.2 模型预测结果及验证

本研究利用证据权重、分类回归树和随机森林模型绘制北京市泉水潜在出露位置图(图5),并使用自然间断点分级法将它们划分为概率低、概率中等、概率高3个等级(表4)。自然间断点法是Jenks提出的一种数据分类法,自然间断点法基于数据中固有的规律自然分组,分类使各个类之间差异最大,组内最相似[29,30]
图5 利用3种不同模型预测泉水潜在位置结果

Fig. 5 Prediction of potential spring water location using three different models

表4 证据权重模型预测结果

Tab. 4 Prediction results of evidence weight model

等级 证据权重模型
范围 面积/% 训练泉点 验证泉点
0.000 197 8~0.000 500 9 42.01 40 16
中等 0.000 500 9~ 0.000 731 4 53.46 671 301
0.000 731 4 ~0.001 286 3 4.53 254 93
利用ArcGIS将每个影响因子的后验概率叠加,得到证据权重泉水潜在出露位置图,如图5(a),泉出露概率高区域占总面积4.53%,有347个测试样本泉点分布在概率高的区域。图5(b)为由分类回归树模型绘制的泉水潜在出露位置图,概率高区域占总面积14.08%,有744个泉点分布在概率高的区域(表5)。图5(c)为随机森林模型的预测结果空间分布图,其中概率高的区域占总面积19.08%,有976个测试样本泉点分布在概率高的区域,详见表5
表5 机器学习模型预测结果

Tab. 5 Prediction results of machine learning model

等级 分类回归树 随机森林
范围 面积/% 训练泉点 验证泉点 范围 面积/% 训练泉点 验证泉点
0.00~0.23 39.76 10 5 0.00~0.23 41.95 2 10
中等 0.23~0.55 46.16 416 200 0.23~0.58 38.97 218 169
0.55~1.00 14.08 539 205 0.58~1.00 19.08 745 231
本研究使用感受性曲线(ROC曲线)评估各模型预测结果。ROC曲线常被用来评价模型的分类、预测结果,ROC曲线最初应用于判断雷达信号接收性能,后又被广泛运用到医学领域及机器学习预测中[31,32]。ROC曲线与X轴所围成的面积为AUC值,当AUC值越接近1时,模型的预测精确率越高。证据权重模型AUC值为0.80,分类回归树模型的AUC值为0.81,随机森林模型AUC值为0.86(图6)。故随机森林模型的预测结果最好。
图6 3种不同模型预测结果的ROC曲线评估

Fig. 6 ROC curve evaluation of three different models

4.3 不同因素对泉出露的影响

根据表2的证据权重模型计算结果,若空间相关性值越高,泉越可能出现在这些区域。因此泉最可能出露于高程为400~800 m、坡度10~20°、坡向为东、距河流200 m内、距断裂500 m内、TWI 14~22、SPI>90、归一化植被指数0.08~0.1、土地利用类型为森林、岩性为岩浆岩类的区域。
在使用分类回归树模型预测时,在10个影响因子中只用到了7个因子,高程、坡度、距断裂距离、距河流距离、地形湿度指数、径流强度指数、归一化植被指数和岩性。其中岩性、距断裂距离、径流强度指数对泉水潜在出露位置的影响最大(图7)。在随机模型预测中,岩性、距断裂距离和距河流距离这3个影响因子对泉潜在出露位置的影响最大。
图7 机器学习模型揭示的不同影响因子对泉出露的重要性

Fig. 7 The importance of each influence factor in machine learning model

5 讨论

经过评估,在本研究中随机森林模型在预测泉水出露位置时的预测效果最好,这与Naghibi[10]及Chen等[11]的研究结果相同。在本研究随机森林模型的预测中,对预测泉水出露结果影响最大的因子有岩性、据断裂距离、距河流距离、坡度、归一化植被指数和坡向。在Naghibi[10]与Chen等[11]的研究中高程、河网密度、距断裂距离及地形湿度指数对泉水出露位置预测的影响最大,本研究与上述研究的差异主要体现在归一化植被指数和地形湿度指数。这可能是因为本研究将整个北京市作为实验区,而平原区内泉点出露较少且平原区多为城区植被覆盖较少,放大了归一化植被指数的影响力;而地形湿度指数空间分布差异性较小,缩小了地形湿度指数的影响。
结合分类回归树模型及随机森林模型的预测结果,岩性、距断裂距离、径流强度指数及距河流距离对泉水出露位置的预测最为重要(表6),这与他人的研究结果较为一致[33,34,35]。距河流距离、径流强度指数能反映泉水能接受到的补给强度及汇水面积的范围。据断裂距离则反映了地下水与泉水出露之间的导通或者阻隔地下水改变地下水运移方向的作用。岩性不仅影响地下水接受补给的强度同时也影响地下水富水情况。
表6 测试样本点在重要影响因子中的分布

Tab. 6 Distribution of test sample points in important influence factors

影响因子 分类 测试样本泉点数目 影响因子 分类 测试样本泉点数目
径流强度指数 0~10 1029 岩性 松散岩类 21
10~20 45
20~30 27 碳酸岩类 309
30~40 13
40~50 19 岩浆岩类 789
50~60 11
60~70 12 碎屑岩类 132
70~80 8
80~90 7 变质岩类 127
>90 207
距断裂距离/m 0~500 397 距河流距离/m 0~200 628
500~1000 214 200~400 208
1000~1500 160 400~600 175
1500~2000 137 600~800 138
2000~2500 99 800~1000 96
2500~3000 65 >1000 133
3000~3500 55
>3500 251
结合证据权重模型、分类回归树模型及随机森林模型的预测结果可以得出泉更可能出露于能接受到大强度地表水补给的区域,并且断裂的分布能直接影响到泉水是否出露于此。同时在本研究中结合其他地形因子更加精确的预测了北京市泉水潜在出露位置。
证据权重模型作为一种统计模型,在计算时默认所有影响因子对泉水出露的影响力相同,预测结果是将每个影响因子的后验概率简单的叠加。所以证据权重模型可以较好的预测哪些区域不易出露泉水,但在更精确预测泉水出露区域时会稍显不足。机器学习模型会根据一定规则判断出不同影响因子对泉水出露的影响力大小,最终的预测结果会比证据权重模型的结果更加明确。同时影响因子的选择和原始数据的质量会影响机器学习模型的性能,故利用机器学习模型进行相关研究时需要谨慎选择影响因子、注意筛选数据。

6 结论

本研究使用证据权重模型、分类回归树模型及随机森林模型预测北京市泉水潜在出露位置。文章主要结论包括:
(1)结合1378个测试样本点在影响因子中的分布情况及证据权重模型的计算统计结果,泉最可能出露于高程为400~800 m、坡度10~20°、坡向为东距河流200 m内、距断裂500 m内、TWI 14~22、SPI>90、归一化植被指数 0.08~0.1、土地利用类型为森林、岩性为岩浆岩类的区域。分类回归树模型的预测结果显示岩性、距断裂距离、径流强度指数对泉水潜在出露位置的影响最大。随机森林模型揭示,岩性、距断裂距离和距河流距离这3个影响因子对泉潜在出露的影响最大。经过与其他文献的对比验证,可以得出结论:泉点更易于出露于地下水能接受到地表水大强度补给的区域,同时地质构造的分布对泉出露也有很大的影响。
(2)经过ROC曲线对3种模型的评估,3种模型都表现良好(AUC≥0.80),其中随机森林模型的预测效果最优(AUC=0.86)。同时经过与其他研究对比可以认为随机森林模型可以被广泛运用到预测泉水潜在出露位置的研究中。而相比证据权重模型将各影响因子的正验概率简单叠加,机器学习模型可根据一定规则判断不同影响因子对泉水出露的影响力大小,最终的预测结果相比证据权重模型的结果更加明确。但影响因子的选择和原始数据的质量会影响机器学习模型的性能,故利用机器学习模型进行相关研究时需谨慎选择影响因子、注意筛选数据。
[1]
田秋菊, 牛波, 王现国, 务宗伟. 我国基岩地下水开发利用和研究现状[J]. 地下水, 2004,26(2):88-90.

[ Tian Q J, Niu B, Wang X G, et al. Present situation of the exploitation, utilization and study of groundwater in bedrock in China[J]. Ground water, 2004,26(2):88-90. ]

[2]
袁文波. 近代地壳运动对基岩裂隙水的控制作用研究[D]. 南京:南京大学, 2018.

[ Yuan W B. A study of modern movement of the earth crust on groundwater in fractured rocks[D]. Nanjing: Nanjing University, 2018. ]

[3]
潘玉玲, 李振宇, 万乐, 等. 利用核磁共振方法探查基岩裂隙水[J]. CT理论与应用研究, 2000,9(1):22-25.

[ Pan Y L, Li Z Y, Wan L, et al. Detecting bedrock fissure water with Nuclear Magnetic Resonance (NMR) method[J]. CT Theory and Applications, 2000,9(1):22-25. ]

[4]
潘玉玲, 贺颢, 李振宇, 等. 地面核磁共振找水方法在中国的应用效果[J]. 地质通报, 2003,22(2):135-139.

[ Pan Y L, He H, Li Z Y, et al. Surface detection of groundwater with the nuclear magnetic resonance method and its application result in China[J]. Geogogical Bullretin of China, 2003,22(2):135-139. ]

[5]
武毅, 封绍武, 王亚清. 应用大地电磁法TE、TM模式勘查构造裂隙水[J]. 物探与化探, 2011,35(3):329-332.

[ Wu Y, Feng S W, Wang Y Q. The technological application of TE and TM mode to the prospecting for structural fissure water[J]. Geophysical & Geochemical Exploration, 2011,35(3):329-332. ]

[6]
Pourtaghi Z S, Pourghasemi H R. GIS-based groundwater spring potential assessment and mapping in the Birjand Township, southern Khorasan Province, Iran[J]. Hydrogeology Journal, 2014,22(3):643-662.

DOI

[7]
Oh H J, Kim Y S, Choi J K, et al. GIS mapping of regional probabilistic groundwater potential in the area of Pohang City, Korea[J]. Journal of Hydrology, 2011,399(3-4):158-172.

DOI

[8]
Ghimire M, Chapagain P S, Shrestha S. Mapping of groundwater spring potential zone using geospatial techniques in the Central Nepal Himalayas: A case example of Melamchi-Larke area[J]. Journal of Earth System ence, 2019,128(2).

[9]
Ozdemir A. Using a binary logistic regression method and GIS for evaluating and mapping the groundwater spring potential in the Sultan Mountains (Aksehir, Turkey)[J]. Journal of Hydrology, 2011,405(1-2):123-136.

DOI

[10]
Naghibi S A, Pourghasemi H R, Dixon B. GIS-based groundwater potential mapping using boosted regression tree, classification and regression tree, and random forest machine learning models in Iran[J]. Environmental Monitoring & Assessment, 2016,188(1):44.

[11]
Chen W, Tsangaratos P, Ilia I, et al. Groundwater spring potential mapping using population-based evolutionary algorithms and data mining methods[J]. Science of The Total Environment, 2019,684(SEP.20):31-49.

DOI

[12]
Choubin B, Rahmati O, Soleimani F, et al. Regional Groundwater Potential Analysis Using Classification and Regression Trees-ScienceDirect[J]. Spatial Modeling in GIS and R for Earth and Environmental Sciences, 2019: 485-498.

[13]
赵春红, 梁永平, 王维泰, 等. 北京西山泉域岩溶水系统特征探讨[J]. 中国岩溶, 2017,36(5):641-647.

[ Zhao C H, Liang Y P, Wang X T, et al. Discussion on the characteristics of karst water systems in the Xi Shan area of Beijing[J]. Carsologica Sinica, 2017,36(5):641-647. ]

[14]
秦大军, 孙杰, 郭艺, 等. 永定河对北京西山岩溶水和玉泉山泉的影响[J]. 工程地质学报, 2019,27(1):162-169.

[ Qin D J, Sun J, Guo Y, et al. Impacts of Yongding River on the Xishan karst aquifer and Yuquan spring in Beijing, China[J]. Journal of Engineering Geology, 2019,27(1):162-169. ]

[15]
唐春雷, 梁永平, 韩凯, 等. 玉泉山泉九龙山—香峪向斜的水文地质意义[J]. 中国岩溶, 2015,34(5):431-437.

[ Tang C L, Liang Y P, Han K, et al. Hydrogeological significance of the Jiulongshan-Xianyu syncline at Yuquanshan sping[J]. Carsologica Sinica, 2015,34(5):431-437. ]

[16]
刘莉莉, 宋苏林, 崔春梅. 济南泉水的成因及保泉对策研究[J]. 山东水利, 2013(5):17-18.

[ Liu L L, Song S L, Cui C M. Study on the causes of Jinan spring water and its countermeasures[J]. Shandong Water Resources, 2013(5):17-18. ]

[17]
张彩霞, 杨勤科, 李锐. 基于DEM的地形湿度指数及其应用研究进展[J]. 地理科学进展, 2005,24(6):116-123.

[ Zhang C X, Yang Q K, Li R. Advancement in Topographic Wetness Index and Its Application[J]. Progress in Geography, 2005,24(6):116-123. ]

[18]
美国航空航天局喷气推进实验室(JPL)和日本经济产业省(METI)数据[DB/OL]. https://lpdaac.usgs.gov/products/aster_products_table/astgtm/.

[ NASA Jet Propulsion Lab (JPL) and Japan's Ministry of Economy Trade and Industry (METI)[DB/OL]. https://lpdaac.usgs.gov/products/aster_products_table/astgtm/. ]

[19]
中国地质调查局[DB/OL]. http://geocloud.cgs.gov.cn/.

[20]
地理空间数据云[DB/OL]. http://www.gscloud.cn/.

[ Geospatial Data Cloud[DB/OL]. http://www.gscloud.cn/. ]

[21]
Cheng A Q. Conditional independence test for weights-of-evidence modeling[J]. Natural Resources Research, 2002.

[22]
Corsini A, Cervi F, Ronchetti F. Weight of evidence and artificial neural networks for potential groundwater spring mapping: An application to the Mt. Modino area (Northern Apennines, Italy)[J]. Geomorphology, 2009,111(1-2):79-87.

DOI

[23]
尚敏, 马锐, 张英莹, 等. 基于GIS的证据权重法的崩塌敏感性分析研究[J]. 工程地质学报, 2018,26(5):1211-1218.

[ Shang M, Ma R, Zhang Y Y, et al. GIS based weights of evidence method for rock fall susceptibility[J]. Journal of Engineering Geology, 2018,26(5):1211-1218. ]

[24]
张松林. CART-分类与回归树方法介绍[J]. 火山地质与矿产, 1997,18(1):67-75.

[ Zhang S L. An introduction to the methodology of CART-Classifiction and Regression Trees[J]. Volcanology & Mineral Resources, 1997,18(1):67-75. ]

[25]
方匡南, 吴见彬, 朱建平, 等. 随机森林方法研究综述[J]. 统计与信息论坛, 2011,26(3):32-38.

[ Fang K N, Wu J B, Zhu J P, et al. A Review of Technologies on Random Forests[J]. Statistics & Information Forum, 2011,26(3):32-37. ]

[26]
周超, 方秀琴, 吴小君, 等. 基于三种机器学习算法的山洪灾害风险评价[J]. 地球信息科学学报, 2019,21(11):1679-1688.

DOI

[ Zhou C, Fang X Q, Wu X J, et al. Risk assessment of mountain torrents based on three machine learning algorithms[J]. Journal of Geo-information Science, 2019,21(11):1679-1688. ]

[27]
赖成光, 陈晓宏, 赵仕威, 等. 基于随机森林的洪灾风险评价模型及其应用[J]. 水利学报, 2015,46(1):58-66.

[ Lai C G, Chen X H, Zhao S W, et al. A flood risk assessment model based on Random Forest and its application[J]. ournal of Hydraulic Engineering, 2015,46(1):58-66. ]

[28]
Pourghasemi, Reza H, Rahmati, et al. Application of GIS-based data driven random forest and maximum entropy models for groundwater potential mapping: A case study at Mehran Region, Iran[J]. Catena: An Interdisciplinary Journal of Soil Science Hydrology-Geomorphology Focusing on Geoecology and Landscape Evolution, 2016.

[29]
Jenks G F, Coulson M R. Class intervals for itatistical maps[J]. International Yearbook of Cartography, 1963: 119-134.

[30]
李乃强, 徐贵阳. 基于自然间断点分级法的土地利用数据网格化分析[J]. 测绘通报, 2020(4):106-110.

[ Li N Q, Xu G Y. Grid analysis of land use based on natural breaks (jenks) classification[J]. Bulletin of Surveying and Mapping, 2020(4):106-110. ]

[31]
王运生, 谢丙炎, 万方浩, 肖启明, 戴良英. ROC曲线分析在评价入侵物种分布模型中的应用[J]. 生物多样性, 2007,15(4):365-372.

DOI

[ Wang Y S, Xie B Y, Wan F H, et al. Application of ROC curve analysis in evaluating the performance of alien species' potential distribution models[J]. Biodiversity Science, 2007,15(4):365-372. ]

[32]
Leshowitz, Barry. Comparison of ROC curves from one- and two-interval rating-scale procedures[J]. Journal of the Acoustical Society of America, 1969,46(2B):399.

DOI

[33]
章旭, 郝红兵, 刘康林, 等. 西藏加查象牙泉水文地球化学特征及成因[J]. 水文地质工程地质, 2019,46(4):1-9.

[ Zhang X, Hao H B, Liu K L, et al. Hydrogeochemical characteristics and formation of the Ivory Spring in Jiacha County of Tibet[J]. Hydrogeology & Engineering Geology, 2019,46(4):1-9. ]

[34]
张婷婷, 侯利朋, 王万平. 青海玛沁野马滩构造岩溶泉成因及开发利用分析[J]. 青海环境, 2016,26(3):119-123.

[ Zhang T T, Hou L P, Wang W P. Analysis on genesis and development of karst spring in yematan structure of Maqin, Qinghai Province[J]. Qinghai Huanjing, 2016,26(3):119-123. ]

[35]
韩东银, 常元存. 山西孟县张城堡泉成因研究[J]. 大地构造与成矿学, 1992(1):85-86.

[ Han D Y, Chang Y C. Study on origin of Zhang Baocheng spring in Meng County, Shan Xi Province[J]. Geotectonica et Metallogenia, 1992,16(1):85-86. ]

Outlines

/