Retrieval of Soil Salinity Content based on Random Forests Regression Optimized by Bayesian Optimization Algorithm and Genetic Algorithm

  • YANG Lianbing , 1, 2, 3 ,
  • CHEN Chunbo 1, 2, 3, 4 ,
  • ZHENG Hongwei , 1, 2, 3, 4, * ,
  • LUO Geping 1, 2, 3, 4 ,
  • SHANG Baijun 1, 3 ,
  • Olaf Hellwich 1, 5
Expand
  • 1. State Key Laboratory of Dessert and Oasis Ecology, Xinjiang Institute of Ecology and Geography, Chinese Academy of Sciences, Urumqi 830011, China
  • 2. Key Laboratory of GIS & RS Application Xinjiang Uygur Autonomous Region, Urumqi 830011, China
  • 3. University of Chinese Academy of Sciences, Beijing 100049, China
  • 4. Research Center for Ecology and Environment of Central Asia, Chinese Academy of Sciences, Urumqi 830011, China
  • 5. Technical University of Berlin Tech Univ Berlin, Comp Vis & Remote Sensing, Berlin 10623, Germany
*ZHENG Hongwei, E-mail:

Received date: 2020-11-26

  Online published: 2021-11-25

Supported by

National Natural Science Foundation of China(41877012)

The Belt and Road program of Chinese academy of sciences(2018-YDYLTD-002)

Characteristic Institutes Main Service Program(Program1,Topic3) of Chinese Academy of Sciences(TSS-2015-014-FW-1-3)

Copyright

Copyright reserved © 2021.

Abstract

Random Forests Regression (RFR) is often used to inverse Soil Salinity Content (SSC)nowadays. However, the most important impact factors on the model accuracy such as the synchronization optimization of the inversion parameters subset and the model parameters have not been studied carefully in the applications of RFR. In this study, we selected Weiku Oasis and Qitai Oasis as experiment areas. The inversion parameters were constructed based on remote sensing data, including Landsat-5 TM, SRTM, and MOD11A2.006. Firstly, we applied Elastic Net (EN) to select a subset of the inversion parameters, developed Genetic Algorithm (GA) and Bayesian Optimization Algorithm (BOA) to optimize RFR, and established RFR models (EN-GA-RFR, EN-BOA-RFR) for stepwise optimization of inversion parameters subset and model parameters. Then we used GA and BOA to simultaneously optimize the inversion parameters subset and model parameters based on the combination methods of RFR, including GA-RFR and BOA-RFR methods. Furthermore, in each experiment area, we compared the prediction accuracy of EN-GA-RFR, EN-BOA-RFR, GA-RFR, and BOA-RFR. In this way, the spatial distributions of various saline soils in each experiment area were analyzed. The inversion parameters of the two experiment areas were also compared and analyzed. The results show that the order of model prediction accuracy in each study area from high to low is BOA-RFR>GA-RFR>EN-BOA-RFR=EN-GA-RFR. Overall, BOA had a better optimization performance than GA. Finally, the results show that the types of saline soils with the largest area in Ku Oasis and Qitai Oasis are saline soil and moderate saline soil, respectively. The inversion parameters have spatial differentiation in the characterization ability of SSC.

Cite this article

YANG Lianbing , CHEN Chunbo , ZHENG Hongwei , LUO Geping , SHANG Baijun , Olaf Hellwich . Retrieval of Soil Salinity Content based on Random Forests Regression Optimized by Bayesian Optimization Algorithm and Genetic Algorithm[J]. Journal of Geo-information Science, 2021 , 23(9) : 1662 -1674 . DOI: 10.12082/dqxxkx.2021.200711

1 引言

土壤盐渍化又称土壤盐碱化,指在自然和人为作用下土壤表层盐分含量不断增加,以至超过某一限度的现象和过程[1]。在干旱和半干旱地区土壤盐渍化现象普遍,土壤盐渍化严重制约着绿洲农业的发展[2]。土壤盐分含量(Soil Salinity Content, SSC)反演包括模型选择、反演参数筛选及模型参数优化等问题。随着大量遥感卫星的发射升空,遥感数据日益多元化、时效性更强、获取方式更便捷,利用遥感数据进行土壤盐渍化反演是获取SSC的重要手段。由于机器学习模型具有很强的非线性函数逼近能力,其在土壤盐渍化反演中十分流行[3,4,5]。在利用遥感数据进行SSC反演时,反演参数一般通过遥感数据的波段运算得到,反演参数间存在信息冗余;为提高机器学习模型在土壤盐渍化反演中性能,研究者开始注重反演参数的优选。张智韬等[6]基于全子集筛选算法,根据决定系数、均方根误差、赤化信息准则等评价指标来选择最佳的的盐渍化反演参数组合;王丹阳[7]等用皮尔森相关分析、灰色关联分析(Gray Relational Analysis, GRA)对反演参数进行筛选,并对筛选效果进行对比; Wei等[8]用GRA、连续投影(Successive Projections Algorithm,SPA)、变量投影重要性(Variable Importance in Projection, VIP)、对土壤盐渍化反演参数进行筛选,并对筛选效果进行对比。为耦合反演参数和反演模型的相互关系,Pang等[9]采用遗传算法(Genetic Algorithm, GA)与盐渍化反演模型相结合的方式,对影响土壤盐分含量的波段特征进行筛选;徐红涛 等[10]先利用皮尔森相关分析对反演参数进行初次筛选,然后利用自适应遗传算法(Adaptive Genetic Algorithm, AGA)和反演模型相结合的方式对反演参数进行二次筛选。随机森林回归(Random Forests Regression, RFR)是基于多棵回归树的集成学习模型,较单棵决策树回归具有更高的预测精度和更好的泛化性能,是目前应用于土壤盐渍化反演研究较多的机器学习模型。在利用RFR进行土壤盐渍化反演时,研究者大多利用皮尔森相关分析等方 法[11,12,13]直接筛选反演参数,然后直接将筛选的反演参数作为RFR的输入来建模;这种反演参数筛选方式未考虑反演参数和RFR的相互关系,会导致所筛选的反演参数与RFR的耦合性不高。贝叶斯优化算法(Bayesian Optimization Algorithm, BOA)是一种高效的智能优化算法,由于其通过主动选择策略来选择下一个评估位置,较随机搜索优化算法而言,能更快更准确地找到问题的全局最优解,却鲜见于土壤盐渍化反演模型的优化之中。
针对以上研究不足,本文利用弹性网络(Elastic Net, EN)筛选出反演参数子集,然后基于GA和BOA分别优化RFR参数,建立反演参数子集和模型参数分步优化的RFR模型(EN-GA-RFR、EN-BOA-RFR);建立利用GA和BOA分别同步优化反演参数子集和模型参数的RFR模型(GA-RFR、BOA-RFR)。选择渭-库绿洲和奇台绿洲为实验区,通过人工采样的方式获得SSC数据,在谷歌地球引擎(Google Earth Engine, GEE)平台构建反演参数。在每个实验区,对EN-GA-RFR、EN-BOA-RFR、GA-RFR、BOA-RFR的SSC预测精度进行对比,以验证同步优化反演参数子集和模型参数的建模方式的有效性,及BOA的优化性能。最后分析每个实验区各类盐渍土的空间分布,并对2个实验区的反演参数进行对比分析。以期为干旱区绿洲土壤盐渍化信息的高效获取提供决策支持。

2 研究方法

首先利用EN优化的反演参数子集,作为模型的输入,然后基于GA和BOA分别优化RFR参数,建立反演参数子集和模型参数分步优化的RFR模型(EN-GA-RFR、EN-BOA-RFR);建立利用GA和BOA分别同步优化反演参数子集和模型参数的RFR模型(GA-RFR、BOA-RFR)。在每个实验区,对EN-GA-RFR、EN-BOA-RFR、GA-RFR、BOA-RFR的SSC预测精度进行对比。最后分析每个实验区各类盐渍土的空间分布,并对2个实验区的反演参数进行对比分析(图1)。
图1 模型设计流程

Fig. 1 Flow chart of models design

2.1 弹性网络

Zou等[14]于2005年在套索回归和岭回归的基础上,提出弹性网络(Elastic Net, EN),该算法能有效地处理小样本,高维度且变量间存在相关性的变量筛选问题。EN线性组合了套索回归和岭回归的惩罚项,避免了最小二乘法过拟合的问题,其惩罚项表达式为[14]
λ 1 λ 2 β 1 + λ 1 1 - λ 2 2 β 2
式中: β 1为回归系数L1正则化项; β 2为回归系数L2正则化项。λ1大于0,决定了惩罚项相对于拟合错误的重要程度;λ2的取值在0~1之间,代表了L1正则化和L2正则化的比例。当λ2为1时, EN就变为套索回归;当λ2为0时, EN就变为岭回归。变量的回归系数又称压缩系数,在用EN进行变量筛选时,若变量的压缩系数不为零,则该变量被选中。

2.2 随机森林回归

随机森林回归(Random Forests Regression,RFR)是基于多棵回归树的集成学习方法,用于解决回归问题,由Breiman等[15]提出。RFR的随机性不仅表现为每棵树的训练样本是通过自助法(Bootstrap)重采样技术随机抽样生成的,而且表现为树中每个节点的分裂属性集合也是随机选择确定的,这保证了每棵回归树的差异性。RFR不仅可以进行数值的预测,也可以通过不纯度降低或准确率降低2种方式计算特征变量的贡献度,以此来决定特征的重要性。RFR善于处理变量间的非线性关系,但其预测性能受回归树棵数、回归树最大深度、节点划分所需最小样本数、叶子节点最少样本数等参数的影响。

2.3 遗传算法

遗传算法(Genetic Algorithm,GA)是一种对生物遗传和进化过程的计算机模拟,由美国Michigan大学Holland教授于1962年提出[16]。DeJong于1975年对GA进行计算机实验,形成了GA的基本框架[17]。GA首先根据决策变量及其各种约束条件,将决策变量可能的解转换为群体中的染色体,选用二进制、实数、十进制、格雷、符号等编码方式将染色体用符号串形式表示;然后设计选择、交叉、变异遗传操作算子,以适应度函数为评价指标,通过遗传操作算子不断进行遗传操作,以得到更优的种群(图2)。最终通过解码满足条件的最优个体,获得问题的最优解。
图2 GA进化流程

Fig. 2 Evolution process of genetic algorithm

2.4 贝叶斯优化算法

Pelikan等[18]基于分布估计算法[19],利用贝叶斯网络对数据建模,提出贝叶斯优化算法(Bayesian Optimization Algorithm, BOA)。贝叶斯定理是贝叶斯优化算法的理论基石,其表达式为[20]
p f | Q 1 : d = p Q 1 : d | f p ( f ) p Q 1 : d
式中:f表示未知的目标函数,Q1:d={(x1, y1), (x2,y2), …, (xd, yd)}为已观测值集合,xd为评估点,yd=fxd)+εd表示观测值,εdyd的随机观测误差;pf)表示y的先验概率分布; pQ1:d)表示边际化f的边际似然概率分布; pQ1:d|f)为y的似然概率分布; pf|Q1:d)表示f的后验概率分布。在BOA中f用概率代理模型(Probabilistic Surrogate Model, PSM)表示,PSM分为参数模型和非参数模型,高斯过程(Gaussian Processes, GP)是较广泛应用的PSM;通过pf|Q1:d)构造采集函数(Acquisition Function,ACF),最大化ACF来决定评估点,ACF的相关系数影响优化结果是否为全局最优解,期望提升量(Expected Improvement, EI)是较广泛应用的ACF。
BOA采用迭代的方式执行优化流程,首先随机生成初始化点,最大化ACF来确定下一个评估点;然后将选定的评估点值代入目标函数求出函数值,形成新的观测值点对来扩充历史观测集,并根据新的观测集更新PSM,为下一次迭代做准备;重复上述过程,直到满足终止条件(图3)。
图3 BOA优化流程

Fig. 3 Optimization process of bayesian optimization algorithm

2.5 变量结构及交叉验证建模

本文基于GA、BOA和RFR,建立反演参数子集和模型参数分步优化和同步优化的RFR模型(EN-GA-RFR、EN-BOA-RFR、GA-RFR、BOA-RFR)。反演参数子集和RFR参数的分步优化是相对于这两者同步优化而言的,分步优化在RFR参数优化之前,先通过EN对反演参数子集进行优化;而同步优化将反演参数子集与RFR参数作为变量整体,一起优化,两者的优化次序不分先后[21]图4Pkk=1, …, q,q为待优化的模型参数的数量)代表第k个RFR参数的取值,其取值范围根据实际问题确定。图4(a)为分步优化反演参数子集和RFR参数的变量结构图示,imm=1, …, n,n为待筛选反演参数的数量)为第m反演参数在EN中的压缩系数,im为0代表第m个反演参数没被选中,非0时代表第m个反演参数被选中;图4(b)为同步优化反演参数子集和RFR参数的变量结构图示,im在BOA和GA中的取值范围设为0~1,对im优化后的值进行取整,若值为0则代表第m个反演参数没被选中,若值为1代表第m个反演参数被选中。由于GA的适应度函数和BOA的目标函数都是评价优化模型好坏的指标,本文将二者都称为目标函数。通过3折交叉验证的方式,尽可能将总样本集分成数量相等的3组,每组数据充当一次测试集,其余2组作为建模集, 3个测试集的平均绝对误差均值的倒数作为BOA或GA分步优化RFR参数、同步优化反演参数子集和RFR参数的目标函数。由于通过3折交叉验证的方式进行优化建模,故每个模型会得到3次模型评估结果,对3次评估结果取平均,作为该模型的整体性能(图5)。本文采用均方根误差(RMSE)、判定系数(R2)和相对分析误差(RPD)作为每折交叉验证模型评估的指标,计算公式如下:
RMSE = 1 n i = 1 n y i - ŷ i 2
R 2 = 1 - i = 1 n y i - ŷ i 2 i = 1 n y i - ȳ 2
RPD = SD R MSE
式中:n为样本数量,yi为样本实测值,ŷi为样本预测值,SD为数据集的标准差。RMSE越接近于0,模型的预测精度越高。R2越接近于1,模型的拟合优度越高。RPD用来衡量模型的预测能力,RPD < 1.4,说明模型不可靠;1.4 < RPD < 2时,说明模型的精度一般;RPD > 2时,说明模型有较高的预测能力。
图4 分步优化与同步优化变量结构示意

Fig. 4 Schematic diagram of variable structures of stepwise optimization and synchronization optimization

图5 3折交叉验证建模示意

Fig. 5 Schematic diagram of modeling by 3 fold cross validation

3 实验区概况与数据来源

3.1 实验区概况

渭干河-库车河三角洲绿洲(89°13′—91°22′ E,43°25′—49°29′ N)(简称渭-库绿洲)位于天山南麓,是塔里木盆地西北部的冲洪积平原。渭-库绿洲流经的河流为库车河、渭干河和塔里木河。绿洲属于温带大陆性气候区,降水稀少,蒸发量大,光照充足,年温差和昼夜温差大[22]。该绿洲地貌类型有山地、丘陵和平原,地势北高南低。种植的农作物主要为棉花、玉米、小麦、水稻、苜蓿。渭-库绿洲降水量远小于蒸发量,以及不合理的灌溉方式造成地下水位抬升,土壤盐渍化情况严重[23]
奇台绿洲(89°13′—91°22′ E,43°25′—49°29′ N)位于天山北坡,准噶尔盆地东南缘。该绿洲北部为戈壁沙漠,南部为山地丘陵,中部为平原。奇台绿洲属温带大陆性干旱半干旱气候,冬季寒冷,夏季炎热,年降水稀少,蒸发量大,年平均气温为5.2 ℃[24]。绿洲农作物主要有番茄、马铃薯、红花、高粱、食葵等。农业主要靠冰雪融水灌溉,井灌区有盐土分布,土壤盐渍化特征比较典型。

3.2 研究数据

3.2.1 采样点数据
渭-库绿洲和奇台绿洲土壤样本的采集时间分别为2009年10月和6月。对每个样点设置30 m×30 m样方,并用手持RTK-GPS在野外进行定位,在样方内按照五点梅花的方式进行表层土壤取样,采样深度为0~20 cm。采样点考虑了不同的植被覆盖、地貌类型和交通可达性,具有一定的代表性。将采集的土壤样品带回实验室,经过自然风干、磨碎、过筛后,测定八大离子(Ca2+、Mg2+、K+、Na+、CO32-、HCO3-、Cl-、SO42-)的含量,并对其求和获得土壤样品SSC/(g/kg)。随后将样方内土壤样品SSC的平均值作为采样点的实际观测值,最终在渭-库绿洲和奇台绿洲获得的采样点数分别为32个和58个(图6)。2个实验区采样点SSC的描述性统计如表1所示,将每个实验区采样点SSC作为各自的总样本集。
图6 奇台绿洲和渭-库绿洲RGB真彩色合成影像

Fig. 6 Distribution of sampling points in experiment areas

表1 实验区采样点SSC统计描述

Tab. 1 Statistical description of SSC at sampling points in experiment areas

采样点类别 采样点/个 最大值/(g/kg) 最小值/(g/kg) 均值/(g/kg) 变异系数/%
渭-库绿洲 32 131.50 0.10 37.98 97.52
奇台绿洲 58 45.23 0.11 16.84 61.79
3.2.2 反演参数
谷歌地球引擎(Google Earth Engine, GEE)提供高性能并行计算服务,是专门处理地球观测数据的云端运算平台[25]。光谱信息、温度变量、地形参数与土壤的理化性质具有相关性,对SSC具有一定的表征能力[3,5];故通过整合SSC反演的相关研究,在每个实验区,借助GEE平台,基于遥感数据(Landsat-5 TM、SRTM和MOD11A2.006)构建56个反演参数,共分为8类(表2)。由于采样点样方为30 m×30 m,通过3次卷积内插将每个实验区的反演参数以30 m空间分辨率导出。渭-库绿洲和奇台绿洲Landsat-5 TM影像获取时间分别为2009年10月2日和6月16日,行列号分别为145/31和141/29。地表温度对土壤的水盐运移的影响具有时间分异性[26],新疆植物生长期在每年的4月—10月[27];故基于MOD11A2.006(时间分辨率为8 d)合成每个实验区植物非生长期、生长期地表温度的最大值、最小值、均值,全年的均值。由于奇台绿洲的采样点时间在植物生长期内,为了耦合温度变量与采样时间的对应性,将奇台绿洲的生长期时间和全年时间设为相对值。渭-库绿洲和奇台绿洲非生长期时间均设为2008年11月1日到2009年3月31日;渭-库绿洲和奇台绿洲生长期时间分别设为2009年4月1日到2009年10月31日和2009年4月1日到2009年6月30日;渭-库绿洲和奇台绿洲全年时间设为2008年11月1日到2009年10月31日和2008年11月1日到2009年6月30日。反演参数中的部分植被指数的参数设为经验值,具体信息见表2
表2 SSC反演参数

Tab. 2 Inversion parameters of SSC

反演参数类型 名称
植被指数 归一化植被指数(NDVI)[28]、扩展的归一化植被指数(ENDVI)[29]、增强植被指数(EVI)[28]、扩展的增强植被指数(EEVI)[29]、差值植被指数(DVI)[30]、修改型土壤调节植被指数(MSAVI)[30]、比值植被指数(RVI)[30]、大气阻抗植被指数(ARVI)[30]、广义差分植被指数(GDVI)[28]、非线性植被指数(NLI)[28]、联合光谱响应指数(COSRI)[31]、绿色大气阻抗指数(GARI)[28]、转换型植被指数(TVI)[32]、增强型差值植被指数(EDVI)[29]、三波段差分指数(TGDVI)[29]
盐分指数 盐分指数(SI_T)[33]、盐分指数(SI)[28]、盐分指数(SI1)[28]、盐分指数(SI2)[28]、盐分指数(SI3)[28]、盐分指数(S1)[28]、盐分指数(S2)[28]、盐分指数(S3)[28]、盐分指数(S5)[28]、盐分指数(S6)[28]、盐分指数(INT1)[28]、盐分指数(INT2)[28]、归一化盐分指数(NDSI)[28]、冠层响应盐度指数(CRSI)[34]
下垫面反射特性 短波红外地表反照度(Albedo_short)[35]、可见光地表反照度(Albedo_visible)[35]
缨帽变换因子 绿度指数(GVI)[36]、亮度指数(BI)[36]、湿度指数(WI)[36]
特征空间 植被指数-盐分指数特征空间(MSI)[37]、植被指数-湿度指数特征空间(MWI)[38]、湿度指数-盐分指数特征空间 (WSI)[38]、反照率-植被指数特征空间(AVI)[39]、植被指数-盐分指数特征空间(NSI)[38]
地形参数 高程(Elevation)[40]、坡度(Slop)[40]、坡向(Aspect)[40]、地表粗糙度(Roughness)[40]
原始波段反射率 蓝波段(Blue)、绿波段(Green)、红波段(Red)、近红外波段(Nir)、短波红外波段1(Swir1)、短波红外波段2(Swir2)
温度变量 非生长季最大值(LST1_max)、非生长季最小值(LST1_min)、非生长季均值(LST1_mean)、生长季最大值(LST2_max)、生长季最小值(LST2_min)、生长季均值(LST2_mean)、全年均值(LST_mean)

注: GDVI=(Nirn-Redn)/ (Nirn+Redn), n=2; GARI= (NIR- (G+ γ (Blue-Red)) / (NIR + (G+ γ(Blue-Red)), γ=0.9; EVI=2.5(Nir-Red)/ (Nir+C1Red-C2Blue+L), C1=6, C2=7.5, L=1。

4 结果及分析

4.1 基于弹性网络的反演参数筛选

由于拟用于SSC反演的反演参数类别较多,反演参数之间具有一定关联,故采用EN进行反演参数的优选。在每个实验区,对总样本集对应的56个反演参数进行极差归一化处理;通过综合比较,将EN参数λ1和λ2的取值范围分别设为[0.01,2]和[0.01,0.99],步长均设为0.01;利用Python语言中的机器学习包sklearn下的ElasticNetCV模型,通过4折交叉验证进行λ1λ2的优选,并确定优选的反演参数。在渭-库绿洲,λ1为0.8,λ2为0.88,36个反演参数被选中;在奇台绿洲,λ1为0.6,λ2为0.4,35个反演参数被选中(图7)。
图7 反演参数选择结果与反演参数压缩系数

Fig. 7 Selection results and compression coefficients of inversion parameters

4.2 模型优化结果

通Python语言中机器学习包设计RFR模型,考虑到样本量,通过综合比较,选择RFR中决策树数量(Nest)、决策树最大深度(Dtre)进行优化,2个参数在优化算法中搜索的空间范围如表3所示;随机状态值(random_state)设为定值,其余参数设为默认值。基于Python语言中的Bayesian-optimization包进行BOA的编写,BOA的PSM为GP, ACF为EI(相关系数为0.01),初始化点数设为10,迭代次数设为600。 GA用由华南农业大学等高校研发的Python语言工具包Geatpy来设计,采用实数编码,种群个体数设为30,进化代数设为600。
表3 RFR参数空间范围

Tab. 3 Space range of perparameters of random forests regression

超参数类型 参数标识 取值区间
决策树数量 Nest [2,200]
决策树最大深度 Dtre [2,80]
每个实验区4组优化的RFR盐渍化反演模型目标函数值,随着迭代次数增多不断增大,最后趋于稳定(图8),最终的优化结果如表4所示。2个实验区4组模型最优目标函数值从大到小的顺序均为BOA-RFR>GA-RFR>EN-BOA-RFR=EN-GA-RFR。
图8 模型优化过程中优化算法的最优目标函数值

Fig. 8 The optimal objective function value of the optimization algorithm in the process of optimizing models

表4 模型优化结果

Tab. 4 The results of optimizing models

采样点区域 模型 目标函数值 收敛代数 反演参数个数 Nest Dtre
渭-库绿洲 EN-BOA-RFR 0.12 90 35 6 13
EN-GA-RFR 0.12 136 35 6 13
BOA-RFR 0.16 137 27 11 29
GA-RFR 0.14 163 30 5 23
奇台绿洲 EN-BOA-RFR 0.25 205 36 32 42
EN-GA-RFR 0.25 180 36 32 42
BOA-RFR 0.31 143 25 37 45
GA-RFR 0.29 231 22 182 15
在每个实验区,根据优化的RFR模型的3折交叉验证精度统计结果(表5),模型预测精度由高到低的排序都为BOA-RFR>GA-RFR>EN-BOA-RFR=EN-GA-RFR,很好地对应了各优化模型目标函数值之间的大小关系。同步优化反演参数子集和模型参数建立的BOA-RFR、GA-RFR预测精度都好于分步优化反演参数子集和模型参数建立的EN-BOA-RFR、EN-GA-RFR,这可能是由于BOA-RFR和GA-RFR不仅顾及了反演参数之间的相互关系,在一定程度上考虑了反演参数和RFR之间的耦合性,筛选的反演参数子集冗余性更小[41]。在2个实验区,EN-BOA-RFR预测精度均与EN-GA-RFR相等,BOA-RFR预测精度均高于GA-RFR,整体上表明BOA优化性能好于GA。2个实验区BOA-RFR预测性能均是最好的,从数值统计的结果看,本文提出的BOA-RFR模型具有较好的适用性。
表5 SSC反演精度统计

Tab. 5 Quantitative statistics of the SSC inversion

采样点区域 模型 基于建模集的精度统计 基于测试集的精度统计
RMSE/ (g/kg) R2 RMSE/ (g/kg) R2 RPD
渭-库绿洲 EN-BOA-RFR 13.77 0.86 13.77 0.85 2.75
EN-GA-RFR 13.77 0.86 13.77 0.85 2.75
BOA-RFR 11.30 0.90 11.25 0.90 3.38
GA-RFR 13.27 0.87 13.10 0.87 2.92
奇台绿洲 EN-BOA-RFR 5.60 0.68 5.26 0.67 2.41
EN-GA-RFR 5.60 0.68 5.26 0.67 2.41
BOA-RFR 4.83 0.76 4.52 0.75 2.87
GA-RFR 5.11 0.73 4.80 0.72 2.66

4.3 各类盐渍土空间分布及反演参数对比

在每个实验区,BOA-RFR预测性能均最优,用3折交叉验证过程中BOA-RFR测试集RPD最高的模型进行SSC反演;参照乔木等[42]拟定的新疆土壤盐渍化程度分级指标(盐渍土(SSC>20 g/kg),重度盐渍土(15~20 g/kg),中度盐渍土(10~15 g/kg),轻度盐渍土(8~10 g/kg),非盐渍土(<8 g/kg))将土壤划分为5类,并统计各类盐渍土的面积比例(图8)。在渭-库绿洲,盐渍土占比最大,为51.99%;其次为非盐渍土,为40.37%;轻度盐渍土占比最小,为1.65%;盐渍土大多分布在绿洲边缘的荒漠交错带、非盐渍土大多分布在绿洲耕地区。在奇台绿洲,中度盐渍土所占的比例最大,为28.76%;其次为重度盐渍土,为23.40%;轻度盐渍土占比最小,为15.13%;非盐渍土、轻度盐渍土和中度盐渍土大多镶嵌分布在绿洲耕地区,重度盐渍土和盐渍土大多呈块状分布在绿洲边缘的荒漠交错带。
从乔木等[42]2008年与丁建丽等[43]2010年的渭-库绿洲土壤盐渍化格局来看,渭-库绿洲内部土壤盐渍化程度较轻,而外围较重,本文2009年渭-库绿洲土壤盐渍化格局(图9(b))与其研究结果基本一致。张芳等[44]2008年的研究表明,奇台绿洲土壤盐渍化程度较为严重,且西北部的土壤盐渍化程度最严重,本文2009年奇台绿洲土壤盐渍化的研究结果(图9(c))与其基本一致。通过上述分析,从SSC反演效果看,本文提出的BOA-RFR模型具有较好的可行性。
图9 各类盐渍土的空间分布及面积比例

Fig. 9 Spatial distribution and area proportion of various types of saline soils

Python语言中机器学习包sklearn下的RFR模型,可以基于基尼指数计算每个特征对RFR的贡献度,来确定每个特征的重要性得分,特征的重要性得分越大,其对目标变量的表征能力就越大[45]。每个实验区BOA-RFR性能均最优,故根据每个实验区3折交叉验证过程中,BOA-RFR测试集RPD最高的模型反演参数极差归一化后的相对重要性得分,对2个实验区的反演参数进行对比分析(图10)。根据2个实验区反演参数类型看,盐分指数、植被指数、温度变量及地形参数在SSC的反演中发挥着重要作用。2个实验区共有的反演参数为14种,但对SSC的表征能力存在区域异质性,比如SI_T在渭-库绿洲对SSC的表征能力最强,但在奇台绿洲对SSC的表征能力较弱; S2在奇台绿洲对SSC的表征能力较强,但在渭-库绿洲对SSC的表征能力最弱。奇台绿洲地形参数Elevation对SSC的表征能力最强,而渭-库绿洲中地形参数Roughness、Slope对SSC的响应能力较弱。基于30 m空间分辨率的DEM,对2个实验区Elevation进行统计分析,得出渭-库绿洲和奇台绿洲Elevation标准差分别为44.27 m和67.10 m,渭-库绿洲Elevation标准差小于奇台绿洲,这在一定程度上表明奇台绿洲较渭-库绿洲地形起伏度大。2个实验区地形起伏度的差异性,在一定程度上解释了2个实验区中地形参数对SSC表征能力的区域异质性。
图10 SSC反演参数的重要性

Fig. 10 Importance of inversion parameters of SSC

5 结论与展望

5.1 结论

基于实地采样点SSC,并结合基于Landsat-5 TM、SRTM、MOD11A2.006遥感数据构建反演参数作为数据源。在渭-库绿洲和奇台绿洲,均基于RFR,用EN、BOA和GA构建4组优化的RFR反演模型(EN-GA-RFR、EN-BOA-RFR、GA-RFR、BOA-RFR),并对4组模型进行对比,以验证本文用BOA同步优化反演参数子集和RFR模型参数建立的BOA-RFR模型的适用性与可行性,及BOA的优化性能。最后分析每个实验区各类盐渍土的空间分布,并对2个实验区的反演参数进行对比。结论如下:
(1)在2个实验区,SSC反演模型的预测精度由高到低的排序均为BOA-RFR>GA-RFR>EN-BOA-RFR=EN-GA-RFR,整体上BOA的优化性能均好于GA。
(2)在2个实验区,同步优化反演参数子集和模型参数建立的模型(BOA-RFR、GA-RFR)的预测精度均好于分步优化方式建立的模型(EN-BOA-RFR、EN-GA-RFR),同步优化反演参数子集和模型参数的建模方式具有一定优越性。
(3)每个实验区各类盐渍土面积占比均存在一定差异,且耕地区土壤盐渍化程度均轻于非耕地区;渭-库绿洲和奇台绿洲面积占比最大的盐渍土类型分别为盐渍土和中度盐渍土。
(4)盐分指数、植被指数、温度变量及地形参数在SSC的反演中发挥着重要作用,反演参数对SSC的表征能力存在区域异质性。

5.2 展望

EN、BOA、GA和RFR的部分参数是人为设定的,这些因素可能会增大试验结果的不确定性。本文为探究温度变量对SSC的影响,将MOD11A2.006构建的温度变量反演参数通过3次卷积内插将反演参数以30 m空间分辨率导出,对SSC的制图效果产生了一定影响,后期可以寻找更高分辨率的温度数据代替MOD11A2.006。本文研究表明反演参数对SSC的表征能力具有空间异质性,后期在进行SSC反演研究时,可以进行地理单元的分区。本文研究表明同步优化反演参数子集和模型参数建立的RFR预测性能均比分步优化方式建立的RFR好,这与Xu等[3]基于支持向量回归(Support Vector Regression, SVR)对皮尔森相关分析初次筛选的反演参数子集和模型参数的同步优化研究有相似之处;但二者仅用同步优化反演参数子集和模型参数的建模方式对SVR和RFR在土壤盐渍化反演的应用方面展开了研究,对模型的优化研究存在广度与深度的不足;后期可以在模型层面与应用层面,对反演参数子集和模型参数同步优化的建模方式做进一步研究,并可基于地理数据的时空特性,在优化机器学习模型的基础上,对机器学习模型做进一步改进。
[1]
Daliakopoulos I N, Tsanis I K, Koutroulis A, et al. The threat of soil salinity: A European scale review[J]. Science of the Total Environment, 2016, 573:727-739.

DOI

[2]
朱宏伟, 夏军, 曹国栋, 等. 盐渍化弃耕地土壤盐分动态及其影响因素[J]. 土壤, 2013, 45(2):1339-1345.

[ Zhu H W, Xia J, Cao G D, et al. Dynamic change of soil salinity in salinization abandoned farmland and affecting factors[J]. Soils, 2013, 45(2):1339-1345. ]

[3]
Xu H T, Chen C B, Zheng H W, et al. AGA-SVR-based selection of feature subsets and optimization of parameter in regional soil salinization monitoring[J]. International Journal of Remote Sensing, 2020, 41(12):4470-4495.

DOI

[4]
Wang X P, Zhang F, Ding J L, et al. Estimation of soil salt content (SSC) in the Ebinur Lake Wetland National Nature Reserve (ELWNNR), Northwest China, based on a Bootstrap-BP neural network model and optimal spectral indices[J]. Science of the Total Environment, 2018, 615:918-930.

DOI

[5]
王飞, 杨胜天, 丁建丽, 等. 环境敏感变量优选及机器学习算法预测绿洲土壤盐分[J]. 农业工程学报, 2018, 34(22):102-110.

[ Wang F, Yang S T, Ding J L, et al. Environmental sensitive variable optimization and machine learning algorithm using in soil salt prediction at oasis[J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(22):102-110. ]

[6]
张智韬, 韩佳, 王新涛, 等. 基于全子集-分位数回归的土壤含盐量反演研究[J]. 农业机械学报, 2019, 50(10):142-152.

[ Zhang Z T, Han J, Wang X T, et al. Soil salinity inversion based on best subsets-quantile regression model[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(10):142-152. ]

[7]
王丹阳, 陈红艳, 王桂峰, 等. 无人机多光谱反演黄河口重度盐渍土盐分的研究[J]. 中国农业科学, 2019, 52(10):1698-1709.

[ Wang D Y, Chen H Y, Wang G F, et al. Salinity inversion of severe saline soil in the Yellow River estuary based on UAV multi-spectra[J]. Scientia Agricultura Sinica, 2019, 52(10):1698-1709. ]

[8]
Wei G F, Li Y, Zhang Z T, et al. Estimation of soil salt content by combining UAV-borne multispectral sensor and machine learning algorithms[J]. Peer Journal, 2020, 8:e9087.

DOI

[9]
Pang G J, Wang T, Liao J E, et al. Quantitative model based on field-derived spectral characteristics to estimate soil salinity in Minqin County, China[J]. Soil Science Society of America Journal, 2014, 78(2):546-555.

DOI

[10]
徐红涛, 陈春波, 郑宏伟, 等. 基于相关分析和自适应遗传算法的盐渍化建模变量和参数优选[J]. 地球信息科学学报, 2020, 22(7):1497-1509.

[ Xu H T, Chen C B, Zheng H W, et al. Correlation analysis and adaptive genetic algorithm based feature subset and model parameter optimization in salinization monitoring[J]. Journal of Geo-information Science, 2020, 22(7):1497-1509. ]

[11]
Wang F, Yang S T, Wei Y, et al. Characterizing soil salinity at multiple depth using electromagnetic induction and remote sensing data with random forests: A case study in Tarim River Basin of southern Xinjiang, China[J]. Science of the Total Environment, 2021, 754:142030.

DOI

[12]
Wu W C, Zucca C, Muhaimeed A S, et al. Soil salinity prediction and mapping by machine learning regression in Central Mesopotamia, Iraq[J]. Land Degradation & Development, 2018, 29(11):4005-4014.

DOI

[13]
蒙莉娜, 丁建丽, 王敬哲, 等. 基于环境变量的渭干河-库车河绿洲土壤盐分空间分布[J]. 农业工程学报, 2020, 36(1):175-181.

[ Meng L N, Ding J L, Wang J Z, et al. Spatial distribution of soil salinity in Ugan-Kuqa River delta oasis based on environmental variables[J]. Transactions of the Chinese Society of Agricultural Engineering, 2020, 36(1):175-181. ]

[14]
Zou H, Hastie T. Regularization and variable selection via the elastic net[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2005, 67(2):301-320.

DOI

[15]
Breiman L. Random forests[J]. Machine Learning, 2001, 45(1):5-32.

DOI

[16]
Holland J H. Genetic algorithms and the optimal allocation of trials[J]. SIAM Journal on Computing, 1973, 2(2):88-105.

DOI

[17]
席裕庚, 柴天佑, 恽为民. 遗传算法综述[J]. 控制理论与应用, 1996, 13(6):697-708.

[ Xi Y G, Chai T Y, Yun W M. Survey on genetic algorithm[J]. Control Theory & Applications, 1996, 13(6):697-708. ]

[18]
Pelikan M, Goldberg D E, Cantu-Paz E. BOA: The Bayesian optimization algorithm [C]. Gecco-99: Proceedings Of the Genetic And Evolutionary Computation Conference, 1999,525-532.

[19]
王圣尧, 王凌, 方晨, 等. 分布估计算法研究进展[J]. 控制与决策, 2012, 27(7):961-966,974.

[ Wang S Y, Wang L, Fang C, et al. Advances in estimation of distribution algorithms[J]. Control and Decision, 2012, 27(7):961-966,974. ]

[20]
崔佳旭, 杨博. 贝叶斯优化方法和应用综述[J]. 软件学报, 2018, 29(10):3068-3090.

[ Cui J X, Yang B. Survey on Bayesian optimization methodology and applications[J]. Journal of Software, 2018, 29(10):3068-3090. ]

[21]
樊爱宛, 时合生. 基于特征选择和SVM参数同步优化的网络入侵检测[J]. 北京交通大学学报, 2013, 37(5):58-61.

[ Fan A W, Shi H S. Network intrusion detection based on simultaneous optimization of features selection and parameters of support vector machine[J]. Journal of Beijing Jiaotong University, 2013, 37(5):58-61. ]

[22]
阿布都沙拉木·吐鲁甫, 买买提·沙吾提, 马春玥, 等. 基于SEBAL模型的渭-库绿洲蒸散量特征及影响因子研究[J]. 地球信息科学学报, 2018, 20(9):1361-1372.

DOI

[ Abdusalam T, Mamat S, Ma C Y, et al. Characteristics and impact factors of evapotranspiration in Ugan and Kuqa Rivers Delta Oasis based on SEBAL model[J]. Journal of Geo-information Science, 2018, 20(9):1361-1372.]

[23]
高婷婷, 丁建丽, 哈学萍, 等. 基于流域尺度的土壤盐分空间变异特征——以渭干河-库车河流域三角洲绿洲为例[J]. 生态学报, 2010, 30(10):2695-2705.

[ Gao T T, Ding J L, Ha X P, et al. The spatial variability of salt content based on river basin scale: A case study of the delta oasis in Weigan-Kuqa Watershed[J]. Acta Ecologica Sinica, 2010, 30(10):2695-2705. ]

[24]
李根生, 曾强, 董敬宣, 等. 准东矿区邻近奇台绿洲地下水位变化趋势分析[J]. 中国矿业, 2017, 26(5):148-153.

[ Li G S, Zeng Q A, Dong J X, et al. Analysis of the change of ground water level in Qitai oasis nearby eastern Junggar coalfield[J]. China Mining Magazine, 2017, 26(5):148-153. ]

[25]
Gorelick N, Hancher M, Dixon M, et al. Google Earth Engine: Planetary-scale geospatial analysis for everyone[J]. Remote Sensing of Environment, 2017, 202:18-27.

DOI

[26]
孟阳阳, 刘冰, 刘婵. 荒漠绿洲湿地土壤水热盐动态过程及其影响机制[J]. 中国沙漠, 2019, 39(1):149-160.

[ Meng Y Y, Liu B, Liu C. Dynamic process of water-heat-salt in soil and the mechanism in the desert oasis wetland[J]. Journal of Desert Research, 2019, 39(1):149-160. ]

[27]
何宝忠, 丁建丽, 李焕, 等. 新疆植被物候时空变化特征[J]. 生态学报. 2018, 38(6):2139-2155.

[ He B Z, Ding J L, Li H, et al. Spatiotemporal variation of vegetation phenology in Xinjiang from 2001 to 2016[J]. Acta Ecologica Sinica, 2018, 38(6):2139-2155. ]

[28]
Peng J E, Biswas A, Jiang Q S, et al. Estimating soil salinity from remote sensing and terrain data in southern Xinjiang Province, China[J]. Geoderma, 2019, 337:1309-1319.

DOI

[29]
王飞, 丁建丽, 魏阳, 等. 基于Landsat系列数据的盐分指数和植被指数对土壤盐度变异性的响应分析——以新疆天山南北典型绿洲为例[J]. 生态学报, 2017, 37(15):5007-5022.

[ Wang F, Ding J L, Wei Y, et al. Sensitivity analysis of soil salinity and vegetation indices to detect soil salinity variation by using Landsat series images: Applications in different oases in Xinjiang, China[J]. Acta Ecologica Sinica, 2017, 37(15):5007-5022. ]

[30]
Guo S S, Ruan B Q, Chen H R, et al. Characterizing the spatiotemporal evolution of soil salinization in Hetao Irrigation District (China) using a remote sensing approach[J]. International Journal of Remote Sensing, 2018, 39(20):6805-6825.

DOI

[31]
Fernández-Buces N, Siebe C, Cram S, et al. Mapping soil salinity using a combined spectral response index for bare soil and vegetation: A case study in the former lake Texcoco, Mexico[J]. Journal of Arid Environments, 2006, 65(4):644-667.

DOI

[32]
贺中华, 陈晓翔, 梁虹, 等. 基于植被指数的喀斯特流域赋水动态变化遥感监测研究——以贵州省为例[J]. 国土与自然资源研究, 2012(4):48-51.

[ He Z H, Chen X X, Liang H, et al. Study of remote sensing monitoring of Karst basin water-holding dynamic changing based on vegetation indices—taking Guizhou Province as a case[J]. Territory & Natural Resources Study, 2012(4):48-51. ]

[33]
Tripathi N K, Brijesh K R. Spatial modelling of soil alkalinity in GIS environment using IRS data [C]// Kuala Lumpur:the 18th Asian Conference in Remote Sensing, 1997:81-86.

[34]
Scudiero E, Skaggs T H, Corwin D L. Regional-scale soil salinity assessment using Landsat ETM+ canopy reflectance[J]. Remote Sensing of Environment, 2015, 169:335-343.

DOI

[35]
Liang S L. Narrowband to broadband conversions of land surface albedo I: Algorithms[J]. Remote Sensing of Environment, 2001, 76(2):213-238.

DOI

[36]
Crist E P. A TM Tasseled Cap equivalent transformation for reflectance factor data[J]. Remote Sensing of Environment, 1985, 17(3):301-306.

DOI

[37]
边玲玲, 王卷乐, 郭兵, 等. 基于特征空间的黄河三角洲垦利县土壤盐分遥感提取[J]. 遥感技术与应用, 2020, 35(1):211-218.

[ Bian L L, Wang J L, Guo B, et al. Remote sensing extraction of soil salinity in Yellow River Delta Kenli County based on feature space[J]. Remote Sensing Technology and Application, 2020, 35(1):211-218. ]

[38]
李艳华, 丁建丽, 孙永猛, 等. 基于三维特征空间的土壤盐渍化遥感模型[J]. 水土保持研究, 2015, 22(4):113-117,121.

[ Li Y H, Ding J L, Sun Y M, et al. Remote sensing monitoring models of soil salinization based on the three dimensional feature space of MSAVI-WI-SI[J]. Research of Soil and Water Conservation, 2015, 22(4):113-117,121. ]

[39]
冯娟, 丁建丽, 魏雯瑜. 基于Albedo-MSAVI特征空间的渭库绿洲土壤盐渍化研究[J]. 中国农村水利水电, 2018(2):147-152.

[ Feng J A, Ding J L, Wei W Y. A study of soil salinization in Weigan and kuqa rivers oasis based on albedo-MSAVI feature space[J]. China Rural Water and Hydropower, 2018(2):147-152. ]

[40]
Vermeulen D, Van Niekerk A. Machine learning performance for predicting soil salinity using different combinations of geomorphometric covariates[J]. Geoderma, 2017, 299:1-12.

DOI

[41]
李敏, 卡米力·木依丁.特征选择方法与算法的研究[J]. 计算机技术与发展, 2013, 23(12):16-21.

[ Li M, Kamil M. Research on feature selection methods and algorithms[J]. Computer Technology and Development, 2013, 23(12):16-21. ]

[42]
乔木, 周生斌, 卢磊, 等. 新疆渭干河流域土壤盐渍化时空变化及成因分析[J]. 地理科学进展, 2012, 31(7):904-910.

[ Qiao M, Zhou S B, Lu L, et al. Causes and spatial-temporal changes of soil salinization in weigan river basin, Xinjiang[J]. Progress in Geography, 2012, 31(7):904-910. ]

[43]
丁建丽, 陈文倩, 陈芸. 干旱区土壤盐渍化灾害预警——以渭-库绿洲为例[J]. 中国沙漠, 2016, 36(4):1079-1086.

[ Ding J L, Chen W Q, Chen Y. Soil salinization disaster warning in Arid Zones: A case study in the Ugan-Kuqa Oasis[J]. Journal of Desert Research, 2016, 36(4):1079-1086.]

[44]
张芳, 熊黑钢, 田源, 等. 区域尺度地形因素对奇台绿洲土壤盐渍化空间分布的影响[J]. 环境科学研究, 2011, 24(7):731-739.

[ Zhang F, Xiong H G, Tian Y A, et al. Impacts of regional topographic factors on spatial distribution of soil salinization in Qitai oasis[J]. Research of Environmental Sciences, 2011, 24(7):731-739. ]

[45]
Gregorutti B, Michel B, Saint-Pierre P. Correlation and variable importance in random forests[J]. Statistics and Computing, 2017, 27(3):659-678.

DOI

Outlines

/