Journal of Geo-information Science >
Retrieval of Soil Salinity Content based on Random Forests Regression Optimized by Bayesian Optimization Algorithm and Genetic Algorithm
Received date: 2020-11-26
Online published: 2021-11-25
Supported by
National Natural Science Foundation of China(41877012)
The Belt and Road program of Chinese academy of sciences(2018-YDYLTD-002)
Characteristic Institutes Main Service Program(Program1,Topic3) of Chinese Academy of Sciences(TSS-2015-014-FW-1-3)
Copyright
Random Forests Regression (RFR) is often used to inverse Soil Salinity Content (SSC)nowadays. However, the most important impact factors on the model accuracy such as the synchronization optimization of the inversion parameters subset and the model parameters have not been studied carefully in the applications of RFR. In this study, we selected Weiku Oasis and Qitai Oasis as experiment areas. The inversion parameters were constructed based on remote sensing data, including Landsat-5 TM, SRTM, and MOD11A2.006. Firstly, we applied Elastic Net (EN) to select a subset of the inversion parameters, developed Genetic Algorithm (GA) and Bayesian Optimization Algorithm (BOA) to optimize RFR, and established RFR models (EN-GA-RFR, EN-BOA-RFR) for stepwise optimization of inversion parameters subset and model parameters. Then we used GA and BOA to simultaneously optimize the inversion parameters subset and model parameters based on the combination methods of RFR, including GA-RFR and BOA-RFR methods. Furthermore, in each experiment area, we compared the prediction accuracy of EN-GA-RFR, EN-BOA-RFR, GA-RFR, and BOA-RFR. In this way, the spatial distributions of various saline soils in each experiment area were analyzed. The inversion parameters of the two experiment areas were also compared and analyzed. The results show that the order of model prediction accuracy in each study area from high to low is BOA-RFR>GA-RFR>EN-BOA-RFR=EN-GA-RFR. Overall, BOA had a better optimization performance than GA. Finally, the results show that the types of saline soils with the largest area in Ku Oasis and Qitai Oasis are saline soil and moderate saline soil, respectively. The inversion parameters have spatial differentiation in the characterization ability of SSC.
YANG Lianbing , CHEN Chunbo , ZHENG Hongwei , LUO Geping , SHANG Baijun , Olaf Hellwich . Retrieval of Soil Salinity Content based on Random Forests Regression Optimized by Bayesian Optimization Algorithm and Genetic Algorithm[J]. Journal of Geo-information Science, 2021 , 23(9) : 1662 -1674 . DOI: 10.12082/dqxxkx.2021.200711
表1 实验区采样点SSC统计描述Tab. 1 Statistical description of SSC at sampling points in experiment areas |
采样点类别 | 采样点/个 | 最大值/(g/kg) | 最小值/(g/kg) | 均值/(g/kg) | 变异系数/% |
---|---|---|---|---|---|
渭-库绿洲 | 32 | 131.50 | 0.10 | 37.98 | 97.52 |
奇台绿洲 | 58 | 45.23 | 0.11 | 16.84 | 61.79 |
表2 SSC反演参数Tab. 2 Inversion parameters of SSC |
反演参数类型 | 名称 |
---|---|
植被指数 | 归一化植被指数(NDVI)[28]、扩展的归一化植被指数(ENDVI)[29]、增强植被指数(EVI)[28]、扩展的增强植被指数(EEVI)[29]、差值植被指数(DVI)[30]、修改型土壤调节植被指数(MSAVI)[30]、比值植被指数(RVI)[30]、大气阻抗植被指数(ARVI)[30]、广义差分植被指数(GDVI)[28]、非线性植被指数(NLI)[28]、联合光谱响应指数(COSRI)[31]、绿色大气阻抗指数(GARI)[28]、转换型植被指数(TVI)[32]、增强型差值植被指数(EDVI)[29]、三波段差分指数(TGDVI)[29] |
盐分指数 | 盐分指数(SI_T)[33]、盐分指数(SI)[28]、盐分指数(SI1)[28]、盐分指数(SI2)[28]、盐分指数(SI3)[28]、盐分指数(S1)[28]、盐分指数(S2)[28]、盐分指数(S3)[28]、盐分指数(S5)[28]、盐分指数(S6)[28]、盐分指数(INT1)[28]、盐分指数(INT2)[28]、归一化盐分指数(NDSI)[28]、冠层响应盐度指数(CRSI)[34] |
下垫面反射特性 | 短波红外地表反照度(Albedo_short)[35]、可见光地表反照度(Albedo_visible)[35] |
缨帽变换因子 | 绿度指数(GVI)[36]、亮度指数(BI)[36]、湿度指数(WI)[36] |
特征空间 | 植被指数-盐分指数特征空间(MSI)[37]、植被指数-湿度指数特征空间(MWI)[38]、湿度指数-盐分指数特征空间 (WSI)[38]、反照率-植被指数特征空间(AVI)[39]、植被指数-盐分指数特征空间(NSI)[38] |
地形参数 | 高程(Elevation)[40]、坡度(Slop)[40]、坡向(Aspect)[40]、地表粗糙度(Roughness)[40] |
原始波段反射率 | 蓝波段(Blue)、绿波段(Green)、红波段(Red)、近红外波段(Nir)、短波红外波段1(Swir1)、短波红外波段2(Swir2) |
温度变量 | 非生长季最大值(LST1_max)、非生长季最小值(LST1_min)、非生长季均值(LST1_mean)、生长季最大值(LST2_max)、生长季最小值(LST2_min)、生长季均值(LST2_mean)、全年均值(LST_mean) |
注: GDVI=(Nirn-Redn)/ (Nirn+Redn), n=2; GARI= (NIR- (G+ γ (Blue-Red)) / (NIR + (G+ γ(Blue-Red)), γ=0.9; EVI=2.5(Nir-Red)/ (Nir+C1Red-C2Blue+L), C1=6, C2=7.5, L=1。 |
表3 RFR参数空间范围Tab. 3 Space range of perparameters of random forests regression |
超参数类型 | 参数标识 | 取值区间 |
---|---|---|
决策树数量 | Nest | [2,200] |
决策树最大深度 | Dtre | [2,80] |
图8 模型优化过程中优化算法的最优目标函数值Fig. 8 The optimal objective function value of the optimization algorithm in the process of optimizing models |
表4 模型优化结果Tab. 4 The results of optimizing models |
采样点区域 | 模型 | 目标函数值 | 收敛代数 | 反演参数个数 | Nest | Dtre |
---|---|---|---|---|---|---|
渭-库绿洲 | EN-BOA-RFR | 0.12 | 90 | 35 | 6 | 13 |
EN-GA-RFR | 0.12 | 136 | 35 | 6 | 13 | |
BOA-RFR | 0.16 | 137 | 27 | 11 | 29 | |
GA-RFR | 0.14 | 163 | 30 | 5 | 23 | |
奇台绿洲 | EN-BOA-RFR | 0.25 | 205 | 36 | 32 | 42 |
EN-GA-RFR | 0.25 | 180 | 36 | 32 | 42 | |
BOA-RFR | 0.31 | 143 | 25 | 37 | 45 | |
GA-RFR | 0.29 | 231 | 22 | 182 | 15 |
表5 SSC反演精度统计Tab. 5 Quantitative statistics of the SSC inversion |
采样点区域 | 模型 | 基于建模集的精度统计 | 基于测试集的精度统计 | |||
---|---|---|---|---|---|---|
RMSE/ (g/kg) | R2 | RMSE/ (g/kg) | R2 | RPD | ||
渭-库绿洲 | EN-BOA-RFR | 13.77 | 0.86 | 13.77 | 0.85 | 2.75 |
EN-GA-RFR | 13.77 | 0.86 | 13.77 | 0.85 | 2.75 | |
BOA-RFR | 11.30 | 0.90 | 11.25 | 0.90 | 3.38 | |
GA-RFR | 13.27 | 0.87 | 13.10 | 0.87 | 2.92 | |
奇台绿洲 | EN-BOA-RFR | 5.60 | 0.68 | 5.26 | 0.67 | 2.41 |
EN-GA-RFR | 5.60 | 0.68 | 5.26 | 0.67 | 2.41 | |
BOA-RFR | 4.83 | 0.76 | 4.52 | 0.75 | 2.87 | |
GA-RFR | 5.11 | 0.73 | 4.80 | 0.72 | 2.66 |
[1] |
|
[2] |
朱宏伟, 夏军, 曹国栋, 等. 盐渍化弃耕地土壤盐分动态及其影响因素[J]. 土壤, 2013, 45(2):1339-1345.
[
|
[3] |
|
[4] |
|
[5] |
王飞, 杨胜天, 丁建丽, 等. 环境敏感变量优选及机器学习算法预测绿洲土壤盐分[J]. 农业工程学报, 2018, 34(22):102-110.
[
|
[6] |
张智韬, 韩佳, 王新涛, 等. 基于全子集-分位数回归的土壤含盐量反演研究[J]. 农业机械学报, 2019, 50(10):142-152.
[
|
[7] |
王丹阳, 陈红艳, 王桂峰, 等. 无人机多光谱反演黄河口重度盐渍土盐分的研究[J]. 中国农业科学, 2019, 52(10):1698-1709.
[
|
[8] |
|
[9] |
|
[10] |
徐红涛, 陈春波, 郑宏伟, 等. 基于相关分析和自适应遗传算法的盐渍化建模变量和参数优选[J]. 地球信息科学学报, 2020, 22(7):1497-1509.
[
|
[11] |
|
[12] |
|
[13] |
蒙莉娜, 丁建丽, 王敬哲, 等. 基于环境变量的渭干河-库车河绿洲土壤盐分空间分布[J]. 农业工程学报, 2020, 36(1):175-181.
[
|
[14] |
|
[15] |
|
[16] |
|
[17] |
席裕庚, 柴天佑, 恽为民. 遗传算法综述[J]. 控制理论与应用, 1996, 13(6):697-708.
[
|
[18] |
|
[19] |
王圣尧, 王凌, 方晨, 等. 分布估计算法研究进展[J]. 控制与决策, 2012, 27(7):961-966,974.
[
|
[20] |
崔佳旭, 杨博. 贝叶斯优化方法和应用综述[J]. 软件学报, 2018, 29(10):3068-3090.
[
|
[21] |
樊爱宛, 时合生. 基于特征选择和SVM参数同步优化的网络入侵检测[J]. 北京交通大学学报, 2013, 37(5):58-61.
[
|
[22] |
阿布都沙拉木·吐鲁甫, 买买提·沙吾提, 马春玥, 等. 基于SEBAL模型的渭-库绿洲蒸散量特征及影响因子研究[J]. 地球信息科学学报, 2018, 20(9):1361-1372.
[
|
[23] |
高婷婷, 丁建丽, 哈学萍, 等. 基于流域尺度的土壤盐分空间变异特征——以渭干河-库车河流域三角洲绿洲为例[J]. 生态学报, 2010, 30(10):2695-2705.
[
|
[24] |
李根生, 曾强, 董敬宣, 等. 准东矿区邻近奇台绿洲地下水位变化趋势分析[J]. 中国矿业, 2017, 26(5):148-153.
[
|
[25] |
|
[26] |
孟阳阳, 刘冰, 刘婵. 荒漠绿洲湿地土壤水热盐动态过程及其影响机制[J]. 中国沙漠, 2019, 39(1):149-160.
[
|
[27] |
何宝忠, 丁建丽, 李焕, 等. 新疆植被物候时空变化特征[J]. 生态学报. 2018, 38(6):2139-2155.
[
|
[28] |
|
[29] |
王飞, 丁建丽, 魏阳, 等. 基于Landsat系列数据的盐分指数和植被指数对土壤盐度变异性的响应分析——以新疆天山南北典型绿洲为例[J]. 生态学报, 2017, 37(15):5007-5022.
[
|
[30] |
|
[31] |
|
[32] |
贺中华, 陈晓翔, 梁虹, 等. 基于植被指数的喀斯特流域赋水动态变化遥感监测研究——以贵州省为例[J]. 国土与自然资源研究, 2012(4):48-51.
[
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
边玲玲, 王卷乐, 郭兵, 等. 基于特征空间的黄河三角洲垦利县土壤盐分遥感提取[J]. 遥感技术与应用, 2020, 35(1):211-218.
[
|
[38] |
李艳华, 丁建丽, 孙永猛, 等. 基于三维特征空间的土壤盐渍化遥感模型[J]. 水土保持研究, 2015, 22(4):113-117,121.
[
|
[39] |
冯娟, 丁建丽, 魏雯瑜. 基于Albedo-MSAVI特征空间的渭库绿洲土壤盐渍化研究[J]. 中国农村水利水电, 2018(2):147-152.
[
|
[40] |
|
[41] |
李敏, 卡米力·木依丁.特征选择方法与算法的研究[J]. 计算机技术与发展, 2013, 23(12):16-21.
[
|
[42] |
乔木, 周生斌, 卢磊, 等. 新疆渭干河流域土壤盐渍化时空变化及成因分析[J]. 地理科学进展, 2012, 31(7):904-910.
[
|
[43] |
丁建丽, 陈文倩, 陈芸. 干旱区土壤盐渍化灾害预警——以渭-库绿洲为例[J]. 中国沙漠, 2016, 36(4):1079-1086.
[
|
[44] |
张芳, 熊黑钢, 田源, 等. 区域尺度地形因素对奇台绿洲土壤盐渍化空间分布的影响[J]. 环境科学研究, 2011, 24(7):731-739.
[
|
[45] |
|
/
〈 | 〉 |