Correlation Analysis and Adaptive Genetic Algorithm based Feature Subset and Model Parameter Optimization in Salinization Monitoring

  • XU Hongtao 1, 2 ,
  • CHEN Chunbo , 1, 2 ,
  • ZHENG Hongwei , 1, 2, * ,
  • LUO Geping 1, 2 ,
  • YANG Liao 1, 2 ,
  • WANG Weisheng 1, 2 ,
  • WU Shixin 1, 2
Expand
  • 1. State Key Laboratory of Desert and Oasis Ecology, Xinjiang Institute of Ecology and Geography, Chinese Academy of Sciences, Urumqi 830011, China;
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
ZHENG Hongwei, E-mail:

Received date: 2019-09-16

  Request revised date: 2019-11-19

  Online published: 2020-09-25

Supported by

National Natural Science Foundation of China(41877012)

The team project of the Chinese Academy of Sciences under Grant(2018-YDYLTD-002)

Characteristic Institutes Main Service Program(Program1, Topic3) of CAS(TSS-2015-014-FW-1-3)

Copyright

Copyright reserved © 2020

Abstract

The selection of feature subset and the optimization of model parameters plays an important role in improving the accuracy of soil salinization monitoring. However, machine learning algorithm combined with other data such as remote sensing images to predict Soil Salt Content (SSC) pays little attention to the optimization of feature subset and model parameters. In this paper, the Support Vector Regression (SVR) algorithm with synchronous optimized feature subset and model parameters using the Adaptive Genetic Algorithm (AGA) was developed to retrieve the SSC of Sangong River Basin in 2016, and the distributions of SSC in different land use types were analyzed. The synchronous optimization of feature subset and model parameters, and the comparative experimental design were conducted as follows. First, a total of 40 salinization-related factors of 7 categories(Vegetation indices, Salinity indices, Underlying surface Reflection factor, Feature spaces, Tasselled Cap transformation factors, Surface reflectance, Topographic factors) were extracted from Landsat 8 OLI and SRTM Digital Elevation Model(DEM) data, and the Candidate Feature Variables (CFVs) were initially selected by correlation analysis using significance (p<0.05) as standard. Then the CFVs were introduced into AGA, Genetic Algorithm(GA), Grid Search (GS) to synchronous optimize the feature subset and model parameters of SVR, and the different salinization monitoring models (AGA-SVR, GA-SVR, GS-SVR) were established, respectively. The results show that the performance of different salinization monitoring models occurred in the order of AGA-SVR> GA-SVR > GS-SVR. Comparing with GS-SVR, the GA-SVR and AGA-SVR improved the accuracy of salinization monitoring obviously, while the R2/RMSE of AGA-SVR increased by 44.65%. In terms of the different types of salinized soil, the proportion of non-salinized soil, slightly salinized soil, moderately salinized soil, severely salinized soil, saline soil in Sangong River Basin was 42.83%, 11.02%, 15.88%, 9.22%, 21.05%, respectively. In terms of the distribution of SSC in different land use types, the unused land and grassland were mainly comprised of non-salinized soil and saline soil, while the distribution proportion of non-salinized soil were the largest in farmland and forest land. Moreover, the mean and standard deviation of SSC of different land use types were in the order of unused land > grassland >farmland > forest land. To some extent, the preferred method of feature subset selection and model parameters optimization in this paper can improve the accuracy of salinization monitoring.

Cite this article

XU Hongtao , CHEN Chunbo , ZHENG Hongwei , LUO Geping , YANG Liao , WANG Weisheng , WU Shixin . Correlation Analysis and Adaptive Genetic Algorithm based Feature Subset and Model Parameter Optimization in Salinization Monitoring[J]. Journal of Geo-information Science, 2020 , 22(7) : 1497 -1509 . DOI: 10.12082/dqxxkx.2020.190523

1 引言

土壤盐渍化是土地退化的主要因素,也是干旱、半干旱区亟需解决的生态难题。盐渍化轻则导致作物减产,重则土地弃耕,严重制约了农业生产效率[1]。因此,精准、快速、大面积监测土壤盐渍化对粮食生产及生态环境保护意义重大[2]。由于传统调查方法耗费大量财力、物力、人力,且只能获取点尺度的土壤信息[3],而遥感因其监测范围广、时间和空间分辨率高、容易获取等优势,加之机器学习算法尤其是支持向量回归(Support Vector Regression, SVR)具有擅长处理高维数据、易操作、不易过拟合等优势,基于遥感等其他数据提取植被指数、盐分指数、地形因素等盐渍化相关因子,结合机器学习算法已成为大尺度盐渍化监测的主要手段[4,5,6]
对于机器学习而言,建模特征变量和模型参数对模型精度至关重要,盐渍化相关因子大部分是通过波段运算得到,之间存在相关关系,若不仔细遴选,会降低机器学习的建模精度[7]。就建模特征变量而言,部分学者采用Pearson相关分析[4,8-9]挑选与土壤盐分含量(Soil Salt Content, SSC)或土壤电导率(Electric Conductivity, EC)显著相关的因子用于盐渍化监测;王飞等[10]采用特征重要性排序的方法筛选建模特征变量,发现模型精度均有提高且模型的可解释力增强;Nurmemet等[11]采用遗传算法优选盐渍化分类模型的建模特征变量,提高了分类精度。就模型参数而言,格网搜索算法最为常见[11,12,13,14]。上述研究均通过建模特征变量或模型参数的优化提高了模型精度,但其建模特征变量和模型参数的优选是不同步的,忽略了模型参数和建模特征变量之间的依赖关系,可能会使模型陷入局部最优[7]。遗传算法因其强大的优化能力,被广泛用于不同类型的定性优化问题,却鲜见于回归问题[7,11,15],尤其是盐渍化的定量反演;此外,自适应遗传算法在盐渍化模型的建模特征变量和模型参数的同步优选的适用性有待验证。
基于此,本研究以三工河流域土壤盐渍化为研究对象,基于Landsat 8 OLI,高程数据提取7类(植被指数、盐分指数、下垫面反射特性、特征空间、缨帽变换因子、地表反射率、地形因子)共40个盐渍化相关因子,并结合SSC采样数据(0~10 cm),采用Pearson相关分析初步筛选出候选特征变量,带入自适应遗传算法(Adaptive Genetic Algorithm,AGA)同步优选支持向量回归(Support Vector Regression, SVR)的建模特征变量与模型参数,建立盐渍化监测模型(AGA-SVR),反演三工河流域SSC分布并分析其在不同土地利用类型的分布特征,以期为干旱区盐渍化监测及土地可持续利用提供科学依据。

2 研究区概况与数据来源

2.1 研究区概况

三工河流域地处新疆北部,南连东天山,北接古尔班通古特沙漠,位于阜康市境内,地势由东南向西北倾斜,属于典型的绿洲-荒漠复合生态系统。流域内主要有3条河流,自西向东分别为水磨沟河、三工河、四工河。该区气候干燥,年均温7.3 ℃,年均降水220 mm(中部绿洲区),年均蒸发1399 mm,水资源主要来源于冰川和积雪融水,属于典型的温带大陆性干旱气候[16]。自然植被主要包括梭梭、柽柳、琵琶柴、猪毛菜等。农作物以玉米、棉花、小麦和葡萄为主。本研究以绿洲、绿洲-荒漠交错带及绿洲附近荒漠区土壤盐渍化为研究对象,结合实际采样数据以及地物轮廓完整性原则,确定研究区的地理坐标范围为44.06 °N—44.38 °N,88.77 °E—88.26 °E(图1)。
图1 研究区位置及采样点分布

Fig. 1 Location of the study area and distribution of sampling sites

2.2 数据来源与处理

2.2.1 实验数据
本研究用到的实验数据包括Landsat 8 OLI[17](143/29)、SRTM高程数据[18]、土地利用类型数据和SSC实测数据[19](137个)。数据的空间分辨率、数据来源和数据获取时间如表1所示。其中,野外样品采集时间为2016年8月1日至8月7日。样品采集前,用GPS记录样点的位置,每个样点采样5次,带回实验室,风干后研磨,过2 mm筛网,测定土壤中的八大离子(Ca2+、Mg2+、K+、Na+、CO32-、HCO3-、CL-、SO42-)含量,采用离子加和法计算土壤中的盐分含量,取五次土壤盐分含量的平均值作为该样点的SSC。土地利用类型数据是贺可等[20]基于Landsat8 OLI数据,依据中国科学院土地利用/土地覆盖分类体系将土地利用类型划分为耕地、林地、草地、水域、城乡建设用地、未利用地共6类,采用人机交互式解译形成的2015年新疆土地利用数据,经野外定点核查和项目组随机抽查精度验证,土地利用一级和二级分类的综合精度均在90%以上,本研究将其裁剪得到三工河流域的土地利用类型数据。
表1 实验数据

Tab. 1 Dataset of soil salt content predicting of Sangong River Basin in 2016

数据 空间分辨率/m 数据来源 数据获取时间
Landsat 8 OLI数据 30 USGS 2016年8月4日
高程数据 30 USGS 2000年
SSC实测数据 野外采样 2016年8月1—7日
土地利用类型数据 30 团队完成 2015年
2.2.2 盐渍化相关因子提取
盐渍化相关因子与表层土壤属性关系密切,可作为盐渍化监测的有效辅助信息[21]。因此,本研究在综合前人研究的基础上,提取7类(植被指数、盐分指数、下垫面因素、特征空间、缨帽变换因子、波段反射率、地形因子)共计40个盐渍化相关因子(表2)。
表2 提取的盐渍化相关因子的类别、名称、公式和编号以及参考文献

Tab. 2 Extracted salinization-related factors along with their categories, names, equations, equation numbers and references

类别 名称 公式 公式编号 参考文献
植被指数 归一化植被指数 NDVI =(NIR-R)/(NIR+R) (1) [4]
扩展的归一化植被指 ENDVI=(NIR+SWIRb2-R)/(NIR+SWIRb2+R) (2) [22]
增强植被指数 EVI =2.5×(NIR-R)/(NIR+6×R-7.5×B+1) (3) [4]
扩展的增强植被指数 EEVI =2.5×(NIR+SWIRb1)/(NIR+SWIRb1+6×R-7.5×B+1) (4) [22]
土壤调节植被指数 SAVI =(1+L) ×(NIR-R)/(NIR+R+L) (5) [4]
修改型土壤调节植被指数 MSAVI =((2×NIR-1)-2×NIR+12-8×NIR-R)/2 (6) [23]
差值植被指数 DVI =NIR-R (7) [23]
比值植被指数 RVI=NIR/R (8) [23]
大气阻抗植被指数 ARVI =(NIR-(2×R-B))/(NIR+(2×R-B)) (9) [23]
广义差分植被指数 GDVI =(NIR2-R2)/(NIR2+R2) (10) [4]
非线性植被指数 NLI =(NIR2-R)/(NIR2+R) (11) [4]
绿色大气阻抗指数 GARI =(NIR-(G+ γ×(B-R)))/(NIR+(G+γ×(B-R))) (12) [4]
盐分指数 盐分指数 SI =B×R (13) [4]
盐分指数1 SI1 =G×R (14) [4]
盐分指数2 SI2 =R2+G2+NIR2 (15) [4]
盐分指数3 SI3 =G2+R2 (16) [4]
盐分指数 S1 =B/R (17) [4]
盐分指数 S2 =(B-R)/(B+R) (18) [4]
盐分指数 S3 =G×R/B (19) [4]
盐分指数 S5 =B×R/G (20) [4]
盐分指数 S6 =NIR×R/G (21) [4]
冠层响应盐分指数 CRSI =(NIR×R-G×R)/(NIR×R+G×R) (22) [4]
下垫面因素 短波红外地表反照度 αshort=0.356×B+0.13×R+0.373×NIR+0.085×SWIRb1+0.072×SWIRb2-0.002 (23) [24]
可见光地表反照度 αvis=0.443×B+0.170×G+0.240×R (24) [24]
特征空间 植被指数-盐分指数特征空间 NSI =(MSAVI-1)2+SI2 (25) [25]
植被指数-湿度指数特征空间 NWI =(MSAVI-1)2+(WI-1)2 (26) [25]
湿度指数-盐分指数特征空间 WSI =(1-WI)2+SI2 (27) [25]
缨帽变换因子 绿度指数 GVI =-0.294×BTOA-0.243×GTOA-0.542×RTOA+0.728×NIRTOA+0.071×SWIRb1,TOA-0.161×SWIRb2,TOA (28) [26]
湿度指数 WI =0.151×RTOA+0.197×GTOA+0.328×BTOA+0.341×NIRTOA-0.712×SWIRb1,TOA-0.456×SWIRb2,TOA (29) [26]
亮度指数 BI =0.303×RTOA+0.279×GTOA+0.473×BTOA+0.560×NIRTOA+0.508×SWIRb1,TOA+0.187× SWIRb2,TOA (30) [26]
地表反射率 B2/B3/B4/B5/B6/B10/B7 B/G/R/NIR/SWIRb1/TIRSb1/SWIRb2 (31)-(37) [27]
地形因子 高程/坡度/地表粗糙度 elevation/slope/roughness (38)-(40) [28]

注:RGBSWIRb1TIRSb1SWIRb2分别为红、绿、蓝、短波红外1、热红外波段1、短波红外2波段的地表反射率,TOA代表大气顶层表观反射率;L=0.5和γ=0.9是气溶胶和大气相关参数。

2.2.3 Google Earth Engine平台
谷歌地球引擎(Google Earth Engine, GEE)是2010年由Google与卡内基美隆大学及美国地质调查局(USGS)共同研发,专门服务于地球观测数据的PB级数据分析及可视化云平台[29]。目前GEE已集成了Landsat、MODIS和Sentinel及地形等常见地理空间数据集,且均已经过预处理可直接用于后续分析,同时GEE还支持JavaScript和Python的API编程接口,便于研究者进行海量复杂的分析及可视化处理[29]。Landsat8 OLI 和高程数据的获取、处理及盐渍化相关因子的提取均在GEE中通过JavaScript编程实现,并将提取的盐渍化相关因子导出至本地,空间分辨率为30 m,以便后续的处理与分析。

3 研究方法

3.1 技术路线

本研究的总体路线如图2所示。首先基于Landsat 8 OLI数据和DEM数据获取盐渍化相关因子,结合Pearson相关分析将与SSC显著相关的因子按相关系数的绝对值降序排列构成候选特征变量(Candidate Feature Variables, CFVs),代入自适应遗传算法(Adaptive Genetic Algorithm, AGA)同时进行SVR建模特征变量和模型参数优选,建立盐渍化监测模型,并反演三工河流域2016年SSC分布,最后结合已有土地利用类型数据,分析SSC在不同土地利用类型的分布特征。另外,终止标准为达到最大遗传迭代次数。此外,为了对比本研究的自适应遗传算法在盐渍化建模变量和模型参数的优化能力,将CFVs同时带入遗传算法(Genetic Algorithm, GA)和格网搜索(Grid Search, GS)算法同步优选SVR的建模变量和模型参数,分别建立盐渍化监测模型(GA-SVR、GS-SVR),对比3种模型的盐渍化监测能力。
图2 2016年三工河流域盐渍化反演及分析技术路线

Fig. 2 Flowchart of the salinization inversion and analysis in Sangong River Basin, 2016

3.2 遗传算法和支持向量机

3.2.1 遗传算法
遗传算法(Genetic Algorithm, GA)由霍兰德教授在20世纪70年代提出,是以自然选择和遗传变异为理论依据的全局性概率搜索优化模型[7]。采用遗传算法寻优时需要将问题的候选解编码为基因,通常为二进制,用“0”、“1”表示,为“1”则表示该候选解被选中,所有候选解组合在一起定义为染色体(也称为个体);通过构造适应度函数,计算每个个体的适应度,适应度值越大,该个体被保留的可能性越大[30]。遗传算法主要操作包括选择、交叉(图3(a))、变异(图3(b))。选择是指依据适应度值优胜劣汰的过程;交叉是指两父代个体的结构按一定的概率Pc(交叉概率,也称交叉率)相互交换产生新个体的过程;变异是以一个很小的概率Pm(变异概率,也称变异率)随机改变种群中个体的基因值,即基因值从“0”变成“1”或“1”变成“0”的过程[15]。传统遗传算法将PcPm设置为固定值,限制了遗传算法的搜索优化能力,而AGA根据适应度值对其进行动态调整,加快了算法的优化效率[31]
图3 遗传操作

Fig. 3 Genetic operations

3.2.2 支持向量机
支持向量机(Support Vector Machine, SVM)是基于VC维和结构风险最小化原则为理论基础的机器学习方法[7],其在解决小样本、非线性、高维数据中表现突出[15]。主要思想是将低维空间线性不可分的数据通过核函数(线性、多项式、径向基函数)映射到高维特征空间并寻求线性可分的分类面。支持向量回归(Support Vector Regression, SVR)通过寻找一个回归平面使得所有数据到该平面的残差总和最小。因径向基函数模型参数少且实际应用中效果较好[7,11,15],故本研究选取径向基函数(式(41))作为SVR的核函数。模型参数Cγ对模型精度影响较大,需对其进行优选。
K x , x ' = exp - γ ǁ x - x ' ǁ 2
式中: x ' 代表支持向量; x代表特征空间; γ表示核函数的宽度; γ越小支持向量越多。

3.3 建模特征变量选择与参数优化

3.3.1 Pearson相关分析
因盐渍化相关因子对盐渍化监测的有效性具有区域差异性,故本研究通过计算SSC与盐渍化相关因子之间的Pearson相关系数,将与SSC显著相关的因子(p<0.05)按相关系数的绝对值降序排列构成候选特征变量(Candidate Feature Variables, CFVs)。为了消除盐渍化相关因子量纲差异对建模精度的影响,每一个候选特征变量均进行离差标准化(式(42))。
CF V i = CF V i , original - CF V i , min C F V i , max - CF V i , min
式中:CFVi代表第i个标准化后的CFV;CFVi,original代表第i个从GEE中计算得到的CFV;CFVi,min,CFVi,max分别代表第iCFV的最小值与最大值。
3.3.2 优化算法参数设置
本研究采用AGA、GA同时进行建模特征变量筛选以及参数优化,GS算法只优化模型参数,使用所有CFVs作为模型的输入。AGA和GA的种群数量设置为60,遗传代数设置为100,AGA的PcPm参考Srinivas和Patnaik[31]进行自适应调整(式(43)—(44)),GA的PcPm分别为0.6、0.1。每一条染色体由模型参数和CFVs两部分组成(图4),其中,b表示染色体的编码方式为二进制,n为CFVs的长度。经过大量实验,染色体中参数Cγ的长度分别为20、10。参数C的值域范围为0~200,间隔为10。参数γ的值域范围为0~20,间隔为2。
P c = k 1 f max - f ' f max - f avg f ' f avg k 2 f ' < f avg
P m = k 3 f max - f f max - f avg f f avg k 4 f < f avg
图4 二进制编码染色体结构设计

Fig. 4 Structure design of binary coding of the chromosome

式中: fmax代表种群中最佳适应度值; favg代表每代种群的平均适应度值; f ' 代表要交叉的2个个体中较大的适应度值; f代表要变异的个体的适应度值;k1=k2=0.6;k3=k4=0.1。
3.3.3 模型精度评估及适应度函数设置
本研究基于筛选建模变量和模型参数的SVR建立盐渍化监测模型。模型评估采用决定系数(Coefficient of Determination, R2)、均方根误差(Root Mean Square Error, RMSE)和四分位数间隔(Ratio of Performance of Interquartile Range, RPIQ)。基于Python语言使用scikit-learn工具包将采样数据随机分为2个部分,75%用于训练模型,25%用于验证模型精度。同时,为了放大个体间的差异,将验证数据的R2RMSE的比值作为AGA的适应度函数(式(48))。R2越大、RMSE越小、RPIQ越大,说明模型精度越优。
R 2 = i = 1 n p i - p ̅ × o i - o ̅ i = 1 n ( p i - p ̅ ) 2 + i = 1 n ( o i - o ̅ ) 2 2
RMSE = i = 1 n p i - o i 2 n
RPIQ = Q 3 - Q 1 RMSE
Fitness = 1000 × R 2 RMSE
式中:oipi分别代表实测和预测的SSC; o ̅ p ̅ 分别表示实测和预测SSC的均值;n表示样点个数;Q3和Q1分别为训练集或验证集SSC的上、下四分位数。

4 结果与分析

4.1 土壤样品SSC的统计特征及其与盐渍化相关 因子之间的相关分析

表3可知,三工河流域土壤样品SSC(2.62~60.74 g/kg)均值为13.58 g/kg,变异系数为77.97%,属中等变异,盐渍化较为严重。同时,训练数据和验证数据与全部采样数据的统计特征相似,避免了模型在训练和验证过程中的潜在偏估计[28]
表3 三工河流域土壤样品的SSC统计特征

Tab. 3 Statistic of SSC of the soil samples in Sangong River Basin

统计值/ (g/kg)
n 最小值 最大值 平均值 标准差 变异系数/%
采样数据 137 2.62 60.74 13.58 10.59 77.97
训练集 103 2.62 60.74 13.46 10.70 79.53
验证集 34 4.18 38.08 13.49 10.03 74.40
盐渍化相关因子与实测SSC之间的相关系数及显著性如图5所示。总体而言,提取的盐渍化相关因子除GARISISI2、S6、αshortB1、B2外均与SSC显著相关(p<0.05)。大部分植被指数与SSC呈负相关,而大部分盐分指数与SSC呈正相关。特征空间均与SSC呈显著正相关,说明特征空间能更好地挖掘表层土壤信息[25,32]。波段反射率除B1(Blue)和B2(Green)外,均与SSC显著相关。地形因子均与SSC呈显著负相关,说明地形是影响SSC分布的重要因素[8,28]。由于盐渍化相关因子与SSC相关性越大,其预测准确度越高[10],同时为了提高AGA的优化效率,将与SSC显著相关的33个因子按相关系数的绝对值降序排列构成CFVs。
图5 三工河流域盐渍化相关因子与SSC之间的相关性

Fig. 5 Correlation analysis between salinization-related factors and SSC in Sangong River Basin

4.2 SSC估算模型

基于筛选的33个CFVs,将模型参数和CFVs采用二进制编码组成染色体,每一条染色体长度为63(20+10+33)。为了对比AGA在建模特征变量选择和参数优化方面的能力,本研究分别采用AGA、GA同时进行SVR的建模特征变量及模型参数的优选,同时为了突出建模变量和模型参数同步优选的重要性,采样格网搜索算法(Grid Search, GS)只对模型参数进行优化,将CFVs作为SVR的建模特征变量,并建立SSC的定量估算模型,分别以AGA-SVR、GA-SVR、GS-SVR表示。三者的精度以及模型参数和建模特征变量个数对比结果如表4所示,不同模型使用的建模特征变量如图6所示。
表4 三工河流域不同盐分含量估算模型

Tab. 4 Soil salinity estimation of different models in Sangong River Basin

方法 训练 验证 模型参数 建模特征
变量个数/个
R2 RMSE/(g/kg) RPIQ R2 RMSE/(g/kg) RPIQ Fitness/(g/kg) C, γ
AGA-SVR 0.86 3.96 1.89 0.82 4.27 2.02 191.95 70,8 15
GA-SVR 0.96 2.02 3.72 0.76 4.93 1.75 153.74 70,10 17
GS-SVR 0.77 5.16 1.45 0.71 5.37 1.60 132.70 60,4 33
图6 不同模型选择的建模特征变量

Fig. 6 Modeling feature subset selected by different models

表4可知,模型测试精度AGA-SVR最高(R2=0.82,RMSE=4.27 g/kg,RPIQ=2.02),GA-SVR(R2=0.76,RMSE=4.93 g/kg,RPIQ=1.75)次之,GS-SVR(R2=0.71,RMSE=5.37 g/kg,RPIQ=1.60)最差。AGA-SVR和GA-SVR大幅减少了模型的输入变量,分别为15、17个。与GS-SVR建立的模型相比,AGA-SVR和GA-SVR建立的模型的适应度值分别提高了15.86%、44.65%。结合图6可知,不同的模型具有不同的模型参数和建模特征变量,说明同时进行建模特征变量筛选和模型参数优化的重要性[7,15]

4.3 不同模型产生的盐渍化分布

为更好地对比3种模型的反演效果,分别基于3种模型反演三工河流域的SSC分布(图7(a)—(c))。同时,选取研究区内一个小子区(子区)来对比3种方法反演的SSC的局部特征(图7(a)—(c))。
图7 不同模型反演的2016年三工河流域SSC分布

Fig. 7 SSC distribution inversed by different models in Sangong River Basin, 2016

对比可知,基于3种方法反演的SSC空间分布大体一致,均表现为:研究区南部盐渍化程度较轻,北部古尔班通古特沙漠区域、水域周边以及部分耕地盐渍化较为严重。对比子区SSC分布可知,虽然AGA-SVR和GA-SVR反演的SSC地物轮廓信息较为模糊,但其在农田区域分布的同质性较好且SSC值更符合常规认知。另外,AGA-SVR建立的模型精度最优,故本研究选取AGA-SVR反演的SSC做后续分析。
对AGA-SVR反演的SSC分级(图8),并分析不同类型盐渍化土壤的空间分布特征。分级标准按照新疆第二次土壤普查耕地土壤盐渍化盐分含量划分指标[33],将SSC划分为5类:SSC>20 g/kg为盐土,15~20 g/kg为重度盐渍地,10~15 g/kg为中度盐渍地,8~10 g/kg为轻度盐渍地,0~8 g/kg为非盐渍地。
图8 三工河流域2016年盐渍地分级

Fig. 8 The classification of saline soils in Sangong River Basin, 2016

5种等级的盐渍地面积统计如表5所示。三工河流域非盐渍地、轻度盐渍地、中度盐渍地、重度盐渍地、盐土的分布面积占比分别为42.83%、11.02%、15.88%、9.22%、21.05%。其中非盐渍地呈片状分布于南部和西部,并在其他区域呈离散状分布;盐土主要分布于西部和东部;轻度、中度、重度盐渍地三者镶嵌分布于非盐渍地和盐土之间(图8)。总体上,盐渍化面积是研究区总面积的57.17%,表明三工河流域盐渍化较为严重。
表5 2016年三工河流域盐渍化类型面积统计

Tab. 5 The statistical areas of different types of soil salinization in Sangong River Basin, 2016

盐渍地类型 非盐渍地 轻度盐渍地 中度盐渍地 重度盐渍地 盐土
面积/km2 588.11 151.38 218.01 126.63 289.06
百分比/% 42.83 11.02 15.88 9.22 21.05

4.4 SSC在不同土地利用类型的分布特征

由土地利用类型分布(图1(a))可知,耕地主要分布在绿洲区内,草地主要包括以牧为主的灌丛草地和郁闭度在10%以下的疏林草地,主要分布在田间、绿洲外围及周边山区,未利用地主要分在研究区东南部和北部的古尔班通古特沙漠区,林地、水域和城乡建设用地镶嵌分布于耕地和草地之间。其中,林地主要包括生长乔木、灌木、竹类等林业用地,城乡建设用地主要包括城乡居民点及其以外的工矿、交通等用地。同时,耕地、林地、草地、水域、城乡建设用地、未利用地分布面积占比分别为48.08%、0.30%、34.96%、3.34%、7.10%、6.23%(表6),说明三工河流域土地利用类型以耕地和草地为主。此外,城乡建设用地和水域的盐渍化分析与研究意义不大,在后续分析中将两者掩膜。
表6 2015年三工河流域土地利用类型面积统计

Tab. 6 The statistical areas of different types of land use in Sangong River Basin, 2015

土型 耕地 林地 草地 水域 城乡建设用地 未利用地
面积/km2 659.72 4.078 479.72 45.77 97.42 85.46
百分比/% 48.08 0.30 34.96 3.34 7.10 6.23
结合表7图9可知,不同类型的盐渍地在不同土地利用类型中均有分布。在草地和未利用地中,盐土和非盐渍地的分布面积较大,二者总面积分别占草地和未利用地面积的69.48%、76.89%,而其他3种类型的盐渍地在每种土地利用类型的分布面积相当。在耕地和林地中,非盐渍地的分布面积均为最大,分别占耕地、林地面积的41.72%、48.41%;耕地中,中度盐渍地分布面积次之,分布面积占比为20.07%,轻度盐渍地和盐土的分布面积相当,分布面积占比分别为13.09%、15.17%,重度盐渍地的分布面积最小,占耕地面积的9.95%;林地中,轻度、中度盐渍地分布面积次之且二者分布面积相当,分布面积占比分别为22.78%、17.88%,重度盐渍地和盐土的分布面积最小,分布面积占比分别为4.66%、6.27%。
表7 不同盐渍地类型在不同土地利用类型中的分布

Tab. 7 The statistics of areas of different types of saline soils distributed in different types of land use (km2,%)

耕地 林地 草地 未利用地
面积 比例 面积 比例 面积 比例 面积 比例
非盐渍地 275.21 41.72 1.97 48.41 194.10 40.46 27.80 32.53
轻度盐渍地 86.35 13.09 0.93 22.78 38.38 8.00 6.32 7.40
中度盐渍地 132.40 20.07 0.73 17.88 60.22 12.55 7.74 9.05
重度盐渍地 65.65 9.95 0.19 4.66 47.83 9.97 5.69 6.66
盐土 100.11 15.17 0.26 6.27 139.19 29.02 37.91 44.36
图9 不同盐渍地类型在不同土地利用类型中的分布

注:十位数字表示土地利用类型:1、2、3、6分别代表耕地、林地、草地、未利用地;个位数字代表不同类型的盐渍化:1、2、3、4、5分别代表非盐渍地、轻度盐渍地、中度盐渍地、重度盐渍地、盐土。

Fig. 9 The overlay of saline soil classification map with land use classification map

总体而言,草地和未利用地主要以非盐渍地和盐土为主,耕地和林地中非盐渍地分布面积占比均为最大。另外,在不同土地利用类型中,SSC分布的均值和标准差均呈现未利用地>草地>耕地>林地的规律(图10)。
图10 SSC在不同土地利用类型分布的均值和标准差

Fig. 10 Mean and standard deviation of SSC distributed in different land use types

综上,三工河流域盐渍化较为严重,尤其在耕地区,约58.28%的耕地受土壤盐分胁迫(SSC > 8 g/kg)。因此,应根据盐渍化的不同程度采取适宜的农田管理措施,对于非盐渍化的耕地,应合理耕作灌排,避免次生盐渍化发生;对于受盐渍化影响的农田应适当采取轮耕、休耕,改善灌排等措施,尽快恢复正常耕作。

5 讨论

采样时间、采样点分布、影像获取时间、采样的数值和空间分布等均会引起盐渍化相关因子对SSC响应的不确定性[4,22]。所选40个盐渍化相关因子中共有33个与SSC显著相关,但其相关系数绝对值均小于0.4且相差较小。导致相关系数绝对值较低的原因可能是因为该区植被覆盖度低,盐渍化相关因子对SSC响应不敏感;而相关系数绝对值相差不大,是由于大部分盐渍化相关因子均是通过可见光波、近红外波段计算得到,盐渍化相关因子之间具有较强的相关性,这与张同瑞等[9]的研究相一致。
GA-SVR和AGA-SVR的建模精度优于GS-SVR,这主要是因为盐渍化相关因子间存在冗余信息[9],Pearson相关分析只筛选出了与SSC显著相关的因子,而AGA-SVR和GA-SVR考虑了盐渍化相关因子之间的组合方式对模型精度的影响,使得部分候选特征变量不参与模型的建立,降低了模型输入变量之间的数据冗余[7]。而AGA-SVR的建模精度优于GA-SVR,这主要是因为GA将PcPm设置为固定值,而AGA将PcPm依据种群的进化程度动态调整,提高了算法的优化效率[31]。由图11(a)可知,AGA-SVR在迭代50次左右时,平均适应度值和最佳适应度值基本持平,而后两者基本不变;GA-SVR在早期进化迭代时达到较高的适应度值,而后适应度值呈小幅的上下波动,但始终低于AGA-SVR;由图11(b)可知,AGA在进化早期,PcPm值较大,有助于产生较多的新个体及优良个体;而在进化后期,PcPm的值均较小,减少了对优良个体结构的破坏。而在GA中PcPm值为恒定,个体结构容易被破坏,导致GA优化的模型不易收敛,甚至不收敛。因此,在进化早期,较大的PcPm,而在进化后期,较小的PcPm有助于提高算法的优化效率。
图11 AGA-SVR和GA-SVR的最佳适应度和平均适应度,以及AGA-SVR的平均PCPm随遗传代数变化

Fig. 11 The best fitness and mean fitness of AGA-SVR and GA-SVR, and mean Pc and mean Pm of AGA-SVR change with generations

盐渍化相关因子与SSC之间并不是简单的线性关系,大部分经波段运算得到的盐渍化相关因子对盐渍化监测起到协同或抑制作用,若不加筛选,直接代入3种模型(GS-SVR、GA-SVR、AGA-SVR)一方面会降低算法的优化效率,另一方面盐渍化相关因子对SSC的敏感性具有区域性差异[4]。虽然相关系数仅只能定量化2个单变量之间的线性关系,但在一定程度上可以起到删减对该区SSC监测无效或作用不明显的因子,而后结合遗传算法和SVR,建立盐渍化监测模型,可在一定程度上可减少数据量并提高模型精度。
草地主要分布于绿洲-荒漠过渡带、山区和田间,绿洲-荒漠过渡带植被覆盖稀疏,干旱气候使得盐分持续表聚,SSC值较高,而山区地势较高,土壤中的盐分含量易随径流运动运移至地势低处,加之温度较平原区低,盐分不易表聚,SSC值基本较低。受经济利益驱使,当地居民对经济林地投入较大,经科学盐碱改良使得盐渍化得到明显改善,SSC均值低于草地、未利用地和耕地[34]
本研究使用的自适应遗传算法虽在一定程度上提高了建模精度,但PcPm的自适应调整算法相对简单,可能会导致算法早熟,陷入局部最优,在今后的研究中仍需改进。此外,蒸散、地下水位、水质、温度、土壤质地等因素对盐渍化的形成起到明显的作用,在今后的研究需要考虑。研究区内盐生植被存在,会增加盐渍化监测的不确定性;另外,土地利用类型数据与SSC反演结果时相的不一致,会影响SSC在不同土地利用类型分布的统计特征的内涵解读。

6 结论

本研究基于Landsat 8 OLI数据和SRTM高程数据提取7类共40个盐渍化相关因子,结合实际采样SSC数据,采用Pearson相关分析和自适应遗传算法优选建模特征变量及模型参数,基于建立的研究区的盐渍化监测模型,反演了研究区的SSC分布,并分析了不同土地利用类型的SSC分布特征。主要结论如下:
(1)提取的盐渍化相关因子除GARISISI2、S6、αshortB1、B2外均与SSC显著相关(p<0.05),但相关系数的绝对值相差不大。
(2)AGA-SVR建模精度最优(R2=0.82,RMSE=4.27 g/kg,RPIQ=2.02),GA-SVR次之(R2=0.76,RMSE=4.93 g/kg,RPIQ=1.75),GS-SVR最差(R2=0.71,RMSE=5.37 g/kg,RPIQ=1.60);与GS-SVR相比,AGA-SVR和GA-SVR建立的模型的适应度值分别提高了15.86%、44.65%。
(3)研究区内非盐渍地、轻度盐渍地、中度盐渍地、重度盐渍地、盐土的分布面积占比分别为42.83%、11.02%、15.88%、9.22%、21.05%,盐渍化现象较严重。
(4)研究区不同类型的盐渍土壤在不同的土地利用均有分布,且草地和未利用地主要以非盐渍地和盐土为主,耕地和林地中非盐渍地分布面积占比均为最大;SSC在不同的土地利用类型分布的均值和标准差均呈现未利用地>草地>耕地>林地的规律。
[1]
姜红, 玉素甫江·如素力, 热伊莱·卡得尔, 等. 基于神经网络模型的干旱区绿洲土壤盐渍化评价分析[J]. 地球信息科学学报, 2017,19(7):983-993.

DOI

[ Jiang H, Yusufujiang R, Reyilai K, et al. Evaluation and analysis of soil salinization in the arid zones based on neural network mode[J]. Journal of Geo-information Science, 2017,19(7):983-993. ]

[2]
Ling M, Zhou S, Hua Z, et al. Estimating soil salinity in different landscapes of the Yellow River Delta through Landsat OLI/TIRS and ETM+ Data[J]. Journal of Coastal Conservation, 2016,20(4):271-279.

DOI

[3]
Taghizadeh Mehrjardi R, Minasny B, Sarmadian F, et al. Digital mapping of soil salinity in Ardakan region, central Iran[J]. Geoderma, 2014,213:15-28.

DOI

[4]
Allbed A, Kumar L, Aldakheel Y Y. Assessing soil salinity using soil salinity and vegetation indices derived from IKONOS high-spatial resolution imageries: Applications in a date palm dominated region[J]. Geoderma, 2014,230(7):1-8.

[5]
Celleri C, Zapperi G, Trilla G G, et al. Assessing the capability of broadband indices derived from Landsat 8 Operational Land Imager to monitor above ground biomass and salinity in semiarid saline environments of the Bahía Blanca Estuary, Argentina[J]. International Journal of Remote Sensing, 2019,40(12):4817-4838.

DOI

[6]
Nawar S, Buddenbaum H, Hill J. Estimation of soil salinity using three quantitative methods based on visible and near-infrared reflectance spectroscopy: A case study from Egypt[J]. Arabian Journal of Geosciences, 2015,8(7):5127-5140.

DOI

[7]
Zhou T, Lu H L, Wang W W, et al. GA-SVM based feature selection and parameter optimization in hospitalization expense modeling[J]. Applied Soft Computing, 2019,75:323-332.

DOI

[8]
Peng J, Biaswas A, Jiang Q, et al. Estimating soil salinity from remote sensing and terrain data in southern Xinjiang Province, China[J]. Geoderma, 2019,337:1309-1319.

DOI

[9]
张同瑞, 赵庚星, 高明秀, 等. 基于近地多光谱和OLI影像的黄河三角洲冬小麦种植区盐分估算及遥感反演——以山东省垦利县和无棣县为例[J]. 自然资源学报, 2016,31(6):1051-1060.

[ Zhang T R, Zhao G X, Gao M X, et al. Soil salinity estimation and remote sensing inversion based on near-ground multispectral and TM Imagery in winter wheat growing area in the Yellow River Delta —case study in Kenli County and Wudi County, Shandong Province[J]. Journal of Nature Resources, 2016,31(6):1051-1060. ]

[10]
王飞, 杨胜天, 丁建丽, 等. 环境敏感变量优选及机器学习算法预测绿洲土壤盐分[J]. 农业工程学报, 2018,34(22):102-110.

[ Wang F, Yang S T, Ding J L, et al. Environmental sensitive variable optimization and machine learning algorithm using in soil salt prediction at oasis[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018,34(22):102-110. ]

[11]
Ilyas N, Vasit S, Ding J, et al. A WFS-SVM model for soil salinity mapping in Keriya Oasis, Northwestern China using polarimetric decomposition and fully PolSAR data[J]. Remote Sensing, 2018,10(4):598.

DOI

[12]
杨爱霞, 丁建丽, 李艳红, 等. 基于表观电导率与实测光谱的干旱区湿地土壤盐分监测[J]. 中国沙漠, 2017,36(20):1365-1373.

[ Yang A X, Ding J L, Li Y H, et al. Apparent electronic conductivity and measured spectral for monitoring soil salt content in arid lakeside wetland[J]. Journal of Desert Research, 2017,36(20):1365-1373. ]

[13]
Ilyas N, Abduwasit G, Tashpolat T, et al. Monitoring soil salinization in Keriya River Basin, Northwestern China using passive reflective and active microwave remote sensing data[J]. Remote Sensing, 2015,7(7):8803-8829.

DOI

[14]
Jiang H, Yusufujiang R, Tureniguli A, et al. Quantitative assessment of soil salinity using multi-source remote sensing data based on the support vector machine and artificial neural network[J]. International Journal of Remote Sensing, 2018:1-23.

[15]
Sukawattanavijit C, Jie C, Zhang H. GA-SVM algorithm for improving land-cover classification using SAR and optical remote sensing data[J]. IEEE Geoscience & Remote Sensing Letters, 2017,14(3):284-288.

[16]
王新新, 罗格平, 叶辉, 等. 天山北坡绿洲—荒漠区高时空分辨率日均气温数据集构建——以三工河流域为例[J]. 地理研究, 2017,36(1):49-60.

DOI

[ Wang X X, Luo G P, Ye H, et al. Construction of mean air temperature datasets with high temporal and spatial resolution in oasis-desert region:A case study of Sangong River Basin on the northern slope of Tianshan Mountains[J]. Geographical Research, 2017,36(1):49-60. ]

[17]
Roy D P, Wulder M A, Loveland T R, et al. Landsat-8: science and product vision for terrestrial global change research[J]. Remote Sensing of Environment, 2014,145(145):154-172.

DOI

[18]
Farr T G, Rosen P A, Caro E, et al. The shuttle radar topography mission[J]. Reviews of Geophysics, 2007,45(2):361.

[19]
孙浩, 刘丽娟, 李小玉, 等. 干旱区绿洲防护林网格局对农田蒸散量的影响———以新疆三工河流域绿洲为例[J]. 生态学杂志, 2018,37(8):2436-2444.

[ Effects of the pattern of agricultural shelterbelt network on evapotranspiration of oases in arid region: A case study from Sangong River Basin in Xinjiang[J]. Chinese Journal of Ecology, 2018,37(8):2436-2444. ]

[20]
贺可, 吴世新, 杨怡, 等. 近40a新疆土地利用及其绿洲动态变化[J]. 干旱区地理, 2018,41(6):193-200.

[ He K, Wu S X, Yang Y, et al. Dynamic changes of land use and oasis in Xinjiang in the last 40 years[J]. Arid Land Geography, 2018,41(6):193-200. ]

[21]
Rao B R M, Sharma R C, Sankar T R, et al. Spectral behaviour of salt-affected soils[J]. International Journal of Remote Sensing, 1995,16(12):2125-2136.

DOI

[22]
王飞, 丁建丽, 魏阳, 等. 基于Landsat系列数据的盐分指数和植被指数对土壤盐度变异性的响应分析——以新疆天山南北典型绿洲为例[J]. 生态学报, 2017,37(15):5007-5022.

DOI

[ Wang F, Ding J L, Wei Y, et al. Sensitivity analysis of soil salinity and vegetation indices to detect soil salinity variation by using Landsat series images:applications in different oases in Xinjiang,China[J]. Acta Ecologica Sinica, 2017,37(15):5007-5022. ]

[23]
Guo S, Ruan B, Chen H, et al. Characterizing the spatiotemporal evolution of soil salinization in Hetao Irrigation District (China) using a remote sensing approach[J]. International Journal of Remote Sensing, 2018,39(20):6805-6825.

DOI

[24]
Liang S. Narrowband to broadband conversions of land surface albedo algorithms[J]. Remote Sensing of Environment, 2001,76(2):213-238.

DOI

[25]
李艳华, 丁建丽, 孙永猛, 等. 基于三维特征空间的土壤盐渍化遥感模型[J]. 水土保持研究, 2015,22(4):113-121.

[ Li Y H, Ding J L, Sun Y M, et al. Remote sensing monitoring models of soil salinization based on the three-dimensional feature space of MSAVI-WI-SI[J]. Research of Soil Water Conservation, 2015,22(4):113-121. ]

[26]
Baig M H A, Zhang L, Shuai T, et al. Derivation of a tasselled cap transformation based on Landsat 8 at-satellite reflectance[J]. Remote Sensing Letters, 2014,5(5):423-431.

DOI

[27]
Nawar S, Buddenbaum H, Hill J, et al. Modeling and mapping of soil salinity with reflectance spectroscopy and Landsat data using two quantitative methods(PLSR and MARS)[J]. Remote Sensing, 2014,6(11):10813-10834.

DOI

[28]
Vermeulen D and Niekerk A V. Machine learning performance for predicting soil salinity using different combinations of geomorphometric covariates[J]. Geoderma, 2017,299:1-12.

DOI

[29]
Gorelick N, Hancher M, Dixon M, et al. Google Earth Engine: Planetary-scale geospatial analysis for everyone[J]. Remote Sensing of Environment, 2017,202:18-27.

DOI

[30]
王雅婷, 孔金玲, 杨亮彦, 等. 基于SVR的旱区稀疏植被覆盖下土壤水分遥感反演[J]. 地球信息科学学报, 2019,21(8):1275-1283.

DOI

[ Wang Y T, Kong J L, Yang L Y, et al. Remote sensing inversion of soil moisture in vegetation-sparse arid areas based on SVR[J]. Journal of Geo-information Science, 2019,21(8):1275-1283. ]

[31]
Srinivas M and Patnaik L M. Adaptive probabilities of crossover and mutation in genetic algorithms[J]. IEEE Transactions on Systems Man & Cybernetics, 1994,24(4):656-667.

[32]
Guo B, Yang F, Fan Y, et al. Dynamic monitoring of soil salinization in Yellow River Delta utilizing MSAVI-SI feature space models with Landsat images[J]. Environmental Earth Sciences, 2019,78(10):308.

DOI

[33]
乔木, 田长彦, 王新平. 新疆灌区土壤盐渍化及改良治理模式[M]. 乌鲁木齐: 新疆科学技术出版社, 2008.

[ Qiao M, Tian C Y, Wang X P. Soil salinization and improved model in Xinjiang irrigation area[M]. Urumqi: Xinjiang Science and Technology Press, 2008. ]

[34]
王雪梅, 康璇, 赵枫. 不同土地利用方式下渭-库绿洲土壤盐渍化特征分析[J]. 水土保持研究, 2016,23(1):160-164.

[ Wang X M, Kang X, Zhao F. Analysis on characteristics of soil salinization in the Weigan-Kuqa River Delta Oasis under different land use patterns[J]. Research of Soil and Water Conservation, 2016,23(1):160-164. ]

Outlines

/