地理空间分析综合应用

松嫩典型黑土区耕地黑土层厚度数字制图方法比较

  • 郭俊辉 , 1, 2 ,
  • 刘峰 1, 2 ,
  • 徐胜祥 1, 2 ,
  • 高璐璐 1 ,
  • 赵治东 1, 4 ,
  • 胡文友 2, 3 ,
  • 于东升 1, 2 ,
  • 赵玉国 , 1, 2, *
展开
  • 1.中国科学院南京土壤研究所土壤与农业可持续发展国家重点实验室,南京 210008
  • 2.中国科学院大学,北京 100049
  • 3.中国科学院南京土壤研究所土壤环境与污染修复重点实验室,南京 210008
  • 4.安徽理工大学空间信息与测绘工程学院,淮南 232001
*赵玉国(1974— ),男,山东诸城人,博士,研究员,主要研究方向为数字土壤制图、土壤发生与演变、土壤空间变异。 E-mail:

郭俊辉(1999— ),男,河南平顶山人,硕士生,研究方向为数字土壤制图。E-mail:

收稿日期: 2023-11-15

  修回日期: 2024-02-01

  网络出版日期: 2024-05-24

基金资助

中国科学院战略性先导科技专项(XDA28010100)

中国科学院战略性先导科技专项(XDA28010102)

国家自然科学基金项目(42071072)

国家自然科学基金项目(42271369)

国家重点研发计划项目(2021YFD1500202)

Comparison of Digital Mapping Methods for the Thickness of Black Soil Layer of Cultivated Land in Typical Black Soil Area of Songnen Plain

  • GUO Junhui , 1, 2 ,
  • LIU Feng 1, 2 ,
  • XU Shengxiang 1, 2 ,
  • GAO Lulu 1 ,
  • ZHAO Zhidong 1, 4 ,
  • HU Wenyou 2, 3 ,
  • YU Dongsheng 1, 2 ,
  • ZHAO Yuguo , 1, 2, *
Expand
  • 1. State Key Laboratory of Soil and Sustainable Agriculture, Institute of Soil Science, Chinese Academy of Sciences, Nanjing 210008, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Key Laboratory of Soil Environment and Pollution Remediation, Institute of Soil Science, Chinese Academy of Sciences, Nanjing 210008, China
  • 4. School of Geomatics, Anhui University of Science and Technology, Huainan 232001, China
*ZHAO Yuguo, E-mail:

Received date: 2023-11-15

  Revised date: 2024-02-01

  Online published: 2024-05-24

Supported by

The Strategic Forerunner Technological Projects of Chinese Academy of Sciences(XDA28010100)

The Strategic Forerunner Technological Projects of Chinese Academy of Sciences(XDA28010102)

National Natural Science Foundation of China(42071072)

National Natural Science Foundation of China(42271369)

National Key Research and Development Program of China(2021YFD1500202)

摘要

黑土层厚度与农田土壤肥力和质量密切相关,准确刻画东北松嫩典型黑土区耕地黑土层厚度的空间分布对黑土地保护和农业可持续发展具有重要意义。然而,常用的预测模型在平原漫岗地区进行数字制图具有较大的难度,如何准确预测黑土层厚度的空间分布特征是亟待解决的问题。选取东北地区松嫩典型黑土区作为研究区,以研究区内106个剖面点和45个环境因子为基础数据,通过因子重要性排序和相关性剔除法筛选变量,利用多元线性回归(Multiple Linear Regression,MLR)、随机森林(Random Forest,RF)、梯度提升树(Gradient Boosting Decsion Tree,GBDT)、极端梯度提升(Extreme Gradient Boosting,XGBoost)、随机森林回归克里格(Random Forest-Regression Kriging,RF-RK)和堆叠泛化模型(Stacking)对黑土层厚度进行空间预测制图,评估不同模型预测精度并研究影响黑土层厚度空间分布的最优协变量,并基于较优模型绘制东北黑土区耕地黑土层厚度分级图。结果表明: ① Stacking组合多种模型的优点,预测性能表现最佳(R2=0.47,MAE=21.02 cm,RMSE=27.12 cm),其次是RF-RK和RF; ② 通过变量筛选剔除低贡献度的环境变量后,不同模型的R2平均提高0.11,其中MLR提升幅度最大为0.32; ③ 不同模型预测的松嫩典型黑土区黑土层厚度空间分布趋势基本一致,60 cm以上的黑土层主要分布在研究区的东北部和东南部,而30 cm以下的黑土层主要分布在研究区的西南部。在平原漫岗地区,RF-RK和Stacking可以作为黑土层厚度预测的有效方法,总初级生产力(GPP)、坡度坡长因子(LS)和地表温度最大值合 成(LSTm)是模型中最重要的解释变量,且黑土层厚度的空间分布信息能为黑土区耕地黑土保护和农业可持续发展提供数据支持。

本文引用格式

郭俊辉 , 刘峰 , 徐胜祥 , 高璐璐 , 赵治东 , 胡文友 , 于东升 , 赵玉国 . 松嫩典型黑土区耕地黑土层厚度数字制图方法比较[J]. 地球信息科学学报, 2024 , 26(6) : 1452 -1468 . DOI: 10.12082/dqxxkx.2024.230682

Abstract

The thickness of black soil layer is closely related to the soil fertility and quality of agricultural soils. Accurately describing the spatial distribution of the thickness of the cultivated black soil layer in the typical black soil area of Songnen in Northeast China is of great significance. It contributes to the protection of black soil and promotes the sustainable development of agriculture. However, the commonly used predictive models are difficult to apply when trying to map digital soils in flat areas. How to accurately predict the spatial distribution characteristics of the thickness of black soil layer is an urgent problem that needs to be solved. The typical black soil area of Songnen in Northeast China was selected as the research area. Based on the basic data of 106 profile points and 45 environmental factors in the study area, the variables were screened by factor importance ranking and correlation elimination method. Multiple Linear Regression (MLR), Random Forest (RF), Gradient Boosting Decision Tree (GBDT), Extreme Gradient Boosting (XGBoost), Random Forest-Regression Kriging (RF-RK), and Stacking methods were used to predict the thickness of black soil layer. The predictive accuracy of different models was evaluated and the optimal covariates influencing the spatial distribution of the thickness of black soil layer were studied. Based on the best model, the black soil layer thickness classification map of farmland in the black soil area of northeast China was drawn. Our results showed that the Stacking method combined the advantages of several models, and its prediction performance was the best (R2=0.47, MAE=21.02 cm, RMSE=27.12 cm), followed by RF-RK and RF. After eliminating the environmental variables with low contribution through variable screening, the R2 of different models increased by an average of 0.11, with a maximum increase of 0.32 in MLR. The spatial distribution trend of the thickness of black soil layer predicted by different models was generally consistent. The black soil layer above 60 cm was mainly distributed in the northeast and southeast of the study area, while the black soil layer below 30 cm was mainly distributed in the southwest of the study area. In the plain area, RF-RK and Stacking can be used as effective methods for predicting the thickness of black soil layer. Gross Primary Productivity (GPP), Slope Length and Steepness Factor(LS), and Land Surface Temperature Maximum (LSTm) were the most important explanatory variables in the model. The spatial distribution information of the thickness of black soil layer can provide data support for black soil protection and agricultural sustainable development in the black soil region.

1 引言

黑土地是东北地区孕育粮食的重要土壤资源,土壤肥力高[1]。黑土地得名于其深色的表土层,人们一般将其称为黑土层,黑土层含有大量有机质,在保水保肥和增加土壤肥力方面具有独特的优势。然而,自20世纪50年代大规模开垦以来,东北黑土地一直处于高强度且不合理的利用状态,结合土壤侵蚀导致黑土地退化严重[2],造成黑土层出现变“薄”、变“瘦”、变“硬”问题[3-4]。近年来,已有研究基于样点和小区域尺度表明黑土层变薄速率大约介于0.2~0.4 cm/a[5-6],黑土层长期变“薄”是不可忽视的问题。黑土层变“薄”易导致土地生产力降低、土壤中动植物栖息地丧失和地下水质量下降。目前缺乏东北地区耕地的黑土层厚度空间分布数据,故刻画耕地黑土层厚度的变薄现状以及空间分布特征至关重要。
关于黑土层厚度的区域调查研究较少,刘凯等[5]针对东北黑土区61个典型土壤剖面进行实地调查,对比同点位二普土壤数据得出40年来黑土层整体呈变薄趋势。该调查方法具有很大的局限性,耗费人力、物力,得到的结果往往难以代表整体情况。数字土壤制图(Digital Soil Mapping,DSM)具有高效性、成本低、应用广泛等特点,能够弥补传统制图的缺点[7-8]。目前常见的DSM方法包括地统计法、机器学习和混合模型等。其中普通克里格(Ordinary Kriging,OK)是地统计法中最具有代表性的,该方法仅基于土壤属性在空间上的相关性进行预测。Chabala等[9]采用OK方法在赞比亚地区绘制土壤有机碳的空间分布,预测结果的均方根误差(RMSE)为0.64。
相比地统计法,机器学习能提取土壤与环境之间的关系,对预测土壤属性的空间分异特征效果更佳。其中较简单的一种机器学习方法是多元线性回归(Multiple Linear Regression,MLR),它主要基于土壤属性与环境变量之间的线性关系进行预测制图。Chagas等[10]采用MLR和RF预测半干旱地区的表层土壤质地,其中MLR在预测粉粒含量时性能较优,而砂粒和黏粒含量则是RF预测性能较优。然而,土壤属性与环境变量之间多呈复杂的非线性关系,集成机器学习模型如随机森林(Random Forest,RF)、梯度提升树(Gradient Boosting Decsion Tree,GBDT)、极端梯度提升(Extreme Gradient Boosting,XGBoost)能较好地对这种复杂的非线性关系进行捕捉和建模,因此RF、GBDT、XGBoost等机器学习方法在DSM领域应用广 泛[11-13]。庞龙辉等[14]采用RF预测了青海省表层4个基本土壤属性的空间分布。Guo等[15]采用线性模型偏最小二乘回归(PLSR)和GBDT对耕地土壤Cr浓度进行预测,发现GBDT具有更好的性能和稳定性。Demir等[16]采用自适应提升算法(AdaBoost)、GBDT和XGBoost来预测土壤液化,发现XGBoost性能最优。然而,对土壤厚度进行预测相比对土壤有机碳、土壤pH等预测具有更大的难度,例如Chen等[17]和Zhang等[18]分别采用RF和MLR预测区域尺度上土壤厚度空间分布的决定系数(R2)仅为0.34和0.28。
混合模型是一种结合了多种模型的方法,可充分利用它们的优势。常用的包括随机森林回归克里格(Random Forest-Regression Kriging,RF-RK)和堆叠泛化模型(Stacking)等,这2个模型是目前数字土壤制图领域相对较新且有效的方法。其中RF-RK即RF与OK模型进行结合,有研究利用RF-RK和单一的机器学习模型对土壤属性进行建模比较,发现RF-RK具有较好的预测结果和平均绝对误差(MAE)[19-21],但也有研究发现RF-RK和RF的模型性能没有明显差异[22-23]。Stacking即结合多种模型方法,Tao等[24]利用Stacking和单一机器学习模型反演葡萄园的土壤水分,结果表明Stacking相比单一模型具有更高的准确性和稳定性,但金昭等[25]对土壤重金属元素进行空间预测制图,得到RF和支持向量机(SVM)性能较好,而Stacking相比性能较差。综上,由于各种预测模型具有其独特特点,针对不同的研究区和土壤属性对象,模型性能会呈现出明显差异,因此适用于不同的土壤属性预测制图问题。且目前缺乏关于黑土层厚度数字制图的相关研究,所以比较不同方法对黑土层厚度的预测制图效果,选取出最优数字制图模型至关重要。
本研究以东北松嫩典型黑土区耕地为研究对象,基于影响黑土地自然肥力的土壤属性(即黑土层厚度),通过RF因子重要性排序和相关性剔除法筛选最优环境协变量,利用多种模型对研究区黑土层厚度进行建模预测以刻画其空间分布,并优选出东北松嫩典型黑土区黑土层厚度空间制图组合方案,基于此制图组合方案绘制东北黑土区的耕地黑土层厚度分级图,以期为东北黑土区耕地的农业生产力和黑土地未来可持续发展提供数据支持和科学参考。

2 研究区概况与数据来源

2.1 研究区概况

研究区位于中国东北松嫩典型黑土亚区(图1),位于121°59′ E—128°12′ E,42°57′ N—49°59′N范围内,主要分布在黑龙江省以及吉林省,是中国8个重要农业区之一[26]。研究区内主要地形是平原和漫岗,海拔范围200~500 m,地势平缓,其中漫岗地形位于研究区的东部。其面积约为1.65×105 km2,年平均气温0~4 ℃,年均降雨量400~550 mm。根据《东北黑土地保护规划纲要(2017—2030年)》[27]的规定,黑土地一般涵盖黑土、黑钙土、草甸土、白浆土、暗棕壤等土壤类型,均具有独特的黑土层,其中黑土、黑钙土2种土壤类型有机质含量丰富,黑土层较厚[28]。研究区土壤类型主要以黑土、黑钙土为主,如图1(a)所示,这2种土壤类型在土壤学发生分类中属于典型黑土,其主体自北向南呈弧形分布,黑土层厚度大于30 cm的区域主要分布在该地区。研究区内的其他土壤类型还包括草甸土、白浆土和暗棕壤等。该区域内耕地面积广阔,约占东北地区耕地面积的三分之一。由于其优越的土壤、气候和地形等条件,该区域耕地分布集中,粮食产量最丰富,约占研究区面积的四分之三,农作物主要是玉米和大豆。因此松嫩典型黑土区常常被作为一个单独的研究区域[29-30],具有很高的研究价值。
图1 研究区概况

Fig. 1 Overview of the study area

2.2 黑土层实测数据及预处理

本研究选取东北地区土系志[31-34]106个剖面点作为建模预测的基础数据,剖面点采样于2010—2012年。剖面点数据具有完整的土壤分层符号、土壤颜色和有机碳含量信息。其中,土壤颜色用Munsell色度法获取;土壤有机碳用丘林法测定。基于目前较有影响力的土壤分类系统《Soil Taxonomy》[35]中的暗沃土土纲,其定义与中国东北的黑土区土壤相近,均具有一定厚度的暗色表层,并且有机碳含量丰富,具有极高的生产力[36]。因此参考暗沃土的暗沃表层定义[37],从土壤分层符号、土壤颜色、有机碳含量3个方面对黑土层厚度进行判断,将符合以下要求的土层判定为黑土层: ① 土壤分层符号介于A层、AB层和B层范围内; ② 土壤润态的明度和彩度≤3; ③ 土壤有机碳含量≥6 g/kg。
黑土层厚度的诊断先根据土壤剖面的分层符号和土壤颜色划定一个厚度值,再结合土壤有机碳含量的标准综合判定出黑土层厚度值。但土壤剖面的土壤有机碳含量≥6 g/kg这个界限通过剖面中不同层次的有机碳平均含量值无法准确判断,因此本研究利用样条函数拟合[38]土壤有机碳的剖面分布,如图2通过拟合曲线得到土壤有机碳含量等于6 g/kg的深度值。综上,每个土壤剖面得到一个黑土层厚度值,并按照图1所示的黑土层分级将其分为薄层(0~30 cm)、中层(30~60 cm)、厚层(>60 cm)[28]
图2 利用样条函数对土壤剖面有机碳含量的拟合曲线示例

Fig. 2 Example of fitted curve for soil profile organic carbon content using spline functions

2.3 环境变量获取及预处理

DSM的关键是预测模型的构建,不仅仅需要选取最佳的数字制图模型,还需选取更多能影响土壤信息分布的辅助环境变量,从而使预测模型具备更高的解释性。基于SCORPAN土壤景观模型[39],本研究收集可获取的地形因子、气候因子、遥感因子、土壤因子及其他变量作为预测黑土层厚度的辅助环境信息[17,40-41]表1)。本研究共收集环境协变量45个,将其空间分辨率用双线性插值法重采样为90 m,并统一投影坐标系统和空间范围。
表1 环境变量基本信息

Tab. 1 Basic information of environmental variables

环境变量 初始分辨率/m 简称
地形因子
高程(Elevation) 90 DEM
坡度(Slope) 90 Slope
坡向(Aspect) 90 Aspect
谷深(Valley Depth) 90 VD
坡度坡长因子(Slope Length and Steepness Factor) 90 LS
平面曲率(Plan Curvature) 90 PLC
剖面曲率(Profile Curvature) 90 PRC
地形起伏度(Topographic Relief) 90 TR
相对坡度位置(Relative Slope Position) 90 RSP
河网基准面(Channel Network Base Level) 90 CNBL
通道网络距离(Channel Distance Network) 90 CND
地形湿度指数(Topographic Wetness Index) 90 TWI
气候因子
年平均降雨量(Mean Annual Precipitation) 1 000 MAP
年平均气温(Mean Annual Temperature) 1 000 MAT
月均气温最大值(Mean Month Temperature Maximum) 1 000 MMTmax
月均气温最小值(Mean Month Temperature Minimum) 1 000 MMTmin
遥感因子
近红外波段值(Near Infrared Band) 30 NIR
总初级生产力(Gross Primary Productivity) 500 GPP
归一化植被指数(Normalized Difference Vegetation Index) 250 NDVI
增强植被指数(Enhanced Vegetation Index) 250 EVI
地表温度(Land Surface Temperature) 1 000 LST
地表温度最大值合成(Land Surface Temperature Maximum) 1 000 LSTm
光合有效辐射(Fraction of Photosynthetically Active Radiation) 500 FPAR
光合辐射最大值合成(Fraction of Photosynthetically Active Radiation Maximum) 500 FPARm
叶面积指数(Leaf Area Index) 500 LAI
叶面积指数最大值合成(Leaf Area Index Maximum) 500 LAIm
EVI活跃累积量(EVI Active Accumulation) 250 EVIAa
EVI振幅(EVI Amplitude) 250 EVIA
EVI 基准值(EVI Base Value) 250 EVIBv
EVI成长速率(EVI Growth Rate) 250 EVIGr
EVI剩余累积量(EVI Remainder Accumulation) 250 EVIRa
EVI总累积量(EVI Total Accumulation) 250 EVITa
EVI最大值(EVI Maximum) 250 EVIm
EVI标准差(EVI Standard Deviation) 250 EVISd
生长时间(Growth Tme) 250 GT
土壤因子
砂粒含量(Sand) 1 000 Sand
粉粒含量(Silt) 1 000 Silt
二级岩性分类(Lithology) 1 000 Lithology
土壤类型(Soiltype) 1 000 Soiltype
土地利用类型(Landcover) 1 000 Landcover
地貌类型(Geomorphy) 1 000 Geomorphy
其他变量
纬度坐标(Latitude Coordinates) - LC
倾斜45°纬度坐标(Oblique 45° Latitude Coordinates) - OLC45
到主要河流距离(Distance to the River) - DtRiver
到主要道路距离(Distance to the Road) - DtRoad
地形因子中的DEM来源于国家地球系统科学数据中心(http://northeast.geodata.cn/),地形衍生因子利用ArcMap 10.8和SAGA 8.4.1软件计算获取。共获取12个地形因子。
气候因子[42]来源于地球大数据科学工程数据共享服务系统(https://data.casearth.cn/),时间范围是2010—2012年,利用ArcMap 10.8进行数据预处理。共获取4个气候因子。
遥感因子均通过谷歌地球引擎(Google Earth Engine,GEE)平台获取,在ArcMap 10.8中进行数据预处理。其中仅NIR通过Landset7影像获取,GPP、NDVI、EVI、LST、LSTm、FPAR、FPARm、LAI、LAIm均通过MODIS影像获取,时间范围是2010—2012年每年的4—11月。何香霖等[41]通过EVI时间序列获取农作物生长参数作为新的环境变量来预测土壤有机碳的空间分布明显优于传统的自然预测因子,故基于GEE平台对MODIS卫星数据按月均合成4—11月影像,共获取8期EVI时间序列影像,再通过R4.1.1软件提取EVI时间序列特征数据,共提取9个特征。共获取19个遥感因子。
土壤因子中的Sand和Silt来源于中国科学院资源环境科学数据中心(https://www.resdc.cn/)的中国土壤质地空间分布数据,数据初始分辨率是1 km。另外,Soiltype、Landcover[43]均来自国家地球系统科学数据中心(http://northeast.geodata.cn/),其中Soiltype主要分为黑土、黑钙土、草甸土、暗棕壤和其他5个类型。共获取6个土壤因子。
其他变量中的LC、OLC45在Python 3.10环境下计算获取,DtRiver和DtRoad通过ArcMap 10.8工具箱的欧氏距离计算获取,其中DtRiver的源图层是中国四级及以上河流图层,DtRoad的源数据是OpenstreetMap中获取的道路图层。共获取4个其他变量。

2.4 环境变量优选

研究表明,更多的环境变量会对预测结果产生不利的影响,陷入维数的陷阱[44]。为了提高模型的预测性能和可解释性,同时减少过拟合和计算复 杂度,本研究通过以下2步进行变量筛选,均在 Python 3.10环境下完成。① 因子重要性排序:基于RF模型对所有环境变量进行因子重要性排序后,通过逐一添加正向排序后的变量进行建模并计算每次的R2来确定最佳特征集,实现对环境变量的初次筛选。② 相关性剔除法:计算初次筛选后的不同环境变量间以及环境变量与目标变量黑土层厚度之间的相关性,筛除掉相关性高的环境变量,去除冗余信息,最终得到一组环境变量。具有高相关性的环境变量很可能会对建模结果造成过拟合和降低解释性的影响。

2.5 不同制图模型方法

采用多元线性回归(MLR)、随机森林(RF)、梯度提升决策树(GBDT)、极端梯度提升(XGBoost)、随机森林回归克里格(RF-RK)、堆叠泛化模型(Stacking) 6种模型进行黑土层厚度的预测。
MLR是一种简单的机器学习模型,通过一系列解释变量的线性组合来建立回归关系,进而预测目标变量[12]。其关键原理是找到更好的系数来拟合数据,通常使用最小二乘法来估计系数,往往对线性数据具有较好的拟合效果。
RF是一种强大的集成机器学习模型,通过构建多个决策树并随机选择特征和数据子集来进行学习,具有模型性能高、降低过拟合等优点。它通过在数据集的不同随机子样本集上构建多个决策树,在每个决策树的节点上使用随机特征选择进行分割,并对多个预测结果取平均值作为最终结果[45]。RF的重要建模参数是决策树的数量(n_estimators=500),决策树的最大深度(max_depth=10),决策树分裂节点时随机使用的最大特征数(max_features=5)。
GBDT是一种具有迭代性质的集成机器学习模型,通过组合多个决策树来迭代模型,进而提升模型预测性能[46]。它基于梯度提升算法进行迭代,在每轮迭代中不断加入新的决策树来拟合损失函数的梯度(即实际值与预测值之间的残差),以实现损失函数的最小化,并将多个决策树的预测结果相加作为最终结果。GBDT的重要建模参数是损失函数(loss='squared_error'),学习率(learning_rate=0.01),决策树的数量(n_estimators=1 000),决策树的最大深度(max_depth=3)。
XGBoost[47]是一种高效的集成机器学习模型,相比GBDT其加入并行化和正则化(L1、L2),同时也支持自定义损失函数和分裂标准,具有运行速度快,降低过拟合等特点。其基本原理与GBDT类似。XGBoost的重要建模参数是损失函数(objective='reg:squarederror'),决策树的数量(n_estimators=1 000),决策树的最大深度(max_depth=5),学习率(learning_rate=0.01)。
RF-RK是结合机器学习方法和地统计方法的混合模型[19]。它首先利用RF对土壤属性进行建模预测,将土壤属性实测值减去建模预测值得到残差项,再应用OK对残差项进行插值,最终将插值结果与回归预测值相加作为最终结果,进而提高模型总体预测精度,具有高效、准确、稳定等特点。RF-RK中的RF参数按照上述,其他重要建模参数是变差模型(variogram_model = 'gaussian'),最近邻点数(n_closest_points=6)。
Stacking[48]是一种组合模型,由基础模型和元模型共同组成,通过将多个基础模型的预测结果作为输入,再使用元模型进行输出,得到一个整体更准确的预测结果,其中基础模型和元模型的选取较为灵活多变,有多种组合方式。本研究中Stacking的基础模型是RF和MLR,元模型是岭回归(Ridge Regression,RR)。其中RR[49]基于线性回归模型,加入L2正则化,通过增加对回归权重的惩罚来降低模型泛化误差,防止模型过拟合。Stacking中的RF参数(n_estimators=500,max_depth=8,max_features=4),其他模型使用默认参数。
所有模型均在Python 3.10环境下实现,以上模型通过sklearn、xgboost和pykrige库中的方法实现。其中MLR使用默认参数,RF、GBDT、XGBoost、RF-RK和Stacking模型均使用网格搜索交叉验证(GridSearchCV)进行模型关键参数优化,得到较优参数。

2.6 模型精度评价与不确定性评估

留一交叉验证是评估机器学习模型精度的一种特殊精度评价方法,适用于小数据样本集[50],它每次只使用一个数据作为测试集,其他数据均作为训练集,重复这个过程直到所有数据都被作为测试集。本研究采用留一交叉验证法进行模型评估,使用3个评估指标R2、MAE、RMSE来评估模型预测精度[51],综合比较不同模型的预测结果。
不确定性也是评估模型性能和可靠性的重要指标。RF不确定性来自于树与树之间的差异,由于其集成特性和Bootstrap抽样原理,每颗决策树内部具有随机性导致其训练数据存在差异,因此每颗树的预测结果往往也具有差异。Veronesi等[52]通过计算RF中每颗树估计值的标准偏差来反映其局部不确定性,与利用分位数随机森林(QRF)的置信区间来评估不确定性原理类似。本研究计算RF中每颗树估计值的方差来反映预测结果的不确定性。

3 结果及分析

3.1 描述性统计分析

松嫩典型黑土区所有样点整体的黑土层厚度平均值为45.37 cm,最小值是0 cm,最大值是170 cm,标准差是37.45 cm,偏度值是0.89,峰度值是0.67,变异系数是82.55%,具有较强的变异程度,整个研究区范围内建模点的黑土层厚度具有较大的起伏。依据图1黑土层分级标准划分样点类型,其描述性统计信息如表2所示,黑土层厚度为0 cm的样点数量有20个,占比为19%,说明研究区范围内有一部分区域已无黑土层。黑土层厚度小于30 cm的样点数量有46个,占比为43%。薄层、中层、厚层黑土层的平均值分别是21.87、47.96、90.55 cm,标准差分别是5.28、8.84、27.80 cm,偏度分别是-0.79、-0.23、1.24,峰度分别是0.53、-1.19、0.91,变异系数分别是24.15%、18.44%、30.70%。
表2 黑土层厚度描述性统计结果

Tab. 2 Descriptive statistical results of the thickness of black soil layer

黑土层类型 土层厚度/m 样点数量/个 占比/% 平均值 标准差 偏度 峰度 变异系数/%
0 20 19 0 0 - - -
薄层 0~30 26 25 21.87 5.28 -0.79 0.53 24.15
中层 30~60 28 26 47.96 8.84 -0.23 -1.19 18.44
厚层 >60 32 30 90.55 27.80 1.24 0.91 30.70

3.2 环境变量选取

基于随机森林模型内嵌的因子重要性排序方法,逐一添加正向排序后的环境变量用于RF、GBDT、XGBoost建模并评估模型精度,R2变化如图3所示。结果显示,当使用正向排序前18个环境变量时RF的R2能够达到0.44,再继续加入环境变量,R2总体变化呈现缓慢变小趋势,当使用所有变量建模时R2减小至0.40。这说明后续加入的环境协变量对模型的预测结果造成了负面影响,甚至可能造成过度拟合。GBDT、XGBoost整体变化趋势与RF较为相似,均在使用18个环境变量左右达到R2最大,但建模精度R2均低于RF。
图3 RF、GBDT、XGBoost模型R2随环境协变量数目的变化

Fig. 3 Variation of R2 for RF, GBDT, and XGBoost models with the number of environmental covariates

通过上述方法初次筛选后还存在一些冗余变量,因此采用相关性剔除法,剔除具有高相关性(r > 0.9)的环境变量。基于相关性热图(图4)去除冗余变量,其中MAT与MMTmax相关性为0.97,EVIGr与EVITa相关性为0.94,MMTmax与OLC45相关性为-0.96,DEM与CNBL相关性为0.99,因此剔除4个具有高相关性(r > 0.9)的环境变量MAT、EVIGr、OLC45和CNBL,将剔除后剩余的变量定义为筛选后变量。其中与黑土层厚度相关性较高的 3个环境变量是GPP、LAIm、FPARm,而较低的3个环境变量是CND、PRC、RSP。基于以上筛选过程,本研究最终选择14个环境变量进行不同模型地建模预测。
图4 黑土层厚度和初筛后变量之间的Pearson相关系数

Fig. 4 Pearson correlation coefficients between the thickness of black soil layer and screened variables

3.3 不同制图模型预测性能比较

不同模型MLR、RF、GBDT、XGBoost、RF-RK和Stacking对黑土层厚度进行建模精度评估,使用所有变量和筛选后变量分别建模的R2MAERMSE变化如表3所示。结果表明,当使用所有变量进行建模,模型中预测精度最好的是RF-RK(R2=0.42,MAE=22.17 cm,RMSE=28.61 cm),预测精度最低的是MLR(R2=0.07,MAE=25.14 cm,RMSE=36.13 cm)。R2整体范围介于0.07~0.42,MAE整体范围介于22.17~25.14 cm,RMSE整体范围介于28.61~36.13 cm。此外,RF(R2=0.40,MAE=22.64 cm,RMSE=28.96 cm)和Stacking(R2=0.40,MAE=22.45 cm,RMSE=28.96 cm)表现较优。
表3 变量筛选前后不同模型的预测性能

Tab. 3 Predictive performance of different models before and after variable selection

模型 所有变量 筛选后变量
R2 MAE/cm RMSE/cm R2 MAE/cm RMSE/cm
MLR 0.07 25.14 36.13 0.39 22.42 29.13
RF 0.40 22.64 28.96 0.44 22.09 27.99
GBDT 0.36 23.21 29.85 0.41 22.67 28.83
XGBoost 0.29 23.92 31.50 0.43 22.57 28.33
RF-RK 0.42 22.17 28.61 0.46 21.86 27.59
Stacking 0.40 22.45 28.96 0.47 21.02 27.12
当使用筛选后变量进行建模,模型中预测精度最高的是Stacking(R2=0.47,MAE=21.02 cm,RMSE=27.12 cm),预测精度最低的是MLR(R2=0.39,MAE=22.42 cm,RMSE=29.13 cm)。R2整体范围介于0.39~0.47,MAE整体范围介于21.02~22.67 cm,RMSE整体范围介于27.12~29.13 cm。此外,RF-RK(R2=0.46,MAE=21.86 cm,RMSE=27.59 cm)和RF(R2=0.44,MAE=22.09 cm,RMSE=27.99 cm)表现较优。
变量筛选后不同模型的预测精度均得到了一定程度的提升,其中MLR提升最为明显,R2提升了0.32,其他模型提升幅度相对较小,RF、GBDT、XGBoost、RF-RK、Stacking的R2分别提升了0.04、0.05、0.14、0.04、0.07。
基于较优模型RF计算变量筛选前后模型预测结果的不确定性如图5(a)图5(b)所示,其中0和1分别代表不确定性低和不确定性高,结果显示不确定性低的区域主要集中在研究区的西南区域和中部区域。根据黑土层厚度预测结果显示,黑土层厚度较薄的区域其预测结果的不确定性相对较低。不确定性变化图如图5(c)所示,大部分区域在变量筛选后模型预测结果的不确定性发生了降低的情况,不确定性出现升高现象的区域主要在研究区中部。综上,变量筛选对于提升模型的预测性能具有重大作用。
图5 基于较优模型RF预测黑土层厚度的不确定性变化

Fig. 5 Uncertainty change in the thickness of black soil layer prediction using the optimal RF model

3.4 松嫩典型黑土区耕地黑土层厚度分级图

不同模型预测的黑土层厚度描述性统计如表4所示。不同模型预测黑土层厚度的最大值介于142.01~178.55 cm,平均值介于45.50~49.63 cm,标准差介于20.89 ~25.84 cm,变异系数介于42.48%~56.33%。基于不同模型的空间预测结果,按照上述黑土层分级标准,得到分级图如图6所示。并统计不同模型所划分的分级图中各等级黑土层所占比例,其中薄层黑土层面积比例范围为15.73%~26.05%,中层黑土层面积比例为46.72%~55.75%,厚层黑土层面积比例为24.57%~32.74%。其中GBDT预测薄层黑土层面积占比最高为26.05%,其次是XGBoost>MLR>RF-RK>Stacking>RF;Stacking预测中层黑土层面积占比最高为55.75%,其次是RF>XGBoost>RF-RK>MLR>GBDT;RF-RK预测厚层黑土层面积占比最高为32.74%,其次是RF>MLR>Stacking>GBDT>XGBoost。故6个模型的分级图中不同厚度的整体分布比例是接近的,均是30~60 cm黑土层分布最多,小于30 cm的黑土层分布最少。
表4 不同模型预测的黑土层厚度描述性统计及分级图面积占比

Tab. 4 Descriptive statistics of the thickness of black soil layer predictions by different models and area proportion on graded maps

模型 描述性统计 面积占比/%
平均值/cm 标准差/cm 变异系数/% 薄层(0~30 cm) 中层(30~60 cm) 厚层(>60 cm)
MLR 48.30 24.05 49.79 20.61 49.88 29.50
RF 49.44 21.00 42.48 15.73 54.43 29.84
GBDT 45.87 25.84 56.33 26.05 46.72 27.23
XGBoost 45.50 24.95 54.83 24.08 51.35 24.57
RF-RK 49.63 22.77 45.88 17.23 50.03 32.74
Stacking 49.16 20.89 42.49 16.17 55.75 28.08
图6 松嫩典型黑土区耕地黑土层厚度分级

Fig. 6 The thickness grading map of black soil layer of cultivated land in typical black soil area of Songnen

图6分级图结果显示,西南部黑土层厚度基本小于30 cm,大于60 cm的区域主要分布在东北部和东南部。而介于30~60 cm的黑土层主要分布在中部地区,即西南部与东北部和东南部的过渡地带。相比其他模型,GBDT和XGBoost显示中部区域的薄层黑土层面积占比更大。RF和RF-RK显示西北部区域主要为中层黑土层,而其他模型预测其具有较多的薄层黑土层。RF和RF-RK显示东北部区域基本不存在薄层黑土层,而其他模型则显示其存在零星的薄层黑土层。
研究区西南部黑土层很薄或已不存在黑土层,出现这种变化是由于该区域受到风力侵蚀的影响相比松嫩平原东部较大,并且该区域植被的生长状况及密度相比其他区域较差,土壤质地不利于保持水分,因此抗侵蚀能力相对较弱。张哲寰等[53]说明松嫩平原中西部土壤抗风蚀能力差,风蚀严重。东北部和东南部黑土层厚度较厚,厚层黑土层主要集中出现在这两个区域。究其原因,一方面其自身黑土层深厚,另一方面由于漫岗地形其主要受水蚀影响,风力侵蚀相对较弱,并且该区域植被生长状况较好,能够一定程度上减弱水蚀的影响。东北部漫岗地形的岗底区域往往比岗顶区域和缓坡区域的黑土层厚,黑土层厚度呈上薄下厚梯度分布,主要是受到地形和降水因素导致的水蚀影响,出现表层土壤逐渐往岗底堆积的过程[54]。此外,岗顶和岗底的高度变化越大,坡耕地受到的侵蚀强度越高。故在漫岗地形上易出现较大的局部黑土层厚度变化特征,与本研究中结论较为一致。

3.5 最优协变量

基于变量筛选后随机森林模型的因子重要性,将其归一化处理,结果如图7所示。使用RF对黑土层厚度进行建模预测时具有较高影响力的前5个环境变量分别是GPP、LS、LSTm、LAIm和DEM,其中GPP、LSTm和LAIm是遥感变量,LS和DEM是地形变量,说明这5个环境变量是影响松嫩典型黑土区黑土层厚度预测的主要变量。其他变量相比仅能提供较弱的影响,依此是FPARm、NDVI、LST、MMTmax、PRC、EVITa、CND、LAI和RSP。
图7 筛选后环境变量的RF因子重要性排序

Fig. 7 RF feature importance ranking of filtered variables

3.6 东北黑土区耕地黑土层厚度分级图

基于东北地区土系志中的438个剖面样点,利用较优的混合模型Stacking和RF-RK绘制东北黑土区耕地黑土层厚度的空间分布图,并根据来源于国家地球系统科学数据中心的2020年东北黑土区30 m分辨率耕地分布数据集[55]进行掩膜提取,再按照薄层(0~30 cm)、中层(30~60 cm)、厚层(>60 cm)对其进行分级,得到东北黑土区耕地黑土层厚度分级图,如图8所示,其中东北地区包括黑龙江省、吉林省、辽宁省和内蒙古自治区东四盟(包括呼伦贝尔、兴安、通辽和赤峰)。
图8 东北黑土区耕地黑土层厚度分级

Fig. 8 The thickness grading map of black soil layer of cultivated land in black soil region of Northeast China

根据图8显示的预测结果,中厚层黑土层主要集中在松嫩典型黑土区和三江典型黑土区,其中厚层黑土层主要分布在松嫩典型黑土区的东北部和三江平原的偏北部。而薄层黑土层主要分布在东北黑土区的东南部。黑土区东南部出现这种变化是由于其黑土层厚度初始值本就偏低,再加上强烈风蚀[53]的影响,导致很多区域甚至出现了“破皮黄”。而松嫩典型黑土区的土壤类型主要是黑土、黑钙土和草甸土,均有较厚的黑土层初始值,目前仍是土壤自然肥力很高的区域,但这部分区域也是东北农业耕地的集中区域之一,常年来高强度的土地利用和漫岗低丘陵地形下的水蚀使其退化较为严重,因此未来的黑土地保护应重点关注该区域。三江平原也是东北农业耕地集中区域之一,土壤类型主要是草甸土、暗棕壤、黑土等,黑土层初始值相比松嫩典型黑土区差一些,但该地区地势平坦,其水蚀影响较弱,目前的黑土层厚度状况相对较好,但依然应该建立良好的黑土地保护措施。

4 讨论

4.1 变量筛选对不同模型预测黑土层厚度的影响

变量筛选是非常重要的过程,过多环境变量对模型的预测效果反而会起到负影响。一方面,较少的样点数据不足以反映过多的环境变量体现出的特征,因此导致一些特征信息反而会对模型建模起到干扰作用[48]。另一方面,低贡献度的环境变量具有较弱的影响力,且可能降低模型的性能和可解释性[56]。根据表3,变量筛选后不同模型的决定系数R2均有提升,提升幅度介于0.04~0.32,说明变量筛选对于提升模型的性能和可解释性是一个有效的方法。MLR的R2经过变量筛选后提升幅度是0.32,而其他模型提升幅度相对较小。证明环境变量的数量对线性模型的影响较大,其更容易受到冗余变量的干扰。RF和RF-RK提升幅度最小,RF是袋装算法(Bagging)的代表算法,这说明筛选变量对Bagging性能提升不是十分明显[57]。在使用大量环境变量进行建模预测时,RF依旧能有稳定优越的模型性能。而XGBoost和GBDT均是提升算法(Boosting)的代表算法,变量筛选后模型R2分别提升0.14和0.05,说明变量筛选对于提升Boosting算法的预测性能更加有效相比Bagging算法。而对于本研究中的Stacking算法,它结合了Bagging和线性模型,变量筛选对其也具有一定的提升效果。因此在使用不同模型时,变量筛选或是特征提取的有效性是不同的。

4.2 不同制图模型对黑土层厚度预测的影响

制图模型与独立的土壤属性并没有直接的联系,采用不同制图模型对其进行比较预测是为了使空间制图结果更加可靠,具有更高的可解释性。故本研究中不同制图模型对黑土层厚度预测的精度存在差异。在单一机器学习模型比较中,RF具有较高的预测性能,是由于RF作为一种集成学习方法,具有较高的泛化能力和抗噪声性。Li等[58]比较MLR、RF、地理加权回归(GWR)、SVM绘制小流域尺度的活动层土壤厚度,结果表明RF优于其他模型,与本研究中预测黑土层厚度的结论较为一致。而RF-RK相比RF,考虑了空间自相关性,尤其在地形特征不明显的地区,如平原地区,考虑空间自相关性将对预测结果更加有利。Kuriakose等[59]利用MLR、OK、回归克里格(RK)和随机模拟(SRK)四种模型预测土壤厚度,得出RK具有更好的预测效果,在本研究中结合了空间自相关的模型RF-RK也较优于单一的机器学习模型RF。但其总体精度提升有限,可能是由于研究区样点数量有限且研究区范围过大,故样点间仅具有较弱的空间自相关性,难以有效提升模型预测精度。Stacking预测精度最高,由于其能够综合多种模型的优点,降低过拟合并提高预测精度。Li等[48]证明了Stacking相比MLR、支持向量机(SVR)、RF和XGBoost在预测河南省土壤厚度的空间分布上具有更好的预测性能,相比单一的机器学习模型其性能更优,与本研究中结论较为一致。但需注意的是Stacking具有很大的灵活性,它是基础模型和元模型组成的,因此Stacking的性能根据基础模型和元模型的选择会具有较大的不确定性。在使用Stacking时需注意调整基础模型的组合和元模型而使其具有较优的预测结果。
另外,不同制图模型对于黑土层厚度预测的空间分布状况也具有差异。模型通常存在一种预测倾向,即对于较高的实际值其预测结果偏低,对于较低的实际值其预测结果偏高,而RF-RK通过对实测值与预测值的残差进行插值,并与回归预测结果相加改善了这一缺点。RF-RK预测薄层和厚层黑土层的面积占比相比RF分别提高了1.50%和2.90%,本研究证实了结合土壤属性在空间上的相关性后能够改善这一预测偏差。相比之下,Stacking并没有这样的优势,其同样仅考虑土壤属性与环境因子之间的要素相关性。而GBDT和XGBoost模型预测的黑土层厚度结果整体偏低,预测的厚层黑土层比例少,薄层黑土层比例多,说明Boosting预测时更容易受到低值样点的影响。在黑土层厚度的预测结果上,RF-RK明显更加合理,因此在进行区域性的土壤属性预测制图时,考虑结合土壤属性的空间相关性对于预测结果更加有意义。综上,对于未进行过空间制图的黑土层厚度,本研究证实了混合模型Stacking和RF-RK预测其空间分布特征的有效性和可靠性。

4.3 解释变量对黑土层厚度空间分布的影响

尽管建模变量大多归属于地形变量或是遥感变量,但其所表现的含义和数据特征存在差异,因此在解释黑土层厚度的空间分异特征上具有不同的贡献度。环境协变量中贡献度最高的是GPP,它能反映单位面积和时间下植被的光合作用效率和生产力,从而体现土壤自然肥力水平。其次是LS,它能反映出土壤受到的侵蚀强度[60],对于漫岗地形影响下的黑土层厚度分布特征具有较好的解释能力。再是LSTm,它能一定程度上表征土壤质地[61,62],而土壤质地关乎土壤受外部影响导致的水土流失强度[54]。然后是LAIm,它能够反映植被的几何结构,高LAI通常表示更高的植被密度,从而体现植被一定的生长状况。最后是DEM,它能够反映地表在垂直方向上的相对高度变化,如图1(c),漫岗地形在水蚀的影响下岗底可能会发生土壤堆积,从而造成不同高程下的黑土层分布存在差异。相比之下,其他变量的解释能力相对较弱,可能是这些变量在平缓区的表征能力较差,以及样点的数量和空间分布导致的。从黑土层分布的驱动因子上来看,LS、LSTm和DEM通过表征土壤侵蚀来解释黑土层的空间分异特征,而目前难以找到合适的人类活动因子来表征耕地的高强度土地利用,因此若能够结合人类活动因子量化耕地的土地利用强度,有望进一步提高模型的性能。

5 结论

黑土层厚度是体现黑土地生产潜力的重要指标,本研究基于不同模型对松嫩典型黑土区耕地的黑土层厚度空间分布特征进行预测,并依据较优的模型绘制东北黑土区耕地黑土层厚度分级图。具体结论如下:
(1) 基于有效的变量筛选方法,不同模型的预测性能均有一定程度的提升,R2平均提高0.11。其中MLR提升幅度最大为0.32,而RF仅提升0.04,说明变量筛选对于线性模型的预测性能提升幅度大,对于RF的精度提升不是十分明显。
(2) 基于有限样点,在平原漫岗地区比较了不同模型对黑土层厚度的预测效果,发现Stacking预测性能最佳,其次是RF-RK和RF,证实了混合模型相比单一的模型对于黑土层厚度的预测具有更优越的预测性能。
(3) 对于典型黑土区的黑土层厚度,不同模型的预测结果呈现出相似的空间分布格局。由于黑土层变薄速率有限,结合黑土层厚度分级标准,得到了当前准确的薄、中、厚层黑土层的空间分布格局。统计不同模型预测的黑土层厚度,得到其均值介于45.50~49.63 cm范围。此外,从空间分布上证实了漫岗地区黑土层厚度呈现岗顶薄、岗底厚阶梯分布特点。
(4) GPP、LS和LSTm是解释本研究区黑土层厚度空间分布的最优协变量,在平原漫岗地区遥感变量相比地形变量能够更好的解释黑土层厚度的空间分异特征。
(5) 基于Stacking和RF-RK模型,绘制东北黑土区耕地的黑土层厚度分级图,结果表明东北黑土区中厚层黑土层主要集中在松嫩典型黑土区和三江典型黑土区,薄层黑土层主要集中分布在东北黑土区的东南部。
本文图文责任编辑: 蒋树芳 黄光玉
[1]
韩晓增, 李娜. 中国东北黑土地研究进展与展望[J]. 地理科学, 2018, 38(7):1032-1041.

DOI

[Han X Z, Li N. Research progress of black soil in Northeast China[J]. Scientia Geographica Sinica, 2018, 38(7):1032-1041. ] DOI:10.13249/j.cnki.sgs.2018.07.004

[2]
张兴义, 隋跃宇, 宋春雨. 农田黑土退化过程[J]. 土壤与作物, 2013, 2(1):1-6.

[Zhang X Y, Sui Y Y, Song C Y. Degradation process of arable mollisols[J]. Soils and Crops, 2013, 2(1):1-6. ] DOI:10.11689/j.issn.2095-2961.2013.01.001

[3]
李保国, 刘忠, 黄峰, 等. 巩固黑土地粮仓保障国家粮食安全[J]. 中国科学院院刊, 2021, 36(10):1184-1193.

[Li B G, Liu Z, Huang F, et al. Ensuring national food security by strengthening high-productivity black soil granary in Northeast China[J]. Bulletin of Chinese Academy of Sciences, 2021, 36(10):1184-1193. ] DOI:10.16418/j.issn.1000-3045.20210706003

[4]
刘登高, 张小川, 崔永, 等. 东北黑土地保护问题的调查报告[J]. 中国农业资源与区划, 2004, 25(4):16-19.

[Liu D G, Zhang X C, Cui Y, et al. Investigation report on the issue of black soil protection[J]. Chinese Journal of Agricultural Resources and Regional Planning, 2004, 25(4):16-19. ] DOI:10.3969/j.issn.1005-9121.2004.04.004

[5]
刘凯, 魏明辉, 戴慧敏, 等. 东北黑土区黑土层厚度的时空变化[J]. 地质与资源, 2022, 31(3):434-442,394.

[Liu K, Wei M H, Dai H M, et al. Spatiotemporal variation of black soil layer thickness in black soil region of Northeast China[J]. Geology and Resources, 2022, 31(3):434-442,394. ] DOI:10.13686/j.cnki.dzyzy.2022.03.019

[6]
张兴义, 刘晓冰. 中国黑土研究的热点问题及水土流失防治对策[J]. 水土保持通报, 2020, 40(4):340-344.

[Zhang X Y, Liu X B. Key issues of mollisols research and soil erosion control strategies in China[J]. Bulletin of Soil and Water Conservation, 2020, 40(4):340-344. ] DOI:10.13961/j.cnki.stbctb.2020.04.046

[7]
朱阿兴, 杨琳, 樊乃卿, 等. 数字土壤制图研究综述与展望[J]. 地理科学进展, 2018, 37(1):66-78.

DOI

[Zhu A X, Yang L, Fan N Q, et al. The review and outlook of digital soil mapping[J]. Progress in Geography, 2018, 37(1):66-78. ] DOI:10.18306/dlkxjz.2018.01.008

[8]
张甘霖, 史舟, 朱阿兴, 等. 土壤时空变化研究的进展与未来[J]. 土壤学报, 2020, 57(5):1060-1070.

[Zhang G L, Shi Z, Zhu A X, et al. Progress and perspective of studies on soils in space and time[J]. Acta Pedologica Sinica, 2020, 57(5):1060-1070. ] DOI:10.11766/trxb202004270199

[9]
Chabala L M, Mulolwa A, Lungu O. Application of ordinary kriging in mapping soil organic carbon in Zambia[J]. Pedosphere, 2017,27(2): 338-343. DOI:10.1016/S1002-0160(17)60321-7

[10]
da Silva Chagas C, de Carvalho Junior W, Bhering S B, et al. Spatial prediction of soil surface texture in a semiarid region using random forest and multiple linear regressions[J]. Catena, 2016, 139:232-240. DOI:10.1016/j.catena.2016.01.001

[11]
Liu F, Wu H Y, Zhao Y G, et al. Mapping high resolution national soil information grids of China[J]. Science Bulletin, 2022, 67(3):328-340. DOI:10.1016/j.scib.2021.10.013

PMID

[12]
Sahour H, Gholami V, Vazifedan M, et al. Machine learning applications for water-induced soil erosion modeling and mapping[J]. Soil and Tillage Research, 2021,211:105032. DOI:10.1016/j.still.2021.105032

[13]
Bouslihim Y, Rochdi A, Aboutayeb R, et al. Soil aggregate stability mapping using remote sensing and GIS-based machine learning technique[J]. Frontiers in Earth Science, 2021,9:748859. DOI:10.3389/feart.2021.748859

[14]
庞龙辉, 刘峰, 赵霞, 等. 青海省表层土壤属性数字制图[J]. 土壤通报, 2019, 50(3):505-513.

[Pang L H, Liu F, Zhao X, et al. Digital mapping of topsoil attributes in Qinghai Province[J]. Chinese Journal of Soil Science, 2019, 50(3):505-513. ] DOI:10.19336/j.cnki.trtb.2019.03.01

[15]
Guo F, Xu Z, Ma H H, et al. Estimating chromium concentration in arable soil based on the optimal principal components by hyperspectral data[J]. Ecological Indicators, 2021,133:108400. DOI:10.1016/j.ecolind.2021.108400

[16]
Demir S, Sahin E K. An investigation of feature selection methods for soil liquefaction prediction based on tree-based ensemble algorithms using AdaBoost, gradient boosting, and XGBoost[J]. Neural Computing and Applications, 2023, 35(4):3173-3190. DOI:10.1007/s00521-022-07856-4

[17]
Chen S C, Richer-de-Forges A C, Leatitia Mulder V, et al. Digital mapping of the soil thickness of loess deposits over a calcareous bedrock in central France[J]. Catena, 2021,198:105062. DOI:10.1016/j.catena.2020.105062

[18]
Zhang W T, Hu G Q, Sheng J D, et al. Estimating effective soil depth at regional scales: Legacy maps versus environmental covariates[J]. Journal of Plant Nutrition and Soil Science, 2018, 181(2):167-176. DOI:10.1002/jpln.201700081

[19]
Zhang W C, Wan H S, Zhou M H, et al. Soil total and organic carbon mapping and uncertainty analysis using machine learning techniques[J]. Ecological Indicators, 2022,143:109420. DOI:10.1016/j.ecolind.2022.109420

[20]
谭星. 山地丘陵区耕地土壤养分数字化制图研究[D]. 重庆: 西南大学, 2017.

[ Tan X. Study on digital mapping of cultivated soil nutrients in mountainous and hilly areas[D]. Chongqing: Southwest University, 2017. ]

[21]
Guo P T, Li M F, Luo W, et al. Digital mapping of soil organic matter for rubber plantation at regional scale: An application of random forest plus residuals kriging approach[J]. Geoderma, 2015, 237/238:49-59. DOI:10.1016/j.geoderma.2014.08.009

[22]
周洋, 赵小敏, 郭熙. 基于多源辅助变量和随机森林模型的表层土壤全氮分布预测[J]. 土壤学报, 2022, 59(2):451-460.

[Zhou Y, Zhao X M, Guo X. Prediction of total nitrogen distribution in surface soil based on multi-source auxiliary variables and random forest approach[J]. Acta Pedologica Sinica, 2022, 59(2):451-460. ] DOI:10.11766/trxb202008240312

[23]
马重阳, 孙越琦, 巫振富, 等. 基于不同模型的区域尺度耕地表层土壤有机质空间分布预测[J]. 土壤通报, 2021, 52(6):1261-1272.

[Ma C Y, Sun Y Q, Wu Z F, et al. Spatial prediction of topsoil organic matter of arable land by different models at the regional scale[J]. Chinese Journal of Soil Science, 2021, 52(6):1261-1272. ] DOI:10.19336/j.cnki.trtb.2020121501

[24]
Tao S Y, Zhang X, Feng R, et al. Retrieving soil moisture from grape growing areas using multi-feature and stacking-based ensemble learning modeling[J]. Computers and Electronics in Agriculture, 2023,204:107537. DOI:10.1016/j.compag.2022.107537

[25]
金昭, 吕建树. 基于机器学习模型的区域土壤重金属空间预测精度比较研究[J]. 地理研究, 2022, 41(6):1731-1747.

DOI

[Jin Z, Lv J S. Comparison of the accuracy of spatial prediction for heavy metals in regional soils based on machine learning models[J]. Geographical Research, 2022, 41(6):1731-1747. ] DOI:10.11821/dlyj020210528

[26]
刘芳, 张红旗. 中国八个重要农业区土地利用结构及时空变化分析[J]. 资源科学, 2011, 33(2):294-301.

[ Liu F, Zhang H Q. Land use structure and temporal-spatial variation analysis in eight main agricultural regions in China[J]. Resources Science, 2011, 33(2):294-301. ]

[27]
中华人民共和国农业农村部. 东北黑土地保护规划纲要(2017—2030年)[Z].

[ Ministry of Agriculture and Rural Affairs of the People's Republic of China. Northeast black land protection plan outline (2017-2030)[Z]. ]

[28]
韩晓增, 邹文秀. 东北黑土地保护利用研究足迹与科技研发展望[J]. 土壤学报, 2021, 58(6):1341-1358.

[Han X Z, Zou W X. Research perspectives and footprint of utilization and protection of black soil in Northeast China[J]. Acta Pedologica Sinica, 2021, 58(6):1341-1358. ] DOI:10.11766/trxb202102280114

[29]
Gu Z J, Xie Y, Gao Y, et al. Quantitative assessment of soil productivity and predicted impacts of water erosion in the black soil region of northeastern China[J]. Science of the Total Environment, 2018, 637/638:706-716. DOI:10.1016/j.scitotenv.2018.05.061

[30]
Duan X W, Xie Y, Feng Y J, et al. Study on the method of soil productivity assessment in black soil region of Northeast China[J]. Agricultural Sciences in China, 2009, 8(4):472-481. DOI:10.1016/S1671-2927(08)60234-5

[31]
翟瑞常, 辛刚, 张之一. 中国土系志·黑龙江卷[M]. 北京: 科学出版社, 2020.

[ Zhai R C, Xin G, Zhang Z Y. China Soil Series·Heilongjiang Volume[M]. Beijing: Science Press, 2020. ]

[32]
隋跃宇, 焦晓光, 李建维. 中国土系志·吉林卷[M]. 北京: 科学出版社, 2019.

[ Sui Y Y, Jiao X G, Li J W. China Soil Series·Jilin Volume[M]. Beijing: Science Press, 2019. ]

[33]
王秋兵, 韩春兰, 孙福军, 孙仲秀. 中国土系志·辽宁卷[M]. 北京: 科学出版社, 2020.

[ Wang Q B, Han C L, Sun F J, Sun Z X. China Soil Series·Liaoning Volume[M]. Beijing: Science Press, 2020. ]

[34]
王秋兵, 韩春兰, 孙福军, 孙仲秀. 中国土系志·内蒙古卷[M]. 北京: 科学出版社, 2021.

[ Wang Q B, Han C L, Sun F J, Sun Z X. China Soil Series·Neimenggu Volume[M]. Beijing: Science Press, 2021. ]

[35]
Soil Survey Staff. Soil taxonomy: A basic system of soil classification for making and interpreting soil surveys.

[ M. Natural Resources Conservation Service. U.S. Department of Agriculture Handbook 436. 2nd edition. 1999.

[36]
范昊明, 蔡强国, 陈光, 等. 世界三大黑土区水土流失与防治比较分析[J]. 自然资源学报, 2005, 20(3):387-393.

[Fan H M, Cai Q G, Chen G, et al. Comparative study of the soil erosion and control in the three major black soil regions in the world[J]. Journal of Natural Resources, 2005, 20(3):387-393. ] DOI:10.3321/j.issn:1000-3037.2005.03.010

[37]
Burras C L, Veenstra J J, Ibrahim M, et al. Black soils of the USA: A brief introduction[J]. New advances in research and management of world Mollisols. Northeast Forestry University Press, Harbin, China, 2010:46-50.

[38]
Malone B P, McBratney A B, Minasny B, et al. Mapping continuous depth functions of soil carbon storage and available water capacity[J]. Geoderma, 2009, 154(1-2):138-152. DOI:10.1016/j.geoderma.2009.10.007

[39]
McBratney A B, Mendonça Santos M L, Minasny B. On digital soil mapping[J]. Geoderma, 2003, 117(1-2):3-52. DOI:10.1016/s0016-7061(03)00223-4

[40]
Chen S C, Mulder V L, Martin M P, et al. Probability mapping of soil thickness by random survival forest at a national scale[J]. Geoderma, 2019, 344:184-194. DOI:10.1016/j.geoderma.2019.03.016

[41]
He X L, Yang L, Li A Q, et al. Soil organic carbon prediction using phenological parameters and remote sensing variables generated from Sentinel-2 images[J]. Catena, 2021,205:105442. DOI:10.1016/j.catena.2021.105442

[42]
Peng S Z, Ding Y X, Liu W Z, et al. 1 km monthly temperature and precipitation dataset for China from 1901 to 2017[J]. Earth System Science Data, 2019, 11(4):1931-1946. DOI:10.5194/essd-11-1931-2019

[43]
Zhang X, Liu L Y, Wang Y J, et al. A SPECLib-based operational classification approach: A preliminary test on China land cover mapping at 30 m[J]. International Journal of Applied Earth Observation and Geoinformation, 2018, 71:83-94. DOI:10.1016/j.jag.2018.05.006

[44]
王世航, 卢宏亮, 赵明松, 等. 基于不同特征挖掘方法结合广义提升回归模型估测安徽省土壤pH[J]. 应用生态学报, 2020, 31(10):3509-3517.

DOI

[Wang S H, Lu H L, Zhao M S, et al. Assessing soil pH in Anhui Province based on different features mining methods combined with generalized boosted regression models[J]. Chinese Journal of Applied Ecology, 2020, 31(10):3509-3517. ] DOI:10.13287/j.1001-9332.202010.018

[45]
Breiman L. Random forests[J]. Machine Learning, 2001,45:5-32. DOI: 10.1023/A:1010933404324.

[46]
Liang W Z, Luo S Z, Zhao G Y, et al. Predicting hard rock pillar stability using GBDT, XGBoost, and LightGBM algorithms[J]. Mathematics, 2020, 8(5):765. DOI:10.3390/math8050765

[47]
Chen T Q, Guestrin C. XGBoost: A scalable tree boosting system[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2016:785-794. DOI:10.1145/2939672.2939785

[48]
Li X C, Luo J H, Jin X L, et al. Improving soil thickness estimations based on multiple environmental variables with stacking ensemble methods[J]. Remote Sensing, 2020, 12(21):3609. DOI:10.3390/rs12213609

[49]
张智韬, 王海峰, KARNIELI Arnon, 等. 基于岭回归的土壤含水率高光谱反演研究[J]. 农业机械学报, 2018, 49(5):240-248.

[Zhang Z T, Wang H F, Karnieli A, et al. Inversion of soil moisture content from hyperspectra based on ridge regression[J]. Transactions of the Chinese Society for Agricultural Machinery, 2018, 49(5):240-248. ] DOI:10.6041/j.issn.1000-1298.2018.05.028

[50]
Rushing C, Bulusu A, Hurwitz H I, et al. A leave-one-out cross-validation SAS macro for the identification of markers associated with survival[J]. Computers in Biology and Medicine, 2015, 57:123-129. DOI:10.1016/j.compbiomed.2014.11.015

PMID

[51]
赵明松, 刘斌寅, 卢宏亮, 等. 基于地理加权回归的地形平缓区土壤有机质空间建模[J]. 农业工程学报, 2019, 35(20):102-110.

[Zhao M S, Liu B Y, Lu H L, et al. Spatial modeling of soil organic matter over low relief areas based on geographically weighted regression[J]. Transactions of the Chinese Society of Agricultural Engineering, 2019, 35(20):102-110. ] DOI:10.11975/j.issn.1002-6819.2019.20.013

[52]
Veronesi F, Schillaci C. Comparison between geostatistical and machine learning models as predictors of topsoil organic carbon with a focus on local uncertainty estimation[J]. Ecological Indicators, 2019, 101:1032-1044. DOI:10.1016/j.ecolind.2019.02.026

[53]
张哲寰, 赵海卿, 李春霞, 等. 松嫩平原土地沙化现状与动态变化[J]. 地质与资源, 2008, 17(3):202-207,234.

[Zhang Z H, Zhao H Q, Li C X, et al. Current situation and changing trend of the land desertification in Songnen plain[J]. Geology and Resources, 2008, 17(3):202-207,234. ] DOI:10.3969/j.issn.1671-1947.2008.03.009

[54]
张晓平, 梁爱珍, 申艳, 等. 东北黑土水土流失特点[J]. 地理科学, 2006, 26(6):687-692.

[Zhang X P, Liang A Z, Shen Y, et al. Erosion characteristics of black soils in Northeast China[J]. Scientia Geographica Sinica, 2006, 26(6):687-692. ] DOI:10.3969/j.issn.1000-0690.2006.06.008

[55]
满卫东, 王宗明, 刘明月, 等. 1990-2013年东北地区耕地时空变化遥感分析[J]. 农业工程学报, 2016, 34(7):1-10.

[ Man W D, Wang Z M, Liu M Y, et al. Spatio-temporal dynamics analysis of cropland in Northeast China during 1990-2013 based on remote sensing[J]. Transactions of the Chinese Society of Agricultural Engineering, 2016, 34(7):1-10. ] DOI:10.11975/j.issn.1002-6819.2016.07.001

[56]
Paul S S, Coops N C, Johnson M S, et al. Mapping soil organic carbon and clay using remote sensing to predict soil workability for enhanced climate change adaptation[J]. Geoderma, 2020,363:114177. DOI:10.1016/j.geoderma.2020.114177

[57]
李冠稳, 高小红, 肖能文, 等. 特征变量选择和回归方法相结合的土壤有机质含量估算[J]. 光学学报, 2019, 39(9):0930002.

[Li G W, Gao X H, Xiao N W, et al. Estimation of soil organic matter content based on characteristic variable selection and regression methods[J]. Acta Optica Sinica, 2019, 39(9):0930002. ] DOI:10.3788/AOS201939.0930002

[58]
Li A D, Tan X, Wu W, et al. Predicting active-layer soil thickness using topographic variables at a small watershed scale[J]. Plos One, 2017, 12(9):e0183742. DOI:10.1371/journal.pone.0183742

[59]
Kuriakose S L, Devkota S, Rossiter D G, et al. Prediction of soil depth using environmental variables in an anthropogenic landscape: A case study in the Western Ghats of Kerala, India[J]. Catena, 2009, 79(1):27-38. DOI:10.1016/j.catena.2009.05.005

[60]
黎恩丹, 杨勤科, 庞国伟, 等. 青藏高原坡度坡长因子(LS)空间格局及影响因素分析[J]. 水土保持学报, 2023, 37(1):133-139.

[Li E D, Yang Q K, Pang G W, et al. Spatial pattern and influencing factors of slope length and steepness factors (LS) in Qinghai-Tibet Plateau[J]. Journal of Soil and Water Conservation, 2023, 37(1):133-139. ] DOI:10.13870/j.cnki.stbcxb.2023.01.019

[61]
王世岩, 杨永兴, 杨波. 三江平原典型湿地土壤温度变化及其影响因子分析[J]. 地理研究, 2003, 22(3):389-396.

[ Wang S Y, Yang Y X, Yang B. Study on temperature of typical types of wetland soils and its influencing factors in the Sanjiang Plain[J]. Geographical Research, 2003, 22(3):389-396. ] DOI:10.10.3321/j.issn:1000-0585.2003.03.016

[62]
王俊雅, 刘峰, 宋效东, 等. 基于地表温度的干旱平缓区土壤属性制图[J]. 土壤通报, 2018, 49(6):1270-1278.

[Wang J Y, Liu F, Song X D, et al. Mapping soil properties using the land surface temperature in an arid plain[J]. Chinese Journal of Soil Science, 2018, 49(6):1270-1278. ] DOI:10.19336/j.cnki.trtb.2018.06.02

文章导航

/