Using Machine Learning Algorithms to Monitor Near-surface Freeze/Thaw State by Considering Soil Moisture in Tibetan Plateau

  • XU Fubao , 1, 2 ,
  • FAN Jianrong , 1, * ,
  • ZHANG Xiyu 1 ,
  • YANG Chao 1, 2 ,
  • LIU Jiali 1, 2
Expand
  • 1. Institute of Mountain Hazards and Environment, Chinese Academy of Science, Chengdu 610041, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
*FAN Jianrong, E-mail:

Received date: 2022-04-21

  Revised date: 2022-07-20

  Online published: 2023-02-25

Supported by

Second Tibetan Plateau Scientific Expedition and Research Program (STEP)(2019QZKK0603)

Abstract

As the largest alpine permafrost area in the middle and low latitudes, permafrost and seasonally frozen soil are widely distributed in the Tibetan Plateau (TP). Accurate spatiotemporal observation of surface freeze/thaw state in the TP is important for quantifying surface energy balance, carbon and nitrogen exchange, and soil freeze-thaw erosion. However, land surface freeze/thaw state can hardly be detected in this area because of its harsh and complex geographical environment. This study aimed to employ the LightGBM algorithm and random forest algorithm to identify near-surface freeze/thaw state, based on four soil temperature & moisture observational networks. Previous studies have shown that soil moisture could significantly affect the seasonal variation characteristics of near-surface soil freeze-thaw cycles. In this study, soil moisture was introduced as a discriminant feature. In order to illustrate the contribution of microwave brightness temperature, discriminant index, and soil moisture, four different feature combination schemes were designed. We utilized AMSR2 brightness temperature data and ERA5-Land soil moisture data to identify the surface freeze/thaw state using these two machine learning algorithms. By evaluating the importance of different features based on the training set, we found that the importance score of soil moisture was high in both LightGBM and random forest algorithms, which indicates that soil moisture is a very important feature that affects freeze-thaw discrimination. To evaluate the performance of our algorithms, we compared LightGBM and random forest algorithms with a traditional freeze-thaw discriminant algorithm. Results show that the accuracy of the two machine learning algorithms was higher than that of the traditional method, and the overall rate of correct classification for daytime and nighttime was increased by 12.09%, 14.45%, respectively using LightGBM, and 13.23%, 14.96%, respectively using random forest. Nearly 80% of the misclassification occurred when the surface soil temperature was between -4.0 ℃ and 4.0 ℃. So the two machine learning algorithms are able to identify stable soil freeze/thaw state. In addition, the average RMSE of the freeze-thaw conversion days obtained by the LightGBM algorithm and the random forest algorithm decreased by 112.82, 117.00, respectively; the average RMSE of the frozen days decreased by 47.87, 53.96, respectively; and the average RMSE of the thawed days decreased by 37.10, 39.80, respectively. Based on random forest algorithm, we calculated the number of frozen days, number of thawed days, and number of freeze-thaw conversion days from July 2014 to June 2015. The accuracy assessment was carried out using the map of permafrost classification as the reference, and the total classification accuracy of frozen days within the permafrost zone was 96.78%.

Cite this article

XU Fubao , FAN Jianrong , ZHANG Xiyu , YANG Chao , LIU Jiali . Using Machine Learning Algorithms to Monitor Near-surface Freeze/Thaw State by Considering Soil Moisture in Tibetan Plateau[J]. Journal of Geo-information Science, 2022 , 24(12) : 2404 -2419 . DOI: 10.12082/dqxxkx.2022.220211

1 引言

冻融循环的实质为土壤水的相变过程,土壤水由于环境温度降低释放能量相变成冰,固体冰由于环境温度升高吸收热量相变成水,因此近地表土壤冻融状态影响着地面的热传输以及水文特性[1]。此外,土壤的冻融变化控制着地表植被生长季[2-3]、地表径流量[4-6]、生态系统碳氮交换。北半球约58%的地表经历着季节性冻结和融化的过程[7-8],有效监测地表冻融状态对于大气、生态、水文等领域具有重要意义。
被动微波遥感具有全天候和穿云透雾的观测特点,并且能够捕捉到冻融转换过程中的微波辐射差异,为同步监测大区域土壤冻融状态,提供了高技术、高精度的有效手段。基于被动微波遥感发展了多种常见的近地表土壤冻融判别算法:双指标算法,季节阈值法,决策树算法,冻融判别式算法。双指标算法[9],以微波37 GHz的垂直极化亮温阈值和37~19 GHz之间的亮温谱梯度阈值作为判定地表冻融状态的2个指标,该算法需要指定特定的阈值,并且阈值跟研究区有很大的关系,曹梅盛等[10]在青藏高原验证时发现该算法的总体精度低于71%。季节阈值法[11],选择对冻融循环敏感的微波波段计算季节比例系数,设置冻结和融化的阈值作为冻融边界,但该算法需要完整的冻融循环周期来确定相关阈值。决策树算法[12],使用散射指数、37 GHz垂直极化亮温和19 GHz极化差3个关键指标建立判定地表冻融状态的决策树,该算法能够排除沙漠、降水等对冻融判识的影响,但对地面观测资料的依赖性较强。冻融判别式算法[13],以37 GHz的垂直极化亮温和18.7 GHz的水平极化亮温与37 GHz的垂直亮温的比值标定冻土和融土的判别函数式,通过对判别函数值的比较进行冻融判别。刘源等[14]在青藏高原地区对双指标算法、决策树算法和冻融判别式算法进行验证,发现3种算法的精度和稳定性较低,特别是在阿里观测网的表现最差,验证精度普遍低于55%。综上所述,基于被动微波遥感监测青藏高原地表冻融是非常有效的手段,但是现有算法通常受到阈值大小、变量系数、地面实测数据等的影响,使得判识结果精度不稳定,且算法往往仅适用于特定区域。另外,由于受到极轨卫星运行方式的制约,AMSR2在相邻轨道间隙上的缺失亮温值也限制了冻融判别算法的发展。
机器学习算法能够发现数据之间有意义的关联和规则,可以快速高效地挖掘遥感数据信息,已被越来越多遥感学者用于地表参量反演和地物分类[15-21]。LightGBM算法和随机森林算法是其中表现较为突出的两个算法,常被应用到分类算法的研究和改进中。比如,宁晓刚等[20]基于随机森林算法对2018年黑龙江流域沼泽湿地进行提取。Tian等[21]利用随机森林算法进行湿地区域土地覆盖分类,并证明了随机森林算法优于其他分类器。机器学习算法为近地表冻融研究提供了新思路。Liu等[22]基于神经网络算法和随机森林算法估算了青藏高原冻土的活动层厚度。然而,目前的研究很少采用机器学习算法进行土壤冻融判别[23]。因此,本文旨在建立土壤冻融判别的机器学习模型,融入土壤湿度指标来提高判别结果的精度。
本文基于LightGBM算法和随机森林算法,建立青藏高原地区近地表冻融判别模型,利用位于青藏高原的阿里、玛曲、那曲、帕里观测网实测数据分析2种机器学习算法与传统冻融判别式算法的精度表现。并进一步探讨了各算法在提取日冻融转换天数、冻结天数和融化天数的精度差异,以期为监测青藏高原地表冻融状态提供新思路。

2 研究区概况和数据来源

2.1 研究区概况

我国是世界上第三大冻土大国[24],多年冻土面积约占国土面积的22.3%[25],而其中约70%的多年冻土分布在青藏高原上[14]。青藏高原上多年冻土覆盖面积约1.06×106 km2,占青藏高原总面积的40%,季节冻土约1.46×106 km2,占总面积的56%,未冻土的面积仅为0.03×106 km2[26]。作为中低纬度地区最大的高山冻土区[27],多年冻土和季节冻土广泛分布,该区域地表最显著的物理特征之一是土壤冻融循环。本文以青藏高原为研究区,地理范围为25°59′30″N—40°1′0″N、67°40′37″E—104°40′57″E[28],大部分区域处于高海拔,平均海拔为4320 m(图1)。
图1 青藏高原4个土壤温湿度观测网分布

Fig. 1 The distribution of four soil temperature & moisture observational networks over Tibetan Plateau

2.2 数据来源

(1)AMSR2亮度温度数据。被动微波辐射计AMSR2(Advanced Microwave Scanning Radiometer 2)搭载于Global Change Observation Mission for Water-1(GCOW-W1)卫星上,于2012年5月18日发射。作为上一代辐射计AMSR-E的后继者,AMSR2继承了AMSR-E的基本配置,两者对同一地点的观测时间差在10 min以内。AMSR2的天线扫描角度为55°,具有7个水平垂直极化波段:6.9、7.3、10.65 、18.7、23.8、36.5和89.0 GHz,比AMSR-E增加了 7.3 GHz波段。AMSR2一天内对地球表面有2次观测,升轨和降轨分别对应白天和夜间的观测,升轨的过境时间为当地时间13:30,降轨的过境时间为当地时间1:30。数据下载于日本宇航局JAXA(Japan Aerospace Exploration Agency)官方网址(https://gportal.jaxa.jp/gpr/)。本文利用升轨微波数据来监测白天地表冻融状态,利用降轨微波数据来监测夜间地表冻融状态。
(2)ERA5-Land土壤湿度数据。ERA5-Land再分析资料垂直方向上有4个土壤湿度层,深度分别为0~7、7~28、28~100、100~289 cm。本文选择2014—2015年每日1时和13时0~7 cm层的土壤湿度。数据下载于ECMWF网站(https://www.ecmwf.int/en/forecasts/dataset/ecmwf-reanalysis-v5-land)。
(3)青藏高原实测的土壤温湿度逐时数据集。本研究选取位于青藏高原东部、中部、中南部、西部的4个土壤温湿度观测网(图1),包括寒冷半干旱气候的那曲网络,寒冷潮湿气候的玛曲网络和寒冷干旱的阿里网络,以及半干旱的帕里网络[29-31]。数据下载于国家青藏高原科学数据中心(http://data.tpdc.ac.cn/zh-hans/data/ef949bb0-26d4-4cb6-acc2-3385413b91ee/)。选取地面实测5 cm土壤温湿度进行算法的训练及验证,当一个AMSR2像元内包含多个站点时,选择时间序列较长且观测质量较高的实测站点代表这个像元的土壤温湿度。表1展示了本研究涉及的数据源。
表1 数据源信息

Tab. 1 The information of data used in this study

数据类型 空间分辨率 时间分辨率 时间范围
AMSR2亮温数据 0.1° 1 d 2013.01.01—2015.12.31
土壤湿度数据 0.1° 1 h 2013.01.01—2015.12.31
土壤温湿度逐时观测数据 站点数据 1 h 2013.01.01—2015.12.31(那曲)
2013.01.01—2015.12.31(玛曲)
2013.01.01—2015.12.31(阿里)
2015.06.21—2015.12.31(帕里)

3 研究方法

本文的技术路线如图2所示。首先使用ATC模型重构缺失的被动微波亮温,得到无缝的AMSR2亮温数据。为了说明微波亮温、判别指数和土壤湿度的作用以及用于构建冻融判别模型的最佳特征集,设计了4种特征组合方案:亮温数据(方案1),亮温数据+土壤湿度(方案2),亮温数据+判别指数(方案3),亮温数据+判别指数+土壤湿度(方案4)。分别建立随机森林分类模型和LightGBM分类模型进行地表土壤冻融判识,选择精度最高的试验方案,并与传统冻融判别式算法的判别结果进行对比分析。
图2 技术路线

Fig. 2 Technical flow chart

3.1 基于ATC模型重构缺失的AMSR2亮温数据

在长时间维度上,被动微波亮温的时间序列代表了地-气交换过程中的微波辐射变化。因此,微波亮温在时间维度上具有周期性和震荡性。ATC模型(Annual Temperature Cycle Model)的基本原理是使用较长时间范围内的亮温数据,为每个像元生成一个简单的周期变化模型。这种周期性变化可以使用简谐函数来拟合,图3展示了36.5 GHz垂直极化亮温在白天(A_BT_36.5 GHzV)和夜间(D_BT_36.5 GHzV)的年内时序ATC拟合曲线,本文使用较为常用的正弦函数来建立ATC模型,表达式如下:
B T A T C = B T 0 + A × s i n ( 2 π d / 365 + θ )
图3 微波亮温的年内周期变化示意图

Fig. 3 The annual cycle variation of microwave brightness temperature

式中: B T A T C为ATC模型拟合得到的被动微波亮温; B T 0为年平均亮温值; A为亮温的年周期变化振幅;d为一年中的天数时序(DOY); θ分别为亮温的年周期变化相移。这些参数通过scipy.optimize.curve_fit()进行三角函数拟合得到。

3.2 基于机器学习算法的冻融监测

随机森林分类算法是基于Bagging方法对多棵决策树基分类器进行集成的一种算法,能处理高维遥感数据[20]。普通决策树算法是在节点上的所有样本特征中选择一个最优的特征来划分决策树的左右子树,而随机森林算法则是通过在节点上的一部分随机样本特征中选择最优特征来进行划分,相比传统决策树算法有更强的泛化能力。另外,随机森林通过bootstrap重采样技术进行有放回的重复随机采样,训练多轮并生成多个决策树,用投票的方式从所有决策树的分类结果中获得最终结果。相比单棵决策树,随机森林无需进行剪枝,有效避免了模型的过拟合现象,且降低了对噪声和异常值的敏感度。
LightGBM算法是由微软团队提出的一种高效梯度提升决策树算法[32]。作为GBDT(Gradient Boosting Decision Tree)算法的优化改进版本,LightGBM算法是基于Boosting方法将弱学习器(决策树)迭代训练为强学习器,具体是将许多准确率较低的决策树模型组合起来,经过不断迭代并采用梯度下降的方法直到精度达到要求,并以此作为预测模型。为了避免普通GBDT算法空间消耗大、训练慢等缺点,LightGBM采用了直方图算法、单边梯度采样(GOSS)抽样方法、带深度限制的Leaf-wise算法等来提升模型的准确率和训练速度。因此,LightGBM相较于普通的GBDT算法具有更快的训练速度、更低的内存消耗和更高的准确率。
本文分别采用随机森林分类算法和LightGBM分类算法监测地表土壤冻融状态,算法实现过程分为以下4个步骤:
(1)构建特征集
选取传统冻融监测算法中的微波亮温和判别指数构建特征集。土壤湿度显著影响近地表土壤冻融循环的季节变化特征[33-34],造成土壤冻融状态判别的不确定性。考虑到土壤湿度与冻融状态的密切联系,本文引入了土壤湿度(SM)作为判别特征。选用的判别指数包括:冻结指数(DF)、融化指数(DT)、冻融指数差值(DF-DT)、准发射率(Qe)、散射指数(SI)、微波植被指数(MVI)。亮温数据包括:18.7 GHz垂直极化亮温(18.7 GHz_V)、23.8 GHz垂直极化亮温(23.8 GHz_V)、36.5 GHz垂直极化亮温(36.5 GH_V)、89.0 GHz垂直极化亮温(89.0 GHz_V)和18.7 GHz水平极化亮温(18.7 GHz_H)。由于判别指数是基于AMSR-E传感器发展而来的,为了保证其有效性,将不同波段的AMSR2亮温进行校正[35-37],使用校正后的亮温计算判别指数。冻结指数、融化指数和准发射率的计算见3.3节,散射指数的计算采用刘源等[14]提出的改进表达式,微波植被指数[38]的计算如式(2)所示。
M V I = T B v ( f 1 ) - T B h ( f 1 ) T B v ( f 2 ) - T B h ( f 2 )
式中: M V I为微波植被指数; T B v ( f 1 ) T B h ( f 1 )分别为6.9 GHz垂直和水平极化亮温; T B v ( f 2 ) T B h ( f 2 )分别为10.7 GHz垂直和水平极化亮温。
(2)建立训练集和测试集
用实测的5 cm土壤温度判识真正地表土壤状态,当温度高于0 ℃时,认为地表融化,否则地表冻结。基于1)中的特征,分别建立白天和夜间状态下的训练集和测试集。其中,2013年的样本组成训练集,2014年和2015年的样本组成测试集(表2)。
表2 训练集和测试集的数量情况

Tab. 2 Statistics of training set and test set (个)

数据集 时间 实测数据总数 实测数据冻融状态
冻结数/个 融化数/个
训练集 白天 15 923 5021 10 902
夜间 17 981 7031 10 950
测试集 白天 31 769 9640 22 129
夜间 31 781 11 785 19 996
(3)训练模型
利用建立的训练集分别训练LightGBM和随机森林模型,2个模型的参数都设置为默认值。为了确保模型的泛化能力,模型在训练过程中对训练集进行交叉验证,最终得到最佳模型。在交叉验证中,先将整个训练集划分为5等份,用其中4份作为训练集训练模型,用剩余的1个份训练集作为验证集对模型进行评分,并重复5次上述过程。
(4)模型分类结果
将测试集输入模型,随机森林算法基于模型直接判别土壤的冻融状态,LightGBM算法将冻结概率大于0.5的像元判别为冻结,反之为融化。

3.3 传统冻融判别式算法

被动微波冻融判别式算法是较为常用的传统冻融判别式算法。本文将2种机器学习算法的冻融判别结果与被动微波冻融判别式算法的结果进行对比分析。被动微波冻融判别式算法是根据地面微波辐射计实测数据和微波散射模型模拟的数据集结合数学统计分类方法得出的。使用与地温度相关性最高的36.5 GHz的垂直极化亮温来衡量地温的变化。另外,通过18.7 GHz水平极化亮温与36.5 GHz垂直极化亮温的比值(准发射率)衡量地表发射率的变化。该算法是基于AMSR-E亮温数据和实测数据发展而来的,使用校正后的AMSR2亮温计算判别指数。算法如下:
D F = 1.47 × T B 36.5 V + 91.69 × Q e - 226.77
D T = 1.55 × T B 36.5 V + 86.33 × Q e - 242.41
Q e = T B 18.7 H T B 36.5 V
式中: D F D T分别表示冻结和融化指数; T B 18.7 H T B 36.5 V分别表示18.7 GHz水平极化亮温和 36.5 GHz垂直极化亮温; Q e表示准发射率。当 D F > D T时土壤被判定为冻结,反之就判定为融化。

3.4 精度评价指标

为了评估冻融监测的精度,用地面实测站点测量的5 cm土壤温度进行验证。当土壤温度低于0 ℃时,判定土壤的真实状态为冻结,否则为融化。本文使用的精度评价指标包括冻结判对率 a c c F、融化判对率 a c c T、总体判对率 a c c F 1分数,如式(6)— 式(8)所示。
a c c F = F F F F + F T × 100 %
a c c T = T T T T + T F × 100 %
a c c = F F + T T F F + F T + T T + T F × 100 %
F 1 = 2 × F F / ( F F + F T ) × F F / ( F F + T F ) F F / ( F F + F T ) + F F / ( F F + T F )
式中:F表示冻结;T表示融化;FF表示被判别为冻结且实际也为冻结的数据数量;FT表示被错误判别为融化而实际为冻结的数据数量;TT表示被判别为融化且实际也为融化的数据数量;TF表示被错误判别为冻结而实际为融化的数据数量。此外,为了全面评估冻融判别模型的精确度,本文还采用均方根误差(RMSE)和平均偏差(BIAS)对日冻融转换天数、冻结天数和融化天数进行精度评价。

4 结果与讨论

4.1 特征集构建分析

本文使用测试集对4种方案进行精度评价,4种特征集组合方案的冻融判别精度如表3所示。综合来看,加入土壤湿度作为判别特征的方案2和方案4的总体判对率较高,F1分数较方案1、3也有提升。与判别指数相比,土壤湿度对冻融判别的作用更大。加入土壤湿度后LightGBM算法在白天和夜间的总体判对率提高了2.11%、1.41%;1.58%、1.45%,随机森林算法在白天和夜间的总体判对率提高了2.56%、1.94%;2.34%、2.32%。白天状态下,2个算法的冻结判对率明显低于融化判对率,但方案2和方案4的表现优于方案1和方案3,方案2和方案4在白天的冻结判对率分别提高了7.10%、6.63%(LightGBM算法);5.58%、4.61%(随机森林算法)。特征集包含所有特征的方案4取得了最好的结果,多种判别指数能够反映冻/融土壤间显著的介电特性差异,土壤湿度的加入也提高了冻融判别的精度。因此采用方案4作为最终的冻融判别方案。
表3 4种方案冻融判别精度统计

Tab. 3 Statistics of freeze-thaw discrimination accuracy for 4 schemes

时间 算法 冻结判对率/% 融化判对率/% 总体判对率/% F1分数
白天 LightGBM 方案1 64.39 90.09 82.34 0.69
方案2 71.49 90.10 84.45 0.74
方案3 67.18 90.24 83.24 0.71
方案4 73.81 89.37 84.65 0.74
随机森林 方案1 71.56 88.24 83.21 0.72
方案2 77.14 89.53 85.77 0.77
方案3 75.19 87.62 83.85 0.74
方案4 79.80 88.40 85.79 0.77
夜间 LightGBM 方案1 84.83 86.94 86.16 0.82
方案2 86.33 88.49 87.74 0.84
方案3 85.07 87.39 86.53 0.82
方案4 87.62 88.19 87.98 0.84
随机森林 方案1 86.26 85.99 86.09 0.82
方案2 88.22 88.56 88.43 0.85
方案3 89.79 86.40 86.17 0.82
方案4 88.38 88.55 88.49 0.85
特征重要性能够评估每种影响因子对冻融判别的影响程度,重要性越大,表明对冻融判别的影响越大。利用LightGBM算法和随机森林算法的变量重要性评估模块,计算2个模型在白天和夜间状态下的特征重要性。为了确保特征评估结果的稳定性,且不受训练集分割的影响,对每个模型进行50次评估,确保每次的训练集都是随机分割的。由图4可以看出,在LightGBM算法中排名前三的特征有土壤湿度(SM)、微波植被指数(MVI)、准发射率(Qe)、89.0 GHz垂直极化亮温(89.0 GHz_V)。在随机森林算法中排名前三的特征有土壤湿度(SM)、冻融指数差(DF-DT)、89.0 GHz垂直极化亮温(89.0 GHz_V)、36.5 GHz垂直极化亮温(36.5 GHz_V)。其中,土壤湿度的重要性在LightGBM算法中排名第一,在随机森林算法中排名前五,这也说明了土壤湿度是影响冻融判别的一个十分重要的特征。排名靠后的特征并不意味着该特征不重要,因为2种机器学习算法的冻融判别结果是对所有特征综合评判的结果。
图4 LightGBM算法和随机森林算法的特征重要性排名

Fig. 4 The importance ranking of 11 independent variables in two machine learning algorithms

4.2 模型训练效果评估

采用训练集数据对LightGBM模型和随机森林模型进行训练,并得到模型在训练集上交叉验证的结果。其中,LightGBM算法训练集的混淆矩阵结果如图5所示,白天验证集和训练集总体判对率的差值为2.07%,冻结判对率的差值为3.34%,融化判对率的差值为1.48%;夜间验证集和训练集总体判对率的差值为1.66%,冻结判对率的差值为2.20%,融化判对率的差值为1.31%。随机森林算法训练集的混淆矩阵结果如图6所示,白天验证集和训练集总体判对率的差值为3.73%,冻结判对率的差值为5.25%,融化判对率的差值为3.03%;夜间验证集和训练集总体判对率的差值为1.91%,冻结判对率的差值为2.51%,融化判对率的差值为1.52%。可以发现,2种算法在训练集和验证集的精度都较为接近,验证集表现出的良好精度表征了模型在建模过程中的高稳定性和高泛化能力。
图5 LightGBM算法训练期混淆矩阵

Fig. 5 Confusion matrix of LightGBM algorithm

图6 随机森林算法训练期混淆矩阵

Fig. 6 Confusion matrix of random forest algorithm

4.3 与传统冻融判别式算法对比的判别结果

4.3.1 冻融判别结果的精度对比

为了证明机器学习算法判别土壤冻融状态的精度提升,分别利用重构的微波亮温数据对LightGBM算法、随机森林算法和传统冻融判别式算法的精度进行了对比。测试集实测数据时间为2014-01-01—2015-12-31,利用同时段的地面5 cm实测土壤温度数据进行精度评价。如表2所示,白天共有31 769个验证数据,冻结数据9640个,融化数据22 129个;夜间共有31 781个验证数据,冻结数据11 785个,融化数据19 996个。
图7表示3种算法的冻结和融化判对率,距离实测数据(Obs)越近表示算法的精度表现越好。如图7(a)所示,在白天状态下冻融判别式算法的冻结判对率为15.17%,而LightGBM算法和随机森林算法的冻结判对率分别为73.81%,79.80%。3种算法的融化判对率都取得了较高的精度,冻融判别式算法、LightGBM算法、随机森林算法的融化判对率分别为97.57%、89.37%、88.40%。如图7(b)所示,在夜间状态下冻融判别式算法的融化判别率为59.06%,而LightGBM算法和随机森林算法的融化判别率分别为88.19%,88.55%;3种算法的冻结判别率分别为98.09%,87.62%,88.38%。通过分析发现,冻融判别式算法在白天状态下将大部分冻融状态判别为融化,在夜晚将大部分冻融状态判识为冻结。因此冻融判别式算法在白天的融化判对率和夜间的冻结判对率达到了97%以上,但白天的冻结判对率和夜间的融化判对率却很低,使得总体判对率和F1分数都低于另外两种算法。和冻融判别式算法相比,LightGBM算法在白天和夜间的总体判对率提高了12.09%;14.45%,随机森林算法在白天和夜间的总体判对率提高了13.23%;14.96%(图8)。
图7 3种算法的冻结和融化判对率

Fig. 7 The discrimination accuracies of the three algorithms

图8 3种算法总体判对率和F1分数统计

Fig. 8 The overall correct accuracies and F1 scores of the three algorithms

4.3.2 冻融判别结果的差异分析

为了探究错误判识样本在不同地温和季节的分布,对3个算法的错分样本绘制温度频率分布直方图(图9)和时间频率分布直方图(图10)。对于冻融判别式算法,白天的错分样本主要发生在土壤温度为0 ℃以下,夜间的错分样本主要发生在0 ℃以上(图9(a)),从时间序列来看,冻融判别式算法白天的误分样本普遍出现在较冷时期,即11月—次年2月,夜间的误分样本普遍出现在9—11月(图10(a))。通过分析发现有35%以上的错分样本的土壤温度低于-4 ℃或高于4 ℃,说明冻融判别式算法容易在较冷和较暖时期出现误判。可能是由于选取的变量系数不适用于该区域,因此,青藏高原复杂的地形和水热条件使得基于统计模型建立的冻融判别式算法存在挑战。对于LightGBM算法和随机森林算法,近80%的错分样本分布在-4.0 ℃~4.0 ℃之间(图9(b)—图9(c)),误分主要出现在冷暖季节过渡期,即3—5月和9—11月(图10(b)、图10(c))。一个原因可能是因为土壤温度在0 ℃附近时,地表冻融状态变化的更加频繁,致使卫星的瞬时观测没有捕捉到地表状态的变化。另一个原因可能是因为地表被积雪覆盖,积雪与冻结土壤呈现非常类似的微波辐射和散热特性[12],算法误将积雪判识为冻土。从以上分析可看出,LightGBM算法和随机森林算法可识别出稳定的土壤冻结状态和融化状态。
图9 错误样本的地温频率分布直方图

Fig. 9 Histogram of frequency distribution of soil temperature for wrong samples

图10 错误样本的时间频率分布直方图

Fig. 10 Histogram of frequency distribution of occurrence time for wrong samples

为了评估植被对土壤冻融判别的影响,基于30 m土地覆盖数据[39],将实测站点进行归类。计算位于植被和裸土的实测站点冻融判别总体判对率。表4为3种算法的总体判对率。判别式算法在植被和裸土覆盖地表的总体判对率相差1.03%~5.54%,2种机器学习算法的总体判对率的差值小于0.15%。主要原因是2种机器学习算法中的微波植被指数有效表达了植被覆盖与非植被覆盖的差异。
表4 植被和裸土覆盖下冻融判别总体判对率

Tab. 4 Accuracies of three algorithms under vegetation and bare soil

地表覆盖类型 白天 夜间
判别式算法 LightGBM 随机森林 判别式算法 LightGBM 随机森林
植被 78.55 82.55 82.08 83.17 80.26 85.50
裸土 73.01 82.70 82.15 84.20 80.48 84.12

4.4 重构的微波亮温对冻融判别精度的影响

为了评估重构的亮温数据对冻融判别的影响,分别验证了判别结果在有效亮温像元和ATC重构像元处的精度。表5统计了3种算法在两类像元进行冻融判别的冻结判对率、融化判对率、总体判对率及F1分数。白天有效像元验证点22 858个,ATC像元验证点8911,夜间有效像元验证点22 752个,ATC像元验证点9029个。如表5所示,从总体判对率来看,冻融判别式算法在白天和夜间的精度分别降低1.41%、0.91%;LightGBM算法的总体判对率分别提高1.06%、2.60%;随机森林算法的总体判对率分别提高1.21%、1.79%。重构的ATC像元使得冻融判别式算法的精度有所下降,其他2个算法的精度有所提升。通过分析重构亮温对冻结判对率和融化判对率的影响发现,重构ATC像元对冻结判对率的影响最大,使得冻融判别算法的白天冻结判对率降低10.07%;LightGBM的白天和夜间冻结判对率提升7.00%,7.46%;随机森林算法的白天和夜间冻结判对率提升8.75%,6.03%。综上所述,LightGBM算法和随机森林算法在ATC像元处的判对率相比有效像元有所提升,LightGBM算法在白天和夜间的F1分数提升0.02、0.04;随机森林算法在白天和夜间的F1分数提升0.02、0.03。冻融判别式算法在ATC像元处的判对率相比有效像元有所下降,白天的F1分数降低了0.15,夜间的F1分数保持不变。
表5 3种冻融判识算法在有效像元和重构像元处的精度

Tab. 5 Accuracies of three algorithms at valid pixels and reconstructed pixels

观测
时间
冻融判别
算法
冻结判对率/% 融化判对率/% 总体判对率/% F1分数
有效像元 ATC像元 有效像元 ATC像元 有效像元 ATC像元 有效像元 ATC像元
白天 判别式算法 17.92 7.85 97.26 98.34 72.96 71.55 0.29 0.14
LightGBM 71.89 78.89 89.85 88.16 84.35 85.41 0.74 0.76
随机森林 77.41 86.16 89.00 86.86 85.45 86.66 0.77 0.79
夜间 判别式算法 97.35 99.97 59.82 57.14 73.79 72.88 0.73 0.73
LightGBM 85.52 92.98 88.25 88.02 87.24 89.84 0.83 0.87
随机森林 86.68 92.71 88.75 88.06 87.98 89.77 0.84 0.87

4.5 不同冻融指标的精度评估

以2014年7月1日—2015年6月30日为统计周期,日冻融转换天数定义为土壤白天融化且夜间冻结的总天数;冻结天数定义为夜间土壤发生冻结的总天数;融化天数定义为白天土壤发生融化的总天数。由于帕里观测网的实测数据的时间范围是2015-06-21—2015-12-31,统计周期内存在较少实测数据,因此不参与本次评估。基于3个观测网络对不同冻融判识算法得到的指标进行精度评估,表6为3个算法日冻融转换天数、冻结天数和融化天数的平均偏差和标准差。虽然各个算法的总体判对率高于72%,由于误分情况主要发生在冻融过渡期,从而导致各个指标的误差被放大。通过冻融判别式算法、LightGBM算法和随机森林算法得到的日冻融转换天数的RMSE分别为122.44~151.00,17.80~38.65,15.20~34.78;BIAS分别为101.13~132.89,5.08~25.39,0.17~23.32。所有算法在3个观测网的日冻融转换天数都被高估,造成这一现象的主要原因是微波对土壤的穿透深度为1~4 cm[7,40],其所反映的土壤信息和实测数据可能存在差异。冻结天数误差主要是由于夜间冻结判别错误引起的,判别式算法、LightGBM算法、随机森林算法的RMSE分别为122.44~151.00,19.92~60.15,16.62~49.74;BIAS分别为41.13~91.50,-7.69~15.17,-5.88~8.58。融化天数误差主要是由于白天融化判别错误引起的,3种算法的RMSE分别为55.76~89.02,28.92~50.41,22.95~52.69;BIAS分别为28.33~75.39,-18.60~13.36,-21.00~8.61。综合来看,随机森林算法提取的日冻融转换天数、冻结天数、融化天数误差最小。
表6 基于不同算法得到的日冻融转换、冻结天数和融化天数RMSE和BIAS(算法结果与实测站点数据的差值)

Tab. 6 Overall performance of the three algorithms in detecting the number of daily freeze-thaw conversion days, freezing days, thawing days

观测网 指标 判别式算法 LightGBM算法 随机森林算法
RMSE BIAS RMSE BIAS RMSE BIAS
阿里 日冻融转换天数 150.88 112.50 29.41 5.08 23.34 0.17
冻结天数 120.91 91.50 60.15 15.17 49.74 8.58
融化天数 55.76 28.33 50.41 -18.60 52.69 -21.00
玛曲 日冻融转换天数 122.44 101.13 17.80 10.50 15.20 7.75
冻结天数 58.43 41.13 19.92 -7.69 16.62 -5.88
融化天数 78.37 64.25 28.92 10.94 22.95 4.13
那曲 日冻融转换天数 151.00 132.89 38.65 25.39 34.78 23.32
冻结天数 69.80 59.93 25.47 -4.25 20.90 2.43
融化天数 89.02 75.39 32.53 13.36 28.10 8.61

注:各指标最小值均用加粗字体表示。

基于随机森林算法得到青藏高原全区域日冻结天数、融化天数、冻融转换天数图(图11)。青藏高原西北部的冻结天数最长,全年几乎呈冻结状态,融化天数较长的区域主要分布在东部。将冻结天数大于15的像元判定为季节或多年冻土,以中国冻土区划及类型分布图中多年冻土和季节冻土类别作为依据[41],对位于冻土区划范围内的冻结天数进行精度评价,总体分类精度为96.78%。
图11 青藏高原冻融指标天数的分布

Fig. 11 Distribution map of freeze-thaw index on the Tibetan Plateau

5 结论与展望

本文使用位于青藏高原的4个土壤温湿度观测网实测数据,基于LightGBM算法和随机森林算法进行青藏高原地表冻融状态判识,并与传统冻融判别式算法的精度进行对比分析,得到如下结论:
(1)本文使用ATC模型重构因相邻轨道间隙造成的缺失亮温值,发现重构的ATC亮温值不会降低2种机器学习算法的冻融判别精度,LightGBM算法和随机森林算法的总体判对率比有效像元提升1.06%~2.60%,1.21%~1.79%。
(2)引入土壤湿度作为判别土壤冻融状态的影响因子。加入土壤湿度后LightGBM算法在白天和夜间的总体判对率提高了2.11%、1.41%;1.58%、1.45%,随机森林算法在白天和夜间的总体判对率提高了2.56%、1.94%;2.34%、2.32%。
(3)与冻融判别式算法相比,LightGBM算法在白天和夜间的总体判对率提高了12.09%、14.45%,随机森林算法在白天和夜间的总体判对率提高了13.23%、14.96%。另外,LightGBM算法和随机森林算法得到的日冻融转换天数的平均RMSE降低了112.82、117.00,冻结天数的平均RMSE降低了47.87、53.96,融化天数的平均RMSE降低了37.10、39.80。
综上所述,通过比较传统冻融判别式算法,本文提出的2种机器学习算法能够有效提高冻融判识精度,为监测青藏高原甚至全球范围的冻融状态提供了新思路。然而,本研究的实测站点的地表覆盖类型几乎全为草地和裸地,算法训练过程中没有考虑不同地表覆盖类型的影响。另外,被动微波遥感数据空间分辨率较粗,存在较多混合像元,为冻融判别带来不确定性。为进一步提高冻融判别精度,发展考虑复杂下垫面地表类型及混合像元影响的冻融判别算法将是下一步研究的重点。
[1]
Kurganova I, Teepe R, Loftfield N. Influence of freeze-thaw events on carbon dioxide emission from soils at different moisture and land use[J]. Carbon Balance and Management, 2007, 2(1):1-9. DOI:10.1186/1750-0680-2-2

DOI

[2]
Keuper F, Bodegom P M, Dorrepaal E, et al. A frozen feast: Thawing permafrost increases plant-available nitrogen in subarctic peatlands[J]. Global Change Biology, 2012, 18(6):1998-2007. DOI:10.1111/j.1365-2486.2012.02663.x

DOI

[3]
Euskirchen E S, McGUIRE A D, Kicklighter D W, et al. Importance of recent shifts in soil thermal dynamics on growing season length, productivity, and carbon sequestration in terrestrial high-latitude ecosystems[J]. Global Change Biology, 2006, 12(4):731-750. DOI:10.1111/j.1365-2486.2006.01113.x

DOI

[4]
Davitt A, Schumann G, Forgotson C, et al. The utility of SMAP soil moisture and freeze-thaw datasets as precursors to spring-melt flood conditions: A case study in the Red River of the North Basin[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2019, 12(8):2848-2861. DOI:10.1109/JSTARS.2019.2918947

DOI

[5]
Wang J, Jiang L, Cui H, et al. Evaluation and analysis of SMAP, AMSR2 and MEaSUREs freeze/thaw products in China[J]. Remote Sensing of Environment, 2020, 242:111734. DOI:10.1016/j.rse.2020.111734

DOI

[6]
郭阳, 张廷军, 曹琳, 等. 黑河上游地表冻融指数与径流关系[J]. 水土保持通报,中国科学院水利部水土保持研究所|水利部水土保持监测中心, 2018, 38(3):222-227.

[ Guo Y, Zhang T J, Cao M, et al. Relationship between surface freezing/thawing index and runoff in upper reaches of Heihe River[J]. Bulletin of Soil and Water Conservation, 2018, 38(3):222-227. ] DOI:10.13961/j.cnki.stbctb.20180524.00

DOI

[7]
Chen X, Liu L, Bartsch A. Detecting soil freeze/thaw onsets in Alaska using SMAP and ASCAT data[J]. Remote Sensing of Environment, 2019, 220:59-70. DOI:10.1016/j.rse.2018.10.010

DOI

[8]
Kim Y, Kimball J S, McDonald K C, et al. Developing a global data record of daily landscape freeze/thaw status using satellite passive microwave remote sensing[J]. IEEE Transactions on Geoscience and Remote Sensing, 2011, 49(3):949-960. DOI:10.1109/TGRS.2010.2070515

DOI

[9]
Zuerndorfer B, England A W. Radiobrightness decision criteria for freeze/thaw boundaries[J]. IEEE Transactions on Geoscience and Remote Sensing, 1992, 30(1):89-102. DOI:10.1109/36.124219

DOI

[10]
曹梅盛, 张铁钧. 青海高原春秋季地表土冻融的微波遥感监测[J]. 遥感学报, 1997, 1(2):139-144.

[ Cao M S, Zhang T J. Monitoring terrain soil freeze/thaw condition on Qinghai Plateau in spring and autumn using microwave remote sensing[J]. Journal of Remote Sensing, 1997, 1(2):139-144. ]

[11]
Kimball J S, McDonald K C, Keyser A R, et al. Application of the NASA scatterometer (NSCAT) for determining the daily frozen and nonfrozen landscape of Alaska[J]. Remote Sensing of Environment, 2001, 75(1):113-126. DOI:10.1016/S0034-4257(00)00160-7

DOI

[12]
Jin R, Li X, Che T. A decision tree algorithm for surface soil freeze/thaw classification over China using SSM/I brightness temperature[J]. Remote Sensing of Environment, 2009, 113:2651-2660. DOI:10.1016/j.rse.2009.08.003

DOI

[13]
Zhao T, Zhang L, Jiang L, et al. A new soil freeze/thaw discriminant algorithm using AMSR‐E passive microwave imagery[J]. Hydrological Processes, 2011, 25(11):1704-1716. DOI:10.1002/hyp.7930

DOI

[14]
刘源, 秦军, 阳坤, 等. 3种土壤冻融判别算法在青藏高原的分类精度评价[J]. 地球信息科学学报, 2018, 20(8):1178-1189.

DOI

[ Liu Y, Qin J, Yang K, et al. Evaluation of classification accuracy in Tibetan Plateau of three soil freeze/thaw discrimination algorithms[J]. Journal of Geo-information Science, 2018, 20(8):1178-1189. ] DOI:10.12082/dqxxkx.2018.170620

DOI

[15]
Zhao W, Duan S B, Li A, et al. A practical method for reducing terrain effect on land surface temperature using random forest regression[J]. Remote Sensing of Environment, 2019, 221:635-649. DOI:10.1016/j.rse.2018.12.008

DOI

[16]
Zhao W, Sánchez N, Lu H, et al. A spatial downscaling approach for the SMAP passive surface soil moisture product using random forest regression[J]. Journal of Hydrology, 2018, 563:1009-1024. DOI:10.1016/j.jhydrol.2018.06.081

DOI

[17]
Belgiu M, Drăguţ L. Random forest in remote sensing: A review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 114:24-31. DOI:10.1016/j.isprsjprs.2016.01.011.

DOI

[18]
Tan W, Wei C, Lu Y, et al. Reconstruction of all-weather daytime and nighttime MODIS aqua-terra land surface temperature products using an XGBoost approach[J]. Remote Sensing, 2021, 13(22): 4723. DOI:10.3390/rs13224723.

DOI

[19]
Ali I, Greifeneder F, Stamenkovic J, et al. Review of machine learning approaches for biomass and soil moisture retrievals from remote sensing data[J]. Remote Sensing, 2015, 7(12):16398-16421. DOI:10.3390/rs71215841

DOI

[20]
宁晓刚, 常文涛, 王浩, 等. 联合GEE与多源遥感数据的黑龙江流域沼泽湿地信息提取[J]. 遥感学报, 2022, 26(2):386-396.

[ Ning X G, Chang W T, Wang H, et al. Extraction of marsh wetland in Heilongjiang Basin based on GEE and multi-source remote sensing data[J]. National Remote Sensing Bulletin, 2022, 26(2):386-396. ] DOI:10.11834/jrs.20200033

DOI

[21]
Tian S, Zhang X, Tian J, et al. Random forest classification of wetland landcovers from multi-sensor data in the arid region of Xinjiang, China[J]. Remote Sensing, 2016, 8(11):954. DOI:10.3390/rs8110954

DOI

[22]
Liu Q, Niu J, Lu P, et al. Interannual and seasonal variations of permafrost thaw depth on the Qinghai-Tibetan Plateau: A comparative study using long short-term memory, convolutional neural networks, and random forest[J]. Science of the Total Environment, 2022, 838:155886. DOI:10.1016/j.scitotenv.2022.155886

DOI

[23]
Zhong W, Yuan Q, Liu T, et al. Freeze/thaw onset detection combining SMAP and ASCAT data over Alaska: A machine learning approach[J]. Journal of Hydrology, 2022, 605:127354. DOI:10.1016/j.jhydrol.2021.127354

DOI

[24]
冉有华, 李新. 中国多年冻土制图:进展、挑战与机遇[J]. 地球科学进展, 2019, 34(10):1015-1027.

DOI

[ Ran Y H, Li X. Progress, challenges and opportunities of permafrost mapping in China[J]. Advances in Earth Science, 2019, 34(10):1015-1027. ] DOI:10.11867/j.issn.1001-8166.2019.10.1015

DOI

[25]
王健, 蒋玲梅, 寇晓康, 等. 根河地区冻融监测和降尺度算法的验证分析[J]. 遥感学报, 2019, 23(6):1209-1222.

[ Wang J, Jiang L M, Kou X K, et al. Downscaling method for near-surface freeze/thaw state monitoring in Genhe area of China[J]. Journal of Remote Sensing, 2019, 23(6):1209-1222. ] DOI: 10.11834/jrs.20198097

DOI

[26]
刘闻慧, 文军, 陈金雷, 等. 青藏高原土壤冻融过程关键参量时空分布特征分析[J]. 高原气象,中国科学院西北生态环境资源研究院, 2022:11-23.

[ Liu W H, WEN J, CHEN J L, et al. Characteristic analysis of the spatio-temporal distribution of key variables during the soil freeze-thaw process over the Qinghai-Xizang Plateau[J]. Plateau Meteorology, 2022, 41(1)11-23. ] DOI:10.7522/j.issn.1000-0534.2021.00024

DOI

[27]
Chen Y, Liu F, Kang L, et al. Large-scale evidence for microbial response and associated carbon release after permafrost thaw[J]. Global Change Biology, 2021, 27(14):3218-3229. DOI:10.1111/gcb.15487

DOI

[28]
张镱锂, 李炳元, 刘林山, 等. 再论青藏高原范围[J]. 地理研究, 2021, 40(6):1543-1553.

DOI

[ Zhang Y L, Li B Y, Liu L S, et al. Redetermine the region and boundaries of Tibetan Plateau[J]. Geographical Research, 2021, 40(6):1543-1553. ] DOI:10.11821/dlyj020210138

DOI

[29]
Su Z, De Rosnay P, Wen J, et al. Evaluation of ECMWF's soil moisture analyses using observations on the Tibetan Plateau[J]. Journal of Geophysical Research: Atmospheres, 2013, 118(11):5304-5318. DOI:10.1002/jgrd.50468

DOI

[30]
Dente L, Vekerdy Z, Wen J, et al. Maqu network for validation of satellite-derived soil moisture products[J]. International Journal of Applied Earth Observation and Geoinformation, 2012, 17:55-65. DOI:10.1016/j.jag.2011.11.004

DOI

[31]
Van der Velde R, Su Z, van Oevelen P, et al. Soil moisture mapping over the central part of the Tibetan Plateau using a series of ASAR WS images[J]. Remote Sensing of Environment, 2012, 120:175-187. DOI:10.1016/j.rse.2011.05.029

DOI

[32]
张天一, 苏华, 杨欣, 等. 基于LightGBM的全球海洋次表层温盐遥感预测[J]. 遥感学报, 2020, 24(10):1255-1269.

[ Zhang T Y, Su H, Yang X, et al. Remote sensing prediction of global subsurface thermohaline and the impact of longitude and latitude based on LightGBM[J]. Journal of Remote Sensing, 2020, 24(10):1255-1269. ] DOI:10.11834/jrs.20200007

DOI

[33]
Seneviratne S I, Corti T, Davin E L, et al. Investigating soil moisture-climate interactions in a changing climate: A review[J]. Earth-Science Reviews, 2010, 99(3):125-161. DOI:10.1016/j.earscirev.2010.02.004

DOI

[34]
Malbéteau Y, Merlin O, Molero B, et al. DisPATCh as a tool to evaluate coarse-scale remotely sensed soil moisture using localized in situ measurements: Application to SMOS and AMSR-E data in Southeastern Australia[J]. International Journal of Applied Earth Observation and Geoinformation, 2016, 45:221-234. DOI:10.1016/j.jag.2015.10.002

DOI

[35]
Yao P, Lu H, Shi J, et al. A long term global daily soil moisture dataset derived from AMSR-E and AMSR2 (2002-2019)[J]. Scientific Data, 2021, 8:143. DOI:10.1038/s41597-021-00925-8

DOI PMID

[36]
Meier W N, Ivanoff A. Intercalibration of AMSR2 NASA team 2 algorithm sea ice concentrations with AMSR-E slow rotation data[J]. IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, 2017, 10(9):3923-3933. DOI:10.1109/JSTARS.2017.2719624

DOI

[37]
胡同喜, 赵天杰, 施建成, 等. AMSR-E与AMSR2被动微波亮温数据交叉定标[J]. 遥感技术与应用, 2016, 31(5):919-924.

[ Hu T X, Zhao T J, Shi J C, et al. Inter-calibration of AMSR-E and AMSR2 brightness temperature[J]. Remote Sensing Technology and Application, 2016, 31(5):919-924. ] DOI:10.11873/j.issn.1004-0323.2016.5.0919

DOI

[38]
Shi J, Jackson T, Tao J, et al. Microwave vegetation indices for short vegetation covers from satellite passive microwave sensor AMSR-E[J]. Remote Sensing of Environment, 2008, 112(12):4285-4300. DOI:10.1016/j.rse.2008.07.015

DOI

[39]
Yang J, Huang X. The 30 m annual land cover dataset and its dynamics in China from 1990 to 2019[J]. Earth System Science Data, 2021, 13(8): 3907-3925. DOI:10.5194/essd-13-3907-2021

DOI

[40]
寇晓康, 张玉芝, 靳梦杰, 等. 基于多层土壤温度的地表冻融变化被动微波遥感验证分析[J]. 地理与地理信息科学, 2020, 36(3):49-55.

[ Kou X K, Zhang Y Z, Jin M J, et al. Verification and analysis of land surface freeze-thaw change by passive microwave remote sensing technique based on multi-layer soil temperature[J]. Geography and Geo-Information Science, 2020, 36(3):49-55. ] DOI:10.3969/j.issn.1672-0504.2020.03.007

DOI

[41]
周幼吾, 郭东信, 邱国庆, 等. 中国冻土[M]. 北京: 科学出版社, 2000.

[ Zhou Y W, Guo D X, Qiu G Q, et al. Geocryology in China[M]. Beijing: Science Press, 2000. ]

Outlines

/