遥感科学与应用技术

基于超参数优化CatBoost算法的河流悬浮物浓度遥感反演

  • 陈点点 , 1 ,
  • 陈芸芝 , 1, * ,
  • 冯险峰 2, 3 ,
  • 武爽 2, 3
展开
  • 1.福州大学 卫星空间信息技术综合应用国家地方联合工程研究中心 空间数据挖掘与信息共享教育部重点实验室数字中国研究院(福建),福州 350108
  • 2.中国科学院地理科学与资源研究所资源与环境信息国家重点实验室,北京 100101
  • 3.中国科学院大学,北京 100049
*陈芸芝(1982— ),女,福建连江人,博士,副研究员,研究方向为资源与生态环境监测研究。 E-mail:

陈点点(1997— ),女,山东临沂人,硕士生,研究方向为自然资源与水环境遥感。E-mail:

收稿日期: 2021-08-03

  修回日期: 2021-09-21

  网络出版日期: 2022-06-25

基金资助

中国科学院战略性先导科技专项(XDA23100503)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Retrieving Suspended Matter Concentration in Rivers based on Hyperparameter Optimized CatBoost Algorithm

  • CHEN Diandian , 1 ,
  • CHEN Yunzhi , 1, * ,
  • FENG Xianfeng 2, 3 ,
  • WU Shuang 2, 3
Expand
  • 1. Fuzhou University, National & Local Joint Engineering Research Center of Satellite Geospatial Information Technology, Key Laboratory of Spatial Data Mining and Information Sharing of Ministry of Education, The Academy of Digital China (Fujian), Fuzhou 350108, China
  • 2. State Key Laboratory of Resources and Environment Information System, Institute of Geographic Sciences and Natural Resources, Chinese Academy of Sciences, Beijing 100101, China
  • 3. University of Chinese Academy of Sciences, Beijing 100049, China
*CHEN Yunzhi, E-mail:

Received date: 2021-08-03

  Revised date: 2021-09-21

  Online published: 2022-06-25

Supported by

Subproject of strategic Priority Science and Technology Project of Chinese Academy of Sciences (Class A)(XDA23100503)

Copyright

Copyright reserved © 2022

摘要

悬浮物浓度(TSM)是水生态环境评价的重要参数之一,及时掌握河流悬浮物浓度动态变化信息对于内陆水质监测、水环境治理是十分必要的。本研究基于野外实测光谱和悬浮物浓度数据,筛选与悬浮物浓度高度相关的波段组合反射率作为自变量,基于CatBoost、随机森林和多元线性回归算法构建悬浮物浓度遥感反演模型,采用带交叉验证的网格搜索法分别对CatBoost和随机森林2种机器学习模型进行超参数调优,确定模型最优参数配置,并对比不同模型反演精度,确定最优模型。基于最优模型,利用2019—2020年多时相Sentinel-2 MSI遥感影像,反演闽江下游悬浮物浓度,并分析其时空变化特征。结果表明:① b4/b3、(b6-b3)/(b6+b3)、(b4+b8)/b3、(1/b3-1/b4)×b5是MSI反演闽江下游TSM浓度的最佳波段组合反射率; ② 对比其他2种模型,基于超参数优化的CatBoost算法建立的悬浮物反演模型精度最高,其决定系数R²为0.95,均方根误差RMSE和平均绝对百分比误差MAPE分别为15.32 mg/L和19.68%; ③ 2019—2020年闽江下游悬浮物浓度分布“西低东高”,白沙至琅岐入海口呈升高趋势;④ 悬浮物浓度夏季最高,冬季和秋季次之,春季最低。本研究可为闽江下游悬浮物浓度监测及时空变化分析提供一种有效的技术手段和理论参考。

本文引用格式

陈点点 , 陈芸芝 , 冯险峰 , 武爽 . 基于超参数优化CatBoost算法的河流悬浮物浓度遥感反演[J]. 地球信息科学学报, 2022 , 24(4) : 780 -791 . DOI: 10.12082/dqxxkx.2022.210446

Abstract

Total Suspended Matter (TSM) is one of the significant parameters of aquatic ecological environment assessment. It is necessary to grasp the dynamic change information of river suspended solids concentration in time for inland water quality monitoring and water environment management. This paper is based on field measured spectra and suspended matter concentration data, the band combination reflectance that is highly correlated with the concentration of suspended solids is selected as the independent variable. The remote sensing inversion model of suspended solids concentration is constructed based on CatBoost, random forest, and multiple linear regression algorithms. In order to determine the optimal parameter configuration for the models, the grid search method with cross-validation is used for hyperparameter tuning of two machine learning models, i.e., CatBoost and Random Forest, respectively. And the inversion accuracy of different models is compared to determine the optimal model. Based on the optimal model, multi-temporal Sentinel-2 MSI remote sensing images from 2019 to 2020 are used to invert suspended matter concentrations in the lower reaches of the Minjiang River and analyse their spatial and temporal variation characteristics. The results indicate that: ① b4/b3, (b6-b3)/(b6+b3), (b4+b8)/b3, (1/b3-1/b4)×b5 are the best band combination reflectance for MSI inversion of TSM concentrations in the lower Minjiang River; ② Compared with the other two models, the suspended matter concentrations inversion model based on CatBoost algorithm with hyperparameter optimized has the highest accuracy, with a coefficient of determination R2 of 0.95, Root Mean Square Error (RMSE) and Mean Absolute Percentage Error (MAPE) of 15.32 mg/L and 19.68%, respectively; ③ The distribution of suspended matter concentrations in the lower reaches of the Minjiang River from 2019 to 2020 is "low in the west and high in the east", with a rising trend from Baisha to the mouth of the Langqi inlet; ④ The suspended matter concentration is highest in summer, followed by winter and autumn, and lowest in spring. This study provides an effective technical means and theoretical reference for the monitoring and spatio-temporal variation analysis of suspended matter concentration in the lower reaches of Minjiang River.

1 引言

悬浮物(Total Suspended Matter, TSM)是衡量水质状况的关键指标,河流湖泊中悬浮颗粒物的含量不仅影响水体光场的分布,还直接影响到水生态系统的平衡[1]。河流中悬浮物的来源分为外源性和内源性两种[2]。外源性主要包括水土流失和地表径流携带的陆源污染物,内源性来源主要包括浮游生物及其死后的遗体残骸、水生植物腐烂后的残体,以及泥沙在风浪作用下的再悬浮等[3,4]。悬浮物浓度与透明度、浊度等水质参数密切相关,分析河流悬浮物浓度时空演变规律及其影响因素,对于加强水质动态监测、有效开展水环境治理具有重要的现实意义。
水色遥感在快速获取水质状况、预防跟踪水体污染事件和揭示多尺度的水质时空变化等方面发挥着重要作用[5]。内陆水环境受气候变化、有机和无机物的污染以及人类活动的影响,水色要素时空变化迅速,对传感器监测性能要求较高。Sentinel-2采用双星系统设计,其搭载的多光谱成像仪(MultiSpectral Instrument, MSI)包含13个波段,440~2202 nm的光谱范围内具备10~60 m的空间分辨率,具备宽覆盖、高空间分辨率和重访周期短等性能,极大地提高了对地观测能力[6]。红光和近红外波段是TSM浓度变化的敏感波段,MSI多个“红边”波段为TSM浓度反演提供了丰富的水体光谱特征信息,已有研究证明MSI影像在获取内陆河流及湖泊水色要素动态变化方面有着巨大应用潜力[7,8]
传统的水色遥感反演方法主要有经验方法[9,10]、半经验/半分析方法[11]和分析方法[12]。经验模型因其本身易操作、高精度成为业务上的重要算法,但其大部分用于描述简单的线性关系。内陆二类水体组分远比大洋一类水体复杂[13],水体光谱特征和水色要素的关系难以用简单的线性函数表达,当卫星影像上的水体遥感反射率超出建模数据集的范围,经验模型精度将会大幅度下降[14]。半分析和分析模型是基于水体固有光学特征和遥感反射率反演水色要素的方法[15],具有一定的物理意义,但模型的构建需要测量多个水体光学参数,模型相对复杂。近年来,随着计算机科学和人工智能技术的发展,机器学习被广泛应用于水色遥感反演[16,17,18,19]。机器学习依靠训练数据集可以较好地拟合水面遥感反射率与TSM浓度间的非线性映射关系,在预测TSM浓度时能够更加合理地控制反演结果的置信区间[20]。除以上优势外,在非理想环境下,机器学习算法受大气和其他背景因素影响较小。集成学习是机器学习方法的一种,集成学习通过结合多个弱学习器构建出一个强学习器来完成建模任务,因此可以获得比单一学习器更优越的泛化性能,随机森林和CatBoost分别是基于Bagging和Boosting的集成学习方法,随机森林是内陆及沿海二类水体水色要素探究常用的机器学习方法之一[21,22],目前,CatBoost也在遥感领域展示出较强的可用性[23]
本文以闽江下游为研究区域,利用Sentinel-2 MSI遥感影像和野外实测样本数据,采用CatBoost、随机森林和多元线性回归3种方法分别构建闽江下游悬浮物浓度遥感反演模型,选择较优模型反演闽江下游多时相悬浮物浓度,并分析TSM浓度时空变异特征及驱动因素,以期为闽江下游水环境监测和水土保持治理提供科学依据。

2 研究区概况及数据来源

2.1 研究区概况

闽江是我国福建省境内最大独流入海的河流。闽江下游位于25°57′N—26°13′N,119°01′ E—119°35′E,研究区西起闽侯县白沙,东至琅岐岛入海口,该流域是典型的二类水体。闽江流域光热充足,降水丰沛,夏季常发生猛烈而短暂的台风型暴雨,径流量年内分配不均匀,丰水期(4—9月)多年平均径流量占年径流量的71%~80%,枯水期(10月—次年3月)仅占年径流量的20%~29%。闽江入海口属于强潮河口,夏季受到自南向北的黑潮支流和洋流影响,秋季至次年春季主要受南下的浙闽两省沿岸潮流控制[24]。闽江下游流经福州主城区,为福州市提供了丰富的工农业用水和生活必需饮水资源,随着城镇不断扩张,大量工业废料和农业生产生活污水排入河流,同时闽江上游难以自然降解的重金属和有机物在此沉积,导致水质日益变差,使得闽江下游承担巨大的生态环境压力。

2.2 数据来源

2.2.1 实测光谱和水质参数
本研究分别于2014年10月、2017年7月、2019年12月和2020年11月完成对闽江下游4次实地考察,按照均匀分布的原则设置采样点位(图1)。野外实测时天气晴朗,水面平静,使用ASD FieldSpec4便携式地物光谱仪采取水面以上测量方法分别测量了水面、天空光和灰板的辐射亮度值[25],计算并推导了水体遥感反射率。同步水质采样在光谱测量点水面之下0~50 cm,依据悬浮物测定重量法(GB 11901-89),TSM浓度于实验室内利用BSA224S电子天平/ZKS016测定,本研究共收集了135个样点的光谱曲线和悬浮物浓度、叶绿素a浓度等水质参数。表1为闽江下游野外实地采样悬浮物浓度统计结果。水体遥感反射率随悬浮颗粒物浓度的升高而增强,分析图2实测水体光谱曲线特征可知,在可见光和近红外波段范围内,水体光谱曲线具有显著的双峰型特征。根据光谱特征可将曲线分为2种类型:类型一为低悬浮物浓度水体实测光谱曲线,第一峰值在570 nm绿光波段附近,第二峰值在820 nm近红外波段附近;类型二为高悬浮物浓度水体实测光谱曲线,水体光谱特征随悬浮物浓度升高发生变化,水体透明度降低,绿光波段反射峰向长波方向移动,光谱发生“红移”现象[26]
图1 闽江下游及样点位置

Fig. 1 Minjiang River and stations

表1 实测TSM浓度的描述统计

Tab. 1 Descriptive statistics of the measured TSM

采样时间 个数/个 最大值/(mg/L) 最小值/(mg/L) 平均值/(mg/L) 标准差/(mg/L) 变异系数/%
2014年10月 10 383 5 116.30 128.85 110.79
2017年07月 40 37 12 22.75 6.34 27.85
2019年12月 40 211 10 84.18 55.76 66.25
2020年11月 45 265 4 55.02 60.03 109.11
图2 实测水体光谱曲线

注:图(a)为本研究所用的135条实测光谱曲线。

Fig. 2 Spectral curves of measured water bodies

2.2.2 光谱反射率模拟
为建立适用于Sentinel-2 MSI数据的TSM遥感反演模型,根据式(1),利用MSI的光谱响应函数将水体实测光谱曲线模拟到Sentinel-2 MSI可见光和近红外波段(图3)。
R = λ 2 λ 1 SRF λ R rs λ d λ λ 2 λ 1 SRF λ d λ
式中:R为模拟的MSI水体遥感反射率;SRF(λ)为Sentinel-2 MSI传感器的光谱响应函数;λ1λ2分别表示模拟波段的上下界;Rrs(λ)为野外实测水体遥感反射率。
图3 不同TSM浓度水体的遥感反射率

Fig. 3 Remote sensing reflectance of water bodies with different TSM concentrations

2.2.3 Sentinel-2遥感影像及预处理
Sentinel-2 MSI L1C遥感数据可从欧空局网站(https://scihub.copernicus.eu/)免费下载,选取16景不同时相且研究区无云的遥感影像(表2)。本研究对Sentinel-2 MSI影像预处理操作主要包括辐射定标、大气校正、重采样、水体提取等步骤。比利时皇家自然科学研究所开发的ACOLITE处理器是一种专门针对水体的大气校正方法,能够直接输出水体的遥感反射率[27],实验中选择暗光谱拟合法(Dark Spectrum Fitting, DSF)对Sentinel-2 MSI L1C影像进行大气校正,并将影像空间分辨率重采样为10 m。基于大气校正后的绿光波段和短波红外波段计算改进的归一化差异水体指数MNDWI(式(2))结合阈值法提取水体。为了消除藻类及其他水生植被对水体遥感反射率的影响,本研究计算了流域的植被归一化指数NDVI(式(3)),将其结果用于剔除水生植被分布的水域,最终获得纯水体的遥感反射率影像。
MNDWI = ρ Green - ρ SWIR ρ Green + ρ SWIR
NDVI = ρ NIR - ρ Red ρ NIR + ρ Red
式中: ρ Green ρ SWIR ρ NIR ρ Red分别代表Sentinel-2 MSI传感器的绿光波段(band3)反射率、短波红外波段(band11)反射率、近红外波段(band8)反射率和红光波段(band4)反射率。
表2 Sentinel MSI影像

Tab. 2 Sentinel MSI images

季节 序号 日期 影像类型
1 2019-03-20 Sentinel-2A
2 2020-04-08 Sentinel-2B
3 2020-04-13 Sentinel-2A
4 2020-04-18 Sentinel-2B
5 2020-06-12 Sentinel-2A
6 2020-07-22 Sentinel-2A
7 2020-08-06 Sentinel-2B
8 2020-08-26 Sentinel-2B
9 2019-11-05 Sentinel-2A
10 2019-11-10 Sentinel-2B
11 2019-11-15 Sentinel-2A
12 2020-10-10 Sentinel-2A
13 2019-01-24 Sentinel-2B
14 2019-01-29 Sentinel-2A
15 2020-02-18 Sentinel-2B
16 2020-02-23 Sentinel-2A

3 研究方法

3.1 模型输入特征因子选择

模型输入特征因子选择是构建训练数据集至关重要的部分,既要选择与悬浮物浓度密切相关的光谱指数帮助提高模型的准确性和稳定性,又要消除冗余和干扰变量。因MSI第一波段(Coastal Aerosol)空间分辨率为60 m,不适用于内陆河流水色要素的研究,故该波段不参与建立模型。相比单波段输入因子,波段组合形式建立的光谱指数更有利于反映水体组分与遥感反射率的关 系[28]。本研究基于MSI可见光和近红外波段(b2~b8a)分别构建了3种不同波段组合形式:波段比值、波段归一化比值和三波段比值[29,30],通过遍历各波段依次与TSM、lg(TSM)浓度进行Pearson相关性分析。结果表明,lg(TSM)与Sentinel-2 MSI波段组合反射率相关性更优,多个波段组合反射率与lg(TSM)相关系数大于0.80,表3列出部分相关性较高的波段组合反射率及相关系数。最终选用b4/b3、(b6-b3)/(b6+b3)、(b4+b8)/b3、(1/b3-1/b4)×b5共4个波段组合反射率作为模型输入特征因子,模型输出结果为lg(TSM),在此基础上进行指数转换得到TSM浓度。
表3 MSI波段组合反射率与lg(TSM)、TSM的相关系数

Tab. 3 Correlation coefficients of MSI band combination reflectance with lg(TSM) and TSM

lg(TSM) TSM
波段组合反射率 相关系数 波段组合反射率 相关系数
(1/b3-1/b4)×b5 0.86 (1/b3-1/b8)×b8a 0.80
(b4+b8)/b3 0.83 (b5+b6)/b3 0.82
b4/b3 0.82 b5/b3 0.75
(b6-b3)/(b6+b3) 0.80 (b7-b4)/(b7+b4) 0.79

3.2 反演模型的对比

悬浮物浓度遥感反演共分为3个步骤,分别为构建训练数据集、模型训练和模型反演,技术路线如图4所示。按照8:2的比例将实测样本集随机划分为108组训练集和27组测试集,并保证测试样本覆盖不同的TSM浓度区间。利用3.1节筛选的波段组合反射率与lg(TSM)进行建模,建模的算法选用CatBoost、随机森林和多元线性回归模型。输入训练数据集建立模型,通过超参数调优确定机器学习模型最佳参数配置,结合决定系数(R²)、均方根误差(Root Mean Square Error, RMSE)以及平均绝对百分比误差(Mean Absolute Percentage Error, MAPE)等数学指标定量评价不同模型精度。对比CatBoost、随机森林和多元线性回归算法在不同悬浮物浓度区间的反演精度,最终利用性能更优的算法反演多时相闽江下游悬浮物浓度空间分布。
图4 基于不同模型的TSM遥感反演技术路线

Fig. 4 Technical route of TSM remote sensing inversion based on different models

3.2.1 CatBoost模型
CatBoost是俄罗斯Yandex学者于2017年提出的一种新型开源机器学习库,它由Categorical和Boosting组成[31],是一种以对称决策树为基学习器实现的新型梯度提升算法。它通过有序提升的方式对传统GBDT(Gradient Boosting Decision Tree, GBDT)算法中的梯度估计进行了改进,能够高效地处理梯度提升决策树特征中的类别型特征。CatBoost算法克服了传统Boosting框架存在的梯度偏差和预测偏移问题,这可以减少过拟合情况的发生[32]。模型训练过程中,CatBoost使用串行方法将多个基学习器进行集成,每一轮训练样本集不变,通过上一轮的学习结果不断更新样例权重,从而逐步降低噪声点带来的偏差。训练生成的多个弱学习器间存在依赖关系,将所有弱学习器的回归值加权即得到最终结果。相比Boosting家族中其他集成学习算法,如XGBoost和LightGBM,CatBoost在算法准确率等方面表现得更加优异,它能够自动处理离散特征数据,其适用于多个输入特征和含有噪声样本数据的回归问题,模型具有更强的鲁棒性和泛化性能。
在建模过程中,CatBoost模型有几个重要参数:n_estimators是最大决策树个数;learning_rate学习率可以控制模型的收敛速度;max_depth表示树的最大深度。使用带交叉验证的网格搜索法对模型进行超参数调优,为防止模型过拟合,将max_depth的取值范围设置在1~6的整数区间,结果显示,当max_depth取值为3时模型精度最高。通过逐步降低学习率提高模型性能,发现本实验中最佳学习率为0.01。继续测试n_estimators在50~1200范围内每间隔50的数值,CatBoost模型回归误差RMSE图5所示,随着n_estimators取值增大,RMSE逐渐趋于稳定,当n_estimators=700时RMSE基本不再变化,因此将最大决策树个数设置为700。最后其他参数设置为l2_leaf_reg=1,loss_function="RMSE"。表4为CatBoost模型的必要参数和调优后的最优值。
图5 CatBoost模型中回归误差RMSE和N_estimators的关系

Fig. 5 The relationship between the regression error RMSE and N_estimators in the CatBoost model

表4 CatBoost模型的必要参数和调优后的最优值

Tab. 4 The necessary parameters and optimized values of CatBoost model

参数 默认值 取值范围 最优值
max_depth 6 [1,6] 3
learning_rate 0.03 [0.01,0.05] 0.01
n_estimators 1000 [50,1200] 700
l2_leaf_reg 3 [1,3] 1
loss_function RMSE RMSE, Logloss, MAE, MAPE, Poisson RMSE
3.2.2 随机森林模型
随机森林(Random Forest, RF)是Breiman于2001年提出的一种基于分类和决策树进行数据挖掘的机器学习算法[33]。与CatBoost不同,随机森林的特点在于“随机采样”,RF在以决策树为基学习器构建Bagging集成的基础上,进一步在模型训练过程中添加了随机属性选择。随机森林从原始样本集中有放回地抽取子训练集,训练集内每个样例的权重相等,使用并行方法训练出多个相互独立的弱学习器。解决回归问题时,随机森林通常使用简单平均法,对多个弱学习器的回归结果进行算术平均得到最终值。随着训练集数目增加,模型的泛化误差逐渐减小,这有效地避免了过拟合和欠拟合情况的发生。随机森林算法已在多个水色遥感反演研究中表现出较高的预测精度和稳定的优越性,是当前常用的机器学习算法之一。随机森林有两个重要参数,分别是决策树个数n_estimators和最大特征数max_features。基于带交叉验证的网格搜索法对随机森林进行超参数调优,本实验参数设定如下:n_estimators=400,max_features=4,max_depth(树深)=3。
3.2.3 多元线性回归模型
在多元线性回归模型中,假设lg(TSM)是B个输入特征因子的加权和,X=[X1,…,XB]T,lg(TSM)=XTW。通过最小二乘法估计各模型输入特征因子的权重W=[ω1,…,ωB]T。本研究中多元线性回归模型的表达式如下:
lg ( TSM ) = 2.715 X 1 - 0.289 X 2 - 0.77 X 3 + 0.732 X 4 + 3.267
TSM = 10 ( 2.715 X 1 - 0.289 X 2 - 0.77 X 3 + 0.732 X 4 + 3.267 )
式中:X1为(1/b3-1/b4)×b5;X2为(b4+b8)/b3;X3为b4/b3;X4为(b6-b3)/(b6+b3),b2—b8分别为Sentinel-2 MSI影像的第2—第8波段;TSM为悬浮物浓度。

4 结果与分析

4.1 不同模型反演精度分析

不同悬浮物反演模型精度评价如图6所示。CatBoost模型可决系数R²为0.95,均方根误差RMSE和平均绝对百分比误差MAPE分别为15.32 mg/L和19.68%;随机森林模型可决系数R²为0.93,均方根误差RMSE和平均绝对百分比误差MAPE分别为19.30 mg/L和22.78%;多元线性回归模型可决系数R²为0.91,均方根误差RMSE和平均绝对百分比误差MAPE分别为17.18 mg/L和24.99%。整体上看,多元线性回归模型悬浮物浓度反演值与实测值偏差最大,而2种机器学习方法能够较好地控制这种误差,CatBoost和随机森林可以从训练数据集中学习、调整、推断和拟合函数形式,能够适应非常灵活的非线性关系,通过调整重要参数降低误差,从而提高了TSM浓度的反演精度。CatBoost和随机森林模型精度优于多元线性回归模型,3种模型中CatBoost反演精度最高,其次是随机森林。
图6 不同TSM反演模型精度评价

注:虚线为趋势线,实线为1:1线。

Fig. 6 Evaluation of the accuracy of different TSM inversion models

分不同浓度等级看悬浮物反演结果,当TSM< 50 mg/L时,3种模型反演值均匀分布在1:1线两侧,相比其他2种模型,CatBoost能更好地控制反演结果的相对误差;当50 mg/L≤TSM≤100 mg/L时,CatBoost模型反演结果最接近实测值,随机森林模型在该浓度区间存在低估现象,多元线性回归模型反演值也相对离散,这可能与该TSM浓度区间内实测样本量偏少有关;当TSM > 100 mg/L时,CatBoost反演值的平均相对误差最小,模型稳健型最强。以上结果表明CatBoost对不同浓度悬浮物的反演效果优于其他2种模型。
总之,综合考虑模型的整体精度和模型在不同悬浮物浓度区间的反演结果,CatBoost是最适用于闽江下游悬浮物浓度反演的模型。

4.2 闽江下游悬浮物浓度时空演变分析

内陆水环境受人类活动和自然因素影响,TSM浓度时空变化迅速,单时相TSM反演结果难以全面揭示河流悬浮物浓度的时空分布特征。基于2019—2020年16景Sentinel-2 MSI遥感影像,利用CatBoost模型反演闽江下游TSM浓度,分析闽江下游悬浮物浓度时空变异特征和变化规律,了解自然和人类活动对闽江水质变化的驱动作用,将为流域水质研究、环境保护提供空间数据支持。
4.2.1 空间分布格局分析
基于2019—2020年多时相TSM数据集,生成闽江下游平均TSM浓度空间分布(图7)。2019—2020年闽江下游悬浮物浓度空间分布具有显著的东西差异特征。整体上呈现“西低东高”的格局,白沙至琅岐入海口悬浮物浓度逐渐升高,自西向东大致可分为白沙-荆溪段、荆溪-城门段、城门-马尾段、马尾-琅岐段4个部分。
图7 2019—2020年闽江下游多时相平均TSM浓度空间分布

Fig. 7 Spatial distribution of multi-temporal average TSM in the lower reaches of the Minjiang River from 2019 to 2020

白沙-荆溪段TSM浓度较低,河流两岸植被覆盖度高,水土保持措施效果显著,水体相对清澈, 荆溪-城门段TSM浓度逐渐升高,该河段流经福州主城区,随着城镇不断扩张,闽侯县和福州市区成为污染物排放量高值区,工业废水和人为垃圾排入闽江下游,流域水质逐渐恶化[34]
城门-马尾段TSM浓度持续升高,闽江和乌龙江发生交汇,河流水动力增强,容易引起河底沉积物发生再悬浮,导致河水透明度降低。南北支流从上游携带的固体颗粒物和污染物质在该河段累积,进一步加剧了水质浑浊度超标。
马尾-琅岐入海口TSM浓度最高,这一河段面临巨大的水环境压力。一方面,河段流经马尾区和长乐区人口聚居地,河流沿岸村庄密布,造船业发达,大量农村生活污水和工业区废水注入闽江。另一方面,琅岐岛周边分布众多水产养殖区,网箱养殖尾水中含有的较大悬浮颗粒使得水质下降。此外,闽江口海港众多,发达的海上运输业也会扰动水下悬浮颗粒的沉降过程导致入海口TSM浓度长期居高不下。
4.2.2 季节特征变化分析
受各种动力机制的影响,不同季节水体表面悬浮物浓度差异明显。开展悬浮物季节尺度变化特征的研究,对于了解闽江下游悬浮物浓度变化规律、管控河流生态环境、预测未来水质变化趋势等具有重要的现实意义。图8为基于2019—2020年Sentinel-2 MSI数据集生成的TSM浓度季平均值。总的来说,闽江下游水域悬浮物浓度季节性变化显著。流域的水在夏季(6—8月)和冬季(12月—次年2月)比春季(3—5月)和秋季(9—11月)更加浑浊,即悬浮颗粒物含量更高。
图8 2019—2020年闽江下游季节性TSM浓度空间分布

Fig. 8 Spatial distribution of seasonal TSM concentrations in the lower Minjiang River from 2019 to 2020

春季平均TSM浓度标准差最小,闽江下游悬浮物浓度空间变化相对平稳,TSM高值区出现在琅岐岛南部,这与上一时相冬季风作用引起的悬浮颗粒聚集有关。
夏季悬浮物浓度呈升高趋势,相比春季平均TSM浓度提升了16%。降水量和径流量被认为是调节内陆和沿海水域TSM浓度季节性变化的重要水文气象因子[35],夏季闽江流域降雨强度变大,强降水加剧了闽江两岸水土流失过程,地表径流携带大量污染物流入闽江,而悬浮颗粒物在水中的沉降速率小于降雨引起的再悬浮速率。水中TSM浓度增加会影响水下光场的分布,进而直接影响到水中浮游植被的光合作用及河流初级生产力。夏季来临时,应密切监管闽江两岸水土流失情况,尽量从根源上减少悬浮污染物的外源输入,通过构建草地过滤带截留悬浮颗粒物等措施降低强降雨带来的水体浑浊、水质恶化等问题。
秋季白沙至荆溪河段、琅岐岛周边水体悬浮物浓度明显降低,城门至马尾河段仍保持较高的TSM浓度水平。流域秋季降水量减少,河流TSM浓度主要由水生生物的遗体残骸、水中难以降解的有机物和再悬浮作用主导,此时降水量和径流量对河流TSM浓度起稀释作用。
冬季马尾至琅岐河段水体TSM浓度显著升高,琅岐岛南部水域是TSM浓度高值区,这是由于冬季入海口盛行偏北风,海面风阻止悬浮泥沙下沉,强风作用影响洋流的运动方向,导致悬浮颗粒物向南堆积。波浪和潮流是影响冬季闽江河口TSM浓度变化的重要动力机制[36],当波浪对河底的切应力作用达到临界值,就会引起底部沉积物发生再悬浮。潮流使得流向内陆的海水挟沙混合运动增强,河水径流携带泥沙、淤泥等悬浮颗粒向入海口方向运动,潮流和径流相互作用发生强烈的水体扰动,河流泥沙发生“悬浮-沉积-再悬浮”的过程,进而导致水体透明度降低、浑浊度升高。在冬季,风力、波浪、潮流作用是闽江下游TSM浓度变化的主要影响因素,且距离入海口越远受影响越小。

5 讨论

本文提出了一种适用于内陆及近岸二类水体的悬浮物浓度反演方法,内陆河流及近岸水体的光学特性远比大洋水体复杂,不同水色要素参数(主要指叶绿素a、悬浮物和溶解性有机物等)的吸收和散射光谱有重叠区域,悬浮物浓度与水体遥感反射率的关系是非线性的、复杂多变的[37]。已有研究利用数理统计模型或神经网络算法反演闽江下游悬浮物浓度[38],但这些模型的建立通常仅使用一个时期的实测水质数据和水体光谱反射率,模型的普适性有待探究。本文基于闽江下游不同时期野外实测样本数据,构建了适用于该流域不同时相的水体悬浮物浓度反演模型。
悬浮物浓度反演模型的输入特征因子波段组合反射率主要由绿光波段、红光波段和近红外波段构成,这与悬浮物浓度变化的敏感波段基本一致。对比不同悬浮物浓度反演模型精度可知,CatBoost能够更好地模拟二类水体悬浮物浓度与水体表面遥感反射率的非线性关系。相比其他2种方法,CatBoost算法具有较强的适应性和抗噪能力,通过学习训练集的特征不断校正、更新样本权重和控制误差来提高悬浮物浓度遥感反演模型的精度和泛化性能。训练集和测试集覆盖不同时期悬浮物浓度实测样本数据,分析悬浮物浓度反演结果可知,CatBoost能够较好地反演不同等级的悬浮物浓度值。此外,CatBoost模型在福建近海水体悬浮物浓度反演研究中也表现出较高精度[21],进一步证明了CatBoost算法反演光学特性复杂水体悬浮物浓度的适用性。内陆水体生物光学特性受区域和季节变化影响大,导致很难构建出具有普适性的高精度水色遥感反演模 型[39],未来可以将CatBoost模型应用于福建省第二大河流九龙江水体悬浮物浓度的遥感反演研究中,进一步探究该模型在不同流域的普适性。
本研究可为闽江下游悬浮物浓度监测提供一种有效的技术手段,能够满足大尺度、重复观测、低成本的水质监测需求。同时,本文也存在一些不足,研究采用的野外实测样本中,TSM在50~100 mg/L 浓度范围的样本量有限,未来应进一步丰富该浓度范围的样本,保证样本的均衡性,提高模型的反演精度和普适性。在后续的工作中,将继续开展河流悬浮物的溯源研究,以期为闽江流域水环境保护和治理提供科学合理的理论参考。

6 结论

本文基于Sentinel-2 MSI光谱响应函数和野外实测样本数据,构建不同悬浮物浓度遥感反演模型,采用Pearson相关性分析法选择模型的最佳输入特征因子,并使用带交叉验证的网格搜索法确定2种集成学习算法的最优超参数配置,对比不同模型精度,基于最佳模型反演闽江下游2019—2020年间多时相悬浮物空间分布,并分析流域TSM浓度时空变异特征。主要结论如下:
(1)利用Sentinel-2 MSI多光谱影像反演闽江下游TSM浓度的最优波段组合反射率为b4/b3、(b6-b3)/(b6+b3)、(b4+b8)/b3、(1/b3-1/b4)×b5,相关系数均大于0.80。
(2)对比多元线性回归和随机森林算法,CatBoost可以更好地模拟二类水体遥感反射率与TSM浓度的非线性映射关系,模型反演精度更高。基于超参数优化的CatBoost算法是闽江下游TSM浓度反演的最佳模型,其决定系数R²为0.95,均方根误差RMSE为15.32 mg/L,平均绝对百分比误差MAPE为19.68%。
(3)2019—2020年闽江下游TSM空间分布具有显著的东西差异特征,整体呈现“西低东高”,白沙至琅岐入海口TSM浓度逐渐升高;时相上,TSM浓度夏季最高,冬秋两季次之,春季最低。
[1]
Havens K E. Submerged aquatic vegetation correlations with depth and light attenuating materials in a shallow subtropical lake[J]. Hydrobiologia, 2003,493(1-3):173-186.DOI: 10.1023/A:1025497621547

DOI

[2]
王书航, 姜霞, 王雯雯, 等. 蠡湖水体悬浮物的时空变化及其影响因素[J]. 中国环境科学, 2014,34(6):1548-1555.

[ Wang S H, Jiang X, Wang W W, et al. Spatial-temporal dynamic changes of the water suspended matter and its influencing factors in Lihu Lake. China Environmental Science, 2014,34(6):1548-1555. ] DOI: 10.3969/j.issn.1000-6923.2014.06.025

DOI

[3]
Cao H Y, Han L, Li W, et al. Inversion and distribution of total suspended matter in water based on remote sensing images: A case study on Yuqiao Reservoir, China[J]. Water Environment Research, 2021,93(4):582-595. DOI: 10.1002/wer.1460

DOI

[4]
张运林, 秦伯强, 朱广伟, 等. 杭州西湖水体光学状况及影响因子分析[J]. 长江流域资源与环境, 2005(6):72-77.

[ Zhang Y L, Qin B Q, Zhu G W, et al. The light condition and affect factors in Hangzhou west lake. Resources and Environment in the Yangtze Basin, 2005(6):72-77. ] DOI: 10.3969/j.issn.1004-8227.2005.06.015

DOI

[5]
Feng L, Hu C M, Chen X L, et al. Influence of the Three Gorges Dam on total suspended matters in the Yangtze Estuary and its adjacent coastal waters: Observations from MODIS[J]. Remote Sensing of Environment, 2014,140:779-788. DOI: 10.1016/j.rse.2013.10.002

DOI

[6]
Isabel C, Fran Ois S, Gabriel N. Evaluation of the first year of operational Sentinel-2A data for retrieval of suspended solids in medium- to high-turbidity waters[J]. Remote Sensing, 2018,10(7):982. DOI: 10.3390/rs10070982

DOI

[7]
Pahlevan N, Smith B, Schalles J, et al. Seamless retrievals of chlorophyll-a from Sentinel-2 (MSI) and Sentinel-3 (OLCI) in inland and coastal waters: A machine-learning approach[J]. Remote Sensing of Environment, 2020,240:111604. DOI: 10.1016/j.rse.2019.111604

DOI

[8]
王行行, 王杰, 崔玉环. 基于Sentinel-2 MSI影像的河湖系统水体悬浮物空间分异遥感监测:以安徽省升金湖与连接长江段为例[J]. 环境科学, 2020,41(3):1207-1216.

[ Wang H H, Wang J, Cui Y H. Remote sensing monitoring on spatial differentiation of suspended sediment concentration in a River-Lake system based on Sentinel-2 MSI imaging:A case for Shengjin Lake and connected Yangtze River section in Anhui province. Environmental Science, 2020,41(3):1207-1216. ] DOI: 10.13227/j.hjkx.201907164

DOI

[9]
Shi K, Zhang Y L, Zhu G W, et al. Long-term remote monitoring of total suspended matter concentration in Lake Taihu using 250 m MODIS-Aqua data[J]. Remote Sensing of Environment, 2015,164:43-56. DOI: 10.1016/j.rse.2015.02.029

DOI

[10]
孙宏亮, 何宏昌, 付波霖, 等. 香港近海海域叶绿素a定量反演及时空变化分析[J]. 中国环境科学, 2020,40(5):2222-2229.

[ Sun H L, He H C, Fu B L, et al. Quantitative inversion and analysis of spatio-temporal changes of chlorophyll-a concentration in Hong Kong's coastal waters.[J]. China Environmental Science, 2020,40(5):2222-2229. ] DOI: 10.19674/j.cnki.issn1000-6923.2020.0254

DOI

[11]
Dorji P, Fearns P, Broomhall M, et al. A semi-analytic model for estimating total suspended sediment concentration in turbid coastal waters of Northern Western Australia using MODIS-Aqua 250m data[J]. Remote Sensing, 2016,8(7):556. DOI: 10.3390/rs8070556

DOI

[12]
李云梅, 黄家柱, 韦玉春, 等. 用分析模型方法反演水体叶绿素的浓度[J]. 遥感学报, 2006,10(2):169-175.

[ Li Y M, Huang J Z, Wei Y C, et al. Inversing chlorophyll concentration of Taihu Lake by analytic model. Journal of Remote Sensing, 2006,10(2):169-175. ] DOI: 10.3321/j.issn:1007-4619.2006.02.004

DOI

[13]
Chebud Y, Naja G M, Rivero R G, et al. Water quality monitoring using remote sensing and an artificial neural network[J]. Water, Air, & Soil Pollution: Focus, 2012,23(8):4875-4887. DOI: 10.1007/s11270-012-1243-0

DOI

[14]
刘忠华, 李云梅, 檀静, 等. 太湖、巢湖水体总悬浮物浓度半分析反演模型构建及其适用性评价[J]. 环境科学, 2012,33(9):3000-3008.

[ Liu Z H, Li Y M, Tan J, et al. Construction of semi-analytical model for inversing total suspended matter in Lake Taihu and Chaohu and assessment of its applicability. Environmental Science, 2012,33(9):3000-3008. ] DOI: 10.13227/j.hjkx.2012.09.011

DOI

[15]
Chu Q, Zhang Y C, Ma R H, et al. MODIS-based remote estimation of absorption coefficients of an inland turbid lake in China[J]. Remote Sensing, 2020,12(12):1940. DOI: 10.3390/rs12121940

DOI

[16]
Blix K, Li J, Massicotte P, et al. Developing a new Machine-Learning algorithm for estimating Chlorophyll-a concentration in optically complex waters: A case study for high northern latitude waters by using Sentinel 3 OLCI[J]. Remote Sensing, 2019,11(18):2076. DOI: 10.3390/rs11182076

DOI

[17]
Balasubramanian S V, Pahlevan N, Smith B, et al. Robust algorithm for estimating Total Suspended Solids (TSS) in inland and nearshore coastal waters[J]. Remote Sensing of Environment, 2020,246:111768. DOI: 10.1016/j.rse.2020.111768

DOI

[18]
朱云芳, 朱利, 李家国, 等. 基于GF-1 WFV影像和BP神经网络的太湖叶绿素a反演[J]. 环境科学学报, 2017,37(1):130-137.

[ Zhu Y F, Zhu L, Li J G, et al. The study of inversion of chlorophyll a in Taihu based on GF-1 WFV image and BP neural network. Acta Scientiae Circumstantiae, 2017,37(1):130-137. ] DOI: 10.13671/j.hjkxxb.2016.0275

DOI

[19]
烟贯发, 张雪萍, 王书玉, 等. 基于改进的PSO优化LSSVM参数的松花江哈尔滨段悬浮物的遥感反演[J]. 环境科学学报, 2014,34(8):2148-2156.

[ Yan G F, Zhang X P, Wang S Y, et al. Remote-sensing retrieval of suspended solids based on improved PSO-LSSVM at the Harbin section of the Songhua River. Acta Scientiae Circumstantiae, 2014,34(8):2148-2156. ] DOI: 10.13671/j.hjkxxb.2014.0744

DOI

[20]
Ana R, Martin H, Gonzalo M G, et al. Machine learning regression approaches for Colored Dissolved Organic Matter (CDOM) retrieval with S2-MSI and S3-OLCI simulated data[J]. Remote Sensing, 2018,10(5):786. DOI: 10.3390/rs10050786

DOI

[21]
卢雪梅, 苏华. 基于OLCI数据的福建近海悬浮物浓度遥感反演[J]. 环境科学学报, 2020,40(8):2819-2827.

[ Lu X M, Su H. Retrieving total suspended matter concentration in Fujian coastal waters using OLCI data. Acta Scientiae Circumstantiae, 2020,40(8):2819-2827. ] DOI: 10.13671/j.hjkxxb.2020.0176

DOI

[22]
方馨蕊, 温兆飞, 陈吉龙, 等. 随机森林回归模型的悬浮泥沙浓度遥感估算[J]. 遥感学报, 2019,23(4):756-772.

[ Fang X R, Wen Z F, Chen J L, et al. Remote sensing estimation of suspended sediment concentration based on Random Forest Regression Model. Journal of Remote Sensing, 2019,23(4):756-772. ] DOI: 10.11834/jrs.20197498

DOI

[23]
Ding Y, Chen Z Q, Lu W F, et al. A CatBoost approach with wavelet decomposition to improve satellite-derived high-resolution PM2.5 estimates in Beijing-Tianjin-Hebei[J]. Atmospheric Environment, 2021,249:118212. DOI: 10.1016/j.atmosenv.2021.118212

DOI

[24]
李东义, 陈坚, 王爱军, 等. 闽江河口洪季悬浮泥沙特征及输运过程[J]. 海洋工程, 2009,27(2):70-80.

[ Li D Y, Chen J, Wang A J, et al. Suspended sediment characteristics and transport in the Minjiang estuary during flood seasons[J]. The Ocean Engineering, 2009,27(2):70-80. ] DOI: 10.16483/j.issn.1005-9865.2009.02.014

DOI

[25]
唐军武, 田国良, 汪小勇, 等. 水体光谱测量与分析Ⅰ:水面以上测量法[J]. 遥感学报, 2004,8(1):37-44.

[ Tang J W, Tian G L, Wang X Y, et al. The methods of water spectra measurement and analysis Ⅰ: Above-water method[J]. Journal of Remote Sensing, 2004,8(1):37-44. ] DOI: 10.3321/j.issn:1007-4619.2004.01.006

DOI

[26]
陈涛, 李武, 吴曙初. 悬浮泥沙浓度与光谱反射率峰值波长红移的相关关系[J]. 海洋学报(中文版), 1994(1):38-43.

[ Chen T, Li W, Wu S C. Correlation between suspended sediment concentration and peak wavelength red shift of spectral reflectance. Acta Oceanolgica Sinica, 1994(1):38-43. ] DOI: CNKI:SUN:SEAC.0.1994-01-004

DOI

[27]
Vanhellemont Q. Adaptation of the dark spectrum fitting atmospheric correction for aquatic applications of the Landsat and Sentinel-2 archives[J]. Remote Sensing of Environment, 2019,225:175-192. DOI: 10.1016/j.rse.2019.03.010

DOI

[28]
Su H, Lu X M, Chen Z Q, et al. Estimating coastal Chlorophyll-A concentration from time-series OLCI data based on Machine Learning[J]. Remote Sensing, 2021,13(4):576. DOI: 10.3390/rs13040576

DOI

[29]
Saberioon M, Brom J, Nedbal V, et al. Chlorophyll-a and total suspended solids retrieval and mapping using Sentinel-2A and machine learning for inland waters[J]. Ecological Indicators, 2020,113:106236. DOI: 10.1016/j.ecolind.2020.106236

DOI

[30]
Duan H T, Ma R H, Zhang Y Z, et al. Remote-sensing assessment of regional inland lake water clarity in northeast China[J]. Limnology, 2009,10(2):135. DOI: 10.1007/s10201-009-0263-y

DOI

[31]
Prokhorenkova L, Gusev G, Vorobev A, et al. CatBoost: unbiased boosting with categorical features[J]. arXiv preprint arXiv:1706.09516, 2017.

[32]
Lee S, Vo T P, Thai H T, et al. Strength prediction of concrete-filled steel tubular columns using Categorical Gradient Boosting algorithm[J]. Engineering Structures, 2021,238(1):112109. DOI: 10.1016/j.engstruct.2021.112109

DOI

[33]
Breiman L. Random Forests[J]. Machine Learning, 2001,45(1):5-32. DOI: 10.1023/A:1010933404324

DOI

[34]
温小乐, 徐涵秋. 福州城市扩展对闽江下游水质影响的遥感分析[J]. 地理科学, 2010,30(4):624-629.

[ Wen X L, Xu H Q. Remote sensing analysis of impact of Fuzhou city expansion on water quality of lower Minjiang River, China. Scientia Geographica Sinica, 2010,30(4):624-629. ] DOI: 10.13249/j.cnki.sgs.2010.04.018

DOI

[35]
Hou X, Feng L, Duan H, et al. Fifteen-year monitoring of the turbidity dynamics in large lakes and reservoirs in the middle and lower basin of the Yangtze River, China[J]. Remote Sensing of Environment, 2017,190:107-121. DOI: 10.1016/j.rse.2016.12.006

DOI

[36]
龚松柏, 高爱国, 林建杰, 等. 闽江下游及河口悬浮物时空分布特征及其影响因素[J]. 地球科学与环境学报, 2017,39(6):826-836.

[ Gong S B, Gao A G, Lin J J, et al. Temporal-spatial distribution and its influencing factors of suspended particulate matters in Minjiang lower reaches and estuary. Journal of Earth Sciences and Environment, 2017,39(6):826-836. ] DOI: 10.3969/j.issn.1672-6561.2017.06.012

DOI

[37]
刘大召, 付东洋, 沈春燕, 等. 河口及近岸二类水体悬浮泥沙遥感研究进展[J]. 海洋环境科学, 2010,29(4):611-616.

[ Liu D Z, Fu D Y, Shen C Y, et al. Study advances on remote sensing of suspended sediment in estuaries and coastal case Ⅱ water. Marine Environmental Science, 2010,29(4):611-616. ]

[38]
谢旭, 陈芸芝. 基于PSO-RBF神经网络模型反演闽江下游水体悬浮物浓度[J]. 遥感技术与应用, 2018,33(5):900-907.

[ Xie X, Chen Y Z. Retrieval of total suspended matter in the lower of Minjiang River based on PSO-RBF. Remote Sensing Technology and Application, 2018,33(5):900-907. ]

[39]
张兵, 李俊生, 申茜, 等. 长时序大范围内陆水体光学遥感研究进展[J]. 遥感学报, 2021,25(1):37-52.

[ Zhang B, Li J S, Shen Q, et al. Recent research progress on long time series and large scale optical remote sensing of inland water. Journal of Remote Sensing, 2021,25(1):37-52. ]

文章导航

/