多源遥感日降水数据融合方法：顾及空间自相关的随机森林模型

何青鑫; 陈传法; 王宇辉; 孙延宁; 刘雅婷; 胡保健

doi:10.12082/dqxxkx.2024.230752

地球信息科学学报 >

2024 , Vol. 26 >Issue 6: 1517 - 1530

DOI: https://doi.org/10.12082/dqxxkx.2024.230752

遥感科学与应用技术

多源遥感日降水数据融合方法：顾及空间自相关的随机森林模型

何青鑫 ^,¹ ,
陈传法 ¹ ,
王宇辉 ² ,
孙延宁 ^,¹^,³^,^* ,
刘雅婷 ¹ ,
胡保健 ¹

展开

1.山东科技大学测绘与空间信息学院，青岛 266590
2.几核（浙江）科技有限公司，湖州 313000
3.山东省水利科学研究院，济南 250101

*孙延宁（1982— ），男，山东淄博人，硕士生，高级工程师，研究方向为遥感降水。E-mail: 48347528@qq.com

何青鑫（1999— ），男，山东济南人，硕士生，研究方向为遥感降水产品提升。E-mail: he15966059562@163.com

收稿日期: 2023-12-18

修回日期: 2024-01-24

网络出版日期: 2024-05-24

基金资助

山东省自然科学基金项目(ZR2020YQ26)

收起

Fusion Method for Multi-Source Remote Sensing Daily Precipitation Data: Random Forest Model Considering Spatial Autocorrelation

HE Qingxin ^,¹ ,
CHEN Chuanfa ¹ ,
WANG Yuhui ² ,
SUN Yanning ^,¹^,³^,^* ,
LIU Yating ¹ ,
HU Baojian ¹

Expand

1. College of Geodesy and Geomatics, Shandong University of Science and Technology, Qingdao 266590, China
2. Ji Core (Zhejiang) Technology Co., Ltd., Huzhou 313000, China
3. Water Resources Research Institute of Shandong Province, Jinan 250101, China

*SUN Yanning, E-mail: 48347528@qq.com

Received date: 2023-12-18

Revised date: 2024-01-24

Online published: 2024-05-24

Supported by

Shandong Province Natural Science Foundation(ZR2020YQ26)

Fold

摘要

高质量的降水数据是气象服务与水文应用的基础资料保障，多时空尺度的卫星降水数据作为重要的降水数据源，现已被广泛应用到水文气象领域。然而，卫星降水产品存在空间分辨率粗糙、准确性差等问题，难以满足精细化水文和气象的应用需求。本文以随机森林（Random Forest，RF）为基础模型，提出一种顾及空间自相关性的多源遥感日降水数据融合方法(Spatial Random Forest Multi-source Fusion, SRF-MF)。该方法首先基于降水与环境因子之间存在较强的相关性，在月尺度上利用空间随机森林对多种卫星降水产品分别进行降尺度，然后根据日比率将月降水分解为日降水，最后借助随机森林将降尺度数据和站点数据融合，最终生成高质量的日降水数据。利用2015—2019年四川省5种卫星降水产品（CHIRPS、CMORPH、PERSIANN、GAMaP和IMERG）和实测雨量计数据，通过SRF-MF方法生成了逐日降水数据集，并将该数据集与原始卫星降水产品和5种机器学习方法比较，包括随机森林合并方法（RF-MEP）、单机器学习方法（RF、ANN）和双机器学习方法（RF-RF、RF-ANN）。实验结果表明，在不同时间尺度上（日、月、季、年）SRF-MF方法产生的降水数据集精度均明显优于其他几种方法，而且针对不同强度降水事件的捕捉精度更高，其降水分布图的空间细节信息更加丰富，准确性更高。本文研究结果将为提高卫星降水数据质量，以及扩大应用领域提供研究思路。

关键词： 降水; 多源数据; 空间自相关; 融合; 日尺度; 机器学习; 降尺度; 精细化

本文引用格式

何青鑫 , 陈传法 , 王宇辉 , 孙延宁 , 刘雅婷 , 胡保健 . 多源遥感日降水数据融合方法：顾及空间自相关的随机森林模型[J]. 地球信息科学学报, 2024 , 26(6) : 1517 -1530 . DOI: 10.12082/dqxxkx.2024.230752

Abstract

High-quality precipitation data is essential to guarantee meteorological services and hydrological applications. As an important source of precipitation data, satellite precipitation data, at various spatial and temporal scales, has been widely used in the field of hydrology and meteorology. However, satellite precipitation products often suffer from issues such as coarse spatial resolution and low accuracy, hindering their suitability for refined hydrological and meteorological applications. This study uses Random Forest (RF) as the basic model and proposes a spatial Random Forest multi-source fusion (SRF-MF) method to fuse daily precipitation data.This method first uses spatial random forest to downscale various satellite precipitation products on a monthly scale, leveraging the strong correlation between precipitation and environmental factors. Then it decomposes the monthly precipitation into daily values based on daily ratios. Finally, it uses RF to fuse downscaled data and site data to ultimately generate high-quality daily precipitation data. Using five satellite precipitation products (CHIRPS, CMORPH, PERSIANN, GAMaP and IMERG), along with rain gauge data from Sichuan Province spanning from 2015 to 2019, the SRF-MF method generated a daily precipitation dataset. This dataset was compared with the original satellite precipitation and five machine learning methods, including Random Forest Merging method (RF-MEP), single machine learning method (RF, ANN), and dual machine learning method (RF-RF, RF-ANN). Experimental results demonstrate that the precipitation dataset generated by the SRF-MF method exhibits significantly higher accuracy compared to several other methods across different time scales (daily, monthly, quarterly, yearly), with greater precision in capturing precipitation events of varying intensities. Moreover, the spatial details of the precipitation distribution map are richer and more accurate. The findings of this article provide research ideas for improving the quality of satellite precipitation data and expanding its application fields.

Key words： precipitation; multi-source data; autocorrelation; fusion; daily scale; machine learning; downscaling; refinement

1 引言

降水是水文循环中至关重要的驱动因子，也是推动全球物质循环和能量交换的纽带^[1]。高时空分辨率和高精度的降水数据是水文分析、水资源规划和洪涝干旱监测的基础资料^[2]。然而，由于降水具有强烈的时空变化特征，获取高质量的降水数据极具挑战性^[3]。

传统的雨量计观测可以获得高精度的点尺度降水数据，但偏远地区雨量计的空间分布稀疏且不均匀^[4]，难以准确反映降水的空间分布特征^[5]。伴随着遥感技术的蓬勃发展，大量遥感卫星降水产品公开发布，使得获取空间大范围连续降水信息突破了地理条件的限制^[6]。但遥感降水产品空间分辨率较低，且受硬件设备、反演算法和气象环境的影响，存在随机误差和系统误差^[7]。相较于月遥感降水产品，日遥感降水产品需要获取更高时间分辨率的数据信息，导致产品质量更加难以控制^[8]。因此，如何获取高时空分辨率的降水产品已成为当前研究的热点和难点。

针对上述难点，国内外研究学者从数据融合角度提出了大量方法，主要包括：空间插值法^[9-10]、偏差校正^[11-12]、加权平均法^[13-14]和机器学习法。相较于传统的线性回归方法，机器学习方法因无需严格的线性假设，并具有处理非线性问题的能力，现已受到广泛关注和使用^[15]，如利用随机森林的降尺度方法^[16]、基于小波变换的神经网络方法^[17]和基于注意力机制的卷积网络^[18]等。但上述研究仅将单一遥感降水产品与站点数据融合，未能考虑多种降水产品独特的降水信息。多源遥感信息融合能够突破单一传感器的观测局限性^[19]，从而获得更高质量的降水产品，如基于贝叶斯的双阶段融合方法^[20]、基于形态的自适应时空融合算法(MASTMA)^[21]和基于季节降水特征的多源降水产品融合方法^[22]等。上述方法从多种角度对多源降水数据进行融合，但忽略了卫星降水产品与雨量计观测点数据之间存在空间尺度不匹配问题^[23]，导致空间信息的丢失和空间偏差。对此，部分学者提出了一些解决方案，如基于单机器学习和双机器学习的融合方法^[24]、基于随机森林的融合方法（RF-MEP）和基于stacking算法的融合方法^[25]等。然而，上述研究忽视了降尺度的重要性和降水本身存在空间自相关性的机理特征，直接采用原始降水产品的栅格重采样值作为输入数据，降低了输入数据的可靠性，从而影响多源融合产品的质量。

基于此，本文以随机森林为基础模型，提出一种顾及空间自相关性的多源遥感日降水数据融合方法（SRF-MF）。该方法在降尺度和融合过程中都加入降水的空间自相关信息和环境因素，以确保输入数据的可靠性，同时借助空间随机森林捕捉多源数据独特的降水信息，实现多源遥感降水数据和雨量计数据的异质数据融合，从而生成大范围高质量的日降水数据。本文以四川省为研究区，采用SRF-MF方法对5种遥感降水产品进行多源融合处理，并与原始降水产品和5种机器学习方法进行比较（RF-MEP、RF、ANN、RF-RF和RF-ANN），以阐述SRF-MF方法的性能。

2 研究方法

为充分利用不同遥感降水产品和雨量计的降水信息和空间分布特征，本文构建了一种顾及空间自相关性的多源遥感日降水数据融合方法来生成高质量的降水数据。该方法包括3个主要阶段：数据预处理、降尺度和多源降水数据融合（图1）。

显示原图|下载原图ZIP|生成PPT

图1 多源数据融合流程

Fig. 1 Multi-source data fusion flow chart

2.1 空间随机森林（SRF）模型

经典随机森林（RF）是一种用于空间预测的统计方法，但未考虑采样数据之间的空间自相关性^[26]。因此，当相邻数据具有高度空间自相关性时，可能会导致结果存在偏差^[27]。针对上述问题，本研究采用一种空间随机森林（SRF）方法^[28]，其表达式为：

（1）

z p 0 = f X N S p 0, X S p 0

式中：X_S表示克里金插值结果；X_NS表示非空间协变量；f(·)是描述p₀点建模时因变量（z）和自变量（如X_S和X_NS）之间关系的函数。

在本研究中，通过将X_S定义为普通克里金（OK）的插值结果，将相邻降水之间的空间自相关纳入空间随机森林（SRF）。

（2）

X S p 0 = ∑ i = 1 k λ i z p i

式中：

X S p 0

为p₀处的降水信息值；

z p i

是p₀的第i个邻近点；λ_i是它的权值；k为相邻点数。

2.2 基于SRF的多源遥感降水数据融合（SRF-MF）

假设现有N种遥感降水产品P_i（i = 1,2,…, N），其空间分辨率分别为r_i（r_i > 1 km）。SRF-MF目标为将上述所有降水产品融合，并生成更高空间分辨率r₀（如r₀ = 1 km）降水产品。具体实现步骤为。

（1）数据预处理

研究表明，降水与环境因子之间的关系在月尺度上强于日尺度^[29]，故本文选择先在月尺度上对所有原始遥感降水产品进行降尺度。以第i个遥感降水产品P_i为例，首先将站点观测数据、该遥感降水数据和对应的环境因子累加到月尺度；然后将月尺度环境因子重采样至r_i和r₀两种空间分辨率：

X m o n t h r i

和

X m o n t h r 0

，日尺度环境因子重采样至r₀空间分辨率：

X d a i l y r 0

；最后将P_i采用普通克里金插值（OK）生成分辨率为r_i和r₀的2种插值结果：

P O K r i

和

P O K r 0

，对站点观测数据采用OK插值生成分辨率为r₀的插值结果

G O K r 0

。

（2）基于空间随机森林（SRF）的降尺度模型构建

该步骤为利用SRF在原始遥感降水产品分辨率下构建降水和对应的驱动因素关系，为后续各原始遥感产品的降尺度提供模型。以第i个遥感降水产品P_i为例，利用SRF在月尺度上建立

X m o n t h r i

、

P O K r i

和P_i之间的关系：

（3）

P i p 0 = f d o w n s c a l e X m o n t h r i p 0, P O K r i p 0 + ε p 0

式中：P_i(p₀)表示第i种原始遥感降水产品在p₀处的降水值；ε为拟合残差。

（3）降水数据降尺度

该步骤是依据“关系尺度不变假设”^[30]将高分辨率的环境因子和插值结果输入到SRF降尺度模型，进而得到降尺度结果。以第i个遥感降水产品P_i为例，将

X m o n t h r 0

和

P O K r 0

输入SRF降尺度模型（式（3））得到降尺度数据（

P i, m o n t h r 0

）：

（4）

P i, m o n t h r 0 = f d o w n s c a l e X m o n t h r 0, P O K r 0

（4）月尺度分解为日尺度

该步骤为通过日比率数据将月尺度的降尺度结果分解为日尺度结果。以第i个遥感降水产品P_i为例，利用日比率数据（BL_i_,_j）将该遥感降水产品降尺度后的月降水数据分解为日降水数据。其中，BL_i_,_j表示第i个降水产品第j天的日比率，其由原始日尺度遥感降水数据计算得到，具体可表达为：

（5）

B L i, j = P i, j ∑ j = 1 n P i, j (j = 1,2, …, n)

式中：P_i_,_j为第i种遥感降水产品第j天的降水量；n为该月的天数。

然后，利用OK将BL_i_,_j插值为r₀分辨率的日比率数据（

B L i, j r 0

）。最后，通过

B L i, j r 0

将该遥感产品的月降尺度数据（

P i, m o n t h r 0

）分解为日降水数据（

P i, d a i l y r 0

）。本文将所有遥感降水产品分解后的日降水数据表示为

P d a i l y r 0 = P 1, d a i l y r 0, …, P N, d a i l y r 0,

。

（5）基于空间随机森林的融合模型构建

该步骤为利用SRF构建站点观测数据（G）、所有遥感降水降尺度的日降水数据（

P d a i l y r 0

）、站点观测数据插值的降水数据（

G O K r 0

）和日尺度环境因子（

X d a i l y r 0

）之间的关系，具体模型如下：

（6）

G p 0 = f m e r g i n g P d a i l y r 0 p 0, X d a i l y r 0 p 0, G O K r 0 p 0 + ε p 0

式中：

G p 0

、

P d a i l y r 0 p 0

、

X d a i l y r 0 p 0

和

G O K r 0 p 0

分别表示对应观测数据在站点p₀的取值；ε为拟合残差。

（6）多源日降水数据融合

该步骤为将所有遥感降水降尺度的日降水数据（

P d a i l y r 0

）、站点观测数据插值的降水数据（

G O K r 0

）和日尺度环境因子（

X d a i l y r 0

）输入到多源遥感数据融合模型中，实现对r₀分辨率的多源降水数据融合估计（MDP），具体表达为：

(7)

M D P = f m e r g i n g P d a i l y r 0, X d a i l y r 0, G O K r 0

3 研究数据和实验设计

3.1 研究区概况

四川省位于中国西南腹地（97°21'E—108°31'E，26°03'N—34°19'N），地处长江上游，总面积48.6 km²，地势介于第一阶梯青藏高原与第二阶梯长江中下游平原，是二者的过渡地带。研究区地跨青藏高原、横断山脉、云贵高原、秦巴山地、四川盆地等单元地貌，地势西高东低，由西北向东南倾斜。受地貌因素和地理纬度的影响，气候的地带性和垂直方向变化十分明显，区域可分为三大气候带。四川盆地中亚热带湿润气候区，全年温暖湿润，雨量充沛；川西南山地亚热带半湿润气候区，四季变化不明显，但干湿季分明，降水量少；川西北高山高原高寒气候区，海拔变化很大，冬寒夏凉，水热不足^[3]。图2为研究区域地形及气象站点分布。

显示原图|下载原图ZIP|生成PPT

图2 四川省气象站分布

Fig. 2 Distribution of weather stations in Sichuan Province

3.2 数据源

3.2.1 气象站数据

本文采用四川省内的156个气象站观测数据，该数据由中国气象局气象数据中心（http://data.cma.cn/）提供。由于雨量计测量的时间是北京时间前日20:00—今日20:00的日降水量（对应协调世界时（12:00—12:00 UTC）），而所有卫星日降水数据的观测时间范围为协调世界时0:00—24:00 UTC。为了保证地面和卫星降水数据之间日降水量的一致，本文重新计算雨量计日观测数据，将今日的协调世界时12:00—24:00和下一日的协调世界时00:00—12:00的记录进行汇总计算。

3.2.2 卫星降水数据

本文采用5种降水产品，分别是由美国宇航局（NASA）地球科学数据中心提供的第六代IMERG_Final降水数据产品（https://disc.gsfc.nasa.gov/datasets?keywords=IMERG&page=1），日本宇宙航空研究开发机构（JAXA）地球观测研究中心提供的GSMaP_Gauge降水数据产品（https://sharaku.eorc.jaxa.jp/GSMaP/index.html），美国国家海洋和大气管理局（NOAA）气候预测中心提供的CMORPH降水数据产品（https://www.ncei.noaa.gov/products/climate-data-records/precipitation-cmorph），美国加州大学圣巴巴拉分校气候危害中心提供的CHIRPS降水数据产品（https://chc.ucsb.edu/data/chirps），以及美国加利福尼亚大学欧文分校水文气象遥感中心提供的PERSIANN降水数据产品（http://chrsdata.eng.uci.edu/）(表1)。

表1 卫星降水产品基本信息

Tab. 1 Basic information of satellite precipitation products

数据	分辨率	时段/年	来源
IMERG_Final	0.1 °/d	2015—2019	https://disc.gsfc.nasa.gov/datasets?keywords=IMERG&page=1
GSMaP_Gauge	0.1 °/h	2015—2019	https://sharaku.eorc.jaxa.jp/GSMaP/index.html
CMORPH	0.25 °/d	2015—2019	https://www.ncei.noaa.gov/products/climate-data-records/precipitation-cmorph
CHIRPS	0.05 °/d	2015—2019	https://chc.ucsb.edu/data/chirps
PERSIANN	0.25 °/d	2015—2019	http://chrsdata.eng.uci.edu/

3.2.3 环境驱动因子

本文根据研究区实际情况以及影响降水量的地理因子、大气因子和地形因子进行分析研究^[15,31]，选取了地理位置、DEM及相应衍生因子、温度（LST和2 m-temperature）、植被归一化指数（NDVI）等环境因子（表2）。其中，DEM数据采用SRTM （Shuttle Radar Topography Mission） DEM V4.1数据集，从地理空间数据云（http://www.gscloud.cn/）获取，并利用ArcGIS对DEM进行处理获得高程（Elevation）、坡度（Slope）、坡向（Aspect）、地形起伏度数据（Relief）。NDVI（MOD13A3）和LST（MOD11A2）数据由美国航空局（https://ladsweb.modaps.eosdis.nasa.gov）提供，其中LST数据产品经过提取和计算处理得到白天地表温度数据（LST-D）、夜间地表温度数据（LST-N）和白天与夜间的温度差数据（LST-DN），并求取相对应的月平均温度。2 m-temperature数据由欧洲中期天气预报中心（ERA5）提供（https://cds.climate.copernicus.eu/cdsapp#!/dataset/），该数据经过处理得到日尺度白天温度数据（T-D）、日尺度夜间温度数据（T-N）和日尺度温差数据（T-DN），并采用双线性内插法获得相应的1 km空间分辨率数据。

表2 环境驱动因子基本信息

Tab. 2 Basic information of environment drivers

数据	分辨率	时段/年	来源
DEM	90 m	2015—2019	https://www.gscloud.cn/
NDVI	1 km/月	2015—2019	https://ladsweb.modaps.eosdis.nasa.gov
LST	1 km/8d	2015—2019	https://ladsweb.modaps.eosdis.nasa.gov
2 m-temperature	10 km/h	2015—2019	https://cds.climate.copernicus.eu/cdsapp#!/dataset/

3.3 实验设计

为了验证本文方法的有效性和优越性，将本文方法与原始遥感降水产品和多种机器学习方法进行比较分析。其中，原始遥感降水产品包括IMERG、GSMaP、CMORPH、CHIRPS和PERSIANN；机器学习方法包括未考虑空间自相关的随机森林融合方法（RF-MEP）、以双线性插值作为降尺度的机器学习融合方法（RF、ANN），以及先利用RF对是否降水进行分类的机器学习融合方法（RF-RF、RF-ANN）。本文采用定量指标和定性指标作为精度评价指标；采用十折交叉验证方法来验证所有方法的性能。其中十折交叉验证是将原始数据集分为10个子集，每次将其中一个子集作为验证集，剩下的9个子集作为训练集，最后，将这10组结果求平均，得到模型的最终结果。

3.3.1 定量指标

定量统计指标包括均方根误差（RMSE）、平均绝对误差（MAE）、相关系数（CC）和修正Kling-Gupta效率（KGE）计算公式分别为：

（8）

M A E = 1 n ∑ i = 1 n Δ P i

（9）

R M S E = ∑ i = 1 n Δ P i 2 / n

（10）

C C = ∑ i = 1 n P s i - P s i ¯ P o i - P o i ¯ ∑ i = 1 n P s i - P s i ¯ 2 ∑ i = 1 n P o i - P o i ¯ 2

（11）

K G E = 1 - (C C - 1) 2 + (β - 1) 2 + (γ - 1) 2

（12）

β = P s ¯ P o ¯

（13）

γ = σ P s / P s ¯ σ P o / P o ¯

式中：P_oi和P_si代表第i个站点处降水实测值和降水预估数据；

Δ P i = P s i - P o i

；

P o ¯

和

P s ¯

代表站点处实测降水和降水预估数据的算术平均值；

σ P s

和

σ P o

代表站点处实测降水和降水预估数据的标准差；n表示气象站点个数。

3.3.2 定性指标

定性指标用来评估降水产品探测降水的能力，分别为命中率（POD）、误报率（FAR）和关键成功指数（CSI）。其中POD表示正确探测到降水事件频率，FAR表示预估值识别到降水而站点实测值未识别到降水事件所占比率，CSI表示预估值正确诊断降水事件的整体能力。计算公式分别为：

(14)

P O D = H H + M

(15)

F A R = F H + F

(16)

C S I = H H + F + M

式中：H为卫星降水数据正确探测到的降水事件数；M为卫星降水数据错误探测到的降水事件数；F为卫星降水数据未探测到的降水事件数；其中以站点观测的降水事件为参考。POD和CSI的最优值为1，FAR的最优值为0。在本研究中，本文采用了推荐的5种降水强度^[32]：无雨（[0，1） mm/d）、小雨（[1，5） mm/d）、中雨（[5，20） mm/d）、大雨（[20，40）mm/d）及暴雨（大于40 mm/d）。

4 结果与分析

4.1 整体评价

SRF-MF与5种卫星降水产品和5种机器学习方法在日尺度上的精度表明（图3），GSMaP在RMSE和MAE方面的表现略好于其他原始卫星降水数据，而CHIRPS的表现最差。与原始卫星降水数据相比，经过机器学习方法校正的降水产品，误差明显降低，每种方法的RMSE和MAE中值分别都至少降低了23.6%和11.7%，而SRF-MF产品是表现最好，其RMSE和MAE中值分别降低了41.5%和16.4%，表明SRF-MF对卫星降水数据的校正效果最优。所有原始卫星降水数据的CC中值介于0.2到0.5之间，KGE中值均小于0.1，其中最高的 GSMaP相关系数中值为0.42，说明原始降水产品对实际降水情况解释程度低。相比之下，除RF-MEP产品外，其他机器学习方法的精度都有很大提升，CC中值均大于0.45，KGE中值均大于0.25，并且SRF-MF的CC中值为0.68，KGE中值为0.51，表现最好，说明本文提出的多源融合方法是有效的。

显示原图|下载原图ZIP|生成PPT

图3 2015—2019年日尺度精度指标箱线图

Fig. 3 Boxplot of daily scale accuracy indexes from 2015 to 2019

为了探究降水产品在不同降水强度下对日降水的探测性能，绘制了不同降水产品的点线图（图4）。结果表明，所有产品都可以有效的捕捉到无雨事件，采用干湿分类的RF-ANN和RF-RF方法表现更好。降水产品对于降水事件的捕捉具有相似的性能，在[5,20） mm/day降水强度下具有更好的探测能力，而在[20,40） mm/day降水强度下对降水的探测能力最差,误报率最高。在卫星降水产品中，CHIRPS在强降水事件中具有不错的命中率，对于其他降水事件的探测表现最差，而GSMaP产品对降水的探测能力最强。对于机器学习方法而言，SRF-MF对降水事件的探测能力最好，准确性最高，在降水强度大于5 mm/day时，SRF-MF的优势更为明显；其次是RF-ANN和RF-RF产品，最差的为ANN产品。总体而言，相比原始降水产品，机器学习对降水的探测能力有所提升，其中采用干湿分类可以更准确地判断无雨事件，但本文方法对于降水事件的探测能力明显优于其他方法。

显示原图|下载原图ZIP|生成PPT

图4 不同降水强度统计指标

Fig. 4 Statistical indicators of different precipitation intensities

4.2 多时间尺度分析

为了更充分的体现各降水产品的性能优劣，在不同时间尺度对其进行评估分析，以探究卫星降水产品和融合方法的性能。

4.2.1 月尺度

图5为各降水产品在月尺度上的性能指标图。结果表明，各卫星降水产品的CC在降水量丰富月份（6—9月）明显优于降水量少的月份，而RMSE误差随着降水量的增加，也随之增加，这是由于在降水量丰富时卫星更容易准确捕捉到降水事件，但误差值也相应增加。其中GSMaP产品在降水多的月份表现出更好的性能，说明GSMaP对强降水具有更好的捕捉性能，而CHIRPS产品的RMSE误差最大，表明CHIRPS产品的错估现象更显著；IMERG产品性能最为稳定，在降水充沛和稀疏的月份都具有不错的性能表现。不同产品在不同月份各有优劣，在降水充沛的月份卫星产品具有更良好的性能，而多源融合产品的性能在全部月份都优于卫星原始降水产品。其中本文方法SRF-MF表现最优越，相较于其他机器学习方法，其CC至少提高5.1%。除3月外，SRF-MF的RMSE误差明显低于其他产品，并且误差值至少降低6%。

显示原图|下载原图ZIP|生成PPT

图5 不同月份各降水产品的CC与RMSE指标对比

Fig. 5 Comparison of CC and RMSE indexes of precipitation products in different months

4.2.2 季尺度

图6为降水产品在不同季节的性能指标。结果表明在原始卫星降水产品中，CMORPH在春秋2个季节表现最好，IMERG在4个季节中表现最为稳定，GSMaP在夏季具有较好的性能，其CC和KGE分别达到了0.61和0.55，而在冬季表现最差。这是因为卫星搭载的传感器类型和反演技术不同，导致卫星在不同季节对降水的探测能力存在差异^[33]。与原始降水产品相比，多源降水数据融合产品具有更优越的性能，其中SRF-MF在夏季、秋季和冬季表现最好，其CC分别为0.73、0.81、0.83，RF-RF和RF表现次之，RF-MEP最差，并且SRF-DM的RMSE至少降低4.5%。这是因为RF-MEP方法并未考虑到降水的空间自相关特征，而其他机器学习方法都加入空间相关信息，并且本文方法在降尺度与数据融合中都加入空间自相关信息，可以获得更准确的基础数据。

显示原图|下载原图ZIP|生成PPT

图6 2015—2019年降水产品的季节指标

Fig. 6 Seasonal indicators of precipitation products from 2015 to 2019

4.2.3 年尺度

图7为年尺度下SRF-MF和其他方法产品的性能指标分布图。由图可知，SRF-MF方法的KGE指标一直表现最佳，说明本文方法对降水质量提升是有效的，并且，SRF-MF在与站点数据的相关性方面表现最好，相关系数最高。对于不同年份的原始卫星降水产品，它们具有相似的性能表现。其中，CMORPH产品展现出良好的相关性，而CHIRPS产品表现最差。对于传统机器学习方法，RF-RF展现出最佳的相关性，而RF-MEP的相关系数最低。相较于原始卫星产品，SRF-MF中误差至少降低27.09%，与机器学习方法相比，至少降低6.48%，SRF-MF的MAE误差至少降低47.8%，与机器学习方法相比，至少降低2.89%。

显示原图|下载原图ZIP|生成PPT

图7 降水产品的性能指标

Fig. 7 Performance indicator chart of precipitation products

4.3 降水的空间分布评估

为了更加细致探究降水产品的空间分布特征，以站点降水量为标准选取春季降水量最大的日期（2018年5月21日），并选择机器学习方法和卫星降水产品中较好产品绘制降水分布图，图8为4种降水产品和实测站点的降水分布图。

显示原图|下载原图ZIP|生成PPT

图8 日尺度降水分布

Fig. 8 Daily precipitation distribution

由图8可知，原始卫星降水产品IMERG有效捕捉到了降水的空间分布，但其空间纹理太粗糙，无法表达降水的空间细节信息。而SRF-MF、RF-RF和RF降水产品在空间分辨率上都得到明显提升，但RF-RF和RF降水产品可以明显看出“牛眼”现象^[34]，不符合降水的空间分布特征。本文方法在降尺度和融合过程中都加入环境信息和降水空间信息，融合后的产品增加了降水的空间细节信息，改善了空间纹理特征，提高了降水空间分布的准确性。

5 讨论

5.1 不同站点密度的影响

图9显示了不同站点密度下SRF-MF和插值产品(即OK、IDW)的KGE箱线图。可以观察到，随着站点密度从100%降至10%，每种方法的性能都出现下降趋势。其中，相较于其他2种插值方法，在相同站点密度内，SRF-MF方法精度最优，OK插值方法次之，IDW法最差，说明SRF-MF对空间自相关信息的捕捉能力最强。尤其当站点密度从50%降至10%时，SRF-MF方法的KGE值下降趋势更为缓和，表明相对于仅插值方法，SRF-MF方法的性能在数据稀缺的情况下更加优秀。

显示原图|下载原图ZIP|生成PPT

图9 不同密度指标

Fig. 9 Different density indicators

5.2 环境因子重要性排序

图10显示了在SRF-MF模型中不同环境因子的平均重要性排序。由图10可知，本文采用的环境因子对提升降水质量都具一定的贡献性。其中，OK因子的降水的空间信息值重要性最为显著，重要性值高达0.64，说明区域降水间存在较强的空间自相关性。在众多降水产品中，IMERG重要性最高，重要性为0.30； GSMaP次之，重要性为0.23； CHIRPS最差，重要性为0.10，表明精度更高的降水产品在融合过程中起到决定作用。地理位置因子同样具有较高的重要性，经度和纬度的重要性均在0.20以上，这与研究区所处的气候带和季风带有很大关系。地形因子和大气因子同样会对降水产生重要影响，海拔和气温对降水的影响相对较高，而坡度和地形起伏度的影响相对较小，重要性分别为0.09和0.10，可能受到降水空间分辨率的影响，降水和地形因子间的关系难以有效表达。

显示原图|下载原图ZIP|生成PPT

图10 环境因子重要性排序

Fig. 10 Environmental factor importance ranking chart

6 结论

为了提高降水产品的空间分辨率和准确性，本文提出一种顾及空间自相关的随机森林方法，用于多源遥感降水产品融合（SRF-MF）。该方法利用多种遥感卫星降水产品独特的空间分布信息和准确的站点数据信息加以融合，并在降尺度和融合过程中考虑降水的空间自相关信息以获得高质量的降水数据。同时将SRF-MF方法在日、月、季和年时间尺度上与原始降水产品和其他机器学习方法（RF-MEP、RF、ANN、RF-RF、RF-ANN）对比。分析结果表明：

（1） SRF-MF降水分布图在空间分辨率和细节特征上明显优于原始降水产品和其他机器学习方法。

（2）不同降水强度下对降水事件的探测能力，各降水产品都具有相似性能，在[5,20） mm/d降水强度下具有更好的降水探测能力，而在[20,40） mm/d降水强度下对降水的探测能力最差，误报率最高，而SRF-MF在降水强度大于5 mm/day时，对降水事件的探测能力明显优于其他方法。

（3）在不同时间尺度上，SRF-MF的精度最好。具体而言，在日尺度上相对于原始卫星降水产品，SRF-MF的RMSE中值和MAE中值分别至少降低了41.5%和16.4%，在月尺度上，SRF-MF的相关系数至少提高5.1%，RMSE误差至少降低6%；对于季节尺度，SRF-MF在夏季、秋季和冬季的相关系数最高，并且RMSE至少降低4.5%；在年尺度上，SRF-MF误差至少降低27.09%，与机器学习方法相比误差也至少降低6.48%。

（4）随着站点密度的下降，SRF-MF和各插值产品精度逐渐下降。但在不同的站点密度下，SRF-MF方法的性能均优于其他插值产品。此外，环境环境因子中，OK因子和降尺度后的降水因子对SRF-DM模型起主要作用，这说明在降水估计中应该充分利用降水之间的空间自相关信息。

本文图文责任编辑：蒋树芳黄光玉

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	Duan Z, Bastiaanssen W G M. First results from Version 7 TRMM 3B43 precipitation product in combination with a new downscaling-calibration procedure[J]. Remote Sensing of Environment, 2013, 131:1-13. DOI:10.1016/j.rse.2012.12.002

[2]	熊立华, 刘成凯, 陈石磊, 等. 遥感降水资料后处理研究综述[J]. 水科学进展, 2021, 32(4):627-637. [Xiong L H, Liu C K, Chen S L, et al. Review of post-processing research for remote-sensing precipitation products[J]. Advances in Water Science, 2021, 32(4):627-637. ] DOI:10.14042/j.cnki.32.1309.2021.04.014

[3]	Yang M X, Liu G D, Chen T, et al. Evaluation of GPM IMERG precipitation products with the point rain gauge records over Sichuan, China[J]. Atmospheric Research, 2020,246:105101. DOI:10.1016/j.atmosres.2020.105101

[4]

杜晓婉, 陈曦, 郑宏伟, 等. 一种降水降尺度模型:地形约束下的条件生成对抗网络[J]. 地球信息科学学报, 2023, 25(8):1586-1600.

DOI

[Du

X W

, Chen

, Zheng

H W

, et al. A precipitation downscaling model: Conditional generative adversarial networks under terrain constraints[J]. Journal of Geo-information Science, 2023, 25(8):1586-1600. ] DOI:10.12082/dqxxkx.2023.230033

[5]	Tang G Q, Ma Y Z, Long D, et al. Evaluation of GPM Day-1 IMERG and TMPA Version-7 legacy products over Mainland China at multiple spatiotemporal scales[J]. Journal of Hydrology, 2016, 533:152-167. DOI:10.1016/j.jhydrol.2015.12.008

[6]	Chen F R, Gao Y Q, Wang Y G, et al. A downscaling-merging method for high-resolution daily precipitation estimation[J]. Journal of Hydrology, 2020,581:124414. DOI:10.1016/j.jhydrol.2019.124414

[7]

高歆, 袁胜元, 李京忠, 等. 面向稀疏降水站点的套合各向异性贝叶斯地统计估计研究[J]. 地球信息科学学报, 2022, 24(8):1445-1458.

DOI

[Gao

, Yuan

S Y

, Li

J Z

, et al. Bayesian geostatistical modelling for precipitation data with nested anisotropy measured at sparse reference stations[J]. Journal of Geo-information Science, 2022, 24(8):1445-1458. ] DOI:10.12082/dqxxkx.2022.210729

[8]	Bai X Y, Wu X Q, Wang P. Blending long-term satellite-based precipitation data with gauge observations for drought monitoring: Considering effects of different gauge densities[J]. Journal of Hydrology, 2019,577:124007. DOI:10.1016/j.jhydrol.2019.124007

[9]	Verdin A, Funk C, Rajagopalan B, et al. Kriging and local polynomial methods for blending satellite-derived and gauge precipitation estimates to support hydrologic early warning systems[J]. IEEE Transactions on Geoscience and Remote Sensing, 2016, 54(5):2552-2562. DOI:10.1109/TGRS.2015.2502956

[10]	Woldemeskel F M, Sivakumar B, Sharma A. Merging gauge and satellite rainfall with specification of associated uncertainty across Australia[J]. Journal of Hydrology, 2013, 499:167-176. DOI: 10.1016/j.jhydrol.2013.06.039

[11]	Ma Z Q, Xu J T, Zhu S Y, et al. AIMERG: A new Asian precipitation dataset (0.1°/half-hourly, 2000-2015) by calibrating the GPM-era IMERG at a daily scale using APHRODITE[J]. Earth System Science Data, 2020, 12(3):1525-1544. DOI:10.5194/essd-12-1525-2020.

[12]	Mega T, Ushio T, Takahiro M, et al. Gauge-adjusted global satellite mapping of precipitation[J]. IEEE Transactions on Geoscience and Remote Sensing, 2019, 57(4):1928-1935. DOI:10.1109/TGRS.2018.2870199.

[13]	Beck H E, Wood E F, Pan M, et al. MSWEP V2 global 3-hourly 0.1° precipitation: Methodology and quantitative assessment[J]. Bulletin of the American Meteorological Society, 2019, 100(3):473-500. DOI:10.1175/bams-d-17-0138.1

[14]	Lyu F, Tang G Q, Behrangi A, et al. Precipitation merging based on the triple collocation method across Mainland China[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021, 59(4):3161-3176. DOI:10.1109/TGRS.2020.3008033

[15]	Zhang T T, Liang Z M, Wang H J, et al. Merging multisatellite precipitation products using stacking method and the censored-shifted gamma ensemble model output statistics in China's Beimiaoji Basin[J]. Journal of Hydrology, 2023,618:129263. DOI:10.1016/j.jhydrol.2023.129263

[16]

胡保健, 李伟, 陈传法, 等. 利用空间随机森林方法提升GPM卫星遥感降水质量[J]. 遥感学报, 2024, 128(2):414-425.

[ Hu

B J

, Li

, Chen

C F

, et al. Improving the quality of remotely sensed precipitation product from GPM satellites using a spatial random forest[J]. National Remote Sensing Bulletin, 2024, 28(2):414-425. ] DOI:10.11834/jrs.20221222

[17]	Kumar Y P, Maheswaran R, Agarwal A, et al. Intercomparison of downscaling methods for daily precipitation with emphasis on wavelet-based hybrid models[J]. Journal of Hydrology, 2021,599:126373. DOI:10.1016/j.jhydrol.2021.126373

[18]	Jing Y H, Lin L P, Li X H, et al. An attention mechanism based convolutional network for satellite precipitation downscaling over China[J]. Journal of Hydrology, 2022,613:128388. DOI:10.1016/j.jhydrol.2022.128388

[19]	张良培, 何江, 杨倩倩, 等. 数据驱动的多源遥感信息融合研究进展[J]. 测绘学报, 2022, 51(7):1317-1337. DOI [Zhang L P, He J, Yang Q Q, et al. Data-driven multi-source remote sensing data fusion: Progress and challenges[J]. Acta Geodaetica et Cartographica Sinica, 2022, 51(7):1317-1337. ] DOI:10.11947/j.AGCS.2022.20220171

[20]	Ma Y Z, Sun X, Chen H N, et al. A two-stage blending approach for merging multiple satellite precipitation estimates and rain gauge observations: An experiment in the northeastern Tibetan Plateau[J]. Hydrology and Earth System Sciences, 2021, 25(1):359-374. DOI:10.5194/hess-25-359-2021

[21]	Zhu S Y, Ma Z Q, Xu J T, et al. A morphology-based adaptively spatio-temporal merging algorithm for optimally combining multisource gridded precipitation products with various resolutions[J]. IEEE Transactions on Geoscience and Remote Sensing, 2021,60:4103221. DOI:10.1109/TGRS.2021.3097336

[22]	Zhao Y M, Xu K, Dong N P, et al. Optimally integrating multi-source products for improving long series precipitation precision by using machine learning methods[J]. Journal of Hydrology, 2022,609:127707. DOI:10.1016/j.jhydrol.2022.127707

[23]

Mekonnen

, Melesse

A M

, Woldesenbet

T A

. Merging satellite rainfall estimates and daily rain gauge observations for improved flood simulation in MelkaKuntire Catchment, upper Awash Basin, Ethiopia[J]. Remote Sensing Applications: Society and Environment, 2022,25:100701. DOI:10.1016/j.rsase.2022.100701

[24]	Zhang L, Li X, Zheng D H, et al. Merging multiple satellite-based precipitation products and gauge observations using a novel double machine learning approach[J]. Journal of Hydrology, 2021,594:125969. DOI:10.1016/j.jhydrol.2021.125969

[25]	Zandi O, Zahraie B, Nasseri M, et al. Stacking machine learning models versus a locally weighted linear model to generate high-resolution monthly precipitation over a topographically complex area[J]. Atmospheric Research, 2022,272:106159. DOI:10.1016/j.atmosres.2022.106159

[26]	Nie S P, Luo Y, Wu T W, et al. A merging scheme for constructing daily precipitation analyses based on objective bias-correction and error estimation techniques[J]. Journal of Geophysical Research (Atmospheres), 2015, 120(17):8671-8692. DOI:10.1002/2015JD023347

[27]	Hengl T, Nussbaum M, Wright M N, et al. Random forest as a generic framework for predictive modeling of spatial and spatio-temporal variables[J]. PeerJ, 2018,6:e5518. DOI:10.7717/peerj.5518

[28]	Sekulić A, Kilibarda M, Heuvelink G B M, et al. Random forest spatial interpolation[J]. Remote Sensing, 2020, 12(10):1687. DOI:10.3390/rs12101687

[29]	Lu X Y, Tang G Q, Wang X Q, et al. Correcting GPM IMERG precipitation data over the Tianshan Mountains in China[J]. Journal of Hydrology, 2019, 575:1239-1252. DOI:10.1016/j.jhydrol.2019.06.019

[30]	祝新明, 宋小宁, 冷佩, 等. 多尺度地理加权回归的地表温度降尺度研究[J]. 遥感学报, 2021, 25(8):1749-1766. [Zhu X M, Song X N, Leng P, et al. Spatial downscaling of land surface temperature with the multi-scale geographically weighted regression[J]. National Remote Sensing Bulletin, 2021, 25(8):1749-1766. ] DOI:10.11834/jrs.20211202

[31]	Yu C, Shao H Y, Hu D Y, et al. Merging precipitation scheme design for improving the accuracy of regional precipitation products by machine learning and geographical deviation correction[J]. Journal of Hydrology, 2023,620:129560. DOI:10.1016/j.jhydrol.2023.129560

[32]	Zambrano-Bigiarini M, Nauditt A, Birkel C, et al. Temporal and spatial evaluation of satellite-based rainfall estimates across the complex topographical and climatic gradients of Chile[J]. Hydrology and Earth System Sciences, 2017, 21(2):1295-1320. DOI:10.5194/hess-21-129 5-2017

[33]	He K L, Chen X H, Liu J, et al. A multiple-step scheme for the improvement of satellite precipitation products over the Tibetan Plateau from multisource information[J]. Science of the Total Environment, 2023,873:162378. DOI:10.1016/j.scitotenv.2023.162378

[34]	张梅霞. 广安市近60年气候变化特征研究[D]. 成都: 四川师范大学, 2022. [ Zhang M X. Study on climate change characteristics of Guang 'an city in recent 60 years[D]. Chengdu: Sichuan Normal University, 2022. ]

Options

文章导航

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 研究方法

图1 多源数据融合流程

2.1 空间随机森林（SRF）模型

2.2 基于SRF的多源遥感降水数据融合（SRF-MF）

3 研究数据和实验设计

3.1 研究区概况

图2 四川省气象站分布

3.2 数据源

3.2.1 气象站数据

3.2.2 卫星降水数据

表1 卫星降水产品基本信息

3.2.3 环境驱动因子

表2 环境驱动因子基本信息

3.3 实验设计

3.3.1 定量指标

3.3.2 定性指标

4 结果与分析

4.1 整体评价

图3 2015—2019年日尺度精度指标箱线图

图4 不同降水强度统计指标

4.2 多时间尺度分析

4.2.1 月尺度

图5 不同月份各降水产品的CC与RMSE指标对比

4.2.2 季尺度

图6 2015—2019年降水产品的季节指标

4.2.3 年尺度

图7 降水产品的性能指标

4.3 降水的空间分布评估

图8 日尺度降水分布

5 讨论

5.1 不同站点密度的影响

图9 不同密度指标

5.2 环境因子重要性排序

图10 环境因子重要性排序

6 结论

参考文献