

  杨明远
  刘海砚
  季晓林
  郭文月
  陈思雯
  信息工程大学,郑州 450001


收稿日期: 2017-12-07

  要求修回日期: 2018-02-04

  网络出版日期: 2018-04-20




An Improved Spatio-temporal Kriging Algorithm to Sparse Scattered Dataset

  • YANG Mingyuan , * ,
  • LIU Haiyan ,
  • JI Xiaolin ,
  • GUO Wenyue ,
  • CHEN Siwen
  • Information Engineering University, Zhengzhou 450001, China
*Corresponding author: YANG Mingyuan

Received date: 2017-12-07

  Request revised date: 2018-02-04

  Online published: 2018-04-20

Supported by

National Natural Science Foundation of China, No.41501446

Open Research Fund Program of State Key Laboratory of Geoinformation Engineering, No.SKLGIE2015-M-4-3.


杨明远 , 刘海砚 , 季晓林 , 郭文月 , 陈思雯 . 面向稀疏散布数据集的时空Kriging优化[J]. 地球信息科学学报, 2018 , 20(4) : 505 -514 . DOI: 10.12082/dqxxkx.2018.170592


Spatio-temporal Kriging is efficiently used in interpolation by adjacent sampling point in space-time. The core is to extend the spatial variogram into space time. Because sparse scattered dataset is lack of sampling point in single time slice and the distribution of point is non-uniform, we propose an improved method of spatio-temporal Kriging against low precision. First, the trend surface of the sample is obtained by using cubic polynomial. The sample data is decomposed into trend terms and residual terms, because original trending sample data can't satisfy the stationary assumption required for Kriging interpolation. Then, the time variogram is fitted with less data coming from a nearby stationary station. The sampling position of the stationary station is constant and the sampling frequency is consistent. It is suitable for fitting the variogram because its observation sequence is longer, although few in quantity. Meanwhile,instead of fitting method by dataset in all-time, we adopt the strategy of multi-period overlap fitting to obtain a more reasonable spatial variogram. The length of the time segment is selected according to the degree of time variation. The variable values of the sampling point in each sub-period are calculated and overlaid to fit spatial variogram. In such way, the spatio-temporal variogram is constructed based on product-sum model, which is used to estimate the variable value in space and time. In final phrase, interpolation is performed using the spatio-temporal weights solved by Kriging equations. To verify the effectiveness of the proposed method, a comparison with the existing interpolation method is made by sea temperature data of Argo buoys from China Argo real-time data center and moored buoys from Pacific Marine Environmental Laboratory. From the comparison of the cross-verification results of interpolation, we judge the accuracy and stability of the method based on MAE and MSE. Compared to general spatio-temporal kriging and spatio-temporal weight interpolation, the proposed method is increased by 69.5% and 38.9% respectively in accuracy, and increased by 61.9% and 48.9% respectively in stability. The proposed method is improved based on spatio-temporal Kriging, considering the structural characteristics and spatial and temporal variation characteristics of sparse scattered datasets. Spatio-temporal variogram is more scientific and practical, which is constructed through the proposed method. Interpolation precision and stability are also improved significantly.

1 引言

Fig. 1 Comparison of two kinds of dataset

图1 2类数据对比示意图


2 时空Kriging算法


2.1 时空变异函数

变异函数作为Kriging插值的基本工具,能够反映区域化变量的空间变化特征,特别是透过随机性反映区域化变量的结构性。设区域化变量 Z x S 二阶平稳的条件下,定义空间变异函数的公式为:
γ h = 1 2 Var Z x - Z x + h = 1 2 E Z x - Z x + h 2 (1)
式中: x 表示样本点在空间域内的坐标; h 为空间距离。
扩展至时空域后,设时空区域化变量 Z s , t S × T 满足二阶平稳假设, S 表示空间域, T 表示时间域,时空变异函数可以被定义为:
γ h s , h t = 1 2 Var Z s + h s , t + h t - Z s , t = 1 2 E Z s + h s , t + h t - Z s , t 2 (2)
式中: s , t 表示样本点在时空域中的坐标; h s h t 分别为空间和时间距离。

2.2 时空Kriging插值

Z * s , t = i = 1 n λ i Z s i , t i (3)
式中: s i , t i 表示某一样本点 i 在时空域中的坐标。
待求权重系数 λ i i = 1 , 2 , , n 需满足 Z * s , t Z s i , t i 的无偏估计量,且估计方差最小。在二阶平稳假设条件下,通过时空Kriging方程组计算可得:
j = 1 n λ j γ s i , t i , s j , t j - μ = γ s i , t i , s , t i = 1 n λ i = 1 (4)

3 时空Kriging优化方法

时空Kriging插值法的关键在于时空变异函数的拟合结果,而这主要取决于纯空间和纯时间变异函数的拟合。针对稀疏散布的时空数据存在的空间和时间变异函数难以拟合的现状,本文对该方法进行了改进:定义 Z t 为时空范围 S × T s S 内空间点 s 处的空间探针,即 Z s = Z s , t 1 , Z s , t 2 , , Z s , t n ;定义 Z t 为时空范围 S × T t T t 时刻的时间切片,即 Z t = Z ( s 1 , t ) , Z ( s 2 , t ) , , Z ( s n , t ) ,如图2所示。
Fig. 2 Space probe and time slice

图2 空间探针与时间切片

3.1 时间变异函数拟合

时空稀疏散布数据通常由移动采样设备采样生成,造成同一位置的观测值时间序列无法得到,进一步导致时间变异函数难以构建。而固定站具有采样位置不变且频率一致的特点,尽管站点少但便于获得长时间观测序列。因此,本文借助附近少量 k 个固定观测站的空间探针分别进行时间维实验变异函数值的估计。某固定观测站 s 处的时间实验变异函数值计算公式为:
γ t * s , h t = 1 2 n i = 1 n Z s , t i - Z s , t i + h t 2 (5)
由于固定站数量较少,估值点位置处的时间变异情况与各固定站的变异情况受空间距离影响不同,因此本文根据计算结果分别拟合出 k 个固定观测站位置处的时间变异函数 γ t s j , h t ( j = 1 , 2 , , k ) ,将每个时间变异函数的块金指数 C 0 、拱高 C 、变程 a ,通过距离反比加权估计得到估值点处的时间变异函数 γ t ( h t ) 计算公式如下:
γ t h t = 1 k j = 1 k λ j γ t s j , h t (6)
式中: λ j 为固定站到估值点的距离权重系数。

3.2 多时段叠置的空间变异函数拟合

γ s * h s = 1 2 mn j = 0 m i = 1 n Z s i , t - Z s i + h s , t ± j 2 (7)
式(7)将原有求单一时间片的空间实验变异函数值沿着时间维向两侧做适度延展(延展的间隔 m 依据时间变异函数确定,通常不大于3),采用间隔较小的子时段内的样本点分别进行空间实验变异函数值的计算,将各子时段内的实验变异函数值计算结果叠置后共同进行拟合得到 γ s ( h s ) 。较短的子时段内,采样点之间实验变异函数值很大程度地排除了时间变异的干扰,多个子时段的计算结果叠置后保证了拟合空间变异函数所需的数量,同时避免了全时段内样本点之间的时间变异程度过大对变异函数拟合精度的影响。

3.3 时空变异函数构建与插值

γ h s , h t = k 1 C t 0 + k 2 γ s h s + k 1 C s 0 + k 3 γ t h t - k 1 γ s h s γ t h t (8)
k 1 = C s 0 + C t 0 - C st 0 , 0 / C s 0 C t 0 k 2 = C st 0 , 0 - C t 0 / C s 0 k 3 = C st 0 , 0 - C s 0 / C t 0 (9)
式中: γ h s , h t 为时空变异函数; C st 0 , 0 C s 0 C t 0 对应时空、空间和时间变异函数的基台值。
将时空变异函数的计算结果出代入到Kriging方程组式(4)求解时空采样点的时空权重 λ i ,最终通过时空Kriging插值公式(3)计算得到插值结果。

4 实验与分析


4.1 实验数据

Argo(Array for real-time geostrophic oceanography)计划通过投放浮标以获得立体、广域、实时、多要素综合集成的水文剖面数据。浮标随海流自由漂浮,每个Argo浮标隔几天获取一条0~2000 m深度范围内的温盐剖面数据,由于投放批次不同,导致获取信息的频率不一致和获取时间不同步,其数据集是一种典型的时空稀疏散布数据。为了验证本文方法的有效性和稳定性,选择不同区域不同季节的Argo温度数据进行实验。如图3所示实验区A选择西太平洋(140°~160° E,10°~30° N),时间范围为2015年6-7月。实验区B选择西太平洋(150°~170° E,0°~20° N),时间范围为2015年1-2月。实验数据集来自中国Argo实时资料中心。
Fig. 3 Test region

图3 试验区域

TAO(Tropical Atmosphere Ocean)锚式浮标同为海洋观测浮标,具有位置固定的特点,能够锚定位置并获得完整的时间观测序列,但规模远不及Argo浮标,在实验中作为辅助数据用于获得时间变异函数。

4.2 数据预处理

Fig. 4 Vertical interpolation results of Akima

图4 垂直方向Akima插值结果

区域化变量的二阶平稳是影响Kriging插值精度的重要因素,而海温的时空分布较不平稳。本文使用的Argo剖面数据在空间上采样点之间跨度很大,同一天的平均分辨率仅为3°。图5为20 m水深的海温散点图,可以看出水下温度在空间上分布呈现明显的低纬度地区较高的趋势,这影响了样本分布的平稳性,进一步导致空间变异函数的拟合过程易产生孔穴效应。本文在插值前采用局部趋势面分析法,对估值点周围的时空数据进行趋势面拟合。将空间样本数据分解为趋势量和剩余量,对剩余量进行Krging插值后,将插值结果与趋势量相加得到最终结果。该类方法也称为残差Krging法。
Fig. 5 Trend elimination of temperature

图5 趋势面剔除

4.3 结果与分析

4.3.1 实验1:时空变异函数建模
TAO锚式浮标具有固定位置,且观测周期始终为1 d,便于用于拟合时间变异函数。首先,搜索待估点附近的锚式浮标数据,时间范围为 t - 20 , t + 20 t 为估值日期,单位为天)。其次,以范围内的第一个TAO浮标 s 1 为例,利用式(5)计算其实验变异函数值(半方差值)得到变异函数云图(图6(a)),并对各时间间隔下的实验变异函数值求平均后采用球状模型进行拟合,拟合后的时间变异函数结果(图6(b))。最后,将空间范围内全部锚式浮标对应的时间变异函数 γ t s i , h t 参数加权平均得到最终的时间变异函数式((10))。
γ t h t = 0.06 h t = 0 0.81 × 3 h t 2 × 22 - h t 3 2 × 22 3 + 0.06 0 < h t < 22 0.87 h t > 22 (10)
Fig. 6 Fitting of time variogram

图6 时间变异函数拟合

采用4.2节得到的剔除趋势后Argo自由浮标数据,样本集为空间范围为 s - 10 , s + 10 s 为估值点位置,单位为°),时间范围为 t - 20 , t + 20 t 为估值点位置,单位为d)。实验分别用单一子时段、全时段和多时段叠置3种方法对空间实验变异函数值计算,每个区间内的点取平均值便于拟合空间变异函数,并对比拟合结果。其中,基于球面模型的地理空间距离计算采用Haversine公式,结果如下:① 单一子时段内计算得到的实验变异函数值如 图7(a)所示;② 目前普遍采用的方法,忽略时间变异影响直接对整个时段计算得到的空间实验变异函数值如图7(b)所示,该结果较单时段的结果有了较大改善,基本能够实现拟合;③ 利用本文提出的式(7)对多个子时段的实验变异函数值叠置后的结果如图7(c)所示;图7(d)为全时段和多时段的实验变异函数值拟合曲线对比。采用2类方法计算,经最小二乘法拟合得到的空间变异函数分别如下:
γ multi - period h s = 0.03 h s = 0 0.43 × 3 h t 2 × 1250 - h t 3 2 × 1250 3 + 0.03 0 < h s < 1250 0.46 h s > 1250 (11)
γ all - time h s = 0.13 h s = 0 0.30 × 3 h t 2 × 1350 - h t 3 2 × 1350 3 + 0.13 0 < h s < 1350 0.43 h s > 1350 (12)
Fig. 7 Fitting of space variogram

图7 空间变异函数拟合

拟合得到时间变异函数基台值 C t 0 = 0.81 ,2种方式拟合得到的空间变异函数基台值, C s 0 分别为0.46和0.43;时空基台值取时空样本变异函数最大值 C st 0 , 0 = 1 。由于2种方法得到的空间变异函数基台值相差不大,代入式(11)求解积合式模型的3个参数基本保持一致: k 1 = 0.71 , k 2 = 0.42 , k 3 = 0.67 。根据式(10)基于积合式模型构建的2类时空变异函数如下:
γ multi - p eriod h s , h t = γ multi - period h s + γ t h t - 0.67 × γ multi - period h s γ t h t (13)
γ all - time h s , h t = γ all - time h s + γ t h t - 0.67 × γ all - time h s γ t h t (14)
4.3.2 实验2:优化时空Kriging插值与精度对比
Fig. 8 Interpolation process of proposed Spatio-temporal Kriging

图8 本文Kriging插值流程图

Fig. 9 Error of interpolation in partial date

图9 部分日期插值结果误差

将本文方法分别与一般时空Kriging法以及时空权重插值进行横向对比,并对算法可靠性进行验证。同样采用趋势面拟合后的残差进行插值,其区别为:① 本文的时空Kriging优化方法采用的是实验1中多时段叠置拟合得到的时空变异函数参数;② 一般时空Kriging法采用实验1中全时段拟合得到的参数构建的时空变异函数进行插值;③ 时空权重插值法主要涉及:空间影响半径和事件影响范围2个参数,参考文献分别设置为500 km和7 d。
每日插值结果的平均误差对比如图10、11所示,以预测值与实测值之间的平均绝对误差(Mean Absolute Error,MAE)以及均方差(Mean Square Error,MSE)作为衡量精度依据(表1)。不难看出,在面向时空稀疏散布的Argo海温数据的插值实验中,Levy方法和一般时空Kriging方法的MAE分别在[0.5, 0.6]和[0.4, 0.5]且MSE较大,本文提出的优化算法MAE保持在0.2左右,精度和稳定性较前2种方法均有所提升。主要原因在于:① 3种方法均通过时空邻近点分配权重进行插值,时空权重法通过时空距离分配权重进行插值,仅考虑了估值点与邻近采样点之间的相互关系,存在精度不足的问题;② Kriging法建立在对采样点的时空自相关分析基础之上,依据自然现象的时空变异规律进行插值。由于考虑了预测点与采样点之间的相互关系,同时也考虑了每个采样点之间的时空关系,在插值精度上较时空权重插值具有一定优势;③ 本文的研究对象为时空稀疏散布数据,面临的主要困难在于单一时刻下空间邻域内的采样点数量不足,导致空间变异函数难以获得,需要补充时空邻域中的采样点拟合空间变异函数,一般时空Kriging法在未经优化的情况下,忽视了长时段内采样点之间的时间变异对空间变异函数值计算的干扰,导致最终拟合的空间变异函数表现出随机性过大。本文的时空Kriging优化方法通过子时段划分计算空间变异函数值,叠置拟合构建变异函数的方式有效削减了时间变异的影响,使得最终的插值精度进一步提高。
Fig. 10 Comparison of mean error in different day(area A)

图10 每日插值的平均误差对比(实验区A)

Fig. 11 Comparison of mean error in different day(area B)

图11 每日插值的平均误差对比(实验区B)

Tab. 1 Comparison of error statistics

表1 误差统计结果对比

误差统计量 本文方法 时空Kriging 时空权重法
实验区A 实验区B 实验区A 实验区B 实验区A 实验区B
MAE 0.160 0.204 0.540 0.603 0.407 0.473
MSE 0.067 0.102 0.176 0.301 0.131 0.168

5 结论


