Kriging Interpolation Method Optimized by Multi-scale Least Squares Support Vector Machine

  • CHE Lei , 1, 2 ,
  • WANG Haiqi , 1, * ,
  • FEI Tao 1 ,
  • YAN Bin 1 ,
  • LIU Yu 1 ,
  • GUI Li 1 ,
  • CHEN Ran 1 ,
  • ZHAI Wenlong 1
  • 1. School Of Geosciences, China University of Petroleum (East China), Qingdao 266580, China
  • 2. China Research Institute of Radiowave Propagation Qingdao Branch, Qingdao 266107, China;
*Corresponding author: WANG Haiqi, E-mail:

Received date: 2016-10-31

  Request revised date: 2017-06-20

  Online published: 2017-08-20


Kriging interpolation method realizes spatial weighted estimation that meets the unbiasedness and optimality according to the position relationship between the estimated location sites and the known sample sites and regionalized variable spatial correlation. Traditional theoretical model shape is fixed and chosen with subjectivity, which can't reflect the changing trend and multi-scale spatial characteristics. The choice of scale and the treatment of scale effects also need to be considered. To solve the problems above, we propose a method of kriging interpolation optimized by multi-scale least squares support vector machine (LS-SVM), which provides a new idea for fitting experimental variogram. Starting from the changing trend of the actual sample data, least squares support vector machine fits experimental variogram and the results conform to the spatial changing trend of data itself. Secondly, the wavelet kernel as the LS-SVM kernel function, parameters can be adjusted according to different parts of the nuclear, which is flexible and variable. Finally, the multi-scale wavelet kernel using wavelet multi-resolution characteristics, can reflect the different details of spatial changes, to avoid the single scale LS-SVM ignoring the spatial details of the problem. Followed that, the experiment includes simulation and application. Experimental simulation mainly verifies scientific validity and accuracy by the optimized interpolation of multi-scale least squares support vector machine. Meanwhile, experimental application research of PM2.5 concentrations of temporal and spatial distribution provides the theoretical basis for city ecological protection and controlling. Final results show that kriging interpolation algorithm optimized by multi-scale least squares support vector machine is superior to the traditional method and single scale optimized kriging interpolation algorithm. It would be better to depict the variation function and reflect the different scales of spatial changes in details to further improve the accuracy of the interpolation to some extent, which is an optional kriging interpolation method.

Cite this article

CHE Lei , WANG Haiqi , FEI Tao , YAN Bin , LIU Yu , GUI Li , CHEN Ran , ZHAI Wenlong . Kriging Interpolation Method Optimized by Multi-scale Least Squares Support Vector Machine[J]. Journal of Geo-information Science, 2017 , 19(8) : 1001 -1010 . DOI: 10.3724/SP.J.1047.2017.01001

1 引言

空间插值(Spatial interpolation)是根据已知样本点的属性信息进行插值或推理来生成面状数据或估计待估点的数值[1-2],其本质就是通过建模来拟合生成尽可能逼近要素空间分布特征的函数关系[3]。空间插值方法种类广泛,常用的包括泰森多边形法、反距离加权法、移动拟合法、线性内插法、样条函数法、趋势分析法、克里金插值法等。其中,克里金插值法(Kriging interpolation)又称空间自协方差最佳插值法,这种方法认为空间属性的变化建立于空间位置关系和空间自相关关系的基础上,故定义具有这种变化的属性变量称为区域化变量(Regionalized variable)[4-5]。区域化变量独有的随机性和结构性使探索空间结构和空间变异规律变得有迹可循,变异函数(Variogram)应运而生,其可以对区域化变量的连续性、相关性、尺度性等进行空间描述。克里金插值方法的实质也是利用区域化变量的已知样本数据点变异函数结构特点,对待估位置点区域化变量的取值进行无偏、最优估计[6]

2 相关理论原理

2.1 普通克里金插值方法

区域化变量z(x)在位置点x处和位置点x+h处值之差的方差一半定义为z(x)在x轴方向上的变 异函数。离散样本的实验变异函数可以通过式(1)计算。
γ h = 1 2 N h i = 1 N h z x i - z x i + h 2 i = 1 , , N h (1)
式中:i+1,…, N(h);h为样本点对的距离;N(h)代表样本点对距离为h所有样本点对的个数;z(xi)和zxi+h)分别是区域化变量zx)在空间位置xixi+h处的真实值。当γ(h)不依赖于它的方向变化,只依赖于距离h时,则称γ(h)各向同性。
E z x 0 - z * x 0 = 0 (2)
Var z x 0 - z * x 0 = min (3)
i = 1 k λ i γ x i , x j + μ = γ x 0 , x j j = 1 , , k i = 1 k λ i = 1 (4)
z * x 0 = i = 1 k λ i z x i (5)

2.2 最小二乘支持向量机

最小二乘支持向量机(Least Squares Support Vector Machine,LS-SVM)用于函数回归时用平方和误差损失函数替代Vapnik的ε不敏感损失函数[13],同时用等式约束替代标准SVM中的不等式约束[14]
给定N个样本的数据集 x m , y m m = 1 N , x m R d ,其中第m个输入xm对应的输出为ym,回归函数f(x)的基本形式如式(6)所示。
f x = ω T φ x + b (6)
min ω , b , e J ω , b , e = 1 2 ω T ω + 1 2 γ m = 1 N e m 2 = 1 2 ω 2 + 1 2 γ m = 1 N e m 2 (7)
y m = ω T φ x m + b + e m m = 1 , 2 , , N (8)
上述优化问题可由拉格朗日方程求解,并基 于KKT(Karush-Kuhn-Tucker)条件得到最终模型(式(9))。
f x = ω T φ x + b = m = 1 N α m φ x m , φ x + b = m = 1 N α m K x m , x + b (9)

2.3 小波函数

小波函数是一种时频局部化的工具,是把数据、函数或算子分割成不同频率的成分[15],然后再用分解的方法研究不同尺度下的成分,故非常适合做空间多尺度分析。其中,低频信息作为空间变化的大尺度框架,而高频信息反映空间变化的细节部分。目前应用较多的实数和复数小波函数中,以Morlet小波、Gaussian小波、Mexican hat小波等为主要应用[16],具体形式分别如下:
φ x = e - x 2 2 cos ω 0 x (10)
φ x = x e - x 2 2 (11)
Mexican hat小波函数又称为墨西哥帽函数或者Marr小波:
φ x = 1 - x 2 e - x 2 2 (12)
K x m , x = m = 1 d cos ω 0 × x m - x a m exp - x m - x 2 2 a m 2 (13)

3 基于多尺度LS-SVM优化的克里金插值方法

3.1 多尺度LS-SVM优化的克里金插值方法原理

二尺度LS-SVM模型在回归问题上,输入变量和输出变量分别为距离和实验变异函数值,故假定拟合的数据集为 { h i , γ h i } i = 1 n ,其中hiRd,在这里d=1,表示第i个样本点对的距离,作为自变量,γ(hi)∈R,表示在距离hi下的实验变异函数值,作为因变量,n代表分组后需要拟合的实验变异函数值总个数。
在二尺度问题中,假定尺度1上小波核函数尺度因子偏大,尺度2上小波核函数尺度因子偏小。在较大尺度因子上,f1(x)用集合 { h i , γ h i } i = 1 n 来回归。回归模型可以用式(14)表示:
f 1 h = ω 1 T φ 1 h + b 1 (14)
在较小尺度因子上,f2(x)用集合 { h i , γ h i - f 1 h } i = 1 n 来回归,回归模型可用式(15)表示。
f 2 h = ω 2 T φ 2 h + b 2 (15)
f h = ω 1 T φ 1 h + ω 2 T φ 2 h + b (16)
f 1 h = ω 1 T φ 1 h + b (17)
f 2 h = ω 2 T φ 2 h (18)
y i = ω 1 T φ 1 h i + b + e 1 i i = 1 , 2 , , n (20)
y i - f 1 h i = ω 2 T φ 2 h i + e 2 i i = 1 , 2 , , n (21)
L ω 1 , ω 2 , b , e 1 , e 2 , α 1 , α 2 = J ω 1 , ω 2 , b , e 1 , e 2 - i = 1 N α 1 i ω 1 T φ 1 h i + b + e 1 i - y i - i = 1 N α 2 i ω 2 T φ 2 h i + e 2 i + f 1 h i - y i (22)
根据KKT条件,该拉格朗日函数的最优解条 件为:
L ω 1 0 ω 1 = i = 1 N α 1 i φ 1 h i + i = 1 N α 2 i φ 1 h i L ω 2 0 ω 2 = i = 1 N α 2 i φ 2 h i L e 1 i 0 α 1 i = γ 1 e 1 i i = 1,2 , , n L e 2 i 0 α 2 i = γ 2 e 2 i i = 1,2 , , n L b 0 i = 1 N α 1 i + i = 1 N α 2 i = 0 L α 1 i 0 ω 1 T φ 1 h j + b + e 1 j = y j j = 1,2 , , n L α 2 i 0 ω 2 T φ 2 h j + e 2 j + ω 1 T φ 1 h j + b = y j j = 1,2 , , n (23)
0 1 ̅ T 1 ̅ T 1 ̅ Ω 1 I γ 1 Ω 1 1 ̅ Ω 1 Ω 1 + Ω 2 I γ 2 × b α β = 0 y y (24)
式中: α α 11 , α 12 , , α 1 n T , β α 21 , α 22 , , α 2 n T , 1 ̅ 1,1 , , 1 T , y = y 1 , y 2 , , y n T ,I为单位矩阵, Ω 1 Ω 2 为小波核函数, Ω 1 = K 1 h p , h q = φ 1 h p T φ 1 h q p , q = 1 , , n , Ω 2 = K 2 h p , h q = φ 2 h p T φ 2 h q p , q = 1 , , n
f h = ω 1 T φ 1 h + ω 2 T φ 2 h + b = i = 1 n α 1 i + α 2 i K 1 h i , h + b 1 + j = 1 n α 2 j K 2 h j , h + b 2 (25)

3.2 基于多尺度LS-SVM优化的克里金插值方法 流程


4 实验与分析

MAE = 1 S i = 1 S y i - y ^ i (26)
RMSE = 1 S i = 1 S y i - y ^ i 2 (27)
式中:S代表待估位置点的总个数;yi为待估位置点的区域化变量真实值,i=1,…, S; y ^ i 为待估位置点的区域化变量估计值,i=1,…, S

4.1 实验模拟

模拟采用Spatial Interpolation Comparison 97数据(简称SIC97数据),该数据为1986年5月8日瑞士467个降水观测站的降水数据,其中样本观测站点总个数为100,即k=100,待估位置点的总个数为367,即S=367。数据来源: 076_Spatial_Interpolation_Comparison_97_(SIC97)_dataset,通过已知观测点来插值待估点,观测点与待估点分布如图1所示。
Fig. 1 The distribution diagram of SIC97 data

图1 SIC97数据分布示意图

由于样本点数目较多,拟合实验变异函数之前,进行分组操作,分组后需要拟合的实验变异函数值总个数为20,即 n = 20 图2图3分别表示分组前的变异函数云图和分组后的变异函数云图,图4表示需要拟合的实验变异函数值。
Fig. 2 Variogram cloud before grouping

图2 分组前的变异函数云图

Fig. 3 Variogram cloud after grouping

图3 分组前的变异函数云图

Tab. 1 Comparisons of Kriging interpolation results based on the theoretical variogram models

表1 各理论变异模型拟合后的克里金插值结果对比

类别 球状模型 指数模型 高斯模型 单尺度
MAE 39.43 40.86 110.46 39.81 39.09 38.54
RMSE 56.21 57.33 154.82 56.78 55.97 55.70
Fig. 4 The fitting experimental variogram values

图4 需要拟合的实验变异函数值

Fig.5 Variogram fitting curve

图5 变异函数拟合曲线


4.2 实验应用

将该插值方法应用于青岛市PM2.5浓度数据的空间插值分析。PM2.5是指环境空气中动力学当量直径小于等于2.5 μm的颗粒物,富含大量有害物质,研究PM2.5数据的时空分布特征对城市环境防护及控制具有实践意义。
4.2.1 数据源
Fig. 6 The map of air quality monitoring sites in Qingdao city

图6 青岛市空气质量监测站点分布图

4.2.2 实验分析及对比
Fig. 7 Monthly PM2.5 concentration values of Qingdao city

图7 青岛市各个月份PM2.5浓度值

Fig. 8 Results of PM2.5 interpolation methods in Qingdao

图8 青岛市PM2.5各插值方法结果分布图

Tab.2 The comparison of the interpolation results of each model in December

表2 12月各模型插值结果对比

指标类别 高斯模型 指数模型 球状模型 单尺度
MAE 14.41 12.52 12.54 12.47 12.46 12.42
RMSE 17.66 15.73 15.77 15.57 15.57 15.31
整体的时间变化趋势,PM2.5浓度12月远高于8月,8月PM2.5浓度在13~30 μg/m3的区间范围,而12月PM2.5浓度在70~130 μg/m3的区间范围,二者相差较大。结合图7可以得到结论,青岛市PM2.5季节变化明显,表现为冬季高、夏季低的时间特征。整体的空间变化趋势,从东向西PM2.5浓度由低到高,表现为逐渐上升的趋势。8月青岛市的东南、东北方向PM2.5浓度较低,并呈现逐渐向西加重的变化态势,层次感明显;而12月,呈现2个集中分布的较高浓度地带,同时也表现为东南、东北方向PM2.5浓度偏低,西北方向和中部偏高的态势。因此根据其时空分布特征来重点防护与治理具有重要的研究意义。
Tab. 3 The comparison of the interpolation results of each model in August

表3 8月各模型插值结果对比

指标类别 高斯模型 指数模型 球状模型 单尺度
MAE 3.62 3.47 3.49 3.56 3.44 3.44
RMSE 4.54 4.20 4.27 4.58 4.23 4.19

5 结语


