地球信息科学理论与方法

融合自注意力机制的双向LSTM时空插值模型

  • 周啸宇 , 1 ,
  • 王海起 , 1, * ,
  • 王琼 2 ,
  • 单宇飞 1 ,
  • 闫峰 1 ,
  • 李发东 1 ,
  • 刘峰 1 ,
  • 曹元昊 1 ,
  • 欧雅玟 1 ,
  • 李雪莹 1
展开
  • 1.中国石油大学(华东) 海洋与空间信息学院,青岛 266580
  • 2.南京生兴有害生物防治技术股份有限公司, 南京 211100
*王海起(1972— ),男,河南南阳人,博士,副教授,主要研究方向为地理信息与机器学习,空间与时空统计分析。E-mail:

周啸宇(2000— ),男,山东德州人,硕士生,主要研究方向为空间和时空数据分析。E-mail:

Copy editor: 蒋树芳 , 黄光玉

收稿日期: 2023-09-23

  修回日期: 2024-05-12

  网络出版日期: 2024-07-24

基金资助

山东省自然科学基金面上项目(ZR2021MD068)

A Bidirectional LSTM Spatiotemporal Interpolation Model with Self-attention Mechanism

  • ZHOU Xiaoyu , 1 ,
  • WANG Haiqi , 1, * ,
  • WANG Qiong 2 ,
  • SHAN Yufei 1 ,
  • YAN Feng 1 ,
  • LI Fadong 1 ,
  • LIU Feng 1 ,
  • CAO Yuanhao 1 ,
  • OU Yawen 1 ,
  • LI Xueying 1
Expand
  • 1. China University of Petroleum, College of Oceanography and Space Informatics, Qingdao 266580, China
  • 2. Sunshine(Nanjing)pco Technology Co., Ltd., Nanjing 211100, China
*WANG Haiqi, E-mail:

Received date: 2023-09-23

  Revised date: 2024-05-12

  Online published: 2024-07-24

Supported by

Natural Science Foundation of Shandong Province(ZR2021MD068)

摘要

时空插值可以捕获时空数据中的依赖关系,估计地理现象随时间的几何和属性数据变化。现有的时空插值方法大多未同时考虑数据的长期时间相关性以及全局空间信息,本文结合长短时记忆网络LSTM (Long Short Term Memory)与数据的空间特性构建了时空插值模型:①模型利用空间层剔除弱相关性的信息,提取相关性更强的空间信息输入LSTM网络;②由于传统人工神经网络ANN (Artificial Neural Network)模型无法考虑时间对插值的影响以及单向LSTM模型仅能考虑过去时刻对当前时刻的影响而不能利用未来时刻的信息,本文使用双向LSTM模型BiLSTM(Bi-directional LSTM)体现时间相关性;③为了有效提取全局空间特征并保留BiLSTM双向建模的优势,本文将自注意力机制引入BiLSTM中,构建了融合自注意力的双向LSTM插值模型SL-BiLSTM-SA (BiLSTM Model Fused with Spatial Layer-Self attention)。在实验设计阶段,模型被应用于山东省PM2.5浓度数据集进行插值效果研究,并与其它模型进行性能比较。实验表明,SL-BiLSTM-SA模型有着更低的误差度量,相较时空普通克里金STOK (Spatio-Temporal Ordinary Kriging)和遗传算法优化的时空克里金GA-STK (Genetic Algorithm-optimized Spatio-Temporal Kriging)精度分别提高了39.83%、36.63%,且能较准确地预测高值和低值。本文融合空间信息,结合BiLSTM和Self-attention构建了时空插值模型,扩展了时空数据的插值手段,为时空数据分析提供了一定的理论和方法支撑。

本文引用格式

周啸宇 , 王海起 , 王琼 , 单宇飞 , 闫峰 , 李发东 , 刘峰 , 曹元昊 , 欧雅玟 , 李雪莹 . 融合自注意力机制的双向LSTM时空插值模型[J]. 地球信息科学学报, 2024 , 26(8) : 1827 -1842 . DOI: 10.12082/dqxxkx.2024.230574

Abstract

Spatial-temporal data missingness and sparsity are prevalent phenomena, for which spatial-temporal interpolation serves as a critical methodology to address these issues. Spatial-temporal interpolation constitutes a significant research domain within the field of Geographical Information Science. This technique enables the capture of dependencies in spatial-temporal data and the estimation of the geometric and attribute variations of geographical phenomena over time. With the advancement of geospatial technologies, particularly Geographic Information Systems, contemporary spatial-temporal interpolation methods predominantly rely on statistical, machine learning, and deep learning approaches that account for both temporal and spatial dimensions. These methods aim to reveal the evolutionary processes and spatial-temporal distribution patterns inherent in the data. However, a majority of such techniques often overlook long-term dependencies and contextual spatial information when interpolating. This study proposes an innovative model that intertwines Long Short-Term Memory (LSTM) networks with spatial attributes to address these limitations effectively. The proposed model operates through several key stages: (1) It employs a dedicated spatial layer to systematically eliminate weakly correlated information, focusing on extracting and feeding more significantly correlated spatial data into the LSTM network. (2) Given that conventional Artificial Neural Network (ANN) models are unable to consider the impact of the temporal dimension on interpolation, and unidirectional LSTM models can only factor in past moments' influence without utilizing future moment information, this research adopts a Bidirectional LSTM (BiLSTM) architecture. The BiLSTM inherently captures both spatial and temporal dependencies, thereby overcoming previous limitations. (3) To further enhance its performance by efficiently extracting comprehensive global spatial features while maintaining the advantages of bidirectional modeling offered by BiLSTM, we integrate a self-attention mechanism into the BiLSTM framework. This results in a novel, fused Bidirectional LSTM Interpolation Model with Spatial Layer-Self Attention (SL-BiLSTM-SA). In the experimental phase, the SL-BiLSTM-SA model is rigorously applied to a PM2.5 concentration dataset from Shandong Province to conduct a meticulous investigation into its interpolation capabilities. Upon comparative analysis against other models, it is evident that the SL-BiLSTM-SA model outperforms with notably lower error metrics, demonstrating substantial improvements in accuracy—by 39.83% and 36.63% when compared to Spatio-Temporal Ordinary Kriging (STOK) and Genetic Algorithm-optimized Spatio-Temporal Kriging (GA-STK) methods, respectively. Moreover, our model exhibits commendable precision in forecasting high and low concentration levels. By seamlessly integrating spatial information and coupling the strengths of BiLSTM with self-attention mechanisms, this research not only extends the suite of interpolation methods for spatiotemporal data analysis but also furnishes robust theoretical underpinnings and methodological support to facilitate sophisticated spatiotemporal data analyses.

1 引言

时空数据的缺失和稀疏分布是普遍存在的现象,时空插值是解决数据缺失和稀疏分布的重要手段,时空插值通过捕获时空依赖关系,利用已知位置和时间上的观测值来推断未知位置和时间上的变量值,换言之,时空插值方法可估计地理现象随时间的几何和属性数据变化[1]。随着地理分析技术的发展,目前时空插值方法主要基于统计学、机器学习和深度学习建模时间和空间因素,揭示时空数据的演变过程和时空分布规律[2]
基于统计学的插值模型往往具有明确的数学描述,如经典的反距离加权IDW(Inverse Distance Weighted)和克里金[3],其中,时空克里金利用变异函数模型表征随机变量的变异结构或时空连续性,描述变量的时空结构特征。Zoest等[4]采用时空回归克里金法预测荷兰埃因霍温市未观测时空位置的二氧化氮浓度。梅杨[5]使用普通克里金OK(Ordinary Kriging)、时空普通克里金STOK和时空趋势克里金对山东省2014年PM2.5日均浓度进行时空建模与预测分析。徐明轩等[6]提出利用时空半变异函数对传统空间插值模型进行扩展的地下瓦斯浓度场重构方法,实现了复杂矿井环境下稀疏传感器对瓦斯浓度整体分布的监测。Wang等[7]提出了“三位一体”的空间统计理论体系,该体系由总体性质、空间采样和推断构成,将空间自相关、分层异质性集成到了空间采样和统计推断过程中,在此理论体系基础上,Xu和Wang等[8]提出了一种时空点插值方法,该方法考虑了总体相关性和异质性并且具有弥补样本偏差的能力,效果明显优于克里金等传统方法。
机器学习和深度学习模型可以更准确地捕捉时空变量之间的非线性关系,因此越来越多地应用于时空插值。Li等[9]通过时空克里金估计随机森林模拟的拟合误差,将时空克里金与随机森林结合构建随机森林-时空克里金RF-STK(Random Forest-Spatiotemporal Kriging)模型。Martínez-Comesaña等[10]提出基于优化多层感知器神经网络的插值方法对建筑物的室内温度、相对湿度和二氧化碳浓度进行时空估计,采用多目标遗传算法NSGA-II(Non-dominated Sorting Genetic Algorithm II)对神经网络进行优化。Wu等[11]提出归纳式图神经网络克里金模型,生成随机子图作为样本,并对每个样本重建相应的邻接矩阵,以此恢复图上未采样节点的数据。黎嵘繁等[12]提出基于多头注意力的时空克里金法,利用时空掩码矩阵建模时空依赖关系以捕捉时空特征,并利用多头注意力机制学习多层次的空间特征。
除考虑空间特征外,时间特征和时空特征的刻画亦是深度学习模型进行时空插值和预测的研究重点。Shi等[13]使用LSTM网络预测了较短时间内局部地区未来的降雨强度。Zhao等[14]将长短期记忆全连接网络LSTM-FC(LSTM-Fully Connected)应用于空气质量监测站48 h内的PM2.5浓度预测。Fan等[15]提出基于深度递归神经网络DRNN(Deep Recurrent Neural Network)的空气污染物时空预测框架。然而上述方法仅对监测站点处进行预测,未对未采样位置进行插值。Ma等[16]提出一种基于地理长短期记忆网络Geo-LSTM(Geographic Long Short-Term Memory)的时空插值模型生成空气污染物浓度的空间插值结果,该模型同时考虑了空气污染物的时间变化趋势和空间关联。考虑到LSTM单向建模的局限性,Ma等[17]将BiLSTM和IDW相结合,提出BiLSTM-IDW方法用于不同时间粒度的空气污染物时空插值,一方面,BiLSTM可以有效捕捉空气污染的长期时间机制,另一方面,IDW层可以考虑空气污染的空间相关性,并对空间分布进行插值。
总结上述研究,时空插值方法目前存在2个方面局限: ① 地统计方法,如克里金插值,使用预先 设定的线性/非线性方程来定义复杂的时空关系; ② 基于机器学习或深度学习的插值方法大多考虑了时空数据的短期相关性或局部空间特征,未同时考虑长期时间相关性和全局空间特征。针对上述局限,本文融合空间信息,结合BiLSTM和Self-attention构建了时空插值模型,扩展了时空数据的插值手段,为时空数据分析提供了一定的理论和方法支撑。

2 研究方法

为了捕捉具有全局依赖性和局部依赖性的空间特征以及长期时间特征,研究结合LSTM网络与数据的空间特性构建了基于自注意力机制的双向LSTM插值模型SL-BiLSTM-SA。具体实现上,首先,模型利用空间层剔除弱相关性的空间信息,提取相关性更强的空间信息输入LSTM网络;其次,借助BiLSTM层捕获前后相邻时刻与当前时刻的时间相关性;最后,为了有效提取全局空间特征并保留BiLSTM双向建模的优势,引入Self-attention层捕获LSTM单元传播过程中的全局空间依赖。SL-BiLSTM-SA插值方法的技术路线如图1所示。
图1 SL-BiLSTM-SA插值方法的技术路线

Fig. 1 The technical roadmap for the SL-BiLSTM-SA interpolation method

2.1 模型结构

SL-BiLSTM-SA模型基本结构如图2所示,模型包括5个关键部分:输入层输入时间序列样本 X = [ x 1 , x 2 , ,   x t ];空间层根据站点间距离选取空间相关性最强的K个站点;BiLSTM层利用双向LSTM计算时序特征向量,使用逐元素求和的方式组合正向和反向传递输出;Self-attention层生成权重矩阵,该矩阵与双向LSTM提取的特征向量相乘以实现加权求和;输出层输出模型预测结果。
图2 SL-BiLSTM-SA模型结构

Fig. 2 SL-BiLSTM-SA model structure

2.2 空间层设计

在输入层后加入空间层以充分考虑数据的空间相关性,由地理学第一定律可知,已知点和未知点之间的相对位置将影响空间上的联系强度,当使用已知点信息来预测未知点的变量值时,并非所有信息都应考虑并分配相同的权重,近距离观测点对预测结果的影响更大,而远距离观测点可能包含更多噪声。为此,空间层旨在选择与未知点相关性强的观测点,并剔除相关性较弱的观测点,其结构如图3所示,Calc_d表示时空点数据之间的空间距离计算;Rank表示对计算出的空间距离进行排序。 图3计算过程可由式(1)表示。
图3 筛选强空间相关信息的空间层结构

Fig. 3 Space layer structure for filtering strong spatial correlation information

s t o u t = M A × s t i n
式中: s t i n是空间层的输入,即时间序列样本数据;MA是空间层的激活矩阵,用于选择相关性强的站点输入下一层网络,激活矩阵内数值为0或1,通过站点之间的距离判定; s t o u t为空间层的输出,即筛选后具有较强空间相关性的站点数据。
以一个未知观测点为例,应计算其与所有已知观测点之间的距离,并基于距离大小进行排序,选取距离最小的K个观测点用于插值,相应的激活矩阵元素赋值为1、其余赋值为0。

2.3 BiLSTM层设计

时空数据当前值可能对未来时刻产生影响,因此在时空插值过程中,考虑时间维度的影响是必要的。传统ANN模型无法联系前一时刻与下一时刻的信息。与ANN模型相比,RNN将前一时刻的输出作为下一时刻的输入,实现了时序信息的传递,但RNN不能捕获时序数据中的长期相关性,甚至会导致梯度消失和梯度爆炸问题。针对RNN局限性,LSTM引入了自连接单元,允许保留流入单元的值或梯度,并在需要的时间步长进行检索,从而保留长时间记忆信息。图4为ANN、RNN和LSTM结构对比图。
图4 ANN、RNN和LSTM结构对比

Fig. 4 Comparison of ANN, RNN, and LSTM architectures

然而,单向LSTM模型仅能考虑前序时刻对后序时刻的影响。时空未知点的插值依赖于空间域、时间维度上的邻近点,因此除过去信息外,未来信息对当前插值点的估计同样具有意义[2]图5为本文模型时空相关性的说明,图中蓝色实心网格为目标点,蓝边网格表示目标点的空间相邻点,红边网格表示时空邻近点,连接线表明当前时刻的空间邻近点以及相邻前后时刻的时空邻近点对目标点具有影响,换言之,模型充分考虑了时空相关性。
图5 时空相关性在SL-BiLSTM-SA模型中的体现

Fig. 5 The manifestation of spatiotemporal correlation in the SL-BiLSTM-SA model

与单向LSTM不同,BiLSTM模型具有2组LSTM单元实现对时间序列的双向学习与优化。如图6所示,BiLSTM包含正向和反向2个LSTM层,分别以常规顺序和逆序处理输入数据,2组LSTM单元具有不同的输出 h i h i ,BiLSTM最终输出这两组预测的总和,如式(2)所示。
图6 SL-BiLSTM-SA模型的BiLSTM层结构

Fig. 6 The BiLSTM layer structure within the SL-BiLSTM-SA model

h i = h i + h i
式中: h i h i 分别是正向和反向传播的LSTM单元;hi是BiLSTM输出向量 [ h 1 , h 2 , , h t ]组成的矩阵。

2.4 Self-attention层设计

在每个时间步,自注意力模块可以对所有位置的特征进行加权求和,以选择性地聚集每个位置的输入特征,使模型可在垂直交叉堆叠的多层LSTM中,以及在LSTM单元状态的横向传递过程中捕获全局空间依赖性。Self-attention层的计算如式(3)、式(4)所示。
H = t a n h ( S A ( h ) )
y = t a n h ( H )
式中:h代表BiLSTM层的输出向量;SA表示自注意力机制模块,该模块生成图2所示的权重矩阵 w = [ w 1 , w 2 , , w t ];tanh为激活函数;H是通过自注意力模块聚合的特征向量,预测值y即SL-BiLSTM-SA模型的输出,其由SA模块的输出向量求和 获取。图7是对式(3)中SA模块的说明,涉及到 式(5)、式(6)的计算。
图7 自注意力机制结构

Fig. 7 Structure of self-attention mechanism

[ Q h , K h , V h ] = h t [ W q ,   W k ,   W v ]
H t = A t t e n t i o n ( Q h , K h , V h ) = S o f t m a x Q h K h T d k V h
式中:ht是LSTM在时间步长t的隐藏状态;WqWkWv是3个可训练的参数矩阵,分别用于计算查询向量Qh(Query)、键向量Kh(Key)以及值向量Vh(Value)。QhKh计算不同位置之间的相关性,经过Softmax层归一化后得到权重矩阵,而后Vh与权重矩阵相乘得到输出值Ht。此外,dk代表矩阵Kh的维度,其作用是平滑权重矩阵,保持训练过程中梯度的稳定性。

3 实验与分析

3.1 研究区域及数据来源

本文使用PM2.5浓度数据集作为时空插值方法的应用数据集。PM2.5的研究对监控和治理环境问题、探索空气污染来源和评估居民健康风险均有重要意义[18]。获取PM2.5数据的主要来源是地面空气质量监测站点,但其空间分布非常不均匀,需通过时空插值来模拟大气中PM2.5浓度的时空分布规律。
选择山东省作为研究区域,山东省属于暖温带季风气候,降水相对集中,在环境问题中雾霾造成的危害最为严重[19]。研究使用山东省国控空气质量监测站点2020年11月1日—2021年1月31日的空气质量监测数据[20],共92 d,剔除缺失数据较多的监测站点后共使用91个站点,这些站点遍布在山东省16个地级市内(图8),其覆盖范围基本可以反映山东省的空气质量状况。山东省矢量化地图来源于国家基础地理信息系统数据库[21],原始监测数据采用CGCS_2000地理坐标系,为便于插值计算,采用高斯-克吕格投影统一将地理坐标转换为平面坐标。
图8 山东省国控空气质量监测站点分布

Fig. 8 Distribution of national-controlled air quality monitoring stations in Shandong Province

空气质量监测数据包括so2_24h、no2_24h、co_24h、o3_8h_24h、o3_24h、pm10_24h、pm2.5_24h共 7个大气污染物浓度指标,其中,CO数据浓度单位为mg/m3,其余单位均为μg/m3。空气污染物浓度指标含义如表1所示。
表1 空气污染物浓度指标含义

Tab. 1 Meaning of air pollution concentration index

字段 字段说明
so2_24h 二氧化硫24 h滑动平均
no2_24h 二氧化氮24 h滑动平均
co_24h 一氧化碳24 h滑动平均
o3_8h_24h 臭氧日最大8 h滑动平均
o3_24h 臭氧日最大1 h平均
pm10_24h 颗粒物(粒径小于等于10 μm) 24 h滑动平均
pm2.5_24h 颗粒物(粒径小于等于2.5 μm) 24 h滑动平均

3.2 数据预处理

在对山东省PM2.5浓度数据收集和清理后,采用滑动窗口法对各监测站点数据进行时间序列建模,滑动窗口由窗口长度和滑动步长组成,其中窗口长度设置为固定值且在滑动采样时窗口间存在部分重叠[22],如图9所示。
图9 滑动窗口示意图

Fig. 9 Schematic diagram of sliding window

给定时间序列 X = [ x 1 ,   x 2 , ,   x t ],为预测时刻t的值,滑动窗口除输入t-1时刻的值外,还需将t-2、t-3、…、t-r的值输入到模型中,其中r为滑动窗口长度。较大的r表示时间序列样本数量较少但输入特征丰富,而较小的r表示时间序列样本数量增加但输入特征较少。图10示例了窗口长度为3、滑动步长为1构建的时间序列样本,其中窗口长度、滑动步长单位均为“一天”。
图10 窗口长度为3且滑动步长为1的时间序列样本示例

Fig. 10 Time series sample modeling example with window length 3 and sliding step 1

在实验中,时间序列样本建模过程如下:设研究区有N个监测站点 [ S 1 ,   S 2 , ,   S N ],每个监测站点Sit时刻的数据可表示为 X i t = ( x i ,   y i ,   t ,   v i ),其中vi为PM2.5浓度观测值,xiyiSi站点平面坐标。对于t时刻未知点p的建模可表示为式(7)。
x t p = f ( X t - r + 1 , ,   X t )
式中:Xtt时刻所有监测站的观测值;r为滑动窗口长度。
在预测PM2.5浓度时,除考虑前后时间信息的影响外,同时需充分考虑数据的空间相关性。为此,空间层选取了K个邻近站点,将这些站点间的空间距离dx、dyK个站点的PM2.5浓度值作为LSTM模型的输入,添加空间信息后目标点p的建模可表示为式(8)。
x t p = f ( X t t - r + 1 ,   d x ,   d y )
式中: X t t - r + 1t-r+1到t时刻的监测站观测值。对于后续模型训练与性能分析,目标点p将设置为已知监测站点,以生成所需的训练样本和测试样本。

3.3 实验设计与实现

将构建的时间序列样本输入到SL-BiLSTM-SA模型中,通过训练与测试优化模型结构和参数,最终应用于山东省PM2.5浓度插值,对模型时空插值性能进行分析,并与其他插值模型进行对比。
假设滑动窗口长度r=3,每个站点将有90个时间序列样本,91个站点则对应91×90个样本总量。为实现模型的最佳插值性能,首先需确定滑动窗口长度r、空间层邻近站点数量K等参数,将样本数据集按照75%、25%的比例划分为训练集和测试集,使用网格搜索方法进行模型参数优化,并采用拟合优度R2评估不同参数组合的模型性能。
考虑到山东省内PM2.5监测站点分布不均匀,以等间隔策略设置4个K候选值{2,6,10,14}和4个窗口长度r候选值{3,5,7,9},使用网格搜索法对rK的不同组合进行测试,其结果见表2。当K=10、r=3时,模型的R2最高,为0.835 3,因此,后续实验将站点数量设置为10,滑动窗口长度设置为3。滑动窗口长度r的值决定了时间序列输入的长度和数量,而前K个站点的数量将影响空间信息输入的规模和范围。
表2 站点数量与滑动窗口长度不同组合的R2

Tab. 2 R2 with different combinations of station count and sliding window length

站点数量K R2
r=3 r=5 r=7 r=9
2 0.820 7 0.802 5 0.801 2 0.785 5
6 0.824 3 0.810 3 0.795 7 0.777 0
10 0.835 3 0.812 6 0.817 6 0.803 2
14 0.828 2 0.823 4 0.805 6 0.812 2

注:加粗字体表示R2最大值。

为更直观地观察R2变化情况,图11绘制了不同rK组合的R2值,图中显示R2随着滑动窗口变大呈现减小的趋势,这也反映了时间序列的自相关特性:随着窗口变大,时间间隔增加,时序数据的相关性逐渐降低,R2逐渐减小,预测误差变大。
图11 在邻近站点数K和滑动窗口长度r不同组合下R2变化情况

Fig. 11 The variation of R2 under different combinations of the number of neighboring sites K and the sliding window length r

除站点数量K和滑动窗口长度r外,BiLSTM模型的层数和每个BiLSTM层神经元的数量也会对模型的插值性能产生较大影响。同样采取不同预选值组合的方式进行筛选,BiLSTM层数的预选值为{1,2,3,4,5},根据Li等[23]和Zhou等[24]的研究,BiLSTM每层的神经元数量应设置为相同,预选值为{16,32,64,128,256},在模型训练和测试时,滑动窗口长度r预设为3,训练轮次epoch预设为200,学习率预设为0.001,75%样本用于训练,剩余25%用于测试,具体测试结果见表3图12显示了BiLSTM层数L、每层神经元数量n不同组合下R2变化情况,可知,当BiLSTM层数为4、每层神经元数量为128时,模型的R2最高。因此,构建模型时,BiLSTM层数设为4,每层神经元数量设 为128。
表3 BiLSTM层数和每层神经元数量不同组合的R2

Tab. 3 R2 with different combinations of BiLSTM layer depths and neurons counts per layer

神经元数量/ R2
L=1 L=2 L=3 L=4 L=5
16 0.869 8 0.872 9 0.869 0 0.875 6 0.868 1
32 0.876 5 0.878 3 0.881 7 0.882 0 0.878 3
64 0.873 4 0.878 0 0.881 3 0.886 3 0.882 3
128 0.877 0 0.881 9 0.884 6 0.890 4 0.890 2
256 0.878 1 0.878 2 0.885 2 0.886 7 0.882 8

注:加粗数值表示R2最大值。

图12 在BiLSTM层数和每层神经元数量不同组合下R2变化情况

Fig. 12 The variation of R2 under different combinations of the number of BiLSTM layers and the number of neurons per layer

SL-BiLSTM-SA模型通过随机均匀初始化每层参数,并使用激活函数Sigmoid模拟每个神经元的 非线性输出,样本数据集按照75%、25%比例划分 训练集和测试集,损失函数采用均方误差MSE(Mean Squared Error),优化方法选用Adam优化器,学习率预设为0.001,训练批次大小设置为32,测试批次大小设置为16,训练轮次epoch设置为1 000。

3.4 实验结果与分析

模型以MSE作为目标损失函数和过拟合指标,在每个训练轮次计算测试集的损失函数值。图13展示了模型在训练过程中损失函数值的变化情况:MSE在整体上保持下降趋势,当迭代次数达到500左右时,呈现平稳变化趋势。
图13 模型损失函数值随迭代次数的变化

Fig. 13 The change of model loss function value with iteration count

将测试集输入经过训练的模型中,通过R2、均方根误差RMSE (Root Mean Squared Error)、平均绝对误差MAE (Mean Absolute Error)和平均绝对百分比误差MAPE (Mean Absolute Percentage Error)衡量其插值性能,并与STOK、GA-STK和融合空间信息的LSTM模型SL-LSTM(LSTM Model Fused with Spatial Layer)进行插值性能比较,各模型在测试集的误差指标如表4所示。
表4 不同模型的精度比较

Tab. 4 Accuracy comparison of different models

插值模型 R2 RMSE MAE MAPE
STOK 0.741 2 13.905 6 11.165 5 19.324 2
GA-STK 0.781 6 13.202 0 10.906 0 18.652 6
SL-LSTM 0.890 4 8.639 0 7.855 0 10.566 3
SL-BiLSTM-SA 0.902 8 8.366 5 7.783 3 10.342 4
表4可知,SL-LSTM模型和SL-BiLSTM-SA模型均对PM2.5浓度数据有较高的拟合精度。相较STOK模型,SL-LSTM模型和SL-BiLSTM-SA模型的RMSE分别降低了37.87%、39.83%,MAEMAPE也均有不同程度的降低,总体精度有所提升。这表明引入LSTM网络的时空插值模型预测精度优于传统的统计学和机器学习方法,说明时间上的长期依赖性对PM2.5浓度预测有重要意义。比较结果中SL-BiLSTM-SA模型表现最好,因为其不仅考虑了站点前后时刻的时间相关性,还考虑了全局的空间相关性。
为了验证方法的有效性,选择2020年11月6日、2020年12月6日和2021年1月6日的PM2.5数据,应用SL-BiLSTM-SA模型对研究区域的站点插值结果进行交叉验证,误差指标如表5所示。结果显示,模型的RMSE在2020年11月6日接近于总体精度,在2021年1月6日最低;不同日期模型的R2有较大差异,在2020年12月6日接近于总体精度,其余2 d较低;对于MAE,不同日期的差异相较RMSE更小,且与RMSE随日期变化的趋势基本一致。综合上述结果,模型在不同日期均能保持较高的预测精度和良好的拟合能力,且模型在不同日期的数据集上表现有所差异,其中,在2020年11月6日和2021年 1月6日的插值表现更佳。
表5 SL-BiLSTM-SA模型精度评价

Tab. 5 SL-BiLSTM-SA model accuracy evaluation

日期 R2 RMSE MAE MAPE
2020年11月6日 0.781 9 8.443 9 6.106 3 13.776 6
2020年12月6日 0.885 3 9.366 5 7.392 8 10.194 2
2021年1月6日 0.781 3 6.189 7 5.554 7 14.928 7
为直观展示插值细节,体现SL-BiLSTM-SA模型优势,图14图15分别展示了SL-BiLSTM-SA与SL-LSTM模型插值折线图和散点图的对比结果。折线图表明,整体上两模型预测值与真实值相近,但皆存在部分高值低估和低值高估。2个模型相比,SL-BiLSTM-SA模型能够更准确地对高值和低值进行预测,从图14标红可知,在2020年11月6日的一处、2020年12月6日的两处以及2021年1月6日的两处预测结果明显更接近真实值。散点图表明,SL-BiLSTM-SA与SL-LSTM相比,点更为聚集地分布在y=x线附近,说明SL-BiLSTM-SA模型高值低估或低值高估程度更小,预测结果更接近真实值,预测表现更佳。
图14 SL-LSTM(左)和SL-BiLSTM-SA(右)模型预测值与真实值对比折线图

Fig. 14 Line graph comparing predicted values and actual values for SL-LSTM (left) and SL-BiLSTM-SA (right) models.

图15 SL-LSTM(左)和SL-BiLSTM-SA(右)模型预测值与真实值对比散点图

Fig. 15 Scatter chart comparing predicted value and true value for SL-LSTM (left) and SL-BiLSTM-SA (right) models

为分析SL-BiLSTM-SA模型插值误差的空间分布,各监测站点真实值与预测值的差值如图16所示。由于山东省西北部德州、滨州、聊城等城市的地形较为平缓,受高程因素影响较小,所以误差较低;而山东省中部泰安等城市受地形因素影响较大,导致插值误差较高,另外山东省西南部菏泽、济宁两市监测站点数量较少,且在空间上与其他监测站点距离较大,空间相关性较低,导致插值精度较低。综合上述分析,插值区域的地形与采样点分布会对模型精度产生影响,表现为模型在地势平缓、采样点分布较为密集且均匀的条件下插值精度高。
图16 2020年11月6日SL-BiLSTM-SA模型预测值与真实值的差值空间分布图

Fig. 16 Distribution plot of the difference between predicted values for the SL-BiLSTM-SA model and true values on November 6th

为直观体现模型插值效果,使用SL-BiLSTM-SA模型对山东省PM2.5浓度数据进行插值以推断研究区域内PM2.5浓度的空间分布规律,结果见图17。由图可知,模型插值结果中PM2.5浓度分布格局与实际一致,并且能体现高值和低值的分布区域,高值主要出现在山东省南部和西南部,低值主要集中在山东省东部和东北部沿海区域。另外,SL-BiLSTM-SA模型插值表现出较高的分辨率和细致性,其插值结果不仅过渡平滑,且能有效揭示PM2.5浓度变化的层次细节。
图17 SL-BiLSTM-SA模型的插值结果与实际分布比较

Fig. 17 Comparison of interpolation results of SL-BiLSTM-SA model with actual distribution

为比较分析不同方法的插值效果,图18展现了反距离权重IDW(Inverse Distance Weighted)、STOK、GA-STK、贝叶斯最大熵BME(Bayesian Maximum Entropy)与SL-BiLSTM-SA模型的插值效果对比。
图18 SL-BiLSTM-SA模型与其他插值方法的结果对比

Fig. 18 Comparison of the results between the SL-BiLSTM-SA model and other interpolation methods

IDW、STOK、GA-STK、BME等地统计方法的数学理论基础完备、可解释性强,插值结果过渡效果更为平滑。其中,IDW方法计算简单,容易实现,但在监测站点数量少且分布不均的区域插值效果较差。STOK与GA-STK为最优无偏估计方法,在插值效果上比IDW方法更佳,并且也更符合PM2.5浓度的实际分布情况,而GA-STK利用遗传算法对STOK的变异函数模型参数进行了优化,在插值结果图上,只在山东省中部与西北部区域与STOK体现出细微差别。BME方法在山东省南部和中部区域的插值细节比克里金方法更加贴合实际,而在山东省西南部的插值效果欠佳。
SL-BiLSTM-SA模型基于深度学习方法,能够学习复杂的非线性关系,对数据的时空相关性具有较强的捕捉能力。在插值结果图中,模型对山东省南部的PM2.5浓度高值和山东省东部沿海区域的PM2.5浓度低值具有更好的插值效果。但是,相较于地统计方法,模型对于高值区域和低值区域的过渡不够平滑和自然。

4 结论与讨论

传统时空插值方法存在2个方面局限: ① 地统计方法,如克里金插值等,使用预先设定的线性/非线性方程定义复杂的时空关系; ② 基于机器学习或深度学习的插值方法大多未同时考虑时空数据的长期时间相关性以及全局空间信息。本文针对上述局限,设计空间层融合空间信息,引入LSTM单元以捕获长期时间依赖性并用BiLSTM网络结构替换,再添加Self-attention层捕获全局空间依赖性,构建了SL-BiLSTM-SA时空插值模型。将模型应用于山东省PM2.5浓度数据集并与其它插值模型进行精度对比,验证了本文模型的有效性。实验表明,SL-BiLSTM-SA模型表现最好,精度与传统方法STOK、GA-STK相比分别提高了39.83%、36.63%。在分析模型插值效果时,模型能较准确地预测PM2.5浓度的高值和低值并且可以有效揭示PM2.5浓度变化的层次细节。上述实验分析说明基于BiLSTM的双向建模与Self-attention对时空数据长期时间特征和全局空间特征的捕获是有效的。
然而模型仍存在部分局限,首先,本研究通过构建时间序列样本和空间层的设计考虑了总体的时空相关性,在自注意力机制模块通过赋予不同权重考虑了时空异质性。但根据“三位一体”理论体系,当总体同时包含相关性和异质性时应优先采取分层机制去除异质性影响,论文后续将沿此方向深入研究。另外,研究因素亦受到区域中其它相关因素的影响,如模型在地势平缓地区插值时受到高程因素的影响较小,插值精度更高,因此研究后续会采用更多的相关变量辅助插值以进一步提高精度。最后,模型的滑动窗口长度、空间层邻近点数量等参数采用设定候选值与网格搜索结合的方法确定,还未实现参数的自适应调整,影响了模型的通用性,后续研究将继续改进算法,对模型进行完善与优化。
[1]
Eldrandaly K, Abdelmouty A. Spatio-temporal interpolation: Current practices and future prospects[J]. International Journal of Digital Content Technology and its Applications, 2017, 11(6):2017.

[2]
徐文, 黄泽纯, 张倩宁. 基于时空模型的PM2.5预测与插值[J]. 江苏师范大学学报(自然科学版), 2016, 34(3):70-75.

[Xu W, Huang Z C, Zhang Q N. Prediction and interpolation of PM2.5 based on space-time model[J]. Journal of Jiangsu Normal University (Natural Science Edition), 2016, 34(3):70-75.] DOI:10.3969/j.issn.2095-4298.2016.03.016

[3]
Tong W T, Li L X, Zhou X L, et al. Deep learning PM2.5 concentrations with bidirectional LSTM RNN[J]. Air Quality, Atmosphere & Health, 2019, 12(4):411-423. DOI:10.1007/s11869-018-0647-4

[4]
Zoest V, Osei F B, Hoek G, et al. Spatio-temporal regression Kriging for modelling urban NO2 concentrations[J]. International Journal of Geographical Information Science, 2020, 34(5):851-865. DOI:10.1080/13658816.2019.1667501

[5]
梅杨. 时空克里格方法关键技术及其应用研究[D]. 武汉: 华中农业大学, 2016.

[ Mei Y. Research on the key technology of spatiotemporal kriging method and its application[D]. Wuhan: Huazhong Agricultural University, 2016.]

[6]
徐明轩, 缪燕子, 杜盈昌, 等. 基于时空扩展模型的瓦斯浓度场重构[J]. 中国矿业大学学报, 2021, 50(4):658-666.

[Xu M X, Miao Y Z, Du Y C, et al. Reconstruction of gas concentration field based on spatio-temporal expansion model[J]. Journal of China University of Mining & Technology, 2021, 50(4):658-666.] DOI:10.13247/j.cnki.jcumt.001310

[7]
Wang J F, Gao B B, Stein A. The spatial statistic trinity: A generic framework for spatial sampling and inference[J]. Environmental Modelling & Software, 2020, 134:104835. DOI:10.1016/j.envsoft.2020.104835

[8]
Xu C D, Wang J F, Hu M G, et al. A new method for interpolation of missing air quality data at monitor stations[J]. Environment International, 2022, 169:107538. DOI:10.1016/j.envint.2022.107538

[9]
Li R, Cui L L, Meng Y, et al. Satellite-based prediction of daily SO2 exposure across China using a high-quality random forest-spatiotemporal Kriging (RF-STK) model for health risk assessment[J]. Atmospheric Environment, 2019, 208:10-19. DOI:10.1016/j.atmosenv.2019.03.029

[10]
Martínez-Comesaña M, Ogando-Martínez A, Troncoso-Pastoriza F, et al. Use of optimised MLP neural networks for spatiotemporal estimation of indoor environmental conditions of existing buildings[J]. Building and Environment, 2021, 205:108243. DOI:10.1016/j.buildenv.2021.108243

[11]
Wu Y K, Zhuang D Y, Labbe A, et al. Inductive graph neural networks for spatiotemporal Kriging[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2021, 35(5):4478-4485. DOI:10.1609/aaai.v35i5.16575

[12]
黎嵘繁, 钟婷, 吴劲, 等. 基于时空注意力克里金的边坡形变数据插值方法[J]. 计算机科学, 2022, 49(8):33-39.

DOI

[Li R F, Zhong T, Wu J, et al. Spatio-temporal attention-based Kriging for land deformation data interpolation[J]. Computer Science, 2022, 49(8):33-39.] DOI:10.11896/jsjkx.210600161

[13]
Shi X J, Chen Z R, Wang H, et al. Convolutional LSTM network: A machine learning approach for precipitation nowcasting[EB/OL]. 2015: arXiv:1506.04214. http://arxiv.org/abs/1506.04214

[14]
Zhao J C, Deng F, Cai Y Y, et al. Long short-term memory-Fully connected (LSTM-FC) neural network for PM2.5 concentration prediction[J]. Chemosphere, 2019, 220:486-492. DOI:10.1016/j.chemosphere.2018.12.128

[15]
Fan J, Li Q, Hou J, et al. A spatiotemporal prediction framework for air pollution based on deep RNN[J]. ISPRS Annals of Photogrammetry, Remote Sensing and Spatial Information Sciences, 2017,Ⅳ-4/W2:15-22. DOI: 10.5194/isprs-annals-IV-4-W2-15-2017

[16]
Ma J, Ding Y X, Cheng J C P, et al. A temporal-spatial interpolation and extrapolation method based on geographic Long Short-Term Memory neural network for PM2.5[J]. Journal of Cleaner Production, 2019, 237:117729. DOI: 10.1016/j.jclepro.2019.117729

[17]
Ma J, Ding Y X, Gan V J L, et al. Spatiotemporal prediction of PM2.5 concentrations at different time granularities using IDW-BLSTM[J]. IEEE Access, 2019, 7:107897-107907. DOI:10.1109/ACCESS.2019.2932445

[18]
张文朝, 李超朋, 郑梅, 等. 近50年山东省降水特征分析[J]. 可持续发展, 2020, 10(3):473-479.

[Zhang W Z, Li C P, Zheng M, et al. Characteristics of precipitation in Shandong Province in 50 years[J]. Sustainable Development, 2020, 10(3):473-479.] DOI:10.12677/SD.2020.103059

[19]
魏文静, 谢炳庚, 周楷淳, 等. 2013—2018年山东省大气PM2.5和PM10污染时空变化及其影响因素[J]. 环境工程, 2020, 38(12):103-111.

[Wei W J, Xie B G, Zhou K C, et al. Research on temporal and spatial variations of atmospheric PM2.5 and PM10 and the influencing factors in Shandong, China during 2013—2018[J]. Environmental Engineering, 2020, 38(12):103-111.] DOI:10.13205/j.hjgc.202012018

[20]
上海青悦环保信息技术服务中心. 2020年11月1日—2021年1月31日山东省国控空气质量监测站点数据[EB/OL]. https://www.epmap.org

[ Shanghai qingyue environmental information technology service center. Data from national air quality monitoring sites in Shandong Province, November 1, 2020—January 31, 2021[EB/OL]. https://www.epmap.org

[21]
国家基础地理信息中心. 山东省矢量地图数据[EB/OL]. https://www.ngcc.cn

[ National geomatics center of China. Shandong Province vector map data[EB/OL]. https://www.ngcc.cn.]

[22]
黄伟建, 李丹阳, 黄远. 基于深度学习的PM2.5浓度长期预测[J]. 计算机应用研究, 2021, 38(6):1809-1814.

[Huang W J, Li D Y, Huang Y. Long-term prediction of PM2.5 concentration based on deep learning[J]. Application Research of Computers, 2021, 38(6):1809-1814.] DOI:10.19734/j.issn.1001-3695.2020.08.0254

[23]
Li X, Peng L, Yao X J, et al. Long short-term memory neural network for air pollutant concentration predictions: Method development and evaluation[J]. Environmental Pollution, 2017, 231(Pt 1):997-1004. DOI:10.1016/j.envpol.2017.08.114

PMID

[24]
Zhou Y L, Chang F J, Chang L C, et al. Explore a deep learning multi-output neural network for regional multi-step-ahead air quality forecasts[J]. Journal of Cleaner Production, 2019, 209:134-145. DOI:10.1016/j.jclepro.2018.10.243

文章导航

/