Pre-earthquake Anomaly Data Mining of Remote Sensing OLR in Nepal Earthquake

  • LIN Ling , 1, * ,
  • KONG Xiangzeng 1 ,
  • LI Nan 2 ,
  • XIONG Pan 3
  • 1. College of Mathematics and Informatics, Fujian Normal University, Fuzhou 350000, China
  • 2. College of Computer and Information Sciences, Fujian Agriculture and Forestry University,Fuzhou 350000, China
  • 3. Institute of Earthquake Science, China Earthquake Administration, Beijing 100036, China
*Corresponding author: LIN Ling, E-mail:

Received date: 2017-11-28

  Request revised date: 2018-04-25

  Online published: 2018-08-24

Supported by

Leading Project of Fujian Province, No.2015Y0054

National Natural Science Foundation of China Youth Fund, No.41601477

National Natural Science Foundation of China, No.61361136002, 61772004.


A number of researches have shown that the occurrence of earthquakes is often accompanied by abnormal warming of infrared radiation data, which is hidden in the Outgoing Long-Wave Radiation (OLR) data, which has been captured by the NOAA remote sensing satellite. These abnormal signals are embedded in a large amount of normal information and cannot be recognized by human eyes or some common methods. Many scholars utilized different means to analyze the anomaly of infrared remote sensing data. However, there were still lack of any effective processing techniques and algorithms, and most of the thermal infrared satellite remote sensing data weren't fully utilized. In this work, we propose a data mining algorithm, which is based on the anomaly features of the martingale theory. The algorithm first calculates the distance between a sample point and the cluster, and then determines whether the measured point is abnormal according to a comprehensive operation of the number of abnormal points nearest to each point, and calculates the whole event sequence data changing trend based on the martingale theory. The martingale value (i.e. CD value) corresponding to each original point is obtained, so that the original data is stripped out, the noise and the normal data are obtained, and the anomaly is analyzed before the earthquake. The OLR data sources used in the experiments on this algorithm were from three earthquakes happened in Nepal between September 2014 and July 2015 (including the Ms7.8 earthquake in April 25, 2015). We found that the CD value of the OLR data about the epicenter region began to have significant temporal correlation characteristics of anomalous data changes as early as 2 or 3 months before the earthquake. The results of this research were similar to the comparison of the OLR original and CD values of the Wenchuan and Lushan earthquakes. In this paper, we analyzed the anomaly of the three earthquakes one month before and some two weeks after the earthquakes. The experimental results show that when the earthquake is larger, and the anomaly CD value occurs earlier. In conclusion, the more obvious the anomaly is, the closer the region is to the epicenter or fault zone, the farther from the epicenter, the weaker and appeared later the abnormal signal.

LIN Ling , KONG Xiangzeng , LI Nan , XIONG Pan . Pre-earthquake Anomaly Data Mining of Remote Sensing OLR in Nepal Earthquake[J]. Journal of Geo-information Science, 2018 , 20(8) : 1169 -1177 . DOI: 10.12082/dqxxkx.2018.170567

1 引言

虽然许多学者采用不同的方式对热红外遥感数据的异常点进行识别分析,但这些技术分析的结果大多缺乏有效的处理技术和算法来提取与地震相关的异常信息,且大多数的热红外卫星遥感数据并没有被充分利用[11]。数据挖掘(Data Mining)技术是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含的、无法预知、潜在有用的信息和知识的过程[12]。本文提出一种利用鞅理论的异常识别算法,提取隐含在地震热红外遥感数据中的异常信息。本文以尼泊尔的4月25日Ms7.8大地震为研究案例,对其前后1年(2014年9月至2015年 7月)的遥感卫星所获取的射出长波辐射数据及其周边震区(21.98~20.73° N,78.48~90° E)进行邻近地域与时间序列的震前异常分析,研究其数据异常变化趋势识别数据信息在地震前的异常,探讨OLR数据在震前的异常变化与地震之间的关系。

2 数据源与处理

长波辐射数据(Outgoing Longwave Radiation, OLR)是指地-气系统向外层空间发射的电磁波能量密度,又可称为热辐射通量密度,是从被遥测目标的温度计算出的相应辐射通量密度[13]。如图1所示,美国NOAA卫星是与太阳轨道同步的极轨式卫星,对遥测数据进行多次空间平均后,可提供按地理的经纬网格2.5×2.5间距的全球逐日平均和逐月平均的OLR数据[5]
Fig. 1 Diagram of earth's Outgoing Longwave Radiation (OLR) before earthquake

图1 震前的射出长波辐射(OLR)遥感监测示意图

本文所使用的OLR数据来自美国国家海洋和大气管理局(NOAA)(。本文结合概率统计理论中的鞅理论和OLR数据序列特征,提出一种地震监测数据异常识别算法提取OLR数据的异常特征。实验对象的时间跨度取自从2014年9月到2015年7月的10个月,地域范围是以尼泊尔地震的震中为核心的21.98~20.73° N,78.48~90° E区域。
Tab. 1 List of Nepal earthquakes from May 2015 to November 2014

表1 2014年11月至2015年5月尼泊尔地震清单

序号 日期 时间(UTC) 震中 经纬度 震级 深度/km
1 2014-12-18 15:32:12 29 km SSE of Zuobude,中国 27.74 °N, 86.37° E 5.0 33.6
2 2015-04-25 06:11:25 36 km E of Khudi,尼泊尔 28.23 °N, 84.73 °E 7.8 8.2
3 2015-05-12 07:05:19 19 km SE of Kodari,尼泊尔 27.81 °N, 86.07 °E 7.3 15
Fig. 2 Diagram of grid map

图2 地图的网格化处理示意图

本文网格的经纬度取值是取四舍五入后的一位小数点。例如,13号网格是震中加德满都,取经纬度分别为28.2°N和34.7°E,则可知13号网格的范围则是26.95°~29.45° N, 33.45°~35.95° E。图2中的横穿网格中间部分的横贯中部的弯曲线是全球著名的地震带——地中海-喜马拉雅地震带。尼泊尔位于欧亚板块和印度洋板块的交界区,南北两大板块以每年4~5 cm的速度相向“漂浮”移动,在这种相互作用下,地震现象频繁。2015年4月25日著名的尼泊尔大地震就是由于印度洋板块和欧亚大陆挤压逆冲而造成的。

3 算法分析

以数据集 O = o 1 , , o i - 1 表示的之前的 i - 1 个OLR数据, o i 表示当前点的OLR数值。显然,当没有地质活动时,地表辐射的温度变化应相对平稳且有规律,即样本之间应具有相似性的,依据文献[22]可以将 O { o i } 看成是属于同一个聚类。只有当有地震现象或者其他地质活动时,样本之间将呈现差异性。
通过计算一个样本点与聚类的距离,来度量一个样本点的异常性。假设需要判断是否异常的样本点为 o i ,先计算 P i = O { o i } 的方差均值 m ,再计算 o i m 的距离。
d i = d P , o i = o i - m (1)
式中: · 表示距离度量函数; d j 表示第 j 点的异 常值。
考虑 o 1 , o 2 , , o i - 1 的分布情况,可以依据 O 近邻点的个数衡量其异常程度。式(2)的 p ˆ i , k 用来衡量 o i 所对应OLR数据的平稳程度。
p ˆ i , k P n , θ n = j | d j > d i + θ i , k j | d j = d i i (2)
式中: { } 是一个返回满足给定条件的样本数量的函数, i = 1 , 2 , , n , j = 1 , 2 , , i ; d i 采用式(1)计算; k 表示样本点的序号,当前默认选择前100个点为样本点。
式中: θ i , k 为(0, 1)范围内选取的参数,设置为
θ i , k = 0.01 × k - 1 + 0.0001 × 100 - k , k 50 1 - 0.01 × k - 50 - 1 + 0.0001 × 100 - k - 50 , 50 < k 100 (3)
从式(2)可看出, p ˆ i , k ( 0 , 1 ] , p ˆ i , k 值越大,表明 o i 越符合前面的样本分布,当天数据出现异常的可能就更小。而由于OLR数据难免会存在噪声和不稳定的情况,因此即使出现相对较小的 p ˆ 值,也不足以说明当天OLR数据相对于整体出现异常。这里需要考虑应用鞅(Martingale)理论[23],综合评估整个时间序列的数据的变化趋势。
鞅理论起源于赌博业,是现代概率和随机过程的基础,在金融投资决策和控制模型等方面有重要应用,是最早金融资产定价模型之一。为了更科学地反映OLR数据变化模型,结合鞅理论与OLR数据特点,需要分析每个样本点 o i 所对应的第n个点的鞅值 M n
M n = i - 1 n ( ε p ˆ i , k ε - 1 ) (4)
通过多次试验,在计算鞅值的基础上,基于参数的优化处理,得到最终定义数据点的概率变化 程度。
C D n ( ε ) = k = 1 100 i - 1 n ( ε p ˆ i , k ε - 1 ) 100 (5)
根据文献[21],取参数 ε = 0.82 ,初始化值 C D 0 ε = 1 。从式(4)的计算过程可以看出, M 值越大则表示之前一定时间内OLR数据的异常越明显。
在对样本分析时,发现由于实际数据本身可能存在偏差,造成一些数据点异常度过大,采用阈值 h 的约束减少“毛刺”,设置阈值为1000,当出现 C D n ( ε ) h 时,从 d i + 1 开始重新开始算法,返回式(1)继续执行。本算法的实验在MATLAB平台上已经实现,据文献[24]执行并测试,算法流程如图3所示。
Fig. 3 Flowchart for the algorithm

图3 算法流程图

4 结果与分析

Fig. 4 The original NOAA data graph and the wave diagram of the CD values

图4 NOAA源数据图与CD值波动图

除了尼泊尔地区,实验小组还对汶川2008年5月12日和芦山地区2013年4月20日的2次大地震做了震前的数据分析。图5(a)、(b)是汶川地震的OLR数据波动图与CD值波动图,图5(c)、(d)是芦山地震的OLR数据波动图与CD值波动图。从图中可看出,对于这2个地震,与尼泊尔地震OLR数据分析结果类似,震前 CD 值的波动走势显示与地震发生时间吻合,在地震前2-3个月开始出现异常信息的波动,并随着地震的来临,异常值逐渐波动并增大。
Fig. 5 The original NOAA data and CD values in Wenchuan and Lushan area

图5 汶川与芦山的NOAA源数据与CD值图


4.1 时间相关性分析

尼泊尔地区3个时间段的地震时间,从左到右分别用3条竖线表示,如图4(b)所示。第1次的地震发生在2014年12月18日,地震的前一个月11月20日左右开始出现波动,而到2015年4月25日则早在2月25日附近就开始出现CD值的变化,并随着时间的推移,CD值呈现“爬坡”式的上扬。 NOAA数据在地震前2个月开始出现异常,随着时间的推移,该异常有逐渐增长的趋势,从图中可见总的趋势是不断波动并上扬,并在4月25日的7.9级地震的当天CD值达到了顶峰,之后虽然数据下落,但是震荡后又开始上扬。而美国地质调查局(USGS)所提供的网络数据表明在5月12日尼泊尔又遭遇了一次大的余震,相应的在图4(b)中显示地震前的热辐射信号的异常值CD值开始陡然走高,在尼泊尔5月12日地震(图中第3条竖线所标示)前夕出现奇点(图4(b)圆环标示处),5月11日的 CD 值突破了Y轴最高值300,实质上该天CD值数据达到了413.09,而第二天的地震的震级为7.3级,给当地造成了更大的损失。之后CD值则迅速滑落,而从实际情况来看尼泊尔虽然不断有小的余震,但没有再遭遇更大的地震了。

4.2 地域相关性分析

尼泊尔位于地中海-喜马拉雅地震带,这一地震带系欧亚板块与非洲板块、印度洋板块的交界区,其地震活动释放的能量占全球地震释放总能量的 24 % 。尼泊尔地震的直接动力学成因是印度板块与欧亚板块沿北东走向以 45 mm / a 的速度汇聚,造成喜马拉雅山脉的隆起。地震区域的地域性异常数据分析,是对以震中为中心的周边地区的NOAA数据的算法实施后的CD值变化状况进行分析,对不同单元网格的CD值变化曲线进行综合分析。
本算法中 CD 值代表当前数据点相对于该点前面数据的异常程度。由式(5)可知, CD 值越大表明当前数据点的相对异常变化越大。本次实验的3个地震对象中,以取尼泊尔的2015年4月25日的7.8级地震的OLR数据分析为例,对图2中的25个网格分别执行应用算法提取异常序列,即对应每个网格都生成CD值变化曲线图,再分别对25个CD值进行5 d为单位的均值化处理,本文仅对震前25天与震后15 d的NOAA数据的异常情况进行统计。图6图2的网格号一一对应,图6中每个柱体表示以5 d为单位的 CD 值的均值,每个小图中的竖线表示地震日期。通过网格单位化后所对应的地理位置相对地震带的分布来说较工整,图2中部的网格13覆盖尼泊尔地震震中,网格1-10(前两行)落于上半部分的欧亚板块,网格16-25(后两行)对应的是印度洋板块,而地中海-喜马拉雅地震带则贯穿的是网格11-15(中间一行),网格6-20也有覆盖到地震带,相对震中较远,覆盖的部分不多。
Fig. 6 Abnormal analysis of pre-earthquake and post-earthquake

图6 地震前后的异常分析图

图6中相距断裂带更远一些的最下面一行的网格,则出现一些不同的走势,只有网格21表现的是总体呈现稳定与CD值在170上下波动震后略升外,网格23、24都呈现从异常变化比较大到逐渐减弱的走向,如网格23从CD均值接近300而后逐渐下落至震后第10-15 d均值低于100。这是由于该网格处于印度板块,印度板块作为逆冲的俯冲板块,其过程应力扰动是向北方传导,地震带以南部分能量逐渐减弱的地质现象的数据显示。在尼泊尔地震孕育的过程中西侧的地震的应力高于东侧,西侧的震前异常相对较多,而东侧总体表现为震后异常比震前多,如图6最右边一列网格(网格5、10、15、20和25),同步出现CD值随时间推移小幅增加的现象,这也与震中的应力扰动传播有关。从图6可见,覆盖于下半部分印度洋板块的网格显示的震前异常相对更多,也许正是受板块的运动特征的影响。

5 结论与讨论

研究小组也对比汶川芦山等地区的地震也进行 CD 值算法异常值分析实验,得到较好的实验结果。由于本文提出的算法需要把最前面的若干数据点的方差作为数据偏离计算的聚类核心,如果在这些点中正好有发生微震,可能拉高样本数据,更容易得到较好的结果。例如,本文采用2014年9月至2015年7月的数据,而2014年9月尼泊尔正好发生了轻微地震,使之后的几次地震都与地震的发生相吻合地显示出出震前的曲线波动。下一步将针对参数的不同选择,研究对异常值的获取和分析的影响。并研究此算法是否能运用于不同的地震信息来源,如GPS、垂直倾斜摆等监测数据。OLR数据变化反映了获取地表温度的变化,因此容易受到气候季节、气流和温室效应等影响。尽管如此,实验结果还是表明无论从地震发生的时间序列,还是与区域网格相对应相对的与地震构造带相关联的分析,通过采用基于鞅理论的算法对获取OLR数据热辐射波的异常序列都是有效的,都与地震发生的时间与地点相吻合,说明采用本算法对监测数据处理,以及对地震的震前预报有一定参考价值。

