HTM-ST: A Data Model Supporting Spatio-Temporal Coupled Computation for Solar-Terrestrial System

  • KANG Donghe , 1, 2 ,
  • ZOU Ziming , 1, * ,
  • HU Xiaoyan 1 ,
  • ZHONG Jia 1
  • 1. Laboratory of Space Science Data and Network Technology, National Space Science Center, CAS, Beijing 100190, China
  • 2. School of Computer and Control Engineering, University of Chinese Academy of Sciences, Beijing 100049, China
*Corresponding author: ZOU Ziming, E-mail:

Received date: 2017-02-08

  Request revised date: 2017-03-26

  Online published: 2017-06-20


Data Model is the basis for the effective management, sharing and application of scientific data. Nowadays, the sematic data model is a conventional and dominant data organization method in the solar-terrestrial physics domain which aims to describe data along with its various metadata, such as observatories, instruments, and data types etc. However, it’s difficult to support mass data processing and correlation analysis because the model neglects the temporal and spatial relations among data. Hence, a data model supporting spatio-temporal computation should be established to facilitate data discovery, fine structure identification, coupling relation research and spatio-temporal evolution analysis and other research hotspots of solar-terrestrial physics. Therefore, this paper proposed a computable spatio-temporal data model, HTM-ST that supports these applications. On the basis of the HTM global discrete grid, this model established discrete spatio-temporal subdivision by extending HTM’s spherical units to equal-divided time dimension. Besides, a novel spatio-temporal coupled coding algorithm is described to represent these high-dimensional units in the one-dimensional space. Meanwhile, the model’s storage scheme is designed and implemented in the HBase platform based on the model’s subdivision structure and coding algorithm. In this paper, a prototype system is implemented to evaluate the efficiency of the model, by comparing multiple spatio-temporal queries over energetic particle data observed by five polar orbit satellites. The experimental results show that HTM-ST data model is more efficient and robust. It could be used as the solar-terrestrial physics data organization and storage foundation for spatio-temporal relationship.

Cite this article

KANG Donghe , ZOU Ziming , HU Xiaoyan , ZHONG Jia . HTM-ST: A Data Model Supporting Spatio-Temporal Coupled Computation for Solar-Terrestrial System[J]. Journal of Geo-information Science, 2017 , 19(6) : 735 -743 . DOI: 10.3724/SP.J.1047.2017.00735

1 引言

日地空间物理是以科学数据为核心的学科,该领域的科学发现与业务应用离不开科学数据处理、共享与计算分析。数据组织模型是一种抽象模型,以统一的标准对数据记录与属性信息进行组织,是数据管理、共享发布、计算分析以及可视化展示等数据应用系统的基础。该学科通常采用基于语义标注的数据组织模型,如SPASE (Space Physics Archive Search and Extract)[1]数据模型,是目前领域内应用最广泛的数据组织模型之一,其通过构建一系列资源间的本体关系并定义其标识与属性元素,构成其通用元数据语言从而实现数据组织。然而,这类基于语义的数据组织模型忽略了对数据记录时空关系的表达,无法处理日益丰富的数据资源和愈发复杂的计算需求。为了更好支持大数据时代下海量数据处理、多源数据融合、实时可视化以及时空关联分析等应用需求,需建立一种支持时空计算的数据组织模型。此类模型除了需要解决时空信息组织与表达问题外,还应提出合理的数据存储方案。
在地学领域,地理信息系统(Geographic Information System, GIS)是一种发展比较成熟的能够有效存取、分析、显示数据[2]的空间信息系统,在地学各领域都得到了广泛应用。传统的GIS主要面向中、小尺度的区域问题,将地表数据投影到二维平面中,并采用矢量模型或栅格模型组织不同的数据对象。经过数十年的发展,GIS除了支持空间数据组织外,也发展出采用多种时空数据模型(如序列快照模型、基态修正模型以及事件模型等)来表达具有时间信息的空间数据。然而,随着数据采集技术的不断提高带来了海量、高分辨率的全球性数据资源,因此GIS也面临着诸如数据集成、投影变形、实时处理等方面的挑战[3]
为了解决这些问题,全球离散网格[4-5]作为一种新兴的非欧式几何的空间数据组织方式,以三维流型球面表示地表空间,采用一组覆盖地球表面的网格区域作为离散化基本单元来表达多尺度的空间数据。全球离散网格主要分为3种类型:经纬网格、正多面体网格和自适应网格。经纬网格采用经纬结构离散化全球空间,如美国地理空间情报局提出的GARS网格[6]、Google Earth以及World Wind等系统均采用了经纬网格,程承旗等[7]也基于经纬网格提出了GeoSOT网格。这种网格结构简单,并且与现有数据、系统能够很好兼容,取得了广泛应用。相较于经纬网格粒度不均,并且具有极点奇异性,正多面体网格利用内接于球面的5种正多面体或截角二十面体逐步细分,将在不断细分产生的形状相同、面积近似的剖分单元投影到球面空间从而表示多种尺度的空间数据,较为常见的有基于正八面体的QTM网格(Quaternary Triangular Mesh)[8]、HTM网格(Hierarchical Triangular Mesh)[9-10]等球面三角网格,以及基于正二十面体的PYXIS球面六边形网格[11]等。自适应网格是一种不规则网格结构,按照球面上实体要素的特征剖分球面单元,Lukatela[12]和Kolar[13]都利用自适应网格表达全球地形并进行了可视化,但自适应网格结构较为复杂,且不具备层次性特征,很难用于全球多尺度数据统一组织。目前,全球离散网格虽然解决了全球多尺度范围内空间数据统一组织的问题,但是其缺乏对数据时间信息的有效表达。
在存储方案方面,虽然针对全球离散网格的数据存储方案还未被广泛研究,但在地理信息领域,空间大数据存储是该领域重点研究的问题,提出了多种解决方案,如基于ArcGIS的GIS Tools on Hadoop[14]、SpatialHadoop框架[15]、基于HBase的MD-HBase[16]以及基于Hive的Hadoop-GIS[17]等。综合这些系统可以发现,大数据技术能够解决海量空间数据的组织与存储需求,提供易扩展、高效率、高可靠的解决方案。然而,上述解决方案的应用范围主要针对二维平面空间,面向全球离散网格的时空大数据存储方案的研究还处于起步阶段。
地理信息系统与全球离散网格的核心思想为解决日地空间物理学科的时空数据组织问题提供了基本思路。本文在HTM这一全球离散网格的基础上,引入了时间维度的扩展,设计并实现了HTM-ST(Hierarchical Triangular Mesh - Sphere & Time)离散化时空数据组织模型,以支持日地空间的共性时空计算需求。本文详细阐述了HTM-ST模型的时空剖分、编码算法以及基于HBase数据库的数据存储方案,并利用时空数据查询这一基础需求和面向空间物理应用的基于地方时的全球数据插值,对模型的有效性和效率进行了实验验证。

2 HTM-ST数据组织模型

2.1 时空剖分

Fig. 1 An illustration of the HTM subdivision method

图1 HTM网格剖分示意图

(1)构造内接于球面的正八面体,顶点分别与南北极、(0°,0°)、(0°,90°E)、(0°,180°E)和(0°,90°W)重合,并将每个面投影到球面得到的8个球面大三角形作为 L 0 级剖分,如图1(a)所示。
(2)用大圆弧连接 L i 级球面三角形3条边的中点,获得4个子球面三角形,作为 L i + 1 级剖分,图1(b)展示了 L 0 级单元在 L 1 级的剖分结构。
(3)迭代执行步骤(2),直到合适层级 L max 为止。
与球面空间不同,时间维度是一个一维线性无限扩展的维度,而模型面向具体应用场景的数据组织与存储需求,因此能够将时间维度具体限定在任务区间 T = [ t 0 , t 1 ) 中。对于数据的时间信息t有多种表示方案:

2.2 编码算法

由于HTM-ST在球面上采用HTM离散网格,因此其球面剖分编码采用HTM网格的编码算法。HTM网格采用层次性编码结构, L n 层网格编码 I D L n HTM = C L 0 HTM C L 1 HTM C L n HTM ,其中 C L i HTM 为网格在 L i 层级的序号, C L 0 HTM 按照球面三角形从北到南,逆时针方向排序,图1(a)中红色三角形序号为0;其他层级序号由编码模板根据父网格的朝向确定,如图2所示。
Fig. 2 Coding template of HTM

图2 HTM编码模板

时间剖分编码与球面剖分编码类似,也通过层次性编码结构对各个时间剖分单元进行编码,从0到n层级逐层计算即可获得 L n 层级时间编码 I D L n Time 。若每个父时间单元被均匀划分为m个子时间单元,则子单元中靠近起始时间的子单元序号 为0,靠近截止时间的子单元序号为m-1,在编码过程中每个层级需要的二进制位数为 lo g 2 m
通过上述方法分别获得球面编码 I D L n HTM 和时间编码 I D L n Time 后。对于HTM-ST模型下的时空网格单元编码有2种方案:
(1)非耦合编码:采用 I D L n HTM , I D L n Time 二维结构对模型中的每个时空网格进行编码,便于独立按照球面位置或者时间查找相应的网格和数据,但是在存储时需要选用球面剖分编码或时间剖分编码中的一个作为标识。
(2)耦合编码:综合考虑球面-时间中网格单元的时空剖分,将同一个剖分层级的球面剖分编码与时间剖分编码进行耦合,统一组织赋予一维编码结构(图3)。例如,对于第n层网格,从第0层开始编码,最终有 I D L n = C L 0 C L 1 C L n ,其中 C L i 为耦合编码的第i层序号,有 C L i = C L i Time C L i HTM
Fig. 3 Coupled coding structure

图3 耦合编码结构

现实应用中,不论是文件系统或数据库都具有一维顺序存储结构。通过比较可以发现,非耦合编码是对球面-时间中的某一个维度进行组织和索引,适用于只关注时间关系或者空间关系的数据组织与应用需求;而耦合编码通过将 I D L n HTM , I D L n Time 转换为一维结构,可以看做是对由球面-时间2个维度构成的虚拟平面上进行Z型编码,使得球面位置和时间2个维度都得到了表示,同时考虑了网格间的时间关系与空间关系,具有较高的通用性,因此本文选用耦合编码方案对网格进行编码。

2.3 数据存储方案

综合考虑日地空间数据的物理意义和时空位置信息,设计的数据记录存储表结构如表1所示。根据数据原始记录的时空位置获得其在HTM-ST模型下的编码后,将时空编码作为key值将数据记录存储到表中,该编码具有唯一性,并且同时蕴含了时空位置信息。此外,日地空间探测与研究关注的物理要素主要有电场(Electric Filed )、磁场(Magnetic Field)、能量粒子(Energetic Particles)、中性气体(Neutral Gas)、等离子体(Plasma)和电磁辐射(Irradiance),因此本文将数据按要素类型分为6类,分别为作为科学数据的列族。在数据记录存储时,按照数据的物理要素类别划分到对应的列族中,使描述同一类物理要素的数据集中存储在同一底层存储空间中。
Tab. 1 Data record storage

表1 数据记录存储

Row Key Time Stamp Column Family: Electric Field Column Family: Magnetic Field Column Family: Energetic Particles Column Family: Neutral Gas Column Family: Plasma Column Family: Irradiance
Variable Value Variable Value Variable Value Variable Value Variable Value Variable Value
ID1 t1 EF:Var1 Value1 EP:Var4 Value4 NG:Var6 Value6
t2 EF:Var2 Value2 P:Var7 Value7 I:Var8 Value8
t3 MF:Var3 Value3 EP:Var5 Value5
ID2 t4 EF:Var1 Value9 P:Var7 Value11
t5 EP:Var4 Value9
Tab. 2 Special attribute

表2 特殊属性

Row Key Time Stamp Column Family: cf Column Family: attr
Variable Value Variable Value
Var1 t1 cf: EF attr: sat NOAA-15
t2 attr:instr MEPED
Var2 t3 cf: EF attr: sat NOAA-18

3 实验及结果分析

3.1 实验环境与数据

Tab. 3 Configuration of software and hardware

表3 集群软、硬件配置表

硬件环境 软件环境
节点数目/个 4 操作系统 Centos 6.5
CPU 2核 Hadoop 1.2.1
内存/GB 8 HBase 0.98
硬盘/GB 500
本文选取了通过CSSDC (Chinese Space Science Data Center)交换得到的NOAA-15,NOAA-18,NOAA-19,METOP-1以及METOP-2五颗卫星观测的能量粒子通量数据,利用HTM-ST模型原 型系统进行组织存储。这些卫星为极轨卫星,轨道为850 km左右高度的近圆轨道,均搭载了MEPED载荷。每个MEPED有0°和90°望远镜,探测40~130 kev、130~287 kev、287~612 kev和>612 kev共4个能道的电子积分通量,和30~115 kev、115~ 32 kev、332~1105 kev、1105~2723 kev、2713~6174 kev和 >6174 kev共6个能道的质子微分通量,因此每颗卫星共计20个观测物理量。实验选取了卫星自2013年1月1日到2016年6月30日的数据,采样间隔为2 s。
获得原始数据资源后,根据数据的时空分辨率确定HTM-ST模型最多剖分至12级即可,第12级网格时间尺度约为2 s,空间尺度约为1 km,能够满足实验数据最精细化的时空组织需求。在此剖分层级下,将所选数据全部装载到系统后数据量约为200 GB,共计近3亿条记录。

3.2 实验算法设计

3.2.1 范围查询
范围查询是通过指定时空查询范围R与待查询的物理属性标识a,查找出范围R内的所有a属性值数据记录。在HTM-ST模型中,R可以定义为 R C ; T ,其中C为HTM模型下的空间查询范围,通过多个球冠的交或并近似得到,单球冠如图4所示,详见文献[10];T为查询的时间范围,可以表示为 T = [ t 1 , t 2 ) ,其中 t 1 表示起始时间(包含), t 2 表示终止时间(不包含)。
Fig. 4 An illustration of single constraint

图4 单球冠查询示意图

本文设计了3个范围查询实验对HTM-ST模型进行验证,其查询的物理参量目标均为5颗卫星0°望远镜的40~130 KeV电子积分通量观测数据。查询的时空范围分别为:范围Ⅰ,2013年2月份北纬30°以北,覆盖了北极的极光卵;范围Ⅱ,2014年7月1日至8日中央时区,即0°经线左右各7.5°以内的范围;范围Ⅲ,2013年2月1日至8日南大西洋异常区,近似地取以(30° N, 45° W)为中心点, 2 2 R 为底面半径的球冠,其中R为球体半径。
3.2.2 基于地方时的全球插值计算
本文设计了一个基于地方时的全球插值计算实验,用于验证HTM-ST模型在面对上述科学应用场景时具有良好表现。本实验同样选取了NOAA系列3颗卫星40~130 kev电子积分通量为插值数据资源,实验参数如表4所示,其中T的时间区间总长13.5 d,为半个太阳自转周,平衡了所选时间段内太阳自转引起的周期性变化,地方时划分为从0时开始每段3个小时共8个地方时时段。基于地方时的全球插值计算实验流程为:
Tab. 4 Parameters of global data interpolation

表4 全球数据插值计算参数表

参数名称 备注 示例
a 物理要素标识 Var1(40~130 kev电子积分通量)
T 研究时间范围 [20140201000000, 20140214120000)
LT 地方时时段 00:00至03:00
GLT 地方时时段集合,时段互不重叠且覆盖完整24小时 LT0, LT1,,LT7
(4)对每个地方时时段 L T i 在新的HTM-ST模型下构建全球查询,查询结果集合为 D i ;
(5)时段 L T i 下在空间维度上遍历HTM-ST模型中的剖分单元,如果单元在 L T i 时段内不存在数据记录,则依据单元的空间位置关系采用反距离插值法[2]计算该网格单元取值。

3.3 结果分析

3.3.1 模型有效性分析
Fig.5 Query results of zone Ⅰ(North of 30°)

图5 范围Ⅰ(北纬30°以上)查询结果

Fig.6 Query results of zone Ⅱ(7.5° W~7.5° E)

图6 范围Ⅱ(7.5° W~7.5° E)查询结果

Fig. 7 Query results of zone Ⅲ(South Atlantic Anomaly)

图7 范围Ⅲ(南大西洋异常区)查询结果

针对基于地方时的全球插值计算实验,本文利用NOAA系列3颗卫星的40~130 kev电子积分通量的全球数据,按照数据的星下点地方时划分时间区间,并采用反距离插值法,利用球面距离500 km半径范围的数据进行反距离3次方插值,加权求取无数据的剖分单元的相应数据,从而得到电子积分通量全球分布。地方时0:00-3:00的40~130 kev电子积分通量全球分布可视化结果如图8所示。上述实验示范性地表明,HTM-ST模型可用于支持物理要 素随地方时变化、全球空间粒子辐射环境效应等研究。
Fig. 8 Global distribution of electron integral flux from local time 00:00 to 03:00

图8 地方时0:00-3:00的全球电子积分通量分布图

3.3.2 模型有效性分析
第2.2节中提到,时空剖分单元的编码算法有2种方案可选,而HTM-ST模型选用了耦合编码。本节利用范围查询,对同样时空网格剖分下采用不同编码算法的效率进行对比分析。待比较的编码 方案有3种:① 时-空耦合编码;② 时间优先,采用独立编码,将时间编码作为主码,空间编码作为辅助;③ 空间优先,采用独立编码,将空间编码作为主码,时间编码作为辅助。以上的3种编码算法产生的数据组织模型十分具有代表性,方案②代表了 当前日地空间物理领域常规数据系统按照时间顺序的数据组织方式,而方案③相当于直接采用HTM网格,不对其进行时间维度的组织扩展。基于不同的编码方案,执行多次时空查询的效率如图9所示。
Fig. 9 Query efficiency comparison of different coding methods

图9 不同编码算法的查询效率对比

通过对比可以发现,在3类查询中对时-空进行耦合编码的HTM-ST模型效率最高,对时间进行索引的方案②次之,对空间进行索引的方案③效率最低。方案③的效率比方案②更低的原因是实验中选择了时间跨度较大且分辨率较高、卫星平台个数较少的实验数据,因而方案③在数据库读取了更多的数据记录。例如,对于查询Ⅲ,方案①在数据库中访问数据记录共约 6 × 10 5 条,方案②约为 1.5 × 10 6 条,而方案③则为 6.6 × 10 7 条。访问记录数越多则产生的磁盘和网络IO越多,并发能力越低。此外,从图9可发现,对于不同的查询范围,方案①具有较好的鲁棒性,相对其他2种方案查询时间变化较小。

4 结论与讨论


The authors have declared that no competing interests exist.

