Orginal Article

HTM-ST: A Data Model Supporting Spatio-Temporal Coupled Computation for Solar-Terrestrial System

  • KANG Donghe , 1, 2 ,
  • ZOU Ziming , 1, * ,
  • HU Xiaoyan 1 ,
  • ZHONG Jia 1
Expand
  • 1. Laboratory of Space Science Data and Network Technology, National Space Science Center, CAS, Beijing 100190, China
  • 2. School of Computer and Control Engineering, University of Chinese Academy of Sciences, Beijing 100049, China
*Corresponding author: ZOU Ziming, E-mail:

Received date: 2017-02-08

  Request revised date: 2017-03-26

  Online published: 2017-06-20

Copyright

《地球信息科学学报》编辑部 所有

Abstract

Data Model is the basis for the effective management, sharing and application of scientific data. Nowadays, the sematic data model is a conventional and dominant data organization method in the solar-terrestrial physics domain which aims to describe data along with its various metadata, such as observatories, instruments, and data types etc. However, it’s difficult to support mass data processing and correlation analysis because the model neglects the temporal and spatial relations among data. Hence, a data model supporting spatio-temporal computation should be established to facilitate data discovery, fine structure identification, coupling relation research and spatio-temporal evolution analysis and other research hotspots of solar-terrestrial physics. Therefore, this paper proposed a computable spatio-temporal data model, HTM-ST that supports these applications. On the basis of the HTM global discrete grid, this model established discrete spatio-temporal subdivision by extending HTM’s spherical units to equal-divided time dimension. Besides, a novel spatio-temporal coupled coding algorithm is described to represent these high-dimensional units in the one-dimensional space. Meanwhile, the model’s storage scheme is designed and implemented in the HBase platform based on the model’s subdivision structure and coding algorithm. In this paper, a prototype system is implemented to evaluate the efficiency of the model, by comparing multiple spatio-temporal queries over energetic particle data observed by five polar orbit satellites. The experimental results show that HTM-ST data model is more efficient and robust. It could be used as the solar-terrestrial physics data organization and storage foundation for spatio-temporal relationship.

Cite this article

KANG Donghe , ZOU Ziming , HU Xiaoyan , ZHONG Jia . HTM-ST: A Data Model Supporting Spatio-Temporal Coupled Computation for Solar-Terrestrial System[J]. Journal of Geo-information Science, 2017 , 19(6) : 735 -743 . DOI: 10.3724/SP.J.1047.2017.00735

1 引言

日地空间物理是以科学数据为核心的学科,该领域的科学发现与业务应用离不开科学数据处理、共享与计算分析。数据组织模型是一种抽象模型,以统一的标准对数据记录与属性信息进行组织,是数据管理、共享发布、计算分析以及可视化展示等数据应用系统的基础。该学科通常采用基于语义标注的数据组织模型,如SPASE (Space Physics Archive Search and Extract)[1]数据模型,是目前领域内应用最广泛的数据组织模型之一,其通过构建一系列资源间的本体关系并定义其标识与属性元素,构成其通用元数据语言从而实现数据组织。然而,这类基于语义的数据组织模型忽略了对数据记录时空关系的表达,无法处理日益丰富的数据资源和愈发复杂的计算需求。为了更好支持大数据时代下海量数据处理、多源数据融合、实时可视化以及时空关联分析等应用需求,需建立一种支持时空计算的数据组织模型。此类模型除了需要解决时空信息组织与表达问题外,还应提出合理的数据存储方案。
在地学领域,地理信息系统(Geographic Information System, GIS)是一种发展比较成熟的能够有效存取、分析、显示数据[2]的空间信息系统,在地学各领域都得到了广泛应用。传统的GIS主要面向中、小尺度的区域问题,将地表数据投影到二维平面中,并采用矢量模型或栅格模型组织不同的数据对象。经过数十年的发展,GIS除了支持空间数据组织外,也发展出采用多种时空数据模型(如序列快照模型、基态修正模型以及事件模型等)来表达具有时间信息的空间数据。然而,随着数据采集技术的不断提高带来了海量、高分辨率的全球性数据资源,因此GIS也面临着诸如数据集成、投影变形、实时处理等方面的挑战[3]
为了解决这些问题,全球离散网格[4-5]作为一种新兴的非欧式几何的空间数据组织方式,以三维流型球面表示地表空间,采用一组覆盖地球表面的网格区域作为离散化基本单元来表达多尺度的空间数据。全球离散网格主要分为3种类型:经纬网格、正多面体网格和自适应网格。经纬网格采用经纬结构离散化全球空间,如美国地理空间情报局提出的GARS网格[6]、Google Earth以及World Wind等系统均采用了经纬网格,程承旗等[7]也基于经纬网格提出了GeoSOT网格。这种网格结构简单,并且与现有数据、系统能够很好兼容,取得了广泛应用。相较于经纬网格粒度不均,并且具有极点奇异性,正多面体网格利用内接于球面的5种正多面体或截角二十面体逐步细分,将在不断细分产生的形状相同、面积近似的剖分单元投影到球面空间从而表示多种尺度的空间数据,较为常见的有基于正八面体的QTM网格(Quaternary Triangular Mesh)[8]、HTM网格(Hierarchical Triangular Mesh)[9-10]等球面三角网格,以及基于正二十面体的PYXIS球面六边形网格[11]等。自适应网格是一种不规则网格结构,按照球面上实体要素的特征剖分球面单元,Lukatela[12]和Kolar[13]都利用自适应网格表达全球地形并进行了可视化,但自适应网格结构较为复杂,且不具备层次性特征,很难用于全球多尺度数据统一组织。目前,全球离散网格虽然解决了全球多尺度范围内空间数据统一组织的问题,但是其缺乏对数据时间信息的有效表达。
在存储方案方面,虽然针对全球离散网格的数据存储方案还未被广泛研究,但在地理信息领域,空间大数据存储是该领域重点研究的问题,提出了多种解决方案,如基于ArcGIS的GIS Tools on Hadoop[14]、SpatialHadoop框架[15]、基于HBase的MD-HBase[16]以及基于Hive的Hadoop-GIS[17]等。综合这些系统可以发现,大数据技术能够解决海量空间数据的组织与存储需求,提供易扩展、高效率、高可靠的解决方案。然而,上述解决方案的应用范围主要针对二维平面空间,面向全球离散网格的时空大数据存储方案的研究还处于起步阶段。
地理信息系统与全球离散网格的核心思想为解决日地空间物理学科的时空数据组织问题提供了基本思路。本文在HTM这一全球离散网格的基础上,引入了时间维度的扩展,设计并实现了HTM-ST(Hierarchical Triangular Mesh - Sphere & Time)离散化时空数据组织模型,以支持日地空间的共性时空计算需求。本文详细阐述了HTM-ST模型的时空剖分、编码算法以及基于HBase数据库的数据存储方案,并利用时空数据查询这一基础需求和面向空间物理应用的基于地方时的全球数据插值,对模型的有效性和效率进行了实验验证。

2 HTM-ST数据组织模型

2.1 时空剖分

HTM-ST采用网格剖分方法对球面-时间进行离散化,对时空进行剖分从而表达数据的时空信息。其中,球面的剖分采用HTM网格,是一种正八面体三角剖分方法,如图1所示。主要步骤如下:
Fig. 1 An illustration of the HTM subdivision method

图1 HTM网格剖分示意图

(1)构造内接于球面的正八面体,顶点分别与南北极、(0°,0°)、(0°,90°E)、(0°,180°E)和(0°,90°W)重合,并将每个面投影到球面得到的8个球面大三角形作为 L 0 级剖分,如图1(a)所示。
(2)用大圆弧连接 L i 级球面三角形3条边的中点,获得4个子球面三角形,作为 L i + 1 级剖分,图1(b)展示了 L 0 级单元在 L 1 级的剖分结构。
(3)迭代执行步骤(2),直到合适层级 L max 为止。
HTM网格是对球面空间的一种离散化方法,然而日地空间物理的科学数据还具有时间信息,空间网格无法表征这些信息。因此,本文在HTM网格的基础上,添加了时间维度上的剖分其离散化时空单元兼顾了时间和球面空间位置2种信息。
与球面空间不同,时间维度是一个一维线性无限扩展的维度,而模型面向具体应用场景的数据组织与存储需求,因此能够将时间维度具体限定在任务区间 T = [ t 0 , t 1 ) 中。对于数据的时间信息t有多种表示方案:
(1)直接表示:将时间作为一个连续的维度,直接表示数据的时间信息到某一精度,例如字符串“20150630145530”为2015年6月30日14时55分30秒,这也是最常用的时间表示方案。
(2)等长剖分:将时间维度剖分为多个等长的时间段,称为时间剖分单元,这些时间单元不相交但覆盖了整个时间区间,数据按照其具体时间信息被剖分到相应的单元内。
(3)自适应剖分:按照数据特征和应用需求自适应地调整各个剖分单元粒度,例如对于数据较为密集的时间段剖分粒度较细,能够最大程度地接近原始数据分布特征。
相较于直接表示,等长剖分和自适应剖分更具有优势,原因在于虽然时间是连续的,但数据在时间维度上是离散分布的,通过离散化方法得到的HTM-ST模型中的每一个剖分单元都具有时间和空间2种信息,便于检索和计算。而自适应剖分缺乏清晰的层级结构,不利于构建网格层次之间的关联,也不利于构建多分辨率数据表示,因此HTM-ST模型采用等长剖分组织数据的时间信息,使模型更具一致性,计算也更简便。
剖分因数是指在剖分过程中每个父网格可以剖分成的子网格数目,例如在HTM网格中剖分因数为4。在对时间进行等长剖分时,一维线性结构使得时间维度的等长剖分具有更高的灵活性,可以根据数据的时空范围、粒度以及应用需求等调整时间剖分因数,使模型具有如相同或近似的时间剖分层级和空间剖分层级以及剖分得到的多层时间单元与年、月、日等常用时间表示近似等特性。本文设计的HTM-ST模型采用的时间等长剖分的剖分因数为4,即Li层级的时间单元在Li+1层级被等分为4份。HTM-ST模型分别对球面和时间进行剖分后,可以获得一系列的时空离散单元。

2.2 编码算法

与全球离散网格类似,HTM-ST模型也需要设计编码算法,为每个时空网格单元赋予唯一的标识,以便于表示和存储。HTM-ST模型的时空网格单元是由球面剖分和时间剖分两方面决定的,可以先对球面剖分和时间剖分各进行编码,再通过某种方案确定时空网格的最终编码。
由于HTM-ST在球面上采用HTM离散网格,因此其球面剖分编码采用HTM网格的编码算法。HTM网格采用层次性编码结构, L n 层网格编码 I D L n HTM = C L 0 HTM C L 1 HTM C L n HTM ,其中 C L i HTM 为网格在 L i 层级的序号, C L 0 HTM 按照球面三角形从北到南,逆时针方向排序,图1(a)中红色三角形序号为0;其他层级序号由编码模板根据父网格的朝向确定,如图2所示。
Fig. 2 Coding template of HTM

图2 HTM编码模板

时间剖分编码与球面剖分编码类似,也通过层次性编码结构对各个时间剖分单元进行编码,从0到n层级逐层计算即可获得 L n 层级时间编码 I D L n Time 。若每个父时间单元被均匀划分为m个子时间单元,则子单元中靠近起始时间的子单元序号 为0,靠近截止时间的子单元序号为m-1,在编码过程中每个层级需要的二进制位数为 lo g 2 m
通过上述方法分别获得球面编码 I D L n HTM 和时间编码 I D L n Time 后。对于HTM-ST模型下的时空网格单元编码有2种方案:
(1)非耦合编码:采用 I D L n HTM , I D L n Time 二维结构对模型中的每个时空网格进行编码,便于独立按照球面位置或者时间查找相应的网格和数据,但是在存储时需要选用球面剖分编码或时间剖分编码中的一个作为标识。
(2)耦合编码:综合考虑球面-时间中网格单元的时空剖分,将同一个剖分层级的球面剖分编码与时间剖分编码进行耦合,统一组织赋予一维编码结构(图3)。例如,对于第n层网格,从第0层开始编码,最终有 I D L n = C L 0 C L 1 C L n ,其中 C L i 为耦合编码的第i层序号,有 C L i = C L i Time C L i HTM
Fig. 3 Coupled coding structure

图3 耦合编码结构

现实应用中,不论是文件系统或数据库都具有一维顺序存储结构。通过比较可以发现,非耦合编码是对球面-时间中的某一个维度进行组织和索引,适用于只关注时间关系或者空间关系的数据组织与应用需求;而耦合编码通过将 I D L n HTM , I D L n Time 转换为一维结构,可以看做是对由球面-时间2个维度构成的虚拟平面上进行Z型编码,使得球面位置和时间2个维度都得到了表示,同时考虑了网格间的时间关系与空间关系,具有较高的通用性,因此本文选用耦合编码方案对网格进行编码。

2.3 数据存储方案

HBase是一个分布式的、持久的、强一致性的key-value列式存储系统,只考虑单一的索引,具有灵活的表结构以及出色的读写性能[18]。本文采用HBase作为数据存储平台,基于日地空间数据的物理意义和时空位置,设计了HBase数据库表模式。
综合考虑日地空间数据的物理意义和时空位置信息,设计的数据记录存储表结构如表1所示。根据数据原始记录的时空位置获得其在HTM-ST模型下的编码后,将时空编码作为key值将数据记录存储到表中,该编码具有唯一性,并且同时蕴含了时空位置信息。此外,日地空间探测与研究关注的物理要素主要有电场(Electric Filed )、磁场(Magnetic Field)、能量粒子(Energetic Particles)、中性气体(Neutral Gas)、等离子体(Plasma)和电磁辐射(Irradiance),因此本文将数据按要素类型分为6类,分别为作为科学数据的列族。在数据记录存储时,按照数据的物理要素类别划分到对应的列族中,使描述同一类物理要素的数据集中存储在同一底层存储空间中。
Tab. 1 Data record storage

表1 数据记录存储

Row Key Time Stamp Column Family: Electric Field Column Family: Magnetic Field Column Family: Energetic Particles Column Family: Neutral Gas Column Family: Plasma Column Family: Irradiance
Variable Value Variable Value Variable Value Variable Value Variable Value Variable Value
ID1 t1 EF:Var1 Value1 EP:Var4 Value4 NG:Var6 Value6
t2 EF:Var2 Value2 P:Var7 Value7 I:Var8 Value8
t3 MF:Var3 Value3 EP:Var5 Value5
ID2 t4 EF:Var1 Value9 P:Var7 Value11
t5 EP:Var4 Value9
数据记录除了具有时空位置属性的观测数据值外,还存在诸如观测平台、载荷、观测对象、单位、缺省值等用于描述数据来源、性质、特征的特殊属性,这些特殊属性不属于时空属性,无法在时空网格剖分中直接表达,但又是各类应用场景中常见的查询条件的重要依托。为了兼容这一类查询应用,HTM-ST模型设计了特殊属性表,如表2所示。表中赋予了每个观测变量唯一的标识作为key值,列族cf存储了该变量所属的物理要素分类,列族attr存储了该变量的其他特殊属性信息。
Tab. 2 Special attribute

表2 特殊属性

Row Key Time Stamp Column Family: cf Column Family: attr
Variable Value Variable Value
Var1 t1 cf: EF attr: sat NOAA-15
t2 attr:instr MEPED
Var2 t3 cf: EF attr: sat NOAA-18
采用HBase数据库作为HTM-ST模型的数据存储平台有以下优点:
(1)HBase数据库采用key-value模型,数据库中每条记录都具有唯一的key值,而HTM-ST模型中经过剖分、编码后,所有数据均可以获得蕴含时空信息对应的时空剖分单元的唯一编码,这与key-value模型一致,能够简化存储方案设计,并且保持了不同网格单元记录之间的独立性。
(2)日地空间科学数据具有多源异构的特性,即其观测对象根据数据来源不同而有很大区别,即便对同一对象,例如高能电子积分通量数据,不同数据来源划分能道方式可能不同,但是所有的观测要素均可以根据其物理意义划分到上述的6个类别中。HBase具有灵活的表模式,在设计过程中只需要指定列族,而不需要提前对所有列进行设计,以便存储过程中能有效地支持多源异构数据基于时空位置的统一存储。
(3)HBase数据库采用列式存储方案,即对不含有数据的列不进行存储,而日地空间物理数据的多源异构特性导致不同的时空网格上很难同时包含所有观测对象的数据记录。因此,相较于采用传统关系数据库,HBase能够节省大量存储空间。
(4)HBase数据库在存储过程中具有顺序性,即相邻key值的数据记录在存储时也具有相邻特性,因此选用时空编码作为key值能使父网格的所有子网格都集中连续存储,这在数据访问过程中会减少随机访问次数,从而加速访问速度。

3 实验及结果分析

3.1 实验环境与数据

本文在虚拟化集群环境下实现了HTM-ST时空数据组织模型的原型示范系统,集群环境配置如表3所示,其中1台虚拟节点作为MasterNode,其余3台作为SlaveNode,并选用1台SlaveNode作为ZookeeperHeader,各个节点的软硬件配置均相同。作为实验平台,配置Hadoop的数据备份为1。
Tab. 3 Configuration of software and hardware

表3 集群软、硬件配置表

硬件环境 软件环境
节点数目/个 4 操作系统 Centos 6.5
CPU 2核 Hadoop 1.2.1
内存/GB 8 HBase 0.98
硬盘/GB 500
本文选取了通过CSSDC (Chinese Space Science Data Center)交换得到的NOAA-15,NOAA-18,NOAA-19,METOP-1以及METOP-2五颗卫星观测的能量粒子通量数据,利用HTM-ST模型原 型系统进行组织存储。这些卫星为极轨卫星,轨道为850 km左右高度的近圆轨道,均搭载了MEPED载荷。每个MEPED有0°和90°望远镜,探测40~130 kev、130~287 kev、287~612 kev和>612 kev共4个能道的电子积分通量,和30~115 kev、115~ 32 kev、332~1105 kev、1105~2723 kev、2713~6174 kev和 >6174 kev共6个能道的质子微分通量,因此每颗卫星共计20个观测物理量。实验选取了卫星自2013年1月1日到2016年6月30日的数据,采样间隔为2 s。
获得原始数据资源后,根据数据的时空分辨率确定HTM-ST模型最多剖分至12级即可,第12级网格时间尺度约为2 s,空间尺度约为1 km,能够满足实验数据最精细化的时空组织需求。在此剖分层级下,将所选数据全部装载到系统后数据量约为200 GB,共计近3亿条记录。

3.2 实验算法设计

考虑到建立HTM-ST模型的目的是支持时空计算,需要验证模型的时空剖分、编码算法以及存储方案在时空计算过程中的有效性和高效性。因此,本文选用了2种具有代表性的时空计算进行实验验证,分别为时空范围查询和基于地方时的全球插值计算。
3.2.1 范围查询
范围查询是通过指定时空查询范围R与待查询的物理属性标识a,查找出范围R内的所有a属性值数据记录。在HTM-ST模型中,R可以定义为 R C ; T ,其中C为HTM模型下的空间查询范围,通过多个球冠的交或并近似得到,单球冠如图4所示,详见文献[10];T为查询的时间范围,可以表示为 T = [ t 1 , t 2 ) ,其中 t 1 表示起始时间(包含), t 2 表示终止时间(不包含)。
Fig. 4 An illustration of single constraint

图4 单球冠查询示意图

在范围查询计算过程中,需要逐层判断各个时空网格与查询范围R的拓扑关系,在剖分细化的过程中不断逼近R的时空范围,从而减少数据访问量。然而,由于R的边界并不一定与HTM-ST模型中的网格边界重合,因此在不断逼近R的过程中在边界处会产生大量的细粒度网格单元,从而占用大部分的计算资源以及磁盘、网络资源。因此,在剖分过程中可以启发式地停止对某一网格的剖分细化,读取该网格所有数据后再进行过滤,从而降低查询时间。
本文设计了3个范围查询实验对HTM-ST模型进行验证,其查询的物理参量目标均为5颗卫星0°望远镜的40~130 KeV电子积分通量观测数据。查询的时空范围分别为:范围Ⅰ,2013年2月份北纬30°以北,覆盖了北极的极光卵;范围Ⅱ,2014年7月1日至8日中央时区,即0°经线左右各7.5°以内的范围;范围Ⅲ,2013年2月1日至8日南大西洋异常区,近似地取以(30° N, 45° W)为中心点, 2 2 R 为底面半径的球冠,其中R为球体半径。
3.2.2 基于地方时的全球插值计算
近地空间区域与太阳的相对位置关系对该区域的物理要素变化有重要影响,如在日出、日落的明暗交接区通常会发生大气层、电离层的结构变化,同样的物理要素在白天和黑夜的取值也会发生剧烈变化。地方时是表征这种位置关系的重要参量,研究物理要素随地方时的变化或分布是科学研究中常见的场景之一,然而并非所有区域都有真实探测的数据记录,还需引入插值计算等方法以获得物理要素的全球分布。HTM-ST模型时空网格单元的时间维度既可以采用世界时进行描述,也可以根据应用需求采用地方时进行描述,因此同样可以支持此类应用场景。
本文设计了一个基于地方时的全球插值计算实验,用于验证HTM-ST模型在面对上述科学应用场景时具有良好表现。本实验同样选取了NOAA系列3颗卫星40~130 kev电子积分通量为插值数据资源,实验参数如表4所示,其中T的时间区间总长13.5 d,为半个太阳自转周,平衡了所选时间段内太阳自转引起的周期性变化,地方时划分为从0时开始每段3个小时共8个地方时时段。基于地方时的全球插值计算实验流程为:
Tab. 4 Parameters of global data interpolation

表4 全球数据插值计算参数表

参数名称 备注 示例
a 物理要素标识 Var1(40~130 kev电子积分通量)
T 研究时间范围 [20140201000000, 20140214120000)
LT 地方时时段 00:00至03:00
GLT 地方时时段集合,时段互不重叠且覆盖完整24小时 LT0, LT1,,LT7
(1)利用时空范围查询获得T时间段内a要素的全球数据结果集合D,结果集中每条记录的行键为HTM-ST网格编码,属性值为物理要素观测值;
(2)构建基于地方时的HTM-ST模型,模型的时间范围为地方时0-24时;
(3)依次选取查询结果集D中的每条数据记录,根据在数据的世界时信息计算相应的地方时,依此生成数据在新的HTM-ST模型中的网格编码;
(4)对每个地方时时段 L T i 在新的HTM-ST模型下构建全球查询,查询结果集合为 D i ;
(5)时段 L T i 下在空间维度上遍历HTM-ST模型中的剖分单元,如果单元在 L T i 时段内不存在数据记录,则依据单元的空间位置关系采用反距离插值法[2]计算该网格单元取值。
(6)重复步骤(4)和(5)以获得全部地方时时段的全球数据分布。

3.3 结果分析

3.3.1 模型有效性分析
基于HTM-ST模型原型系统,在上述3个查询范围内查询数据后,得到的数据记录条目分别约为200万、6万和37万条,与原始数据文件中相应的范围内数据记录条目数相同。为了直观地展示结果,本文对剖分至第7、8、9层的HTM-ST模型查询结果进行可视化,如图5-7所示,并标识了GEO坐标系的坐标轴。由图5可以明显看出,北纬60°左右区域存在电子积分通量较大的环形区域,该区域为北极光卵区域,由于地磁轴与地球自转轴之间存在夹角,该环状区域在GEO坐标系下相对z轴存在一定倾斜。图7则显示了南大西洋异常区粒子通量明显高于周边区域的特征。这些数据查询结果与真实的物理特征相一致,说明HTM-ST模型的数据组织与时空范围查询是正确并有效的。
Fig.5 Query results of zone Ⅰ(North of 30°)

图5 范围Ⅰ(北纬30°以上)查询结果

Fig.6 Query results of zone Ⅱ(7.5° W~7.5° E)

图6 范围Ⅱ(7.5° W~7.5° E)查询结果

Fig. 7 Query results of zone Ⅲ(South Atlantic Anomaly)

图7 范围Ⅲ(南大西洋异常区)查询结果

针对基于地方时的全球插值计算实验,本文利用NOAA系列3颗卫星的40~130 kev电子积分通量的全球数据,按照数据的星下点地方时划分时间区间,并采用反距离插值法,利用球面距离500 km半径范围的数据进行反距离3次方插值,加权求取无数据的剖分单元的相应数据,从而得到电子积分通量全球分布。地方时0:00-3:00的40~130 kev电子积分通量全球分布可视化结果如图8所示。上述实验示范性地表明,HTM-ST模型可用于支持物理要 素随地方时变化、全球空间粒子辐射环境效应等研究。
Fig. 8 Global distribution of electron integral flux from local time 00:00 to 03:00

图8 地方时0:00-3:00的全球电子积分通量分布图

3.3.2 模型有效性分析
第2.2节中提到,时空剖分单元的编码算法有2种方案可选,而HTM-ST模型选用了耦合编码。本节利用范围查询,对同样时空网格剖分下采用不同编码算法的效率进行对比分析。待比较的编码 方案有3种:① 时-空耦合编码;② 时间优先,采用独立编码,将时间编码作为主码,空间编码作为辅助;③ 空间优先,采用独立编码,将空间编码作为主码,时间编码作为辅助。以上的3种编码算法产生的数据组织模型十分具有代表性,方案②代表了 当前日地空间物理领域常规数据系统按照时间顺序的数据组织方式,而方案③相当于直接采用HTM网格,不对其进行时间维度的组织扩展。基于不同的编码方案,执行多次时空查询的效率如图9所示。
Fig. 9 Query efficiency comparison of different coding methods

图9 不同编码算法的查询效率对比

通过对比可以发现,在3类查询中对时-空进行耦合编码的HTM-ST模型效率最高,对时间进行索引的方案②次之,对空间进行索引的方案③效率最低。方案③的效率比方案②更低的原因是实验中选择了时间跨度较大且分辨率较高、卫星平台个数较少的实验数据,因而方案③在数据库读取了更多的数据记录。例如,对于查询Ⅲ,方案①在数据库中访问数据记录共约 6 × 10 5 条,方案②约为 1.5 × 10 6 条,而方案③则为 6.6 × 10 7 条。访问记录数越多则产生的磁盘和网络IO越多,并发能力越低。此外,从图9可发现,对于不同的查询范围,方案①具有较好的鲁棒性,相对其他2种方案查询时间变化较小。

4 结论与讨论

大数据时代下的日地空间物理学科应用对支持时空计算的数据组织模型的提出了紧迫需求。本文提出了一种基于全球离散网格的时空数据组织方法,对空间网格引入时间维度上的等分扩展以使得网格单元能够表征时空信息,并示范性地选用HTM网格为基础设计了HTM-ST离散化时空数据组织模型,对球面-时间进行剖分与耦合编码,用以存储与表达日地空间科学数据的时空信息,并在HBase大数据存储平台下进行了实现。利用多颗卫星真实的粒子探测数据进行实验,结果表明该模型能够利用时空信息进行数据组织,支撑领域内的共性时空计算需求,并且同其他组织方式相比具有较好的计算效率和鲁棒性。
本文在验证模型的有效性时仅通过可视化的方式体现要素的时空分布特征,通过与真实的物理分布特征的一致性进行定性分析验证,今后可从该方向着手进行进一步分析验证。同时,当前模型在空间上仅通过球面剖分表示数据的空间信息,今后可以在此基础上进行径向扩展,支持基于球体的时空数据组织。此外,本文仅将时间等分扩展的思想引入HTM网格,今后需要探讨在更多类型的全球离散网格上进行时间扩展的应用效果,并基于不同的时空网格设计与计算分析、科学可视化等具体需求紧密结合的算子,比较算子在不同时空网格下的计算精度、性能等指标。

The authors have declared that no competing interests exist.

[1]
King T, Thieman J, Roberts D A.SPASE 2.0: A standard data model for space physics[J]. Earth Science Informatics, 2010,3(1-2):67-73.SPASE—for Space Physics Archive Search and Extract—is a group with a charter to promote collaboration and sharing of data for the Space Plasma Physics community. A major activity is the definition of the SPASE Data Model which defines the metadata necessary to describe resources in the broader heliophysics data environment. The SPASE Data Model is primarily a controlled vocabulary with hierarchical relationships and with the ability to form associations between described resources. It is the result of many years of effort by an international collaboration (see http://67www.67spase-group.67org ) to unify and improve on existing Space and Solar Physics data models. The genesis of the SPASE group can be traced to 1998 when a small group of individuals saw a need for a data model. Today SPASE has a large international participation from many of the major space research organizations. The design of the data model is based on a set of principles derived from evaluation of the existing heliophysics data environment. The development guidelines for the data model are consistent with ISO-2788 (expanded in ANSI/NISO Z39.19) and the administration for the data model is comparable to that described in the ISO standards ISO-11179 and ISO-20943. Since the release of version 1.0 of the data model in 2005, the model has undergone a series of evolutions. SPASE released version 2.0 of its data model in April 2009. This version presents a significant change from the previous release. It includes the capability to describe a wider range of data products and to describe expert annotations which can be associated with a resource. Additional improvements include an enhanced capability to describe resource associations and a more unified approach to describing data products. Version 2.0 of the SPASE Data Model provides a solid foundation for continued integration of worldwide research activities and the open sharing of data.

DOI

[2]
张康聪,陈健飞,连莲.地理信息系统导论[M].北京:电子工业出版社,2014.

[ Chang K C, Chen J F, Lian L.Introduction to geographic information systems[M]. Beiing: Publishing House of Electronics Industry, 2014. ]

[3]
赵学胜,侯妙乐,白建军.全球离散格网的空间数字建模[M].北京:测绘出版社,2007.

[ Zhao X S, Hou M L, Bai J J.Spatial digital modeling of the global discrete grids[M]. Beijing: Surveying and Mapping Press Publishing, 2007. ]

[4]
Mahdavi-Amiri A, Alderson T, Samavati F.A survey of digital earth[J]. Computers & Graphics, 2015,53:95-117.ABSTRACT The creation of a digital representation of the Earth and its associated data is a complex and difficult task. The incredible size of geospatial data and differences between data sets pose challenges related to big data, data creation, and data integration. Advances in globe representation and visualization have made use of Discrete Global Grid Systems (DGGSs) that discretize the globe into a set of cells to which data are assigned. DGGSs are well studied and important in the GIS, OGC, and Digital Earth communities but have not been well-introduced to the computer graphics community. In this paper, we provide an overview of DGGSs and their use in digitally representing the Earth, describe several current Digital Earth systems and their methods of Earth representation, and list a number of applications of Digital Earths with related works. Moreover, we discuss the key research areas and related papers from computer graphics that are useful for a Digital Earth system, such as advanced techniques for geospatial data creation and representation.

DOI

[5]
Sahr K, White D, Kimerling A J.Geodesic discrete global grid systems[J]. Cartography and Geographic Information Science, 2003,30(2):121-134.Discrete Global Grid Systems: Basic Definitions Discrete Global Grid A Discrete Global...

DOI

[6]
Nault L.Nga introduces global area reference system[J]. Pathfinder: The Geospatial Intelligence Magazine, 2006,11:19-20.

[7]
程承旗,任伏虎,濮国梁,等.空间信息剖分组织导论[M].北京:科学出版社,2012.

[ Cheng C Q, Ren F H, Pu G L, et al.Introduction of geospatial information subdivision organization[M]. Beijing: Science Publishing, 2012. ]

[8]
Geoffrey H.Dutton. Lecture notes in earth sciences: A hierarchical coordinate system for geoprocessing and cartography[M]. Berlin: Springer-Verlag, 1999.

[9]
Szalay A S, Gray J, Fekete G, et al.Indexing the sphere with the hierarchical triangular mesh[R]. Microsoft Research, 2007.

[10]
Kunszt P Z, Szalay A S, Thakar A R.The hierarchical triangular mesh[M]//Mining the sky. Springer Berlin Heidelberg, 2001:631-637.

[11]
Vince A, Zheng X.Arithmetic and Fourier transform for the PYXIS multi-resolution digital Earth model[J]. International Journal of Digital Earth, 2009,2(1):59-79.This paper investigates a multi-resolution digital Earth model called PYXIS, which was developed by PYXIS Innovation Inc. The PYXIS hexagonal grids employ an efficient hierarchical labeling scheme for addressing pixels. We provide a recursive definition of the PYXIS grids, a systematic approach to the labeling, an algorithm to add PYXIS labels, and a discussion of the discrete Fourier transform on PYXIS grids.

DOI

[12]
Lukatela H.Ellipsoidal area computations of large terrestrial objects[C]//The First International Conference on Discrete Grids. 2000.

[13]
Kolar J.Representation of the geographic terrain surface using global indexing[C]//Proceeding of 12th International Conference on Geoinformatics. Sweden, 2004:321-328.

[14]
Hoel E, Park M.Big Data: Using ArcGIS with apache hadoop[J]. Esri International Developer Summit, 2014.

[15]
Eldawy A, Mokbel M F.Spatialhadoop: A mapreduce framework for spatial data[C]//Data Engineering (ICDE), 2015 IEEE 31st International Conference on. IEEE, 2015:1352-1363.

[16]
Nishimura S, Das S, Agrawal D, et al.MD-HBase: Design and implementation of an elastic data infrastructure for cloud-scale location services[J]. Distributed and Parallel Databases, 2013,31(2):289-319.The ubiquity of location enabled devices has resulted in a wide proliferation of location based applications and services. To handle the growing scale, database management systems driving such location based services (LBS) must cope with high insert rates for location updates of millions of devices, while supporting efficient real-time analysis on latest location. Traditional DBMSs, equipped with multi-dimensional index structures, can efficiently handle spatio-temporal data. However, popular open-source relational database systems are overwhelmed by the high insertion rates, real-time querying requirements, and terabytes of data that these systems must handle. On the other hand, key-value stores can effectively support large scale operation, but do not natively provide multi-attribute accesses needed to support the rich querying functionality essential for the LBSs.<br/>We present the design and implementation of -HBase, a scalable data management infrastructure for LBSs that bridges this gap between scale and functionality. Our approach leverages a multi-dimensional index structure layered over a key-value store. The underlying key-value store allows the system to sustain high insert throughput and large data volumes, while ensuring fault-tolerance, and high availability. On the other hand, the index layer allows efficient multi-dimensional query processing. Our optimized query processing technique accesses only the index and storage level entries that intersect with the query region, thus ensuring efficient query processing. We present the design of -HBase that demonstrates how two standard index structures-the K-d tree and the Quad tree-can be layered over a range partitioned key-value store to provide scalable multi-dimensional data infrastructure. Our prototype implementation using HBase, a standard open-source key-value store, can handle hundreds of thousands of inserts per second using a modest 16 node cluster, while efficiently processing multi-dimensional range queries and nearest neighbor queries in real-time with response times as low as few hundreds of milliseconds.

DOI

[17]
Aji A, Wang F, Vo H, et al.Hadoop GIS: A high performance spatial data warehousing system over mapreduce[J]. Proceedings of the VLDB Endowment, 2013,6(11):1009-1020.Abstract Support of high performance queries on large volumes of spatial data becomes increasingly important in many application domains, including geospatial problems in numerous fields, location based services, and emerging scientific applications that are increasingly data- and compute-intensive. The emergence of massive scale spatial data is due to the proliferation of cost effective and ubiquitous positioning technologies, development of high resolution imaging technologies, and contribution from a large number of community users. There are two major challenges for managing and querying massive spatial data to support spatial queries: the explosion of spatial data, and the high computational complexity of spatial queries. In this paper, we present Hadoop-GIS - a scalable and high performance spatial data warehousing system for running large scale spatial queries on Hadoop. Hadoop-GIS supports multiple types of spatial queries on MapReduce through spatial partitioning, customizable spatial query engine RESQUE, implicit parallel spatial query execution on MapReduce, and effective methods for amending query results through handling boundary objects. Hadoop-GIS utilizes global partition indexing and customizable on demand local spatial indexing to achieve efficient query processing. Hadoop-GIS is integrated into Hive to support declarative spatial queries with an integrated architecture. Our experiments have demonstrated the high efficiency of Hadoop-GIS on query response and high scalability to run on commodity clusters. Our comparative experiments have showed that performance of Hadoop-GIS is on par with parallel SDBMS and outperforms SDBMS for compute-intensive queries. Hadoop-GIS is available as a set of library for processing spatial queries, and as an integrated software package in Hive.

DOI PMID

[18]
George L.HBase: The definitive guide: Random access to your planet-size data[M]. " O'Reilly Media, Inc.", 2011.

Outlines

/