时间本体及其在地学数据检索中的应用

  • 侯志伟 , 1, 2 ,
  • 诸云强 , 1, 4, * ,
  • 高星 1, 3 ,
  • 潘鹏 1 ,
  • 罗侃 1, 2 ,
  • 王东旭 1, 2
展开
  • 1. 中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室, 北京 100101
  • 2. 中国科学院大学, 北京 100049
  • 3. 中国南海研究协同创新中心, 南京 210093
  • 4. 江苏省地理信息资源开发与利用协同创新中心, 南京 210023
*通讯作者:诸云强(1977-),男,江西广丰人,博士,研究员,研究方向为地学数据共享与科研信息化环境、资源环境信息系统。E-mail:

作者简介:侯志伟(1989-),男,湖南永兴人,硕士生,研究方向为地学数据共享和地理信息技术与应用。E-mail:

收稿日期: 2014-12-02

  要求修回日期: 2015-01-04

  网络出版日期: 2015-04-10

基金资助

国家自然科学基金项目“基于元数据语义的地理空间数据关联方法研究”(41371381)

科技基础性工作专项重点项目“科技基础性工作数据资料集成与规范化整编”(2013FY110900)

国家科技基础条件平台-地球系统科学数据共享平台(2005DKA32300)

Time-Ontology and its Application in Geodata Retrieval

  • HOU Zhiwei , 1, 2 ,
  • ZHU Yunqiang , 1, 4, * ,
  • GAO Xing 1, 3 ,
  • PAN Peng 1 ,
  • LUO Kan 1, 2 ,
  • WANG Dongxu 1, 2
Expand
  • 1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, CAS, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Collaborative Innovation Center of South China Sea Studies, Nanjing 210093, China
  • 4. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
*Corresponding author: ZHU Yunqiang, E-mail:

Received date: 2014-12-02

  Request revised date: 2015-01-04

  Online published: 2015-04-10

Copyright

《地球信息科学学报》编辑部 所有

摘要

高效、准确地获取目标数据及其关联数据,是决定大数据共享与挖掘分析能否实现的关键因素。传统的数据检索方法无法利用地学数据间的显性或隐含关系,已不能满足日益增长的对检索结果质和量的需求,而本体理论和技术的语义检索成为当前的研究热点。本文针对时间这一地学数据的本质属性,在系统研究地学数据时间概念与特征的基础上,建立了地学数据时间本体模型,并深入论述了模型中的时间关系、时间坐标系等内容,提出了时间位置和时间距离的描述函数,同时研究了二者的本体表达方式。构建了包括地质年代等在内的地学数据时间本体库,并以语义网开发框架Jena为基础,经本体解析、元数据时间信息抽取与标注等过程,将时间本体应用于地球系统科学数据共享平台的元数据检索之中。结果表明,以时间本体的地学数据语义检索查全率约为关键字方法的1倍,检索结果排序,以及关联数据推荐方面也有更好的效果,为促进地学数据共享与关联发现提供了一种有效的方法。

本文引用格式

侯志伟 , 诸云强 , 高星 , 潘鹏 , 罗侃 , 王东旭 . 时间本体及其在地学数据检索中的应用[J]. 地球信息科学学报, 2015 , 17(4) : 379 -390 . DOI: 10.3724/SP.J.1047.2015.00379

Abstract

The way to obtain the target data and relevant data efficiently and accurately has been a critical factor in data sharing and data mining during the era of BigData. The retrieval techniques which are currently in use could no more meet the increasing demands on quality and quantity for retrieving data, due to the unavailable usage of explicit and implicit relations among geodata. Current researches mainly focus on semantic retrieval, which is based on the theories and technologies of ontology. Taking consideration of time, an essential attribute of geodata, this paper constructed a geodata time-ontology model founded on the researches about the concepts and characteristics of temporal geodata. In addition, this article presented information about the temporal relations and time coordinate system, analyzed the functions for time position and time distance, and studied their formalization. In the end, a time-ontology base had been built up according to the time-ontology model, and an application had been developed using Apache Jena, a free and open source Java framework for building semantic web and linked data applications. After parsing the ontologis, extracting and annotating the time expressions from the metadata, the time ontology had been further applied to the retrieval of metadata from the data sharing infrastructure of earth system science. Results of these experiments show that the semantic geodata retrieval based on time-ontology has doubled the recall ratio, and it also performs much better than traditional information retrieval methods from the perspective of linked data recommendation and result sorting, which provides an effective approach for sharing geodata and finding linked data.

1 引言

地球系统科学数据(简称地学数据),不仅包括陆地表层、海洋、天文等自然环境数据,还包括人口、经济等人文因素数据,以及古气候和古环境等历史时期数据[1],具有海量、异构、分散等特点。因此,高效与精确的数据检索技术,在地学数据的共享使用与挖掘分析中起到非常关键的作用。然而,目前的关键字与主题分类等检索技术,不仅无法解决由自然语言的多义性引起的语义非均匀性问题[2],而且还无法实现多学科数据关联与智能推荐、时空推理、时空信息语义发现等功能[3],在信息的查全率、查准率和数据推荐方面都无法满足用户日益增长的需求。本体(Ontology)是对共享概念模型明确的形式化规范说明[4]。本体实现了领域内共享概念及其层次结构与概念间关系的形式化说明,同时具备强大的语义推理能力,能够发现、建立数据之间的关联关系网络,从而实现智能化数据检索。基于本体的语义检索已经成为当前的研究热点[2,5-11]
时间是地学现象的基本维度,也是地学数据的本质属性和主要内容。同时考虑时间信息的数据检索在查询表达式和查询过程的处理上比简单的关键字检索有更好的效果[12],也能够更科学地对检索结果进行组织和排序[13]。因此,对时间和时间本体的研究,一直是地学、信息科学与人工智能等各领域关注的热点。时间本体是描述时间实体及其关系,表示时、分、秒等内容的本体[14],它提供了对时间的测量、计算和表示方法等内容的描述[15]。目前,主要的时间本体有DAML[16-17](DARPA Agent Markup Language)与OWL(Web Ontology Language)时间本体[18-19]、KSL[20]和KIF[21]时间本体,语义网中文时间本体[15],以及Cyc知识库中日期时间部分[22]等。在时间本体概念方面,Fikes等[23]研究了时间本体的概念类层次结构和时间粒度等内容,并根据其连续性将时间段分为凸时间段(Convex-Time-Interval)和非凸时间段。其中,日历的月与日为凸时间段的子类,具体的日期则为日历时间的实例。成斌等[24]将时间本体分为高低2层结构,高层结构中包括绝对时间、相对时间、频度时间、时态标志、时间功能部件5类时间知识。在时间关系研究方面,时间区间代数(Interval Algebra)理论[25]以时间段为基元,总结了Before、After等13种基本的时间关系及其推理规则和算法,成为时间关系研究的基础。
在时间本体的内容与形式化表达方面,Hobbs等在DAML与OWL时间本体中,以一阶谓词逻辑为基础,研究了时间拓扑关系、时间与事件的关联、持续时间与日期时间描述等内容。Pan[26]在此基础上进一步研究了持续时间的计算,以及时间信息的标注等问题。而Zhang等[15]在对目前主要的时间本体进行比较和总结的基础上,从拓扑层、量测和表达层、语义层3个层次,将时间本体分为时间系统(Time System)、计时系统(Timing System)和计时本体(Timing Ontology)3部分,并据此建立了包括天干地支、年号等在内的语义网中文时间本体。此外,胡鹤[27]、吴孟泉[28]、宋佳[8]等对本体理论与技术,在时空数据资源检索与发现中的应用,进行了理论和技术方面的研究。
虽然,在时间本体概念、形式化表达和应用各方面,国内外都已有丰富的研究成果,但是,这些研究仍存在不足:(1)缺少对时间概念自身内容与特征的深入分析;(2)没有建立清晰的时间本体模型,没有对时间本体的组成与内容的清晰定义和表达;(3)时间描述属性不完整,如缺少时间方向、时间状态的描述;(4)缺少时间定位和量算的科学方法,不利于时间本体的构建和推理应用等研究;(5)现有时间本体不能处理地学数据中的时间信息,如地质年代等。
本文在总结时间本体研究成果的基础上,面向地球科学数据检索,总结了地学数据中的时间概念及其特征,并以此为基础提出了面向地学数据发现的时间本体模型,重点对模型中时间拓扑关系与时间位置、时间距离、时间粒度等时态信息的确定和表达等进行了论述,同时应用于地学数据检索与智能推荐中。

2 地学数据时间概念及其特征

地学数据的元数据、数据集、数据项等都包含了丰富的时间信息。地学数据中的时间信息主要包括地学现象或过程发生、演化、完结的时间,以及相应的地学数据采集、存储、处理和分析、再生产与应用过程中的时间。
从内容上划分,地学数据中主要有3种类型时间:(1)事件时间(也称有效时间)指现象或事件在现实中发生或存在的时间;(2)数据库时间(也称事务时间)指事件在数据库中被记录、更新、删除的时间[29];(3)数据时间指现象或事件被观测、采集形成数据记录(或数据集)的时间或时间范围。如胡氏耀龙(Epidexipteryx hui)[30]的事件时间为侏罗纪中晚期,而其数据时间是其被发现的时间,如2006年。根据时间基准的不同,地学数据时间有公历时间、中国传统时间(如节气、年号等)、地质时间(如寒武纪)和天文时间(如恒星年)等类型。
按照所描述的地学现象或过程与当前时间的关系,数据还具有已完成(如历史时期环境变化)、正在进行、将要发生(如灾害预报)等多种时间状态。
此外,地学数据资源还存在多种时间特征,包括多尺度性、凹凸性、波动性、方向性和相对性、多标度性、不确定性等。
(1)时间多尺度性是指数据表示的时间周期及数据形成周期有不同的长短[31]。地学现象的时间周期有瞬时、超短期、短期、中期、长期、超长期等,相应地地学数据的时间尺度可分为瞬时尺度(秒级)、小时尺度、日尺度、季节/季度尺度、年尺度、时段尺度、人类历史尺度和地质历史尺度等[31]
(2)时间的凹凸性指时间的连续性和离散性。持续发生的地学过程和现象具有凸时间序列,如生物的进化;间歇泉、时令河等非连续现象的时间序列是凹的或离散的。
(3)时间的波动性也称频度时间,其特征是现象的发生具有重复性,存在一定的频率。频率或间隔较为固定的称周期性。例如,过去2000年的中国气候经历了4个温暖期和3个寒冷期的波动,这其中温度变化存在千年周期、百年际周期,以及多个年代际周期[32]
(4)时间的方向性指在地学研究中,既包括对历史时期(负向或前向)现象的研究,又包括对事物未来发展(正向或后向)的预测。时间方向是相对时间原点确定的。常用的时间原点有公元元年和用于考古、地层学等研究的距今(Before Present,简称BP,指公元1950年)和当前时间。
(5)时间的相对性指地学数据记录的时间是现象发生的时间先后次序,而非在时间轴上的绝对位置。相对时间方法在地层分析和考古发掘中经常被采用。时间多标度性指用于描述时间量的尺度的多样性,例如,1天也可表示为24小时。
(6)解决多标度性问题的方法是引入时间粒度概念。时间粒度指时间量度的精确程度,用年、月、日等不同时间单位来表示。测年方法的精度、时态数据的用途等决定具体时间粒度的选取。
(7)时间的不确定性指事件在时间轴上的具体时间位置或范围无法准确确定,如地球的年龄、人类出现的时间等。此外,时间分辨率也是地学数据中的重要时间特征。时间分辨率指相邻2项观测数据之间的最小时间间隔,如遥感卫星的回归周期、树木年轮等。

3 地学数据时间本体建模

3.1 地学数据时间本体模型

时间本体(Time Ontology)是对共享的时间概念及其关系的抽象表示与明确的形式化规范说明。时间本体的建模元语(Modeling Primitives),即时间本体中最基本的组成元素有类(Classes)、关系(Relations)、函数(Functions)、公理(Axioms)和实例(Instances)[33]。类或概念(Concepts)可表示任何事物;关系指领域中概念之间的交互作用,如子类关系(subclass-of)。函数是一类特殊的关系,该关系的前n-1个元素可以唯一决定第n个元素。公理是无需其他命题加以证明的永真断言,是本体内进行推理其他命题的基本命题。实例代表元素,从语义上讲实例表示的就是对象。
从地学数据时间概念与特征的综合分析,结合时间本体概念及其建模元语,以地学数据时间概念为基础,以时间量算和时间关系为支撑,以时间形式化表达为核心,建立包括时间概念属性和约束在内的地学数据时间本体五元组模型(TGDO),即TGDO=<C, F, R, M, D>,如图1所示。
Fig. 1 The time-ontology model of geodata

图1 地学数据时间本体模型

(1)TC(Temporal Concepts)表示地学数据中共享的时间概念体系,是地学数据中时间内容的抽象和概括,包括类和实例。
(2)TF(Temporal Formalization)表示时态信息的形式化表达。其用一阶谓词逻辑、描述逻辑等逻辑语言,RDF(S)(Resource Description Framework-Schema)和基于RDF-S的OWL等本体描述语言对时间概念及概念实例和时间本体的关系、属性等进行描述,既是时间本体模型的具体化,也是实现时态自动推理的基础。
(3)TR(Temporal Relations)表示时间本体中概念之间关系。例如,子父类关系,早于、晚于等时态关系,等同、不相交等实例间关系等。
(4)TM(Temporal Metric)指时间量测,是时间本体概念在数量上的函数关系的集合。其包括时间坐标系、时间位置、时间距离等时态信息的量值信息及其转换。
(5)TD(Temporal Description)时间描述,包括时间本体中类与实例的逻辑结构、属性及其约束等内容。

3.2 时间实体及其关系

3.2.1 时间实体定义
在时间本体模型中,用时间实体(Tº,TimeEntity)表征现实世界地学现象或过程的时间要素。时间实体仅有2个子类:时间点(t,Instant)与时间段(T,Interval),即时间实体是时间点或时间段或二者的集合。时间实体的形式化表达为:
( , t , T ) [ TimeEntity ( ) Instant ( t Interval T ) ] (1)
时间点表示事件发生的瞬间,又称时刻,具有时间定位功能。时间点亦可认为是有相等的开始时间(timeStart)与结束时间(timeFinish)的时间段,即:
( t ) { instant ( t ) [ timeStart ( t , t ) = timeFinish ( t , t ) ] } (2)
时间段表示现象或过程从发生到消亡所持续的时间区间,由2个具有顺序关系的时间点即开始时间与结束时间及二者之间的连续时间区间组成。时间段的形式化定义为:
( T , t 1 , t 2 ) [ interval ( T ) timeStart ( t 1 , T timeFini sh ( t 2 , T ( t 1 < t 2 ) ] (3)
时间点与时间段的确定与描述对象时使用的时间粒度和研究目的相关。例如,对于“100年”这一时间实体,从地质历史(时间粒度通常为百万年)的角度可作为时间点对待,而从生物个体生命的角度(时间粒度通常为年或月)应当作为时间段处理。
3.2.2 时间拓扑关系
时间拓扑关系描述时间实体,包括时间点、时间段、时间点与时间段的复合实体。在时间上的相互作用关系,是不同地学现象之间相关性研究的基础。从描述对象角度划分,时间拓扑关系分为基本时间关系和特殊时间关系,特殊时间关系描述特定时间实体之间的时间关系。从关系类型角度划分,时间拓扑关系有纵向和横向2种类型:(1)纵向关系具有树形结构,又分包含关系和组合关系。包含关系也称子集关系,描述数据集之间时间关系;而组合关系描述元素与集合,即数据项与数据集之间时间关系;(2)横向关系包括相接、相离、相交和相等关系,以及由此衍生出的早于、晚于等关系。
(1) 基本时间实体关系
描述任意时间实体类型之间的时间关系,包括复杂对象和多实体类型对象等时间关系的描述,如时间粒度为年时,时间段2000-2013年早于时间点2014年。
表1可知,基本时间实体关系主要是相离关系,其衍生关系包括“早于”(Before)、“晚于”(After)和“在...之间”(Between)(表2)。
Tab. 1 Temporal topological relations between time entities

表1 时间实体的时间拓扑关系

时间实体 时间关系
相接 相离 相交 相等 包含
时间点-时间点
时间点-时间段
时间段-时间段
复合时间实体
Tab. 2 Topological relations between temporal entities

表2 时间实体关系

关系谓词 英文 逆关系 继承父关系 表达式 图示
早于 Before 晚于 相离 Before(T1º, T2º)
晚于 After 早于 相离 After(T2º, T1º)
在...之间 Between - 相离 Between (T1º, T2º, T3º)
“早于”关系指时间实体T1º的结束时间t1在时间轴上的位置位于时间实体T2º的开始时间t2之前,即
“早于”关系具有传递性:
( T 1 ° , T 2 ° , T 3 ° ) { [ Before ( T 1 ° , T 2 ° ) Before ( T 2 ° , T 3 ° ) ] Before ( T 1 ° , T 3 ° ) } (5)
“晚于”关系是“早于”关系的逆关系。而“在…之间”关系表示时间实体T1º的开始时间晚于T2º的结束时间,结束时间早于T3º的开始时间,即:
(2) 时间段关系
以时间区间代数理论描述时间段与时间段之间的时间关系,有早于(intBefore)、包含(intContains)等14种关系(表3)。时间段关系基本囊括了所有时间拓扑关系,因此,除必须严格区分时间点与时间段的情况外,时间段关系是时间本体中默认的时间关系描述方式。
Tab. 3 Topological relations between intervals

表3 时间段拓扑关系

关系谓词 英文 逆关系 继承父关系 表达式 图示
早于 intBefore 晚于 相离 intBefore(T1,T2)
晚于 intAfter 早于 相离 intAfter(T2, T1)
包含 intContains 在…期间 包含 intContains(T1,T2)
在…期间 intDuring 包含 包含 intDuring (T2, T1)
结束于 intFinishs 以…结束 包含 intFinishs(T1,T2)
以…结束 intFinishedBy 结束 包含 intFinishedBy(T2, T1)
相接 intMeets 被相接 相接 intMeets(T1,T2)
被相接 intMetBy 相接 相接 intMetBy(T2, T1)
相交 intOverlaps 被相交 相交 intOverlaps (T1,T2)
被相交 intOverlapedBy 相交 相交 intOverlapedBy(T2, T1)
开始于 intStarts 以…开始 包含 intStarts(T1,T2)
以…开始 intStartedBy 开始 包含 intStartedBy(T2, T1)
不相交 intNonOverlap 相离 intNonOverlap(T1,T2)
相等 intEquals 相等 intEquals(T1,T2)
时间段相接表示时间段T1的结束时间与T2的开始时间重合,相接关系不具有传递性。
“开始于”关系用于说明2个时间段实体具有相同的开始时间,即:
( T 1 , T 2 ) { intStarts ( T 1 , T 2 ) ( t 0 , t 1 , t 2 ) [ timeStart ( t 0 , T 1 ) timeFinish ( t 1 , T 1 ) timeStart ( t 2 , T 2 ) insEquals ( t 0 , t 2 ) Before ( t 1 , t 2 ) ] } (7)
“不相交”关系是时间区间代数理论的扩展,可用于排除干扰数据。例如,排除有降水的日期获取日照天数等。
(3) 时间点关系
用于描述当存在不同的时间粒度时最小时间粒度等级上不同的时间点之间的关系。与基本时间实体关系相比,时间点只有一种特殊关系,即相等或重合(表4)。时间点相等表示在确定的时间粒度上,2个事件的时间在时间轴上的时间位置重合、时间值相等。
Tab. 4 Topological relation between instances

表4 时间点拓扑关系

关系谓词 英文 逆关系 继承父关系 表达式 图示
相等/重合 insEquals 相等 insEquals (t1,t2)
(4) 时间点与时间段关系
描述时间段与时间点二者之间特殊的拓扑关系,包括“包含”、“在…之内”,以及开始时间和结束时间(表5)。
Tab. 5 Topological relations between instance and interval

表5 时间点与时间段关系

关系谓词 英文 逆关系 继承父关系 表达式 图示
包含 insIntContains 在…之内 包含 insIntContains (T, t)
在…之内 insIntInside 包含 包含 insIntInside (t, T)
开始时间 timeStarts 结束时间 包含 timeStarts(t1, T)
结束时间 timeFinishs 开始时间 包含 timeFinishs(t2, T)

3.3 时间坐标系

又称时间系统,是指规定了时间参考基准、时间尺度基准和时间正方向的时间测量体系,是对时间信息、时间关系与数据时间关联度等进行定量描述的基础。时间参考基准与时间正方向共同决定了事件发生的时刻(时间位置)和先后次序。时间尺度基准,即时间单位及其换算体系决定了时间实体之间时间间隔量(时间距离)的大小。时间尺度基准是根据连续、稳定且可测的周期性物质运动来确定的。如恒星时和太阳时以地球自转为基准,而历书时和原子时分别以公转和原子谐波振荡为基准。
C表示时间坐标系,OUD分别表示时间坐标系原点(时间参考基准)和尺度基准、时间正方向,则时间坐标系可表示如下:
C = { O , U , D } (8)
时间坐标系中,纪年和历法是2个核心概念。(1)纪年是确定事件发生年代,即时间位置的一种方法。纪年的根本在于确定年代起算点,即时间参考基准。纪年受政治、历史、文化等多种因素的影响。常用的纪年法包括公元纪年,以及主要在历史文献资料中使用的干支纪年、帝王纪年和太岁纪年等。(2)历法是规定年、月、日等的长度与计算方法,确定时间序列的一套准则,是多种通用的时间尺度基准的总称。主要的历法类型分为阳历、阴历和阴阳历。
地学时间序列数据,特别是从历史文献资料中提取的数据,通常存在多种纪年和历法类型并存的情况。此时必须先明确数据所属时间坐标系,在此基础上经过时间坐标转换之后再进行分析处理。

3.4 时间位置

时间位置指时间实体在时间轴上相对于时间原点的坐标,是时间实体在时间坐标系中的映射,其值由时间位置函数唯一确定。
3.4.1 时间位置函数
定义如下:
T p = f [ C × ( G , V p ) , Z , S ] (9)
式(9)中,
(1)C表示时间坐标系。不同的时间坐标系中的时间位置可相互转换。例如考古和地层研究中常用的14C年代“距今”(Before Present,简称B.P.)其原点为公元1950年。因此,B.P.时间坐标系中的“2000B.P.”可转换为公元时间坐标系中的“公元前50年”。
(2)G指时间粒度。在时间本体中,时间粒度确定了时间描述的精确程度,小于时间粒度的时间描述信息将被忽略。
(3)Vp是时间位置值算子,是由一系列的<Unit, Value>单元组成的有序框架,表示时间实体的时间值。其中Unit对应C中的时间单位,Value表示时间值对象。Vp的基本表达式为:
V p : = { < Y , V Y > , < M , V M > , < D , V D > , < H , V H > , < m , V m > , < S , V S > } (10)
式中各项依次代表年、月、日、时、分、秒及其取值。但V并不局限于上述6种<Unit, Value>类型,而是可以根据需求灵活扩展。例如扩展对“百万年”的<Unit, Value>的支持以描述地质年龄。
Vp中<Unit, Value>的选取是由基数约束(cardinality)属性与G共同决定的。当cardinality值为1时,对应的<Unit, Value>必须被指定;而取值为0时表示不应当被指定。同时,小于给定G值的时间单位,其cardinality应取值为0。例如,当Vp采用基本表达式(10),时间粒度G为“月”时,时间值Vp(2014年1月1日)的cardinality序列为<1,1,0,0,0,0>。
(4)C× (G, Vp)是CGVp的笛卡尔积,表示GVp的赋值依赖于C。如数据“过去2000年的降水(干湿)变化序列”[32]中,若以公元2000年为原点,则时间“过去2000年”为负向,而以公元0年为原点则为正向。由于公元年平年为365天,农历年平年为354或355天,因此,公历与农历坐标系中的时间粒度“年”与时间值“2000年”都是不等同的。
(5)Z表示时间记录时时间实体所处的时区。地学数据是时空综合体,同一时刻不同区域的数据记录可能会有不同的时间值,不考虑数据采集地所在时区将影响数据分析结果的准确性。
(6)S表示实体的时间位置相对参考时间所处的状态,指明了时间位置相对参考点的时间方向。定义为:
S = 完成态, After R T , E T ; 进行态, R T = E T ; 将来态, Before R T , E T (11)
式(11)中,RT表示参考时间;ET表示事件时间。参考时间可以是事件时间、数据时间,也可以是当前时间。如式(11)中ET与RT的时间关系决定了时间实体的状态。
3.4.2 时间位置表达
本体信息表达的技术基础是XML(可扩展标记语言)和RDF(资源描述框架)。在RDF中,信息被表示成陈述(statement,也称断言)的集合,即由主体、谓词和客体组成的三元组(triple)。主体也称资源,是要描述的对象;谓词也称属性,用来表示资源之间的关联;客体则表示资源的属性值[34-35]。因此,地学数据资源的时间位置在本体中可表达为图2所示的2个三元组:
Fig. 2 Time position formalization of geodata

图2 地学数据时间位置表达

地学数据资源可以是元数据、数据集或者数据项;时间位置描述也称日历时间描述,是数据资源对象时间位置及其属性约束的集合。时间位置描述可包括多个时间位置对象,如发生时间、结束时间等。时间位置对象又称日历时间描述对象,是时间位置函数的不同部件的有机组合(图3),即在时间位置值算子Vp的<Unit, Value>中Value的取值是与Unit对应的时间值枚举对象而非数值类型。如在时间值Vp(1月1日)中,月值“1月”为月对象,而不是数值1。其优点在于,时间值对象成为时间本体中的一个完整语义单元,可与其他对象建立关联并赋予属性和约束。例如,“1月”是月值类有且仅有的12个月对象中的第一个对象,与“2月”存在相接关系,且包含从“1日”到“31日”共31个日值对象。这些蕴涵时间关系与语义约束的时间值对象不仅有利于实现时间本体的重用,方便了在领域本体的构建中应用时间本体,同时也有利于实现不同时间实体间时间语义的自动关联与推理。并且,日历时间描述对象相比XML模式中的数据类型dateTime更加灵活并易于扩展,可以表达更多的时间信息,同时从中提取时间要素也要更加简便[19]
Fig. 3 Calendar time description

图3 日历时间描述

3.5 时间距离

其指任意时间点对之间的时间位置之差,主要分为持续时间、间隔时间和重叠时间。持续时间指时间实体从开始到结束的时间量(图4(a)),如干旱持续天数。间隔时间指时间点对中第1个时间实体的结束到第2个时间实体的开始之间的时间量(图4(b));重叠时间(或称时序共振),是特殊的间隔时间,是时间实体之间共享的时间段。重叠时间中第1个实体的结束时间要晚于或等于第2个时间实体的开始时间(图4(c))。
Fig. 4 Definitions of temporal distance

图4 时间距离

时间距离是一个有大小和方向的矢量,它是时间关系和数据时间关联指标体系定量研究的基础。综合时间距离的定义及地学数据的时间特征,可用时间距离函数唯一确定时间距离,即
T dist = f ( C × V d , S ) (12)
式(12)中,
(1)C×Vd表示时间坐标系与时间距离值算子的笛卡尔积。
(2)Vd 表示时间距离值算子,是一个标量。设Tdist表示时间距离,TduraTintTover分别表示持续时间、间隔时间和重叠时间,则由时间距离定义,若∀ T1º ,T2º, t11, t12, t21, t22图4)有:timeStart (t11, T1º)∧timeStart (t21, T2º)∧timeFinish (t12, T1º)∧timeFinish (t22, T2º),则可得:
V d = ( t 12 - t 11 ) · G , T dist = T dura ( t 21 - t 12 ) · G , T dist = T int ( t 12 - t 21 ) · G , T dist = T over (13)
式(13)中,G表示时间粒度,并且小于给定粒度的时间量将被忽略。时间粒度不同时,一个时间距离可有多个不同的时间描述。同时,一个时间距离也可有一个或多个时间粒度描述,如“2天12小时”。而当唯一时间粒度为“天”时,其描述为“2.5天”,或根据实际需求描述为“2天”或者“3天”,“12小时”将被忽略,当唯一粒度为“小时”时,其描述为“60小时”。
为确保在不同时间粒度描述下时间距离值的一致性,需建立时间粒度的转换规则。为此,需确定某时间坐标系下的时间粒度序列,并由基准粒度得到粒度转换系数。公历时间下以“年”为基准粒度的时间粒度转换序列如表6所示。
Tab. 6 Conversion sequence of time granularity in the Gregorian Calendar

表6 公历时间粒度转换序列

时间粒度 亿年 百万年 万年 世纪 年代 小时
粒度序号 -5 -4 -3 -2 -1 0 1 2 3 4 5
转换系数 10-8 10-6 10-4 10-2 10-1 1 12 365 8.76×103 5.256×105 3.1536 ×107
由此可得序号为m的时间粒度向序号为n的时间粒度的转换公式:
G m , n , d = G m , d G n , d sgn m - n (14)
式(14)中,d表示基准粒度的序号,与表 6对应的序列中d=0;sgn(m-n)为符号函数:
sgn ( m - n ) = 1 , m > n ; 0 , m = n ; - 1 , m < n (15)
(3)S表示时间状态,其指明了数据资源时间位置相对参考时间点的时间方向,从而影响时间距离值。如“过去2000年”与“未来2000年”由于状态不同,虽具有相等的时间距离值,但时间距离是不相等的。
与时间位置表达类似,时间距离通过图5所示的三元组进行表达。数据资源特征和时间粒度决定时间距离描述中属性的确定,本体构建中通过设置参数的基数约束实现。与XML模式中描述时间量的duration类型相比,“时间距离描述”对象可方便地根据数据资源特征和应用领域需求扩展时间距离描述属性。
Fig. 5 Time distance description

图5 时间距离描述

4 时间本体在地学数据检索中的应用

4.1 地学数据时间本体构建

本体构建是指根据本体模型,将本体概念(类与实例)和关系、属性及属性约束等内容,通过本体构建工具建立某种本体描述语言的本体文件,以便在数据检索等应用中使用。一系列相关本体文件的集合形成本体库。本体和本体库的构建是一个工程化、系统化的过程,需要确保本体具备可持续扩充、可集成或分发使用的性能。
地学数据时间本体的构建采用本体概念自顶向下设计,本体文件构建自底向上逐步集成相结合的方法,以保证本体概念设计合理,本体集成依赖最小。时间本体总体设计为概念、关系、属性3部分(图6)。其中,概念部分包括时间概念类与实例;关系部分存储概念和属性的关联,包括时间关系和基本的概念关系与规则;属性部分包括类与实例的各类描述与约束信息。
Fig. 6 Time-ontology structure of geodata

图6 地学数据时间本体框架

Tab. 7 Major built-ups for time-ontologies

表7 已构建的主要时间本体

本体名称 主要概念 主要实例 主要属性 主要关系
基本时间概念本体 时间实体、时间方向、时间状态、历法、纪年 正向、完成态、阳历、公历纪年 时间波动频率、时间周期、时间分辨率、时间单位序列 有时间波动性描述、时间分辨率为
日历时间本体 年、月、日、星期等 1年、1月、1日、星期一等 时间单位、值 包含、相接、早于、晚于
钟表时间本体 时、分、秒等 0时,1分,1秒等 时间单位、值 包含、相接、早于、晚于
节气本体 节气 春分、夏至、秋分、冬至等 黄经度数、农事活动 日期为、黄经度数为
时间单位本体 时间单位、单位符号 百万年、世纪、年、月等 符号、下级换算系数 有下级单位
地质年代本体 宙、代、纪、世、期 元古宙、元古代、侏罗纪 开始时间、地质年龄 有地质年龄
年代地层本体 宇、界、系、统、阶 元古宇、元古界、侏罗系 岩层特征 有典型化石
年号本体 年号 贞观、康熙 帝王、开始时间 属于
历史朝代本体 历史朝代 秦朝、唐朝 都城、建立时间 有都城、建立时间为
时区与标准时间本体 时区、标准时间 东八区、北京时间 偏移小时数、偏移方向、中央经线 偏移小时数为、使用国家
节日纪念日本体 节日、纪念日 春节、“九一八”纪念日 日期 日期为、是否法定假日
重要历史事件本体 历史事件 西安事变 日期、主要人物 发生时间、代表人物
鉴此,本文利用本体构建工具Protege构建了一系列基础时间本体和历史朝代、地质年代等与时间密切相关的领域本体。时间本体库中已构建的主要本体如图6所示。

4.2 时间本体在地学数据检索中的应用

地球系统科学数据共享平台,是唯一以整合共享分散科学研究数据为重点的国家科技基础条件平台,其目标是为全球变化创新研究和区域可持续发展提供数据服务[36]。截止到2014年8月,地球系统科学数据共享平台,已经整合超过54.66 TB的数据资源。然而,由于现有数据检索技术只能进行关键字检索,并且检索结果排序没有明确规律,致使用户需要花费大量时间、精力逐一查看。因此,如何准确且迅速地发现目标数据资源,并且根据数据隐含的时间关系为用户推荐关联数据,是提高数据服务质量和水平的关键。为此,本文从地学数据共享平台的1851条元数据中人工提取和标注了343条作为数据源,以地学数据时间本体为本体库,基于开源的语义网和关联数据开发框架Jena为基础,开发了地学数据语义检索原型系统。原型系统应用过程如图7所示。
Fig. 7 The application procedure of time-ontology in geodata retrieval

图7 时间本体在地学数据检索中的应用过程

系统预先从地球系统科学数据共享网获取的数据集元数据列表,同时,利用Jena的OWL API(应用程序编程接口)读取和解析地学数据时间本体。在检索过程中,首先,对用户输入的查询条件进行分词等预处理,将查询表达式规范化。然后进行语义映射,将自然语言表达的查询条件转换为RDF表达的语义查询条件。同时,从元数据中按照一定的规则识别和抽取时间表达式,利用本体进行语义标注,获得用RDF三元组表达的标注结果集。将查询条件和标注结果分别进行时态推理,建立与时间本体实例和属性的关联,并以SPARQL(SPARQL Protocol And RDF Query Language)实现语义检索和智能推荐。最后,对检索结果进行分析和评价,找出影响检索效果的因素,并反馈给地学数据时间本体,以便于进一步改进。
在应用中以“2010年”作为检索条件发现,关键字匹配搜索方法共检索到52条记录,查全率略高于50%(元数据中与“2010年”相关数据约100条),其中不完全匹配的“风云三号系列卫星(3A/3B)高能质子/离子探测数据(2008-今/2010-今)”结果位于第1位,完全匹配的“2010年新疆土地覆被数据”则位于第4位。相比之下,以时间本体的语义检索一共检索到279条记录,查全率接近100%,“2010年新疆土地覆被数据”在语义检索中排序为第1位。此外,语义检索还获得了通过时间本体的时态推理得到的与检索条件存在包含或“早于”、“晚于”等时间关系的元数据。如“长江三角洲地区时间序列遥感影像数据集(1990-2012年)”与“2005年新疆土地覆被数据”、“2010-2012年印度洋综合科学考察航次大面温盐观测数据集系列”等数据。图8展示了以“2010年”为检索条件的地学数据语义检索功能结果列表。
Fig. 8 Application of time ontology in intelligence geodata schematic discovery

图8 基于时间本体的地学数据语义检索应用

5 结语

数据检索查不准、查不全,以及数据存在语义冲突、缺少语义关联等,是实现数据资源高效、充分共享利用必须解决的问题。本文从地学数据中的时间概念特征着手,结合本体理论和技术,总结了地学数据的多尺度性、凹凸性、波动性、方向性和相对性、多标度性、不确定性等特征,以此为基础建立了包含时间概念、时间关系等在内的地学数据时间本体模型。本文对时间本体模型中的时间实体与时间段、时间点的定义及其时间拓扑关系、时间坐标系和时间位置、距离的定义与获取、表达、时间粒度转换等进行了深入的探讨。同时,将时间本体应用于地球系统科学数据共享网元数据检索实践。实验表明,地学数据时间本体的地学数据语义检索在查全率与关联数据推荐方面都较传统的关键字检索有很大提高,有效地改善数据检索结果质量。
时间本体在今后地学数据检索中的应用,一方面,需以时间本体模型为基础,扩展对模糊时间的处理,以及复杂的时态推理、包括自然语言时间信息在内的时间信息的自动抽取与标注等的研究;另一方面,需建立数据时间语义关联指标体系,进行关联语义权重的计算;同时,还需研究时间本体的自动更新和历史事件等领域时间本体构建,实现时间本体与空间本体、数据形态本体、地学领域本体等的相互关联与互操作。

The authors have declared that no competing interests exist.

[1]
王卷乐,林海,冉盈盈,等.面向数据共享的地球系统科学数据分类探讨[J].地球科学进展,2014,29(2):265-274.

[2]
Lutz M,Klien E.Ontology-based retrieval of geographic information[J]. International Journal of Geographical Information Science, 2006,20(3): 233-260.

[3]
诸云强,孙九林.面向e-GeoScience的地学数据共享研究进展[J].地球科学进展,2006,21(3):286-290.

[4]
Studer R, Benjamins V R,Fensel D.Knowledge engineering: principles and methods[J]. Data & knowledge engineering, 1998,25(1): 161-197.

[5]
Kiryakov A, Popov B, Ognyanoff D, et al.Semantic annotation,indexing,and retrieval[C]. In: Sycara K,Mylopoulos J (eds). The Semantic Web-ISWC 2003. Berlin: Springer, 2003: 484-499.

[6]
Klien E, Lutz M,Kuhn W.Ontology-based discovery of geographic information services——An application in disaster management[J]. Computers,environment and urban systems, 2006,30(1):102-123.

[7]
虞为,曹加恒,陈俊鹏.基于本体的地理信息查询和排序[J].计算机工程,2007,33(21):157-159.

[8]
宋佳. 基于地理本体时空特征的全文语义检索研究.博士学位论文[D].北京:中国科学院研究生院,2008.

[9]
宋佳,王卷乐,诸云强,等.基于地理空间本体的语义检索相关度研究[J].计算机工程与应用,2011,47(5):114-117.

[10]
Gui Z,Yang C,Xia J,et al.A performance,semantic and service quality-enhanced distributed search engine for improving geospatial resource discovery[J]. International Journal of Geographical Information Science, 2013,27(6): 1109-1132.

[11]
Guo M W.The application of ontology in semantic discovery for GeoData web service[J]. Communications and Network, 2013,5: 678.

[12]
Wang Z,Xu C.The research of web information retrieval based on temporal information[C]. Proceedings of the 2012 National Conference on Information Technology and Computer Science, 2012.

[13]
Alonso O,Gertz M,Baeza-Yates R.On the value of temporal information in information retrieval[C]. Proceedings of the ACM SIGIR Forum, 2007.

[14]
Fernández-López M,Gómez-Pérez A,Suárez-Figueroa M C. Methodological guidelines for reusing general ontologies[J]. Data & Knowledge Engineering, 2013,86: 242-275.

[15]
Zhang C,Cao C,Sui Y,et al.A Chinese time ontology for the Semantic Web[J]. Knowledge-Based Systems, 2011,24(7): 1057-1074.

[16]
Hobbs J R, Ferguson G, Allen J, et al. A daml ontology of time[EB/OL]. 2002-08-30.

[17]
Hobbs J.Toward an ontology of time for the semantic web[C]. Proceedings of the Workshop on Annotation Standards for Temporal Information in Natural Language,Third International Conference on Language Resources and Evaluation, 2002.

[18]
W3C. Time Ontology in OWL[EB/OL]. 2006-09-27.

[19]
Pan F,Hobbs J R.Time in owl-s[C]. Proceedings of the AAAI-04 Spring Symposium on Semantic Web Services, 2004.

[20]
Stanford University KSL. KSL-Time[DB/OL]. 2008-01-22.

[21]
HP Labs. Time Ontology in KIF[DB/OL]. 1994.

[22]
Cycorp. Times and dates in Cyc[DB/OL]. 2002.

[23]
Fikes R,Zhou Q.A reusable time ontology[C]. Proceedings of the AAAI-2002 Workshop on Ontologies and the Semantic Web, 2002.

[24]
成斌,陈跃新.基于Ontology的汉语时间语义分析[J].计算机与现代化,2005(6):109-112.

[25]
Allen J F.Maintaining knowledge about temporal intervals[J]. Communications of the ACM, 1983,26(11): 832-843.

[26]
Pan F.An ontology of temporal concepts for the semantic web and natural language[D]. Los Angeles: University of Southern California, 2007.

[27]
胡鹤. 本体方法及其时空推理应用研究[D].长春:吉林大学,2004.

[28]
吴孟泉. 基于本体驱动多源异构时空数据的农业地理信息分类与查询研究[D].北京:中国科学院研究生院,2007.

[29]
吴信才,曹志月.时态GIS的基本概念,功能及实现方法[J].地球科学:中国地质大学学报,2002,27(3):241-245.

[30]
Zhang F C,Zhou Z H,Xu X,et al.A bizarre Jurassic maniraptoran from China with elongate ribbon-like feathers[J]. Nature, 2008,455(23):1105-1108.

[31]
李军,周成虎.地学数据特征分析[J].地理科学,1999,19(2):158-162.

[32]
葛全胜,郑景云,郝志新,等.过去2000 年中国气候变化的若干重要特征[J].中国科学:地球科学,2012,42(6):934-942.

[33]
Gómez-Pérez A,Benjamins R.Overview of knowledge sharing and reuse components: Ontologies and problem-solving methods[C]. IJCAI and the Scandinavian AI Societies, CEUR Workshop Proceedings, 1999.

[34]
Hebeler J.Web 3. 0 与 Semantic Web 编程[M].北京:清华大学出版社,2010.

[35]
甘健侯,姜跃,夏幼明.本体方法及其应用[M].北京:科学出版社,2011.

[36]
诸云强,宋佳,冯敏,等. 地球系统科学数据共享软件研究与发展[J].中国科技资源导刊,2012(6):11-16.

[37]
郑业鲁,何绮云,钱平,等. 基于本体的农业知识管理系统构建方法[J].中国科学:信息科学,2010(40):196-204.

文章导航

/