A Precise Description Approach on the Result of Automatic Data Matching for Geo-spatial Model

  • YANG Jie , 1, 2 ,
  • ZHU Yunqiang , 1, 3, 4, * ,
  • SONG Jia 1, 3 ,
  • LU Feng 1 ,
  • SUN Kai 1, 2 ,
  • LI Weirong 5
Expand
  • 1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
  • 4. Baiyangdian Lake Ecological Protection and Sustainable Development of Jing-jin-ji Collaborative Innovation Center, Baoding 071002, China
  • 5. School of Architecture Engineering, Shandong University of Technology, Zibo 255000, China
*Corresponding author: ZHU Yunqiang, E-mail:

Received date: 2018-02-23

  Request revised date: 2018-04-18

  Online published: 2018-06-20

Supported by

National Natural Science Foundation of China, No.41631177, 41771430

National Special Program on Basic Works for Science and Technology of China, No.2013FY110900

Foundation of State Key Laboratory of Resources and Environmental Information System, No.O88RA20CYA

Public and Basic Geological Project of Guizhou Province, China, No.[2014]23, [2016]269

Copyright

《地球信息科学学报》编辑部 所有

Abstract

With the deep and interdisciplinary development of research on modern geoscience, geo-spatial models are becoming more and more complicated. Consequently, input data required for geo-spatial models are also growing up increasingly. In order to prepare these data quickly and efficiently, a feasible approach is to automatically match shared data from internet for the input requirements of geo-spatial model(MD4GSM). Under this background, in order to automatically convert or transform those incomplete matching data during the process of MD4GSM, this paper conduct the study on the precise description method for the matching result of shared data and geo-spatial model. Firstly, it analyzes the automatic data matching process. On this basis, this paper proposes a precise description structure and its formalization method to represent the matching result. The matching result includes three essential characteristics of data content, spatial information, temporal information, as well as morphological characteristics, such as data type, format, and structure, etc. In addition, each characteristic item is described clearly and precisely by similarity, matching relation and matching extent based on XML (eXtensible Markup Language) to reveal whether the shared data and model’s input data are consistent, where the difference is and how large the difference is. If the similarity of a characteristic is 1 or that of an essential characteristic is 0, it means the characteristic completely or not meets the requirement of geo-spatial model. In this condition, there is no need to precisely describe the matching result further; otherwise the matching result of the characteristic should be described formally and precisely according to the above method. The experiment of soil potential productivity calculation in Hunan province in 2010 shows that the method can be a foundation for automatic combining data processing services and dealing with data in the next, and finally recommending data that fully meet the needs of geo-spatial model.

Cite this article

YANG Jie , ZHU Yunqiang , SONG Jia , LU Feng , SUN Kai , LI Weirong . A Precise Description Approach on the Result of Automatic Data Matching for Geo-spatial Model[J]. Journal of Geo-information Science, 2018 , 20(6) : 744 -752 . DOI: 10.12082/dqxxkx.2018.180113

1 引言

地理空间模型能够帮助人们从本质上认识、剖析并最终解决地理问题,在地理科学发现和综合性研究过程中发挥着不可替代的作用[1]。随着全球环境变化、人地关系和地球系统综合研究等的加强与推进[2],现代地理空间模型变得日益复杂,需要的输入数据也越来越多。输入数据的制备有时非常困难而且容易出错,消耗了模型使用者大量的时间和精力。为了解决这一问题,一种有效的方法就是从网络上已经共享的大量数据中为地理空间模型自动查找和匹配需要的数据[3]
自动数据匹配的基本思想是[3]:首先计算共享数据和地理空间模型输入数据的相似度;通过相似度,判断二者是否一致:相似度为1,表示共享数据完全符合地理空间模型的需求;相似度不为1时,必须进行数据的自动转换处理,全部消除差异后,才能将共享数据输入地理空间模型。由于网络上共享的数据由不同的机构和组织发布,并不纯粹为地理空间模型服务,而且相似度计算涉及数据时空范围、尺度、空间基准、类型格式等特征[3],通常情况下相似度很难为1。因此,为了实现数据的自动转换处理,必须通过精准的、可机读的匹配结果表达,准确识别共享数据和地理空间模型输入数据之间存在的差异,让后继的数据处理服务(链)能够自动理解哪些特征上存在差异?是什么差异?差异有多大?
国内外现有的相关研究主要集中在地理空间数据匹配推荐和数据处理服务(链)2个方面。地理空间数据匹配推荐经历了从传统的关键词检索到语义推理检索、相关度计算等[4,5,6,7,8,9,10,11,12,13,14,15]。检索结果通常依据一定的排序算法(模型),如向量空间概率模型、统计语言模型、基于链接分析的排序方法、基于概念结构分析的排序方法以及基于属性特征的相关度排序方法等[16,17,18],按照得分高低进行排序。这些排序方法从总体上能够反映检索结果与用户需求的匹配程度,但由于缺乏分项特征匹配内容及其差异的精准描述,其结果是否真正满足要求,还需要用户人工进一步判断。地理空间数据处理服务(链)研究主要集中在空间数据基础处理服务研发以及面向应用的服务链自动构建上,如基于OGC的地理信息服务、基于OGC WPS的遥感影像处理服务、车载位置导航服务,以及地理信息服务动态组合和重构等[19,20,21,22,23,24]。已有的地理信息服务组合重点研究地理信息服务间的语义接口和数据传输,参与任务的地理信息服务主要还是通过人工的方式进行选择,究其原因主要是由于应用问题难以进行精准的形式化表达。
本文面向地理空间模型自动匹配数据的迫切需求,针对不完全匹配数据需要自动转换处理的问题,开展匹配结果精准表达方法研究与实践。该方法对数据总相似度以及各属性特征项的相似度、匹配范围及其语义信息等进行定量化、形式化的精准表达,实现共享数据与地理空间模型输入数据差异的准确识别,从而为数据处理服务的自动选择与组合,最终实现数据的自动转换处理奠定基础。

2 地理空间模型自动数据匹配流程 分析

地理空间模型自动数据匹配以网络共享数据为源数据(SD),地理空间模型输入数据为目标数据(TD),通过描述因子预处理、相似度计算、匹配结果表达、数据转换处理4个主要步骤实现[3]
(1)描述因子预处理。网络地理空间数据主要以元数据或地理信息服务的形式对外发布,如美国联邦地理数据委员会(FGDC)的数字空间元数据标准(CSDGM)、国际标准化组织地理信息技术委员会(ISO/TC211)的地理信息元数据(ISO 19115)[25]、OGC的网络地图服务(WMS)[26]等;而地理空间模型主要采用开放模型接口、网络处理服务、数据交换文件等形式对输入数据进行描述,如英国生态水文中心的OpenMI[27]、OGC的WPS[28]、Yue等[29]提出的统一数据交换结构(UDX)等。这些标准对于数据的描述在结构和语义上都有很大的不同,为了计算相似度,必须采用统一的描述因子和描述模式(如XML或RDF),对SD和TD的描述进行统一的预处理。
(2)相似度计算。基于统一的描述因子,采用符合各因子特征的计算模型开展单因子相似度的计算以及基于层次分析法的综合相似度计算。单因子相似度计算通常包括:数据内容、空间范围、时间范围、时空尺度、数据类型格式相似度等。相似度取值在[0, 1]之间,0表示完全不匹配,1表示完全匹配,0到1之间代表部分匹配,值越大表示匹配程度越高。
(3)匹配结果精准表达。相似度计算结束后,需要对匹配结果进行精准的表达,用计算机可识别的方式(XML或RDF),准确对SD和TD的综合相似度,各描述因子相似度以及匹配的内容及其语义信息进行详细的描述,识别出SD对比TD存在差异的具体特征项、差异的类型、范围及其具体的值,从而为数据的自动转换处理奠定基础。
(4)数据转换处理。对于部分匹配的数据资源,基于精准表达的匹配结果,通过差异特征项和差异类型,自动选择数据处理服务;通过差异范围和值域,确定待处理的数据及其具体的处理范围。

3 匹配结果精准表达结构

依据前述地理空间模型自动数据匹配流程,匹配结果(MT)总体结构由总相似度(St)和分项匹配集合(Mitems)2部分组成,如式(1)所示。
MT = { S t , M items } (1)
式中:当St=1或0时,即完全匹配或完全不匹配,不需要展开表达Mitems,否则需要进一步精准表达 Mitems。分项匹配集合Mitems由所有参与相似度计算的特征项(假设为n个)匹配结果构成,即
M items = i = 1 n M i (2)
i个特征项的匹配结果由相似度(Si)、匹配集(MCi)构成,如式(3)所示。当Si=1或0时,即该特征项完全匹配或完全不匹配,不需要展开表达MCi,否则需要进一步精准表达匹配集MCi
M i = { S i , M C i } (3)
式中:依据参与相似度计算的特征项,通过该特征项的匹配关系(MR)和匹配范围(ME)进一步精准表达匹配集(MC)。
地理空间数据相似度计算特征项主要包括[3]数据内容、空间、时间3个地理空间数据的本质特征,以及数据类型格式等形态特征。数据内容包括内容主题、属性项及其语义(属性值分类体系和数值单位)特征;数据空间包括空间范围、空间尺度和基准(投影和坐标系)特征;数据时间包括时间范围和时间粒度特征;形态特征包括数据类型、格式和结构等。对于每一个特征项,首先需要通过相似度是否为1来判断SD和TD是否存在差异。相似度的确定应当满足以下原则:当SD和TD在该项特征上完全匹配时(即Si=1),不需要进行该特征项的后期处理,否则按下面的步骤进行处理。当SD和TD在内容概念、时间范围、空间范围等本质特征上完全不一致时(即Si=0),因无法通过后期的数据转换处理满足模型的需求,应当“一票否决”,将其设定为完全不匹配数据(即St=0);当SD在本质特征上完全包含TD要求时,虽然可以通过抽取(裁剪)处理获取完全满足需求的数据,但出于对差异定位和优化结果排序的考虑,Si也设置为小于1;当SD与TD在本质特征上部分匹配时,仍有可能通过与其他数据融合的方法得到符合模型输入的数据,则 0<Si<1;当SD和TD在数据的形态特征上不一致时,通常可以通过数据处理的方式,将其转化为满足需求的数据,则0<Si<1。文献[3]、[30]-[31]详细介绍了每项特征相似度的具体计算方法,限于篇幅,不再对方法本身进行详细论述。当基于相似度判断出SD和TD存在差异时,再依据匹配关系MR确定源数据SD与目标数据TD的逻辑关系,然后通过匹配范围ME精准表达SD与TD的匹配重叠度。各特征项的相似度、匹配关系、匹配范围描述内容如表1所示,其中匹配关系是源数据SD对目标数据TD的匹配关系。
Tab. 1 Precise description of data matching result of each characteristic

表1 各特征项数据匹配结果精准表达

匹配特征项 匹配关系 匹配范围 相似度 备注说明
内容 内容概念 内容概念 相同 不记录 Si=1
上位概念 TD概念属性项 0<Si<1
下位概念 SD概念属性项
交叉概念 交叉部分概念属性项
完全不同 不记录 Si =0, St=0 当属性值不存在分类体系时,不考虑此匹配项
内容语义 分类体系
(可选)
一致 不记录 Si =1
不一致 SDTD分类标准代码 0<Si<1
数值单位
(可选)
一致 不记录 Si =1 当属性值无量纲时,不考虑此匹配项
不一致 SDTD数值单位 0<Si<1
空间 空间范围 空间拓扑 相同 不记录 Si =1
包含 TD空间范围 0<Si<1 采用坐标或TD要求的行政区粒度进行对空间范围表达
被包含 SD空间范围
相交 相交部分空间范围
相邻 不记录 Si =0, St=0
相离 不记录 Si =0, St=0
空间尺度 比例尺/分辨率 一致 不记录 Si =1 矢量数据记录比例尺分母,栅格数据记录分辨率。通过空间降或升尺度实现数据的转换
高精度 SDTD比例尺分母或分辨率 0<Si<1
低精度
空间基准 投影
(可选)
一致 不记录 Si =1 当空间数据是球面坐标系时,不考虑投影匹配项
不一致 SDTD投影名称及参数 0<Si<1
坐标系 一致 不记录 Si =1
不一致 SDTD坐标系名称及参数 0<Si<1
时间 时间范围 时间拓扑 相同 不记录 Si =1
包含 TD时间范围 0<Si<1 TD要求的时间分辨率记录时间范围
被包含 SD时间范围
相交 相交部分时间范围
邻近 不记录 Si =0, St=0
相离 不记录 Si =0, St=0
时间尺度 时间尺度 一致 不记录 Si =1
粗粒度 SDTD时间尺度 0<Si<1 通过时间降或升尺度实现数据的转换
细粒度
形态 数据类型 数据类型 相同类型 不记录 Si =1
不同类型 0<Si<1
数据格式 数据格式 相同格式 不记录 Si =1
同家族格式 SDTD数据格式及版本 0<Si<1 同家族格式是指同厂商的格式,转换相对容易,如ArcGIS家族格式
不同格式
数据结构
(可选)
数据结构
(可选)
相同结构 不记录 Si =1 SDTD的数据格式不是标准格式或者不公开,或是过于灵活(如TXT),则需要进一步描述数据结构

4 匹配结果精准表达方法

依据上述定义的地理空间模型自动数据匹配结果精准表达结构,采用可扩展标记语言(eXtensible Markup Language, XML)从结构和语义2个方面对匹配结果进行形式化表达,以便计算机能够准确识别共享数据与模型输入数据的差异,从而为网络数据处理服务、候选数据的自动选择与组合奠定基础。
匹配结果中空间坐标范围采用开放地理空间信息联盟OGC(Open Geospatial Consortium)定义的文本标记语言(Well-Known Text,WKT)[32]二维面对象来表示。WKT具有结构清晰、人机可读性良好等多种特点,其二维面对象采用形如POLYGON((环1坐标串),(环2坐标串),……,(环n坐标串))的格式表示。非公开或不公开的数据格式进一步采用数据格式描述语言DFDL(Data Format Description Language)[33]对其数据结构进行定义。DFDL是一种建模语言,由开放网格论坛(Open Grid Forum)于2011年发布,可用一种标准的方式对普通文本和二进制数据的结构进行描述。DFDL以数据集实例的方式从逻辑上对数据的内容结构进行表示,独立于数据的实际格式。各特征项可以进一步引用已有的本体库对其值域进行限定,如数据格式采用美国国会图书馆定义的常用地理空间数据格式(https://www.loc.gov/preservation/digital/formats/index.html。),空间基准采用欧洲石油勘探组织(European Petroleum Survey Group, EPSG)定义的大地参数数据集(http://www.epsg.org/EPSGDataset/DownloadDataset.aspx。),数值单位采用国际计量大会(CGPM)采纳和推荐的国际单位(https://www.bipm.org/en/measurement-units/。)等。
基于XML的地理空间模型自动数据匹配结果模式图(XML Schema)如图1所示,对应的模式文本(XML Text)如图2所示。
Fig. 1 XML schema of automatic data matching result for geo-spatial models

图1 地理空间模型自动数据匹配结果XML模式图

Fig. 2 XML schema text of automatic data matching result for geo-spatial models

图2 地理空间模型自动数据匹配结果XML模式文本(XML Text)

5 匹配结果精准表达实践

本文以土壤生产潜力计算模型为目标模型,以国家地球系统科学数据共享服务平台(http://www.geodata.cn,以下简称“Geodata.CN”)为数据源,以计算2010年湖南省1 km × 1 km范围的土壤生产潜力为应用目标,利用上述方法,开展地理空间模型自动数据匹配结果精准表达实践。
土壤生产潜力是评估粮食生产力的重要因素,主要取决于光、温、水、土等要素的数量及其相互间的协调配合程度,通常采用逐级修订模型计算。土壤生产潜力逐级修订模型如式4所示[34]
Y s = f ( q ) × f ( t ) × f ( w ) × f ( s ) × Q (4)
式中: Y s 为土壤生产潜力/(kg/hm2);Q为太阳总辐射/(kc/cm2); f ( q ) 为光合修正系数; f ( t ) 为温度修正系数; f ( w ) 为水分修正系数; f ( s ) 为土壤修正系数。各修正系数详细的计算方法见文献[34],具体的输入数据包括:① 气象数据:年太阳总辐射、年无霜期天数、年平均降雨量以及年平均蒸发量;② 土壤数据:土壤类型、土壤元素含量(有机质、氮、磷、钾含量、酸碱度);③ 地形数据:数字高程模型(DEM)数据。Geodata.CN是科技部支持的23家国家科技基础条件平台之一,其目标是整合集成分散的地球系统科学研究数据,并对外提供无偿的数据共享服务,拥有基础地理、气候气象、自然地理、生态环境、社会经济与人口、自然资源与灾害、全球变化、地球物理、日地空间环境等方面的数据资源及产品150 TB左右。通过数据搜索,Geodata.CN中具有土壤生产潜力模型应用需求相关的气象、土壤、地形数据,但这些数据是否能够直接作为模型的输入数据?如果不能,在哪个方面存在差异?这种差异有多大?需要通过本文的方法进行计算与精准表达。
由于土壤生产潜力模型输入数据众多,限于篇幅,现以“年均降雨量”输入数据的匹配为例进行应用验证。湖南省2010年土壤生产潜力计算对“年均降雨量”输入数据的具体需求,以及Geodata.CN上与“降雨量”相关的数据资源详细情况如表2所示(通过关键词“降雨量”搜索,共有57个相关数据集)。
Tab. 2 Characteristics of TD and SD

表2 目标输入数据与共享源数据特征描述

特征项
数据 内容 空间 时间 形态
内容概念 内容语义 空间范围 空间尺度 空间基准 时间范围 时间尺度 数据类型 数据格式 数据结构
模型应用需要的输入数据
年均降雨量(TD1) 降雨量 数值单位:mm 湖南省 1 km WGS84坐标系,Albers投影 2010年 年平均 栅格 Geotiff -
Geodata.CN共享数据
中国1 km栅格逐年平均降雨数据(SD11) 降雨量 数值单位:mm 中国 1 km WGS84坐标系,Albers投影 2000-2010年 年平均 栅格 Geotiff -
中国多年500 m分辨率平均降雨分布图(SD12) 降雨量 数值单位:mm 中国 500 m WGS84坐标系,Albers投影 建站-1996年 多年
平均
栅格 ArcGIS Coverage -
中国30 m分辨率的降雨侵蚀力图(SD13) 降雨
侵蚀力
数值单位:MJ·mm/ha·h·a 中国 30 m WGS84坐标系,Albers投影 1981-2010年 多年
平均
栅格 ESRI Grid -
中原经济区近百年逐月降雨数据库(SD14) 降雨量 数值单位:mm 中原
城市群
2 km 西安80坐标系,Albers投影 2000-2012年 逐月 栅格 ESRI Grid -
……
依据文献[3]方法,对输入数据(TD1)与共享数据集(SD11、SD12、SD13、SD14…)进行相似度计算(由于与文献[3]的特征项不尽相同,本文对特征因子权重进行了适当的调整)。数据内容、空间和时间是地理空间数据的3个本质特征,对于模型应用,这3个本质特征相似度必须都大于0,才能作为候选数据集[3]。Geodata.CN 57个相关数据集中只有“中国1 km栅格逐年平均降雨数据”(SD11)符合上述条件(表2中,SD12时间相似度为0,SD13内容相似度为0,SD14空间相似度为0),因此本文对TD1-SD11的匹配结果进行精准表达(图3)。
Fig. 3 Precise representation of the matching result of TD1-SD11 based on XML

图3 基于XML的TD1-SD11匹配结果精准表达

图3的精准表达结果中,计算机可自动识别SD11相对TD1存在空间范围和时间范围上的差异(相似度分别为0.022和0.1),且这种差异体现出来的都是包含关系,其空间匹配范围是湖南省,时间匹配范围是2010年。因此,在后继的数据自动转换中,可分别利用空间裁剪服务和时间抽取服务,从SD11中提取出湖南省2010年的年均降雨量栅格数据。

6 结语

日益复杂的现代地理空间模型需要越来越多的输入数据,为其快速、高效准备输入数据的有效方法是自动匹配网络已经共享的数据资源。数据自动匹配包括:数据搜索、匹配计算、自动转换等过程。为了实现数据的自动转换处理,必须对匹配计算结果进行精准的形式化表达。本文提出了地理空间模型自动数据匹配结果精准化表达结构以及基于XML的形式化表达方法,并以湖南省2010年土壤生产潜力模型计算为例开展了应用验证,其主要创新与结论如下:
(1)地理空间模型自动数据匹配的关键在于由传统的数据推荐进一步拓展到自动数据转换处理,直至数据完全符合模型需求,其难点在于如何精准识别数据与模型需求之间的差异。
(2)整个匹配结果包含数据内容、空间和时间3个本质特征项,以及数据类型、格式和结构等形态特征项。任意一个本质特征项相似度为0,该数据不作为候选推荐数据,否则进一步对每个特征项的匹配结果进行精准的形式化表达。
(3)每个特征项匹配结果通过相似度、匹配关系、匹配范围,采用XML对共享数据与地理空间模型输入数据“是否一致”、“差异在哪”、“差异有多大”进行精准的形式化表达,为后继数据处理服务的自动组合及其数据的自动处理奠定基础。
地理空间模型数据匹配涉及到数据内容、空间、时间和形态等多维特征,匹配结果的精准表达依赖于相似度、匹配关系和匹配范围。因此,未来应进一步加强对多维特征相似度计算模型、匹配关系的完善以及支撑匹配范围值域表达的语义本体等研究,并加快应用到数据处理服务的智能组合及其面向模型需求的数据自动转换处理实践中。

The authors have declared that no competing interests exist.

[1]
徐建华. 地理建模方法[M].北京:科学出版社,2010:5-7.

[ Xu J H.Geographical modeling methods[M]. Beijing: Science Press, 2010:5-7. ]

[2]
陆大道. “未来地球”框架文件与中国地理科学的发展——从“未来地球”框架文件看黄秉维先生论断的前瞻性[J].地理学报,2014,69(8):1043-1051.

[ Lu D D.The framework document of "Future Earth" and the development of Chinese geographical science: The foresight of academician Huang Bingwei's statement[J]. Acta Geographica Sinica, 2014,69(8):1043-1051. ]

[3]
Zhu Y Q, Zhu A X, Feng M, et al.A similarity-based automatic data recommendation approach for geographic models[J]. International Journal of Geographical Information Science, 2017,31(7):1403-1424.The complexity of geographic modelling is increasing; hence, preparing data to drive geographic models is becoming a time-consuming and difficult task that may significantly hinder the application of such models. Meanwhile, a huge number of data sets have been shared and have become publicly accessible through the Internet. This study presents a data similarity-based approach to automatically recommend available data sets to fulfil the data requirements of geographic models. Unified description factors are adopted to provide a consistent description of public data sets and input data requirements of geographic models. Five elementary data similarities between them, specifically content, spatial coverage, temporal coverage, spatial precision, and temporal granularity similarities, are calculated. An overall similarity is estimated from aggregating the elementary data similarities. Thereafter, the candidate data for running the models are recommended in the order of overall data similarity. As a case study, the approach has been applied to recommend data from the China National Data Sharing Platform of Earth System Science to drive the population spatialization model (PSM). The approach has successfully recommended the most related data sets to run PSM. The result also suggests that the data recommendation approach can facilitate the intelligent identification of geographic data and the building of links between the open data sets.

DOI

[4]
刘喜平,万常选,刘德喜,等.空间关键词搜索研究综述[J].软件学报,2016,27(2):329-347.

[ Liu X P, Wan C X, Liu D X, et al.Survey on spatial keyword search[J]. Journal of Software, 2016,27(2):329-347. ]

[5]
杨柳. 空间数据全文检索方法研究[J].测绘工程,2012,21(6):8-12.全文检索是处理非结构化数据的强大工具,也是现代信息搜索引擎的核心技术之一。介绍全文检索 技术,对其发展以及优缺点进行简单概括;继而在分析全文检索无法直接应用于空间数据搜索基础上,提出一种基于地理编码的空间数据全文检索方法;最后应用 Oracle Text结合ArcEngine空间数据引擎对该方法进行实验,验证方法的正确性和可靠性。

DOI

[ Yang L.Study on full-text retrieval of spatial data based on geocoding[J]. Engineering of Surveying and Mapping, 2012,21(6):8-12. ]

[6]
Li W, Goodchild M F, Raskin R.Towards geospatial semantic search: exploiting latent semantic relations in geospatial data[J]. International Journal of Digital Earth, 2014,7(1):17-37.This paper reports our efforts to address the grand challenge of the Digital Earth vision in terms of intelligent data discovery from vast quantities of geo-referenced data. We propose an algorithm combining LSA and a Two-Tier Ranking (LSATTR) algorithm based on revised cosine similarity to build a more efficient search engine 090009 Semantic Indexing and Ranking (SIR) 090009 for a semantic-enabled, more effective data discovery. In addition to its ability to handle subject-based search, we propose a mechanism to combine geospatial taxonomy and Yahoo! GeoPlanet for automatic identification of location information from a spatial query and automatic filtering of datasets that are not spatially related. The metadata set, in the format of ISO19115, from NASA''s SEDAC (Socio-Economic Data Application Center) is used as the corpus of SIR. Results show that our semantic search engine SIR built on LSATTR methods outperforms existing keyword-matching techniques, such as Lucene, in terms of both recall and precision. Moreover, the semantic associations among all existing words in the corpus are discovered. These associations provide substantial support for automating the population of spatial ontologies. We expect this work to support the operationalization of the Digital Earth vision by advancing the semantic-based geospatial data discovery.

DOI

[7]
许泉立,易俊华,杨昆.基于地理本体的空间信息检索机制初探[J].测绘地理信息,2015,40(1):65-68.

[ Xu Q L, Yi J H, Yang K.Geo-ontology-Driven retrieval mechanism of Geo-Information[J]. Journal of Geomatics, 2015,40(1):65-68. ]

[8]
王东旭,诸云强,潘鹏,等.地理数据空间本体构建及其在数据检索中的应用[J].地球信息科学学报,2016,18(4):443-452.lt;p>随着新地理信息时代的来临,地理数据已经呈现出爆炸式增长的趋势。如何在海量的地理数据中准确、及时地找到人们所需要的数据,并把相关联的数据智能地推荐给用户,成为亟待解决的一大难题。针对传统以关键词、主题词等字符串匹配为核心的数据发现方法存在的查不全、查不准的问题,本文通过对地理空间中的概念、属性、关系、规则,以及相应实例的详细表达,初步提出了地理空间本体构建框架,并在此基础上构建了较为完整的地理数据空间本体,以实现地理数据的智能关联,最后在地球系统科学数据共享平台中进行应用实践。结果表明,引入地理数据空间本体后,检索的结果在数据的查全和查准方面显著提高,而且还能智能推荐相关联的数据信息。本文构建的地理数据空间本体对于大数据时代背景下地理数据的精确发现和共享有重要意义。</p>

DOI

[ Wang D X, Zhu Y Q, Pan P, et al.Construction of geodata spatial ontology and its application in data retrieval[J]. Journal of Geo-information Science, 2016,18(4):443-452. ]

[9]
侯志伟,诸云强,高星,等.时间本体及其在地学数据检索中的应用[J].地球信息科学学报,2015,17(4):379-390.lt;p>高效、准确地获取目标数据及其关联数据,是决定大数据共享与挖掘分析能否实现的关键因素。传统的数据检索方法无法利用地学数据间的显性或隐含关系,已不能满足日益增长的对检索结果质和量的需求,而本体理论和技术的语义检索成为当前的研究热点。本文针对时间这一地学数据的本质属性,在系统研究地学数据时间概念与特征的基础上,建立了地学数据时间本体模型,并深入论述了模型中的时间关系、时间坐标系等内容,提出了时间位置和时间距离的描述函数,同时研究了二者的本体表达方式。构建了包括地质年代等在内的地学数据时间本体库,并以语义网开发框架Jena为基础,经本体解析、元数据时间信息抽取与标注等过程,将时间本体应用于地球系统科学数据共享平台的元数据检索之中。结果表明,以时间本体的地学数据语义检索查全率约为关键字方法的1倍,检索结果排序,以及关联数据推荐方面也有更好的效果,为促进地学数据共享与关联发现提供了一种有效的方法。</p>

DOI

[ Hou Z W, Zhu Y Q, Gao X, et al. Time-Ontology and its application in geodata retrieval[J]. Journal of Geo-information Science, 2015,17(4):379-390. ]

[10]
孙凯,诸云强,潘鹏,等.形态本体及其在地理空间数据发现中的应用研究[J].地球信息科学学报,2016,18(8):1011-1021.lt;p>地理空间数据语义异构是实现数据关联、数据智能推荐和精确发现的主要瓶颈。地理空间数据本体被认为是解决地理空间数据语义异构的有效方法。形态特征是地理空间数据(除时空、要素内容外)的重要特征,是地理空间数据本体的重要研究内容。本文首先在系统分析地理空间数据形态特征的基础上,提出地理空间数据形态特征的概念体系。然后,建立地理空间数据形态本体模型,提出形态信息的本体表示方法,并构建地理空间数据形态本体。最后,基于形态本体的本体库,利用Jena本体推理技术,开发地理空间数据语义检索原型系统,并将形态本体应用于国家地球系统科学数据共享平台的元数据检索中。实验结果表明,地理空间数据形态本体可以有效地解决数据形态特征的语义异构,提高数据发现的查全率和查准率。本文的研究方法和成果对解决其他领域数据的语义异构,有重要的参考意义。</p>

DOI

[ Sun K, Zhu Y Q, Pan P, et al.Research on Morphology-Ontology and its application in geospatial data discovery[J]. Journal of Geo-information Science, 2016,18(8):1011-1021. ]

[11]
李威蓉,诸云强,宋佳,等.地理空间数据来源本体及其在数据关联中的应用[J].地球信息科学学报,2017,19(10):1261-1269.数据来源是数据可靠性评价的重要参考因素,是地理空间数据本体的重要研究内容。本文针对来源这一重要的地理空间数据研究对象,系统地分析了地理空间数据来源的涵义,建立了地理空间数据来源本体模型,在此基础上,提出了地理空间数据来源本体的概念体系和来源本体概念间关系及其属性的形式化表达方法,并构建出地理空间数据来源本体。最后,以"科技基础性工作专项"项目数据资料为例,基于来源本体库,利用RDF从来源角度实现数据的语义关联,通过web前端框架D3.js技术实现数据与其来源信息的可视化。结果表明,基于来源本体的数据关联可以有效解决数据来源信息描述不规范的问题以及能够支持地学数据语义检索、智能推荐等应用,为促进地学数据共享和数据关联应用提供了一种新方法和新思路。

DOI

[ Li W R, Zhu Y Q, Song J, et al.Geospatial data provenance-ontology and its application in data linking[J]. Journal of Geo-information Science, 2017,19(10):1261-1269. ]

[12]
Buccella A, Cechich A, Gendarmi D, et al.Building a global normalized ontology for integrating geographic data sources[J]. Computers & Geosciences, 2011,37(7):893-916.Nowadays, the proliferation of geographic information systems has caused great interest in integration. However, an integration process is not as simple as joining several systems, since any effort at information sharing runs into the problem of semantic heterogeneity, which requires the identification and representation of all semantics useful in performing schema integration. On several research lines, including research on geographic information system integration, ontologies have been introduced to facilitate knowledge sharing among various agents. Particularly, one of the aspects of ontology sharing is performing some sort of mapping between ontology constructs. Further, some research suggests that we should also be able to combine ontologies where the product of this combination will be, at the very least, the intersection of the two given ontologies. However, few approaches built integrations upon standard and normalized information, which might improve accuracy of mappings and therefore commitment and understandability of the integration. In this work, we propose a novel system (called GeoMergeP) to integrate geographic sources by formalizing their information as normalized ontologies. Our integral merging process鈥攊ncluding structural, syntactic and semantic aspects ssists users in finding the more suitable correspondences. The system has been empirically tested in the context of projects of the Italian Institute for Environmental Protection and Research (ISPRA, ex APAT), providing a consistent and complete integration of their sources.

DOI

[13]
Lacasta J, Nogueras-Iso J, Muro-Medrano P R, et al. A web ontology service to facilitate interoperability within a spatial data infrastructure: Applicability to discovery[J]. Data & Knowledge Engineering, 2007,63(3):947-971.Ontologies are used within the context of Spatial Data Infrastructures to denote a formally represented knowledge that is used to improve data sharing and information retrieval. Given the increasing relevance of semantic interoperability in this context, this work presents the specification and development of a Web Ontology Service (WOS), based on the OGC Web Service Architecture specification, whose purpose is to facilitate the management and use of lexical ontologies. Additionally, this work shows how to integrate this service with Spatial Data Infrastructure discovery components in order to obtain a better classification of resources and an improvement in information retrieval performance.

DOI

[14]
Lutz M, Klien E.Ontology based retrieval of geographic information[J]. International Journal of Geographical Information Science, 2006,20(3):233-260.Discovering and accessing suitable geographic information (GI) in the open and distributed environments of current Spatial Data Infrastructures (SDIs) is a crucial task. Catalogues provide searchable repositories of information descriptions, but the mechanisms to support GI retrieval are still insufficient. Problems of semantic heterogeneity caused by the ambiguity of natural language can arise during keyword‐based search in catalogues and when formulating a query to access the discovered data. In this paper, we present an approach to ontology‐based GI retrieval that contributes to solving existing problems of semantic heterogeneity and hides most of the complexity of the required procedure from the requester. A query language and graphical user interface allow a requester to intuitively formulate a query using a well‐known domain vocabulary. From this query, an ontology concept is derived, which is then used to search a catalogue for a data source that provides all the information required to answer the requester's query. If a suitable data source is discovered, the relevant data are accessed through a standardized interface. The approach is implemented through several components that can be used as an extension to standard SDIs.

DOI

[15]
杨小忠,贾占军,刘士彬,等.基于应用本体的多卫星遥感数据检索[J].遥感信息,2007(1):30-36.

[ Yang X Z, Jia Z J, Liu S B, et al.Into digitization: Some concepts and methods of Chinese historical geographic information system[J]. Historical Geography, 2002(1):30-36. ]

[16]
刘红泉,张亮峰.布尔逻辑检索模型的分析探讨[J].现代情报, 2004,24(9):4-6.布尔逻辑检索模型(BooleanRetrieval Model简称BRM)是最早的一种检索模型,其理论已基本成熟.过去以及现在的许多检索系统,很多都是采用这种检索模型为工作原理.本文对布尔逻辑检索模型进行分析、对比,指出各自的优缺点和存在的问题.

DOI

[ Liu H Q, Zhang L F.Analysis and discussion of boolean retrieval model[J]. Journal of Modern Information, 2004,24(9):4-6. ]

[17]
王娟琴. 三种检索模型的比较分析研究:布尔,概率,向量空间模型[J].情报科学,1998,16(3):225-230.

[ Wang J Q.Studies on three retrieval modeles: Boolean retrieval model, probability retrieval model, vector retrieval model[J]. Information Science, 1998,16(3):225-230. ]

[18]
李晓光,王大玲,于戈.基于统计语言模型的信息检索[J].计算机科学,2005,32(8):124-127.

[ Li X G, Wang D L, Yu G.Information retrieval based on statistical language model[J]. Computer Science, 2005,32(8):124-127. ]

[19]
谢斌,俞乐,张登荣.基于GIS服务链的遥感影像分布式融合处理[J].国土资源遥感,2011,23(1):138-142.lt;p>&nbsp;提出了基于Web服务技术、OGC规范和工作流技术,以实现与平台无关的、具备流程编排能力的地理空间处理服务链框架,用于支持复杂的在线空间处理任务。在该框架基础上实现了一个在线遥感影像融合处理示例。该示例展示了利用OGC WCS、WPS,WSDL,UDDI和BPEL4WS等成熟的标准规范来构建GIS服务链,使得客户应用程序能够基于Web服务定制、部署,实现在线的地理空间处理能力。</p>

DOI

[ Xie B, Yu L, Zhang D R.Distributed fusion process for remotely sensed images based on GIS services chain[J]. Remote Sensing for Land & Resources, 2011,23(1):138-142. ]

[20]
张登荣,俞乐,邓超,等.基于OGC WPS的Web环境遥感图像处理技术研究[J].浙江大学学报(工学版),2008,42(7):1184-1188.lt;p>针对网络环境下遥感图像信息高效共享和互操作问题,结合工作流及其建模语言和开放地理信息系统协会网络处理服务(OGC WPS)规范,提出了一种遥感图像分布式处理的系统架构.在该架构中所有的图像获取和处理功能都包装成满足OGC标准的Web服务,复杂的处理过程则通过链接简单功能服务来实现.为验证该架构,构建了一个基于网络的遥感水体信息提取原型系统.实验结果表明,该原型系统可以在分布式条件下进行遥感数据获取和水体信息提取.系统具有服务链组织和执行能力,独立于语言、平台和满足OGC规范等优点</p>

[ Zhang D R, Yu L, Deng C, et al.OGC WPS-based remote sensing image processing in web environment[J]. Journal of Zhejiang University(Engineering Science), 2008,42(7):1184-1188. ]

[21]
李锦辉,徐敬海.基于网络的导航信息服务系统研究[J].测绘科学,2009,34(1):207-209.

[ Li J H, Xu J H.Research on the method of foundational surveying engineering supervision[J]. Science of Surveying and Mapping, 2009,34(1):207-209. ]

[22]
俞志强,司文才,李东阳,等.地理信息服务的智能化无缝聚合方法研究[J].测绘地理信息,2015,40(6):70-72.地理信息服务的多源、异构和分布式特征是制约地理信息共享的关键问题.研究了一种多源、分布式和异构地理信息服务的智能化无缝聚合方法,提出了一种混合服务聚合模式,实现了按网络环境、数据范围、位置和优先级等条件对符合OGC标准或WSDL/WADL描述的各种数据服务、处理服务等分布式、异构地理信息服务的智能调度和动态组合.在安吉美丽乡村地理信息服务平台中,通过对本地与天地图和百度等服务资源的聚合应用,验证了本文方法的有效性.

DOI

[ Yu Z Q, Si W C, Li D Y, et al.An intelligent seamless aggregation method for geographic information service[J]. Journal of Geomatics, 2015,40(6):70-72. ]

[23]
王艳军,路立娟.国土资源管理中典型地理信息服务链应用研究[J].测绘通报,2016(9):38-42.面向服务的架构和Web Service为空间信息共享和服务链构建提供了技术支撑。本文从地理信息系统发展阶段探讨了空间信息服务概念和理论,着重研究了地理空间信息服务链中涉及的服务注册和发现、按需扩展定制描述和服务组合方法等关键技术。通过设计地理空间信息链参考模型、服务注册中心和目录服务方法,以服务组合构建了某城市铁路线规划中的房屋拆迁和土地征收的空间分析服务链,为空间信息服务实际应用提供了参考方案,并可推广应用于空间信息共享与专业应用系统建设中。

[ Wang Y J, Lu L J.Into digitization: Some concepts and methods of Chinese historical geographic information system[J]. Historical Geography, 2002(9):38-42. ]

[24]
杜武,樊红,厉剑.模型驱动的空间信息服务组合[J].测绘地理信息,2015,40(2):62-66.针对空间信息服务组合问题,提 出了一种模型驱动的空间服务组合方法,使用空间信息服务组合流程模型来描述服务组合的过程,结合服务的质量约束和动态绑定机制,将服务组合问题转化为组合 优化问题,利用组合优化算法完成具体的服务组合,并以选址分析为案例进行了服务组合建模和组合优化实验。

DOI

[ Du W, Fan H, Li J.Model-Driven geospatial web service composition[J]. Journal of Geomatics, 2015,40(2):62-66. ]

[25]
International Organization for Standardization. ISO 19115-1:2014(E), Geographic information-Metadata-Part1: Fundamentals[S]. 2014.

[26]
Open Geospatial Consortium.OGC 06-042, Web Map Server Implementation Specification[S]. 2006.

[27]
Gregersen J B, Gijsbers P J A, Westen S J P. OpenMI: Open modelling interface[J]. Journal of Hydroinformatics, 2007,9(3):175-191.Management issues in many sectors of society demand integrated analysis that can be supported by integrated modelling. Since all-inclusive modelling software is difficult to achieve, and possibly even undesirable, integrated modelling requires the linkage of individual models or model components that address specific domains. Emerging from the water sector, the OpenMI has been developed with the purpose of being the glue that can link together model components from various origins. The OpenMI provides a standardized interface to define, describe and transfer data on a time basis between software components that run simultaneously, thus supporting systems where feedback between the modelled processes is necessary in order to achieve physically sound results. The OpenMI allows the linking of models with different spatial and temporal representations: for example, linking river models and groundwater models, where the river model typically uses a one-dimensional grid and a short timestep and the groundwater model uses a two- or three-dimensional grid and a longer timestep. The OpenMI is designed to accommodate the easy migration of existing modelling systems, since their re-implementation may not be economically feasible due to the large investments that have been put into the development and testing of these systems.

DOI

[28]
Open Geospatial Consortium.OGC 05-007r7, Web Processing Service[S]. 2007.

[29]
Yue S, Wen Y, Chen M, et al.A data description model for reusing, sharing and integrating geo-analysis models[J]. Environmental Earth Sciences, 2015,74(10):7081-7099.Geo-analysis models are necessary tools for understanding various geo-processes and phenomena in Earth's environment. Studying, reusing, sharing and integrating geo-analysis models can help researchers solve complicated and synthetic geo-problems with interdisciplinary knowledge, especially for researchers who collaborate with each other to build virtual geographic environments (VGEs). While the integration frameworks of geo-analysis models could permit their practical use, it is essential for model users to prepare data according to the specific requirements of the different geo-analysis models. Model users should invest adequate effort and time into preparing such model data, particularly when employing multi-disciplinary geo-analysis models. This paper proposed a data description model, the Universal Data eXchange (UDX) model that can reduce the effort and difficulties of model data preparation and pre-processing for model users. With the UDX model, researchers from interdiscipline can build a collaborative workspace in VGEs more conveniently. A hierarchical structure was employed in the UDX model for the flexible description of heterogeneous model data, and a set of basic data node types was designed to provide a relatively stable organization method for the various data contents. In the UDX model, the structural format data (e.g., the Shapefile and NetCDF data) and the flexible plain text data content can be described in a uniform way. In addition, model data information can be completely and unambiguously described with the items in the attachment libraries (e.g., unit and dimension library, semantic library, spatial reference library, and data description template library). Furthermore, two different model integration case studies were conducted to prove that various data processing methods and efforts can be accumulated and organized with the designed UDX data processing library.

DOI

[30]
Zhu Y Q, Zhu A X, Song J, et al.Multidimensional and quantitative interlinking approach for Linked Geospatial Data[J]. International Journal of Digital Earth, 2017,10(9):1-21.Digital Earth has seen great progress during the last 19 years. When it entered into the era of big data, Digital Earth developed into a new stage, namely one characterized by 090004Big Earth Data090005, confronting new challenges and opportunities. In this paper we give an overview of the development of Digital Earth by summarizing research achievements and marking the milestones of Digital Earth090005s development. Then, the opportunities and challenges that Big Earth Data faces are discussed. As a data-intensive scientific research approach, Big Earth Data provides a new vision and methodology to Earth sciences, and the paper identifies the advantages of Big Earth Data to scientific research, especially in knowledge discovery and global change research. We believe that Big Earth Data will advance and promote the development of Digital Earth.

DOI

[31]
赵红伟,诸云强,杨宏伟,等.地理空间数据本质特征语义相关度计算模型[J].地理研究,2016,35(1):58-70.关联数据是跨网域整合多源异构地理空间数据的有效方式,语义丰富的关联是准确、快速发现目标数据的关键。根据地理空间数据在空间、时间、内容上的语义关系,提出地理空间数据本质特征语义相关度计算模型。通过构建本质特征的关联指标体系,分层次逐级计算地理空间数据的语义相关度。与传统的语义相关度计算方式不同,以地理元数据为语料库,充分考虑地理空间数据的特点及空间、时间、内容在检索中不同的重要程度,分别采用几何运算、数值运算、词语语义相似度计算和类别层次相关度计算的方式,构建地理空间数据的语义相关度计算模型。该模型具有构建简单、适用于多源异构数据、充分结合了数学运算和专家经验知识等特点。实验表明:模型能够有效地计算地理空间数据本质特征的语义相关度,并具备一定的扩展性。

DOI

[ Zhao H W, Zhu Y Q, Yang H W, et al.The semantic relevancy computation model on essential features of geospatial data[J].Geographical Research, 2016,35(1):58-70. ]

[32]
Open Geospatial Consortium.12-063r5, Geographic information - Well-known text representation of coordinate reference systems[S]. 2015.

[33]
Open Grid Forum. Data Format Description Language (DFDL) v1.0 Specification.2011, .

[34]
孙伟,诸云强,郭春霞.湖南粮食生产潜力空间分异特征与农机总动力投入的关系[J].农机化研究,2014(9):36-41.土壤生产潜力评价是制定国土资源高效利用方案的重要组成部分。为此,基于土壤生产潜力逐级修订模型,以湖南省为例,利用GIS技术定量计算了1km×1km栅格粮食生产潜力,旨在突破行政区划限制分析土壤生产力的空间分布情况,为制定高效的国土资源空间利用方案提供重要参考依据。研究结果表明:湖南北部光照、水热资源优于南部,东部土壤资源优于西部。湖南光照、水热资源丰富,对粮食生产力的限制作用较小,土壤是湖南粮食生产力的主要限制因素。全省各市(州)粮食生产力在2010年实际产量的基础上均仍有2~3倍以上的增长空间。湖南省土壤生产潜力总体上呈现由湘东北向湘西南逐渐降低趋势。湖南东北地区土壤开发和粮食增产空间较西南广阔。

DOI

[ Sun W, Zhu Y Q, Guo C X.Into digitization: Some concepts and methods of Chinese historical geographic information system[J]. Historical Geography, 2002(9):36-41. ]

Outlines

/