A Precise Description Approach on the Result of Automatic Data Matching for Geo-spatial Model

Received date: 2018-02-23

  Request revised date: 2018-04-18

  Online published: 2018-06-20

Supported by

National Natural Science Foundation of China, No.41631177, 41771430

National Special Program on Basic Works for Science and Technology of China, No.2013FY110900

Foundation of State Key Laboratory of Resources and Environmental Information System, No.O88RA20CYA

Public and Basic Geological Project of Guizhou Province, China, No.[2014]23, [2016]269


With the deep and interdisciplinary development of research on modern geoscience, geo-spatial models are becoming more and more complicated. Consequently, input data required for geo-spatial models are also growing up increasingly. In order to prepare these data quickly and efficiently, a feasible approach is to automatically match shared data from internet for the input requirements of geo-spatial model(MD4GSM). Under this background, in order to automatically convert or transform those incomplete matching data during the process of MD4GSM, this paper conduct the study on the precise description method for the matching result of shared data and geo-spatial model. Firstly, it analyzes the automatic data matching process. On this basis, this paper proposes a precise description structure and its formalization method to represent the matching result. The matching result includes three essential characteristics of data content, spatial information, temporal information, as well as morphological characteristics, such as data type, format, and structure, etc. In addition, each characteristic item is described clearly and precisely by similarity, matching relation and matching extent based on XML (eXtensible Markup Language) to reveal whether the shared data and model’s input data are consistent, where the difference is and how large the difference is. If the similarity of a characteristic is 1 or that of an essential characteristic is 0, it means the characteristic completely or not meets the requirement of geo-spatial model. In this condition, there is no need to precisely describe the matching result further; otherwise the matching result of the characteristic should be described formally and precisely according to the above method. The experiment of soil potential productivity calculation in Hunan province in 2010 shows that the method can be a foundation for automatic combining data processing services and dealing with data in the next, and finally recommending data that fully meet the needs of geo-spatial model.

Cite this article

YANG Jie , ZHU Yunqiang , SONG Jia , LU Feng , SUN Kai , LI Weirong . A Precise Description Approach on the Result of Automatic Data Matching for Geo-spatial Model[J]. Journal of Geo-information Science, 2018 , 20(6) : 744 -752 . DOI: 10.12082/dqxxkx.2018.180113

1 引言

国内外现有的相关研究主要集中在地理空间数据匹配推荐和数据处理服务(链)2个方面。地理空间数据匹配推荐经历了从传统的关键词检索到语义推理检索、相关度计算等[4,5,6,7,8,9,10,11,12,13,14,15]。检索结果通常依据一定的排序算法(模型),如向量空间概率模型、统计语言模型、基于链接分析的排序方法、基于概念结构分析的排序方法以及基于属性特征的相关度排序方法等[16,17,18],按照得分高低进行排序。这些排序方法从总体上能够反映检索结果与用户需求的匹配程度,但由于缺乏分项特征匹配内容及其差异的精准描述,其结果是否真正满足要求,还需要用户人工进一步判断。地理空间数据处理服务(链)研究主要集中在空间数据基础处理服务研发以及面向应用的服务链自动构建上,如基于OGC的地理信息服务、基于OGC WPS的遥感影像处理服务、车载位置导航服务,以及地理信息服务动态组合和重构等[19,20,21,22,23,24]。已有的地理信息服务组合重点研究地理信息服务间的语义接口和数据传输,参与任务的地理信息服务主要还是通过人工的方式进行选择,究其原因主要是由于应用问题难以进行精准的形式化表达。

2 地理空间模型自动数据匹配流程 分析

(1)描述因子预处理。网络地理空间数据主要以元数据或地理信息服务的形式对外发布,如美国联邦地理数据委员会(FGDC)的数字空间元数据标准(CSDGM)、国际标准化组织地理信息技术委员会(ISO/TC211)的地理信息元数据(ISO 19115)[25]、OGC的网络地图服务(WMS)[26]等;而地理空间模型主要采用开放模型接口、网络处理服务、数据交换文件等形式对输入数据进行描述,如英国生态水文中心的OpenMI[27]、OGC的WPS[28]、Yue等[29]提出的统一数据交换结构(UDX)等。这些标准对于数据的描述在结构和语义上都有很大的不同,为了计算相似度,必须采用统一的描述因子和描述模式(如XML或RDF),对SD和TD的描述进行统一的预处理。
(2)相似度计算。基于统一的描述因子,采用符合各因子特征的计算模型开展单因子相似度的计算以及基于层次分析法的综合相似度计算。单因子相似度计算通常包括:数据内容、空间范围、时间范围、时空尺度、数据类型格式相似度等。相似度取值在[0, 1]之间,0表示完全不匹配,1表示完全匹配,0到1之间代表部分匹配,值越大表示匹配程度越高。

3 匹配结果精准表达结构

MT = { S t , M items } (1)
式中:当St=1或0时,即完全匹配或完全不匹配,不需要展开表达Mitems,否则需要进一步精准表达 Mitems。分项匹配集合Mitems由所有参与相似度计算的特征项(假设为n个)匹配结果构成,即
M items = i = 1 n M i (2)
M i = { S i , M C i } (3)
地理空间数据相似度计算特征项主要包括[3]数据内容、空间、时间3个地理空间数据的本质特征,以及数据类型格式等形态特征。数据内容包括内容主题、属性项及其语义(属性值分类体系和数值单位)特征;数据空间包括空间范围、空间尺度和基准(投影和坐标系)特征;数据时间包括时间范围和时间粒度特征;形态特征包括数据类型、格式和结构等。对于每一个特征项,首先需要通过相似度是否为1来判断SD和TD是否存在差异。相似度的确定应当满足以下原则:当SD和TD在该项特征上完全匹配时(即Si=1),不需要进行该特征项的后期处理,否则按下面的步骤进行处理。当SD和TD在内容概念、时间范围、空间范围等本质特征上完全不一致时(即Si=0),因无法通过后期的数据转换处理满足模型的需求,应当“一票否决”,将其设定为完全不匹配数据(即St=0);当SD在本质特征上完全包含TD要求时,虽然可以通过抽取(裁剪)处理获取完全满足需求的数据,但出于对差异定位和优化结果排序的考虑,Si也设置为小于1;当SD与TD在本质特征上部分匹配时,仍有可能通过与其他数据融合的方法得到符合模型输入的数据,则 0<Si<1;当SD和TD在数据的形态特征上不一致时,通常可以通过数据处理的方式,将其转化为满足需求的数据,则0<Si<1。文献[3]、[30]-[31]详细介绍了每项特征相似度的具体计算方法,限于篇幅,不再对方法本身进行详细论述。当基于相似度判断出SD和TD存在差异时,再依据匹配关系MR确定源数据SD与目标数据TD的逻辑关系,然后通过匹配范围ME精准表达SD与TD的匹配重叠度。各特征项的相似度、匹配关系、匹配范围描述内容如表1所示,其中匹配关系是源数据SD对目标数据TD的匹配关系。
Tab. 1 Precise description of data matching result of each characteristic

表1 各特征项数据匹配结果精准表达

匹配特征项 匹配关系 匹配范围 相似度 备注说明
内容 内容概念 内容概念 相同 不记录 Si=1
上位概念 TD概念属性项 0<Si<1
下位概念 SD概念属性项
交叉概念 交叉部分概念属性项
完全不同 不记录 Si =0, St=0 当属性值不存在分类体系时,不考虑此匹配项
内容语义 分类体系
一致 不记录 Si =1
不一致 SDTD分类标准代码 0<Si<1
一致 不记录 Si =1 当属性值无量纲时,不考虑此匹配项
不一致 SDTD数值单位 0<Si<1
空间 空间范围 空间拓扑 相同 不记录 Si =1
包含 TD空间范围 0<Si<1 采用坐标或TD要求的行政区粒度进行对空间范围表达
被包含 SD空间范围
相交 相交部分空间范围
相邻 不记录 Si =0, St=0
相离 不记录 Si =0, St=0
空间尺度 比例尺/分辨率 一致 不记录 Si =1 矢量数据记录比例尺分母,栅格数据记录分辨率。通过空间降或升尺度实现数据的转换
高精度 SDTD比例尺分母或分辨率 0<Si<1
空间基准 投影
一致 不记录 Si =1 当空间数据是球面坐标系时,不考虑投影匹配项
不一致 SDTD投影名称及参数 0<Si<1
坐标系 一致 不记录 Si =1
不一致 SDTD坐标系名称及参数 0<Si<1
时间 时间范围 时间拓扑 相同 不记录 Si =1
包含 TD时间范围 0<Si<1 TD要求的时间分辨率记录时间范围
被包含 SD时间范围
相交 相交部分时间范围
邻近 不记录 Si =0, St=0
相离 不记录 Si =0, St=0
时间尺度 时间尺度 一致 不记录 Si =1
粗粒度 SDTD时间尺度 0<Si<1 通过时间降或升尺度实现数据的转换
形态 数据类型 数据类型 相同类型 不记录 Si =1
不同类型 0<Si<1
数据格式 数据格式 相同格式 不记录 Si =1
同家族格式 SDTD数据格式及版本 0<Si<1 同家族格式是指同厂商的格式,转换相对容易,如ArcGIS家族格式
相同结构 不记录 Si =1 SDTD的数据格式不是标准格式或者不公开,或是过于灵活(如TXT),则需要进一步描述数据结构

4 匹配结果精准表达方法

依据上述定义的地理空间模型自动数据匹配结果精准表达结构,采用可扩展标记语言(eXtensible Markup Language, XML)从结构和语义2个方面对匹配结果进行形式化表达,以便计算机能够准确识别共享数据与模型输入数据的差异,从而为网络数据处理服务、候选数据的自动选择与组合奠定基础。
匹配结果中空间坐标范围采用开放地理空间信息联盟OGC(Open Geospatial Consortium)定义的文本标记语言(Well-Known Text,WKT)[32]二维面对象来表示。WKT具有结构清晰、人机可读性良好等多种特点,其二维面对象采用形如POLYGON((环1坐标串),(环2坐标串),……,(环n坐标串))的格式表示。非公开或不公开的数据格式进一步采用数据格式描述语言DFDL(Data Format Description Language)[33]对其数据结构进行定义。DFDL是一种建模语言,由开放网格论坛(Open Grid Forum)于2011年发布,可用一种标准的方式对普通文本和二进制数据的结构进行描述。DFDL以数据集实例的方式从逻辑上对数据的内容结构进行表示,独立于数据的实际格式。各特征项可以进一步引用已有的本体库对其值域进行限定,如数据格式采用美国国会图书馆定义的常用地理空间数据格式(https://www.loc.gov/preservation/digital/formats/index.html。),空间基准采用欧洲石油勘探组织(European Petroleum Survey Group, EPSG)定义的大地参数数据集(http://www.epsg.org/EPSGDataset/DownloadDataset.aspx。),数值单位采用国际计量大会(CGPM)采纳和推荐的国际单位(https://www.bipm.org/en/measurement-units/。)等。
基于XML的地理空间模型自动数据匹配结果模式图(XML Schema)如图1所示,对应的模式文本(XML Text)如图2所示。
Fig. 1 XML schema of automatic data matching result for geo-spatial models

图1 地理空间模型自动数据匹配结果XML模式图

Fig. 2 XML schema text of automatic data matching result for geo-spatial models

图2 地理空间模型自动数据匹配结果XML模式文本(XML Text)

5 匹配结果精准表达实践

本文以土壤生产潜力计算模型为目标模型,以国家地球系统科学数据共享服务平台(http://www.geodata.cn,以下简称“Geodata.CN”)为数据源,以计算2010年湖南省1 km × 1 km范围的土壤生产潜力为应用目标,利用上述方法,开展地理空间模型自动数据匹配结果精准表达实践。
Y s = f ( q ) × f ( t ) × f ( w ) × f ( s ) × Q (4)
式中: Y s 为土壤生产潜力/(kg/hm2);Q为太阳总辐射/(kc/cm2); f ( q ) 为光合修正系数; f ( t ) 为温度修正系数; f ( w ) 为水分修正系数; f ( s ) 为土壤修正系数。各修正系数详细的计算方法见文献[34],具体的输入数据包括:① 气象数据:年太阳总辐射、年无霜期天数、年平均降雨量以及年平均蒸发量;② 土壤数据:土壤类型、土壤元素含量(有机质、氮、磷、钾含量、酸碱度);③ 地形数据:数字高程模型(DEM)数据。Geodata.CN是科技部支持的23家国家科技基础条件平台之一,其目标是整合集成分散的地球系统科学研究数据,并对外提供无偿的数据共享服务,拥有基础地理、气候气象、自然地理、生态环境、社会经济与人口、自然资源与灾害、全球变化、地球物理、日地空间环境等方面的数据资源及产品150 TB左右。通过数据搜索,Geodata.CN中具有土壤生产潜力模型应用需求相关的气象、土壤、地形数据,但这些数据是否能够直接作为模型的输入数据?如果不能,在哪个方面存在差异?这种差异有多大?需要通过本文的方法进行计算与精准表达。
Tab. 2 Characteristics of TD and SD

表2 目标输入数据与共享源数据特征描述

数据 内容 空间 时间 形态
内容概念 内容语义 空间范围 空间尺度 空间基准 时间范围 时间尺度 数据类型 数据格式 数据结构
年均降雨量(TD1) 降雨量 数值单位:mm 湖南省 1 km WGS84坐标系,Albers投影 2010年 年平均 栅格 Geotiff -
中国1 km栅格逐年平均降雨数据(SD11) 降雨量 数值单位:mm 中国 1 km WGS84坐标系,Albers投影 2000-2010年 年平均 栅格 Geotiff -
中国多年500 m分辨率平均降雨分布图(SD12) 降雨量 数值单位:mm 中国 500 m WGS84坐标系,Albers投影 建站-1996年 多年
栅格 ArcGIS Coverage -
中国30 m分辨率的降雨侵蚀力图(SD13) 降雨
数值单位:MJ·mm/ha·h·a 中国 30 m WGS84坐标系,Albers投影 1981-2010年 多年
栅格 ESRI Grid -
中原经济区近百年逐月降雨数据库(SD14) 降雨量 数值单位:mm 中原
2 km 西安80坐标系,Albers投影 2000-2012年 逐月 栅格 ESRI Grid -
依据文献[3]方法,对输入数据(TD1)与共享数据集(SD11、SD12、SD13、SD14…)进行相似度计算(由于与文献[3]的特征项不尽相同,本文对特征因子权重进行了适当的调整)。数据内容、空间和时间是地理空间数据的3个本质特征,对于模型应用,这3个本质特征相似度必须都大于0,才能作为候选数据集[3]。Geodata.CN 57个相关数据集中只有“中国1 km栅格逐年平均降雨数据”(SD11)符合上述条件(表2中,SD12时间相似度为0,SD13内容相似度为0,SD14空间相似度为0),因此本文对TD1-SD11的匹配结果进行精准表达(图3)。
Fig. 3 Precise representation of the matching result of TD1-SD11 based on XML

图3 基于XML的TD1-SD11匹配结果精准表达


6 结语


