A Case of Establishment and Application of Spatial Correlation Degree Algorithm for Geographic Entities Coupling Scales

  • CHEN Zugang ,
  • YANG Yaping , *
  • 1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
*Corresponding author: YANG Yaping, E-mail:

Received date: 2017-07-11

  Request revised date: 2017-08-06

  Online published: 2018-01-20

Supported by

Branch Center Project of Geography, Resources and Ecology of Knowledge Center for Chinese Engineering Sciences and Technology, No.CKCEST-2017-1-8;National Earth System Science Data Sharing Infrastructure, No.2005DKA32300;Project of Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application.


The traditional correlation degree algorithms for geographic entities have many disadvantages, such as non-applicable for some kinds of geographic entities and some types of topological relations, and not considering the dependency of spatial scale that results in poor discernibility of data. In this study, a new algorithm is proposed which computes the spatial correlation degree according to the specified spatial scale which is represented by a spatial extent. Based on the first law of geography and the theories on spatial correlation degree put forward by Egenhofer, the equations of spatial correlation degree was obtained by analyzing the topological and metric relations between different kinds of geographical entities such as points, lines and polygons. By comparison, the algorithm in this study can compute the correlation degree between geographic entities of different types and topological relations, alter the correlation degree with the change of the specified spatial scale, which is consistent with the generic intuition of human beings. At last, we introduced an application of the algorithm by taking geospatial data retrieval as an example. Compared with the traditional retrieval methods based on keyword matching, our algorithms can improve the F1-measure in geographic information retrieval (GIR) and give the accurate scores of correlation degree so that the retrieval results can be ranked. The algorithm is an elementary research that can be applied in the research fields of GIR, scientific data discovery, data recommendation, linked data, and so on.

Cite this article

CHEN Zugang , YANG Yaping . A Case of Establishment and Application of Spatial Correlation Degree Algorithm for Geographic Entities Coupling Scales[J]. Journal of Geo-information Science, 2018 , 20(1) : 37 -47 . DOI: 10.12082/dqxxkx.2018.170323

1 引言

尺度一般是指时间的长短或空间范围的大小,即所谓时间尺度和空间尺度;地学研究中常采用狭义的尺度概念,即空间尺度[1]。空间尺度的定义较为模糊,其内涵包括认知尺度、空间细节层次、地图比例尺、空间粒度、空间范围等[2]。研究过程和研究结论依赖于特定空间尺度的特点,称为尺度依赖性。20世纪50年代,Robinson最早发现地学和社会学研究中的尺度依赖性问题[3],发现在某一尺度下得出的结论不能无差别的适用于另一尺度;随后Openshaw等[4]提出的可变元面积(Modifiable Areal Unit Problem, MAUP)问题,Goodchild[5]、Dudley[6]、Marceau等[7]研究了MAUP对于统计模型和地学分析的影响,证实此类地学模型的尺度依赖性。
相似度或相关度是人类认知过程中的基础内容,它是归类的准则、也是联想记忆和演绎推理的依据[8,9]。相关度在信息检索、信息集成和数据挖掘等领域有着重要应用[10]。在地理信息检索(Geographic Information Retrieval,GIR)和时空数据挖掘等领域,地理实体的空间相关度也是研究的基础问题[11]。地理实体的空间相关度指的是地理实体间的位置、距离、方位、形状和大小等几何属性的相关度程度。
已有的地理实体相关度(下文除特殊指定外,实体均指地理实体,相关度均指空间相关度)算法主要分为2类:① 基于空间关系的方法。空间关系包括拓扑关系,度量关系和方位关系[12]。如Hill[1]和Walker等[13]分别提出了基于面状空间要素重叠面积大小的地理实体相关度算法;Janee等[14]提出了基于Hausdorff距离的算法;Beard and Sharma[15]提出了基于度量关系和空间拓扑关系的算法;Li等[16]提出了一种综合利用拓扑关系,度量关系和方位关系计算地理实体相关度的模型;Frontiera[17]提出一种利用空间拓扑关系和度量关系因子进行逻辑回归的的实体相关度算法;国内学者如刘家骏对文本中以空间陈述形式存在的地理信息的模糊性因素进行分析,通过引入不确定场模型来描述参照对象和空间关系对模糊性的贡献程度,提出了空间相关性模糊度量的计算方法[18];赵宏伟等[19]提出了利用地理空间拓扑关系、度量关系和专家打分给出的权重系数计算地理实体相关度的方法。② 基于地名词典和本体的方法。如Rodríguez和Egenhofer[11]提出了一种匹配距离的实体类相似度计算方法;李红梅等[20]以本体做为揭示实体深层次语义信息的方法论,提出了符合认知特性的地理实体类型语义相关度计算模型;杨娜娜等[21]基于地理空间概念本体,加入深度、密度权重因子,提出了基于本体的地理实体相关度计算方法;Janowicz等[22,23]提出了一种基于地理空间描述逻辑的SIM-DL模型计算实体相关度。
现有的地理实体相关度算法主要存在以下问题:① 构建地理本体需要完整的概念体系和概念之间的空间关系,难度大、耗时长;② 地名词典、地理语义目录不能够表达地理实体间的拓扑关系;③ 基于空间关系的实体相关度算法,大多只适合面状实体,对点状和线状实体支持不够,文献[19]提出了一种较为全面的算法,但其拓扑关系基于4-交模型,能处理的拓扑关系种类有限;④ 所有的实体相关度算法都没有考虑空间尺度依赖性,在不同的空间尺度上使用同一种计算模型,计算出的实体相关度无差别,与人类的直觉不符。譬如,在全国尺度上,北京和广州二个点的相对距离较远,相关度较小;在全球尺度上,北京和广州的相对距离较近,其相关度理应比全国尺度上的相关度大,而目前所有的实体相关度算法均未考虑空间尺度的影响,计算出的数值是固定的。

2 研究思路


3 地理实体相关度计算模型


3.1 空间拓扑关系

拓扑关系是指拓扑变换下的不变量,它表达了空间对象之间固定的、不随观察角以及放大缩小变化的性质,是空间实体间一种最稳定的关系[30]。为了区分不同的拓扑关系,用数学和逻辑的方法对拓扑关系进行描述。目前,得到公认的拓扑关系描述模型主要有二大类:Randell等[31]提出的区域连接演算RCC(region connection calculus)理论和Egenhofer等[32]提出的求交模型。区域连接演算理论(简称RCC),是以Clarke[33]提出的基于连接的个体演算理论为基础,由Randell等[31]提出的一种用于描述空间关系的一阶逻辑理论。它包含RCC-8和RCC-5 2种基本拓扑关系集合。RCC理论所做的拓扑区分比较符合人类对空间拓扑关系的认知,缺点是拓扑关系的表达能力有限。
求交模型分为4-交模型和9-交模型。4-交模型是将2个二维的简单空间实体X,Y分为内部X0,Y0和边界 X Y 2个点集,可由边界与内部之间的关系确定X,Y之间的拓扑关系。9-交模型是Egenhofer等[28]以点集拓扑学为理论依据,基于4-交模型提出的一种拓扑关系表达框架。它通过考察空间对象的内部、边界以及外部的相交情况,来区分各种拓扑关系。9-交模型可描述一切可能的空间几何对象间的空间关系,但存在冗余度大的问题,有多种拓扑关系并没有实际意义。
Tab. 1 The topology relations between spatial entities

表1 实体空间拓扑关系表

3.2 空间度量关系与空间尺度


3.3 空间相关度计算公式

R A , B = W Ti + W TiC × M AB (1)
(1) 点和点实体相关度
本研究以多点(multi-point)A和多点B之间的空间关系代表点和点实体的空间关系,如表1所示,多点和多点之间有5种拓扑关系,即相等、包含、被包含、重叠和相离。当两实体相等时,其相关度 为1。本研究不对包含和被包含2种拓扑关系予以区分,当两点实体的空间拓扑关系为包含\被包含和叠加时,其相关度受2个因素的影响:① 重叠点的数量占实体的点的总数的比例;② 两实体之间的空间距离。当点和点之间的拓扑关系为相离时,其相关度只受空间距离的影响。考虑不同的空间尺度对相关度的影响,相关度计算公式如下
R ( A , B ) = W T 1 + W T 1 C × P A B Max P A , P B ×
1 - D A , B S A , B (2)
R ( A , B ) = W T 2 + W T 2 C × P A B Max P A , P B × 1 - D A , B S A , B (3)
(2) 点和线实体相关度
R ( A , B ) = W T 2 + W T 2 C × 1 - L A , B S A , B + L A , B (5)
R ( A , B ) = W T 3 + W T 3 C × 1 - L A , B S A , B + L A , B (6)
R ( A , B ) = W T 4 + W T 4 C × 1 - D A , B S A , B (7)
式中:WTi是指定拓扑关系下相关度基本权重;WTiC是相应的相关度控制权重;L(A, B)是指线的长度;D(A,B)代表A和B的空间距离;S(A,B)代表空间尺度长度。
(3) 点和面实体相关度
R ( A , B ) = W T 2 + W T 2 C × 1 - A A , B S A A , B + A A , B × 1 - D A , B S A , B (8)
R ( A , B ) = W T 3 + W T 3 C × 1 - A A , B S A A , B + A A , B × 1 - D A , B S A , B (9)
(4) 线和线实体相关度
R ( A , B ) = W T 1 + W T 1 C × L A B Max L A , L B × 1 - Max L A , L B S A , B + Max L A , L B (11)
R ( A , B ) = W T 2 + W T 2 C × L A B Max L A , L B × 1 - Max L A , L B S A , B + Max L A , L B (12)
R ( A , B ) = W T 3 + W T 3 C × P A B 1 + P A B × 1 - Max L A , L B S A , B + Max L A , L B (13)
(5) 线和面实体相关度
R ( A , B ) = W T 2 + W T 2 C × L A B Max L A , L B × 1 - D A , B S A , B (15)
R ( A , B ) = W T 3 + W T 3 C × L A B Max L A , L B × 1 - D A , B S A , B (16)
R ( A , B ) = W T 5 + W T 5 C × 1 - L A , B S A , B + L A , B × 1 - D A , B S A , B (17)
R ( A , B ) = W T 6 + W T 6 C × 1 - D A , B S A , B (18)
(6) 面和面实体相关度
R ( A , B ) = W T 1 + W T 1 C × A A B Max A A , A B × 1 - D A , B S A , B (19)
R ( A , B ) = W T 2 + W T 2 C × A A B Max A A , A B × 1 - D A , B S A , B (20)
R ( A , B ) = W T 3 + W T 3 C × L ( A B ) Max ( L ( A ) , L ( B ) ) × 1 - D A , B S A , B (21)
R ( A , B ) = W T 4 + W T 4 C × 1 - D A , B S A , B (22)
权重系数可以由多位专家打分求取平均值给出。专家打分需遵循以下基本原则:① 对于点和点、点和线、点和面、面和面类型的实体,包含\被包含关系下的实体相关度不得大于相等关系(如果存在,下同)下的实体相关度;叠加关系下的实体相关度不得大于包含\被包含关系下的实体相关度;相接关系下的实体相关度不得大于叠加关系下实体相关度;相离关系下实体相关度不得大于相接关系下的实体相关度。② 基本权重和控制权重之间的关系。具体如下:
同理,对于线和面实体类型:相交关系下的实体相关度不得大于包含/被包含关系下的相关度,相接关系下的实体相关度不得大于相交关系下的实体相关度,相离关系下的实体相关度不得大于相接关系下的实体相关度。权重系数存在关系: 1 = ( W T 1 + W T 1 C ) > W T 1 = ( W T 2 + W T 2 C ) > W T 2 = ( W T 3 + W T 3 C ) > W T 3 = ( W T 5 + W T 5 C ) > W T 5 = ( W T 6 + W T 6 C ) > W T 6

4 结果与分析

Tab. 2 The weights of the algorithm in the case

表2 本研究权重系数取值表

基本权重 控制权重
WT1 0.667 WT1C 0.333
WT2 0.5 WT2C 0.167
WT3 0.333 WT3C 0.167
WT4 0 WT4C 0.333
WT5 0.167 WT5C 0.166
WT6 0 WT6C 0.167
Fig. 1 Distribution of spatial entities

图1 实体分布示意图

Tab. 3 The contrast of spatial relevance in different scales and methods

表3 不同尺度上空间相关度对比表

实体一 实体二 类型 拓扑关系 相关度
漯河南街村 漯河南街村 点-点 相等 1.000 1.000 1.000
河南特色小镇(2016) 许昌神垕镇 多点-点 包含/被包含 0.749 0.744 *
河南十佳美丽乡村(2014) 河南特色小镇(2016) 多点-多点 重叠 0.533 0.531 *
焦作陈家沟村 信阳郝堂村 点-点 相离 0.311 0.134 9.760×10-7
开封杜良收费站 G220(河南) 点-线 包含/被包含 0.659 0.617 1.000
封丘县赵寨村村道 封丘县赵寨村 点-线 相接 0.499 0.496 *
郑州西泰山村 封丘县赵寨村村道 点-线 相离 0.327 0.284 3.965×10-6
南阳化山村 河南省南阳市 点-面 包含/被包含 0.664 0.624 0.667
新乡市封丘县 封丘县东柳园村 点-面 相接 0.499 0.494 *
漯河南街村 河南省许昌市 点-面 相离 0.330 0.308 2.650×10-5
东郑线 东郑线 线-线 相等 1.000 1.000 1.000
G220(河南) 东郑线 线-线 包含/被包含 0.721 0.707 0.528
023乡道 齐边线 线-线 重叠 0.50209 0.50208 0.502
G220(河南) G310(河南) 线-线 相接 0.411 0.383 0.333
S32 G45(河南段) 线-线 相交 0.411 0.387 *
G220(河南) S32 线-线 相离 0.328 0.292 4.840×10-6
齐边线 县级开封市 线-面 包含/被包含 0.50175 0.50174 0.670
G220(河南) 河南省开封市 线-面 相交 0.357 0.356 0.385
开柳公路 县级开封市 线-面 相接 0.333 0.328 0.333
河南省漯河市 G220(河南) 线-面 相离 0.163 0.133 4.099×10-6
郑州大都市区 郑州大都市区 面-面 相等 1.000 1.000 1.000
河南省郑州市 郑州市中牟县 面-面 包含/被包含 0.728 0.723 0.531
郑州大都市区 郑洛新自主创新示范区 面-面 重叠 0.553 0.548 0.600
河南省洛阳市 河南省郑州市 面-面 相接 0.495 0.461 0.357
河南省洛阳市 河南省漯河市 面-面 相离 0.320 0.221 3.470×10-6
河南省洛阳市 河南省信阳市 面-面 相离 0.310 0.122 1.810×10-6



5 应用案例

一般情况下,利用地理信息检索(Geographic Information Retrieval,GIR)检索网页文档中的地理信息时,需要同时从主题和空间位置二个方面评估文档和用户所需文档间的相关性[26],本设计如下算法评估用户输入的主题词和空间位置与科学数据元数据的主题词和空间位置的相关度,从而实现数据检索。
t = w 1 · x + w 2 · y (23)
F 1 - measure = 2 · P · R P + R (24)
基于以上实验方案,分别开发基于以上2种方法的地理空间数据检索系统,并利用权重评估-层次分析法计算w1w2的值,分别为0.667和0.333,向系统中输入关键词,例如“土地利用 上海市”,点击检索按钮,数据检索系统分根据2种算法计算地理空间数据的主题词以及空间范围和关键词中的主题词和空间范围的相关度,从而获取匹配度。规定传统关键词匹配算法计算的匹配度为1的地理空间数据为检索结果,使用本研究提出的算法计算的匹配度大于或者等于0.889(即: 0.667×1 + 0.333×0.667=0.889)的地理空间数据为检索结果(即认为元数据主题词包含用户输入的主题词,且空间范围包含或者等于用户指定的空间范围的地理空间数据为检索结果)。2种方法检索结果如表4、5所示。
Tab. 4 The retrieved results of the keywords matching method

表4 关键词匹配法检索结果

数据名称 匹配度
上海市1:10万土地利用数据(2008年) 1.000
上海市1:10万土地利用数据(1980s) 1.000
上海市1:10万土地利用数据(1995年) 1.000
Tab. 5 The retrieved result of our method

表5 本研究提出算法检索结果

数据名称 匹配度
上海市1:10万土地利用数据(2008年) 1.000
上海市1:10万土地利用数据(1980s) 1.000
上海市1:10万土地利用数据(1995年) 1.000
长三角1:10万土地利用数据(2005年) 0.892
长三角地区1980s、1995年、2000年1:25万土地利用数据集 0.892
中国分省土地利用面积数据(1980s、1995年、2005年) 0.889
中国1:100万土地利用区划(1996年) 0.889
中国地区土地利用/土地覆盖数据集 0.889
中国1 km网格土地利用数据(1980s、1995年、2000年) 0.889
Tab. 6 The contrast of precision, recall and F1-measure of the two methods

表6 2种检索方法的准确率、召回率和F1-measure

方法名称 准确率/% 召回率/% F1-measure
方法一(使用本研究提出的算法) 77.8 100 87.5
方法二(关键词匹配算法) 100 42.9 60.0

6 结论与讨论

本研究的创新点为:① 发现了地理实体空间相关度的尺度依赖性,进而考虑空间尺度的作用,建立耦合尺度的实体相关度计算模型。② 针对不同类型的空间实体和实体间不同的拓扑关系,建立全面系统的相关度计算方法。
本算法也存在以下问题:① 空间尺度范围的确定问题:本算法要求空间尺度范围必须包含所有的要参与计算相关度的地理实体,但是在实际应用过程中,地理实体的数量是不确定的或者是变化的,这增加了空间尺度范围选择的难度,下一步将根据研究的实际情况对空间尺度范围进行预估,坚持从大原则选择空间尺度。② 本算法只能对基础地理数据库中已有的空间实体评估相关度。③ 实际应用中,通常要求实现文字和基础地理空间数据库中的地理实体进行映射,由于文字表达的复杂性,通常难以实现自动化映射,这在很大程度上制约了本算法的应用,这是下一步要努力的方向。

