地球信息科学理论与方法

顾及地理实体的地名信息检索方法研究

  • 周静 , 1, 2, 3 ,
  • 张书亮 , 1, 2, * ,
  • 张小波 1, 2
展开
  • 1. 南京师范大学虚拟地理环境教育部重点实验室,南京 210023
  • 2. 江苏省地理信息资源开发与利用协同创新中心,南京 210023
  • 3. 南京市城市地下管线数字化管理中心,南京 210029
*通讯作者:张书亮(1974-),男,河南南阳人,博士,教授,博导,研究方向为地理信息系统、地理信息共享与地理信息检索。E-mail:

作者简介:周 静(1989-),女,江苏邳州人,硕士生,研究方向为地理信息检索。E-mail:

收稿日期: 2015-06-04

  要求修回日期: 2015-08-31

  网络出版日期: 2015-11-10

基金资助

国家自然科学基金项目(41171301)

江苏高校优势学科建设工程项目

A Place Name Information Retrieval Method Considering Geographic Entity

  • ZHOU Jing , 1, 2, 3 ,
  • ZHANG Shuliang , 1, 2, * ,
  • ZHANG Xiaobo 1, 2
Expand
  • 1. Key Laboratory of Virtual Geographic Environment of Ministry of Education, Nanjing 210023, China
  • 2. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
  • 3. Nanjing Underground Pipeline Data-managing Center, Nanjing 210029, China
*Corresponding author: ZHANG Shuliang, E-mail:

Received date: 2015-06-04

  Request revised date: 2015-08-31

  Online published: 2015-11-10

Copyright

《地球信息科学学报》编辑部 所有

摘要

随着在线电子地图应用的普及,地名信息检索已成为相关研究领域的热点,并取得了丰富的研究成果。然而,这些研究主要侧重于检索效率和文本关键词匹配质量的提高,并未顾及实际应用需求和地名信息检索方法的矛盾。本文通过分析地理实体和地名的特征及关系,提出将二者相融合来研究地名信息检索的形式和方法,从数据特征和应用场景的角度出发,提出顾及地理实体的地名信息检索模式,并实现对其的结构化表达,在该检索模式中将地理实体的属性特征和空间关系作为检索特征项;以检索模式为基础提出了基于地理实体相似度计算的地名信息检索模型,并深入研究了文本型属性与数值型属性综合的属性相似度计算方法,以及定性空间过滤与定量距离计算综合的空间关系相似度计算方法;最后,通过实验验证了顾及地理实体的地名信息检索方法的可行性和检索质量。实验结果表明,该检索方法既能实现精细化和空间化的检索需求,也能保证检索结果的准确度。

本文引用格式

周静 , 张书亮 , 张小波 . 顾及地理实体的地名信息检索方法研究[J]. 地球信息科学学报, 2015 , 17(11) : 1362 -1369 . DOI: 10.3724/SP.J.1047.2015.01362

Abstract

:With the popularization of online map application, place name information retrieval has become a key issue in the related study areas and many promising findings have been achieved. However, these studies mainly focused on the efficiency of retrieval and the matching quality of text information, without considering possible contradictories between the practical application requirements and place name retrieval methods. Currently, many online map platforms generally take POI or point of place name as the retrievable objects, and get results through retrieving text key words. However, this approach ignores the spatial information of place name. This paper studies the forms and methods of place name information retrieval by combining geographic entity and place name based on analyzing the relationship between them. From the view of data feature and application scenes, a new place name information retrieval mode is proposed, which can fully express the structure of geographic entity. This retrieval mode takes geographic entities' attributes and their spatial relationship as the retrieval feature items. With this mode, this paper proposes a place name information retrieval model based on geographic entity similarity. In the meantime, the similarity calculation method for attribute that integrates text attribute and number attribute, and the similarity calculation method for spatial relationship that integrates qualitative spatial filtration and quantitative distance calculation are also presented. Finally, a series of validation experiments are conducted to test the practicability and accuracy of the proposed model. Results show that the retrieval method not only considers the details and spatial characteristics of the retrieval objects, but also ensures the accuracy as well as the quality of the search results.

1 引言

随着数字城市建设的推进及在线电子地图应用的普及,海量地名信息查找与检索已成为各类城市级GIS应用平台和在线电子地图平台的核心功能。目前,地名检索的方法主要包括字符串匹配函数[1]、SQL查询语句[2]和全文检索[3]。在检索方法研究中,许多学者侧重于研究检索效率和文本关键词匹配质量的提高,忽视了地名的空间信息和语义信息。为弥补以文本关键词匹配进行地名检索忽视空间信息的弊端,研究领域形成了基于SQL的空间查询方法,但是该方法无法有效支持模糊检索,排序质量较差,难以推广应用。
为实现对地名语义信息的挖掘,刘瑜[4]、陈凯晨[5]、梁汝鹏[6-7]等通过构建地名本体实现地名检索。但是本体的构建缺乏统一的体系标准,依赖大量的实例库和知识库,难以付诸实践。近年来,地理信息检索的发展为顾及空间信息的地名检索提供新的思路。Martins[8]等利用文本相关性和地理相关性的线性组合来构建地理信息检索模型,Bordogna[9]、Henrich[10]、Overell[11]等均在研究中提出了提高地理相关性计算准确度的方法。然而,区别于结构化的地名空间数据库,地理信息检索主要以非结构化的网页资源为检索对象,将地理信息检索模型直接应用于地名信息检索缺乏针对性和精细性。
目前,应用领域中的地名信息检索一般是由地名标识点或兴趣点组成地名空间数据库作为检索对象,这些点要素无法准确地表达地名对象真实的空间范围及空间关系,也没有涵盖地理事物所包含的全部属性信息,使检索形式和准确度受到限制。
地理实体数据的出现为发展地名信息检索提供了突破。地理实体是现实世界独立存在且可唯一标识的地物,地名是地理实体的专有名称[12]。顾及地理实体来进行地名信息检索能将现实地物的抽象模型与地名属性相结合,实现对地理事物特征的全面表达,突出其整体性;同时以实体化和对象化的概念来组织和检索地名,通过整体性的特征来表现实体的唯一性和实体之间的关联性。天地图作为国家重点建设的地理信息公共服务平台,已将地理实体数据的融合作为平台数据建设的基本规范。从地理信息共享和应用的角度,许多在线电子地图平台也开始关注地理实体数据。因此,将地理实体数据与地名数据结合,利用地理实体数据库来补充地名空间数据库,为发展地名检索的形式和方法、解决基于关键词检索方法存在的问题提供契机,具有一定的前沿性和引导性。

2 地理实体与地名信息检索

2.1 地理实体与地名的特征及关系

为提高地理信息服务水平、推进地理信息共享和行业应用,国家测绘地理信息局于2011年颁布了“地理信息公共服务平台地理实体与地名地址数据规范”,该规范定义了地理信息应用领域中地理实体和地名的概念及表达方式。地理实体数据是以图元为基本构成单元,其数据模型分为图元层和实体层2部分,图元用点、线、面表达。地名是地理实体的专有名称,是以地理位置标识点的几何形式对地理实体进行描述和表达,并包含地理实体标识码信息。而位置标识点的定义一般是面状实体的中心或重心、区域内标志性建筑物的点位、线状实体的中心点等。
根据地理实体和地名的定义及特征,二者具有天然的密切联系,主要体现在:地理实体是地名的载体,在最大程度上承载了地名对象的特征信息;地名数据以地理实体数据为基础产生,是人们认识和表达地理实体的指代。地名数据继承了地理实体部分属性信息,并根据几何表达规则从地理实体的空间范围中提取出地理位置标识点作为其空间信息。
将地理实体和地名进行融合,能充分利用空间数据的特征,构建更符合空间认知的检索模式。顾及地理实体对地名信息检索的意义主要包括:(1)扩充检索对象的数量和类型,丰富检索内容。地理实体是对地理事物的实体表达,它所包含的要素类型、要素数量和特征信息更加丰富。(2)丰富了检索对象的几何类型,保证要素间空间关系的合理性和准确性,支持更丰富的检索模式。例如,检索“中医院门诊部”,顾及地理实体的特征,“中医院”作为复杂地理实体,能准确表达与“门诊部”之间的空间包含关系,而单一点状地名数据则无法准确地表达该检索条件,仅能以文本进行匹配。(3)具备空间表达能力的地理实体将使地名信息检索的结果更加精准。例如,检索“湖南路附近的小吃”与以道路标识点为参照对象相比,以线状道路实体为参照对象所获得的检索范围更加准确合理。
由此可见,将地理实体和地名融合来实现地名信息检索能将人们对现实地物的认知移植到检索模型中来,从而解决更多现实的问题。如:针对地理实体数据可以检索建筑物的高度及拓扑关系、政区的组成、道路的连通情况等,这些极具现实意义的检索在当前的地名检索平台中均无法实现。

2.2 顾及地理实体的地名信息检索模式与结构化表达

根据地理实体数据和地名数据的特征和关系,二者之间的关联主要体现在2个方面:(1)地理实体和地名的类型划分具有一定的对应关系,地名是通过提取地理实体中具备地名意义的实体对象进行空间定位和属性挂接,二者从不同的角度对地理事物进行表达。例如,地理实体中的道路实体大类对应着地名类型中具有地名意义的交通运输大类,政区实体中的省级、地级、县级、乡级行政区类型划分与地名类型中的一级、二级、三级、四级行政区域一一对应。(2)地理实体和地名通过地理实体标识码进行关联。依据这2点可建立地理实体和地名的映射机制。首先通过类型对应关系来完成地理实体和地名的类型映射,然后在此基础上结合地理实体标识码实现二者的实体匹配,完成地名与地理实体的特征信息融合。地理实体具备丰富的特征信息,但是在地名信息检索中,属性信息和空间信息具有基础和核心的地位,因此,顾及地理实体的地名信息检索即是将地理实体的属性信息和空间信息融入检索体系中,而在应用领域中人们对空间信息的认知主要通过空间关系来体现,精确的坐标描述对人们来说是难以实现并缺乏实际应用意义的。本文的检索模式主要分为2种类型:基于属性特征的地名信息检索和基于空间关系的地名信息检索,这2类检索模式根据检索条件可分为多个小类。详细信息见表1
Tab.1 Place name information retrieval mode based on geographic entity

表1 顾及地理实体的地名信息检索模式

检索模式大类 检索模式小类 检索形式示例
基于属性特征的地名信息检索 单一属性 苏果超市
复合属性 长度小于3 km的主干道路
基于空间关系的地名信息检索 拓扑关系+单一属性 南京师范大学内的图书馆
方位关系+单一属性 南京师范大学以东的居民区
距离关系+单一属性 距离学则路地铁站500 m的餐馆
拓扑关系+方位关系+单一属性 南京师范大学东区的学生公寓
方位关系+距离关系+单一属性 仙林湾以东500 m的地铁站
拓扑关系+距离关系+单一属性 鼓楼医院周边500 m的超市
拓扑关系+复合属性 南京师范大学内超过6层的建筑
方位关系+复合属性 南京师范大学以东的大型超市
距离关系+复合属性 学则路地铁站附近价格便宜的餐馆
拓扑关系+方位关系+复合属性 文苑路以东与其相交的主干道路
方位关系+距离关系+复合属性 金鹰天地以东1 km内最高的建筑
拓扑关系+距离关系+复合属性 学则路地铁站周边500 m的连锁酒店
拓扑关系+方位关系+距离关系+单一属性 苏果超市以东200 m与其邻近的饭店
拓扑关系+方位关系+距离关系+复合属性 苏果超市以东200 m与其邻近的面积最大的饭店
顾及地理实体的地名信息检索与基于关键词的检索首要的区别在于检索形式,即检索输入内容的突破,改变了仅以一元地名的属性关键词作为检索条件的现状,增加了对二元地名之间空间关系检索的支持。
根据检索模式的定义,结合地理实体和地名的要素特征,对顾及地理实体的地名信息检索模式进行结构化表达,如式(1)所示。
T = < D DR : GT , DG : GT , D P , f d p , D S , f d s , DR , DG > 二元对象 < D DG : GT , D P , f d p > 一元对象 (1)
式中,一元对象是指基于属性特征的地名检索,二元对象是指基于空间关系的地名检索。 D 为检索对象集合,在本文中 D ={地理实体,地名}, DR 为参照对象, DG 为目标对象,二者满足 DR D , DG D GT 为实体的几何类型,在本文中包括点、线、面3种形式,分别表示为PT、LN、PL。
D P 为属性特征定义域,也就是检索条件中的属性概念集合,即 D P ={Name,Type,…}。属性概念集合中的元素被表达为 d p f d p 为属性特征的值域,指具体的属性约束条件。
D S 为空间关系类型定义域,即检索条件中的空间关系概念集合, d s 为集合中所包含的空间关系子类。 f d s , DR , DG 为空间关系判断函数,例如,当参照对象与目标对象的空间关系为包含时,则空间关系判断函数为 f Contain , DR , DG = O DR O DG =1( O DR DR 的空间范围, O DG DG 的空间范围)。空间关系大类包括拓扑、方位和距离3种,本文根据地名信息检索的应用需求来明确空间关系概念集合见表2
Tab.2 Concept set of spatial relationship

表2 空间关系概念集合

空间关系大类 空间关系子类
拓扑关系 相交、包含、相等、相接、相离
方位关系 内方位(东、西、南、北、东北、西北、东南、西南)、外方位(同内方位)
距离关系 精确距离(单位:m、km等)
运用结构化方式能实现对检索模式的规范化描述和检索特征的提取。在该检索模式中,地理实体被定义为地名信息检索的基础对象,而地理实体的属性特征和空间关系组成了检索的特征项,为检索模型的研究提供了基础和方向。

3 基于地理实体相似度计算的地名 信息检索模型

3.1 检索模型描述

依托顾及地理实体的地名信息检索模式,本文提出了基于地理实体相似度计算的地名信息检索模型。该检索模型通过属性相似度和空间关系相似度的计算来获取地理实体相似度,从而判断检索条件和检索对象之间的相关程度,并以相关程度对检索结果进行排序。本文中基于地理实体相似度计算的地名信息检索模型被定义为一个四元组P,如式(2)所示。
P = < q , d , f , r > (2)
式中, q 检索条件特征; d 检索对象特征; f 为计算检索条件和检索对象之间相似程度的函数,即计算地理实体相似度的函数; r 为检索结果。
根据检索模式,顾及地理实体的地名信息检索可简化为2种形式:目标地名属性特征项;参照地名属性特征项+目标地名属性特征项+空间关系。后者参照地名对象对基于空间关系的地名信息检索准确度影响较大,本文将其纳入检索模型中,区别于基于关键词的地名检索中仅计算目标对象的相似度。综上所述,地理实体相似度计算函数如式(3)所示。
Sim _ EP ( q , d ) = Sim _ P q , d 基于属性特征地名检索 W 1 × Sim _ P r ( q , d ) + W 2 × Sim _ P g ( q , d ) + W 3 × Sim _ S ( q , d ) 基于空间关系地名检索 (3)
式中, Sim _ P q , d 为属性相似度; S im _ S ( q , d ) 为空间关系相似度; Sim _ P r ( q , d ) 为参照地名的属性相似度; Sim _ P g ( q , d ) 为目标地名的属性相似度; W 1 W 2 W 3 为归一化权重系数。
基于属性特征的地名信息检索仅将属性相似度作为 q d 的地理实体相似度;而当基于空间关系进行地名信息检索时, q d 之间的地理实体相似度由参照地名属性相似度、目标地名属性相似度和空间关系相似度决定[13-14],属性相似度和空间关系相似度的权值相同均为0.5,即 W 1 + W 2 = W 3 =0.5。参照地名和目标地名的属性相似度在本文中重要度相同,即 W 1 = W 2 =0.25。

3.2 地理实体相似度计算

3.2.1 属性相似度计算
属性相似度计算包括文本型属性相似度计算和数值型属性相似度计算2部分。以文本字符来描述和表达的属性为文本型属性,如名称、类型等。本文采用向量空间模型来进行文本型属性相似度的计算,权重计算采用TF-IDF方案确定。以数值形式来描述的属性为数值型属性,如面积、高度等。在地名信息检索中,分为精确性属性和范围性属性,例如,“限速为40 km/h的道路”为精确性属性值的检索,“高度大于20 m的建筑”为范围性属性值的检索。本文通过对数值属性检索条件设定误差阈值,将二者统一归纳到范围性属性检索范围中,当目标地名对象的属性值在约束的数值范围内则认为该目标地名对象满足检索条件。因此,数值型属性相似度计算函数为:
Sim _ N ( q , d ) = 0 P n ( λ i - ε , λ j + ε ) 1 P n ( λ i - ε , λ j + ε ) (4)
式中, P n 为检索属性的数值条件; λ i , λ j 为检索条件中数值型属性检索条件的左右边界; ε 为误差系数,本文将其设定为数值检索条件右边界值的0.1。
在基于属性特征对地名进行检索时,当检索条件仅包含文本型属性时,属性相似度即为文本型属性相似度;当检索条件包含文本型属性和数值型属性时,属性相似度为二者的平均。一般情况下,不会出现单独以数值型属性进行检索,至少以名称或类型等文本型属性进行辅助,因此属性相似度的计算函数为:
Sim _ P ( q , d ) = Sim _ T q , d 仅包含文本型属性 ( Sim _ T ( q , d ) + Sim _ N ( q , d ) ) / 2 包含文本型属性和数值型属性 (5)
式中, Sim _ T q , d 为文本型属性相似度; Sim _ N ( q , d ) 为数值型属性相似度。
3.2.2 空间关系相似度计算
从表达的角度,可将地理对象之间的空间关系分为定量空间关系和定性空间关系,定性空间关系更符合人类以概念化和自然语言的形式进行认知、表达、使用和推理地理空间知识的习惯[15],但是定性的空间关系在实现空间关系相似度的排序上稍显困难,而定量的空间关系能够弥补这一不足。根据地理学的基本规律:距离衰减律,即两地物之间的距离越近,空间上的联系越密切[16],在相同的空间关系下,用户对检索目标的选择一般是由近及远的,本文引入定量的距离因子参与空间关系相似度的计算。空间关系相似度计算函数定义为:
Sim _ S ( q , d ) = W S × ( i = 1 n Sim _ base ( q , d ) / n ) (6)
式中, Sim _ base ( q , d ) 为空间关系因子; W S 为距离参数; n 为检索条件所包含的空间关系类型的数量。通过 Sim _ base ( q , d ) 来进行基础空间关系相似度的判断并筛选目标地物。若检索条件中包含多个空间关系条件,则取所有空间关系因子的平均值参与空间关系相似度计算。 S im _ base ( q , d ) 的计算公式为:
Sim _ base ( q , d ) = Sim _ Topo ( q , d ) Sim _ Dir ( q , d ) Sim _ Dis ( q , d ) (7)
式中, Sim _ Topo ( q , d ) 为拓扑关系相似度; Sim _ Dir ( q , d ) 为方位关系相似度; Sim _ Dis ( q , d ) 为距离关系相似度,值域均为[0,1]。距离因子 W S 的计算公式为:
W S = 1 - dis tan ce ( d i , d j ) / ( max ( dis tan ce d i , d j ) + θ ) (8)
式中, dis tan ce ( d i , d j ) 为参照地名与目标地名的距离参数; max ( dis tan ce d i , d j ) 为结果集合中参照地名与目标地名之间的最大距离; θ 为修正系数,本文取值为1,距离值采用欧式距离来计算。
(1)拓扑关系相似度计算
拓扑关系是表达地理空间结构中最基础的空间关系,Bruns和Egenhofer于1996年提出了拓扑关系概念邻域图和区域间拓扑关系概念邻近的差异矩阵[17],以此为基础的拓扑关系相似度计算方法应用最为广泛。本文依据拓扑关系概念邻近的差异矩阵,并结合检索模式和地名信息检索的领域特征,设计了拓扑关系相似矩阵。
根据表3可知,本文所设计的拓扑关系相似矩阵是非对称性的,这与普通的拓扑关系概念邻近差异矩阵有所不同,因为在地名信息检索中,2个拓扑关系类型在面对不同拓扑检索条件时具有不同的相似程度。例如,相离关系检索的应用场景是“附近检索”,因此相接、相交等空间关系均满足该检索条件,在该场景中相离与相接、相交存在相似关系,而当用户进行道路、河流等相交检索时,相离、包含等空间关系难以满足该检索条件,在该场景中相交与相离、包含不存在相似关系。总之,以拓扑关系概念邻域图为基础,顾及地理实体拓扑关系的地名信息检索具有一定的向下关联性,即检索顶层的相离关系时,底层的拓扑关系与其相似程度较高,反之,相似程度较低。
Tab.3 Similaritymatrix of topology relationship

表3 拓扑关系相似矩阵

检索条件 目标条件
相离 相接 相交 相等 包含 被包含
相离 1 0.50 0.50 0.50 0 0
相接 0 1 0.50 0.25 0.25 0.25
相交 0 0.50 1 0.50 0.25 0.25
相等 0 0 0 1 0.50 0.50
包含 0 0 0 0.50 1 0
被包含 0 0 0 0.50 0 1
根据拓扑关系相似矩阵,本文将拓扑关系相似度计算函数定义为:
Sim _ Topo ( q , d ) = 0 拓扑关系不一致 α 拓扑关系相似 1 拓扑关系一致 (9)
式中, α 的值由拓扑关系相似矩阵确定。
(2)方位关系相似度计算
基于方位矩阵关系模型Goyal于2000年提出了空间方位距离的概念,以概念格网对不同的空间方位进行划分,将目标方位转化为另一方位所移动的最短距离称为概念邻近距离,并形成基于4-邻域的方位距离矩阵[18-19]。本文借鉴方位距离矩阵,设计了方位关系的相似矩阵。
通过表4给出的方位关系相似矩阵可看出,在顾及地理实体的地名信息检索中,方位关系相似度计算方法与常规的方位相似度计算方法有所区别,方位之间的差异区分度更加明显。以四方位模型为基准,位于同一方向层次上的方位类型具备相似性,而与其他方向层次的方位类型不相似。例如,以方位类型“东”作为检索条件时,“东南”、“东北”满足检索条件,与“东”具有相似关系,而“西”、“南”、“北”等方位类型则与“东”不具备相似关系,这种计算方法能有效提高检索结果的过滤能力,保证检索结果的准确性。
Tab.4 Similaritymatrix of direction relationship

表4 方位关系相似矩阵

方位关系 N NE E SE S SW W NW O
N 1 0.50 0 0 0 0 0 0.50 0.50
NE 0.50 1 0.50 0.25 0 0 0 0.25 0.25
E 0 0.50 1 0.50 0 0 0 0 0.50
SE 0 0.25 0.50 1 0.50 0.25 0 0 0.25
S 0 0 0 0.50 1 0.50 0 0 0.50
SW 0 0 0 0.25 0.50 1 0.50 0.25 0.25
W 0 0 0 0 0 0.50 1 0.50 0.50
NW 0.50 0.25 0 0 0 0.25 0.50 1 0.25
O 0.50 0.25 0.50 0.25 0.50 0.25 0.50 0.25 1
根据方位关系相似矩阵,方位关系相似度计算方法与拓扑关系相似度计算方法相同。
(3)距离关系相似度计算
本文将距离参数作为空间关系相似度的影响因子,参与最终的相似度计算,而在进行基于距离关系的地名检索时,首先以二元取值模型来进行距离关系相似度的计算,完成基于距离关系的检索目标筛选,距离关系相似度的计算函数为:
Sim _ Dis ( q , d ) = 0 d ( d i - ε , d j + ε ) 1 d ( d i - ε , d j + ε ) (10)
式中, d i d j 是空间距离参数的约束左右边界值; ε 为误差系数,本文取距离右边界值的0.1。对于定量的距离关系,无论是精确的距离值还是距离范围,依照数值型属性相似度计算方法将其表达到一定的距离范围中,当目标地名对象与参照地名对象之间的距离在该范围内,结果为1,否则为0。

4 实验验证

根据顾及地理实体的地名信息检索模式和检索模型,基于开放搜索引擎工具包Lucene为框架构建了实验原型系统,以南京市某区域的地理实体数据和地名数据为实验数据对顾及地理实体的地名信息检索方法进行验证。实验区面积总计为41.6 km2,数据量为61 MB,要素图层包含居民地、道路、水系、政区、院落、地名和兴趣点;要素几何类型包含点、线、面3种。实验选择几组比较有代表性的检索范例来进行实验,所设计的实验范例在很大程度上表现了顾及地理实体的地名信息检索与基于关键词的地名信息检索的区别,同时以该实验数据为基础,设计基于SQL的空间查询方法作为对比实验。实验统计出检索结果数,并通过人工判读及用户评价来获得检索结果的正确个数和检索数据中实际正确结果数,通过计算出检索方法的查全率、查准率和F值,来判断检索方法的可行性和检索质量,并与基于SQL的空间查询方法进行对比。
根据表5的统计结果,本文所提出的地名信息检索方法能实现基于属性特征和空间关系的地名信息检索,其查全率和查准率基本都保持在90%以上,F值也相对较高,检索质量优良。对比发现,本文的检索方法在查全率上明显优于对比实验的检索方法,查准率相当,整体检索质量F值优于对比实验。同时,顾及地理实体的地名信息检索最为明显的特点在于顾及了实体的空间特征,无论是从检索的输入形式还是输出形式均表现出实体化的特点,突出了实体间的关联性。本文以“南京师范大学东区的学生公寓”为例来对检索结果进行详细说明。
Tab. 5 Quality evaluation of experiment results

表5 实验结果检索质量评价

检索条件 本文的检索方法 基于SQL的空间查询方法
查全率(%) 查准率(%) F值 查全率(%) 查准率(%) F值
南京师范大学附近500 m的超市 95 94 0.945 70 100 0.824
南京师范大学东区的学生公寓 100 91 0.953 93 95.7 0.943
与文澜路相交的道路 100 100 1 91.7 100 0.956
学海路以西1 km的酒店 93.8 95.6 0.947 93.8 89.5 0.916
南京财经大学以南1 km的餐厅 94.2 98.5 0.963 87.1 92.1 0.895
仙林主干道 94.7 100 0.973 94.7 94.7 0.947
距离学则路2 km内的居民区 93.3 85.4 0.891 86.7 92.1 0.893
该检索请求中参照地名对象“南京师范大学”与目标对象“学生公寓”具有拓扑上的包含关系,同时以内方位关系来进行更精细的空间约束。通过检索结果(图1)可看出,本文所提出的检索方法能挖掘出实体间整体与部分的层次关系,为更加精细和微观层次上的检索提供了支持。本文将参照对象和目标对象统一纳入到检索模型中,既提高了检索结果的准确度同时也丰富了结果的表现形式,参照地名对象和目标地名对象以不同的形式进行渲染和表达,使用户对该检索结果的含义一目了然。因此,在地理实体数据的支持下,地名信息检索更加丰富和多样化,它所表现的地名对象和地理实体对象与现实对象模型契合度更高,以此为基础进行空间信息和属性信息检索更加准确和全面。
Fig.1 Retrieval result of “the student apartments in the east of Nanjing Normal University”

图1 “南京师范大学东区的学生公寓”检索结果

5 结语

在当前的在线电子地图平台中,地名信息检索主要以基于关键词的检索为主,这种检索方式及方法无法满足用户对地名空间信息的需求,也难以实现智能化和精细化的需求。本文从检索对象的角度出发,通过分析地理实体和地名的特征和关系,提出融合地理实体和地名来构建检索模式。依据检索模式提出了基于地理实体相似度计算的检索模型,地理实体相似度是由属性相似度和空间关系相似度线性组合而成。与传统的检索模型相比,本文所提出的检索模型更突出地名信息检索的应用特征,尤其在空间关系相似度计算中实现了定性筛选和定量排序的结合,在保证检索效率的同时提高了检索结果的区分度和准确度。地理实体包含的特征信息非常丰富,目前本文仅选取了属性特征和空间关系作为顾及地理实体的地名信息检索条件,而对于地理实体所包含的时间信息、语义信息等尚未涉及,这是实现地名信息检索智能化和垂直化的必要步骤,也是下一步研究的重点。

The authors have declared that no competing interests exist.

[1]
曾文,鄢军霞.城市GIS地名定位工具的设计及应用[J].地球科学:中国地质大学学报,2006,31(5):725-728.为了满足城市GIS中高效查询、规划设计、应急处理及社会化服务的应用需求,采用地名数据库、管理及搜索引擎、维护及搜索工具三层架构,设计和实现了一个 通用的城市GIS地名定位工具.该定位工具兼顾点状要素和区域范围,提供建库、维护、搜索、移图等功能,支持快速模糊匹配.结果表明:城市地名数据库便于 建立和更新,不仅使UGIS系统能快速将关注区域移动到指定地点,还是一种要素类的表达方式,可以为高级的查询和分析提供数据基础.

DOI

[2]
冯克忠,万庆,励惠国.多语言地名查询软件的设计[J].地球信息科学,2001,3(3):18-23.本课题为中日 GIS合作项目中的一个组成部分。软件设计的主要目的在于完成多目标地名查询 ;更进一步的应用是将来在 Clearing House(数据交易所 ,即互联网上的空间数据交换网站 )中 ,构成网站内有地图数据检知的底层基础。

DOI

[3]
朱擎量,吴健平.多元分词技术和全文检索技术在GIS地址定位中的应用[J].测绘与空间地理信息,2011,34(5):191-194.针对计算机进行GIS中文地址匹配困难的问题,提出了以词库为基础,采用中文分词算法和全文检索技术,确定中文语句和目标的相似性,并设计具体的推理方法,最终实现地名匹配并在地图上显示查询信息。

DOI

[4]
刘瑜,张毅,田原,等.广义地名及其本体研究[J].地理与地理信息科学,2008,23(6):1-7.提出广义地名的概念(指可以与 地球表面特定位置或范围相关联的一段文本),基于广义地名组织的文本形式的空间信息通常更符合人们对于地理空间知识的表达。探讨广义地名的本体,并给出相 应的概念模型和逻辑模型,从而有助于广义地名数据库以及智能化广义地名服务的实现。该研究主要从广义地名的发生学、描述对象、地理范围、信息团体和语境引 起的二义性等方面描述广义地名本体,并用UML语言建立便于在信息系统中实现的逻辑模型。

DOI

[5]
陈凯晨,林星,袁一泓,等.数字地名词典中的类型表达和管理[J].地理与地理信息科学,2009,25(5):6-11.在数字地名词典中恰当地表达和 管理地名的类型知识,有助于数字地名词典快速、有效地处理地名相关查询。为此,该文首先从数字地名词典的应用需求出发,分析类型在数字地名词典中的作用, 进而设计一个地名类型本体模型。该模型表达了地名类型之间的继承关系以及对空间关系的约束。在本体模型基础上,提出了相应的查询处理策略并进行了系统实 现。

[6]
梁汝鹏,李文娟,李勤超,等.基于语义网的地名本体服务框架研究[J].测绘科学,2011,36(3):230-233.本文在总结地名本体的基本概念基础上,根据基于地理空间语义网的日常地理信息查询需要,进行 了地名本体的概念设计。地名本体的设计可以分为两个阶段,第一阶段主要偏重于初级本体的设计,它主要支持地理对象的标示和检索等较为初级的任务。第二阶段 将支持更多高级的任务,例如空间推理等。本文通过地名本体模型的构建,探讨了基于语义网的地名本体服务框架的设计与地名本体检索服务发布等工作,并总结了 实现空间要素数据组织与关系表达的途径。

[7]
梁汝鹏. 面向地名本体服务的空间信息检索研究[D].郑州:信息工程大学,2010.

[8]
Martins B, Silva M J, Andrade L.Indexing and ranking in Geo-IR systems[C]. Proceedings of the 2005 workshop on Geographic information retrieval, ACM, 2005:31-34.

[9]
Bordogna G, Ghisalberti G, Psaila G.Geographic information retrieval: Modeling uncertainty of user's context[J]. Fuzzy Sets and Systems, 2012,196:105-124.Geographic information retrieval (GIR) is nowadays a hot research issue that involves the management of uncertainty and imprecision and the modeling of user preferences and context. Indexing the geographic content of documents implies dealing with the ambiguity, synonymy and homonymy of geographic names in texts. On the other side, the evaluation of queries specifying both content based conditions and spatial conditions on documents’ contents requires representing the vagueness and context dependency of spatial conditions and the personal user's preferences. The spatial condition can be specified linguistically in the query through vague terms such as “close to the North East of Milan’’, whose semantic depends on the user's context and perception of distance. Further, users may want to express queries in which the content condition and the spatial condition have a distinct preference and are combined with a distinct semantics. In this paper, we propose a geographic information retrieval model and a system implementing it that represents both the uncertainty in indexing the geographic documents’ content and the user's context and preferences in evaluating flexible spatial queries. It extracts the geographic content from documents’ text by applying heuristic knowledge coded by bipolar rules which evaluate positive hints and negative hints for the recognition of geographic names in text. Thus, it represents the geographic content of documents by fuzzy footprints, i.e., distinct locations on the earth associated with the text with a distinct degree of significance. Finally, the system allows evaluating two types of queries flexibly combining the content based condition with the spatial condition. The spatial condition is interpreted as the soft constraint “close’’ on the user's perceived distance between the documents’ footprint and query's footprint. For each retrieved document, two relevance scores are computed with respect to the two query conditions that are flexibly combined to generate an overall ranked list of documents. The user can choose the semantic for the combination that can be either an asymmetric “’’ aggregation between the mandatory content condition and the optional spatial condition, or a compensative “’’ aggregation, defined

DOI

[10]
Henrich A, Lüdecke V.Measuring similarity of geographic regions for geographic information retrieval[M]. Springer, 2009:781-785.

[11]
Overell S, Magalhaes J, Ruger S.GIR experiments with Forostar[M].Springer, 2008:856-863.

[12]
国家测绘地理信息局.CH9010-2011,地理信息公共服务平台地理实体与地名地址数据规范[S]. 2011.

[13]
Cardoso N, Cruz D, Chaves M, et al.Using geographic signatures as query and document scopes in geographic IR[M]. Springer, 2008:802-810.

[14]
刘磊,高勇,林星,等.定性地理信息检索方法及其实现[J].北京大学学报:自然科学版,2013,49(6):1017-1024.针对当前定量化的地理信息检索模型无法有效处理自然语义导致检索结果不理想的问题,以语义匹配为原则,以定性表达为基础,以推理方法为手段,提出基于定性 空间推理的定性地理信息检索的方法及其形式化模型,实现Web文档信息内容与查询请求的定性表达和信息提取,支持基于语义的检索匹配和结果排序,并进行原 型系统的实验验证.这种定性检索方法符合人类常识性认知和表述习惯的方式,基于定性知识表达和推理决策技术的地理信息检索问题解决方法可以提高现代地理信 息检索技术的有效性.

[15]
任克江,张绍武,林鸿飞.地理信息检索中基于文档地名感知的排序方法[J].北京大学学报:自然科学版,2013,49(2):219-226.为了降低与主题不相关的地名对地理相关性产生的负面影响,提出一 种基于文档地名感知的排序方法.该方法不确定文档的地理范围,而是分别计算文档中出现的每个地名与查询范围的相关性,以减小文档中不相关地名对检索结果的 影响.实验表明,基于文档地名感知的方法的检索效果优于确定最小边界矩形的方法和基于tf-idf的方法.

[16]
胡兆量. 地理学基本规律及其对社会发展的影响[J].地球科学进展,1991,6(6):9-13.地理学是自然科学与社会科学的汇合,是一门独立科学,有特定的功能和演变规律。地理学的基本规律包括有地域分异规律、地域综合规律和地域发展规律等。研究地理学的基本规律有助于认识许多复杂的历史事件和社会活动,对构建社会建设的总体思想和区域发展战略有重要指导意义。

[17]
Bruns T, Egebhofer M J. Similarity of spatial scenes[C].Seventh International Symposium on Spatial Data Handling, Delft, the Netherlands,1996:31-42.

[18]
Goyal R, Egenhofer M J.The direction-relation matrix: A representation for directions relations between extended spatial objects[J]. The annual assembly and the summer retreat of University Consortium for Geographic Information Systems Science, 1997,15:22-81.Cardinal directions are an important component of spatial relations, complement- ing topological relations and approximate distances as qualitative representations of space. They are frequently used as a selection criterion in spatial queries and for as- sessing similarities of spatial scenes. Past research in geographic information science has focused on the representation of cardinal directions, such as North and North-East, in quadrants or as cone-shaped partitions. Such models for cardinal directions are use- ful for point-like objects; however, they are insufficient for extended objects, such as regions and lines, because they make cognitively implausible inferences. To repre- sent such situations more appropriately, the Direction-Relation Matrix is introduced. It records for a reference object into which direction partitions an extended target object falls and offers, at a finer level of granularity, the option to record how much of the object falls into each direction partition. This multi-resolution representation provides an improved approximation for direction relations of complexly structured spatial ob- jects, including such shapes as concave regions or objects with holes. A significant ad- vantage over other methods is that the popular, but often error-prone, approximation with minimum bounding rectangles is replaced by reference to the objects' actual geo- metric representations. This paper defines formally the Direction-Relation Matrix and demonstrates how it can be compared to determine direction-similar spatial scenes.

[19]
Goyal R, Egenhofer M J.Cardinal directions between extended spatial objects[J]. IEEE Transactions on Knowledge and Data Engineering, 2000:291-301.

文章导航

/