地理信息服务语义标注原理与关键技术及应用

  • 梁汝鹏 , 1 ,
  • 李宏伟 , 1, * ,
  • 马雷雷 1 ,
  • 李文娟 2
展开
  • 1. 信息工程大学地理空间信息学院, 郑州 450052
  • 2. 61175部队, 南京 210028
*通讯作者:李宏伟(1963-),男,山东诸城人,博士,教授,研究方向为地理信息服务、地理空间本体。E-mail:

作者简介:梁汝鹏(1985-),男,河南平顶山人,博士,讲师,研究方向为地理信息服务、空间语义理论与应用。E-mail:

收稿日期: 2014-11-04

  要求修回日期: 2014-12-31

  网络出版日期: 2015-04-10

基金资助

国家自然科学青年基金项目(41401463)

国家自然科学基金面上项目(41271392、41140012、40871183)

Research on the Principle and Technology of Geographical Information Service Semantic Annotation

  • LIANG Rupeng , 1 ,
  • LI Hongwei , 1, * ,
  • MA Leilei 1 ,
  • LI Wenjuan 2
Expand
  • 1. School of Surveying and Mapping, Information Engineering University, Zhengzhou 450052, China
  • 2. 61175 Troops, Nanjing 210028, China
*Corresponding author: LI Hongwei, E-mail:

Received date: 2014-11-04

  Request revised date: 2014-12-31

  Online published: 2015-04-10

Copyright

《地球信息科学学报》编辑部 所有

摘要

随着地理信息服务应用领域和受众群体的日益广泛,人们对地理信息服务的需求越来越多元化。一方面网络上注册和发布的地理信息服务的数量急剧增长;另一方面人们对如何高效发现兴趣服务、组合兴趣服务以满足兴趣需要却常感到困惑。当前,用户只能通过关键字搜索并结合空间过滤条件查询OGC(Open Geospatial Consortium)的目录服务,来发现所需的数据和服务。用户在受益于目录服务带来的资源搜索便捷的同时,经常受到查全率和查准率不高的困扰。面对日益庞大的服务群,如何自动、快速、准确地发现目标服务,成为影响地理信息服务进一步发展与应用的瓶颈。本文围绕地理信息服务语义标注原理方法与关键技术展开研究,通过引入信息检索技术和语义网技术、语义服务技术,从面向地理信息服务语义标注的本体建模、基于地理概念匹配的语义标注算法、融合相似性度量与包含性推理的语义匹配与服务发现,以及语义标注和服务匹配质量评价方法4个方面进行了深入研究。针对地理概念半自动语义标注新算法、地理信息服务语义发现与匹配方法、服务语义标注和服务匹配质量评价、应用试验等具体研究内容进行了实验设计,并给出了需解决的核心问题,为当前地理信息服务匹配方法提供了新思路。

本文引用格式

梁汝鹏 , 李宏伟 , 马雷雷 , 李文娟 . 地理信息服务语义标注原理与关键技术及应用[J]. 地球信息科学学报, 2015 , 17(4) : 408 -415 . DOI: 10.3724/SP.J.1047.2015.00408

Abstract

As the applications of geographic information services and a widespread of users expand, the demand for geographic information services becomes increasingly diverse. On one hand, the amount of registered and released geographic information services on the internet rises rapidly; on the other hand, people are confused about how to efficiently discover and combine interested services to satisfy their demands. However, benefiting from the convenience of geospatial resource search through keywords and combining spatial filtering conditions of WCS (Web Catalog Service), users still frequently encounter problems of low comprehension and precision. Facing an increasingly large group of services, how to find the target service automatically, quickly and accurately has become the bottleneck for further development and application of geographic information service. In order to solve this problem in geographical information service matching and discovery, the paper adopted the information retrieval technology, semantic web technology and semantic service technology to achieve a good approach. As a whole, four aspects are discussed in depth, including the semantic annotation algorithm based on the geographical concept matching, the strategy of service descriptions for SOA framework, the geospatial semantic similarity measurement model, and the integrated algorism of the geospatial semantic similarity measurement and the service semantic matching that based on subsumption reasoning. The article firstly introduces the geographic concept annotation of geo-ontology hierarchical model, and then introduces a new semi-automatic semantic annotation algorithm that is based on geographic concept matching and increases the annotation efficiency. Considering the application requirement of geographic information service discovery, this research illustrates a new geographic concept similarity measurement model according to the description logic, which sets up a foundation to solve the semantic service problem regarding to similarity measurement. By compromising the semantic service similarity measurement model and traditional subsumption reasoning engine, this research develops a new geographic information service discovery and matching method, which will increase the discovery and matching efficiency evidently. In the end, the article presents the necessity to build an evaluation index system to evaluate the resultant quality on both geographic information service semantic annotation and service discovery and matching. And an application framework for geographic information service is introduced, which integrates geographic information semantic service annotation, service registry, catalog management, and service matching and discovery all together. Through analysis of practical cases, the article provides useful new research ideas for improving current geographic information service matching methods.

1 引言

未来地理信息技术的发展将面向网络,实现信息共享与智能服务,并且以服务为中心的空间信息组织模式将成为趋势。地理空间智能服务是指通过整合计算资源、网络资源、存储资源在内的各种资源,依托云环境提高服务质量,并提供可视化环境来满足用户的需求。云环境下的地理信息服务,将是未来重要的发展趋势之一,目前商用的GIS软件也提供了云环境下的地理信息服务门户平台,例如,Super Map 7C与ArcGIS 10.3分别提供了面向私有云的地理信息Portal平台,但这些平台也仅提供了元数据的关键字检索方式。随着服务数量的不断庞大,以关键字为检索方式的查全率和查准率均较低,将无法满足智能服务的应用需求,云环境下地理信息服务门户的智能管理与组织的相关理论与技术研究也将日益迫切。
语义网的提出为我们解决这些问题提供了新思路[1]。语义网的重要目标之一就是解决信息爆炸时代的知识淹没问题,从网络的海量信息中提取目标信息,实现知识重构乃至知识服务,其核心依托之一是本体技术。为保证数据的无歧义理解和良好结构化表达,需要创建网络服务的清晰语义描述,实现词汇的形式化定义,完成服务语义描述和词汇形式化定义的关联,这就是语义标注。借鉴语义网的思想,Egenhofer率先提出了地理空间语义网的概念[2],为网络地理信息服务提供结构化、形式化的语义描述,研发地理信息服务语义标注方法,支持服务的语义交互,进而实现语义层次的服务发现、组合[3-5]。开展面向地理信息服务门户的语义标注关键技术及应用研究,对于网络地理信息服务的发现、集成,以及提高服务执行效率等有着十分重要的作用。

2 地理信息服务语义标注原理方法

服务语义标注研究立足于空间语义基础理论,把地理空间语义网技术应用作为研究的出发点,将传统的地理信息服务技术与新兴的语义服务技术相结合[6-8],建立地理信息语义服务及语义标注方法,并应用于地理空间信息服务处理中,提供更为智能化、自动化的地理信息服务发现、集成与触发策略。
表达地理空间语义的能力,对于建立地理空间语义网及其应用至关重要,可促进地理信息及其服务的语义发现与集成,同时支持地理信息服务新的应用领域拓展[9-10]。地理服务语义标注理论缺失,以及语义级的服务发现、集成、触发工具的缺乏,直接影响了地理信息服务的智能应用[11-14]。为此,本文针对面向自动空间信息处理的空间语义理论的研究专题,为解决服务的语义缺失问题需开展以下研究:(1)面向地理信息服务语义标注的本体建模;(2)地理信息服务语义标注算法;(3)地理信息服务语义匹配策略与算法;(4)地理信息服务语义标注和服务匹配质量评价方法等。

2.1 面向地理信息服务语义标注的本体建模

信息技术中本体为包含描述概念、实体和概念之间关系的形式化元组。本体描述了概念的属性信息、数量标准、不一致声明及不同实体之间的逻辑关系[8]。地理本体是实现空间语义描述的基础,研究实现地理本体构建的标准化流程,提供地理本体适用性的科学、完整的指标与评价体系,是地理本体及空间语义建模的关键[15]。地理本体建模方法复杂度的逐步降低,是空间语义数据大规模引入应用的前提条件。
目前,利用地理本体实现地理信息系统数据源间的交互技术还不成熟,且对地理本体中的分类体系与特定数据源中地理要素关联的方法与策略的研究还停留在理论探讨阶段[16],故有必要开发面向地理信息服务语义标注应用的地理本体概念模型与构建策略,实现地理信息服务标注构建的一致性和可重复性。为此,需要分析地理信息服务描述中语义标注的特定需求,并建立实现地理要素与标注涵义关联的技术方法。

2.2 地理信息服务语义标注方法

服务语义标注是地理信息语义服务实现的基础。地理信息网络中资源的语义标注包含多模式描述的地理信息,例如,文本、遥感图像、扫描地图、矢量数据、地理信息服务等,为此有学者提出了多模式空间语义标注的研究专题[17-19]
服务的自动发现、自动匹配以及自动组合,需要以语义标注数据为基础,因此,首先需建立地理信息服务语义标注方法。地理信息服务语义标注应解决3个核心问题:(1)半自动服务语义标注算法设计、优化与评价;(2)地理信息服务模型本体映射与语义标注工作流创建;(3)面向智能地理信息门户的OWS(OGC Web Service)服务与WSDL服务描述融合策略。

2.3 基于语义标注的地理信息服务匹配与发现

现今,网络上包含了大量的地理信息服务,例如,天地图就融合了多种类型的地理信息服务,这些服务遵循OGC的相关标准,国家测绘局也在各个分局展开天地图拓展应用试点。地理信息服务有着广泛的应用前景,但现阶段地理信息服务的发现与应用中存在发现困难、人工工作量大等一系列问题[20-21]
OGC提供了地理信息服务构建的一系列的规范,从而支持应用工具无缝集成。为保证与现有技术标准的兼容性,地理信息服务的语义标注设计须参照OGC通用服务规范和抽象模型,由此建立非语义服务描述与相应语义描述的关联。为实现地理信息服务语义模式的管理、匹配与发现需解决以下难点问题:(1)基于描述逻辑(Description Logic,DL)概念描述的空间语义相似性度量模型与算法;(2)地理概念相似性度量与包含性推理相结合的地理信息服务语义匹配与发现机制;(3)标准OGC目录与服务语义标注技术融合策略[22]

2.4 地理信息服务语义标注和服务匹配质量评价

地理信息服务语义标注作为一项正在发展中的技术,吸引着众多研究者的目光。其既需对前人的相关研究成果(如空间语义标注系统FrameNet和PropBank等)进行剖析,也要对服务语义标注方法在地理信息服务匹配、发现、融合中的作用进行评价。为此,需建立一套相对规范化的评价指标。可以着手从语义标注效率、目标服务匹配准确度(查准率、查全率)、地理概念语义层次、人类相似性认知、方法稳健性等方面建立评价指标。

3 地理信息服务语义标注关键技术

本文提出语义模式地理信息服务框架设计方案(图1),并设计了各个主要功能模块及其相互关系。
Fig. 1 Framework of geospatial information service based on semantic annotation

图1 基于语义标注的地理信息服务框架

(1)地理领域本体:包含了语义标注、服务目录、服务发现与集成模块中使用的本体资源。
(2)语义标注算法与工具:以地理概念匹配方法分析现有半结构化的地理信息服务描述,实现半自动的语义标注算法优化,构建相应的服务语义标注工具。同时,在目录组件中注册相关的标注内容,增加包含语义标注的服务数量。
(3)语义发现和集成组件:提供基础的语义网服务(Semantic Web Service,SWS)基础框架,获取语义描述的网络服务资源。由一组实现服务发现和集成的工具集组成,包含地理信息服务语义描述处理模块。
(4)语义目录服务:提供标准的OGC服务注册接口,作为存储传统的地理信息服务与非空间服务的入口,同时以插件模式实现语义模式的服务发现工具集成。
(5)应用环境:基于语义标注技术的服务匹配与发现工具,实现地理信息智能服务,并对其在智能交通动态信息共享服务中的应用开展研究与实验。

3.1 服务语义本体构建技术

为实现服务语义标注多应用领域的扩展,本体模型应支持开放的环境及不同应用的柔性适应,以及领域用户词汇的建模。传统本体工程化方法将生成涵盖领域知识的本体模型,其建模复杂度较高,耗费大量时间,这是由于概念数量庞大,在实际语义标注过程中可能会加大用户认知负担。复杂本体虽然可支持更为精确的推理过程,但创建与维护复杂本体模型带来的收益可能与其消耗并不对等,且与应用相关的服务语义标注,通常都是建立在较小的概念模型子集之上。
在利用传统的方法创建复杂领域本体基础上,为支持服务语义标注的多应用扩展,需要建立应用本体的简化方法。其中,词汇范围更狭窄,只反映应用的实际需求,即在服务语义标注过程中,本体仅包含网络服务数据模型的描述元素所需的概念。同时,需要设计工程化的本体构建方法,并建立本体评价与逻辑一致性检验策略,为语义标注的健壮性和容错性奠定基础。

3.2 半自动服务语义标注算法

手工实现大规模服务集合的语义标注工作量较大,为推动语义标注技术在更大范围和领域的应用,必须尝试通过新的技术和方法,实现自动或半自动的服务标注过程。由于自动的语义标注方法还不成熟,半自动语义标注在技术实现上更为可行(图2)。
Fig. 2 Process of semi-automatic semantic annotation

图2 半自动语义标注过程

语义标注构建的核心环节为概念的匹配过程,匹配效果决定了最终服务模型与领域本体映射的准确度。半自动语义标注构建过程中,概念术语匹配技术是算法实现的基石,实现概念匹配算法包含3个关键步骤:(1)为每个概念术语分配相应的文档集合,这一过程也称之为利用文档集合对概念术语进行初步训练;(2)文档转换为BOW(Bag-of-words,词汇包)模型表达形式,并将概念术语的相关度估计传递到BOW空间(也称之为向量空间、语义空间);(3)训练用于区分概念术语的分类器(Classifier),以BOW模型描述的新概念术语可以利用关联文档进行初步训练,并传递到分类器中(分类器具备判断该新术语与各个分类器训练集术语相关性程度的能力),由此获取相关程度最高的概念队列与三元组队列。
以上是对概念匹配半自动语义标注经典基线算法高层次的描述,而没有描述算法实现的细节。概念术语匹配的半自动语义标注算法包含以下核心问题(图3):(1)搜索引擎如何实现描述本体概念术语标签的初步训练、保留搜索结果的数量,以及如何从搜索引擎结果中为概念术语的构建初步训练文档;(2)如何将概念术语分配的训练集文本文档转换为BOW向量形式;(3)对分类器的选择;(4)如何将用户查询转换为一组BOW向量描述的测试集。
Fig. 3 Algorithms of semi-automatic semantic annotation

图3 半自动语义标注算法示意图

通用的概念匹配的语义标注经典算法中,没有考虑本体实体之间的内部关联关系,针对这一问题,领域本体可以描述为概念图结构,图的顶点代表实体,而图的边则描述了概念之间的关系。本文引入PageRank算法,利用地理本体概念图结构属性,实现对现有语义标注算法的优化,并设计服务语义标注抽象模型与标注工作流,提高语义标注的自动化程度。
为建立优化的半自动语义标注优化算法,通过剖析已有相关语义标注工具和地理概念匹配方法,本文融合PageRank算法,设计了顾及地理概念图结构属性的半自动语义标注算法,实现机器辅助的半自动服务语义标注[23]。该方法的难点:(1)地理领域本体中地理概念的图结构转化;(2)地理领域本体中三元组的图结构转换;(3)获取推荐的地理概念队列和三元队列优先序排队机制。
本文的解决思路是:在建立的地理本体层次模型基础上,创建实现标注的地理概念队列和领域-关系-范围三元组队列,通过自然语言查询,获取推荐的地理概念队列和三元组队列,并经过人工干预,辅助地理信息服务语义标注(图3)。

3.3 语义匹配算法

按照目录服务规范定义的查询机制,可以构建包含属性(关键词)与空间过滤条件(使用OGC规范空间操作符定义)的服务发现模式。关键词的服务发现是实现服务匹配最基本的方法,建立在简单的术语匹配与标准的信息检索方法基础上。通过一组关键词基础查询作为输入,计算输入的关键词与服务描述中包含的关键词的匹配度。对于发现匹配的注册服务,关键词必须在语法层次完全相同。这种以关键词的服务匹配效果受2个条件限制:(1)自然语言的模糊性;(2)缺乏语义信息,单纯依赖于语法层次的匹配,服务发现的准确率和召回率均较低,影响匹配的效果。
为实现语义标注的地理信息服务应用,需要建立支持语义模式服务发现的目录集成环境,即语义目录。更准确的说,语义目录支持地理空间信息服务的注册,并提供了服务智能发现功能,支持服务语义检索。这些取决于服务和请求的建模方式,以及从服务中获得的信息与服务描述在发现过程中的使用方式,服务发现可按照不同的方式实现。语义目录利用服务与请求的语义描述,依据空间语义相似性度量与包含关系推理确定两者之间的匹配程度。因此,需要在服务语义描述的表达能力与服务匹配算法复杂度间寻找平衡。
为优化关键字服务匹配方法,本文通过分析现有实现服务查询包含推理的方法,同时基于空间语义相似性度量模型,设计服务语义标注信息的空间概念相似性度量方法,并结合IRIS包含性推理引擎探索混合模式的服务匹配策略,实现地理信息服务语义匹配与发现,有效地提高了服务发现效率。
通过融合语义相似性度量模型与传统包含推理,本文建立混合模式的服务语义匹配方法,由此确定服务和语义查询匹配度,达成服务语义匹配与发现。该方法的难点是:(1)如何获得服务语义的逻辑描述,并以服务语义描述计算查询目标与服务集合的语义距离;(2)如何将服务语义的逻辑描述转换为OGC语义目录的查询格式,并输入包含性推理机,从而达成空间语义相似性度量模型与包含性推理的融合。本文的解决思路:首先,获取WSML格式的服务输入和输出的语义标注信息,由此获得服务语义的逻辑描述;其次,利用语义相似性度量算法,计算查询目标与服务集的语义距离;然后,将服务语义的逻辑描述通过WSML2Reasoner推理机转换为地理信息服务的查询式;最后,一旦获取网络服务描述和查询目标对应的查询式以及相应服务语义标注的WSML-DL描述格式,即可直接实现查询的包含性推理,完成服务匹配与发现(图4)。
Fig. 4 Workflow of service semantic matching and discovery based on the composite mode

图4 基于混合模式的服务语义匹配与发现工作流程

3.4 语义标注和服务匹配质量评价方法

本文的解决思路是利用明斯特大学语义交互实验室发布的WFS实验服务集,其中包含算法评价需要的地理领域本体、手工实现的WFS服务语义标注测试集。由此,可通过对比不同语义标注算法获取的与用户查询相关的地理概念集合中符合金标准的语义标注集的百分比,实现算法效果“度量”,并通过感受性曲线(Receiver Operating Characteristic,ROC)(图5)实现算法生成的推荐队列的效果评价,并从语义标注效率、目标服务匹配准确度(查准率、查全率)、地理概念语义层次、人类相似性认知、方法稳健性等方面着手,建立相对统一、完善的质量评价指标。
Fig. 5 Basic characteristic of ROC curve

图5 ROC曲线的基本性质

3.5 应用实验

在基于语义标注的地理信息服务框架基础上,本文设计了具体的语义支持的智能交通信息发布与共享实验系统,分为基础框架层、语义层、服务层、应用层(图6)。其研究的难点是:(1)特定应用案例的需求分析;(2)系统功能集成的具体技术实现策略;(3)系统集成实验环境的搭建。
Fig. 6 Application of geospatial information service based on semantic annotation

图6 地理信息服务语义标注应用实验

本文以道路交通为例建立应用系统:(1)利用获取的第三方开源软件搭建实验环境;(2)解决应用系统基础内容组织和管理问题,包括道路交通信息服务注册与管理、服务语义匹配与发现接口、服务发布策略的确定、道路交通信息的处理等;(3)实现半自动服务语义描述与标注,包括道路交通信息服务,以及用于标注的本体资源的一体化管理及服务语义标注;(4)基于Liferay Portal开源门户网站平台,进行应用实验系统服务门户开发,借助OGC目录服务语义接口,实现道路交通信息服务语义搜索、发现和匹配;(5)实现系统中道路交通服务信息的融合和集成发布。
实验原型系统(图7)目标,是实现智能交通动态信息共享,从时间、空间2个维度描述交通动态监测信息及其演化过程。针对智能交通信息监测定量化、空间化与动态可视化的应用需求,首先,需建立语义标注的地理信息智能服务门户,作为智能交通动态信息服务共享与集成的基础框架;其次,以地理信息智能服务门户为平台,实现智能交通动态信息服务发布;最后,建立语义支持的智能交通动态信息共享服务实验,实现智能交通动态监测信息,在网络环境下的查询、共享与集成。
Fig. 7 Main functions of the experimental prototype system

图7 实验原型系统主要功能

4 结语

地理信息服务语义标注具有重要的研究价值,目前,阶段语义服务的研究虽多在理论探索阶段,实质性的应用还不多,但通过地理信息服务语义标注关键技术的研究,可有效地提高地理信息服务的匹配、可靠性、自动交互等,不断发掘其潜在的应用价值。

The authors have declared that no competing interests exist.

[1]
Berners-Lee T, Hendler J, Lassila O.The semantic web[J]. Scientific American, 2001,184(5):34-43.

[2]
Egenhofer M.Toward the semantic geospatial web[C]. Geographic Information Science Second International Conference, 2002:70-85.

[3]
Comber A, Fisher P.Semantics, metadata, geographical information and users[J]. Transactions in GIS, 2008,12(3):287-291.

[4]
Fensel D, Bussler C.The web service modeling framework[J]. Electronic Commerce Research and Applications, 2002,1(2):113-137.

[5]
Fensel D, Kerrigan M, Zaremba M.Implementing semantic web services: The SESA framework[M]. Berlin: Springer Berlin Heidelberg, 2011:1-20.

[6]
Claramunt C, Levashkin S, Bertolotto M.GeoSpatial semantics[M]. Heidelberg: Springer-Verlag Berlin, 2011:5-23.

[7]
Scharl A, Tochtermann K.The geospatial web[M]. Springer, 2011:1-5.

[8]
Ashish N, Sheth A P.Geospatial semantics and the semantic web: Foundations, algorithms, and applications[M]. London: Springer, 2011:4-12.

[9]
Reitsma F, Laxton J, Ballard S, et al.Semantics, ontologies and eScience for the geosciences[J]. Computers & Geosciences, 2009,35(4):706-709.

[10]
Comber A J, Fisher P F.Semantics, metadata, geographical information and users[J]. Transactions in GIS, 2008,12(3):287-291.

[11]
乐鹏. 语义支持的空间信息智能服务关键技术研究[D].武汉:武汉大学, 2007.

[12]
陈科. 语义支持的空间信息服务组合关键技术研究[D].郑州:解放军信息工程大学, 2012.

[13]
葛文. 地理信息服务发现方法研究[D].郑州:解放军信息工程大学, 2011.

[14]
武昊. 地表覆盖变化信息Web服务模型与方法研究[D], 武汉:武汉大学博士学位论文, 2012.

[15]
McIlraith S A, Son T C, Zeng H L. Semantic web services[J]. IEEE Intelligent Systems, 2001,32(4):46-53.

[16]
Zhao P S, Di L P, Yu G N, et al.Semantic Web-based geospatial knowledge transformation[J]. Computers & Geosciences, 2009,35(4):798-808.

[17]
Zhang C R, Zhao T, Li W D.Towards logic-based geospatial feature discovery and integration using web feature service and geospatial semantic web[J]. International Journal of Geographical Information Science, 2010,24(6):903-923.

[18]
Lutz M, Klien E.Ontology based retrieval of geographic information[J]. International Journal of Geographical Information Science, 2006,20(1):233-260.

[19]
Bernard L, Einspanier U, Haubrock S, et al. Ontology-based discovery and re-trieval of geographic information in spatial data infrastructures[R]. Geotechnologien Science Report No 4, 2004.

[20]
Centre for Knowledge Transfer in Information Technologies. SWING: Semantic Web Services interoperability for geospatial decision making[EB/OL]. 2012-12-8.

[21]
The ENVISION Project. ENVISION: Environmental Services Infrastructure with Ontologies[EB/OL]. 2012-12-8.

[22]
梁汝鹏,李宏伟,李文娟.基于知识标注的地理信息语义服务框架研究[J].地理与地理信息科学,2012,28(3):1-6.

[23]
梁汝鹏,李宏伟,于美娇,等.基于PageRank实现顾及地理概念图结构的语义标注算法优化[J].地理与地理信息科学,2014,30(2):1-4.

文章导航

/