论地理知识图谱

陆锋; 余丽; 仇培元

doi:10.3724/SP.J.1047.2017.00723

地球信息科学学报 >

2017 , Vol. 19 >Issue 6: 723 - 734

DOI: https://doi.org/10.3724/SP.J.1047.2017.00723

地球信息科学理论与方法

论地理知识图谱

陆锋 ^,¹^,^* ,
余丽 ¹^,² ,
仇培元 ¹

展开

1. 中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室,北京 100101
2. 中国科学院文献情报中心, 北京 100190

作者简介：陆锋（1970-）,博士,研究员,博士生导师,中国GIS协会理论与方法委员会主任,ACM SIGSpatial China主席,主要从事空间数据模型、空间数据库、空间数据挖掘、知识图谱、导航与位置服务等研究。E-mail: luf@lreis.ac.cn

收稿日期: 2017-04-28

要求修回日期: 2017-05-25

网络出版日期: 2017-06-20

基金资助

国家自然科学重点基金项目（41631177）

中国科学院重点部署项目（ZDRW-ZS-2016-6-3）

收起

On Geographic Knowledge Graph

LU Feng ^,¹^,^* ,
YU Li ¹^,² ,
QIU Peiyuan ¹

Expand

1. State Key Lab of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research,Beijing 100101, China
2. National Science Library, Chinese Academy of Sciences, Beijing 100190, China

*Corresponding author: LU Feng, E-mail: luf@lreis.ac.cn

Received date: 2017-04-28

Request revised date: 2017-05-25

Online published: 2017-06-20

Copyright

《地球信息科学学报》编辑部所有

Fold

摘要

网络文本蕴含大量隐式地理空间信息,为地理知识获取与知识服务提供了巨大潜能。地理知识图谱是将传统地理信息服务拓展到地理知识服务的关键,也是网络文本蕴含地理信息采集与处理的终极目标。本文系统评述了开放地理语义网、开放地理实体及关系抽取、地理语义网对齐、知识图谱存储方法等地理知识图谱相关主题的研究进展,从网络文本蕴含地理空间信息量与质量评价、地理信息语义理解、空间语义计算模型和异构地理语义网对齐等方面剖析了目前亟需解决的关键科学问题。

关键词： 语义网; 知识图谱; 自然语言理解; 地理信息抽取

本文引用格式

陆锋 , 余丽 , 仇培元 . 论地理知识图谱[J]. 地球信息科学学报, 2017 , 19(6) : 723 -734 . DOI: 10.3724/SP.J.1047.2017.00723

Abstract

Web texts contain a great deal of implicit geospatial information, which provide great potential for the geographic knowledge acquisition and service. Geographic knowledge graph is the key to extend traditional geographic information service to geographic knowledge service, and also the ultimate goal of the collection and processing of implicit geographic information from web texts. This paper systematically reviews the state of the arts of the researches on open geographic semantic web, geographic entity and relation extraction, geographic semantic web alignment, and knowledge graph storage methods. The pressing key scientific issues are also addressed, including the quality evaluation of geospatial information collected from web texts, geographic semantic understanding, spatial semantic computing model, and heterogeneous geographic semantic web alignment.

Key words： Semantic web; Knowledge graph; Natural language processing; Geographic information retrieval

1 引言

人类生活中所产生的数据大多与地理位置相关^[1-2]。一直以来,地理信息获取主要依靠基础测绘、卫星遥感、无人机遥感等专业采集手段,强调几何精确性。近年来,随着信息与通讯技术的发展,地理信息正经历从单一静态到多源动态,从精确结构化到模糊异构的巨大转变。人人都是传感器的理念大量付诸实践。地理信息的持续泛化已成为新地理信息时代的重要特征^[3-4]。非传统的隐式地理信息受到广泛关注。地理信息的泛化要求地理信息系统（GIS）向大众化、普适化的广义GIS转变,多源异构大数据成为主流,高性能计算、云计算成为新的支撑技术体系,知识服务成为GIS的终极目标^[5]。

信息技术的发展使文本逐渐从不可计算的纸质文本转变为可计算的数字化文本,基于文本的数据挖掘与知识发现成为可能。当前,互联网逐步发展为信息传播与交流的主要平台。新闻页面、在线百科、社交网络、数据门户、专业文献等网络文本载体蕴含丰富的隐式地理信息。据统计,18.78%的网络文本资源包含有地理位置信息,18.6%的网络检索与地理位置相关^[6]。因此,寻求网络文本挖掘与地理信息分析的结合,成为GIS学科的研究热点^[7-8]。面对爆发式增长的可计算网络文本资源,如何从地理空间认知的视角理解网络文本,提取所隐含的地理相关信息,并将其纳入传统上以可量测几何数据为对象的空间计算模型中,快速获取、推理与利用地理知识,是地理信息科学在新地理信息时代面临的挑战,也是广义GIS的重要任务^[9]。

目前,网络文本蕴含地理信息抽取的研究主要集中在以下几个主题：

（1）文档注记：网络文本蕴含地名提取与地理空间定位,为文档加注地理标签,建立空间索引,辅助地址相关的搜索^[10-13];

（2）人机交互：理解自然语言词汇的空间含义^[14],将自然语言描述转换为空间查询谓词^[15],实现自然语言方式的人机交互查询^[16];

（3）环境感知：搜索网络文本中具有地理分布特征的专题信息,挖掘相关的语义信息,探索分布规律,检测异常,如自然灾害^[17-19]、突发事件^[20-21]、社会动态^[22]、交通状态^[23-25]和舆情分析^[26]等;

（4）数据共享：研究地理信息元数据语义关联计算方法,促进基于语义相似性的地理空间数据共享^[27-29]。

（5）知识建库：利用网络开放资源、百科协作平台或社会化媒体,丰富地理要素或事件的时空属性,自动生成大规模结构化知识库（如GeoNames^①(① http://www.geonames.org/)与DBpedia^②(② http://dbpedia.org/)融合生成的Geonames Ontology^③(③ http://www.geonames.org/ontology/documentation.html)）。

可以看出,对于网络文本蕴含地名信息抽取、环境感知专题信息获取等,核心在于对文本描述地理位置或场景进行空间化,由此将网络文本描述的大量语义信息与地理位置进行关联。实现这一目标的瓶颈在于如何有效处理相对自由的自然语言中空间位置与空间语义的异质性描述。这也是地理相关数据共享、知识建库的难点所在。

2 语义网与知识图谱

语义（Semantic）是数据的含义。只有被赋予了含义的数据才有使用价值。虽然互联网上存在多种知识源,但由于结构相异,并且很多语义知识隐藏在知识源深层结构中,计算机通常难以获取和利用这些语义知识。因此,研究多源异构知识源中语义知识的挖掘与集成方法,在自然语言处理任务中具有重要的意义^[30]。

万维网（WWW）发明者、2017年第50届图灵奖得主Tim Berners-Lee于1998年提出语义网（Semantic Web）概念^[31]。语义网是由网络信息资源所构成的具有明确结构与语义（如标注或解释）的图,用于知识的表达与存储。语义网使得计算机不仅可以显示这些信息资源,还可以对其进行整合与推理,将一个个信息孤岛连通为一张巨大的图。语义网是WWW的扩展与延伸,它将自然语言描述的句子表达并存储为图结构,可用于文本摘要、机器翻译、自动问答等^[32]。

万维网联盟（W3C）是语义网主要的推动者和标准制定者。HP、IBM、微软等公司,斯坦福大学、卡尔斯鲁厄大学、清华大学、上海交通大学、中国人民大学等都对语义网技术展开了深入研究,开发了Jena^④(④ http://jena.apache.org/)、KAON^⑤(⑤ http://kaon2.semanticweb.org/)、Racer^⑥(⑥ http://www.racer-systems.com/)、Pellet^⑦(⑦ http://www.mindswap.org/2003/pellet/)、SWARMS^⑧(⑧ http://keg.cs.tsinghua.edu.cn/project/pswmp.htm)、ORIENT^⑨(⑨ http://apex.sjtu.edu.cn/projects/orient/)等语义网应用平台、基于语义网技术的信息集成与查询、推理和本体编辑系统。

语义网技术的发展为互联网搜索引擎的升级换代奠定了基础。随着信息服务向知识服务的转变,搜索引擎技术已由关键词搜索发展为基于语义关联的知识搜索。由此,谷歌公司于2012年提出了知识图谱（Knowledge Graph）的概念,旨在实现基于语义理解的搜索引擎,并且于2013年以后开始在学术界和工业界普及。知识图谱是通过有向图的方式表达实体、概念及其相互之间语义关系的数据组织形式或产品,本质上是一种语义网络（Semantic Network）。其中,节点代表实体或者概念,边代表实体/概念的属性或者彼此之间的语义关系。请注意,语义网络（Semantic Network）是更基础的定义,而语义网（Semantic Web）专指互联网信息资源的语义关联结构,是语义网络概念的具体应用体现。本文中不对二者概念进行严格区分。

知识图谱的直接推动力来自于应用,包括机器问答、情报检索、在线学习等。卡内基梅隆大学在美国国防部高级研究计划署(DARPA)、美国国家科学基金会(NSF)、谷歌和雅虎的共同资助下开展了“Read the Web”项目,致力于研发一个不停学习的计算机系统——NELL（Never-Ending Language Learner）,不间断地从互联网上抽取和挖掘知识,构建可以支持多种智能信息处理应用需求的海量规模网络知识库^[33]。而工业界更青睐于以群体智慧的方式建设知识库。2001年,第一个用户可编辑的“互联网百科全书”网站——Wikipedia（维基百科）^⑩(⑩ https://www.wikipedia.org/)正式面向公众开放,该平台支持网民自主建设知识资源。截至目前,维基百科已经构建了涵盖294种语言的4100多万条知识条目^⑪(⑪ https://en.wikipedia.org/wiki/Wikipedia:About)。维基百科的发展给知识库资源的建设带来了新的生机。业界开始基于维基百科生成计算机可利用的知识库,如YAGO^⑫(⑫http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/)、DBpedia、Freebase^⑬(⑬https://developers.google.com/freebase/)等。由于这些资源涵盖不同领域的知识,内容也随着人类知识的增长而不断丰富,因此引起了搜索引擎巨头的极大关注。谷歌于2010年收购Freebase 后,一直致力于构建相互关联的实体及其属性的巨大知识图谱,并据此建立了谷歌语义搜索引擎。目前,谷歌的知识图谱已经包含了超过6亿实体,180亿属性或关系。谷歌语义搜索引擎在知识图谱的支持下,能够更好地理解搜索意图,依据实体之间的语义联系,确定和整理与搜索请求具有语义关联的信息资源,返回给用户。其后,谷歌又创建了新一代知识图“Knowledge Vault”,用于从非结构化网络文本中获取事实信息^[34]。

对于网络文本蕴含地理信息采集与知识推理而言,最终的目标是构建地理知识图谱,即如何自动化地探测地理实体间的空间关系与语义关系,实现地理信息的自动聚合过程。这是实现地理问答系统、发展更精准的地学领域知识搜索引擎,基于网络文本的虚拟地理环境自动化构建,乃至位置服务信息聚合和推送的重要前提。因此,抽取网络资源中的地理信息进而构建地理知识图谱,是将传统地理信息服务拓展到地理知识服务的关键,也是网络文本蕴含地理信息采集与处理的终极目标。

3 地理知识图谱研究进展

由网络文本构建知识图的流程如图1所示。知识图谱的数据包括常识性知识和事实性知识。常识性知识直接由结构化文本提供,例如百科知识库（如Freebase、WikiData^⑭(⑭https://www.wikidata.org/wiki/Wikidata:Main_Page)等）、特定领域的知识库（如Geonames Ontology、OSM Semantic Network^⑮(⑮https://datahub.io/dataset/osm-semantic-network)等）、链接开放数据（Linked Open Data^⑯(⑯ http://www.linkedgeodata.org/),如DBpedia、YAGO等）、百科类网站（如维基百科、百度百科、互动百科等）的信息框。事实性知识则从半结构化文本和非结构化文本中获取。针对半结构化文本的知识获取,首先构建面向站点的包装器（Wrapper）,然后从各垂直领域网站（例如电商网站、点评网站等）的HTML表格中抽取实体的属性-值对,以丰富实体的描述。针对非结构化文本的知识获取,主要从自然语言描述的文本中发现新增实体或其属性,从而扩充知识图谱的覆盖范围。其中,结构化文本和半结构化文本蕴含的知识质量可靠,是构建知识图谱的基础数据。从非结构化文本中挖掘的新增知识,虽然质量相对较差,但是其数量庞大、动态性强、覆盖面广,是保障知识图谱实用性的关键数据。从多源异构文本中获取的知识,存在大量的数据冗余和不一致性问题,需要借助实体链接、知识验证、语义网对齐等技术进行知识融合,从而实现知识的标准化、保障知识的连通性。最后,将知识图谱以资源描述框架（Resource Description Framework, RDF）数据模型表达并存储至数据库中,以提高知识检索的效率。

View original graphic|Download|PPT slide

Fig. 1 Flowchart of knowledge graph building

图1 知识图谱构建基本流程

3.1 开放地理语义网

随着语义网技术的发展,地理语义网作为语义网的一个子集陆续涌现,代表性成果有GeoNames Ontology、OSM Semantic Network、LinkedGeoData、GeoWordNet^⑰(⑰ https://datahub.io/dataset/geowordnet)等。地理语义网使用统一资源描述标识（Unified Resource Identifier,URI）表示关系三元组中的命名实体^[35],并将关系三元组集合存储为RDF文件。地理语义网中描述的对象分为3类,即概念（Class）、属性（Property）和实例（Instance或个体Individual）。概念是对具有相同特征的一组对象的抽象定义,属性包括数据属性(DatatypeProperty,描述对象本身的特征)和对象属性(ObjectProperty,揭示对象之间的关系),实例是指定概念的具象表达^[36]。概念和实例使用URI表示（如“ http://sws.geonames.org/11070880”）,属性一般直接采用其名称表示（如数据属性“population”,对象属性“featureClass”）。

表1列出了上述4种应用广泛的开放地理语义网的数据规模。其中OSM Semantic Network的数据来自OpenStreetMap^⑱(⑱ http://www.openstreetmap.org/),它仅包含地理实体的概念和属性,没有实例;GeoNames Ontology的数据来自GeoNames,它拥有大量的地理实体和丰富的实体关系,是从概念到属性再到实例的完整地理语义网;GeoWordNet是结合GeoNames和WordNet^⑲(⑲ http://wordnet.princeton.edu/)两个数据库而形成,它为地理实体增加了同义词集合;LinkedGeoData是根据Linked Open Data规则将OpenStreetMap转为RDF格式获得的,它使孤立的地理实体节点以相互连通的网络来展现。

Tab. 1 Open geographical semantic web

表1 开放地理语义网（个）

语义网名称	类数量	属性数量	实例数量	三元组数量
OSM Semantic Network	924	4 217	-	-
GeoNames Ontology	690	28	10 951 423	150 000 000
GeoWordNet	334	-	3 600 000	53 000 000
LinkedGeoData	-	-	1 100 000 000	20 000 000 000

3.2 开放地理实体及关系抽取

网络文本蕴含地理信息抽取任务主要包括地理命名实体识别、地理实体定位、地理实体属性抽取、地理实体关系抽取、地理事件抽取等,当前已开展了大量研究工作,文献[7]、[8]对相关成果进行了系统综述。然而,这些地理信息抽取方法难以满足地理知识图谱构建的需求,主要体现在：传统的地理信息抽取研究在文本体裁、实体类型、实体关系和事件种类上都有所限定,而在知识图谱构建采用的开放网络文本环境中,这些内容未知且不断变化。同时,也无法保证已有地理知识的完备性^[37]。因此,针对开放网络文本环境,地理信息抽取需要引入新的研究内容,主要包括开放实体抽取和开放实体关系抽取。

3.2.1 开放实体抽取

开放实体抽取的目的是从海量、冗余、不规范的网络数据源上抽取出符合某个语义类的实体列表^[38]。传统命名实体识别通过构建实体词典、识别规则或识别特征来获取文本中的实体。而开放实体抽取则是借助大规模网络文本存在的数据（文本或网页结构）冗余,在给出种子实体或种子网页后,借助弱监督或无监督方法得到泛化的抽取模板或抽取特征,具有发现未知命名实体的能力。冗余数据的使用有多种方式：① 挖掘文本中出现的高频字符串,通过后续处理确定该字符串是否为实体^[39];② 利用实体周围上下文自动推导出泛化的抽取模式或抽取特征^[40-41];③ 从大规模文本中挖掘字符间隐含的语义关系,进而计算给定的字符组合表达为一个实体的可信度^[42]。由于开放实体抽取不限制实体类型,上述方法也适用于地理实体抽取。然而,这些方法在实践中仅验证了对部分类型地理实体（城市、国家、位置和大学等）的抽取效果,对任意类型地理实体的抽取效果还需要评估。空间位置是地理实体的重要特性,蕴含地理实体的文本也经常出现关于其空间位置的描述。一方面,可以利用空间描述文本辅助地理实体抽取,如文献[43]利用“登录地理命名实体+空间关系词”的搜索条件对海量网络文本过滤,以获取高密度的蕴含候选地理命名实体的文本集合,服务于地名数据库更新;另一方面,也可以从空间描述文本中提取新增地理实体缺失的空间属性信息,如文献[44]从Flickr签到数据文本中推断地理实体的空间范围,进而自动构建出大规模的地理实体辞典。

3.2.2 开放实体关系抽取

开放实体关系抽取与传统实体关系抽取最大的区别在于开放实体关系抽取不需要预先定义待抽取关系类型,具有发现新类型关系的能力。华盛顿大学人工智能研究组在开放关系抽取领域开展了大量研究工作,先后构建了4代具有代表性的开放信息抽取原型系统TextRunner^[45]、ReVerb^[46]、OLLIE^[47]和OpenIE 4.X^[48]。上述系统更迭与开放实体关系抽取研究的发展历程相吻合,即由“现有工具的直接应用”到“分析关系表达的语法、句法特征”再到“启发式规则增强”,关系类型也由早期的二元关系发展到n元关系。通用开放实体关系抽取没有对地理关系进行专门优化。有研究者考虑利用文本中的空间描述特征增强地理空间关系的抽取效果,其关键是构建满足特征学习的大规模标注语料。为此,文献[49]利用维基百科自动回标技术,建立了河流与水系的“流入”关系、郊区与城镇的“组成”关系。文献[50]使用在线的酒店点评文本自动构建了地理实体“相邻”关系的标注语料,规模为10.6万个文档。文献[51]通过手动建立空间本体,成功抽取了地理实体之间的拓扑和方位关系。然而,上述研究的原始语料本身只隐含部分类型的空间关系,生成的标注语料仅能反映少数空间关系的描述特征,难以适应地理实体关系的多样性。为此,文献[52]基于Bootstrapping技术,利用词语的词性、位置和距离特征识别文本中任意类型的地理实体关系词,减少识别过程对领域专家知识的依赖。此外,考虑到网络文本语料存在地理实体关系分布稀疏的问题,可通过语境增强方法由开放地理文本资源生成大规模语料,并利用统计方法获取关键词提取特征,实现高质量的地理实体关系抽取^[53]。

3.3 地理语义网对齐

开放地理语义网为地理知识图谱构建提供了高质量的数据基础。然而,这些地理语义网虽然都遵循了W3C制定的理论体系,但语义多样性仍不可避免地导致“一词多义”和“同形异义”现象。此外,各语义网基本上是各自独立管理与维护,形成了许多局部范围内组织良好,整体上却是分散独立的“信息孤岛”^[54]。因此,需要通过语义对齐（Semantic Alignment）技术将这些异构分散的知识资源整合在一起,挖掘资源间的语义关系,实现统一查询与访问。早期语义对齐研究主要针对通用知识库,且已发展出完整的对齐系统^[55-57]。然而,地理空间数据集和通用数据集在结构上的高度差异性使得通用对齐系统在地理空间数据对齐任务中表现不佳^[58]。因此,一些学者结合实际的应用需求,在语义对齐中引入了空间特性,提出了顾及地理语义的对齐方法^[59-61]。文献[62]基于名称相似度和人工验证的方法,在概念层级上将GeoNames、WordNet整合得到GeoWordNet。文献[63]、[64]则基于概念在WordNet中使用频次、不同概念的定义的重合度、概念的分类3个特征,建立了OSM Semantic Network与LinkedGeoData的概念之间的相等和包含关系,以及OSM Semantic Network、GeoNames Ontology与WordNet的概念之间的相等和包含关系。文献[65]根据地理实体的分类体系、空间距离和实例的名称相似度,建立了LinkedGeoData与DBpedia的实例之间的相等关系。图2展示了4个主流地理语义网在不同类型对象上的对齐现状。可见,不同类型的地理语义对齐任务尚没有集成于统一框架中,且不同类型对象的融合方法不能相互利用。为此,文献[66]提出了一个地理空间数据对齐集成框架,利用多维信息度量空间和语义相似性,结合投票选举和协同增强策略,一次完成概念、属性和实例对齐。综合来看,相对于通用语义对齐,当前地理语义对齐主要集中在概念对齐,属性对齐和实例对齐的研究较少,尚未出现完整的地理知识库融合系统,地理知识库的语义异质性问题亟待解决。

View original graphic|Download|PPT slide

Fig. 2 State of the arts for open geographical semantic web alignment

图2 开放地理语义网对齐现状

除地理语义网外,网络中还开放了大量基础地理信息资源,如地图数据和统计数据等。有学者尝试这些基础地理信息与地理语义网融合^[67],其关键是将传统地理信息以关联数据的形式重新组织^[68-70]。尤其是语义信息较少的地图数据,需要从相应的元数据中挖掘空间、时间、内容和结构等多种语义信息以形成数据之间的关联关系^[28,71]。

3.4 地理知识图谱存储

知识图谱采用RDF模型来表示数据,其数据结构强化了对象间的语义关系。RDF有3种对象类型：资源（Resource）、谓词（Predicate）及陈述（Statements）^[72]。资源是现实或虚拟世界存在的实体,以唯一的URI表示。谓词描述资源的特征或资源间的关系。陈述以RDF三元组“<主体（subject）,谓词（predicate）,宾语（object）>”的形式表示。其中,主体是被描述的资源,谓词可表示主体的属性或者主体和宾语之间的某种关系,宾语是属性值或URI表示的资源。标准RDF三元组不易表达空间信息,影响空间索引构建和空间查询的效果。为此,针对地理语义关系数据,当前研究普遍在RDF模型中增加空间声明,如空间类型陈述、空间关系谓词集合等,以构建适于空间索引和查询的空间类型元组^[73-75]。

RDF数据的存储有2种方式：① 基于关系数据库的存储方式。将RDF三元组拆分后映射为关系数据模型,直接在传统关系数据库中存储。该存储方式的关键问题是如何设计合理的表结构,以表达和索引复杂的元组关系^[76-77];② 基于图数据库的存储方式。若将RDF三元组视为带标签的边,RDF数据则可以自然地转换为图结构,非常适合图数据库存储^[78]。但这种方式除要考虑边上的标签成为查询对象的问题外,还要解决知识图谱规模增大对查询时间复杂度的影响^[79]。RDF数据存储研究进展可参阅文献^[80-81]。地理语义关系数据同样可采用上述方式进行存储,例如,文献[82]、[83]对RDF关系数据库引擎 RDF-3X^[76]进行扩展,实现了空间信息的存储、索引和查询;文献[84]则在RDF图数据库引擎gStore^[78]的基础上通过增加语义-空间混合索引,开发了融合空间信息的图数据库引擎S-store。

4 地理知识图谱构建的核心问题

综上所述,虽然网络文本已成为获取广义地理信息的重要数据资源,仍无法满足开放网络文本环境下地理知识图谱构建的实际需求。此外,在具体研究中,计算机科学界更多的是从文本处理的视角出发,将地理实体看作一般的实体类型,却忽视了地理实体的可量测特征。GIS界更多的是从几何测量的视角出发,对地理实体的可计算文本处理方面关注较少。“文本描述地理实体的可量测”与“地理实体描述文本的可计算”的融合是网络文本蕴含地理信息理解的迫切需求,也是将地理信息服务拓展到地理知识服务的关键。因此,综合地理知识图谱构建和地理知识应用需求,我们提出了一套完整的地理知识图谱构建技术流程,如图3所示。在具体实现过程中,有4个方面的内容亟待研究。

View original graphic|Download|PPT slide

Fig. 3 Flowchart of geographical knowledge graph building

图3 地理知识图谱构建技术流程

4.1 网络文本蕴含地理空间信息量与质量评价

网络文本的重大价值在于参与者众多,动态性极强,是典型的协作式数据采集与汇聚方式,也是志愿者地理信息（VGI）的重要来源。然而,此类数据的特点是质量良莠不齐,对所蕴含的地理空间信息抽取而言,面临的首要问题是甄别这些文本资源的信息量和质量。这不仅仅是网络文本资源在地理空间信息检索中重要性排序的需求,更是后续开展空间关系抽取和空间计算的需求。因此,网络文本蕴含地理空间信息量与质量评价是保证异构网络文本蕴含空间信息分析质量的重要前提。面对海量的网络文本资源,首要任务是提出一套通用的地理空间信息量与质量评价指标体系,借鉴复杂网络理论、模糊数学方法等构建地理空间信息量与质量评价模型,从而有效甄别出不同类型、不同来源的网络文本蕴含的高质量地理信息。

4.2 网络文本蕴含地理信息语义理解

由于自然语言文本蕴含地理空间信息的知识描述方式和精确几何坐标描述方式之间的巨大差异,地理空间语义尤其是地理实体空间关系和空间范围的界定极为困难。GIS采用逻辑语言,需要精确定义地理信息的“质”和“量”,而文本描述（尤其是相对更为自由的网络文本）采用自然语言,需要从语境（Context,或称上下文）中理解语义（包括空间位置）。文本中每一个模糊的词汇在特定的语境中变成了读者可以理解的精确概念,但逻辑语言难以实现。目前,广泛采用的基于规则的方式由于受到地名词典的完备性和时效性的影响,新地名识别和语义多样性问题难以得到解决。对于空间关系识别,基于规则的方法对空间关系词汇的依赖性太强,而且规则覆盖度有限,规则之间容易产生冲突,因此难以识别描述结构较为复杂的空间关系。而基于统计模型的机器学习方法,特别是与知识库的结合,虽然颇受关注,其效率在很大程度上取决于标注语料库的规模和标注质量。因此,对于网络文本,应借助网络资源所提供的大规模语义网,设计机器学习模型,在减少对标注语料库依赖的前提下,通过无监督学习方法,加深自然语言文本蕴含地理实体空间关系的理解,进而实现地理实体、事件和过程文本描述的可靠空间化。

4.3 网络文本描述地理信息空间语义计算模型

目前针对文本蕴含地理空间信息抽取的研究,主要目的是识别地理命名实体和地理标定,并将其与逻辑语言方式的地理空间数据库进行集成。计算过程局限在文本统计模型和空间关系语义计算模型方面,还未涉及针对文本的空间计算过程。从长远来看,如果能够将原本针对地理空间数据集的空间计算过程移植到网络文本上,即直接对文本进行空间约束的计算,将对文本蕴含地理知识自动获取和虚拟地理环境场景构建提供巨大的支持。由于自然语言文本通常使用地名和方位介词,而不是地理坐标来描述地理现象或过程,且文本描述大量采取定性的、模糊的表达方式。在这种自然语言文本所反映的空间认知理念下,如何实现文本挖掘地理空间语义的可计算是需要解决的重要科学问题,即要将传统基于精确几何坐标的数据结构和算法移植到基于地名和方位介词标记的模糊空间数据结构和算法上,同时提升自然语言文本空间计算服务的可用性。地理空间语义计算是异构地理空间大数据分析无法逾越的瓶颈问题,也是对传统几何坐标框架下地理空间计算范式的严峻挑战。

4.4 异构语义网对齐与大规模地理知识图谱构建

从网络文本中提取所蕴含的地理信息,除了从细化时间粒度的角度对现有的专业地理信息进行补充以增强语义信息或实时信息外（如构建全息位置地图）,更重要的任务是赋予网络文本地理语义标签,在现有的语义网技术支持下,构筑针对网络文本的地理语义网,这样才能从地理空间的角度建立网络文本资源的语义关联,进而通过知识推理与知识计算方式,辅之以专业地理空间信息,在网络文本语义计算模型和几何空间计算模型的支持下,实现地理知识图谱自动构建和自学习过程。然而,目前推出的地理语义网仍各自独立,存在大量冗余、模糊和不一致问题,如何基于语义整合这些资源,建立不同地理语义网之间的链接关系,维护语义一致性,实现统一查询与访问,是构建地理知识图谱亟待解决的问题。此外,地理知识图谱的存储、管理与更新模式都需要深入研究。这是事关地理问答、虚拟地理场景构建、知识搜索引擎有效性的关键问题。

5 结论

网络文本爆炸式增长带来丰富的隐式地理空间信息,为地理知识获取与知识服务提供了巨大潜能。同时,广义GIS的内在需求和知识服务的外在推动,促使GIS应用由提供地理信息服务向提供地理知识服务转变,地理知识图谱成为网络文本蕴含地理信息采集与处理的终极目标。虽然业界已有大量研究主题与网络文本蕴含地理知识图谱构建的流程环节相契合,但在数据对象、方法性能和计算效率方面存在局限,无法满足大规模网络开放文本处理、进而构建地理知识图谱的需求。因此,网络文本蕴含地理知识图谱构建有着广阔的应用前景,更存在诸多研究挑战,需要重点解决网络文本蕴含地理空间信息量与质量评价、地理信息语义理解、地理信息空间语义计算模型和异构地理语义网对齐等关键科学问题,为实现自动化、智能化的地理知识图谱奠定理论与方法基础。

The authors have declared that no competing interests exist.

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	徐冠华. 全社会要高度关注“数字地球”[J].中国测绘,1999,3:7-8. [ Xu G H.The whole society should pay great attention to the 'Digital Earth'[J]. China Surveying and Mapping, 1999,3:7-8. ]

[2]

Hahmann

, Burghardt

.How much information is geospatially referenced? Networks and cognition[J]. International Journal of Geographical Information Science, 2013,27(6):1171-1189.

The aim of this article is to provide a basis in evidence for (or against) the much-quoted assertion that 80% of all information is geospatially referenced. For this purpose, two approaches are presented that are intended to capture the portion of geospatially referenced information in user-generated content: a network approach and a cognitive approach. In the network approach, the German Wikipedia is used as a research corpus. It is considered a network with the articles being nodes and the links being edges. () is introduced as an indicator to measure the network approach. We define NDGR as the shortest path between any Wikipedia article and the closest article within the network that is labeled with coordinates in its headline. An analysis of the German Wikipedia employing this approach shows that 78% of all articles have a coordinate themselves or are directly linked to at least one article that has geospatial coordinates. The cognitive approach is manifested by the (): direct, indirect, and non-geospatial reference. These are categories that may be distinguished and applied by humans. An empirical study including 380 participants was conducted. The results of both approaches are synthesized with the aim to (1) examine correlations between NDGR and the human conceptualization of geospatial reference and (2) to separate geospatial from non-geospatial information. From the results of this synthesis, it can be concluded that 56–59% of the articles within Wikipedia can be considered to be directly or indirectly geospatially referenced. The article thus describes a method to check the validity of the ‘80%-assertion’ for information corpora that can be modeled using graphs (e.g., the World Wide Web, the Semantic Web, and Wikipedia). For the corpus investigated here (Wikipedia), the ‘80%-assertion’ cannot be confirmed, but would need to be reformulated as a ‘60%-assertion’.

模态框（Modal）标题

摘要

本文引用格式

Abstract

1 引言

2 语义网与知识图谱

3 地理知识图谱研究进展

Fig. 1 Flowchart of knowledge graph building

3.1 开放地理语义网

Tab. 1 Open geographical semantic web

3.2 开放地理实体及关系抽取

3.3 地理语义网对齐

Fig. 2 State of the arts for open geographical semantic web alignment

3.4 地理知识图谱存储

4 地理知识图谱构建的核心问题

Fig. 3 Flowchart of geographical knowledge graph building

4.1 网络文本蕴含地理空间信息量与质量评价

4.2 网络文本蕴含地理信息语义理解

4.3 网络文本描述地理信息空间语义计算模型

4.4 异构语义网对齐与大规模地理知识图谱构建

5 结论

参考文献