On Geographic Knowledge Graph

Web texts contain a great deal of implicit geospatial information, which provide great potential for the geographic knowledge acquisition and service. Geographic knowledge graph is the key to extend traditional geographic information service to geographic knowledge service, and also the ultimate goal of the collection and processing of implicit geographic information from web texts. This paper systematically reviews the state of the arts of the researches on open geographic semantic web, geographic entity and relation extraction, geographic semantic web alignment, and knowledge graph storage methods. The pressing key scientific issues are also addressed, including the quality evaluation of geospatial information collected from web texts, geographic semantic understanding, spatial semantic computing model, and heterogeneous geographic semantic web alignment.

1 引言

(2)人机交互:理解自然语言词汇的空间含 义[14],将自然语言描述转换为空间查询谓词[15],实现自然语言方式的人机交互查询[16];
(4)数据共享:研究地理信息元数据语义关联计算方法,促进基于语义相似性的地理空间数据 共享[27-29]
(5)知识建库:利用网络开放资源、百科协作平台或社会化媒体,丰富地理要素或事件的时空属性,自动生成大规模结构化知识库(如GeoNames(① http://www.geonames.org/)与DBpedia(② http://dbpedia.org/)融合生成的Geonames Ontology(③ http://www.geonames.org/ontology/documentation.html))。

2 语义网与知识图谱

万维网(WWW)发明者、2017年第50届图灵奖得主Tim Berners-Lee于1998年提出语义网(Semantic Web)概念[31]。语义网是由网络信息资源所构成的具有明确结构与语义(如标注或解释)的图,用于知识的表达与存储。语义网使得计算机不仅可以显示这些信息资源,还可以对其进行整合与推理,将一个个信息孤岛连通为一张巨大的图。语义网是WWW的扩展与延伸,它将自然语言描述的句子表达并存储为图结构,可用于文本摘要、机器翻译、自动问答等[32]
万维网联盟(W3C)是语义网主要的推动者和标准制定者。HP、IBM、微软等公司,斯坦福大学、卡尔斯鲁厄大学、清华大学、上海交通大学、中国人民大学等都对语义网技术展开了深入研究,开发了Jena(④ http://jena.apache.org/)、KAON(⑤ http://kaon2.semanticweb.org/)、Racer(⑥ http://www.racer-systems.com/)、Pellet(⑦ http://www.mindswap.org/2003/pellet/)、SWARMS(⑧ http://keg.cs.tsinghua.edu.cn/project/pswmp.htm)、ORIENT(⑨ http://apex.sjtu.edu.cn/projects/orient/)等语义网应用平台、基于语义网技术的信息集成与查询、推理和本体编辑系统。
语义网技术的发展为互联网搜索引擎的升级换代奠定了基础。随着信息服务向知识服务的转变,搜索引擎技术已由关键词搜索发展为基于语义关联的知识搜索。由此,谷歌公司于2012年提出了知识图谱(Knowledge Graph)的概念,旨在实现基于语义理解的搜索引擎,并且于2013年以后开始在学术界和工业界普及。知识图谱是通过有向图的方式表达实体、概念及其相互之间语义关系的数据组织形式或产品,本质上是一种语义网络(Semantic Network)。其中,节点代表实体或者概念,边代表实体/概念的属性或者彼此之间的语义关系。请注意,语义网络(Semantic Network)是更基础的定义,而语义网(Semantic Web)专指互联网信息资源的语义关联结构,是语义网络概念的具体应用体现。本文中不对二者概念进行严格区分。
知识图谱的直接推动力来自于应用,包括机器问答、情报检索、在线学习等。卡内基梅隆大学在美国国防部高级研究计划署(DARPA)、美国国家科学基金会(NSF)、谷歌和雅虎的共同资助下开展了“Read the Web”项目,致力于研发一个不停学习的计算机系统——NELL(Never-Ending Language Learner),不间断地从互联网上抽取和挖掘知识,构建可以支持多种智能信息处理应用需求的海量规模网络知识库[33]。而工业界更青睐于以群体智慧的方式建设知识库。2001年,第一个用户可编辑的“互联网百科全书”网站——Wikipedia(维基百科)(⑩ https://www.wikipedia.org/)正式面向公众开放,该平台支持网民自主建设知识资源。截至目前,维基百科已经构建了涵盖294种语言的4100多万条知识条目(⑪ https://en.wikipedia.org/wiki/Wikipedia:About)。维基百科的发展给知识库资源的建设带来了新的生机。业界开始基于维基百科生成计算机可利用的知识库,如YAGO(⑫http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago/)、DBpedia、Freebase(⑬https://developers.google.com/freebase/)等。由于这些资源涵盖不同领域的知识,内容也随着人类知识的增长而不断丰富,因此引起了搜索引擎巨头的极大关注。谷歌于2010年收购Freebase 后,一直致力于构建相互关联的实体及其属性的巨大知识图谱,并据此建立了谷歌语义搜索引擎。目前,谷歌的知识图谱已经包含了超过6亿实体,180亿属性或关系。谷歌语义搜索引擎在知识图谱的支持下,能够更好地理解搜索意图,依据实体之间的语义联系,确定和整理与搜索请求具有语义关联的信息资源,返回给用户。其后,谷歌又创建了新一代知识图“Knowledge Vault”,用于从非结构化网络文本中获取事实信息[34]

3 地理知识图谱研究进展

由网络文本构建知识图的流程如图1所示。知识图谱的数据包括常识性知识和事实性知识。常识性知识直接由结构化文本提供,例如百科知识库(如Freebase、WikiData(⑭https://www.wikidata.org/wiki/Wikidata:Main_Page)等)、特定领域的知识库(如Geonames Ontology、OSM Semantic Network(⑮https://datahub.io/dataset/osm-semantic-network)等)、链接开放数据(Linked Open Data(⑯ http://www.linkedgeodata.org/),如DBpedia、YAGO等)、百科类网站(如维基百科、百度百科、互动百科等)的信息框。事实性知识则从半结构化文本和非结构化文本中获取。针对半结构化文本的知识获取,首先构建面向站点的包装器(Wrapper),然后从各垂直领域网站(例如电商网站、点评网站等)的HTML表格中抽取实体的属性-值对,以丰富实体的描述。针对非结构化文本的知识获取,主要从自然语言描述的文本中发现新增实体或其属性,从而扩充知识图谱的覆盖范围。其中,结构化文本和半结构化文本蕴含的知识质量可靠,是构建知识图谱的基础数据。从非结构化文本中挖掘的新增知识,虽然质量相对较差,但是其数量庞大、动态性强、覆盖面广,是保障知识图谱实用性的关键数据。从多源异构文本中获取的知识,存在大量的数据冗余和不一致性问题,需要借助实体链接、知识验证、语义网对齐等技术进行知识融合,从而实现知识的标准化、保障知识的连通性。最后,将知识图谱以资源描述框架(Resource Description Framework, RDF)数据模型表达并存储至数据库中,以提高知识检索的效率。
Fig. 1 Flowchart of knowledge graph building

图1 知识图谱构建基本流程

3.1 开放地理语义网

随着语义网技术的发展,地理语义网作为语义网的一个子集陆续涌现,代表性成果有GeoNames Ontology、OSM Semantic Network、LinkedGeoData、GeoWordNet(⑰ https://datahub.io/dataset/geowordnet)等。地理语义网使用统一资源描述标识(Unified Resource Identifier,URI)表示关系三元组中的命名实体[35],并将关系三元组集合存储为RDF文件。地理语义网中描述的对象分为3类,即概念(Class)、属性(Property)和实例(Instance或个体Individual)。概念是对具有相同特征的一组对象的抽象定义,属性包括数据属性(DatatypeProperty,描述对象本身的特征)和对象属性(ObjectProperty,揭示对象之间的关系),实例是指定概念的具象表达[36]。概念和实例使用URI表示(如“ http://sws.geonames.org/11070880”),属性一般直接采用其名称表示(如数据属性“population”,对象属性“featureClass”)。
表1列出了上述4种应用广泛的开放地理语义网的数据规模。其中OSM Semantic Network的数据来自OpenStreetMap(⑱ http://www.openstreetmap.org/),它仅包含地理实体的概念和属性,没有实例;GeoNames Ontology的数据来自GeoNames,它拥有大量的地理实体和丰富的实体关系,是从概念到属性再到实例的完整地理语义网;GeoWordNet是结合GeoNames和WordNet(⑲ http://wordnet.princeton.edu/)两个数据库而形成,它为地理实体增加了同义词集合;LinkedGeoData是根据Linked Open Data规则将OpenStreetMap转为RDF格式获得的,它使孤立的地理实体节点以相互连通的网络来展现。
Tab. 1 Open geographical semantic web

表1 开放地理语义网(个)

语义网名称 类数量 属性数量 实例数量 三元组数量
OSM Semantic Network 924 4 217 - -
GeoNames Ontology 690 28 10 951 423 150 000 000
GeoWordNet 334 - 3 600 000 53 000 000
LinkedGeoData - - 1 100 000 000 20 000 000 000

3.2 开放地理实体及关系抽取

3.2.1 开放实体抽取
开放实体抽取的目的是从海量、冗余、不规范的网络数据源上抽取出符合某个语义类的实体列表[38]。传统命名实体识别通过构建实体词典、识别规则或识别特征来获取文本中的实体。而开放实体抽取则是借助大规模网络文本存在的数据(文本或网页结构)冗余,在给出种子实体或种子网页后,借助弱监督或无监督方法得到泛化的抽取模板或抽取特征,具有发现未知命名实体的能力。冗余数据的使用有多种方式:① 挖掘文本中出现的高频字符串,通过后续处理确定该字符串是否为实体[39];② 利用实体周围上下文自动推导出泛化的抽取模式或抽取特征[40-41];③ 从大规模文本中挖掘字符间隐含的语义关系,进而计算给定的字符组合表达为一个实体的可信度[42]。由于开放实体抽取不限制实体类型,上述方法也适用于地理实体抽取。然而,这些方法在实践中仅验证了对部分类型地理实体(城市、国家、位置和大学等)的抽取效果,对任意类型地理实体的抽取效果还需要评估。空间位置是地理实体的重要特性,蕴含地理实体的文本也经常出现关于其空间位置的描述。一方面,可以利用空间描述文本辅助地理实体抽取,如文献[43]利用“登录地理命名实体+空间关系词”的搜索条件对海量网络文本过滤,以获取高密度的蕴含候选地理命名实体的文本集合,服务于地名数据库更新;另一方面,也可以从空间描述文本中提取新增地理实体缺失的空间属性信息,如文献[44]从Flickr签到数据文本中推断地理实体的空间范围,进而自动构建出大规模的地理实体辞典。
3.2.2 开放实体关系抽取
开放实体关系抽取与传统实体关系抽取最大的区别在于开放实体关系抽取不需要预先定义待抽取关系类型,具有发现新类型关系的能力。华盛顿大学人工智能研究组在开放关系抽取领域开展了大量研究工作,先后构建了4代具有代表性的开放信息抽取原型系统TextRunner[45]、ReVerb[46]、OLLIE[47]和OpenIE 4.X[48]。上述系统更迭与开放实体关系抽取研究的发展历程相吻合,即由“现有工具的直接应用”到“分析关系表达的语法、句法特征”再到“启发式规则增强”,关系类型也由早期的二元关系发展到n元关系。通用开放实体关系抽取没有对地理关系进行专门优化。有研究者考虑利用文本中的空间描述特征增强地理空间关系的抽取效果,其关键是构建满足特征学习的大规模标注语料。为此,文献[49]利用维基百科自动回标技术,建立了河流与水系的“流入”关系、郊区与城镇的“组成”关系。文献[50]使用在线的酒店点评文本自动构建了地理实体“相邻”关系的标注语料,规模为10.6万个文档。文献[51]通过手动建立空间本体,成功抽取了地理实体之间的拓扑和方位关系。然而,上述研究的原始语料本身只隐含部分类型的空间关系,生成的标注语料仅能反映少数空间关系的描述特征,难以适应地理实体关系的多样性。为此,文献[52]基于Bootstrapping技术,利用词语的词性、位置和距离特征识别文本中任意类型的地理实体关系词,减少识别过程对领域专家知识的依赖。此外,考虑到网络文本语料存在地理实体关系分布稀疏的问题,可通过语境增强方法由开放地理文本资源生成大规模语料,并利用统计方法获取关键词提取特征,实现高质量的地理实体关系抽取[53]

3.3 地理语义网对齐

开放地理语义网为地理知识图谱构建提供了高质量的数据基础。然而,这些地理语义网虽然都遵循了W3C制定的理论体系,但语义多样性仍不可避免地导致“一词多义”和“同形异义”现象。此外,各语义网基本上是各自独立管理与维护,形成了许多局部范围内组织良好,整体上却是分散独立的“信息孤岛”[54]。因此,需要通过语义对齐(Semantic Alignment)技术将这些异构分散的知识资源整合在一起,挖掘资源间的语义关系,实现统一查询与访问。早期语义对齐研究主要针对通用知识库,且已发展出完整的对齐系统[55-57]。然而,地理空间数据集和通用数据集在结构上的高度差异性使得通用对齐系统在地理空间数据对齐任务中表现不佳[58]。因此,一些学者结合实际的应用需求,在语义对齐中引入了空间特性,提出了顾及地理语义的对齐方法[59-61]。文献[62]基于名称相似度和人工验证的方法,在概念层级上将GeoNames、WordNet整合得到GeoWordNet。文献[63]、[64]则基于概念在WordNet中使用频次、不同概念的定义的重合度、概念的分类3个特征,建立了OSM Semantic Network与LinkedGeoData的概念之间的相等和包含关系,以及OSM Semantic Network、GeoNames Ontology与WordNet的概念之间的相等和包含关系。文献[65]根据地理实体的分类体系、空间距离和实例的名称相似度,建立了LinkedGeoData与DBpedia的实例之间的相等关系。图2展示了4个主流地理语义网在不同类型对象上的对齐现状。可见,不同类型的地理语义对齐任务尚没有集成于统一框架中,且不同类型对象的融合方法不能相互利用。为此,文献[66]提出了一个地理空间数据对齐集成框架,利用多维信息度量空间和语义相似性,结合投票选举和协同增强策略,一次完成概念、属性和实例对齐。综合来看,相对于通用语义对齐,当前地理语义对齐主要集中在概念对齐,属性对齐和实例对齐的研究较少,尚未出现完整的地理知识库融合系统,地理知识库的语义异质性问题亟待解决。
Fig. 2 State of the arts for open geographical semantic web alignment

图2 开放地理语义网对齐现状

除地理语义网外,网络中还开放了大量基础地理信息资源,如地图数据和统计数据等。有学者尝试这些基础地理信息与地理语义网融合[67],其关 键是将传统地理信息以关联数据的形式重新组 织[68-70]。尤其是语义信息较少的地图数据,需要从相应的元数据中挖掘空间、时间、内容和结构等多种语义信息以形成数据之间的关联关系[28,71]

3.4 地理知识图谱存储

RDF数据的存储有2种方式:① 基于关系数据库的存储方式。将RDF三元组拆分后映射为关系数据模型,直接在传统关系数据库中存储。该存储方式的关键问题是如何设计合理的表结构,以表达和索引复杂的元组关系[76-77];② 基于图数据库的存储方式。若将RDF三元组视为带标签的边,RDF数据则可以自然地转换为图结构,非常适合图数据库存储[78]。但这种方式除要考虑边上的标签成为查询对象的问题外,还要解决知识图谱规模增大对查询时间复杂度的影响[79]。RDF数据存储研究进展可参阅文献[80-81]。地理语义关系数据同样可采用上述方式进行存储,例如,文献[82]、[83]对RDF关系数据库引擎 RDF-3X[76]进行扩展,实现了空间信息的存储、索引和查询;文献[84]则在RDF图数据库引擎gStore[78]的基础上通过增加语义-空间混合索引,开发了融合空间信息的图数据库引擎S-store。

4 地理知识图谱构建的核心问题

Fig. 3 Flowchart of geographical knowledge graph building

图3 地理知识图谱构建技术流程

4.1 网络文本蕴含地理空间信息量与质量评价


4.2 网络文本蕴含地理信息语义理解


4.3 网络文本描述地理信息空间语义计算模型


4.4 异构语义网对齐与大规模地理知识图谱构建


5 结论


