专刊:地理时空知识图谱理论方法与应用

大规模地球科学知识图谱构建与共享应用框架研究与实践

  • 诸云强 , 1, 2, 7 ,
  • 孙凯 , 1, * ,
  • 胡修棉 3 ,
  • 闾海荣 4, 5 ,
  • 王新兵 6 ,
  • 杨杰 1 ,
  • 王曙 1 ,
  • 李威蓉 1, 7 ,
  • 宋佳 1, 2 ,
  • 苏娜 1 ,
  • 牟兴林 8
展开
  • 1.中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101
  • 2.江苏省地理信息协同创新中心,南京 210023
  • 3.南京大学地球科学与工程学院,南京 210023
  • 4.清华大学自动化系,北京 100084
  • 5.福州数据技术研究院,福州 350207
  • 6.上海交通大学电子信息与电气工程学院 上海 200240
  • 7.中国科学院大学,北京 100049
  • 8.自然资源部国土卫星遥感应用中心,北京 100048
*孙 凯(1990— ),男,山西长治人,博士后,研究方向是地学知识图谱构建及应用。E-mail:

诸云强(1977— ),男,江西广丰人,博士,研究员,研究方向为分布式数据共享关键技术、地理空间数据本体与应用、地学知识图谱及应用、资源环境信息系统。E-mail:

收稿日期: 2021-11-01

  修回日期: 2022-01-29

  网络出版日期: 2023-06-02

基金资助

国家自然科学基金项目(42050101)

国家自然科学基金项目(41771430)

国家自然科学基金项目(41631177)

中国科学院战略性先导科技专项(XDA23100100)

Research and Practice on the Framework for the Construction, Sharing, and Application of Large-scale Geoscience Knowledge Graphs

  • ZHU Yunqiang , 1, 2, 7 ,
  • SUN Kai , 1, * ,
  • HU Xiumian 3 ,
  • LV Hairong 4, 5 ,
  • WANG Xinbing 6 ,
  • YANG Jie 1 ,
  • WANG Shu 1 ,
  • LI Weirong 1, 7 ,
  • SONG Jia 1, 2 ,
  • SU Na 1 ,
  • MU Xinglin 8
Expand
  • 1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 2. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
  • 3. School of Earth Sciences and Engineering, Nanjing University, Nanjing 210023, China
  • 4. Department of Automation, Tsinghua University, Beijing 100084, China
  • 5. Fuzhou Institute for Data Technology, Fuzhou 350207, China
  • 6. School of Electronic Information and Electrical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China
  • 7. University of Chinese Academy of Sciences, Beijing 100049, China
  • 8. Land Satellite Remote Sensing Application Center, Ministry of Natural Resources, Beijing 100048, China
*SUN Kai, E-mail:

Received date: 2021-11-01

  Revised date: 2022-01-29

  Online published: 2023-06-02

Supported by

National Natural Science Foundation of China(42050101)

National Natural Science Foundation of China(41771430)

National Natural Science Foundation of China(41631177)

Strategic Priority Research Program of the Chinese Academy of Sciences(XDA23100100)

摘要

地球科学(以下简称地学)知识图谱具有强大的知识表示和语义推理能力,已成为地学大数据和地学人工智能发展必要的基础设施。然而,目前的地学知识图谱研究主要面向实验场景,缺乏面向实际应用的大规模地学知识图谱构建方法和共享应用框架研究,导致尚未真正在地学领域现实应用中得到使用。为此,本文面向地学大数据和人工智能研究与应用对地学知识图谱的迫切需求,首先研究了大规模地学知识图谱的构建技术,在此基础上,提出一种覆盖地学知识图谱构建、共享和应用全生命周期的总体框架。然后,以“深时数字地球(DDE)”国际大科学计划为例,开展了面向实际应用的知识图谱平台研发实践。最后,利用该平台,构建了DDE大规模地学知识图谱,开展了知识图谱开放共享,有效实现了知识图谱应用,证明本框架可有效支撑大规模地学知识图谱的构建与共享应用。本文对于地学知识图谱现实应用价值的实现具有重要的促进作用。

本文引用格式

诸云强 , 孙凯 , 胡修棉 , 闾海荣 , 王新兵 , 杨杰 , 王曙 , 李威蓉 , 宋佳 , 苏娜 , 牟兴林 . 大规模地球科学知识图谱构建与共享应用框架研究与实践[J]. 地球信息科学学报, 2023 , 25(6) : 1215 -1227 . DOI: 10.12082/dqxxkx.2023.210696

Abstract

Geoscience Knowledge Graph (GKG) has strong capabilities of knowledge representation and semantic reasoning, thereby becoming a required infrastructure for the development of geoscience big data and geoscience artificial intelligence. However, existing studies on GKG were mainly conducted under the experimental scenarios. Because of a lack of research on the general framework of construction methods, sharing, and application of large-scale GKG for practical applications, it has not been used in practical applications in the geoscience field. For this reason, towards the needs of research and applications of geoscience big data and artificial intelligence for GKG, this paper first studied the construction techniques of large-scale GKG. Then, a general framework for covering the lifecycle of GKG including its construction, sharing, and application was proposed. Taking the big science program “Deep-Time Digital Earth (DDE)” as an example, the practice of developing GKG platform towards the practical application of DDE was carried out. Using this platform, this paper realized the construction of DDE large-scale GKG, the open sharing and application of built GKG, proving that the proposed framework can effectively support the construction, sharing, and application of large-scale GKG. This paper plays an important role in promoting the realization of the practical application value of GKG.

1 引言

地球科学(以下简称地学)是研究地球各圈层形成、演化及其相互作用的复杂巨系统的学科,包含地理学、地貌学、大气科学、海洋科学等众多分支[1]。地学是典型的数据密集型科学[2],注重从多源、多模态的地学数据中挖掘和发现地学规律[3]。随着全球覆盖、全天候监测、全要素观测的空天地一体化地球观测系统的形成[4],地学数据呈爆发式增长[5],地学研究进入大数据时代并逐步向大数据驱动的第四科研范式转变[6]。大数据背景下的地学科学发现通常涉及多源、多模态数据,但由于缺乏统一的语义基础,多源地学数据呈现显著的异构特征,数据的整合共享、关联集成和挖掘分析难度较大。例如,地学研究的深入和综合性的提高使得地学模型越来越庞大和复杂,需要的输入数据越来越多,其制备则更加耗时费力。地学大数据背景下,自动地为地学模型匹配输入数据可以缓解甚至解决输入数据制备的问题,但受限于数据语义的不一致性,模型输入数据自动匹配的实现极为困难[7-8]
解决上述问题的关键在于,通过知识工程技术,为新范式下的地学研究建立统一的、形式化的、计算机可理解的知识基础[4]。知识工程技术经历专家系统(1965年)、本体(1991年)、语义网(1998年)、关联数据(2006年)、知识图谱(2012年)的发展历程。目前,知识图谱已成为知识工程中最先进的技术,它以有向图(节点-边)的模式对人类知识进行形式化表达和组织,从而将人类知识建构为一种计算机可理解、可计算、可推理的语义网络,进而实现对知识的有效组织和管理[9]。通用知识图谱研究主要聚焦在基于自然语言处理和深度学习等技术的方法上,目前在实体抽取[10]、属性抽取[11]、关系抽取[12-13]、知识对齐融合[14]、知识表示[15]、知识补全[16]等方面已有较多成果[17]。同时,也出现了如DBpedia[18]、Yago[19]和Wikidata[20]等大型通用知识图谱。借助于这些技术方法以及知识图谱本身强大的知识表达能力、开放互联能力和推理预测能力,目前知识图谱已成为人工智能研究的重要分支[21],并广泛应用于个性化推荐、智能问答、语义搜索等方面[22-24]。例如,谷歌搜索和谷歌生活助手中均有知识图谱的支持。
地学知识图谱可视为知识图谱技术在地学领域的应用,聚焦在通过知识图谱技术将地学领域知识表示为计算机可理解的知识网络[25]。地学大数据研究与应用中存在的异构问题的解决需要地学知识图谱提供统一的知识基础[26]。例如,地学知识图谱可为地学数据的统一描述提供强大的语义基础,解决地学模型自动数据匹配中的语义异构问题。人工智能则需要借助于地学知识图谱的智能知识推理提升其地学思维能力[27]。相比于通用知识,地学知识具有显著且复杂的时空特征[28-29]。已有的通用知识图谱构建技术以及所构建的通用知识图谱(仅包含常识性地学知识),均缺乏对于地学时空特征、关系和规则等复杂专业知识的考虑,无法满足地学研究和应用的需要。正因为地学大数据研究和人工智能对于地学知识图谱的迫切需求,以及通用知识图谱及其相关技术在地学领域的局限性,地学知识图谱成为当前重要的研究热点[4,25,30-31]
当前的地学知识图谱研究主要从方法和应用 2个方面展开。方法上,在地学实体抽取[32-33]、关系抽取[34-35]、地学知识融合[36-37]、地学知识表示及补全[38-40]等方面已取得进展[41]。应用上,围绕疫情信息追踪和可视化[42-43]、灾害应急及减灾[44-45]、地学数据关联与推荐[7,46]等应用任务构建了小型的地学知识图谱。此外,还有采用众包方式构建的GeoNames Ontology[47]和OSM (OpenStreetMap) Semantic Network[48]等大型地学知识图谱[49],但二者仅包含地名和矢量数据,同样缺乏对于复杂地学知识的表示。因此,已有这些研究尚未形成顾及复杂时空特征与关系的大规模地学知识图谱的完整构建与应用框架,使得相关研究仍停留在理论方法和实验阶段,未能真正在地学领域现实应用中得到使用。为此,本文开展大规模地球科学知识图谱构建与共享应用框架的研究与实践,贡献如下:① 一种大规模地学知识图谱的构建技术流程;② 一种覆盖地学知识图谱构建、共享和应用全生命周期的总体框架。

2 地学知识图谱内涵

地学知识图谱(Geoscience Knowledge Graph,GKG)是指通过图(节点-边)的形式将地球科学知识表示为结构化的语义网络的一种技术。与地学知识图谱相比,陆锋等[30]系统研究了地理知识图谱,二者同样采用了知识图谱技术,但覆盖了不同学科知识,前者覆盖整体地球科学领域,后者则聚焦于地理学,因此后者可视为地学知识图谱在地理学的分支。张洪岩等提出地学信息图谱[50],旨在借助于地图学语言,实现地理时空表达和规律归纳分析,并未使用知识图谱技术,因此与地学知识图谱存在本质区别。
在地学知识图谱中,地学知识被抽象为实体及其属性和实体间关系的集合。其中,实体包含地学概念、术语、现象、过程、实例等;属性则既应包含实体的核心本质属性,也应包含其描述属性;关系则包含时空、语义关系等。实体表示为图的节点,节点由属性进行标记,关系则为连接节点的边,可形式化定义为式(1)[17,21]
G K G = ( V , E , T )
式中: V表示节点集合; E表示边集合; T V × E × V表示节点和边构成的三元组集合。
为了使地学知识图谱是计算机可理解和可计算的,需要将图中的节点和边进行形式化表达。形式化表达的实现通常借助于资源描述框架(Resource Description Framework,RDF),其基本单元是三元组(Triple, T),如式(2)所示,其中, S u b j e c t代表实体, P r e d i c a t e表示 S u b j e c t O b j e c t间的关系,Object代表实体或属性值。根据 O b j e c t是否为实体,三元组可分为2种形式:①“实体-关系-实体”:表示不同实体间的关系;②“实体-属性-属性值”表示实体的属性键值对。实体及关系均需要赋予统一资源标识符(Uniform Resource Identifier,URI)以确保知识图谱中资源的唯一性,便于知识查询和推理。
T = ( S u b j e c t , P r e d i c a t e , O b j e c t )
从知识组成层次分析,地学知识图谱包含2个层次的知识:模式层和实例层[9]。其中,模式层,又可称本体层,是对地学知识概念体系及其属性、关系和规则等的规范化定义和形式化表达,构成了地学知识图谱的统一模式;实例层,又称为数据层,是在模式层的约束下构建的表征地学概念的实体、现象等大量的具体实例。模式层是知识图谱的概念模型,也是实例层的逻辑基础,只有依赖于模式层中地学关系和规则的规范定义,才能真正实现地学知识的推理和计算;实例层是知识图谱的数据支撑,也是模式层的具体实现,只有包含地学概念的海量实例,才能真正支撑具体应用。

3 大规模地学知识图谱构建技术

3.1 大规模地学知识图谱构建总体流程

大规模地学知识图谱的构建需首先通过自顶向下的方式建立本体层,实现地学概念、复杂关系及规则等的形式化表达,为实例层的构建及知识的计算推理奠定统一的模式;然后在模式层约束下进行自底向上的大规模实例层自动抽取。由于模式层已考虑地学复杂关系及规则,则在此约束下构建的大规模地学知识图谱可实现地学知识的计算推理。总体流程可分为2个阶段:本体层构建阶段和实例层构建阶段,如图1所示。
图1 地学知识图谱构建总体流程

Fig. 1 The overall workflow for constructing a geoscience knowledge graph

本体层构建阶段的主要目标是系统化、规范化、形式化地定义和表达地学概念及其属性、关系和规则。该阶段通常以领域专家的自顶向下手工构建为主,计算机自动构建或复用已有本体为辅,包括知识体系梳理、本体构建和形式化表达三大步骤。知识体系梳理包括建立概念体系、定义概念属性和关系等;本体构建指利用本体构建工具录入知识体系;形式化表达则是将知识体系用形式化语言进行表示。该阶段主要借助于知识体系构建、模块化、结构化知识自动转换等技术,利用文献、教科书、已有本体等数据,形成本体层。
实例层构建阶段的主要目标是在本体层的约束下,提取每个概念所对应的实例及其属性和关系。该阶段通常以自底向上的自动化抽取为主,包括以下步骤:① 知识抽取:利用信息抽取技术从多源多模态语料数据中(包括网络文本、图像、文献、报告等)抽取实例及其属性和关系;② 知识融合:通过知识对齐融合方法解决从多源语料中抽取的知识的不一致、冲突等问题;③ 知识补全:基于已有知识,通过知识表示和计算推理等方法,进一步补充实例的属性及关系。
2个阶段形成的本体和实例共同构成地学知识图谱。本体为实例的抽取提供规则约束和指导;通过对抽取到的实例的归纳和抽象也可能会发现在本体构建阶段遗漏的地学概念、属性、关系及规则,进而实现基于实例层的本体补全。同时,为了便于知识图谱的对外引用共享,还需要综合考虑本体概念、属性及关系的统一命名规则、本体的知识体系、逻辑层次等,为知识图谱实体生成统一资源标识符。

3.2 本体层构建步骤

本体构建应在明确性、可扩展性、一致性、最小编码倾向和最小本体化承诺的五原则下进行[51]。参考斯坦福大学提出的本体构建七步法[52],同时,考虑地学知识图谱本体的时空特性,其构建步骤如图2所示。
图2 地学知识图谱本体构建步骤

Fig. 2 The steps for constructing ontologies of a geoscience knowledge graph

(1)确定本体领域范围。首先由专家根据研究目标或应用需求,定义地学知识图谱本体的领域范围。
(2)本体总体架构设计。按照确定的本体领域范围,基于地学知识图谱本体的内容和功能定位,通常将本体划分为3个层次:通用基础本体层、学科本体层和应用本体层。其中,通用基础本体层包含与具体的地学子学科和应用无关的本体,可用于支撑学科本体和应用本体的构建,主要包含时间本体、空间本体等;学科本体层包含地学不同子学科的本体,可以引用和复用通用基础本体,同时可支撑相应学科的应用本体的构建,例如地貌学本体、地质学本体等;应用本体层则仅面向具体应用,构建时可引用通用基础本体以及涉及的学科本体,例如黄土地貌识别、地质灾害防治等应用本体。
(3)本体模块划分。按照“模块内聚合度高和模块间耦合度低”的原则,将本体层划分为多个具有相对独立意义,但同时又相互关联的“模块”,对每个本体模块单独构建。本体的模块化构建有利于本体的复用和更新。例如,可将地貌学本体按照地貌类型进一步划分为平原本体、高原本体、山地本体等模块。
(4)收集语料和已有本体库。依据划分的本体模块,收集相关的文献、数据等语料,以及国内外已有知识库,包括术语字典、叙词表、本体库等。例如OpenStreetMap (https://www.openstreetmap.org/)、GeoNames (http://www.geonames.org/)、SWEET (https://github.com/ESIPFed/sweet)等知识库。
(5)时空本体构建。地学知识相比于其他领域知识的显著特点在于其复杂的时空特征[28-29],因此,需全面考虑时空尺度、粒度、频度以及类型、格式等内容,构建时空本体,为构建学科本体和应用本体奠定时空语义基础。针对时间特征,考虑地质时间与现代时间、绝对时间与相对时间、事件时间与数据库时间等多种时间类型,建立包含时间点与时间段、时间基准与参考系、时间不确定度与时间单位、时间拓扑关系等基本元素的统一时间本体,该本体可将复杂时间特征表示在统一的时间轴上,以实现复杂时间实体的可计算;针对空间特征,考虑古地理空间与现代空间、绝对空间与相对空间等空间类型,构建包含空间形态与几何形状、空间基准与参考系、空间不确定性、空间拓扑关系等基本元素的统一空间本体,该本体可将空间实体表示在统一的坐标系中,以实现复杂空间推理。时空本体构建应首先考虑收集的语料和本体库中是否存在可复用的本体、知识库或结构化数据,若有则进行复用或快速转换。例如,W3C推荐的标准时间本体OWL-Time(https://www.w3.org/TR/owl-time/)。
(6)学科和应用本体构建。首先考虑是否可以通过本体复用的方式快速构建,对于无法快速构建的本体模块,采用知识体系梳理的方式进行构建,具体步骤如下(以黄土地貌本体为例):
① 列举顶层概念。根据不遗漏且不重叠的原则,梳理并确定本体模块的顶层概念。例如,黄土地貌本体包含黄土沟谷、黄土塬、黄土峁、黄土梁等顶层概念。
② 建立概念层次体系。仍然遵循不遗漏且不重叠的原则,逐一对上一步确定的顶层概念,按照自顶向下的方式,逐级确定其下级概念,形成概念层次体系。以顶层概念“黄土沟谷”为例,其包含切沟、冲沟、干沟等子概念。
③ 定义概念属性。步骤如下(以切沟为例):首先,定义形成概念的全属性列表。例如,切沟包含“地貌类型为”、“地貌特征为”、“发育动力为”、“海拔是”等属性;然后,确定属性类型及其取值约束。概念属性可分为对象属性和数据属性2类,对象属性指该属性的属性值仍然是一个对象(如“发育动力为”为对象属性),数据属性指可以直接赋值的属性(如“海拔是”为数据属性)。针对对象属性,应指明其属性值所引用的概念,例如指明“发育动力为”的属性值应引用“发育动力”概念。针对数据属性,应明确其数据类型(包含文本型、数值型等)以及其属性取值约束或规则,例如“海拔是”的属性值为数值型。
④ 梳理概念关系。地学概念间关系大致可分为:语义关系、时间关系、空间关系、数学关系和关联关系等。语义关系包括:词义关系(同义、近义等)和层次关系,例如黄土地貌、黄土沟谷、切沟等概念具有上下位的层次关系;时间关系包括:时间方向关系(早于、晚于等)、时间拓扑关系(时间相邻、相交等),例如,黄土地貌形成的时间先后关系;空间关系包括:空间方位关系(四方位中的东、西、南、北)、空间拓扑关系(空间相邻、相交等),例如,不同切沟间的空间拓扑关系;数学关系指一个概念是通过数学模型由一个或多个概念计算得到,数学模型包含简单的数学公式、复杂的计算模型等;关联关系指除上述关系外的地学概念间的相关关系,例如成因关系、演化关系等。梳理概念关系时,还需定义以下内容:关系的定义域和值域;关系性质(包含传递性、对称性、可逆性等),例如空间包含关系具有传递性;关系方向;关系基数(指关系所关联的概念间的对应数量)。
(7)形式化表达。利用本体构建工具对各本体模块进行形式化表达。
(8)本体集成。根据本体的模块划分,通过本体模块间的相互引用,完成自下而上的本体模块集成。

3.3 实例层构建步骤

在本体层的约束下,借助于监督或非监督的计算机技术,从多源多模态语料中自动提取实例知识,完成大规模实例层的构建,具体步骤如图3所示。
图3 地学知识图谱实例构建具体步骤

Fig. 3 The steps for obtaining instances of a geoscience knowledge graph

(1)语料收集及建库。通过网络爬虫、人工整理等方式收集相关网络文本、图像、文献、报告等资料,形成自动化实例提取所需的语料。对收集的语料进行必要的预处理(例如去除重复或者无关语料等)并进行整理建库。
(2)实体识别。利用自然语言处理、图像识别、机器学习、深度学习等实体识别技术从多源多模态的语料中自动挖掘和提取本体层中概念所包含的实例。
(3)属性抽取。针对上一步中提取的实例,根据其所属的本体层中定义的概念属性列表,通过基于规则的方法或机器学习方法等自动填充实例的属性。
(4)关系抽取。针对第(2)步中提取的实例,根据其所属的本体层中定义的概念关系,通过句法分析、机器学习等方法自动抽取实例间的关系。
(5)知识融合。利用实例对齐、属性融合、关系匹配等方法,基于词法、结构等多维相似度对从多源多模态语料中提取的实例及其属性、关系等进行对齐融合,解决多源语料所带来的知识异构和不一致等问题。
(6)形式化表达。建立自动抽取的实例及其属性、关系等与本体层中定义的模式的映射。具体地,将实例映射至其对应的类,将属性映射至其对应的属性关键词,将关系映射至其对应的关系谓词,基于上述映射关系,自动地将实例层知识转换为RDF文件,实现形式化表达。
(7)知识补全。通过知识的表示学习方法将知识图谱中实体、关系和属性等表示为向量,然后利用知识的计算推理方法,补全RDF三元组中的缺失元素。

4 地学知识图谱构建与共享应用框架

4.1 总体架构

地学知识图谱构建与共享应用框架的定位是支撑大规模地学知识图谱从构建管理到应用服务全生命周期的综合框架,既应支持大规模地学知识图谱的协同构建,也应提供地学知识图谱的开放共享服务,更应具备地学知识图谱赋能地学创新研究,促进地学研究新成果、新发现的应用支撑能力。因此,该框架的目标是,以“协同共建、共享应用”为主线,以“开放协同、智能高效、安全可控”为原则,力求形成地学知识图谱持续构建更新与质量控制机制,实现多人协同-人机协同相结合的地学知识图谱科学高效构建、持续更新管理、有序共享服务和深度创新应用等功能,以全面支撑大规模地学知识图谱的构建更新与共享服务。基于该框架的定位目标,其总体架构如图4所示,由地学知识图谱构建管理和共享应用两大平台组成。
图4 地学知识图谱构建与共享应用总体架构

Fig. 4 The overall architecture for the construction, sharing, and application of a geoscience knowledge graph

地学知识图谱构建管理平台包括:群智协同构建系统(GKG Editor)和知识自动抽取系统(GKG Extractor)。2个系统可形成自顶向下和自底向上相结合,多人协同和人机协同相结合的大规模地学知识图谱科学高效构建与持续更新模式,具体地:
(1)群智协同构建系统:主要面向地学领域专业科研人员,实现自顶向下的地学知识图谱本体层多人协同构建及其更新管理。该系统的关键技术问题在于协同编辑中的知识版本管理;关键科学问题在于知识协同编辑中的矛盾检测与解决以及知识质量审核。
(2)知识自动抽取系统:基于多模态地学知识语料,利用数据映射、自然语言处理、知识抽取、对齐融合[53-54]等技术,实现自底向上的地学知识图谱实例层的构建及其更新管理[55-56]。该系统的关键技术问题在于多模态地学知识数据源的获取;关键科学问题在于语料质量评估、高精度地学知识抽取以及多源知识融合等。
地学知识图谱共享应用平台包括:知识共享服务系统(GKG Provider)和知识应用赋能系统(GKG Enabler)。2个系统可支撑从基础共享到深度应用2个层次的地学知识图谱共享应用服务,具体地:
(3)知识共享服务系统:面向地学科研人员、相关政府管理部门和产业部门以及对地学知识图谱感兴趣的普通用户等,通过在线浏览、接口访问、文件下载等多种形式,提供分类分级、安全有序的地学知识图谱共享服务功能。该系统的关键技术问题在于大规模并行查询访问的快速响应。
(4)知识应用赋能系统:面向地学领域专业科研人员,基于地学知识图谱,赋能智能搜索与关联推荐、知识演化分析、推理计算与预测等深度应用。该系统的关键科学问题在于基于知识图谱表示学习的知识计算、推理和预测。
从操作步骤上讲,本文提出的总体框架与通用知识图谱相差不大。然而,本框架的核心贡献在于,对知识图谱的全生命周期活动进行了科学的分解,并将其体现在上述四大系统中。四大系统既可以独立运作,也具有紧密的协作和支撑关系。因此,既保留了系统间的耦合关系,也最大限度的提升了系统的独立性。当不需要服务于同一应用目标时,四大系统可分别作为地学本体编辑工具、地学知识抽取工具、地学知识共享工具和应用支撑工具独立运作。当四大系统服务于同一场景时,平台和系统层次均存在紧密的协作关系。平台层次上,地学知识图谱构建管理平台的两大系统共同构建形成地学知识图谱,为共享应用平台提供知识支撑;同时,共享应用平台的两大系统根据共享和应用成效可对构建管理平台进行问题及需求反馈。系统层次上,系统间通过接口实现互操作和通信,群智协同系统构建本体层并通过接口传入自动抽取系统为其提供本体约束,自动抽取系统构建地学知识图谱实例层,二者共同形成大规模地学知识图谱;形成的地学知识图谱通过接口传入共享服务系统实现知识共享;共享服务系统通过接口为应用赋能系统提供知识服务,应用赋能系统则通过应用效果引导地学知识图谱的持续扩大共享。总之,平台系统间的紧密协作,可驱动整体框架的循环迭代,从而不断提升地学知识图谱的构建与共享应用服务。

4.2 功能体系

为达到地学知识图谱构建与共享应用框架的目标,其包含的四大系统需实现图5中的功能体系。
图5 地学知识图谱构建与共享应用框架功能体系

Fig. 5 The system functions of the architecture for the construction, sharing, and application of a geoscience knowledge graph

4.2.1 群智协同构建系统

群智协同构建系统应实现知识创建管理、协同编辑与版本管理、知识质量审核以及知识查询与统计分析四大功能模块。
(1)知识创建管理。主要支持地学知识图谱本体层的人工创建与编辑管理,包括本体概念、属性、关系、规则等的创建及其关联管理:实现概念体系、概念数据属性和对象属性,语义关系、时空关系,简单取值规则、复合规则等的添加;本体的导入集成与导出管理;本体的增量更新。同时,应支持实例的人工创建,以弥补知识自动抽取系统可能的遗漏,实现人机协同的实例层构建。
(2)协同编辑与版本管理。支持多人在线同时进行本体层的协同编辑,实现编辑对象的锁定、不同编辑版本的查看、比对与保存等功能,避免多人协同编辑时出现冲突;支持本体协同编辑过程的跟踪和版本追溯。
(3)知识质量审核。支持依据本体构建规则,通过基于专家知识、用户贡献信用度、投票策略等方式,对协同构建的本体进行人机结合的质量审核。
(4)知识查询与统计分析。支持本体层的可视化浏览和查询;支持对本体层概念、属性、关系等的统计分析。

4.2.2 知识自动抽取系统

知识自动抽取系统应实现语料爬取与清洗、地学知识抽取、地学知识对齐融合和知识图谱生成与补全四大功能模块。
(1)语料爬取与清洗。语料数据是地学知识抽取的基础和前提,包括结构化数据(已有知识库、表格类数据)、半结构化数据(百科类网页)、非结构化数据(网络文本、科技文献[57])等。该功能模块主要实现:① 语料数据自动爬取;② 数据预处理:包括去重、去除无效或错误语料、纸质文献OCR(Optical Character Recognition)处理、建立索引等;③ 语义标注:基于地学知识图谱本体层,对语料数据进行标注。
(2)地学知识抽取。依据地学知识图谱本体层,采用自然语言处理、深度学习等技术,实现地学知识实例的识别及其属性、关系的抽取。
(3)地学知识对齐融合。多源语料数据中抽取得到的地学知识可能有不一致甚至冲突等问题。因此,系统应实现地学知识的自动一致性检测功能,并针对检测到的不一致或冲突,通过相似度计算、匹配关联以及消歧等方法实现对齐融合。
(4)知识图谱生成与补全。实现地学知识图谱本体层与实例层的自动关联,基于此,自动生成由“节点-边”构成的地学知识图谱;支持地学知识图谱的全局与增量更新;支持基于知识图谱表示学习的知识补全。

4.2.3 知识共享服务系统

知识共享服务系统包含知识图谱的浏览、查询、下载与引用以及共享权限管理四大功能模块。
(1)知识图谱浏览。支持通过知识图谱目录树、节点图以及地图等多种形式,浏览全部或部分地学知识图谱;支持知识图谱节点图的放大、缩小、漫游等;支持知识节点详情浏览;支持基于地图的知识图谱实例对象浏览。
(2)知识图谱查询。支持多种方式的查询,包括简单关键词查询、不同条件组合的复合查询、基于地图的实例查询和基于SPARQL语句的查询。
(3)知识图谱下载与引用。支持不同格式(RDF、N-Triples、Turtle、JSON等)、不同版本的单一或指定范围知识图谱文件下载;支持通过URI在线引用的方式共享和链接知识图谱文件。
(4)共享权限管理。支持对用户的浏览、下载、分发、传播等权限进行分组分级管理,以确保能够安全有序进行地学知识图谱的共享;支持对知识图谱共享的统计分析。

4.2.4 知识应用赋能系统

知识应用赋能系统包含智能搜索推荐、知识网络分析、知识演化分析、知识深度应用四大功能模块。
(1)智能搜索推荐。支持基于知识图谱语义推理计算的地学知识关联推荐以及智能问答等。
(2)知识网络分析。支持利用复杂网络的度中心性、接近中心性、介数中心性和特征向量中心性以及社区检测等方法,对地学知识图谱进行知识网络分析。
(3)知识演化分析。支持基于不同版本的知识图谱实现概念体系及属性、关系、规则等的演化分析;支持基于知识图谱的地学对象时空分布格局、演变过程分析等。
(4)知识深度应用。支持基于地学知识图谱的深度应用,包括地学对象精准识别、地学现象或过程深度关联分析、地学复杂建模以及模型数据自动匹配、灾害诊断防治决策等。

5 深时数字地球(DDE)国际大科学计划知识图谱平台研发实践

“深时数字地球(Deep-time Digital Earth,DDE)”是2019年由中国科学家发起和主导,并由国际地质科学联合会(International Union of Geological Sciences,IUGS)批准并推动实施的国际大科学计划[58-59]。DDE旨在通过全球科学家和机构的协作,整合过去数十亿年的地学大数据,搭建全球共享的一站式处理分析平台,推动地学在大数据时代的创新发展。DDE宏伟目标的实现需要借助于大数据分析、人工智能等现代技术,而地学知识图谱是驱动地学大数据和地学与人工智能交叉融合发展的关键基础设施,因此,构建DDE地学知识图谱就成为实现DDE愿景目标的必要条件。
构建DDE地学知识图谱需要知识图谱平台的支撑。基于本文的地学知识图谱构建与共享应用框架,以Vue.js+SpringBoot为共性的前后端架构开展了DDE知识图谱平台的设计与研发实践(图6),并形成:① DDE群智协同构建系统(DDE KG Editor);② 以深度学习与人在回路标注为核心技术、以科技文献为主要语料的知识自动抽取系统(DDE KG Extractor);③ 以RDF4j和Apache Jena类库及图查询语言Gremlin和SPARQL为核心的知识共享服务系统(DDE KG Provider);④ 应用赋能系统(DDE KG Enabler)。同时,设计并研发了基于REST API的系统间接口以实现互操作和通信:将群智协同构建系统中构建的本体层接入知识自动抽取系统;将前二者共同构建的知识图谱接入知识共享服务系统和应用赋能系统。为了避免跨系统共性技术的重复研发,采用技术中台的模式,将自然语言处理模型、机器学习模型、图数据库管理等共性技术进行整合集成,实现复用共享。DDE知识图谱平台实现了DDE知识图谱本体层的自顶向下构建、实例层的自底向上自动抽取、知识图谱共享及赋能地学深度应用等功能,可全面支撑DDE知识图谱的构建与共享应用。
图6 DDE知识图谱平台界面

Fig. 6 The graphical interfaces of the platform for DDE Knowledge Graph

DDE知识图谱平台支撑了DDE团队的地学知识图谱构建和共享应用实践。在群智协同构建系统中,构建了包含矿物学、地貌学、古地理学等18个地学子学科的知识体系,包含约47 000多个知识节点;在知识自动抽取系统中,已实现对约300多万篇地学文献的“图-文-数”自动提取及知识图谱实例层构建;在知识共享服务系统中,已集成了DDE知识图谱时空、数据形态、来源本体等;在知识应用赋能系统中,已基本实现了基于知识图谱的地学文献语义查询、地学学科知识树自动生成、学科发展趋势与热点分析等应用。

6 结语

面向地学大数据和地学人工智能发展对大规模地学知识图谱的迫切需求,本文首先研究了大规模地学知识图谱的构建技术,提出一种自顶向下和自底向上结合的构建方法,可实现顾及地学复杂时空特征、关系及规则的大规模地学知识图谱构建。基于此,提出一种覆盖地学知识图谱构建、共享和应用全生命周期的综合框架。该框架包含两大平台4个系统:地学知识图谱构建管理平台:群智协同构建系统和知识自动抽取系统;地学知识图谱共享应用平台:共享服务系统和应用赋能系统。四大系统分别支撑地学知识图谱的本体层和实例层构建、知识共享和深度应用,既可独立运行,又能相互协作。本框架可作为未来地学知识图谱应用研发的参考模板,以促进知识图谱的地学应用。
以“深时数字地球(DDE)”国际大科学计划这一典型现实应用为例开展实践,研发了DDE地学知识图谱平台,构建了DDE大规模地学知识图谱,具备对外共享服务和应用的能力,证明了本框架可有效支撑大规模地学知识图谱的构建与共享应用。本研究充分体现了地学知识图谱在现实应用中的价值,弥补了目前地学知识图谱研究主要面向实验场景,缺乏面向实际应用研究的问题,对于促进地学知识图谱的构建管理、持续更新与共享应用等具有重要的意义。
当前,地学知识图谱研究仍停留在理论和实验阶段,缺乏实际案例应用,这是目前面临的突出问题。因此,下一步将继续选择典型应用案例,以本文提出的框架为基础进行系统研发及地学知识图谱构建和共享应用实践,并进行应用案例分析,探索地学知识图谱的实际应用成效。另外,相比于计算机领域在知识图谱表示学习、链接预测和知识补全等关键技术上的进展,地学知识图谱的相关研究还远远不够,未来需要进一步研究。

感谢中国地质大学(北京)王成善院士和中国科学院地理科学与资源研究所周成虎院士,以及深时数字地球(DDE)国际大科学计划大知识组其他老师的指导。

[1]
孙鸿烈. 地学大辞典[M]. 北京: 科学出版社, 2017.

[ Sun H L. Dictionary of geoscience[M]. Beijing: Science Press, 2017. ]

[2]
郭华东, 王力哲, 陈方, 等. 科学大数据与数字地球[J]. 科学通报, 2014, 59(12):1047-1054.

[ Guo H D, Wang L Z, Chen F, et al. Scientific big data and digital Earth[J]. Chinese Science Bulletin. 2014, 59(12):1047-1054. ] DOI:10.1360/972013-1054

DOI

[3]
Miller H J, Goodchild M F. Data-driven geography[J]. GeoJournal, 2015, 80(4):449-461. DOI:10.1007/s10708-0 14-9602-6

DOI

[4]
周成虎, 王华, 王成善, 等. 大数据时代的地学知识图谱研究[J]. 中国科学:地球科学, 2021, 51(7):1070-1079.

[ Zhou C H, Wang H, Wang C S, et al. Prospects for the research on geoscience knowledge graph in the big data era[J]. Science China Earth Sciences, 2021, 51(7):1070-1079. ] DOI:10.1360/SSTe-2020-0337

DOI

[5]
林珲, 游兰, 胡传博, 等. 时空大数据时代的地理知识工程展望[J]. 武汉大学学报·信息科学版, 2018, 43(12):2205-2211.

[ Lin H, You L, Hu C B, et al. Prospect of geo-knowledge engineering in the era of spatio-temporal big data[J]. Geomatics and Information Science of Wuhan University, 2018, 43(12):452-458. ] DOI:10.13203/j.whugis20180318

DOI

[6]
Hey A J, Tansley S, Tolle K M. The fourth paradigm: Data-intensive scientific discovery[M]. WA: Microsoft research Redmond, 2009.

[7]
Zhu Y Q, Zhu A-X, Feng M, et al. A similarity-based automatic data recommendation approach for geographic models[J]. International Journal of Geographical Information Science, 2017, 31(7):1403-1424. DOI:10.1080/13658816.2017.1300805

DOI

[8]
Zhu Y Q, Yang J. Automatic data matching for geospatial models: a new paradigm for geospatial data and models sharing[J]. Annals of GIS, 2019, 25(4):283-298. DOI:10.1080/19475683.2019.1670735

DOI

[9]
黄恒琪, 于娟, 廖晓, 等. 知识图谱研究综述[J]. 计算机系统应用, 2019, 28(6):1-12.

[ Huang H Q, Yu J, Liao X, et al. Review on Knowledge Graphs[J]. Computer Systems and Applications, 2019, 28(6):1-12. ] DOI:10.15888/j.cnki.csa.006915

DOI

[10]
Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[C]. Proceedings of NAACL, San Diego, USA, 2016. DOI:10.18653/v1/N16-1030

DOI

[11]
Zhang Z Z, Sun L, Han X P. A joint model for entity set expansion and attribute extraction from web search queries[C]. Proceedings of the AAAI Conference on Artificial Intelligence, Phoenix, USA. 2016. DOI:10.5555/3016100.3016336

DOI

[12]
Pawar S, Palshikar G K, Bhattacharyya P. Relation extraction: A survey[preprint]. 2017-12-14.

[13]
Zheng S C, Hao Y X, Lu D Y, et al. Joint entity and relation extraction based on a hybrid neural network[J]. Neurocomputing, 2017, 257:59-66. DOI:10.1016/j.neucom.2016.12.075

DOI

[14]
Sun Z Q, Hu W, Zhang Q H, et al. Bootstrapping entity alignment with knowledge graph embedding[C]. Proceedings of the IJCAI, Stockholm, Sweden, 2018. DOI:10.24963/ijcai.2018/611

DOI

[15]
Wang Q, Mao Z D, Wang B, et al. Knowledge graph embedding: A survey of approaches and applications[J]. IEEE Transactions on Knowledge and Data Engineering, 2017, 29(12):2724-2743. DOI:10.1109/TKDE.2017.2754499

DOI

[16]
Lin Y K, Liu Z Y, Sun M S, et al. Learning entity and relation embeddings for knowledge graph completion[C]. Proceedings of the AAAI conference on artificial intelligence, Austin, USA, 2015. DOI:10.5555/2886521.2886624

DOI

[17]
Ji S X, Pan S R, Cambria E, et al. A survey on knowledge graphs: Representation, acquisition, and applications[J]. IEEE Transactions on Neural Networks and Learning Systems, 2021:1-21. DOI:10.1109/TNNLS.2021.3070843

DOI

[18]
Mendes P N, Jakob M, Bizer C. DBpedia: A multilingual cross-domain knowledge base[J]. Speech Communication, 2012:1813-1817.

[19]
Tanon T P, Weikum G, Suchanek F. Yago 4: A reason-able knowledge base[C]. Proceedings of the European Semantic Web Conference, Heraklion, Greece, 2020. DOI:10.1007/978-3-030-49461-2_34

DOI

[20]
VrandeČiĆ D, Krötzsch M. Wikidata: A free collaborative knowledgebase[J]. Communications of the ACM, 2014, 57(10):78-85. DOI:10.1145/2629489

DOI

[21]
徐增林, 盛泳潘, 贺丽荣, 等. 知识图谱技术综述[J]. 电子科技大学学报, 2016, 45(4):589-606.

[ Xu Z L, Sheng Y P, He L R, et al. Review on knowledge graph techniques[J]. Journal of University of Electronic Science and Technology of China, 2016, 45(4):589-606. ] DOI:10.3969/j.issn.1001-0548.2016.04.012

DOI

[22]
Shao B L, Li X J, Bian G Q. A survey of research hotspots and frontier trends of recommendation systems from the perspective of knowledge graph[J]. Expert Systems with Applications, 2021,165,113764. DOI:10.1016/j.eswa.2020.113764

DOI

[23]
Chen X J, Jia S B, Xiang Y. A review: Knowledge reasoning over knowledge graph[J]. Expert Systems with Applications, 2020,141,112948. DOI: 10.1016/j.eswa.2019.112948

DOI

[24]
Zhang Y Y, Dai H J, Kozareva Z, et al. Variational reasoning for question answering with knowledge graph[C]. Proceedings of the AAAI Conference on Artificial Intelligence, New Orleans, USA, 2018.

[25]
齐浩, 董少春, 张丽丽, 等. 地球科学知识图谱的构建与展望[J]. 高校地质学报, 2020, 26(1):2-10.

DOI

[ Qi H, Dong S C, Zhang L L, et al. Construction of earth science knowledge Graph and Its Future Perspectives[J]. Geological Journal of China Universities, 2020, 26(1):2-10. ] DOI:10.16108/j.issn1006-7493.2019099

DOI

[26]
Zhou C H, Wang H, Wang C S, et al. Prospects for the research on geoscience knowledge graph in the Big Data Era[J]. Science China Earth Sciences, 2021, 64:1105-1114. DOI: 10.1007/s11430-020-9750-4

DOI

[27]
高松. 地理空间人工智能的近期研究总结与思考[J]. 武汉大学学报·信息科学版, 2020, 45(12):1865-1874.

[ Gao S. A review of recent researches and reflections on geospatial artificial intelligence[J]. Geomatics and Information Science of Wuhan University, 2020, 45(12):1865-1874. ] DOI:10.13203/j.whugis20200597

DOI

[28]
张雪英, 张春菊, 吴明光, 等. 顾及时空特征的地理知识图谱构建方法[J]. 中国科学:信息科学, 2020, 50(7):1019-1032.

[ Zhang X Y, Zhang C J, Wu M G, et al. Spatio-temporal features based geographical knowledge graph construction[J]. SCIENTIA SINICA Informationis, 2020, 50(7):1019-1032. ] DOI:10.1360/SSI-2019-0269

DOI

[29]
Wang S, Zhang X Y, Ye P, et al. Geographic Knowledge Graph (GeoKG): A formalized geographic knowledge representation[J]. ISPRS International Journal of Geo-information, 2019, 8(4):184-207. DOI:10.3390/ijgi8040184

DOI

[30]
陆锋, 余丽, 仇培元. 论地理知识图谱[J]. 地球信息科学学报, 2017, 19(6):723-734.

DOI

[ Lu F, Yu L, Qiu P Y. On geographic knowledge graph[J]. Journal of Geo-information Science, 2017, 19(6):723-734. ] DOI:10.3724/SP.J.1047.2017.00723

DOI

[31]
王志华, 杨晓梅, 周成虎. 面向遥感大数据的地学知识图谱构想[J]. 地球信息科学学报, 2021, 23(1):16-28.

DOI

[ Wang Z H, Yang X M, Zhou C H. Geographic knowledge graph for remote sensing big data[J]. Journal of Geo-information Science, 2021, 23(1):16-28. ] DOI:10.12082/dqxxkx.2021.200632

DOI

[32]
Lozano M G, Schreiber J, Brynielsson J. Tracking geographical locations using a geo-aware topic model for analyzing social media data[J]. Decision Support Systems, 2017, 99:18-29. DOI:10.1016/j.dss.2017.05.006

DOI

[33]
Wang J M, Hu Y J, Joseph K. NeuroTPR: A neuro-net toponym recognition model for extracting locations from social media messages[J]. Transactions in GIS, 2020, 24(3):719-735. DOI:10.1111/tgis.12627

DOI

[34]
余丽, 陆锋, 刘希亮. 开放式地理实体关系抽取的Bootstrapping方法[J]. 测绘学报, 2016, 45(5):616-622.

[ Yu L, Lu F, Liu X L. A bootstrapping based approach for open geo-entity relation extraction[J]. Acta Geodaetica et Cartographica Sinica, 2016, 45(5):616-622. ] DOI:10.11947/j.AGCS.2016.20150181

DOI

[35]
余丽, 陆锋, 刘希亮, 等. 稀疏地理实体关系的关键词提取方法[J]. 地球信息科学学报, 2016, 18(11):1465-1475.

DOI

[ Yu L, Lu F, Liu X L, et al. A method of context enhanced keyword extraction for sparse geo-entity relation[J]. Journal of Geo-information Science, 2016, 18(11):1465-1475. ] DOI:10.3724/SP.J.1047.2016.01465

DOI

[36]
Trisedya B D, Qi J Z, Zhang R. Entity alignment between knowledge graphs using attribute embeddings[C]. Proceedings of the AAAI Conference on Artificial Intelligence, Honolulu, USA, 2019. DOI:10.1609/aaai.v33i01.3301297

DOI

[37]
Yu L, Qiu P Y, Liu X L, et al. A holistic approach to aligning geospatial data with multidimensional similarity measuring[J]. International journal of digital earth, 2018, 11(8):845-862. DOI:10.1080/17538947.2017.1359688

DOI

[38]
Mai G C, Janowicz K, Yan B, et al. Multi-Scale Representation Learning for Spatial Feature Distributions using Grid Cells[C]. Proceedings of the International Conference on Learning Representations. Addis Ababa, Ethiopia, 2020.

[39]
Mai G C, Janowicz K, Cai L, et al. SE-KGE: A location-aware Knowledge Graph Embedding model for Geographic question answering and spatial semantic lifting[J]. Transactions in GIS, 2020, 24(3):623-655. DOI:10.1111/tgis.12629

DOI

[40]
Qiu P Y, Gao J L, Yu L, et al. Knowledge embedding with geospatial distance restriction for geographic knowledge graph completion[J]. ISPRS International Journal of Geo-information, 2019, 8(6):254-276. DOI:10.10.3390/ijgi8060254

DOI

[41]
Ma X G. Knowledge graph construction and application in geosciences: A review[preprint]. 2021-04-30. DOI:10.31223/x5z898

DOI

[42]
陈晓慧, 刘俊楠, 徐立, 等. COVID-19病例活动知识图谱构建——以郑州市为例[J]. 武汉大学学报·信息科学版, 2020, 45(6):816-825.

[ Chen X H, Liu J N, Xu L, et al. Construction of the COVID-19 epidemic cases activity knowledge graph: A case study of Zhengzhou City[J]. Geomatics and Information Science of Wuhan University, 2020, 45(6):816-825. ] DOI:10.13203/j.whugis20200201

DOI

[43]
蒋秉川, 游雄, 李科, 等. 利用地理知识图谱的COVID-19疫情态势交互式可视分析[J]. 武汉大学学报·信息科学版, 2020, 45(6):836-845.

[ Jiang B C, You X, Li K, et al. Interactive visual analysis of COVID-19 epidemic situation using geographic knowledge graph[J]. Geomatics and Information Science of Wuhan University, 2020, 45(6):836-845. ] DOI:10.13203/j.whugis20200153

DOI

[44]
杜志强, 李钰, 张叶廷, 等. 自然灾害应急知识图谱构建方法研究[J]. 武汉大学学报·信息科学版, 2020, 45(9):1344-1355.

[ Du Z Q, Li Y, Zhang Y T, et al. Knowledge graph construction method on natural disaster emergency[J]. Geomatics and Information Science of Wuhan University, 2020, 45(9):1344-1355. ] DOI:10.13203/j.whugis20200047

DOI

[45]
陶坤旺, 赵阳阳, 朱鹏, 等. 面向一体化综合减灾的知识图谱构建方法[J]. 武汉大学学报·信息科学版, 2020, 45(8):1296-1302.

[ Tao K W, Zhao Y Y, Zhu P, et al. Knowledge graph construction for integrated disaster reduction[J]. Geomatics and Information Science of Wuhan University, 2020, 45(8):1296-1302. ] DOI:10.13203/j.whugis20200125

DOI

[46]
赵红伟, 诸云强, 侯志伟, 等. 地理空间元数据关联网络的构建[J]. 地理科学, 2016, 36(8):1180-1189.

DOI

[ Zhao H W, Zhu Y Q, Hou Z W, et al. Construction of geospatial metadata association network[J]. Scientia Geographica Sinica, 2016, 36(8):1180-1189. ] DOI:10.13249/j.cnki.sgs.2016.08.008

DOI

[47]
Marc Wick, GeoNames Ontology[EB/OL]. www.geonames.org/ontology/documentation.html, 2021-07-25.

[48]
Ballatore A, Bertolotto M, Wilson D C. Geographic knowledge extraction and semantic similarity in OpenStreetMap[J]. Knowledge and Information Systems, 2013, 37(1):61-81. DOI: 10.1007/s10115-012-0571-0

DOI

[49]
蒋秉川, 万刚, 许剑, 等. 多源异构数据的大规模地理知识图谱构建[J]. 测绘学报, 2018, 47(8):1051-1061.

[ Jiang B C, Wan G, Xu J, et al. Geographic Knowledge Graph Building Extracted from Multi-sourced Heterogeneous Data[J]. Acta Geodaetica et Cartographica Sinica, 2018, 47(8):1051-1061. ] DOI: 10.11947/j.AGCS.2018.20180113

DOI

[50]
张洪岩, 周成虎, 闾国年, 等. 试论地学信息图谱思想的内涵与传承[J]. 地球信息科学学报, 2020, 22(4):653-661.

DOI

[ Zhang H Y, Zhou C H, Lv G N, et al. The connotation and inheritance of Geo-information Tupu[J]. Journal of Geo-information Science, 2020, 22(4):653-661. ] DOI:10.12082/dqxxkx.2020.200167

DOI

[51]
Gruber T R. Toward principles for the design of ontologies used for knowledge sharing?[J]. International journal of human-computer studies, 1995, 43(5-6):907-928. DOI: 10.1006/ijhc.1995.1081

DOI

[52]
Noy N F, Mcguinness D L. Ontology development 101: A guide to creating your first ontology[R]. California, 2001.

[53]
Sun K, Zhu Y Q, Song J. Progress and challenges on entity alignment of geographic knowledge bases[J]. ISPRS International Journal of Geo-Information, 2019, 8(2):77-101. DOI:10.3390/ijgi8020077

DOI

[54]
Acheson E, Volpi M, Purves R S. Machine learning for cross-gazetteer matching of natural features[J]. International Journal of Geographical Information Science, 2020, 34(4):708-734. DOI:10.1080/13658816.2019.1599123

DOI

[55]
Qiu Q J, Xie Z, Wu L, et al. BiLSTM-CRF for geological named entity recognition from the geoscience literature[J]. Earth Science Informatics, 2019, 12(4):565-579. DOI: 10.1007/s12145-019-00390-3

DOI

[56]
Qiu Q J, Xie Z, Wu L, et al. Geoscience keyphrase extraction algorithm using enhanced word embedding[J]. Expert Systems with Applications, 2019, 125:157-169. DOI: 10.1016/J.ESWA.2019.02.001

DOI

[57]
Wang C B, Ma X G, Chen J G, et al. Information extraction and knowledge graph construction from geoscience literature[J]. Computers & geosciences, 2018, 112:112-120. DOI:10.1016/j.cageo.2017.12.007

DOI

[58]
Stephenson M H, Cheng Q M, Wang C S, et al. Progress towards the establishment of the IUGS Deep-time Digital Earth (DDE) programme[J]. Episodes, 2020, 43(4):1057-1062. DOI:10.18814/epiiugs/2020/020057

DOI

[59]
Wang C S, Hazen R M, Cheng Q M, et al. The deep-time digital earth program: Data-driven discovery in geosciences[J]. National Science Review, 2021, 8(9):nwab 027. DOI:10.1093/nsr/nwab027

DOI

文章导航

/