Building a Knowledge Graph for Wetlands based on Landcover Data

  • YANG Yuying , 1 ,
  • ZHAO Xuesheng , 1, * ,
  • LIU Huiyuan 1 ,
  • PENG Shu 2 ,
  • LV Yuanxin 1
Expand
  • 1. College of Geosciences and Surveying Engineering, China University of Mining and Technology (Beijing), Beijing 100083, China
  • 2. National Geomatics Center of China, Beijing 100830, China
*ZHAO Xuesheng, E-mail:

Received date: 2021-09-27

  Revised date: 2021-11-15

  Online published: 2023-06-02

Supported by

National Natural Science Foundation of China(41631178)

National Natural Science Foundation of China(41930650)

Abstract

Wetland is of great significance to biodiversity and climate change, and it is also one of the basic living environments of human beings. In order to better understand and express wetland knowledge and the relationship between classifications, this paper proposes an ontology-based wetland knowledge graph construction method. Based on the land cover classification system of GlobeLand 30, this paper establishes the conceptual structure of wetland data and the rich semantic relationship between the elements around wetland type definition, spatial pattern, case distribution, and trend change. Firstly, based on the prior knowledge of wetlands, taking the wetland types in the GlobeLand 30 classification system as an example, we analyze the wetland domain knowledge around the wetland types, feature distribution, and other elements, extract the semantic relationship between knowledge, and construct the ontology database of wetland knowledge by combining top-down and bottom-up methods. The conceptual framework of wetland knowledge graph is formed through ontology modeling. Secondly, based on the wetland knowledge automatically extracted from the technical specification text and encyclopedia website, the extracted conceptual knowledge is stored in the model layer, and the data layer is constructed from bottom to top. The main contents include knowledge acquisition and knowledge fusion. According to the concepts contained in wetland knowledge, the relationship extraction of wetland knowledge is carried out, mainly including attribute relationship, spatial relationship, and temporal relationship. Using the wetland directory crawled from the wetland China website, the wetland entity name and knowledge are directly extracted from Baidu Encyclopedia by means of web crawler to form a triple. Finally, Through the above construction processes of wetland knowledge graph, the wetland related data with different structures are transformed into structured knowledge triple data, and the graph database Neo4j is used for semantic relationship storage with the "node relationship" storage model. Knowledge graph provides a new idea for the study of rich knowledge representation and storage in the field of land cover. It is a bridge between the basic geographic data of surface coverage and spatial knowledge service. It is of great significance to promote the sharing and reasoning analysis of surface coverage data. Taking the wetland land cover type as the research example, the knowledge graph constructed in this paper expands the conceptual description information of wetland entities, explores the wetland knowledge representation method by considering the temporal and spatial characteristics, and provides a new perspective and application demonstration for the expression of land cover knowledge.

Cite this article

YANG Yuying , ZHAO Xuesheng , LIU Huiyuan , PENG Shu , LV Yuanxin . Building a Knowledge Graph for Wetlands based on Landcover Data[J]. Journal of Geo-information Science, 2023 , 25(6) : 1240 -1251 . DOI: 10.12082/dqxxkx.2023.210585

1 引言

地表覆盖信息是环境变化研究、土地资源管理以及社会可持续发展等社会资源变化研究的基础内容[1]。湿地作为地表覆盖类型的一种,被称为“地球之肾”,是珍贵的自然资源和重要的生态系统,具有保护生物多样性、调节径流、改善水质、调节小气候、提供食物及工业原料以及提供旅游资源等多种功能。湿地保护对于人类可持续发展具有重要的意义,许多国际组织对于湿地保护表现出了关注。GEO湿地(The GEO-Wetlands)计划旨在实现全球湿地观测系统(GWOS),并建立了一个湿地观测从业者社区,涵盖了许多参与者,开展了试点项目[2]。针对湿地自然资源保护领域的应用需求,在地表覆盖数据基础上为用户提供基础地理服务的同时,也需要依赖计算机进一步提取挖掘地表覆盖数据中蕴含的领域信息和知识。而知识图谱作为一种结构化的语义知识库,其构建过程中能够挖掘与提取文本类非结构化数据中蕴含的地理知识信息[3],可以有效解决湿地知识存储与显示过程中产生的数据冗余等问题。
知识图谱(Knowledge Graph)起源于20世纪60年代产生的语义网络[4],自2012年以来,迅速引起了学术界和工业界的关注。谷歌公司于2012年提出的知识图谱包含了超过57亿的实体,旨在把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律[5]。本质上,知识图谱是一种揭示实体之间关系的语义网络[6],泛指各种大规模的、结构化的语义知识库。知识图谱将现实世界中实体之间的语义联系通过一定的形式结构化表示出来,早期的知识表示形式主要有2种:① 描述逻辑的知识库——ABox,即通过关系断言表示2个对象是否满足一定的关系,如has_child(Tom, Rose);② 语义网络,最简单的语义网络是一个三元组:(节点1,弧,节点2)。在资源描述框架(Resource Description Framework,RDF)中,知识总是以三元组形式出现,每一份知识可以以(subject(主),predicate(谓),object(宾))的形式呈现。现代知识图谱也通常采用三元组的形式来表示,以“实体-关系-实体”或者“实体-属性-属性值”的基本表达方式构成实体关系网络[7]
当前,学术界构建的知识图谱可以分为通用知识图谱和领域知识图谱2类。通用知识图谱除谷歌公司研制的知识图谱外,Wikipedia(维基百科)是第一个用户可以自主建设知识资源的平台[8]。随着计算机技术的发展,YAGO[9]、DBpedia、Probase等基于维基百科生产的知识库相继出现,这些知识库涵盖了不同领域的知识信息,并且可以动态扩展。国内的大数据知识库主要有百度的知心、复旦大学自主研发的百科中文知识图谱CN-DBpedia以及基于CN-DBpedia和海量中文网页语料构建的中文概念图谱CN-Probase等。领域知识图谱的应用主要集中在医学领域、军事领域、自然灾害领域和图书情报领域等[10]。如医学领域中,有研究以医学网站资源为数据基础,采用自顶向下的图谱构建模式,设计构建了肺部疾病的知识图谱[11]
地学领域的许多分支学科已开始知识图谱的研究。许多学者基于地理本体和空间关系的概念和内涵,进行了地理空间关系的推理,实现了数据向知识的初步转化[12]。如刘鎏[13]采用本体建模的方法对吉林地域进行本体建模,在此基础上研究了本体推理机制,并引入到地理行业的知识图谱构建中,为地理行业知识图谱构建提供了解决方案;蒋秉川等[14]将知识图谱技术与地理知识工程相结合,提出了地理知识图谱构建的技术体系与流程,并基于此提出了一种知识增强的虚拟地理环境服务框架,构建了多层次语义解析模型和增强的GeoKG,实现与虚拟地理环境的智能交互[15];刘俊楠等[16]从地理空间数据的基本概念和特征入手,描述了地理空间知识图谱中实体的空间关系,展示了知识图谱在地理空间知识服务中的作用。在区划知识图谱领域,Wang等[17]设计了一种形式化的地理知识表示GeoKG,补充了ALC描述语言的构造函数,并以南京行政区划演变为例,定义了一组地理问题并转换为查询语言。在自然灾害领域,有学者基于自然灾害事件与应急响应之间的关系建立了本体应急知识库,将具体灾害实例要素映射到本体相关概念节点中,从而构建了知识图谱[18-19];Liu等[20]利用数量迅速增长的台风数据,将台风登录位置、登录时间、风速、气压和类型作为节点,选择Neo4j图数据库进行存储构建了台风知识图谱,但仅实现了台风数据的存储和展示,缺乏知识的关系抽取与推理。
目前湿地数据来源广泛,但现有研究缺少对湿地数据要素间关联关系的分析,尤其是缺乏从地表覆盖领域出发针对湿地地表覆盖类型的系统化、深层次知识抽取与表达。因此,本文以地表覆盖分类系统GlobeLand30的湿地类型为核心,围绕湿地类型定义、空间格局、实例分布、趋势变化4个要素,建立湿地数据概念层次以及要素之间丰富的语义关联关系,将湿地类型知识以结构化形式表达,并以湿地知识管理的理念创建数据模型,构建湿地知识体系,为地表覆盖领域知识和知识图谱技术的结合提供一个应用范例。

2 湿地知识图谱构建

2.1 基本原理及流程

地表覆盖知识是关于空间格局、区域差异、时间变化、归因机理等的知识体系[21]。地表覆盖分类系统中不同类别与类别间影响因素、类别结构特征以及地理位置之间相互关联,构成了解释地表覆盖分布的形成机制、格局以及变化过程的复杂知识体系,反映了地表覆盖专家进行深层次认知、思考、研究分类的结果。
因此,作为地表覆盖类型的一类,湿地知识图谱的构建过程中应当体现出湿地实例间的所属类别、分布、所处地域等要素。在充分认识湿地先验知识的基础上,以全球30 m地表覆盖数据GlobeLand 30分类系统中的湿地类型为例,采用自顶向下和自底向上相结合的方式构建湿地知识的本体库。基本流程如图1所示,本文首先利用专业性高的文献资源获取概念、术语,梳理其概念体系与关系,自上而下构建本体,形成良好的概念层次知识体系,并充分利用互联网数据资源进行实体、关系抽取;然后通过数据层归纳知识,自下而上完善本体,完成湿地知识图谱的构建。
图1 湿地知识图谱构建流程

Fig. 1 Construction process of wetland knowledge graph

2.2 数据源

数据源包括地表覆盖数据(GlobeLand30,http://www.globeland30.org/[22]、百度百科数据(https://baike.baidu.com/)、湿地中国网站数据(www.shidicn.com)、拉姆萨尔网站(https://www.ramsar.org)及《30米地表覆盖数据更新生产技术规程》[22](以下简称“技术规程”)文本数据。
为了便于用户更好理解地表覆盖知识,GlobeLand 30官方网站提供知识浏览服务,通过筛选湿地图层可直观地了解湿地在全球地表的分布情况地表覆盖数据含有全球范围地表覆盖信息,利用Globeland 30的湿地数据层,提取全球范围内各国家地区的2000、2010、2020年共3期数据中的湿地面积,可在时间维度上反映湿地在全球各地区的空间分布状态和面积变化。
百度百科数据语义信息相比于其他百科网站涵盖更为丰富,湿地领域概念标签用语规范,将作为湿地属性信息填充的主要数据来源。湿地中国网站数据提供了湿地原理、湿地分类、湿地植物、湿地动物、湿地专题、湿地公约、湿地名录在内的信息,通过湿地名录可进一步获取该网站的每个湿地实体名称,并据此在百度百科对应页面爬取湿地知识。拉姆萨尔网站提供了全球近2000个列入国际湿地公约的湿地名录,通过获取湿地名录的经纬度位置和面积大小等相关信息,作为知识融合中百度百科数据的补充。“技术规程”作为专业性高的文本数据,涵盖了湿地的概念、类型、特征等术语,可直接利用于湿地图谱的本体库构建。

3 模式层构建

3.1 模式层本体构建

针对地表覆盖领域湿地子类中的类型分类、地理分布、时空变化等几类核心要素,通过先验知识将各个要素进行概念间语义关系定义、概念层次关系划分以及要素属性关系定义。领域本体(Domain Ontology)是用于描述指定领域知识的一种专门本体,它定义了组成领域词汇表的基本术语及其关系,以及结合这些术语和关系来定义词汇表外延的规则[23]。本文利用本体思想构建湿地知识图谱的模式层,采用OWL语言表示湿地本体,使用Protégé构建工具进行本体建模,湿地本体中的各种概念层次关系可以用subClassof来体现,本体的主要组成可由式(1)所示。
O n t o l o g y = C o n c e p t i o n + P r o p e r t y + A x i o m + V a l u e + N o m i n a l
由式(1)可以归纳出本体的5个基本构成元素:类(Class)或概念(Conception)、属性(Properties)或关系(Relations)、公理(Axioms)、属性值(Values)、实例(Instances)。

3.1.1 湿地类型本体

本体层是知识图谱的核心层次,类是一组概念的抽象表达,湿地类型本体是有关湿地类型概念层次关系、属性关系以及关联关系的统一描述,将一个湿地类型本体表示为:
W e t l a n d C l a s s = { C l a s s C o n c e p t , C l a s s P r o p e r t y , C l a s s R e l a t i o n , C l a s s I n s t a n c e }
式中: C l a s s C o n c e p t表示所有湿地类型概念的集合,包含了湿地类型概念的定义以及概念层次分类,如地表覆盖湿地本体中的“河流湿地”概念类; C l a s s P r o p e r t y表示湿地类型本身属性的定义,如湿地类型中英文名称、类型定义等; C l a s s R e l a t i o n表示湿地类型之间的语义关联关系的定义,如并列、包含等[24] C l a s s I n s t a n c e表示湿地类型的具体实例,如西洞庭湖湿地。
湿地知识体系复杂,按照“湖泊与湿地以低水位时水深2 m处为界”的定义,世界湿地可分为20多种类型。依据《拉姆萨尔公约》[25]及湿地特定类型的水文和植被条件,通常认定5种主要湿地类型:河流湿地、海洋湿地、沼泽湿地、湖泊湿地及河口湿地概念。结合《拉姆萨尔公约》[25],按照“技术规程”对湿地的概念类别层次进行划分,共分为人工湿地、河流湿地、沼泽湿地、湖泊湿地、海洋湿地5大类32类子概念(图2)。
图2 湿地类型本体结构

Fig. 2 Structure of wetland type body

3.1.2 生态地理分区本体

考虑湿地数据的空间格局属性,本文选取世界基金组织(World Wild Fund, https://www.worldwildlife.org/)建立的全球生态分区(Eco-regions)[26]作为湿地类型空间格局所依赖的基础框架,生态地理分区数据划分了400个地表覆盖类型差异明显的生态地理区,并描述了每个生态地理分区中地表覆盖类型的范围,因此可据此建立生态地理分区本体,作为湿地类型实体在不同生态地理分区的分布依据。
生态地理分区是全球地理区域划分结果的一种表现,基于8个生物地理分区和14个生物群落,依照“联合国地理区划”对世界地理区域进行概念层级划分。如图3所示,共分为欧亚大陆地区、北美洲地区、南美洲地区、非洲地区、东亚东南亚地区、大洋洲地区、太平洋地区、南极洲地区8类及21个子类。
图3 生态地理分区本体结构

Fig. 3 Main structure of ecogeographical division

3.2 概念关系提取

根据湿地知识包含的概念,进行湿地知识的关系提取,主要包括属性关系、空间关系、时间关系。
属性关系中的对象属性主要表达了语义关系,可表示概念、属性之间的关联关系(表1)。湿地概念主要源于湿地本体的构建,如沼泽湿地、红树林湿地、永久性河流湿地等都是类概念;而湿地实体是概念的实例,如长沙贡马湿地、尕海湿地、扎龙湿地等都属于地表覆盖的湿地实例;生态分区类概念下的具体国家如南非、缅甸等属于地理实例。语义关系包括了层级关系、等同关系、相似关系等。层级关系用于描述概念的层次关系和上下位关系,如“非洲”的下位词包括“北非”、“南非”、“西非”、“中非”、“东非”;等同关系是指同级概念或实例之间具有的等价关系,如湿地中国网站中“海珠湿地”与百度百科词条中“广东广州海珠国家湿地公园”在语义上指向同一湿地实例;相似关系用于描述意思上相近的地理概念、实例,如“海洋湿地”与“滨海湿地”。属性关系一般用<实体,属性,值域>三元组来表示,如<杭州西溪湿地,经纬度,(120.0599,30.26887)> 、<北京野鸭湖湿地自然保护区,地理位置,北京市延庆区康庄镇刘浩营村西>,分别表明了“杭州西溪湿地”的“经纬度”与“北京野鸭湖湿地自然保护区”的“地理位置”空间属性。
表1 湿地知识所含语义关系

Tab. 1 Semantic relationship of wetland knowledge

关系名称 关系实例
层级关系 <河流湿地,子类,永久性河流湿地>
等同关系 <海珠湿地,别名,广东广州海珠国家湿地公园>
相似关系 <海洋湿地,相似于,滨海湿地>
属性关系 <湖南常宁天湖国家湿地公园,气候带,亚热带季风性湿润气候>
实例关系 <红树林湿地,实例,福建漳江口红树林湿地>
空间关系可反映为不同地理实体间相互作用产生的空间联系,主要体现有拓扑关系、方位关系、距离关系3种关系类型。拓扑关系表示地理实体间的邻近和关联程度,方位关系表达了地理实体在空间维度上的方位描述,距离关系是地理实体在远近程度上的关系表达。具体空间关系层次见表2
表2 地理空间关系分类

Tab. 2 Classification of Geospatial relationships

空间关系 关系包含
拓扑关系 相交、相离、包含、在之内、邻接、覆盖、被覆盖……
方位关系 东、南、西、北、东南、西北、东北、西南……
距离关系 近、远、较近、很远……
时间关系是指地理实体在产生、发展、消亡的整个变化过程中,能够反映地理实体的状态和演变过程的关系[27]。时间作为湿地事件发生、变化的前提条件,如“2011年12月,宁夏固原清水河国家湿地公园被批准成立”,时间标签作为属性值存在<宁夏固原清水河国家湿地公园,批准时间,2011年12月>三元组中;在特定的时间条件下,结合地表覆盖实体的属性特征,形成了地表覆盖实体的不同状态,本文在实体的属性中添加了湿地面积“统计时间”属性信息,依据2000、2010、2020年 3个阶段湿地不同状态的时序关系,能够刻画全球各国家地区湿地的演变。

4 数据层构建

基于技术规程文本和百科网站自动化提取的湿地知识,将抽取的概念知识存入模式层,自底向上进行数据层构建,主要包括知识获取和知识融合。

4.1 知识获取

在线百科、搜索引擎、专业文献等蕴含丰富的地理信息,顾及地理空间数据的时空特殊性,快速获取、利用地理知识,是地理信息科学与大数据时代结合的重要任务[28]。在构建湿地知识图谱的本体框架基础上,根据抽取的不同本体及本体间的关系,自底向上完善知识图谱。实体识别、关系抽取是知识获取的关键步骤,共分为2步:
(1)概念实体及关系获取:通过地表覆盖数据的类别信息提取湿地实体名称和要素的对应关系,对湿地百科页面解析后的文本及技术规程经过分词、去停用词、统计词频等预处理后,采用基于TextRank算法进行关键词提取[29]。该算法核心思想为将文本中的词看作图中的节点,通过边相互连接,不同的节点会有不同的权重,权重高的节点可以看作关键词,得到最重要的T个单词对应着多个类型的词汇,例如“湿地”、“河流”、“沼泽”、“湖泊”、“河口”等属于“领域名词”类,“特征”、“季节性”、“覆盖度”、“颜色”等属于“属性词”类,2类文本关键词提取进行的简单可视化结果WordCloud如图4所示。
图4 湿地百科正文及技术规程文本可视化词云

Fig. 4 Wetland encyclopedia text and technical regulations text visualization word cloud

以本体模型中的分类概念作为实体名称词典,对关键词提取后的结果,通过词性标注获取指定词性的词并进行命名实体匹配,利用条件随机场模型(CRF)进行命名实体识别。选取“技术规程”文本以及百度百科解析后的正文文本,并将后者分别标注为“湿地定义”、“湿地功能”、“湿地分类”3类标签,通过分析文本句子之间的依存关系解释其句法结构,并进行语义角色标注,抽取出句子中的主谓宾三元组。识别出的句子中的成分关系如表3所示。
表3 文本中所含依存关系类型

Tab. 3 Dependency types contained in text

关系类型 标签 描述 例子
主谓关系 SBV subject-verb 全球红树林数据比较准确地标识了红树林的分布状况
(全球红树林数据􀲓标识)
动宾关系 VOB 直接宾语,verb-object 全球红树林数据比较准确地标识了红树林的分布状况(标识➝分布情况)
间宾关系 IOB 间接宾语,indirect-object 全球红树林数据比较准确地标识了红树林的分布状况(标识➝红树林)
介宾关系 POB preposition-object 森林/灌木地湿地在河流或湖泊周围(在➝周围)
并列关系 COO coordinate 由喜湿草本植物和草本植物覆盖高于20%的水面组成的沼泽和滨海草滩(和􀲓草本植物)
独立结构 IS independent structure 2个单句在结构上彼此独立
核心关系 HED head 指整个句子的核心
…… …… …… ……
(2)利用在湿地中国网站爬取到的湿地目录,采用网络爬虫的方式在百度百科中直接抽取湿地实体名及知识组成三元组,主要抽取的是词条信息框中实体名、标签、基本描述、地理位置、面积等信息,构成外文名、地理位置、面积、气候条件、公布时间等属性关系。表4表5分別展示了模式层构建的部分本体关系信息及百科提取地属性关系信息。
表4 模式层关系统计

Tab. 4 Statistics of model layer relationships

排序 关系名称 数量/个 占比/% 排序 关系名称 数量/个 占比/%
1 中文名 44 13.25 33 协同物质 1 0.30
2 外文名 40 12.05 34 作用机理 1 0.30
3 子类 35 10.54 35 1 0.30
4 别名(含简称) 19 5.72 36 亚目 1 0.30
5 分布于 19 5.72 37 水深 1 0.30
6 面积 18 5.42 38 外形 1 0.30
7 学科 16 4.82 39 应用 1 0.30
8 波段影像特征 13 3.92 40 定义 1 0.30
9 人口数量 11 3.31 41 常见海域 1 0.30
10 分布特征 10 3.01 42 基本种类 1 0.30
11 公布时间 9 2.71 43 词性 1 0.30
12 植被特征 9 2.71 44 特征 1 0.30
13 类型 8 2.41 45 分布地区 1 0.30
14 气候条件 6 1.81 46 生物特点 1 0.30
15 经纬度 4 1.20 47 所属类别 1 0.30
16 位置 4 1.20 48 植被特点 1 0.30
17 语种 3 0.90 49 形成方式 1 0.30
18 地形 3 0.90 50 属性 1 0.30
19 释义 3 0.90 51 特点 1 0.30
20 气候类型 3 0.90 52 国家总数 1 0.30
21 纬度 3 0.90 53 经纬度 1 0.30
22 下辖地区 3 0.90 54 国家数量 1 0.30
23 纹理特征 3 0.90 55 包含 1 0.30
24 纹理特征 3 0.90 56 濒临大洋 1 0.30
25 范围 2 0.60 57 海岸线长度 1 0.30
26 结构 2 0.60 58 最高点 1 0.30
27 功能 2 0.60 59 最低点 1 0.30
28 经度 2 0.60 60 陆地平均海拔 1 0.30
29 行政区类别 2 0.60 61 冰层平均厚度 1 0.30
30 性质 1 0.30 62 深度 1 0.30
31 美誉 1 0.30 63 区域组织 1 0.30
32 下限 1 0.30
模式层关系数目/个 332 模式层关系占比/% 100
表5 数据层属性关系统计

Tab. 5 Statistics of attribute relationship of data layer

数据层属性关系
排序 关系名称 数量/个 占比/% 排序 关系名称 数量/个 占比/%
1 中文名称 649 13.51 23 政府驻地 30 0.62
2 面积 635 13.22 24 人口数量 30 0.62
3 地理位置 632 13.15 25 火车站 30 0.62
4 级别(含森林公园级别) 590 12.28 26 车牌代码 30 0.62
5 批准时间 505 10.51 27 地区生产总值 30 0.62
6 管理单位 376 7.83 28 邮政区码 29 0.60
7 气候带 183 3.81 29 门票价格 26 0.54
8 湿地类型 107 2.23 30 邻接 23 0.48
9 地理区域 93 1.94 31 保护对象 23 0.48
10 类型 73 1.52 32 行政区划代码 22 0.46
11 著名景点 46 0.96 33 电话区号 17 0.35
12 外文名 45 0.94 34 省委书记 16 0.33
13 气候条件 43 0.89 35 省长 16 0.33
14 开放时间 41 0.85 36 气候类型 16 0.33
15 经纬度 41 0.85 37 所属国家 15 0.31
16 别名 35 0.73 38 方言 8 0.17
17 所属地区 34 0.71 39 适宜游玩季节 8 0.17
18 行政区类别 31 0.65 40 建议游玩时长 7 0.15
19 植被类型 31 0.65 41 建议游玩时长 7 0.15
20 植被类型 31 0.65 42 所属城市 6 0.12
21 机场 31 0.65 43 高等学府 5 0.10
22 下辖地区 30 0.62
属性关系数目合计/个 4805 属性关系占比/% 100

4.2 知识融合

对于知识获取部分得到的实体、属性和关系等,需要进行数据融合加以关联。湿地知识融合是将不同数据中对同一实体的不同语义理解,关联到同一实体上,实现对实体的同名、多名等语义形式的消歧。利用Word2Vec词向量模型,将识别出的实体名称进行中文分词、计算分词词频,构建实体名称的词袋向量,将实体名称从语义空间转换到向量空间,计算向量之间夹角的余弦值,夹角的余弦值越大,表示语义相似度越高。对待实体名称存在冗余的实体,如“河口水域”、“河口永久性水域”,二者表达的本质内容实际上是一致的,通过预测与实体名称最相近的词,采用相似词集合当中字符最长的实体名称作为融合之后的结果。以实体链接中“杭州西溪湿地”为例,百度百科中其名称为“浙江杭州西溪国家湿地公园”(图5),拉姆萨尔湿地名录中其名称为“Hangzhou Xixi Wetlands(杭州西溪湿地)”,2个数据源中的实体指向客观世界同一实体,最终融合结果为“浙江杭州西溪国家湿地公园”,建立百科与湿地数据之间的链接及属性填充。
图5 百度百科地理词条信息框

Fig. 5 Baidu Encyclopedia geographic entry information box

5 湿地知识图谱表达

通过以上湿地知识图谱构建流程,将不同结构的湿地相关数据转化为结构化的知识三元组数据,采用图数据库Neo4j以“节点-关系”的存储模型进行语义关系存储。Neo4j作为基于关系的NOSQL图形数据库,相比于传统关系型数据库具有明显优势,可独立使用或嵌入到Java应用程序中,将结构化数据存储在网络上,且支持索引。图数据库将三元组关系中的实体、属性值转化为节点,将属性、关系转化为边。在Neo4j中,关系是数据库中最重要的元素。利用图数据库Neo4j存储本研究构建的节点及关系边,以湿地知识图谱的所有子类节点为例进行可视化展示,模式层及数据层构建中所提取的湿地实体统计数据见表6图6清晰地展示了GlobeLand 30地表覆盖产品、10个一级类(含湿地)及湿地子类等实体之间的关联关系。
表6 湿地知识图谱实体统计数据

Tab. 6 Statistical data of wetland knowledge graph nodes and relationships

实体类型 名称 数量/个 占比/%
模式层节点 湿地类型本体 38 55.88
生态地理分区本体 30 44.12
提取模式层实体合计 68 100
数据层节点 湿地公园实体 479 31.11
行政区实体 31 2.01
地点实体 602 39.09
组织机构实体 375 24.35
气候带实体 31 2.01
地理实体 22 1.43
提取实体合计 1540 100
图6 湿地类型全部节点

Fig. 6 All nodes of wetland class

湿地知识存储目的是提取的知识可以用于进一步地表覆盖分类并提高精度。使用Neo4j中的Cypher语言,检索查询图数据库中存储知识图谱节点的详细信息,如查询“广西山口红树林自然保护区”湿地实例,详细节点及关系、属性结果如图7所示。
图7 样例数据湿地节点信息存储展示

Fig. 7 Example data node information storage display

6 结论

地表覆盖知识的来源繁多、数据形式多样,其中地表覆盖实体抽取、语义关系构建、知识融合、智能问答等都是亟需解决的问题,而知识图谱为研究地表覆盖领域丰富的知识表示及存储提供了新思路,是地表覆盖基础地理数据走向空间化知识服务的桥梁,对于推进地表覆盖数据共享、推理分析具有重要意义。本文以地表覆盖的湿地类型为研究示例,通过3个步骤构建了湿地知识图谱,为地表覆盖知识的表达提供了新的视角和应用示范。主要结论如下:
(1)从湿地数据的基本分类概念和特征入手,借鉴业界对地理知识表示、地理知识图谱的研究,提出了基于地表覆盖数据GlobeLand 30的湿地知识图谱的概念和构建思路,这一方法将为今后从知识图谱挖掘方面深入探究地表覆盖等现象提供新思路。
(2)借鉴自然语言处理技术,对多源数据进行一系列的抽取、筛选等处理,实现对湿地数据的深度关联挖掘,为进一步的地表覆盖数据生产业务决策提供了依据,可为下一阶段的地表覆盖分类工作提供有力的先验知识支撑。
(3)对于知识的存储,使用效率更高、性能更好的图数据库以“节点-关系”的形式存储湿地知识,为湿地知识的获取与表达提供了新的方法视角,并为未来地表覆盖领域与知识图谱的应用结合提供了范例。
在后续的研究中,需要继续扩展数据来源,并尝试实现地表覆盖知识图谱的智能问答,提高知识图谱完整度,并充分利用互联网地图的互动性优势,实现知识图谱可视化等。
[1]
Jonathan A, Foley. Global consequences of land use[J]. Science, 2005, 309(5734):570-574. DOI:10.1126/science.1111772

DOI PMID

[2]
Weise K, Höfer R, Franke J, et al. Wetland extent tools for SDG 6.6.1 reporting from the Satellite-based Wetland Observation Service (SWOS)[J]. Remote Sensing Environment, 2020, 247:111892. DOI:10.1016/j.rse.2020.111892

DOI

[3]
陆锋, 余丽, 仇培元. 论地理知识图谱[J]. 地球信息科学学报, 2017, 19(6):723-734.

DOI

[ Lu F, Yu L, Qiu P Y. On geographical knowledge graph[J]. Journal of Geo-information Science, 2017, 19(6):723-734. ] DOI:10.3724/SP.J.1047.2017.00723

DOI

[4]
Sowaj F. Principles of semantic networks: Exploration in the representation of knowledge[M]. SanMateo Calif: Morgan Kaufmann, 1991:135-157.

[5]
Singhal A. Official google blog: Introducing the knowledge graph: things, not strings[J]. Northwestern University: Evanston, IL,USA, 2012.

[6]
刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3):582-600.

[ Liu Q, Li Y, Duan H, et al. Overview of knowledge graph construction technology[J]. Computer Research and Development, 2016, 53(3):582-600. ] DOI:10.7544/issn1000-1239.2016.20148228

DOI

[7]
张雪英, 张春菊, 吴明光, 等. 顾及时空特征的地理知识图谱构建方法[J]. 中国科学:信息科学, 2020, 50(7):1019-1032.

[ Zhang X Y, Zhang C J, Wu M G, et al. Spatio-temporal features based geographical knowledge graph construction[J]. Science in China: Information Science, 2020, 50(7):1019-1032. ] DOI:10.1360/SSI-2019-0269

DOI

[8]
Vrandeč ic D, Krötzsch M. Wikidata: A free collaborative knowledgebase[J]. Communications of the Acm, 2014, 57(10):78-85. DOI:10.1145/2629489

DOI

[9]
Suchanek F M, Kasneci G, Weikum G. Yago: A core of semantic knowledge[C]. Proceedings of the 16th international conference on World Wide Web. ACM, 2007:697-706. DOI:10.1145/1242572.1242667

DOI

[10]
赵毓诚, 陈建军. 人工智能领域知识图谱构建与分析[J]. 计算机与数字工程, 2021, 49(3):514-520.

[ Zhao Y C, Chen J J. Construction and analysis of knowledge graphs in the field of artificial intelligence[J]. Computer and Digital Engineering, 2021, 49(3):514-520. ] DOI:10.3969/j.issn.1672-9722.2021.03.019

DOI

[11]
孙敏敏, 毛雪岷. 基于Neo4j的肺部疾病知识图谱构建[A].中国管理现代化研究会、复旦管理学奖励基金会. 第十五届(2020)中国管理学年会论文集[C]. 中国管理现代化研究会、复旦管理学奖励基金会: 中国管理现代化研究会, 2020.

[ Sun M M, Mao X M. Construction of knowledge graph of lung diseases based on Neo4j[A]. China Management Modernization Research Association, Fudan Management Award Foundation. Proceedings of the 15th (2020) China Management Conference[C]. China Management Modernization Research Association, Fudan Management Award Foundation: China Management Modernization Research Association, 2020. ]

[12]
马雷雷. 空间关系本体描述与推理机制研究[D]. 郑州: 解放军信息工程大学, 2012.

[ Ma L L. Research on spatial relation ontology description and reasoning mechanism[D]. Zhengzhou: Information Engineering University, 2012. ]

[13]
刘鎏. 基于地理本体的吉林地域知识图谱的构建[D]. 北京: 北京交通大学, 2017.

[ Liu L. Construction of Jilin region knowledge graph based on geographic ontology[D]. Beijing: Beijing JiaoTong University, 2017. ]

[14]
蒋秉川, 万刚, 许剑, 等. 多源异构数据的大规模地理知识图谱构建[J]. 测绘学报, 2018, 47(8):1051-1061.

[ Jiang B C, Wan G, Xu J, et al. Geographic knowledge graph building extracted from multi-sourced Heterogeneous data[J]. Journal of Surveying and Mapping, 2018, 47(8):1051-1061. ] DOI:10.11947/j.AGCS.2018.20180113

DOI

[15]
Jiang B C, Tan L, Ren Y, et al. Intelligent interaction with virtual geographical environments based on geographic knowledge graph[J]. ISPRS International Journal Geo-Information, 2019, 8(10):428. DOI:10.3390/ijgi8100428

DOI

[16]
刘俊楠, 刘海砚, 陈晓慧, 等. 面向多源地理空间数据的知识图谱构建[J]. 地球信息科学学报, 2020, 22(7):1476-1486.

DOI

[ Liu J N, Liu H Y, Chen X H, et al. The Construction of knowledge graph towards multi-source geospatial data[J]. Journal of Geo-information Science, 2020, 22(7):1476-1486. ] DOI:10.12082/dqxxkx.2020.190565

DOI

[17]
Shu W, Wang X Y, Ye P, et al. Geographic Knowledge Graph (GeoKG): A formalized geographic knowledge representation[J]. ISPRS International Journal of Geo-information, 2019, 8(4):184. DOI:10.3390/ijgi8040184

DOI

[18]
Wang X L, Wu X L. A novel knowledge representation method based on ontology for natural disaster decision-making[C]. 2012 IEEE International Conference on Computer Science and Automation Engineering(CSAE), Zhangjiajie, China, 2012. DOI:10.1109/CSAE.2012.6272947

DOI

[19]
杜志强, 李钰, 张叶廷, 等. 自然灾害应急知识图谱构建方法研究[J]. 武汉大学学报·信息科学版, 2020, 45(9):1344-1355.

[ Du Z Q, Li Y, Zhang Y T, et al. Research on the construction method of natural disaster emergency knowledge graph[J]. Journal of Wuhan University (Information Science Edition), 2020, 45(9):1344-1355. ] DOI:10.13203/j.whugis20200047

DOI

[20]
Liu P C, Huang Y L, Wang P, et al. Construction of typhoon disaster knowledge graph based on graph database Neo4j[C]. Proceedings of the 32nd China Control and Decision Conference, 2020. ] DOI:10.1109/CCDC49329.2020.9164384

DOI

[21]
陈军, 刘万增, 武昊, 等. 基础地理知识服务的基本问题与研究方向[J]. 武汉大学学报·信息科学版, 2019, 44(1):38-47.

[ Chen J, Liu W Z, Wu H, et al. Basic problems and research directions of basic geographic knowledge services[J]. Journal of Wuhan University (Information Science Edition), 2019, 44(1):38-47. ] DOI:10.13203/j.whugis20180441

DOI

[22]
陈军, 陈晋, 廖安平, 等. 全球30 m地表覆盖遥感制图的总体技术[J]. 测绘学报, 2014, 43(6):551-557.

[ Chen J, Chen J, Liao A P, et al. General technology of remote sensing mapping of global 30m land cover[J]. Journal of Surveying and Mapping, 2014, 43(6):551-557. ] DOI:10.13485/j.cnki.11-2089.2014.0089

DOI

[23]
郭剑毅, 李真, 余正涛, 等. 领域本体概念实例、属性和属性值的抽取及关系预测[J]. 南京大学学报:自然科学版, 2012, 48(4):383-389.

[ Guo J Y, Li Z, Yu Z T, et al. Domain ontology concept instance, attribute and attribute value extraction and relationship prediction[J]. Journal of Nanjing University: Natural Science Edition, 2012, 48(4):383-389. ] DOI:10.13232/j.cnki.jnju.2012.04.015

DOI

[24]
王东旭, 诸云强, 潘鹏, 等. 地理数据空间本体构建及其在数据检索中的应用[J]. 地球信息科学学报, 2016, 18(4):443-452.

DOI

[ Wang D X, Zhu Y q, Pan P, et al. Construction of geodata spatial ontology and its application in data retrieval[J]. Journal of Geo-information Science, 2016, 18(4):443-452. ] DOI:10.3724/SP.J.1047.2016.00443

DOI

[25]
Art C L. The Ramsar Convention Manual: A guide to the convention on wetlands (Ramsar, Iran, 1971)[J]. Ramsar Convention Secretariat Gland Switzerland, 2006, 21(84):691-693.

[26]
Olson D M, Dinerstein E, Wikramanayake E D, et al. Terrestrial ecoregions of the world: a new map of life on Earth[C]// 2001:933-938. DOI:10.1641/0006-3568(2001)051

DOI

[27]
Allen J F. Towards a general theory of action and time[J]. Artif Intell, 1984, 23:123-154. DOI:10.1016/0004-3702(84)90008-0

DOI

[28]
陆锋, 张恒才. 大数据与广义GIS[J]. 武汉大学学报·信息科学版, 2014, 39(6):645-654.

[ Lu F, Zhang H C. Big data and generalized GIS[J]. Journal of Wuhan University (Information Science Edition), 2014, 39(6):645-654. ] DOI:10.13203/j.whugis20140148

DOI

[29]
Mihalcea R, Tarau R. TextRank: Bringing order into texts[C]. Proceedings of 2004 Conference on Empirical Methods in Natural Language Processing. Barcelona, Spain, 2004:404-411.

Outlines

/