基于地表覆盖数据的湿地知识图谱构建
杨玉莹(1997— ),女,山东滨州人,硕士生,主要从事地表覆盖领域知识表达与知识图谱相关研究。E-mail: yangyuying9711@163.com |
收稿日期: 2021-09-27
修回日期: 2021-11-15
网络出版日期: 2023-06-02
基金资助
国家自然科学基金项目(41631178)
国家自然科学基金项目(41930650)
Building a Knowledge Graph for Wetlands based on Landcover Data
Received date: 2021-09-27
Revised date: 2021-11-15
Online published: 2023-06-02
Supported by
National Natural Science Foundation of China(41631178)
National Natural Science Foundation of China(41930650)
湿地作为地表覆盖类型的一种,对于生物多样性与气候变化有着重要的意义,也是人类的基本生存环境之一。为更好地理解和表达湿地知识及分类间关系,本文提出了一种基于本体的湿地知识图谱构建方法。首先,利用GlobeLand30数据、生态地理分区数据,围绕湿地类型、特征分布等要素分析湿地领域知识,提取知识间的语义关系,通过本体建模形成湿地知识图谱的概念框架;其次,融合百度百科数据等进行湿地实体的提取、属性信息抽取,丰富湿地知识图谱的数据层;最后,使用图数据库Neo4j存储实体关系和实体属性,实现了湿地知识图谱构建。本文构建的知识图谱扩充了湿地实体的概念描述信息,探索了顾及时空特征的湿地知识表示方法,为地表覆盖领域的知识图谱构建提供了一个应用范例。
杨玉莹 , 赵学胜 , 刘会园 , 彭舒 , 吕源鑫 . 基于地表覆盖数据的湿地知识图谱构建[J]. 地球信息科学学报, 2023 , 25(6) : 1240 -1251 . DOI: 10.12082/dqxxkx.2023.210585
Wetland is of great significance to biodiversity and climate change, and it is also one of the basic living environments of human beings. In order to better understand and express wetland knowledge and the relationship between classifications, this paper proposes an ontology-based wetland knowledge graph construction method. Based on the land cover classification system of GlobeLand 30, this paper establishes the conceptual structure of wetland data and the rich semantic relationship between the elements around wetland type definition, spatial pattern, case distribution, and trend change. Firstly, based on the prior knowledge of wetlands, taking the wetland types in the GlobeLand 30 classification system as an example, we analyze the wetland domain knowledge around the wetland types, feature distribution, and other elements, extract the semantic relationship between knowledge, and construct the ontology database of wetland knowledge by combining top-down and bottom-up methods. The conceptual framework of wetland knowledge graph is formed through ontology modeling. Secondly, based on the wetland knowledge automatically extracted from the technical specification text and encyclopedia website, the extracted conceptual knowledge is stored in the model layer, and the data layer is constructed from bottom to top. The main contents include knowledge acquisition and knowledge fusion. According to the concepts contained in wetland knowledge, the relationship extraction of wetland knowledge is carried out, mainly including attribute relationship, spatial relationship, and temporal relationship. Using the wetland directory crawled from the wetland China website, the wetland entity name and knowledge are directly extracted from Baidu Encyclopedia by means of web crawler to form a triple. Finally, Through the above construction processes of wetland knowledge graph, the wetland related data with different structures are transformed into structured knowledge triple data, and the graph database Neo4j is used for semantic relationship storage with the "node relationship" storage model. Knowledge graph provides a new idea for the study of rich knowledge representation and storage in the field of land cover. It is a bridge between the basic geographic data of surface coverage and spatial knowledge service. It is of great significance to promote the sharing and reasoning analysis of surface coverage data. Taking the wetland land cover type as the research example, the knowledge graph constructed in this paper expands the conceptual description information of wetland entities, explores the wetland knowledge representation method by considering the temporal and spatial characteristics, and provides a new perspective and application demonstration for the expression of land cover knowledge.
表1 湿地知识所含语义关系Tab. 1 Semantic relationship of wetland knowledge |
关系名称 | 关系实例 |
---|---|
层级关系 | <河流湿地,子类,永久性河流湿地> |
等同关系 | <海珠湿地,别名,广东广州海珠国家湿地公园> |
相似关系 | <海洋湿地,相似于,滨海湿地> |
属性关系 | <湖南常宁天湖国家湿地公园,气候带,亚热带季风性湿润气候> |
实例关系 | <红树林湿地,实例,福建漳江口红树林湿地> |
表2 地理空间关系分类Tab. 2 Classification of Geospatial relationships |
空间关系 | 关系包含 |
---|---|
拓扑关系 | 相交、相离、包含、在之内、邻接、覆盖、被覆盖…… |
方位关系 | 东、南、西、北、东南、西北、东北、西南…… |
距离关系 | 近、远、较近、很远…… |
表3 文本中所含依存关系类型Tab. 3 Dependency types contained in text |
关系类型 | 标签 | 描述 | 例子 |
---|---|---|---|
主谓关系 | SBV | subject-verb | 全球红树林数据比较准确地标识了红树林的分布状况 (全球红树林数据标识) |
动宾关系 | VOB | 直接宾语,verb-object | 全球红树林数据比较准确地标识了红树林的分布状况(标识➝分布情况) |
间宾关系 | IOB | 间接宾语,indirect-object | 全球红树林数据比较准确地标识了红树林的分布状况(标识➝红树林) |
介宾关系 | POB | preposition-object | 森林/灌木地湿地在河流或湖泊周围(在➝周围) |
并列关系 | COO | coordinate | 由喜湿草本植物和草本植物覆盖高于20%的水面组成的沼泽和滨海草滩(和草本植物) |
独立结构 | IS | independent structure | 2个单句在结构上彼此独立 |
核心关系 | HED | head | 指整个句子的核心 |
…… | …… | …… | …… |
表4 模式层关系统计Tab. 4 Statistics of model layer relationships |
排序 | 关系名称 | 数量/个 | 占比/% | 排序 | 关系名称 | 数量/个 | 占比/% |
---|---|---|---|---|---|---|---|
1 | 中文名 | 44 | 13.25 | 33 | 协同物质 | 1 | 0.30 |
2 | 外文名 | 40 | 12.05 | 34 | 作用机理 | 1 | 0.30 |
3 | 子类 | 35 | 10.54 | 35 | 界 | 1 | 0.30 |
4 | 别名(含简称) | 19 | 5.72 | 36 | 亚目 | 1 | 0.30 |
5 | 分布于 | 19 | 5.72 | 37 | 水深 | 1 | 0.30 |
6 | 面积 | 18 | 5.42 | 38 | 外形 | 1 | 0.30 |
7 | 学科 | 16 | 4.82 | 39 | 应用 | 1 | 0.30 |
8 | 波段影像特征 | 13 | 3.92 | 40 | 定义 | 1 | 0.30 |
9 | 人口数量 | 11 | 3.31 | 41 | 常见海域 | 1 | 0.30 |
10 | 分布特征 | 10 | 3.01 | 42 | 基本种类 | 1 | 0.30 |
11 | 公布时间 | 9 | 2.71 | 43 | 词性 | 1 | 0.30 |
12 | 植被特征 | 9 | 2.71 | 44 | 特征 | 1 | 0.30 |
13 | 类型 | 8 | 2.41 | 45 | 分布地区 | 1 | 0.30 |
14 | 气候条件 | 6 | 1.81 | 46 | 生物特点 | 1 | 0.30 |
15 | 经纬度 | 4 | 1.20 | 47 | 所属类别 | 1 | 0.30 |
16 | 位置 | 4 | 1.20 | 48 | 植被特点 | 1 | 0.30 |
17 | 语种 | 3 | 0.90 | 49 | 形成方式 | 1 | 0.30 |
18 | 地形 | 3 | 0.90 | 50 | 属性 | 1 | 0.30 |
19 | 释义 | 3 | 0.90 | 51 | 特点 | 1 | 0.30 |
20 | 气候类型 | 3 | 0.90 | 52 | 国家总数 | 1 | 0.30 |
21 | 纬度 | 3 | 0.90 | 53 | 经纬度 | 1 | 0.30 |
22 | 下辖地区 | 3 | 0.90 | 54 | 国家数量 | 1 | 0.30 |
23 | 纹理特征 | 3 | 0.90 | 55 | 包含 | 1 | 0.30 |
24 | 纹理特征 | 3 | 0.90 | 56 | 濒临大洋 | 1 | 0.30 |
25 | 范围 | 2 | 0.60 | 57 | 海岸线长度 | 1 | 0.30 |
26 | 结构 | 2 | 0.60 | 58 | 最高点 | 1 | 0.30 |
27 | 功能 | 2 | 0.60 | 59 | 最低点 | 1 | 0.30 |
28 | 经度 | 2 | 0.60 | 60 | 陆地平均海拔 | 1 | 0.30 |
29 | 行政区类别 | 2 | 0.60 | 61 | 冰层平均厚度 | 1 | 0.30 |
30 | 性质 | 1 | 0.30 | 62 | 深度 | 1 | 0.30 |
31 | 美誉 | 1 | 0.30 | 63 | 区域组织 | 1 | 0.30 |
32 | 下限 | 1 | 0.30 | ||||
模式层关系数目/个 | 332 | 模式层关系占比/% | 100 |
表5 数据层属性关系统计Tab. 5 Statistics of attribute relationship of data layer |
数据层属性关系 | |||||||
---|---|---|---|---|---|---|---|
排序 | 关系名称 | 数量/个 | 占比/% | 排序 | 关系名称 | 数量/个 | 占比/% |
1 | 中文名称 | 649 | 13.51 | 23 | 政府驻地 | 30 | 0.62 |
2 | 面积 | 635 | 13.22 | 24 | 人口数量 | 30 | 0.62 |
3 | 地理位置 | 632 | 13.15 | 25 | 火车站 | 30 | 0.62 |
4 | 级别(含森林公园级别) | 590 | 12.28 | 26 | 车牌代码 | 30 | 0.62 |
5 | 批准时间 | 505 | 10.51 | 27 | 地区生产总值 | 30 | 0.62 |
6 | 管理单位 | 376 | 7.83 | 28 | 邮政区码 | 29 | 0.60 |
7 | 气候带 | 183 | 3.81 | 29 | 门票价格 | 26 | 0.54 |
8 | 湿地类型 | 107 | 2.23 | 30 | 邻接 | 23 | 0.48 |
9 | 地理区域 | 93 | 1.94 | 31 | 保护对象 | 23 | 0.48 |
10 | 类型 | 73 | 1.52 | 32 | 行政区划代码 | 22 | 0.46 |
11 | 著名景点 | 46 | 0.96 | 33 | 电话区号 | 17 | 0.35 |
12 | 外文名 | 45 | 0.94 | 34 | 省委书记 | 16 | 0.33 |
13 | 气候条件 | 43 | 0.89 | 35 | 省长 | 16 | 0.33 |
14 | 开放时间 | 41 | 0.85 | 36 | 气候类型 | 16 | 0.33 |
15 | 经纬度 | 41 | 0.85 | 37 | 所属国家 | 15 | 0.31 |
16 | 别名 | 35 | 0.73 | 38 | 方言 | 8 | 0.17 |
17 | 所属地区 | 34 | 0.71 | 39 | 适宜游玩季节 | 8 | 0.17 |
18 | 行政区类别 | 31 | 0.65 | 40 | 建议游玩时长 | 7 | 0.15 |
19 | 植被类型 | 31 | 0.65 | 41 | 建议游玩时长 | 7 | 0.15 |
20 | 植被类型 | 31 | 0.65 | 42 | 所属城市 | 6 | 0.12 |
21 | 机场 | 31 | 0.65 | 43 | 高等学府 | 5 | 0.10 |
22 | 下辖地区 | 30 | 0.62 | ||||
属性关系数目合计/个 | 4805 | 属性关系占比/% | 100 |
表6 湿地知识图谱实体统计数据Tab. 6 Statistical data of wetland knowledge graph nodes and relationships |
实体类型 | 名称 | 数量/个 | 占比/% |
---|---|---|---|
模式层节点 | 湿地类型本体 | 38 | 55.88 |
生态地理分区本体 | 30 | 44.12 | |
提取模式层实体合计 | 68 | 100 | |
数据层节点 | 湿地公园实体 | 479 | 31.11 |
行政区实体 | 31 | 2.01 | |
地点实体 | 602 | 39.09 | |
组织机构实体 | 375 | 24.35 | |
气候带实体 | 31 | 2.01 | |
地理实体 | 22 | 1.43 | |
提取实体合计 | 1540 | 100 |
[1] |
|
[2] |
|
[3] |
陆锋, 余丽, 仇培元. 论地理知识图谱[J]. 地球信息科学学报, 2017, 19(6):723-734.
[
|
[4] |
|
[5] |
|
[6] |
刘峤, 李杨, 段宏, 等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3):582-600.
[
|
[7] |
张雪英, 张春菊, 吴明光, 等. 顾及时空特征的地理知识图谱构建方法[J]. 中国科学:信息科学, 2020, 50(7):1019-1032.
[
|
[8] |
|
[9] |
|
[10] |
赵毓诚, 陈建军. 人工智能领域知识图谱构建与分析[J]. 计算机与数字工程, 2021, 49(3):514-520.
[
|
[11] |
孙敏敏, 毛雪岷. 基于Neo4j的肺部疾病知识图谱构建[A].中国管理现代化研究会、复旦管理学奖励基金会. 第十五届(2020)中国管理学年会论文集[C]. 中国管理现代化研究会、复旦管理学奖励基金会: 中国管理现代化研究会, 2020.
[
|
[12] |
马雷雷. 空间关系本体描述与推理机制研究[D]. 郑州: 解放军信息工程大学, 2012.
[
|
[13] |
刘鎏. 基于地理本体的吉林地域知识图谱的构建[D]. 北京: 北京交通大学, 2017.
[
|
[14] |
蒋秉川, 万刚, 许剑, 等. 多源异构数据的大规模地理知识图谱构建[J]. 测绘学报, 2018, 47(8):1051-1061.
[
|
[15] |
|
[16] |
刘俊楠, 刘海砚, 陈晓慧, 等. 面向多源地理空间数据的知识图谱构建[J]. 地球信息科学学报, 2020, 22(7):1476-1486.
[
|
[17] |
|
[18] |
|
[19] |
杜志强, 李钰, 张叶廷, 等. 自然灾害应急知识图谱构建方法研究[J]. 武汉大学学报·信息科学版, 2020, 45(9):1344-1355.
[
|
[20] |
|
[21] |
陈军, 刘万增, 武昊, 等. 基础地理知识服务的基本问题与研究方向[J]. 武汉大学学报·信息科学版, 2019, 44(1):38-47.
[
|
[22] |
陈军, 陈晋, 廖安平, 等. 全球30 m地表覆盖遥感制图的总体技术[J]. 测绘学报, 2014, 43(6):551-557.
[
|
[23] |
郭剑毅, 李真, 余正涛, 等. 领域本体概念实例、属性和属性值的抽取及关系预测[J]. 南京大学学报:自然科学版, 2012, 48(4):383-389.
[
|
[24] |
王东旭, 诸云强, 潘鹏, 等. 地理数据空间本体构建及其在数据检索中的应用[J]. 地球信息科学学报, 2016, 18(4):443-452.
[
|
[25] |
|
[26] |
|
[27] |
|
[28] |
陆锋, 张恒才. 大数据与广义GIS[J]. 武汉大学学报·信息科学版, 2014, 39(6):645-654.
[
|
[29] |
|
/
〈 | 〉 |