基于本体的金矿知识图谱构建方法

  • 张春菊 , 1 ,
  • 刘文聪 1 ,
  • 张雪英 , 2, * ,
  • 叶鹏 3 ,
  • 汪陈 1 ,
  • 朱少楠 4 ,
  • 张达玉 5
展开
  • 1.合肥工业大学土木与水利工程学院,合肥 230009
  • 2.南京师范大学虚拟地理环境教育部重点实验室,南京 210023
  • 3.扬州大学城市规划与发展研究院,扬州 225127
  • 4.南京邮电大学生物与地理信息学院,南京 210023
  • 5.合肥工业大学资源与环境工程学院,合肥 230009
*张雪英(1970— ),女,四川眉山人,博士,教授,主要从事地理大数据、位置智能、大数据GIS等方面的科学 研究。E-mail:

张春菊(1984— ),女,安徽宿州人,博士,副教授,主要从事地理信息智能处理与服务研究。E-mail:

收稿日期: 2021-12-02

  修回日期: 2022-03-08

  网络出版日期: 2023-06-30

基金资助

国家自然科学基金项目(42171453)

国家自然科学基金项目(41971337)

国家重点研发计划项目(2021YFB3900903)

Knowledge Graph Construction Method of Gold Mine based on Ontology

  • ZHANG Chunju , 1 ,
  • LIU Wencong 1 ,
  • ZHANG Xueying , 2, * ,
  • YE Peng 3 ,
  • WANG Chen 1 ,
  • ZHU Shaonan 4 ,
  • ZHANG Dayu 5
Expand
  • 1. School of Civil Engineering, Hefei University of Technology, Hefei 230009, China
  • 2. Institute of Geographical Science, Nanjing Normal University, Nanjing 210023, China
  • 3. Urban Planning and Development Institute, Yangzhou University, Yangzhou 225127, China
  • 4. School of Geographic and Biologic Information, Nanjing University of Posts and Telecommunications, Nanjing 210023, China
  • 5. School of Resources and Environmental Engineering, Hefei University of Technology, Hefei 230009, China
*ZHANG Xueying, E-mail:

Received date: 2021-12-02

  Revised date: 2022-03-08

  Online published: 2023-06-30

Supported by

National Natural Science Foundation of China(42171453)

National Natural Science Foundation of China(41971337)

National Key Research and Development Program(2021YFB3900903)

摘要

“地、物、化、遥”等地质矿产勘查和科研工作建立了海量的矿产调查数据,蕴含丰富的成矿构造背景、产出地质环境、矿床地质特征、矿床成因模式等与成矿和分布相关的知识。海量矿产资源相关数据向有效成矿规律知识的转换,已逐渐成为提升地质找矿精度的突破口。本文引入知识工程中本体知识表示技术,开展金矿知识图谱构建方法研究。首先,梳理了金矿成矿模式,确定了金矿概念、金矿实体以及地质特征、成矿特征等属性,运用自顶向下的领域本体知识表示方法构建金矿知识图谱的模式层;其次,基于结构化、半结构化和非结构化的多源异构地质数据源,采用深度学习模型实现金矿信息提取和语义解析,丰富金矿知识图谱的数据层,采用自底向上的方式构建金矿知识图谱;最后,基于图数据库开发了金矿知识管理系统,实现金矿数据管理、知识获取、金矿知识可视化表达、知识库管理、金矿找矿知识查询等功能。本文研究成果可形成“数据-知识”联合驱动的金矿找矿方法,为地质勘查工作中识别、控制和管理矿产资源、提升找矿精度提供参考。

本文引用格式

张春菊 , 刘文聪 , 张雪英 , 叶鹏 , 汪陈 , 朱少楠 , 张达玉 . 基于本体的金矿知识图谱构建方法[J]. 地球信息科学学报, 2023 , 25(7) : 1269 -1281 . DOI: 10.12082/dqxxkx.2023.210772

Abstract

Geological and mineral resource survey and scientific research in "geology, geophysics, geochemistry, and remote sensing " have established a large amount of geological and mineral survey data, which contain rich knowledge related to mineralization and distribution of gold mine, such as the metallogenic and tectonic setting, geological environment of occurrence, geological characteristics of mineral mine, genesis and metallogenic model of mine, and so on. The transformation from massive mineral related data to effective metallogenic knowledge has become one of the most important breakthroughs to improve the accuracy of geological prospecting. To solve this problem, through the in-depth analysis of knowledge representation, information extraction, and knowledge fusion in knowledge engineering, this paper explores the knowledge graph construction method of gold mine based on ontology. Firstly, referring to industry norms, gold mine knowledge base, and reference material of geological and mineral resource exploration, the metallogenic model of gold mine is sorted out, and the gold mine concept, gold mine entity, gold mine relationship, gold mine geological attribute, and gold mine metallogenic attribute are determined. In addition, the schema layer of gold mine knowledge graph is constructed by using the top-down ontology knowledge representation method, which represents the conceptual model and logical basis of gold mine knowledge graph. Secondly, based on structured, semi-structured, and unstructured multi-source heterogeneous geological data, the deep learning model is used to realize gold mine knowledge extraction, semantic analysis, and knowledge fusion, which enriches the data layer of gold mine knowledge graph and provides data support for gold mine knowledge graph. The gold mine knowledge graph is constructed in a bottom-up way, and the gold mine knowledge triplet is stored by Neo4j graph database, in which nodes represent gold mine concept, gold mine entity, and gold mine attribute value, while edges represent relation and attribute. Finally, the gold mine knowledge management system is developed based on the graph database. It can be applied to the management of gold mine data, acquisition of knowledge, visualization representation of gold mine knowledge graph, inquiry of knowledge, management and presentation of knowledge base, and other functions well, so as to lay a foundation for the intelligent analysis and mining of geological big data. This study develops a geological prospecting method driven by data and knowledge, and provides a reference for identifying, controlling, and managing mineral resources, which can improve the prospecting accuracy in geological exploration.

1 引言

金矿地质勘查是指以现代成矿理论为指导,依据区域地质研究成果和航空遥感、地球物理、地球化学等技术手段,对具有矿化潜力的勘查靶区开展预查、普查、详查和勘探等地质勘查工作。长期以来,地质勘查人员广泛采用的金矿地质勘查方式是运用专业知识结合调查数据,开展野外观测和物探、化探工作,发现了一大批产金基地和大型金矿床,取得了显著的找矿成果。随着国家对矿产资源的开发,中国金矿床形成了中东部多、西部少、分布不均的时空分布格局,显露出开采深度浅、矿山服务年限缩减、重点矿区深部勘探不足等找矿短板。地表矿产愈来愈少,找矿难度越来越大,因而重点矿区深部找矿、有效预测与寻找西部地区隐伏矿(特别是大型、超大型隐伏矿)已成为矿产勘查行业重点关注的问题。
“地、物、化、遥”等工程数据,以及地质专家深层次认知、思考、研究分类形成的科研工作总结资料构成金矿地质勘查的基础[1-3]。目前,已经形成了由基础调查类、专题调查类、综合集成类构成的多层次、全方位的地质资料信息服务产品体系[4],打造了覆盖地质全领域的大数据支撑平台[5]。特别是,标准规范、法律法规、专业书籍、论文报告、新闻资讯等非结构化数据成为矿产信息表达与存储的重要载体[6-7]。此类数据内容描述从简单到复杂,涉及各种矿区的地层、构造、岩浆岩等地质信息,以及规模、形态、产状、分布和矿石品位、物质组分、结构构造、自然类型等成矿地质特征知识[8]。结构化数据通常使用关系数据库存储和管理,已经充分发挥了价值。然而,非结构化数据约占地质矿产大数据总量的80%[7],包含更具丰富性的碎片化信息和隐式信息。非结构化数据主要由模糊的、定性的和不确定性的自然语言进行描述,还未得到充分利用与挖掘,具有更大的潜在价值[9]。在金矿知识管理中,海量矿产资源相关数据向有效成矿规律知识的转化,并形成知识与数据迭代式增强的智能化矿产知识分析与服务,已逐渐成为提升地质找矿精度的突破口[10]
知识图谱通过有向图的方式对客观世界中概念、实体、属性及其语义关系进行知识表达,使概念、实体间相互联结,能够提供系统的、深层次的结构化领域知识,将人类知识建构为一种计算机可理解、可计算、可推理的大型语义网络,引领大数据知识工程进入全新阶段[11]。大数据技术解决了传统知识工程在知识获取方面的瓶颈性问题,而知识图谱使得机器语言认知和人工智能的可解释性成为可能[12]。得益于其丰富的形式化语义信息,以及灵活的数据关联模型,知识图谱已成为领域知识管理服务的关键基础设施,可以有效解决多源异构金矿空间数据融合、信息检索与推荐、知识发现与推理等一系列金矿领域的长期挑战问题[13-14]。知识图谱构建包括模式层设计、数据层构建、知识存储和知识计算应用[15]。模式层是知识图谱的概念模型和逻辑基础,多借助本体进行概念、关系、属性和规则等知识的形式化表示,进而对知识图谱的数据层进行规范约束;而知识图谱的数据层则是本体的实 例化结果[15-16]。近年来在本体知识建模[16]、信息抽取、知识融合、知识组织与管理[17]等知识图谱的构建方面取得了丰富的研究成果,也出现了YAGO、ProBase、DBpedia和Wikidata等大型通用知识图谱。然而,金矿领域知识具有自身的特殊性和知识体系的丰富性,无法通过现有知识图谱直接复现和迁移实现[18-19]。因此,本文借鉴知识工程中本体知识表示方法以及信息抽取技术,探索金矿知识图谱构建方法,实现金矿地质勘查大数据向矿床的地质构造、找矿标志、成矿规律等知识转换,可形成“数据-知识”联合驱动的金矿找矿方法,为地质勘查工作中识别、控制和管理矿产资源、提升找矿精度提供参考。

2 基本原理及流程

基于本体的金矿知识图谱构建流程如图1所示,即采用本体技术进行模式层设计,构建金矿知识的概念模型,实现对金矿知识概念体系及其属性、关系和规则等的规范化描述和形式化表达。然后在模式层的约束下,从多源数据中获取金矿实体、关系和属性等大量具体实例知识,构建知识图谱的数据层。具体流程如下:首先,参照行业规范、金矿床共享知识库等专著和地质调查报告,梳理了金矿成矿模式,确定了金矿概念、金矿实体以及地质特征、成矿特征等属性。然后,运用自顶向下的领域本体知识表示方法构建金矿模式层,对金矿概念、实体、属性、关系和规则进行知识表示建模,形成金矿知识图谱的概念模型和逻辑基础。金矿实体是对金矿概念的实例化表达,在构建统一规范的金矿概念层次知识体系基础上,围绕金矿实体,构建解释金矿空间分布、演化过程和形成机制的语义表达模型,包括金矿实体的成矿地质特征等属性特征,以及时空演化等语义关系。其次,基于关系型数据库、统计表格存储的结构化数据,社交媒体网页中的半结构化数据,金矿期刊文献、调查报告的非结构化中文文本等多源异构数据,运用深度学习模型,进行金矿信息抽取、知识融合等,丰富和扩充金矿实例层,形成金矿知识图谱的数据支撑。并通过海量的金矿实例采用自底向上的方式丰富和完善金矿知识图谱的模式层。采用Neo4j图数据库对金矿知识三元组<实体,关系/属性,实体/属性值>进行存储,其中节点表示金矿概念、金矿实体和属性值,边表示概念关系、语义关系和属性关联。金矿数据层为模式层的金矿知识体系添加了系统化的实例,实现金矿地质勘查大数据向找矿标志、成矿规律等知识转换。最后,搭建了基于图数据库的金矿知识表达与管理的原型系统,实现金矿数据的查询、金矿信息抽取、金矿知识图谱构建及可视化表达、金矿知识库管理、金矿找矿知识查询与检索等功能,为识别、控制和管理金矿矿产资源,提升找矿精度提供知识服务。
图1 基于本体的金矿知识图谱构建流程

Fig. 1 Technical flowchart of knowledge graph of gold mine based on ontology

3 模式层建模

知识表示是金矿知识图谱进行知识组织的前提和基础[14-15]。本文运用自顶向下的领域本体知识表示方法构建金矿模式层,定义金矿领域概念、实体、属性以及关系。采用人工参与的方式进行概念梳理、分类分层和本体模型构建,清晰表达金矿实体的各种语义关系,保证金矿知识图谱数据的完整性、准确性和客观一致性。从顶层概念出发,逐步分层细化,形成具有良好结构的概念分类体系,进而对金矿概念进行实例化表达得到金矿实体,并总结金矿实体的成矿地质特征。借鉴七步法进行本体建模[16],将金矿领域本体抽象为概念、关系、属性、规则与实例的五元组,并进行形式化表示为式(1)。
G O n t o = G C o n , G R e l , G P r o p , G R u l e , G I n s
式中: G O n t o为金矿领域本体; G C o n为一系列具有相同特性的金矿概念; G R e l为金矿概念之间的继承关系,概念与实例之间的实例关系,以及实例之间的时空关系和语义关系; G P r o p为金矿实例与属性值间的关联,用以全面描述金矿数据的属性特征; G R u l e为规则,对金矿概念及实例的取值范围、类型及组合方式进行约束表达,进而支持语义推理; G I n s为概念到实例的映射,是金矿概念的具体实例化表达。

3.1 金矿实体建模

3.1.1 金矿概念

金矿知识体系复杂,按照构造尺度、埋藏范围、埋藏规模对金矿概念集进行细分,由大到小定义为矿区、矿床、矿段、矿体4种概念(图2)。矿区指统一规划和开发的含矿空间区域,其范围视矿床规模而定,以矿产采矿、开发与加工为主要特征[20]。矿床是矿产在地壳中的集中产地。它是指在地壳中由地质作用形成的,其所含有用矿物资源的数量和质量,在一定的经济技术条件下能被开采利用的综合地质体[21]。矿段指在开采矿床的过程中,沿一定的空间方向,划分的若干地段。矿体是矿床的基本组成单元,指含有足够数量矿石、具有开采价值的地质体,具有形态、产状和规模等属性特征[22]
图2 基于本体的金矿概念集构建(示例)

Fig. 2 Construction of gold mine concept set based on ontology

G C o n = C 1 , C 2 , C 3 , C 4
式中: C 1为矿区; C 2为矿床; C 3为矿段; C 4为矿体。
在地质找矿中,矿床成因类型的划定是矿床研究的重要任务,通过已勘探地区的地质环境、控矿要素、地质过程、成矿机理和构造背景,概括总结该地区矿床成因类型,有助于带动未勘探地区矿床的发现。金矿床成因类型依据《矿产地质勘查规范岩金》(DZ/T 0205—2020)[23]、《金矿石》(GB/T 32840—2016)[24]等现行业规范对中国金矿床成因类型的概念类别层次进行划分。在 C 2概念下继续细分,定义矿床概念集 C 2 G C o n为(式(3))。
C 2 G C o n = M 1 , M 2 , M 3 , M 4 , M 5 , M 6 , M 7
式中: M 1为岩浆热液金矿床; M 2为火山及次火山-热液金矿床; M 3为沉积-变质金矿床; M 4为变质-热液金矿床; M 5为地下(卤)水溶滤金矿床; M 6为风化壳金矿床; M 7为沉积金矿床。 C 2 G C o n作为矿床概念的一级类,又包含17个二级子类 M G C o n,定义为(式(4)):
M G C o n = M i j ( i 1,7 , j 1,17
式中: M i j代表二级子类矿床;i代表一级类的编号,j代表二级类的编号。同理,可以构建矿区、矿段、矿体等概念的概念子集。
为了增强本体模型在计算机中的可操作性,需要对本体模型进行形式化处理。本文采用Protégé本体建模工具结合网络本体语言(OWL)对金矿模式层进行建模,满足金矿本体不断循环更新优化的需求。

3.1.2 金矿实体与属性

金矿实体是金矿概念的具体实例化表达。金矿实体也是地质文本的主要组成要素,一系列特有的属性特征描述都是围绕金矿实体展开。不同类型的金矿床在时间、空间以及成因上联系密切。地质找矿时,首先查明矿区内地层、构造、岩浆岩等地质情况,然后对发现的矿体,查明其规模、形态、产状、分布和矿石品位、物质组分、结构构造、自然类型等成矿地质特征,并进行储量计算。因此,在金矿概念知识表示建模的基础上,以金矿实体为中心,概括总结了《固体矿产矿点(床)地质数据文件格式》(DZ/T 0127-1994)[25]《中国矿床模式》[26]等现行标准、共享知识库和地质学专著,以找矿知识为指导,对金矿实体的成矿地质特征进行描述(表1)。通过建立金矿实体和成矿地质特征之间的属性关联,构建完整的金矿知识体系,指导地质找矿工作。
表1 金矿实体知识体系分类表

Tab. 1 Classification of entity knowledge system of gold mine

一级 二级 三级 解释说明
金矿实体的成矿地质特征 成矿时间 发现时间 矿产地首次发现的时间
成矿时代 矿产形成的时间
大地构造位置 地名 矿产所在地理位置的描述名称
经度 金矿实体中心位置的地理坐标的经度
纬度 金矿实体中心位置的地理坐标的纬度
大地构造演化 地层 含矿地层单位名
岩性 含矿地层中岩体主要岩性组成的名称
成矿地质构造 地质构造特征 主要褶皱及断裂的类型和性质
成矿构造性质 矿区内主要成矿构造的性质
空间 方位 金矿实体在空间上的展布方向
形态 金矿实体在空间上的展布形状
产状 倾向 金矿实体的倾斜方向
倾角 金矿实体的倾斜角度
变质作用 围岩蚀变类型 与成矿有关的围岩蚀变类型
变质建造 变质建造中富含有用矿物或元素的含矿变质建造
规模 规模等级 按探求的储量数确定金矿实体的规模等级
延深 金矿实体的延深长度
长度 金矿实体的长度
厚度 金矿实体的厚度

3.2 语义关系建模

金矿语义关系包括金矿概念之间的继承关系和实例关系、金矿实体之间的包含关系和伴随关系、金矿实体与特征属性之间的关联关系。
(1)概念关系指不同金矿概念之间的继承关系(Kind of,KO),金矿概念和金矿实例之间的实例关系(Is-A,ISA)[27]。继承关系表示上下级概念之间的逻辑层次分类结构,如上一级概念是下一级的父概念,下一级概念是上一级的子概念。这样的有序行为通过树形结构进行表示,层级的概念与树形结构中所表达的个体等级对应。树形结构越深,层级结构就具有越多层级。最高的层级具有最抽象的水平,最低的层级具有最具体的水平。由此,继承关系的形式化表达如式(5)所示。
R K O = M i , r , M i j ( i 1,7
式中: M i M i j是矿床概念集中同一要素的上下级; R k o表示上下级之间的继承关系,如岩浆热液金矿床 M 1和重熔岩浆热液金矿床 M 11、混合岩化-重熔岩浆热液金矿床 M 12、接触交代-热液金矿床 M 13之间存在继承关系,表现出相同的属性。
实例关系表示某一具体的金矿实体是金矿成因类型的一个实例,如山东玲珑金矿床是混合岩化-重熔岩浆热液金矿床的一个实例。
R I S A = C i , r , e i
式中: R I S A表示实例关系; C i e i分别是金矿的抽象概念以及对应的金矿实例。
(2)金矿实体之间的包含关系和伴随关系更为复杂,蕴含了金矿实体发生的机理知识。伴随关系(式(7))和包含关系(式(8))形式化表达为:
R = C 2 , r , C 2 '
R = C i , r , C j ( 1 i < j 4
式中: R ( C 2 , C 2 ' )为伴随关系,在金矿床 C 2产生的过程中,也会伴随着其他共生矿床 C 2 '诞生。 R ( C i , C j )为包含关系,矿区 C 1包含矿床 C 2、矿段 C 3、矿体 C 4;矿床 C 2包含矿段 C 3,矿段 C 4;矿段 C 3包含矿体 C 4。由于概念关系具有继承性,模式层的语义关系在每一级概念之间以及在金矿实例间均适用。
(3)属性关联关系。金矿实体拥有自身特有的属性,描绘实体的内在结构,包括数据属性和对象属性。数据属性是对金矿实体和属性数值间关系的具体描述,对象属性是对金矿实体和属性对象在语义层次上的相互关联关系的表达。例如,金矿数据属性描述包括长度、延伸、厚度等量化值。金矿实体与地层、形态、成矿构造等属性对象之间的关联关系则构成对象属性。(实体,属性,属性值)同样以三元组的形式进行存储,如式(9)或式(10)所示。
R = ( C i , P r o p e r t y , v a l u e )
R = ( e i , P r o p e r t y , v a l u e )
式中: C i表示概念; e i表示实例; P r o p e r t y是属性, v a l u e是属性对应的属性值。

4 数据层构建

4.1 数据来源及预处理

关系型数据库、统计表格等结构化数据,根据金矿模式层建模和知识融合方法可以直接转换成知识图谱表达。地质学家在几十年甚至百年的地质调查工作中对各种地质问题及结论的多样性记录,以地质调查、矿产勘查和科研工作中形成的各类文献、报告为载体进行表达。特别是,地质期刊文献更新快、数量大,表达的知识较为前沿、新颖,是大量优秀的地质工作者通过对自己的研究进行精炼加工所得成果,其内容表述比较规范化,包含的知识更加密集丰富[28-29]。针对非结构化的文献和报告等多源数据,本文采用基于机器学习的信息抽取方式获取金矿知识。训练数据来源于自2000年1月——2020年1月发表在《矿床地质》《岩石学报》《地质找矿》等期刊上的300篇文章,剔除文本中含有的空格、无关链接、图表,最终得到有效数据约138万字。金矿信息的文本描述具有领域性特征,无法通过通用自然语言语料直接迁移实现。因此,基于自主研发的“交互式矿产信息标注软件”(软著登字第5448333号)[30],采用交叉验证及意见反馈模式进行金矿实体、属性及语义关系标注,构建了金矿信息标注语料库,为金矿信息抽取提供标准化的训练和测试数据。语料库中涵盖描述具体矿区、矿床、矿段和矿体的实体7413条,涵盖表1描述的属性31 055条,涵盖实体关系568条,属性关联等金矿语义关系3938条。

4.2 金矿知识抽取与融合

参照金矿知识体系与表达模型,进行金矿知识抽取、知识融合等数据与知识处理。非结构化文本数据中金矿知识描述复杂,具有文本距离长、指代现象多、语义关系复杂、领域中专有词汇多等特征。从文本数据中抽取金矿实体、属性和关系是知识抽取的难点。基于规则和词典的方法,需要先验知识来设定规则,无法建立完备的语料库和规则库,识别效果不佳[31-32]。基于半监督识别方法则需要大量金矿知识作为研究支撑,对于研究者的要求较高[33]。基于深度学习模型的金矿信息抽取方法可以有效地提取上下文文本特征,能够取得较好的准确率和召回率[34]
(1)金矿信息抽取
目前,基于深度学习模型的地质实体信息抽取方法多采用单一神经网络,不能有效顾及地质文本信息的多种特征[35]。本文在金矿知识体系的引导下,以现有的语言表达模型BERT(Bidirectional Encoder Representations from Transformers)[36]、双向长短期记忆模型(Bidirectional Long Short-Term Memory,BiLSTM)[37]、卷积神经网络(Convolutional Neural Networks,CNN)[38]和条件随机场(Conditional Random Field,CRF)[39]模型进行聚合,设计了双分支聚合模型(BERT-BiLSTM-CNN-CRF)进行金矿实体与属性信息的抽取[40]。在输入端采用预训练向量模型BERT动态词向量的优势将语料库中的实体与属性标注语料生成词向量,结合BiLSTM网络的长距离依赖捕获能力和CNN局部信息抽取优势进行金矿实体和属性特征的抽取,利用CRF学习转移特征的优势做输出信息的标签预测,进而完成对金矿实体和属性信息的抽取。采用准确率P、召回率R和F1度量值对金矿实体与属性信息抽取的性能进行定量化评价,并将本文设计的双分支聚合模型与经典机器学习、深度学习模型的抽取效果进行比较(表2)。
表2 金矿实体与属性信息抽取结果

Tab. 2 Extraction results of gold mine entity and attribute information (%)

模型 实体 属性 总体
P R F1值 P R F1值 均值
CRF 84.51 76.71 80.42 86.05 79.94 82.88 82.43
word2vec-BiLSTM-CRF 85.63 85.11 85.34 83.20 82.62 82.86 83.20
BERT-BiLSTM-CRF 89.76 93.50 91.60 82.86 91.02 86.70 87.53
BERT-BiLSTM-CNN-CRF 91.41 94.23 92.79 85.52 91.07 88.17 89.10
总体上,文本中金矿实体表述规范,而金矿属性描述复杂,导致金矿实体识别效果优于属性信息识别效果。双分支聚合模型抽取效果与主流深度学习模型相比,实体和属性信息抽取的准确率与F1度量值均得到了提升,较好的召回率验证了金矿知识体系和语料库构建的有效性与可行性。同时,模型也存在少量识别不全、识别错误的问题。由于金矿实体、属性信息的语料标注规模上有差别,实体抽取时,权重较低,导致识别不完整,如涉及组合名词的金矿实体和属性描述,可能出现边界识别不全的问题。由于语料描述的复杂性与多样性,也会产生错误识别的问题,如在“金山金矿区域大地构造背景”中,误将“金山金矿”识别为“金山金矿区”。对于信息抽取中出现的识别不全和错误识别的问题,一方面通过语料库进行查错、更新,另一方面,在知识融合中通过实体对齐和消歧的方法进行解决。基于金矿信息标注语料,本文采用Attention-BiLSTM、CNN与Transformer 3种主流的深度学习模型进行金矿实体与实体、实体与属性的语义关系抽取,通过对模型的参数调整得出最优的模型。通过实验综合对比,在金矿实体关系抽取中,CNN、Attention-BiLSTM和Transformer模型取得最优F1值分别为90.83%、87.67%和84.73%。从3个模型识别效果来看,基于深度学习模型进行金矿实体关系抽取具有可行性。在属性关联关系抽取中,CNN模型同样取得了最优的表现(表3)。
表3 金矿语义关系抽取结果

Tab. 3 Extraction results of semantic relationship of gold mine (%)

模型 实体关系 属性关联关系
CNN P 88.89 90.55
R 92.86 85.82
F1 90.83 88.12
Attention-BiLSTM P 89.72 88.34
R 85.71 83.89
F1 87.67 86.06
Transformer P 88.05 81.91
R 84.41 81.84
F1 84.73 81.87
(2)金矿知识融合
由于知识图谱中知识来源广泛,所抽取的实体、关系、属性等知识存在重复、一词多义等问题。通过实体对齐、消歧等知识融合方法,判断2个及以上信息来源的金矿实体是否指向真实世界中同一对象,对不同表述形式和不同知识来源的同一金矿对象进行知识融合,确保知识质量。具体步骤如下:首先,对知识抽取结果中不同来源但描述相同的金矿实体与属性信息进行去重操作,剔除冗余的金矿实体知识。其次,金矿实体可能包含别称、缩写、解释性等表述,导致对同一金矿实体的描述不一致。用数值向量表示金矿实体的内容,通过衡量2个金矿实体向量之间的语义相似度,实现金矿实体的对齐,从而保证同一金矿实体在知识图谱中的唯一性。通过式(10)[40-41]计算出金矿实体的特征向量 V,并比较2个实体特征向量之间的余弦相似度,根据经验设定阈值为0.9。当余弦相似度大于0.9时,认为它们是同一个金矿实体,进行合并操作,并以人工辅助手段控制融合的精度。
V = α C + β W + γ f c W f N c
式中: C为字符向量,包含金矿实体的字符信息,对应字符向量权重参数 α W为词向量,由BERT微调模型得出,包含语料库中的金矿实体信息,对应词向量权重参数 β W f N c为上下文语境 c中的特征向量,包含当前金矿实体所处的语境信息,对应权重参数 γ W f为特征词 f在上下文语境 c中的特征向量; N c为上下文中词的总数。

5 金矿知识图谱表达

5.1 金矿知识图谱表达

图数据库是使用图形结构进行语义查询的数据库,用节点、边表示和存储数据。主流的图数据库包括Neo4j、JanusGraph、TigerGraph、Dgraph等[42]。 由于Neo4j具备数据查询快、功能完善、支持可视化、结构化、多维度存储和管理三元组的优势,长期处于图数据库领域的主力地位。本文采用Neo4j构建金矿知识图谱,将金矿概念、金矿实体、金矿的成因类型、找矿依据的成矿地质特征值转化为节点,将不同金矿与找矿指标之间的关联转化为边,实现海量矿产资源相关数据中碎片化知识以结构化三元组的形式进行存储。金矿知识图谱模式层实现了对金矿概念、实体、属性和关系的知识表示建模,是对金矿知识的高度总结(图3);数据层为模式层的金矿知识体系添加了系统化的实例(图4),均为地质找矿提供重要的理论模型和知识基础。其中,不同颜色节点表示不同层次的金矿概念和金矿实体,如“金矿知识图谱-矿床-岩浆热液金矿床-混合岩化重熔岩浆热液金矿床-山东焦家金矿床”实现了从金矿成因类型到金矿实例的连接。金矿知识图谱数据层是对(金矿实体、关系、金矿实体)和(金矿实体、属性、属性值)三元组的详细描述,将金矿实体、金矿成矿地质特征等知识进行表达。例如,作为岩浆热液型的典型矿床,山东焦家金矿床既具有与重熔的中酸性侵入体或与混合岩化花岗岩在成因和时空分布上有关的地质特征,也具有硫化物-金建造、破碎带蚀变岩型、脉带形矿体、钾化、硅化、黄铁绢英岩化等规律性的找矿标志。以山东焦家金矿床为例,通过Cypher语句,查询“山东焦家金矿床”节点与其他实体节点、属性值节点的关联。输入match (n:实例)-[]-(m) where n.name='山东焦家金矿床' return n,m,可直观地看到山东焦家金矿床所属的矿床类型、所处的矿区、包含的矿体、控制焦家金矿形成有关的成矿地质指标(图4)。
图3 金矿知识图谱模式层示例

Fig. 3 Schema layer of gold mine knowledge graph

图4 金矿知识图谱数据层示例

Fig. 4 Data layer of gold mine knowledge graph

5.2 基于图数据库的金矿知识管理

金矿知识图谱能够较好地表示经知识抽取与融合后的金矿知识,以简单的形式化格式存储,方便检索和分析。为了便于地质人员管理金矿知识,全面直观、快速准确地表达与展示金矿空间分布、时空演化、找矿规律,进而为金矿找矿知识查询提供智能化服务,设计了基于图数据库的金矿知识管理原型系统。系统功能由4个模块组成,包括金矿数据查询、知识抽取、知识图谱可视化表达和金矿知识库管理功能。如图5(a)所示,金矿数据查询模块的主要功能实现对文本数据的查看和检索,将金矿文本数据进行文本预处理,将金矿实体与属性信息用不同颜色字体进行标识。将文本中复杂的或者难以通过文字表达的内容和规律以视觉符号的形式进行表达,使用户能够快速获取数据中所蕴含的关键信息。知识抽取模块为金矿大数据的知识挖掘和利用提供数据支撑,如图5(b)所示,利用深度学习模型进行知识抽取,并以结构化的形式呈现所要抽取的金矿实体和语义关系。基于图数据库和经过知识融合的金矿实体与属性信息进行金矿知识图谱构建,如图5(c)所示,并为用户提供个性化服务,降低知识查找的成本,用户可通过点击节点,快捷高效地查看任意节点所代表的值以及与之相连的边所代表的关系或属性。如图5(d)所示,金矿知识库管理模块既涵盖了金矿语料库的标注规范、现有数据的标注成果,又包含了国际年代地层表、地质学汉语叙词表等地质资料服务产品。用户通过查阅金矿知识库,掌握金矿知识图谱的构建方法和知识,对金矿知识图谱进行更新和维护,对实现地质大数据的智能分析与挖掘等具有重要的实际价值。
图5 基于图数据库的金矿知识表达与管理

Fig. 5 Knowledge representation and management of gold mine

6 结论

本文引入知识工程中本体知识表示方法,开展了金矿知识图谱构建方法研究。针对矿产成矿模式特有的科学内涵与知识体系,进行金矿知识概念建模与形式化表达,围绕金矿实体,构建解释金矿空间分布、演化过程和形成机制的语义表达模型,构建了金矿模式层。采用深度学习模型从泛在结构化、半结构化和非结构化的数据源中进行金矿知识获取,构建金矿数据层,采用自底向上的方式实现金矿知识图谱的构建,并研发了基于图数据库的金矿知识管理系统,实现了金矿数据的查询、信息提取、金矿知识图谱构建及知识库管理等功能。金矿知识图谱实现了“地、物、化、遥”等工程和科研大数据向矿床的地质构造、找矿标志、成矿规律等知识转换,为地质勘查工作中识别、控制和管理矿产资源、提升找矿精度提供知识服务。
在后续的研究中,一方面继续扩大数据来源与规模,进行金矿知识图谱的补全,进而开展基于知识推理与知识计算的金矿成矿规律知识挖掘。另一方面,将本文方法扩展于铜、铅、锌等其他类型矿床找矿知识的探索,为地质找矿提供科学决策支持。
[1]
王翔, 李景朝, 陈辉, 等. 大数据与地质资料信息服务:需求、产品、技术、共享[J]. 地质通报, 2015, 34(7):1309-1315.

[Wang X, Li J C, Chen H, et al. Big and geological data information services[J]. Geological Bulletin of China, 2015, 34(7):1309-1315.] DOI:10.3969/j.issn.1671-2552.2015.07.008

DOI

[2]
杨金中, 秦绪文, 聂洪峰, 等. 全国重点矿区矿山遥感监测综合研究[J]. 中国地质调查, 2015, 2(4):24-30.

[Yang J Z, Qin X W, Nie H F, et al. Comprehensive research on remote sensing monitoring of the national concentration zones of the important mine[J]. Geological Survey of China, 2015, 2(4):24-30.] DOI:10.19388/j.zgdzdc.2015.04.005

DOI

[3]
崔舜铫. 基于光学与雷达遥感的协同找矿信息提取研究-以西藏阿里扎西岗地区为例[D]. 北京: 中国地质大学, 2019.

[Cui S Y. Research on collaborative prospecting information extraction based on optical and radar remote sensing: A case study of Zhaxigang area in Ali, Tibet[D]. Beijing: China University of Geosciences, 2019.] DOI:10.27493/d.cnki.gzdzy.2019.001435

DOI

[4]
朱月琴, 谭永杰, 吴永亮, 等. 面向地质大数据的语义检索模型研究[J]. 中国矿业, 2017, 26(12):143-149.

[Zhu Y Q, Tan Y J, Wu Y L, et al. Research on semantic retrieval model towards geological big data[J]. China Mining Magazine, 2017, 26(12):143-149.] DOI:CNKI:SUN:ZGKA.0.2017-12-027

DOI

[5]
郑啸, 李景朝, 王翔, 等. 大数据背景下的国家地质信息服务系统建设[J]. 地质通报, 2015, 34(7):1316-1322.

[Zheng X, Li J C, Wang X, et al. Construction of the national geological information service system in the age of big data[J]. Geological Bulletin of China, 2015, 34(7):1316-1322.] DOI:CNKI:SUN:ZQYD.0.2015-07-009

DOI

[6]
Wu L, Xue L, Li C L, et al. A knowledge-driven geospatially enabled framework for geological big data[J]. ISPRS International Journal of Geo-information, 2017, 6(6):166-186. DOI:10.3390/ijgi6060166

DOI

[7]
魏东琦, 李磊, 赛琳伟, 等. 地质大数据:非结构化数据的存储与挖掘[M]. 北京: 地质出版社, 2020.

[ Wei D Q, Li L, Sai L W, et al. Geological big data: Storage and mining of unstructured data[M]. Beijing: Geological Publishing, 2020.]

[8]
Qiu Q J, Xie Z, Wu L, et al. DGeoSegmenter: A dictionary-based chinese word segmenter for the geoscience domain[J]. Computers and Geosciences, 2018, 121(12):1-11. DOI:10.1016/j.cageo.2018.08.006

DOI

[9]
韩媛, 张红英, 粱楠. 大数据在地质资料管理与服务中“落地”问题分析[J]. 中国地质调查, 2016, 3(3):67-70.

[Han Y, Zhang H Y, Liang N. Analysis of the big data “landing” in geological data management and service[J]. Geological Survey of China, 2016, 3(3):67-70.] DOI:CNKI:SUN:DZDC.0.2016-03-010

DOI

[10]
李建威, 赵新福, 邓晓东, 等. 新中国成立以来中国矿床学研究若干重要进展[J]. 中国科学:地球科学, 2019, 49(11):1720-1771.

[Li J W, Zhao X F, Deng X D, et al. An overview of the advance on the study of China's ore deposits during the last seventy years[J]. Scientia Sinica(Terrae), 2019, 49(11):1720-1771.] DOI:CNKI:SUN:JDXK.0.2019-11-003

DOI

[11]
周成虎, 王华, 王成善, 等. 大数据时代的地学知识图谱研究展望[J]. 中国科学:地球科学, 2021, 51(7):1070-1079.

[ Zhou C H, Wang H, Wang C S, et al. Geoscience knowledge graphin the big data era[J]. Science China Earth Sciences, 2021, 64(7):1105-1114.] DOI:10.1360/SSTe-2020-0337

DOI

[12]
肖仰华. 知识图谱:概念与技术[M]. 北京: 电子工业出版社, 2020.

[ Xiao Y H. Knowledge atlas: concepts and technologies[M]. Beijing: Publishing House of Electronics Industry, 2020.]

[13]
刘俊楠, 刘海砚, 陈晓慧, 等. 面向多源地理空间数据的知识图谱构建[J]. 地球信息科学学报, 2020, 22(7):1476-1486.

DOI

[Liu J N, Liu H Y, Chen X H, et al. The Construction of knowledge graph towards multi-source geospatial data[J]. Journal of Geo-information Science, 2020, 22(7):1476-1486.] DOI:10.12082/dqxxkx.2020.190565

DOI

[14]
张雪英, 张春菊, 吴明光, 等. 顾及时空特征的地理知识图谱构建方法[J]. 中国科学:信息科学, 2020, 50(7):1019-1032.

[Zhang X Y, Zhang C J, Wu M G, et al. Spatio-temporal features based geographical knowledge graph construction[J]. Sci Sin Inform, 2020, 50(7):1019-1032.] DOI:10.1360/SSI-2019-0269

DOI

[15]
刘俊楠, 刘海砚, 陈晓慧, 等. 面向多源地理空间数据的知识图谱构建[J]. 地球信息科学学报, 2020, 22(7):1476-1486.

DOI

[Liu J N, Liu H Y, Chen X H, et al. The Construction of knowledge graph towards multi-source geospatial data[J]. Journal of Geo-information Science, 2020, 22(7):1476-1486.] DOI:10.12082/dqxxkx.2020.190565

DOI

[16]
岳丽欣, 刘文云. 国内外领域本体构建方法的比较研究[J]. 情报理论与实践, 2016, 39(08):119-125.

[Yue L X, Liu W Y. A comparative study of the construction method of domain ontology at home and abroad[J]. Information Studies:Theory & Application, 2016, 39(08):119-125.] DOI:10.16353/j.cnki.1000-7490.2016.08.024

DOI

[17]
陆锋, 余丽, 仇培元. 论地理知识图谱[J]. 地球信息科学学报, 2017, 19(6):723-734.

DOI

[Lu F, Yu L, Qiu P Y. On geographic knowledge graph[J]. Journal of Geo-information Science, 2017, 19(6):723-734.] DOI:10.3969/j.issn.1560-8999.2017.06.001

DOI

[18]
姚健鹏, 郭艳军, 潘懋, 等. 铜矿床领域本体的构建方法研究[J]. 中国矿业, 2017, 26(8):140-145.

[Yao J P, Guo Y J, Pan M, et al. Study on the method of constructing copper deposits domain ontology[J]. China Mining Magazine, 2017, 26(8):140-145.] DOI:CNKI:SUN:ZGKA.0.2017-08-027

DOI

[19]
周永章, 张前龙, 黄永健, 等. 钦杭成矿带斑岩铜矿知识图谱构建及应用展望[J]. 地学前缘, 2021, 28(3):67-75.

DOI

[Zhou Y Z, Zhang Q L, Huang Y J, et al. Constructig knowledge graph for the porphyry copperdeposit in the Qingzhou-Hangzhou Bay area : Insight into knowledge graph based mineral resource prediction and evaluation[J]. Earth Science Frontiers, 2021, 28(3):67-75.] DOI:10.13745/j.esf.sf.2021.1.2

DOI

[20]
常青, 邱瑶, 谢苗苗, 等. 基于土地破坏的矿区生态风险评价:理论与方法[J]. 生态学报, 2012, 32(16):5164-5174.

[ Chang Q, Qiu Y, Xie M M, et al. Theory and method of ecological risk assessment for mining areas based on the land destruction[J]. Acta Ecologica Sinica, 2012, 32(16):5164-5174.] DOI:10.5846/stxb201108031140

DOI

[21]
葛良胜. 基于地质环境成矿专属性的成矿-找矿体系[J]. 矿床地质, 2008, 27(S1):1-14.

[Ge L S. Metallogenic and ore-prospecting system based on metallogenic specialization of geological environment[J]. Mineral Deposits, 2008, 27(S1):1-14.] DOI:CNKI:SUN:KCDZ.0.2008-S1-003

DOI

[22]
杨言辰, 李绪俊, 马志红. 生产矿山隐伏矿体定位预测[J]. 大地构造与成矿学, 2003, 27(1):83-90.

[Yang Y C, Li X J, Ma Z H. Locating-prediction of blind orebodies in producing mines[J]. Geotectonica et Metallogenia, 2003, 27(1):83-90.] DOI:10.3969/j.issn.1001-1552.2003.01.012

DOI

[23]
中华人民共和国国土资源部. 中华人民共和国地质矿产行业标准:矿产地质勘查规范岩金DZ/T 0205-2020[S]. 北京: 地质出版社, 2020.

[Ministry of Land and Resources of the People's Republic of China. Geology and mineral resources industry standard of the People's Republic of China: Specifications for rock gold mineral exploration DZ/T 0205-2020[S]. Beijing: Geological Publishing, 2020.]

[24]
中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. 中华人民共和国国家标准:金矿石GB/T 32840-2016[S]. 北京: 中国标准出版社, 2017.

[General Administration of Quality Supervision Inspection and Quarantine of the People's Republic of China, Standardization Administration of the People's Republic of China. National Standard of the People's Republic of China: Gold ores GB/T 32840-2016[S]. Beijing: Standards Press of China, 2017.]

[25]
中华人民共和国地质矿产部. 中华人民共和国地质矿产行业标准:固体矿产矿点(床)地质数据文件格式DZ/T 0127-1994[S]. 北京: 中国标准出版社, 1997.

[Ministry of Geology and Mineral Resources of the People's Republic of China. Geology and mineral resources industry standard of the People's Republic of China: Geological data file format of solid mineral deposit DZ/T 0127-1994[S]. Beijing: Standards Press of China, 1994.]

[26]
裴荣富. 中国矿床模式[M]. 北京: 地质出版社, 1995.

[ Pei R F. Mineral deposit models of China[M]. Beijing: Geological Publishing, 1995.]

[27]
惠军华. 知识表示与处理[M]. 北京: 电子工业出版社, 2021.

[ Hui J H. Knowledge representation and processing[M]. Beijing: Publishing House of Electronics Industry, 2021.]

[28]
Qiu Q J, Xie Z, Wu L, et al. Automatic spatiotemporal and semantic information extraction from unstructured geoscience reports using text mining techniques[J]. Earth Science Informatics, 2020, 13(3):1393-1440. DOI:10.1007/s12145-020-00527-9

DOI

[29]
Qiu Q J, Xie Z, Wu L, et al. Dictionary-based automated information extraction from geological documents using a deep learning algorithm[J]. Earth Space Science, 2020, 7(3):1-20. DOI:10.1029/2019EA000993

DOI

[30]
张春菊, 陈玉冰, 汪陈. 交互式矿产信息标注软件系统V1.0[Z]. 中国,第5448333号, 2020.

[ Zhang C J, Chen Y B, Wang C. Interactive mineral information annotation software system V1.0[Z]. No.5448333, China, 2020.]

[31]
乐小虬, 杨崇俊, 于文洋. 基于空间语义角色的自然语言空间概念提取[J]. 武汉大学学报·信息科学版, 2005(12):1100-1103.

[Le X Q, Yang C J, Yu W Y. Spatial concept extraction based on spatial semantic role in natural language[J]. Geomatics and Information Science of Wuhan University, 2005(12):1100-1103.] DOI:10.3321/j.issn:1671-8860.2005.12.017

DOI

[32]
陈丽蓉. 顾及空间约束的多元地球化学异常识别自编码神经网络方法研究[D]. 武汉: 中国地质大学, 2019.

[Chen L R. Multivariate geochemical anomaly recognition using spatial constrained autoencoders[D]. Wuhan: China University of Geosciences, 2019.] DOI:10.27492/d.cnki.gzdzu.2019.000035

DOI

[33]
吕鹏飞, 王春宁, 朱月琴. 基于文献的地质实体关系抽取方法研究[J]. 中国矿业, 2017, 26(10):167-172.

[ Lv P F, Wang C N, Zhu Y Q. Study on geologic entity relation extraction method based on literature[J]. China Mining Magazine, 2017, 26(10):167-172.]

[34]
张雪英, 叶鹏, 王曙, 等. 基于深度信念网络的地质实体识别方法[J]. 岩石学报, 2018, 34(2):9-22.

[Zhang X Y, Ye P, Wang S, et al. Geological entity recognition method based on deep belief networks[J]. Acta Petrologica Sinica, 2018, 34(2):9-22.] DOI:CNKI:SUN:YSXB.0.2018-02-011

DOI

[35]
Fan R Y, Wang L Z, Yan J, et al. Deep learning-based named entity recognition and knowledge graph construction for geological hazards[J]. ISPRS International Journal of Geo-information, 2019, 9(1):15-28. DOI:10.3390/ijgi9010015

DOI

[36]
杨飘, 董文永. 基于BERT嵌入的中文命名实体识别方法[J]. 计算机工程, 2020, 46(4):40-45.

[Yang P, Dong W Y. Chinese named entity recognition method based on BERT embedding[J]. Computer Engineering, 2020, 46(4):40-45.] DOI:10.19678/j.issn.1000-3428.0054272

DOI

[37]
Qiu Q J, Xie Z, Wu L, et al. BiLSTM-CRF for geological named entity recognition from the geoscience literature[J]. Earth Science Informatics, 2019, 12(4):565-579. DOI:10.1007/s12145-019-00390-3

DOI

[38]
刘艳鹏, 朱立新, 周永章. 卷积神经网络及其在矿床找矿预测中的应用——以安徽省兆吉口铅锌矿床为例[J]. 岩石学报, 2018, 34(11):3217-3224.

[Liu Y P, Zhu L X, Zhou Y Z. Application of Convolutional Neural Network in prospecting prediction of ore deposits: Taking the Zhaojikou Pb-Zn ore deposit in Anhui province as a case[J]. Acta Petrologica Sinica, 2018, 34(11):3217-3224.] DOI:CNKI:SUN:YSXB.0.2018-11-007

DOI

[39]
Sobhana N, Pabitra M, Ghosh S, et al. Conditional random field based named entity recognition in geological text[J]. International Journal of Computer Applications, 2011, 1(3):119-125. DOI:10.5120/72-166

DOI

[40]
汪陈. 面向中文文献的金矿时空属性信息抽取及知识图谱可视化表达[D]. 合肥: 合肥工业大学, 2021.

[ Wang C. Extraction of spatiotemporal attributes information of gold mines and visual expression of knowledge graphs for chinese literature[D]. Hefei: Hefei University of Technology, 2021.]

[41]
杨秀璋. 实体和属性对齐方法的研究与实现[D]. 北京: 北京理工大学, 2016.

[Yang X Z. Research and implementation on entity alignment and attribute alignment[D]. Beijing: Beijing Institute of Technology, 2016.] DOI:CNKI:CDMD:2.1018.813492

DOI

[42]
王鑫, 邹磊, 王朝坤, 等. 知识图谱数据管理研究综述[J]. 软件学报, 2019, 30(7):2139-2174.

[Wang X, Zou L, Wang C K, et al. Research on knowledge graph data management: A survey[J]. Journal of Software, 2019, 30(7):2139-2174.] DOI:10.13328/j.cnki.jos.005841

DOI

文章导航

/