Research on Data Model Construction and Management Service Methods for Scientific Ocean Drilling Considering the Whole Lifecycle

  • SUN Haoyang , 1 ,
  • LIN Bingxian , 1, 2, 3, * ,
  • ZHOU Liangchen 1, 2, 3 ,
  • LV Guonian 1, 2, 3
Expand
  • 1. School of Geography Science, Nanjing Normal University, Nanjing 210023, China
  • 2. Jiangsu Center for Collaborative Innovation in Geographical Information Resource Development and Application, Nanjing 210023, China
  • 3. Key Laboratory of Virtual Geographic Environment, Nanjing Normal University, Ministry of Education, Nanjing 210023, China
*Lin Bingxian, E-mail:

Received date: 2023-07-01

  Revised date: 2023-12-11

  Online published: 2024-03-31

Supported by

National Natural Science Foundation of China(42371464)

Postgraduate Research & Practice Innovation Program of Jiangsu Province(KYCX23_1709)

Abstract

Scientific Ocean Drilling is a large-scale and long-standing international collaborative project in Earth sciences. Over the past 50 years, the program has carried out more than 300 expeditions and acquired a large amount of scientific data. The data exhibit typical characteristics of big scientific data, such as complex sources, diverse storage formats, and varied data structures. Currently, earth science has entered the fourth paradigm of data-driven scientific discovery. Effective organization and management of data, as well as enhanced data integration and services, are important foundational requirements for utilizing scientific ocean drilling data for data-driven Earth science discoveries. Existing scientific ocean drilling databases were established at an early stage, featuring relatively simple data retrieval capabilities and a lack of integrated and diverse data-processing tools. This poses challenges to the unified management, effective integration, efficient scheduling, extensive sharing, and comprehensive utilization of data. In response to these problems, firstly, the issues and requirements of scientific ocean drilling data organization and modeling are thoroughly analyzed. The process of generating scientific ocean drilling data, considering the whole lifecycle, was analyzed for organizing multi-source heterogeneous data. Then, based on the information expression system with elements of time, place, character, object, event, phenomenon, and scene, dimensions of semantic, spatial location, geometric structure, attribute, interrelationship, evolution process, and mechanism of interpretation from the perspective of geography, a scientific ocean drilling data model was constructed, taking into account the entire lifecycle of drilling data. Building upon this foundation, a framework for the scientific ocean drilling data integration and service application was proposed, encompassing data management, data querying, and thematic mapping. To optimize storage space and improve query efficiency, the storage implementation based on object-relational database and Elasticsearch was completed, following the concept of data cold-hot separation. To meet diversified data acquisition needs, a data retrieval approach with elemental on-demand query and multi-modal result integration was proposed. To better visualize the data, a customizable and configurable thematic mapping method was implemented. Based on these methods, a verification platform with the aforementioned capabilities was developed. The scientific ocean drilling data of Exp349, Exp367, and Exp368 in the South China Sea were used as examples to validate the feasibility of the methods and the usability of the platform. The research findings provide methodological references for organizing scientific ocean drilling data and serve as a reference for the efficient management and application of big scientific data.

Cite this article

SUN Haoyang , LIN Bingxian , ZHOU Liangchen , LV Guonian . Research on Data Model Construction and Management Service Methods for Scientific Ocean Drilling Considering the Whole Lifecycle[J]. Journal of Geo-information Science, 2024 , 26(3) : 638 -653 . DOI: 10.12082/dqxxkx.2024.230361

1 引言

国际大洋钻探计划旨在利用远洋研究平台恢复海底沉积物和岩石中记录的数据,探索地球的历史和演变,是地球科学领域一项成效显著的国际合作项目[1]。1968年来,该项目历经4个阶段,先后使用4个钻探平台在全球各大洋执行航次311个,钻井4 124口,钻穿沉积物和基岩超100万m,取芯长度超46.7万m(截至2023年5月)[2]。项目获得的观测数据以多源异构的形式存储于报告文献与数据库之中(图1)。据马鹏飞等[3]针对代表性站位的调研统计,各类站位报告、初步报告、航次报告等文献达8 000余篇,其中表、图、文中涵盖了沉积学、矿物学、古生物学、地球物理、地球化学等15类近200项数据内容。数据库包括岩芯数据库、测井数据库、文献数据库、学科数据库等,其中岩芯数据库是最为核心的数据来源,基于Oracle关系型数据库构建的Janus数据库和实验室信息管理系统(Laboratory Information Management System,LIMS)[4-5]、日本数据库系统(Japanese Database System,J-CORES)、欧洲MSP数据库平台[6]存储了不同钻探平台和钻探阶段的岩芯数据,哥伦比亚大学测井数据库存储了部分站位的测井数据,文献数据库[7]使用数字对象唯一标识符(DOI)收录和检索有关大洋钻探的论文及其附录数据,而Neptune、Mikrotax、EarthChem等学科数据库收集部分出版物附有的数据。当前,科学研究正逐步迈入以数据驱动的第四范式[8-11],深时数字地球计划[12]在地学研究领域为我们勾勒了数据揭示宇宙、地球和生命演化过程的新蓝图。通过对国际大洋钻探科学数据采集、处理、建模、存储、表达、分析与应用,以有效的数据整合支持高效的信息聚合和知识挖掘,成为数据驱动国际大洋钻探科学发现的重要基础[13]
图1 国际大洋钻探平台及科学数据存储形式

Fig. 1 Scientific ocean drilling platforms and data storages

国际大洋钻探数据具有科学大数据[14-15]体量庞大、多源异构、时空明确、种类复杂、数据孤岛等典型特征[3],未能充分遵循可查找(Findable)、可访问(Accessible)、互操作(Interoperable)和可重用(Reusable)的FAIR原则[16-17],获取和综合利用不便。研究人员尝试通过剖析数据内容并构建元数据标准与数据集分类体系,助力国际大洋钻探科学数据汇聚。科学地球钻探信息服务(Scientific Earth Drilling Information Service,SEDIS)[18]通过元数据对出版物和样品进行多样化的检索; eODP[19]基于将多个数据集迁移到现有的、开放访问的、可搜索的数据库中,以实现对多个现有数据库的整合;马鹏飞[3]、鲁铮博[6]等从数据来源、学科类别、存储格式的角度进行资源特征现状的分析,从数据属性的角度为数据汇编建库提供依据和建议。然而,这种计算机视角下的“属性”模式或者传统GIS视角下的“空间+属性”模式难以充分表达钻探对象的层次结构、关联关系[13,20],亟待进一步加深与扩展对信息内涵的理解、表达和挖掘。与其他学科知识相比,多尺度时空特性是构成地学数据的基本要素,国际大洋钻探科学数据相关“深海”、“深地”与“深时”,是典型的时空地理数据。时空地理数据模型[21-22]将时空过程、地理对象、时空事件等相关要素整合在一起,以“时空+属性”的形式实现对地理信息的抽象。随着信息科学[23]和三元世界[24]对地理科学的影响,近年来多种地理实体信息描述 模型[25-29]被提出,在时空、属性的维度外,扩充语义、尺度、关系、机制、认知等多种特征信息描述,实现对全空间信息全面、精细的描述与表达。
本文基于一种面向三元世界的地理信息分类与描述框架[28,30-31],以对象化、系统化的方式对国际大洋钻探地理要素进行全空间、全要素、全尺度、全语义、全过程的表达,该框架从时间、地点、人物、事物、事件、现象、场景等角度对信息要素进行分类,从地理语义、空间位置、几何形态、属性特征、要素关系、演化过程、作用机制等维度对实体进行描述,为构建面向对象的国际大洋钻探科学数据的全生命周期模型提供支撑。本文结合国际大洋钻探科学数据特点,从要素分类与描述出发开展国际大洋钻探科学数据模型构建与管理服务方法研究与实践,贡献如下: ① 构建一种顾及全生命周期的国际大洋钻探科学数据模型; ② 提出一种支持冷热数据分离存储、复杂场景要素多模式按需整合、钻孔数据可定制可配置专题制图的国际大洋钻探科学数据整合和服务应用框架。

2 国际大洋钻探科学数据对象化建模方法

2.1 国际大洋钻探科学数据的产生过程分析

国际大洋钻探科学数据在勘探与分析过程中获取与形成。每一个大洋钻探项目具有完整的流程,环节包括建议提出、航线规划、站位选取、目标遴选、数据采集、结果分析、成果发现等。首先由研究者依据研究目标设想、井位信息与地质资料向执行委员会提交初步计划及成熟钻探计划,确定一个或多个站位位置。在航行与钻探的过程中,根据科学目标要求、地质情况、地理环境与钻探设备情况改变站位及钻孔规划,每个站位钻取一至多个钻孔。钻探、取芯与采样是大洋钻探中的核心阶段。在钻探过程中尽可能连续取芯以获取完整沉积序列,钻取长度为9.5 m的岩芯并切割为长度不超过1.5 m的岩芯段以保存。部分岩芯受地质情况及技术条件影响没有全部完成,因此以编号、洋底深度与取芯率记录关联关系与空间位置。岩芯柱被一分两半,分别制作薄片用于存档和采集样品开展分析实验,通过样品到岩芯段顶部的距离记录样品的空间位置。最后,部分站位会开展原位测井实验,记录自然伽马、电阻率、电导率、密度、波速等测井数据。在国际大洋钻探中,逐步形成了以“钻井-测井-录井”为核心的全生命周期钻探流程和以“航次-站位-钻孔-岩芯-岩芯段-样品”为核心的多层级多粒度实体关联关系(图2)。
图2 国际大洋钻探数据获取流程及关联关系示意(据349航次报告[32]

Fig. 2 Schematic representation of the acquisition process and correlation relationships in scientific ocean drilling data (based on preliminary report of Exp 349[32])

通过对国际大洋钻探科学数据产生过程的分析,发现该数据是一种具有时空尺度、层次体系清晰、对象属性复杂、要素相互关联、语义信息丰富的地理数据,传统的“定位+几何+属性”、“空间+语义+属性”、“时空+属性”等模式不足以支撑对该数据的表达,需要构造综合性、集成性的国际大洋钻探科学数据模型和描述框架,涵盖对国际大洋钻探不同阶段、不同平台、不同学科、不同类型的数据组织、查询和服务,从而加强对多维、综合以及动态的数据的解析与应用。

2.2 国际大洋钻探科学数据对象化分类描述体系构建

在构建国际大洋钻探科学数据的对象化描述模型前,首先需要建立一种兼顾分类和颗粒度的大洋钻探科学数据分类体系。根据大洋钻探数据的特点,顾及钻探过程与数据生命周期、学科体系与多源异构内容,从时间、地点、人物、事物、事件、现象等维度对国际大洋钻探科学数据进行分类表达(图3):“时间”角度上,岩芯中地层、地磁与古生物数据含有重要的时间跨度信息;“地点”角度上,航次目标、航线轨迹、站位范围、钻孔位置与岩芯深度具有丰富的地理位置信息;“人物”角度上,人类具有社会性因素,航行成员与科研学者的领域、区域、时代、国籍反映了科学问题特定的范围尺度与认知方式;“事物”角度,岩芯数据中包含了沉积学、矿物学、地层学、岩石学、地球化学、地球物理学、地磁学、构造地质学、古生物学、古气候学等不同学科的测试数据和岩芯图片,成为录井数据的核心组成;“事件”与“现象”角度上,钻探目标与科研成果记录与反映了气候系统、物质循环等重要地质事件与现象。对国际大洋钻探科学数据以信息要素的形式进行抽象与分类,有助于实现复杂数据的结构化表达。
图3 国际大洋钻探科学数据分类体系

Fig. 3 Classification of scientific ocean drilling data

基于上述分类体系,对国际大洋钻探科学数据进行抽象、组织、建模、描述和分析,在这一过程中,既需要从地理语义、空间位置、几何形态、属性特征等维度对其表征进行描述,又需要从要素关系、演化过程、作用机制等维度对其规律与原理进行表达。国际大洋钻探科学数据在地理语义维度上,以航次、站位、钻孔、岩芯、岩芯段、样本组成了其特有的体系,以分类体系实现对不同类型信息要素的界定与本质特征的表达,通过对地理现象概念、含义的描述,反映经人类处理和认知的地理特征;在空间位置和几何形态维度上,以坐标、地名、相对位置的形式对水深、经纬度、原位观测位置、取芯深度等进行描述,以“线-面-点-体”的形式对航次、站位、钻孔、岩芯的几何形态进行表达,实现每一个钻孔、岩芯、测试样品和观测位置在三维空间的位置复原;在属性特征维度上,除了时空属性外,还具有丰富的物理、化学、生物、地层等属性,属性构成了数据的详细特征,对信息要素的相互联系、变化趋势进行描述;在要素关系维度上,时间、空间与属性数据间反映出丰富的要素关系,如水深与温度之间的关系、深度与年代之间的关系、不同元素之间的相关关系等;在演化过程维度上,通过年代学方法的测年构建时间标尺,建立年代曲线与空间位置之间的关系,反演要素的演化过程;在作用机制维度上,通过场景、网络、模型等形式,综合描述和感知不同类型的数据间、要素与现象间的作用机制、约束和规则。

2.3 顾及全生命周期的国际大洋钻探科学数据模型构建

基于多重要素分类与多重维度描述,本文以面向对象的方式抽象和封装国际大洋钻探科学数据,构建全生命周期的国际大洋钻探科学数据模型,以结构完整、耦合度低、冗余度低的形式整合国际大洋钻探科学数据,提升数据的灵活性和扩展性。基于采集、加工、传输、使用的数据完整生命周期角度,将国际大洋钻探科学数据内容抽象为基本信息、钻井、测井和录井4个主要模块,并对每个模块中的要素依照不同维度进行表达(图4)。
图4 国际大洋钻探科学数据模型

Fig. 4 Data model of scientific ocean drilling

(1)基本信息模块
根据大洋钻探实施流程,建立航次、站位、钻孔、岩芯、岩芯段、样品等实体的要素关系,表达钻孔经纬度、洋底深度、取芯长度、进尺长度等空间位置与几何形态,描述巡航区域、岩芯编号、取芯率等地理语义,记录钻探时间、参与人员、钻孔数量、岩芯数量等多维度多粒度属性特征,以描述大洋钻探从计划制定到目标实现的过程。通过选取和钻取将航次、站位和钻孔实体关联,通过取芯、井测、年龄等联系将钻孔实体与测井、岩芯、深度年龄模型等实体关联,通过分段将岩芯与岩芯段实体关联,通过切片和采样将岩芯段和薄片实体关联,形成具有层次性的基本信息实体联系。
(2)钻井模块
根据钻探实际情况,记录钻具详情、钻探分析手段等属性特征,帮助研究人员复原钻探场景与岩芯获取时的状态,根据钻孔深度年代模型描述钻探要素关系与地层演化过程。
(3)测井模块
依据测井原位测量数据,用一个抽象、共享的对象记录并关联测井分析的类型、名称与数值,记录测井数据的空间位置、属性特征,并描述各数据间的要素关系。
(4)录井模块
通过对岩芯样本进行各类分析,记录物理分析、化学分析、古生物化石分析、地层分析等分析结果的空间位置与属性特征,以岩芯图像描述样本的几何形态。录井模块提供接口满足动态加入新的分析结果,允许不同对象对相同方法的不同实现,支持后续数据的扩展,增强模型可拓展性和可移植性。

3 国际大洋钻探科学数据整合和服务应用框架

3.1 总体设计思想

当前,国际大洋钻探科学数据具有大量、高速、多样、价值性和真实性的科学大数据的典型特点,亟待进行汇编和整合[3]。具体而言,现在的数据组织形式和共享方式在如下方面存在问题有待改进[6]: ① 数据组织不统一,数据分散在不同平台数据库中,缺少联系与沟通; ② 数据检索条件单一,现有数据库建设较早,检索方式主要基于航次号和样品号,缺乏基于其他属性以及组合多个条件的检索方式; ③ 数据分析应用困难,缺乏多样化的专业性数据可视化、挖掘和分析工具,未能充分发挥数据作用。当前,海量数据NoSQL(非关系型数据库,Not only Structured Query Language)存储技术[33]、自然语言处理在数据查询中的应用[34-35]、钻孔数据通用可视化技术[36]等技术手段得到了较大地发展和提升,为解决国际大洋钻探科学数据现存问题提供了途径。
针对上述问题,结合有关方法,从数据模型和数据整合提出核心设计思想,采用多种关键技术,解决现存问题(图5)。核心思想如下: ①统一的大洋钻探科学数据模型,将现有多源异构的数据结构进行抽象和统一地对象化建模; ②多样化的数据查询整合方式,以易操作的交互方式和直观的查询结果实现数据整合。基于核心设计思想,提出顾及生命周期和分类体系的数据建模、冷热数据分离的数据存储、多模式的复杂场景要素按需整合、可定制可配置的钻孔数据专题制图的主要能力与方法。最终解决数据组织不统一、数据检索条件单一、数据分析应用困难的现状问题。
图5 国际大洋钻探科学数据整合和服务应用框架核心设计思想、关键技术及解决的问题

Fig. 5 Core design principles, key technologies, and addressed issues in the framework of scientific ocean drilling data integration and service application framework

基于上述思想,构建国际大洋钻探科学数据整合和服务应用框架,目标支撑大规模多源异构国际大洋钻探科学数据从获取、组织到应用的全生命周期,力求形成逻辑模型设计、物理模型组织、数据检索整合、开放共享可视、知识驱动发现等能力,以全面支撑不同阶段、不同平台、不同类型的国际大洋钻探科学数据整合和服务。

3.2 平台总体架构规划

根据总体设计思想进行平台总体架构规划,架构主要分为资源层、聚合层、服务层和应用层 (图6),各层的功能和关系如下:
图6 国际大洋钻探科学数据整合和服务平台总体架构

Fig. 6 The overall architecture for scientific ocean drilling data integration and service platform

(1)资源层。对于包含岩芯数据、测井数据、航次报告、研究论文等在内的多源异构数据,通过数据分类分级、清洗归一、筛选发布,完成从原始库、工作库、成果库到发布库的“四库合一”形式的组织,保证数据分类分级清晰和全生命周期管理。根据数据特点,使用冷热分离的形式组织数据,为聚合层和服务层提供底层支持。
(2)聚合层。综合采用空间选择、时间选择、复合条件检索和自然语言查询等多种模式,多角度、多粒度、多要素地进行数据整合。在此基础上进行数据计算、分析和挖掘,为数据分析服务、三维可视服务、学科制图服务提供聚合支持。
(3)服务层。该层以在线平台服务的形式,提供专题地图、数据分析、三维可视、学科制图等服务,从二维平面、数据属性、三维空间、专题制图、知识图谱等方式提供多维度的数据表达、描述、分析、综合和探索的途径。
(4)应用层。基于上述三层,将本平台运用于多个地球科学领域研究之中,为地球气候系统、全球物质和能量循环、板块构造的海洋生命周期等大洋钻探关键科学问题提供支撑,为地质科普和政策制定等提供服务。

3.3 主要方法与能力

(1)冷热数据分离存储的数据存储实现
基于国际大洋钻探科学数据模型,使用对象关系数据库PostgreSQL(PG)作为其基本的物理组织形式与结构化数据的永久储存形式,构建基本信息、钻、测、录等模块和航次、站位、钻孔、岩芯、岩芯段、样本、岩芯实验结果等数据表的组织结构,依据Id建立航次-站位-钻孔-岩芯-样本的级联关系。PG级联操作相对复杂、大数据整合能力相对较差、查询性能存在瓶颈、对非结构化数据支撑有限,引入弹性搜索引擎(Elasticsearch, ES)[37]作为基本信息、钻井、测井、录井中标准岩芯等热数据的物理存储方式,使用Logstash等工具定期将较为核心、使用率高的热数据进行同步,通过倒排索引加速的方式实现非结构化、半结构化文档的存储和查询,利用文件系统缓存和分布式存储技术提高结构化数据的查询性能(图7),基于灵活的查询语法实现多要素整合的数据挖掘。
图7 岩芯数据ES索引构建示意

Fig. 7 The schematic diagram of the core data index building

(2)多模式的复杂场景要素按需整合
国际大洋钻探科学数据多源异构、种类繁多,为在组织、关联、排序与呈现中充分发挥数据价值,需要对数据条分缕析、删繁就简。对复杂场景要素进行信息分类与维度分级,以支撑要素整合、数据分析、模式发现与知识挖掘。通过对大量案例的分析,从时间、地点、事物、事件、现象、场景等分类角度出发,总结当前研究者对数据的查询与整合逻辑,例如,为了研究中新世气候变冷与东赤道太平洋上升流加剧的关系,Holbourn等[38]从地点角度选择位于赤道东太平洋的钻孔,同时从钻探场景的角度考虑了该航次“新生代连续记录”的航行目标、从事物的角度考虑了生物二氧化硅和碳酸盐样本保存情况,最终选择U1338钻孔数据进行研究;再如Song等[39]通过分析粘土中的蒙脱石、伊利石、高岭石、绿泥石的成分以及其在不同地质年代之间的变化,按照整合时间、地点和事物角度对孟加拉湾始新世晚期的演化史进行研究。
从如下角度进行数据分类的详细设计:基于地质年代(年代时间轴的起点和终点、特定地质时间)实现从“时间”角度出发的要素分类,例如上新世-更新世期间、第四纪大冰期;基于地理位置(洋和海的区域、经纬度范围、地名条件、特定区域)实现从“地点”角度出发的要素分类,例如南中国海、 30°N—45°N之间的区域、赤道东太平洋、黑潮洋流区域;基于学科主题与数据类型(沉积学、地层学、岩石学、地球化学、地球物理学等不同学科的岩芯图片、磁化率与磁偏角、反射率与颜色、井下温度、元素含量等200余项数据)实现从“事物”角度出发的要素分类,获取例如最大最小值约束、均值约束等条件下的钻探数据;基于航次目标任务对应的地质现象或特定历史事件实现从“现象”和“事件”角度出发的要素分类,例如对地震、海啸、火山、侵蚀等地质现象与板块构造、东亚季风气候演变、加里东运动、白垩纪生物大灭绝等地质事件的成因机理、过程范围与结果影响的研究。
根据数据分类,基于地理语义、空间位置、属性特征、时间演化等描述维度,结合基于ES的属性与自然语言处理等查询技术,设计空间、时间、复合属性和自然语言等多种数据查询方式;结合基于 Activiz的三维模型构建、基于ES的知识图谱构建、可定制可配置的钻孔数据专题制图等多种技术,以地图展示、属性列表、三维模型、知识图谱、岩芯专题图等多种呈现形式,对多类型数据综合集成与整合。其中,针对冷热存储的数据,根据分类体系分别构建ES与PG的连接,解决多要素整合中的数据调度的问题,其流程如图8所示。
图8 冷热分离存储数据的查询调度流程

Fig. 8 Query process for data hot-cold segregated stored

(3)可定制可配置的钻孔数据专题制图
以专题图形式在线可视化数据,为用户提供直观的数据解释和制图服务。为实现各学科数据可配置、可通用地统一,对常见展示形式进行梳理和抽象,将多阶段航次报告图件抽象为图9所示的10种形式。为避免学科与模板、数据与样式绑定,基于数据和样式分离思想,分别设计钻孔数据模型和样式模型。数据模型以钻孔-列-数据为组织结构,包括可任意拓展的基本信息与记录深度与数据关系的列集合;样式模型与数据模型对应,通过类型、位置、布局配置绘制方式;定制配置模块融合数据与样式模型,将图体拆分为独立对象,通过不同控件满足不同学科多目标变化驱动的需求;可视化绘制模块以深度作为绘制的统一参考,对复杂数据开展抽稀,完成科学数据的绘制。如图10所示。
图9 常见钻孔数据图形化展示类型

Fig. 9 Common styles of drill data graphical visualization

图10 可定制可配置的钻孔数据专题制图算法流程

Fig. 10 Algorithm process of customizable and configurable drilling data thematic mapping

4 国际大洋钻探科学数据整合和服务平台实现

基于顾及全生命周期的国际大洋钻探科学数据模型以及多种方法与能力的设计,本研究开发了具有数据有效存储、高效查询、多样整合、专题制图能力的国际大洋钻探科学数据整合和服务验证平台。平台以国际大洋发现计划南中国海Exp349、Exp367、Exp368航次的数据(原始数据下载自LIMS[40]等数据库平台)作为实验数据,基于阿里云服务器,使用PG和ES作为数据存储方式,.NET作为后端开发语言, Vue.js作为前端开发框架,具有如下的特色和能力:
(1)有效的数据组织形式和良好的数据查询效率。平台基于统一数据模型设计物理模型,实现数据的查询。在验证实验中使用ES查询结构化数据比PG具有较大的效率提升, ES的缓存机制使其对频繁使用的数据的二次查询具有明显的优化作用(图 11)。
图11 ES与PG查询效率验证实验耗时对比

Fig. 11 Time consumption comparison of ES and PG query efficiency verification experiments

(2)多模式的复杂场景要素按需整合(图 12)。支持通过点选、框选实现地点查询,通过航次航线选择实现场景查询,通过年代时间轴选择实现时间查询,通过自然语言搜索或条件检索实现事物查询,并通过列表、三维模型、知识图谱、钻孔柱状图等形式可视化查询结果。
图12 平台中多种模式按需整合的要素查询展示

Fig. 12 Demonstrations of element queries for on-demand integration of multiple modes in the platform

为验证本平台多要素按需整合能力,设计如下需求场景开展整合: ① 位于赤道东太平洋、拥有连续新生代数据记录的钻孔; ② 位于孟加拉湾,拥有完整始新世晚期粘土成分记录的钻孔。结果如图13所示。在场景1中,通过空间位置选择得到相应海域的若干钻孔,通过钻孔属性表确定符合科学目标需求的321航次,与Holbourn等[38]选择结果一致;在场景2中,通过航次、事物、时间整合,得到符合需求的121航次钻孔,与Song等[39]选择结果一致。本平台一定程度上能够满足基本的多要素整合需求。
图13 多种模式按需整合能力验证

Fig. 13 Validation of multiple modes on-demand integration capability

(3)可定制可配置的专题制图服务(图14)。平台根据常见的学科数据展示形式可一键生成内置样式,同时也支持数据与样式的自定义与复用,提供直观的数据样式展示和选择列表接口,并将用户定制与配置的样式模板存储于服务器用户空间内,为相关制图需求提供支持。
图14 可定制可配置的钻孔数据专题制图服务展示

Fig. 14 Demonstrations of customizable and configurable drilling data thematic mapping service

5 讨论

本文主要在国际大洋钻探科学数据模型构建和数据整合应用框架实现两方面开展了研究工作,并进行了验证平台的开发实践。将从数据模型和平台能力的角度出发,与现有模型与平台进行对比,讨论本研究做出的贡献与不足。

5.1 数据模型

本文基于对国际大洋钻探科学数据的产生过程和组织形式的详细分析,顾及要素的分类体系与描述维度,构建全生命周期的国际大洋钻探科学数据模型。当前,在国际大洋钻探领域依据属性关系构建了相对结构化、标准化的有关数据模型[4,19,41-42],一方面,这些模型在相似的基础上存在一定程度的扩展与修改,数据间并不完全互通;另一方面,基于属性的模型无法直观地反映时间、空间、语义等信息,不便于数据的整合与服务。
近年来,有学者根据时空对象的特点及存储要求,从时空过程、地理对象、事件类型、状态、观测等维度提出实时GIS时空数据模型[22],该模型在时空对象建模、地质灾害、智慧城市、流行病分析等领域得到了较为广泛的应用;有学者针对传统数据模型在数据管理、可视化表达、空间分析等方面的不足,从时空参照、空间位置、空间形态、组成结构、关联关系、认知能力、行为能力和属性特征8个维度对多粒度时空对象构建数据模型描述框架[26],在智能监控、空间测绘、高精地图、实景三维、深空探测、场地污染、城市基础设施等领域得到了较为广泛的应用;亦有学者从时间、空间、属性、语义、尺度等维度描述自然资源实体信息[29]。本研究构建的模型基于国际大洋钻探科学数据在模型组织、表示方式、整合服务上的不足提出,关注对其时空、属性、关系、语义的描述,与上述模型在构建思路与表达形式上有一定相似之处;但同时,本研究构建的模型更加针对国际大洋钻探科学数据本身的特点,弱化其相对不具备的行为能力、事件类型等特征,突出地学数据的语义信息、演化过程与作用机制,从时间、空间、人物、事物、事件、现象等角度明确多粒度时空对象在国际大洋钻探领域具体的分类分级方式,为复杂多样的数据提供组织划分的参考,更完备地对国际大洋钻探科学数据内涵进行全方位的描述。

5.2 平台能力

国际大洋钻探领域较为成熟的平台主要包括LIMS、J-CORES、MSP数据库、测井数据库、SEDIS、文献数据库与学科数据库等,表1对本平台与现有数据库平台的数据组织、查询和展示能力进行对比。
表1 本平台与现有数据库平台的数据组织、查询和展示能力对比

Tab. 1 Comparison of data organization, query and presentation capabilities between platforms

能力分析 能力对比
数据组织 Ⅰ 提供由“决心号”钻探平台获取的岩芯数据,以数据库形式组织,以312航次为界,存在2种数据组织形式
Ⅱ 提供由“地球号”钻探平台获取的岩芯数据,以文件形式组织,内容不如LIMS完备
Ⅲ 提供特定任务平台获取的岩芯数据,对沉积学、古生物学等学科的数据组织更为完备
Ⅳ 提供部分开展测井工作的站位测井数据
Ⅴ 以元数据的形式对不同数据库间数据进行关联,但数据内容和精度相对较低
Ⅵ 数据模型能够支持不同平台、不同平台的钻井、测井与录井等数据的组织,具有较强的拓展能力。但有待进行数据的汇编
查询方式 Ⅰ 按数据类型与航次号、钻孔号、岩芯段等信息组合检索
Ⅱ 按航次号进行检索,不支持数据类型检索
Ⅲ 按钻孔号、数据类型、时间等组合检索
Ⅳ 按项目号、航次号、钻孔号、所属大洋、数据类型等检索
Ⅴ 按航次号、钻孔号、所属大洋、坐标范围等检索,支持自然语言查询与地图空间查询
Ⅵ 支持自然语言查询、地图空间查询、时间轴选择、航次信息查询,支持对属性进行复合条件检索,支持多模式条件的整合
展示形式 Ⅰ 以列表的形式提供预览,并支持数据文件下载,提供在线数据图形化可视能力,但支持模板有限
Ⅱ 以文件形式提供数据下载
Ⅲ 以列表的形式提供预览,并支持数据文件下载,以地图形式对钻孔点位进行展示
Ⅳ 以文件形式提供数据下载
Ⅴ 以文件形式提供数据下载
Ⅵ 以地图形式展示钻孔位置,以列表形式展示钻井数据与岩芯数据,以三维钻孔模型展示地层分布,以知识图谱展示关联关系,以可定制可配置的岩芯图进行图形化展示

注:代号与数据库平台的对应关系:Ⅰ—LIMS、Ⅱ—J-CORES、Ⅲ—MSP数据库、Ⅳ—测井数据库、Ⅴ—SEDIS、Ⅵ—本平台;能力对比的符号含义:○—完备/丰富;□—较完备/较丰富;△—中等。

本平台在数据组织、查询与展示方面综合了现有数据库平台的特点,与之相比更加完备且丰富。一方面,本平台提出的数据模型更加完备,能够支撑多源异构数据的整合;另一方面,本平台通过结合部分新技术、新手段,为国际大洋钻探科学数据的整合与服务提供新的途径。与现有数据库平台相比,本平台数据规模较小,还有待进行数据的汇编。在未来,期望通过基于统一的数据模型,为数据汇编提供条件,为国际大洋钻探关键问题的探索提供数据支撑和服务。

6 结论

国际大洋钻探科学数据具有来源多样、类型繁多、级联复杂、体量庞大等特点,对大规模数据的一体化组织管理、高效调度与有效可视化提出了挑战。本研究基于分类体系与描述框架,构建了一种顾及全生命周期的国际大洋钻探科学数据模型,利用对象化的思想将国际大洋钻探科学数据内容抽象为基本数据、钻井数据、测井数据和录井数据四个主要模块,使多源异构数据得以抽象并表达。在统一数据模型的基础上,本研究设计了国际大洋钻探科学数据整合和服务应用框架,实现了数据组织管理、数据查询整合和专题制图服务。结合上述设计和方法实现,本研究开发了集数据查询整合与交互式可视化为一体的在线验证平台,为实现数据的科学管理、高效应用开展探索。本研究提出的方法在一定程度上提高了大洋钻探科学数据可找、可用、互联、互通的能力,从而为国际大洋钻探地学大数据的发掘和应用提供帮助。
本文提出的大洋钻探科学数据模型从要素分类和描述维度上对组织模型与描述方式进行了设计与实现,在未来可以进一步结合知识图谱和深度学习等技术手段,对国际大洋钻探要素的属性特征、演化过程和作用机制进行信息推荐、智能问答、知识推理、演化分析,实现更高水平的数据驱动科学问题发现。

本研究获得“深时数字地球”(Deep-time Digital Earth, DDE)国际大科学计划的支持。

[1]
汪品先. 大洋钻探五十年:回顾与前瞻[J]. 科学通报, 2018, 63(36):3868-3876.

[ Wang P X. Fifty years of scientific ocean drilling: Review and prospect[J]. Chinese Science Bulletin, 2018, 63(36):3868-3876. ] DOI:10.1360/N972018-01162

[2]
IODP International Ocean Discovery Program. IODP Expedition Statistics[EB/OL]. [2023.06.01]. https://iodp.org/expeditions/expedition-statistics.

[3]
马鹏飞, 刘志飞, 拓守廷, 等. 国际大洋钻探科学数据的现状、特征及其汇编的科学意义[J]. 地球科学进展, 2021, 36(6):643-662.

[ Ma P F, Liu Z F, Tuo S T, et al. Present status, characteristics, and compilation significance for the data of scientific ocean drilling[J]. Advances in Earth Science, 2021, 36(6):643-662. ] DOI:10.11867/j.issn.1001-8166.2021.064

[4]
Mithal R, Becker D G. The Janus database: Providing worldwide access to ODP and IODP data[J]. Geological Society, London, Special Publications, 2006, 267(1):253-259. DOI:10.1144/gsl.sp.2006.267.01.19

[5]
Thomson M M, Merrill R B, Mithal R, et al. Ocean Drilling Program; marine geology on the Web[C]//Annual Meeting Expanded Abstracts - American Association of Petroleum Geologists. Tulsa, OK, United States: American Association of Petroleum Geologists and Society of Economic Paleontologists and Mineralogists, 1997:117.

[6]
鲁铮博, 史宇坤, 华洪, 等. 国际大洋科学钻探的数据资源与共享现状[J]. 高校地质学报, 2020, 26(4):472-480.

DOI

[ Lu Z B, Shi Y K, Hua H, et al. Current data administration and sharing of international scientific ocean drilling[J]. Geological Journal of China Universities, 2020, 26(4):472-480. ] DOI:10.16108/j.issn1006-7493.2020025

[7]
American Geosciences Institute. Scientific Ocean Drilling Bibliographic Database[DB/OL].[2023-06-01].http://iodp.americangeosciences.org/vufind/

[8]
Blotevogel J, Newell C, Meyer J, et al. Data management: An arcane old friend becoming “the fourth paradigm” of science[J]. Groundwater Monitoring & Remediation, 2022, 42(3):13. DOI:10.1111/gwmr.12548

[9]
Gahegan M. Fourth paradigm GIScience? Prospects for automated discovery and explanation from data[J]. International Journal of Geographical Information Science, 2020, 34(1):1-21. DOI:10.1080/13658816.2019.1652304

[10]
Hey A J, TansleyY S, Tolle K M. The fourth paradigm: data-intensive scientific discovery[M]. Microsoft research Redmond, Washington, 2009.

[11]
周成虎, 王华, 王成善, 等. 大数据时代的地学知识图谱研究[J]. 中国科学:地球科学, 2021, 51(7):1070-1079.

[ Zhou C H, Wang H, Wang C S, et al. Geoscience knowledge graph in the big data era[J]. Scientia Sinica (Terrae), 2021, 51(7):1070-1079. ] DOI:10.1360/SSTe-2020-0337

[12]
Wang C S, Hazen R M, Cheng Q M, et al. The Deep-Time Digital Earth program: Data-driven discovery in geosciences[J]. National Science Review, 2021, 8(9): nwab027. DOI:10.1093/nsr/nwab027

[13]
华一新, 赵鑫科, 张江水. 地理信息系统研究新范式[J]. 地球信息科学学报, 2023, 25(1):15-24.

DOI

[ Hua Y X, Zhao X K, Zhang J S. New paradigm of geographic information systems research[J]. Journal of Geo-information Science, 2023, 25(1):15-24. ] DOI:10.12082/dqxxkx.2023.220300

[14]
Pei T, Song C, Guo S H, et al. Big geodata mining: Objective, connotations and research issues[J]. Journal of Geographical Sciences, 2020, 30(2):251-266. DOI:10.1007/s11442-020-1726-7

[15]
杨雅萍, 姜侯, 孙九林. 科学数据共享实践:以国家地球系统科学数据中心为例[J]. 地球信息科学学报, 2020, 22(6):1358-1369.

DOI

[ Yang Y P, Jiang H, Sun J L. Practice of scientific data sharing: A case study of the national earth system science data center[J]. Journal of Geo-Information Science, 2020, 22(6):1358-1369. ] DOI:10.12082/dqxxkx.2020.200110

[16]
Stall S, Yarmey L, Cutcher-Gershenfeld J, et al. Make scientific data FAIR[J]. Nature, 2019, 570:27-29. DOI: 10.1038/d41586-019-01720-7

[17]
Wilkinson M D, Dumontier M, Jsbrand Jan Aalbersberg I, et al. The FAIR Guiding Principles for scientific data management and stewardship[J]. Scientific Data, 2016, 3:160018. DOI:10.1038/sdata.2016.18

[18]
SEDIS, Scientific Earth Drilling Information[DB/OL]. [2023-06-01]. http://sedis.iodp.org/.

[19]
Sessa J A, Fraass A J, LeVay L J, et al. The extending ocean drilling pursuits (eODP) project: Synthesizing scientific ocean drilling data[J]. Geochemistry, Geophysics, Geosystems, 2023, 24(3):PP35E-1013. DOI:10.1029/2022gc010655

[20]
华一新, 张江水, 曹一冰. 基于时空域的全空间数字世界时空对象组织与管理研究[J]. 地球信息科学学报, 2021, 23(1):76-83.

DOI

[ Hua Y X, Zhang J S, Cao Y B. Research on Organization and Management of Spatio-temporal Objects in Pan-spatial Digital World based on Spatio-temporal Domain[J]. Journal of Geo-information Science, 2021, 23(1):76-83. ] DOI:10.12082/dqxxkx.2021.200417

[21]
龚健雅. GIS中面向对象时空数据模型[J]. 测绘学报, 1997, 26(4):289-298.

[ Gong J Y. An object oriented spatio temporal data model in GIS[J]. Acta Geodaetica et Cartographica Sinica, 1997, 26(4):289-298. ]

[22]
龚健雅, 李小龙, 吴华意. 实时GIS时空数据模型[J]. 测绘学报, 2014, 43(3):226-232,275.

[ Gong J Y, Li X L, Wu H Y. Spatiotemporal data model for real-time GIS[J]. Acta Geodaetica et Cartographica Sinica, 2014, 43(3):226-232,275. ] DOI:10.13485/j.cnki.11-2089.2014.0033

[23]
李新, 郑东海, 冯敏, 等. 信息地理学:信息革命重塑地理学[J]. 中国科学:地球科学, 2022, 52(2):370-373.

[ Li X, Zheng D H, Feng M, et al. Information geography: The information revolution reshapes geography[J]. Scientia Sinica (Terrae), 2022, 52(2):370-373. ] DOI:10.1007/s11430-021-9857-5

[24]
闾国年, 袁林旺, 俞肇元. 信息地理学:地理三元世界的新支点[J]. 中国科学:地球科学, 2022, 52(2):374-376.

[ Lv G N, Yuan L W, Yu Z Y. Information geography: A new fulcrum of geographic ternary world[J]. Scientia Sinica (Terrae), 2022, 52(2):374-376. ] DOI:10.1007/s11430-021-9859-9

[25]
周成虎. 全空间地理信息系统展望[J]. 地理科学进展, 2015, 34(2):129-131.

DOI

[ Zhou C H. Prospects on pan-spatial information system[J]. Progress in Geography, 2015, 34(2):129-131. ] DOI:10.11820/dlkxjz.2015.02.001

[26]
华一新, 周成虎. 面向全空间信息系统的多粒度时空对象数据模型描述框架[J]. 地球信息科学学报, 2017, 19(9):1142-1149.

DOI

[ Hua Y X, Zhou C H. Description frame of data model of multi-granularity spatio-temporal object for pan-spatial information system[J]. Journal of Geo-Information Science, 2017, 19(9):1142-1149. ] DOI:10.3724/SP.J.1047.2017.01142

[27]
王健健, 王艳楠, 周良辰, 等. 多粒度时空对象关联关系的分类体系与表达模型[J]. 地球信息科学学报, 2017, 19(9):1164-1170.

DOI

[ Wang J J, Wang Y N, Zhou L C, et al. The classification system and expression model of the relationship of spatio-temporal object of multi-granularity[J]. Journal of Geo-information Science, 2017, 19(9):1164-1170. ] DOI:10.3724/SP.J.1047.2017.01164

[28]
闾国年, 俞肇元, 袁林旺, 等. 地图学的未来是场景学吗?[J]. 地球信息科学学报, 2018, 20(1):1-6.

DOI

[ Lv G N, Yu Z Y, Yuan L W, et al. Is the future of cartography the scenario science?[J]. Journal of Geo-Information Science, 2018, 20(1):1-6. ] DOI:10.12082/dqxxkx.2018.170621

[29]
Ding Y L, Xu Z W, Zhu Q, et al. Integrated data-model-knowledge representation for natural resource entities[J]. International Journal of Digital Earth, 2022, 15(1):653-678. DOI:10.1080/17538947.2022.2047802

[30]
G, Batty M, Strobl J, et al. Reflections and speculations on the progress in Geographic Information Systems (GIS): A geographic perspective[J]. International Journal of Geographical Information Science, 2019, 33(2):346-367. DOI:10.1080/13658816.2018.1533136

[31]
俞肇元, 袁林旺, 吴明光, 等. 地理学视角下地理信息的分类与描述[J]. 地球信息科学学报, 2022, 24(1):17-24.

DOI

[ Yu Z Y, Yuan L W, Wu M G, et al. Classification and description of geographic information from the perspective of geography[J]. Journal of Geo-Information Science, 2022, 24(1):17-24. ] DOI:10.12082/dqxxkx.2022.210817

[32]
Li C, Lin J, Kulhanek D, et al. Proceedings of the International Ocean Discovery Program, expedition reports, 349[C]//College Station, TX: International Ocean Discovery Program, 2014.

[33]
孙超, 肖文名, 曾乐, 等. 海量监视数据云存储服务模型的设计与实现[J]. 武汉大学学报(信息科学版), 2020, 45(7):1099-1106.

[ Sun C, Xiao W M, Zeng L, et al. Design and implementation of massive surveillance data cloud storage service model[J]. Geomatics and Information Science of Wuhan University, 2020, 45(7):1099-1106. ] DOI: 10.13203/j.whugis20180404

[34]
王灿辉, 张敏, 马少平. 自然语言处理在信息检索中的应用综述[J]. 中文信息学报, 2007, 21(2):35-45.

[ Wang C H, Zhang M, Ma S P. A survey of natural language processing in information retrieval[J]. Journal of Chinese Information Processing, 2007, 21(2):35-45. ] DOI:10.3969/j.issn.1003-0077.2007.02.006

[35]
Wang N, Issa R R A, Anumba C J. NLP-based query-answering system for information extraction from building information models[J]. Journal of Computing in Civil Engineering, 2022, 36(3):04022004. DOI:10.1061/(asce)cp.1943-5487.0001019

[36]
张驰, 李安波, 周良辰. 通用钻孔柱状图模型研究[J]. 测绘科学, 2012, 37(6):122-124.

[ Zhang C, Li A B, Zhou L C. Research on the model of universal borehole log[J]. Science of Surveying and Mapping, 2012, 37(6):122-124. ] DOI:10.16251/j.cnki.1009-2307.2012.06.044

[37]
Gormley C, Tong Z. Elasticsearch the definitive guide: A distributed real-time search and analytics engine[M]. O'Reilly Media, Inc, 2015.

[38]
Holbourn A, Kuhnt W, Lyle M, et al. Middle Miocene climate cooling linked to intensification of eastern equatorial Pacific upwelling[J]. Geology, 2014, 42(1):19-22. DOI: 10.1130/g34890.1

[39]
Song Z H, Wan S M, Colin C, et al. Paleoenvironmental evolution of South Asia and its link to Himalayan uplift and climatic change since the late Eocene[J]. Global and Planetary Change, 2021, 200:103459. DOI:10.1016/j.gloplacha.2021.103459

[40]
JOIDES Resolution Science Operator. Laboratory Information Management System[DB/OL].[2023-06-01]. https://web.iodp.tamu.edu/OVERVIEW/.

[41]
Conze R, Krysiak F, Wallrabe-Adams H, et al. Data modeling, development, installation and operation of the ACEX offshore drilling information system for the mission specific platform expedition to the Lomonosov Ridge, Arctic Ocean[C]// AGU Fall Meeting Abstracts. 2004, San Francisco: American Geophysical Union, 2004:GC51D-1084.

[42]
Kuramoto S, Matsuda S, Ito H. An information management system for CHIKYU operation and its future[C]// AGU Fall Meeting Abstracts. 2005, San Francisco: American Geophysical Union, 2005:IN44A-05.

Outlines

/