地球信息科学理论与方法

地球表层系统开放科学数据目录关联网络构建研究进展

  • 邱芹军 , 1, 2, 3 ,
  • 郝孟璂 1, 2 ,
  • 谢忠 , 1, 2, * ,
  • 陶留锋 1, 2 ,
  • 李伟杰 1, 2 ,
  • 王洋 1, 2 ,
  • 刘建东 1, 2
展开
  • 1.中国地质大学(武汉)计算机学院,武汉 430074
  • 2.地理信息系统国家地方联合工程实验室,武汉 430074
  • 3.中国地质大学(武汉) 地质探测与评估教育部重点实验室,武汉 430074
* 谢 忠(1968— ),男,云南昆明人,博士,教授,博导,研究方向为地理信息系统基础平台前沿技术、地质大数据、 智能空间认知等。E-mail:

邱芹军(1988— ),男,湖北武汉人,博士,副研究员,研究方向为地学大数据挖掘与知识图谱构建。E-mail:

收稿日期: 2023-09-13

  修回日期: 2024-03-08

  网络出版日期: 2024-05-11

基金资助

国家重点研发计划项目(2022YFF0711601)

国家重点研发计划项目(2022YFB3904200)

国家自然科学基金项目(42301492)

湖北省自然科学基金项目(2022CFB640)

地质探测与评估教育部重点实验室主任基金项目(GLAB2023ZR01)

Research Progress of Construction of an Association Network of Open Scientific Data Catalogues for the Earth Surface System

  • QIU Qinjun , 1, 2, 3 ,
  • HAO Mengqi 1, 2 ,
  • XIE Zhong , 1, 2 ,
  • TAO Liufeng 1, 2 ,
  • LI Weijie 1, 2 ,
  • WANG Yang 1, 2 ,
  • LIU Jiandong 1, 2
Expand
  • 1. School of Computer Science, China University of Geosciences, Wuhan 430074, China
  • 2. State Joint Local Engineering Laboratory of Geographic Information System, Wuhan 430074, China
  • 3. Key Laboratory of Geological Survey and Evaluation of Ministry of Education, China University of Geosciences, Wuhan 430074, China
* XIE Zhong, E-mail:

Received date: 2023-09-13

  Revised date: 2024-03-08

  Online published: 2024-05-11

Supported by

National Key Research and Development Program of China(2022YFF0711601)

National Key Research and Development Program of China(2022YFB3904200)

National Natural Science Foundation of China(42301492)

Natural Science Foundation of Hubei Province(2022CFB640)

Opening Fund of Key Laboratory of Geological Survey and Evaluation of Ministry of Education(GLAB2023ZR01)

摘要

快速发现、挖掘并利用海量地球表层系统(以下简称“地表系统”)开放科学数据,是大数据时代下地表系统开放科学数据共享新的发展趋势和前沿研究方向。地表系统开放科学数据具有组织分散、多源异构、多模态、多类型等特性,通常以专题共享网站、数据服务、元数据、期刊论文(特别是数据论文)等形式存在,研究发展适应不同模态的地表系统开放数据挖掘方法、分析其共享质量是充分利用这些数据的关键科学问题。关联网络为地表系统开放科学数据的语义互联和知识发现提供了有力的支撑,其以元数据URI(Uniform Resource Identifier)为节点,元数据间的语义关系为边,节点间关联性的强弱作为边的值。本文从地表系统开放科学数据关联网络构建角度出发,对其发展现状、基本特征和构建技术进行了调研与分析。首先选取国内外典型关联网络和相关文献作为研究对象,根据所选取的9个主流关联网络和200余篇相关文献,从关联网络的基本特征和构建技术2个方面进行比较分析。在基本特征方面,分析了关联网络的数据来源、自动化程度和更新方式;在构建技术方面,介绍了关联指标的选择,讨论了地表系统开放科学数据特征的提取、表示和计算方法。最后提出了未来地表系统关联网络构建的建议,包括构建高质量、全覆盖的地表系统开放科学数据本体、考虑顾及“时间-空间-内容”地学知识复杂关系及推理、建立面向多语言的地表系统开放科学数据关联网络方法以及提升地表系统开放科学数据关联网络应用成效等。

本文引用格式

邱芹军 , 郝孟璂 , 谢忠 , 陶留锋 , 李伟杰 , 王洋 , 刘建东 . 地球表层系统开放科学数据目录关联网络构建研究进展[J]. 地球信息科学学报, 2024 , 26(4) : 866 -880 . DOI: 10.12082/dqxxkx.2024.230557

Abstract

With the new generation of information technologies, such as earth observation, IoT monitoring, the Internet, 5G, and the deepening of the concept of open data sharing, there has been an explosive growth of openly shared earth surface system data on the web, and open big data on the earth surface system has taken shape. Rapid discovery, mining, and utilization of massive open scientific data of the earth surface system (hereinafter referred to as "surface system" ) is a new development trend and frontier research direction of scientific data sharing of surface system in the era of big data. The open scientific data of surface system has the characteristics of decentralized organization, multi-source heterogeneity, multi-modality, and multi-type, and usually exists in the form of thematic sharing websites, data services, metadata, journal papers (especially data papers), etc. The research on the development of open data mining methods for surface system adapted to different modalities and the analysis of its sharing quality are key scientific issues to make full use of these data. The association network provides a powerful support for semantic interconnection and knowledge discovery of open scientific data of surface system, which takes metadata Uniform Resource Identifier (URI) as nodes, semantic relationship between metadata as edges, and the strength of association between nodes as the value of edges. This paper investigates and analyzes the current development status, basic features, and construction technology from the perspective of construction of open scientific data association network of surface system. We select typical association networks and related literatures at home and abroad as the research objects. Based on the selected nine mainstream association networks and more than 200 related literatures, we make a comparative analysis from the aspects of basic features of the association networks and the construction technology. In terms of basic features, the data source, automation degree, and updating method of the association networks are analyzed; in terms of construction technology, the selection of association indexes is introduced, and the methods of extracting, representing, and calculating the features of open scientific data of the surface system are discussed. Finally, recommendations for future construction of the surface system association network are put forward, including construction of a high-quality and full-coverage surface system open scientific data ontology, consideration of "time-space-content" geoscientific knowledge complex relationship and reasoning, establishment of a multi-language surface system open data association network method, and enhancement of the effectiveness of the surface system open scientific data association network application.

1 引言

地球表层系统(以下简称“地表系统”)是地球各圈层交互作用和人类活动最为活跃的区域,是由大气圈、水圈(含冰冻圈)、生物圈、土壤圈和人类圈所构成的地表自然社会综合体[1],与周围的地球圈层存在物质能量交换关系,是一个开放的复杂次级巨系统[2],其数据覆盖面广、类型丰富、变化快速、数据海量且开发潜力巨大。地表系统开放科学数据涵盖地理空间数据、环境数据、气象数据、遥感数据、地球观测数据等多来源、多类型数据集[3]
目前地表系统开放科学数据呈现以下特征。① 数据来源丰富。随着遥感技术、地面观测网络和地球科学研究的发展,地表系统开放科学数据来源更加丰富。② 开放数据平台分布广泛。为更好共享和利用地表系统开放科学数据,各国纷纷建立了开放数据平台[4],如美国地质调查局USGS的地球资源观测与科学数据中心EROS[5]、欧洲空间局ESA[6]的地球观测网站等。③ 数据标准化和互操作需求迫切。地表系统开放科学数据的标准化和互操作是数据共享和利用的关键。相关机构制定了一系列数据标准和规范[7],如OGC(开放地理空间联盟)的地理信息标准[8],以及ISO[9](国际标准化组织)的地球观测数据和服务标准[10]。然而,由于地表系统开放科学数据分散在不同的存储库、平台和系统中,不同系统采用的数据格式和类型不同,提供的元数据信息也略有不同,阻碍了地表系统开放科学数据的进一步关联、集成和共享,也阻碍了科学数据价值的充分发挥和科研效益的最大化[11]。如何提取这些分散、多源异构、多模态的地表系统开放科学数据存储库中的元数据信息并形成统一的数据目录,并深入剖析数据目录中元数据丰富的语义信息进行关联,实现地表系统开放科学数据的智能发现,成为目前亟待解决的问题。破解上述难题的有效途径是构建开放科学数据目录关联网络,即通过“节点-边”构建语义网络整合多源异构地表系统开放科学数据。
关联数据旨在将数据目录中的元数据通过语义关系链接起来,形成计算机可理解、可计算、可推理的结构化关联网络[12],它以RDF(Resource Description Framework)[13]为基本单元,元数据的URI为节点,元数据之间的语义关系为边,以节点间关联性的强弱作为边的值[14]。关联网络中的复杂网络结构可自动识别和推断概念间的关系,实现语义搜索和相似内容推荐,为地表系统开放科学数据的语义互联和知识发现提供有力支撑。现有关联网络大多通过领域本体、数据目录构建[15](包括元数据抽取、元数据标注、制定或导入分类体系、建立数据目录[16])和关联网络生成(包括关联指标获取[17]、特征表示[18]、特征关联、特征计算[19])等步骤进行研究。
本文主要从关联网络构建展开调研与讨论。目前已有较多组织或科学团队对此进行了研究,在国内,朱文武等[20]针对三元空间大数据关联复杂性这一本质困难,提出将三元空间数据关联关系通过拓扑图理论表征成网络或图,以实现三元空间大数据的关联表征和融合分析;赵红伟等[18]利用RDF设计地理空间元数据关联模型,根据地理空间元数据间的语义关系和语义相关度计算,构建以元数据为节点、元数据间语义关系为边的关联网络。但针对地表系统开放科学数据分类体系缺乏、粒度不一致、语言不统一及数据精准特征表达难等难题,如何形成能够揭示地表系统开放科学数据多维度、多尺度、多类型特征的统一表达模型,构建地表系统开放科学数据目录关联网络,目前还未能得到有效解决。面对这些问题,需要对当前关联网络的基本特征和构建技术做全面系统性调研分析。本文以国内外典型关联网络为研究对象,综合分析现有典型关联网络与相关文献,从基本特征和构建技术两方面分别进行分析,最后给出未来地表系统开放科学数据目录关联网络构建的建议。

2 关联网络内涵、目标与技术架构

2.1 定义与科学内涵

数据目录是记录和组织数据资源的清单或索引[21],旨在帮助用户查找和访问所需数据资源,其包含多种类型的信息,如名称、描述、关键字、数据提供者、数据格式、数据访问链接等[22]。海量地表系统开放科学数据分布在不同数据网站中[23],并随着科学研究发展快速增长,亟需构建数据目录以便有效的管理、存储与共享元数据。元数据提供了对数据的描述信息[24],地表系统开放科学数据目录主要用于存储、记录和组织这些元数据。国内外的大型数据共享平台均采用数据目录,如LinkedGeoData(http://linkedgeodata.org/)、国家地球科学数据共享平台(http://nnu.geodata.cn/)和中国科学院科学数据中心(https://www.casdc.cn/)等。
元数据注册在数据目录中[25],元数据的标准不一致是影响数据开放共享的原因之一。目前主流的标准包括Dublin Core术语[26](包括标题、作者、主题、日期等15个核心元素)、国际地理信息元数据标准ISO19115(包括标识符、标题、摘要、关键字、时间范围等17个核心元素)、中国地理信息元数据标准(GB/T20957-2007)等。上述标准旨在提供统一的元数据规范,以便各个组织和机构可共享和交换地理信息数据集和服务,有助于提高地理信息数据的可发现性、可访问性和可重用性。本文综合上述标准,总结地表系统开放科学数据目录的核心要素包括数据集名、数据格式、空间范围、时间要素、关键词、数据质量、数据量、数据分类、数据生产者、数据可访问性、数据地址、访问参数、发布日期等。

2.2 科学目标

地表系统开放科学数据目录关联网络构建的主要目标旨在解决分散、多源异构、多模态大规模开放数据目录与信息提取应用和知识发现间存在系统性流转困难的难题,基于大语言模型、深度学习、知识图谱等新一代人工智能算法,突破全球开放地表系统开放科学数据目录精准智能发现、关联网络构建、群智协同共享程度评价等关键技术方法,构建形成可持续更新的全球地表系统开放数据目录与关联网络,为系统摸清全球地表系统开放科学数据目录及共享质量,提升地表系统开放共享数据的利用程度,实现开放共享数据的增值服务等提供坚实基础。
具体目标是解决以下问题:更广阔的空间范围、更复杂的时间维度及更多样化形态的地表开放数据是什么?精准的地表数据目录在哪里?地表开放数据目录语义怎么样?数据共享质量程度如何?地表开放数据目录如何动态、持续、高效更新?同时,结合国家地球系统科学数据共享平台用户化的数据服务需求,建立面向用户检索和数据关联分析的关键词表分类体系,引入国家地球系统科学数据共享平台的特色资源,建立符合国家科学数据共享及知识服务的目录体系。

2.3 技术架构

地表系统开放科学数据目录关联网络构建总体流程包含4个阶段:科学数据本体构建、科学数据目录挖掘、科学数据目录关联网络构建及共享程度评价,如图1所示。科学数据本体构建阶段旨在建立地表科学数据本体,通过采用“自上而下”与“自下而上”相结合的方法,构建动态可持续更新高质量科学数据本体,为关联网络构建、共享程度评价提供语义支撑。科学数据目录挖掘阶段基于本体支持下对数据网站、论文等多源异构数据进行爬取,通过数据存储、数据检测、数据清洗和分类编目形成数据目录。关联网络构建阶段利用数据目录中元数据的特征通过特征选取、关联和计算形成RDF表示,继而构建形成涵盖全球地表开放科学数据的大规模关联网络,以实现全球性的数据发现和语义检索服务。共享程度评价阶段以构建的大规模关联网络为基础,通过基于复杂网络和知识图谱等多视角、多层次进行开放数据重要性与共享质量评估。
图1 地表系统开放科学数据目录关联网络构建技术路线

Fig. 1 Technical line to the earth surface system open science data catalog association network construction

3 基本思路与研究对象筛选

本文采用软件工程领域通用的文献综述方法[27]对地表系统开放科学数据目录关联网络进行比较分析,共包括以下步骤: ① 研究对象初步筛选。以典型文献综述为主开展调研分析,形成并总结国内外已有数据关联网络; ② 研究对象确定。通过搜集的大量数据目录关联网络文献,按照注重实践和工程应用原则,基于专家经验知识从中确定现有主要的关联网络作为研究对象。其中国内重点梳理面向共享的地球系统科学数据分类体系,同时搜集大量相关文献作为材料; ③ 现状比较与分析,通过综合分析文献和阅读评估现有关联网络,从关联网络基本特征和构建技术2个方面进行比较分析,并提出未来研究方向和建议。
首先通过阅读大量相关文献与查阅权威网 络资源,总结筛选出9个典型关联网络有:LinkedGeoData、Geonames、Geo-Net-PT、DBpedia、OpenStreetMap、VIVO、SIMILE、Wikidata、WorldKG。地表领域的有5个:LinkedGeoData、Geonames、Geo-Net-PT、OpenStreetMap(OSM)、WorldKG,其中LinkedGeoData关注于地表领域且规模都较大[28],Geonames和Geo-Net-PT则侧重于地名小领域,OSM侧重于提供全球范围内的开源地图数据库,WorldKG是基于OSM的地理信息库,其提供了地理信息及上下文的全面语义表示,提高了地理信息的覆盖范围[29]。其他领域的关联网络有5个,其中Wikidata是大型的协作关联网络和数据库,旨在提供一个共享的数据源,可被各种维基媒体项目及外部应用程序和研究人员使用[30]。DBpedia是基于维基百科的语义Web知识库,包含了大量的结构化信息和知识,涵盖了多个领域和主题[31-32]。 VIVO是一个基于语义Web技术的学术信息管理系统,旨在帮助学术机构和组织管理和展示其学术信息资源。SIMILE旨在实现知识库的数字教育资产、图像知识集与维基百科之间的语义互操作[33]。本文将通用领域关联网络也纳入了筛选对象范畴,其原因在于部分通用领域关联网络起步早发展成熟,可在多个方面对地表关联网络的构建及应用提供参考与启示;方法上,通用关联网络构建过程中使用大量知识抽取、对齐融合等自动化方法,可为地表关联网络的自动构建关键技术研发提供借鉴。
为更加全面的分析所选取的关联网络,从相关文献或权威网站收集上述关联网络的具体信息,主要包括:发布网址、定位目标、创建时间、创建者、数据规模、是否开源等,搜集结果如表1所示。
表1 筛选的关联网络基本情况

Tab. 1 General situation of the selected association network

关联网络 发布网址 定位目标 创建年份 创建者 数据规模 是否开源
LinkedGeoData http://linkedgeodata.org/ 以OSM为数据源,创建大型知识库 2009 莱比锡大学 超过30亿个节点和3亿条边,约200亿个三元组
Geonames http://www.geonames.org/ 覆盖全球的地名词典数据库 2002 Marc Wick 包含超过1 100万个地名,每个地名都包括坐标
Geo-Net-PT https://hdl.handle.net/21.11129/0000-000B-D306-0 提供关于葡萄牙命名地点的权威地理知识数据 2011 葡萄牙地理
学会
定义了701 209个实例,其中大多数命名为地名
DBpedia https://www.dbpedia.org/ 以Wikipedia为信息源,从中提取结构化的数据并构建关联网络 2007 莱比锡大学、
曼海姆大学。
包含了超过6亿个节点,数十亿个RDF三元组,涵盖了全球各个领域的知识
VIVO https://vivo.lyrasis.org/ 建立一个开放的、可重用的学术研究信息管理系统 2003 康奈尔大学 数百万个实体和事实
SIMILE http://simile.mit.edu/ 为数字资源管理和展示提供开源的、工具和技术支持,促进元数据和信息的语义互操作性 2003 麻省理工学院计算机科学和人工智能实验室 几百到数千条元素不等
OpenStreetMap https://www.openstreetmap.org 提供了一个由全球志愿者共同编辑和维护的地图数据库 2004 Steve Coast 覆盖全球200多个国家和地区,包括道路、地形、水系等各种地理信息,数据量达到了数十亿个要素
WorldKG http://www.worldkg.org/ 提供了全球地理信息及其上下文的全面语义表示 2021 Alishiba Dsouza团队 包含来自188个国家/地区的超过 1亿个地理实体和超过8亿个三元组
Wikidata https://www.wikidata.org/
wiki/Wikidata:Main_Page
创建一个可自由协作编辑的结构化知识库,为Wikimedia项目提供支撑 2012 维基媒体基金会,美国 超过12亿个三元组,超过9 500万个实体

4 关联网络发展现状比较分析

4.1 基本特征分析

4.1.1 数据来源

地表系统关联网络中元数据来源主要有3种:① 互联网上公开的开放数据网站或平台,此类网站通常包含大量的数据集信息,例如Google Dataset Search、Data.gov、NASA等,这些网站提供了集中的易于访问的平台,以便人们查找和获取公开的开放数据集,此类数据信息的获取通常较为简单,其中DBpedia、WorldKG、GeoNames和Geo-Net-PT都是从Wikipedia、政府机构、社交媒体等开放平台中提取结构化信息并将这些信息链接形成网络,同时能够将Web上的其他数据集链接起来[31]; ② 由志愿者和组织收集、共享数据形成,如OSM、Wikidata和LinkedGeoData等项目是典型例子,这些项目是由志愿者和组织共同收集、编辑和验证数据,并将数据发布共享使用[34-35]; ③ 研究论文或期刊网站(如Geoscience Data Journal)中为支持研究结果或结论公开发布的数据集,此类数据信息通常分布分散且不易收集。已有大部分关联网络中的数据来源基本都属于前2种,第③种数据集的获取将是后续研究关注的重点。

4.1.2 自动化程度

关联网络的自动化程度指构建过程中人工参与程度,可分为人工、半自动和自动[36]。人工构建关联网络中,数据需人工收集,数据间的关系是由人工判断并添加,需要大量人力和时间,适用于小规模的网络或需要控制高精度情况;在半自动构建关联网络中,通过使用算法或者其他自动化的方式收集数据并初步判断数据间关系,由人工对其进行进一步的筛选和修正。相对于人工构建,可减少人工参与程度和时间,同时也可保证网络质量和准确性;在自动构建的关联网络中,所有的数据收集和数据间关系都是通过算法或其他自动化方式生成,只需要少量人工参与整理。这种方式适用于大规模网络的构建,可大大减少人力和时间成本,但也存在一定误差。关联网络自动化程度与网络规模的大小、技术发展水平、应用场景等相关,从已有关联网络来看基本遵循这一点,DBpedia、YAGO、Geo-Net-PT和VIVO仅初始阶段的本体由专家人工构建,数据获取和分析都是自动化,GeoNames、Wikidata、OSM和LinkedGeoData的数据获取由志愿者和组织人工参与,是以人工方式构建,从关联网络的发展趋势来看,未来的关联网络将更加复杂和庞大,并且需要更高程度的自动化和智能化。自动化程度还与构建方式相关,采用自底向上构建方式的关联网络通常均为全自动化;采用自顶向下构建方式时则有不同程度的人工参与[37]。地表系统开放科学数据目录关联网络可采用自顶向下和自底向上相结合的方式,在保证构建准确性的基础上,通过人工智能与专家群智协同方式构建大规模关联网络。

4.1.3 更新方式

关联网络在实例层的更新方式可分为增量式更新、全量式更新和增量-全量混合更新。增量式更新指在原有关联网络基础上,新增加一些节点和边,或对已有节点和边进行修改,主要算法有直接添加法、基于规则的更新方式、基于图匹配的方式、基于实体链接的方式(表2),增量式更新仅适用于需要频繁更新且更新量较小情况,可减少更新成本和时间[38];全量式更新指在更新关联网络时,使用原有算法重新构建整个网络,适用于原有网络结构发生较大变化,或需要对整个网络进行重新优化情况[39]。但全量式更新需要耗费较大计算资源和时间;增量-全量混合更新指在更新关联网络时,先进行增量式更新,在一定时间间隔后或服务器空闲时,再进行全量式更新,可保证更新效率的同时,保证网络的准确性和稳定性。经调研分析,LinkedGeoData、Geonames、DBpedia、OSM和Wikidata均采用增量式更新[30],Geo-Net-PT和VIVO采用全量式更新,WorldKG则采用的是增量-全量混合式更新[38-39]。地表系统开放科学数据目录关联网络由于体量规模比较庞大,需要采用增量式更新方式为主进行节点和边的更新。
表2 关联网络增量更新方式

Tab. 2 Association network incremental update method

增量更新方式 算法描述 优点 缺点
直接添加法 直接将新的RDF三元组添加到原有的关联网络中,作为新的事实 简单直接,适用于小规模的关联网络和新增数据量较少的情况 可能导致数据冗余和不一致,需要进行后续的数据清理和消除冲突
基于规则的更新 定义一些规则或约束条件,根据新的RDF三元组和已有的关联网络进行更新 能够根据事先定义的规则和约束条件进行数据过滤和验证,保证数据的一致性 规则的定义和维护可能较为复杂,需要根据具体情况进行调整和更新
基于图匹配 通过比较新的RDF三元组与原有关联网络中的实体和关系,找到匹配的实体和关系,并将新的三元组插入到合适的位置 能够利用已有关联网络结构进行匹配,确保插入的三元组与已有数据的一致性 图匹配算法的准确性和效率取决于图结构的复杂度和匹配方法的选择
基于实体链接 通过实体链接算法,将新的实体与已有关联网络中的相应实体进行关联,并插入新的关系 能够保持实体关系的一致性,将新的实体和关系有机地融入已有的关联网络中 实体链接的准确性可能受到数据质量和语义理解的限制

4.2 构建技术分析

4.2.1 关联指标体系构建

关联地表系统开放科学数据,首先需建立一个完整的关联指标体系[40],以表示数据中模糊、不精确和不完全的知识与关系。关联指标选取至关重要,可为语义抽取,特别是逐级关联计算奠定基础[41],应尽量按照“全面性、代表性、数据可获取性”的原则[17]。元数据通常包括数据集名、数据格式、空间范围、时间要素等多方面特征。这些特征可总结为:本质特征、形态特征、主题特征和来源特征。目前已有的关联指标体系,如罗侃等[17]构建的关联指标体系,其包括数据本质特征、形态特征[18]、来源特征3种。其中数据本质特征包括数据内容、空间特征、时间特征;数据形态特征包括数据结构、数据基准、数据精度、数据语言和存储介质;数据来源特征包括数据来源及处理过程。使用专家打分的方式为这些指标赋予计算权重。此方法几乎选取了元数据的所有特征,精确度虽然较高,但计算复杂度也很高;赵红伟等[18]构建的关联指标体系选取了空间特征、时间特征、专题特征3个本质特征和数据来源特征,此方法仅考虑了最重要的数据特征,计算起来较为方便,但也可能会漏掉其应用场景内更能体现元数据信息的特征。也有学者[42]选取其他不同特征(仅使用内容关键词等)进行计算。
因此,在建立关联指标体系时,需要进行综合选择,选取最重要的元数据信息。同时对于其他信息也不能一概抛弃,应根据具体应用场景与特征的重要性程度赋予不同的计算权重,使网络具有更高的灵活性、可调控性和更明确的应用目标。地表系统开放科学数据目录关联指标构建体系如表3所示。
表3 地表系统开放科学数据目录关联指标构建

Tab. 3 Construction of indicators for linking open scientific data catalogues of the earth surface systems

数据特征 一级指标 二级指标
数据本质特征 空间特征 空间度量
空间拓扑
时间特征 时间度量
时间拓扑
内容特征 内容语义
内容类别
数据来源特征 数据来源 数据源
采集平台
采集者
所属组织
处理者
数据形态特征 外部形态 数据类型
格式
存储方式
语言
内部形态 基准
数据精度
尺度(粒度)
数据主题特征 主题所属类别 圈层
数据主题分类
分类编码
学科类别

4.2.2 “时间-空间-内容”特征提取及表示

地表系统数据目录的特征主要有2个来源: ① 从科学数据目录字段信息中获取相应特征,如时间要素项表示时间特征,空间范围项表示空间特征,关键词项和数据分类项表示内容或主题特征等; ② 从数据集名称及摘要中进行时间、空间和内容等特征提取。对于不同类型及表达方式的关键词,提取算法也不尽相同,本节从时间、内容和空间特征提取进行讨论。
(1) 时间与空间特征提取,它们通常有固定的格式,提取方法也相似[43],主要有:基于规则、基于词性标注、基于统计方法[44] 3种。基于规则的方法通过定义规则来提取关键词,但规则的制订依赖于先验知识和经验,此方法对于特定领域的任务效果较好;基于词性标注的方法通过识别文本的时间和空间关键词的词性,需要对文本进行词性标注,不需要依赖先验知识,适用于不同领域的任务,但此方法对于文本中语法和句法的要求较高;基于统计的方法通过分析文本时间和空间关键词的出现频率和分布情况来提取,适用于大规模数据的处理,如TextRank[45]和TF-IDF[46]。地表领域元数据的关键词通常具有一定格式和规律,使用基于规则的方法基本足够识别。
(2) 内容特征提取,地表领域常用是基于领域词汇集的方法[47]:地表领域的关键词较为特定和丰富,如地理名称、气象学术语、地球物理参数等,可通过事先构建地表领域本体,利用本体词汇表对文本进行匹配来提取关键词。该方法简单直观,适用于特定的地表领域,但随着地表领域的发展,词汇表也需要动态更新和维护。
对于时间、空间和内容关键词都适用的方法有:机器学习[48],决策树[49]、支持向量机(SVM)[50]、条件随机场(CRF)[51]及最大熵模型等[52],基于机器学习的方法可显著提高特征识别的准确性且训练时间相对较短,但需手工设计特征和进行模型训练;基于深度学习的方法如循环神经网络(RNN)、卷积神经网络(CNN)、长短期记忆网络(LSTM)、Transformer[53]、注意力机制、BERT[54]等及这些模型的组合,可捕捉词义和语义信息,对复杂的空间表达方式和多语言场景具有较好的适应性,可进一步提高特征识别的准确度,但需要大量的训练数据和计算资源。
地表开放数据目录特征表示是进行特征关联与计算的重要步骤。基于地表开放数据目录特征所具备的时间、空间及内容特征表示分别进行讨论。地表开放数据目录时空信息的表达主要有数字(例如经纬度等)和文本(例如地名等) 2种方式。已有研究分别对数字和文本表示的时空信息进行嵌入表示,但是缺乏二者的统筹表示。
针对表达时间特征的关键词,主要包括时间点与时间点、时间点与时间段、时间段与时间段间的拓扑关系。为方便计算,可将时间点先转换成时间段,并对点时间进行编码,然后再进行聚合得到段时间或复合时间编码。已有可参考的编码模型包括CTDNE、IGE、DynamicTriad、DDNE、DANE、DynGem、NP-GLM、DGNN、DyRep等。可对其分别进行测试,择优选择合适模型。
针对表达空间特征的关键词,经过规范化处理后一般为一个或多个地理名词,用来表示所属数据目录的空间范围,从类型上可划分为点位置、线或面等复合实体。主流的点位置编码有直接位置编码、正弦函数编码、正弦函数多尺度编码等,线或面等复合实体的空间位置编码有基于核函数、全局聚合、局部聚合和层次聚合方法等。可对其分别进行测试,择优选择合适模型。
针对内容特征方面,地表开放数据目录中提取的关键词往往是名词的组合词汇如地理区域、数据类型等,通常可将特征转换成向量表示,如One-Hot Encoding[55]、Bag of Words[56]、Word Embedding[57](词嵌入,如Word2Vec、GloVe、BERT,GPT大模型[58]等)模型实现词向量的生成,One-Hot Encoding和Bag of Words方法都易于理解和实现,但无法表达词汇之间的语义和关系,Word Embedding很好解决上述问题,但需要大量文本数据和计算资源的支持。因此,地表系统关联网络可在Word Embedding基础上,结合GPT大模型等获取地表系统海量数据进行微调实现内容特征的精准表征。

4.2.3 特征关联与计算

开放科学数据特征关联与计算旨在根据数据特征的语义关系形成描述元数据间关系的词汇集,基于词汇集计算数据特征间的关联度,将关联度归化到[0,1]区间,关联度越靠近1表明关联关系越强,越靠近0表明关联关系越弱。
(1) 内容关联关系主要包含内容类别关系和内容语义关系。对于内容类别关系,目前存在多种内容类别分类体系[59],大都用多级树形式表示[60],主要有Brother-of、Son-of、Father-of等[18],内容类别相似度的计算由2个内容类别特征在树节点上的距离 得到。
对于内容语义关系,使用语义相似度算法计算2个关键词间语义相似程度是当前研究人员的主流选择。主要算法有余弦相似度[61]、欧几里得距离[62]、词嵌入模型(Word2Vec和GloVe)[63]、皮尔逊系数、基于知网的相似度算法[64-65]等,其中余弦相似度计算简单、快速、易于理解和实现,适用范围广,但无法处理关键词之间的复杂关系,对于长文本的关键词匹配效果不佳;词嵌入模型可以捕捉到关键词间的复杂关系,但需要大规模语料进行训练且计算复杂度较高;基于知网相似度算法也可理解词汇间复杂关系,但需要使用知网中的语义资源,对未包含在知网中的关键词效果不佳。对于规模巨大、涵盖范围广泛且需要快速计算的地表数据,使用余弦相似度计算内容语义相似度效果最合适,将其与内容类别相似度加权得到内容相似度。
(2) 空间关联关系主要分为拓扑关系、度量关系和顺序关系[66-67]。随着GIS广泛研究与应用,众多学者对空间关系进行了大量深入细致的研究,在拓扑、度量和顺序3种关系基础上进行扩展。
空间拓扑关系的判断体系大多基于Egenhofer的点集拓扑学理论提出的9-交模型[68-69]。它包括Equals(相等)、Disjoint(不相交)、Contains(包含)、Within(被包含)、Intersects(相交)、Touches(相邻)、Crosses(穿过)、Overlaps(重叠)、Covers(覆盖)共 9种关系[70]。有学者通过构建地理空间基础信息库(包含大量空间信息)进行判断,由于信息库是人工生成,判断结果较为准确,但普适性较差,难以扩大数据范围;也有学者通过调用开放API的地理编码功能,如谷歌地图API或MapGIS等GIS软件,将地理范围映射到以经纬度为顶点的多边形(四至点或最小外包矩形等),将地理位置区域转化为经纬度坐标范围,进而判断拓扑关系并分配权重,拓扑关系的权重可由专家打分得到。但实际情况中,地理范围的边界大多不是矩形,而是不规则的多边形或曲线,会导致判断的拓扑关系与实际有误差。还有学者在探索使用深度学习的方法判断地理位置间的拓扑关系,但这种方法尚未成熟。另外Randell等[71]提出的空间关系判断体系区域连接演算RCC(Region Connection Calculus)理论[72-73]也为部分学者[74-75]所使用。
在拓扑关系确定后,判断空间度量关系,其包含空间重叠比例和空间距离2个指标。空间重叠比例是几何实体重叠部分的面积或长度与实体面积或长度的比值。空间距离是两个空间实体的最短距离。空间度量值的计算方式由空间拓扑的类别决定。最终空间关联度由空间拓扑值和空间度量值加权得到。
(3) 时间关联关系包含时间拓扑关系和时间度量关系[76]。时间拓扑关系主要包含时间点与时间点、时间点与时间段、时间段与时间段之间的拓扑关系,这3种关系可以分类进行比较判断。但最方便的方法是将时间点全部转化为时间段,例如时间点“2022年”转换后的时间段为“2022年1月1日到2022年12月31日”,主要的拓扑关系体系有:Point Algebra模型,其简单易懂,适用于离散时间点之间的,但无法描述时间段间的关系;基于时间区间代数理论的模型,其总结了常见的关系如相等、包含、在之后、在之前等共13种时间拓扑关系,能够描述连续的时间段之间的关系,有严格的数学基础且时间关系全面,因此其也成为时间关系研究的基础,多数研究都是基于此模型进行时间拓扑关系的判断,不同时间拓扑关系的权重值可以由专家打分得到,也可由数据训练得到[18]
时间度量关系是指时间的跨度和间隔关系,用于描述和比较不同时间段之间的时间差异。时间度量关系可基于不同的标准和度量单位进行计算和表示,常见的有时间间隔和时间长度,不同的拓扑关系下时间度量关系和计算方式都不同。时间关联度由时间拓扑关联度和时间度量关联度加权相加得到。

4.2.4 关联网络构建与共享程度评价

在完成特征提取、关联关系及关联度计算后,需要以有关联关系的2个元数据的URI作为RDF的主语和宾语部分,其关联关系或关联度为边构成RDF。数据的存储方式与数据规模有关,当网络数据规模仅有几百条或以下时,可采用静态RDF文件进行存储。当数据规模较大时可将其存储到数据库中,较合适的数据库有RDF数据库和图数据库[77]。RDF数据库具有灵活性、语义表示和推理能力、数据互操作性和可扩展的图形查询能力等优点,使其成为处理语义数据和关联网络的理想选择。用户可在RDF数据库中启用SPARQL查询语言查询或通过使用SPARQL Endpoint等服务将RDF数据以Web服务的形式发布出去形成关联网络;图数据库是为更好地存储和管理图模型数据而开发的数据库管理系统,其通过使用节点和边的方式存储三元组,图数据库使用图模型,使其具有高效地存储、查询和分析复杂的关联数据,提供灵活的数据模型和强大的图形查询能力。
关联网络构建完成后,有学者对其进行阈值设置与评价等步骤,以提高关联网络的准确性和健壮性。阈值设置是由于初步生成的网络会有大量低关联度的边,大大增加了网络的密度,通过增设一个阈值,只有当数据间关联度高于此值时才保留关联,以实现对关联网络的优化。对关联网络构建质量的评价可从复杂网络和知识图谱2个角度进行。从复杂网络角度来看有以下评价指标: ① 网络拓扑结构:关联网络的质量评价可以通过其拓扑结构来评估。例如,网络密度、平均路径长度、聚集系数等指标可以用来衡量网络的连通性、信息传播效率和节点聚集程度; ② 社区结构:社区是指网络中密集相连的节点的集合,通常表示节点之间存在相关性或功能相似性。社区检测可以帮助发现网络中的重要模块和组织结构,并深入理解网络的功能[78]; ③ 中心性指标:关联网络中节点的中心性指标可以用来评估节点的重要性[79-80]。例如,度中心性、介数中心性、接近中心性等指标可以衡量节点在网络中的影响力、控制力和信息传递能力。
从知识图谱角度来看有以下评价指标:① 实体与关系准确性:关联网络应准确表示实体和实体间关系。一个高质量的关联网络应具有准确实体标识和正确的关联关系,以确保知识正确性和一致性;② 知识完整性:高质量的关联网络应具备较高的知识完整性,即涵盖该领域重要实体和关系。缺乏重要实体或关系的关联网络可能会导致知识的不完整性和偏颇性;③ 可扩展性和可更新性:高质量的关联网络应具备良好的可扩展性和可更新性,以适应新实体和关系的增加和变化。同时,关联网络的构建过程应该能够支持知识的持续更新和维护。综合来看,从复杂网络角度评价关联网络的质量主要关注网络拓扑结构、节点中心性和社区结构等方面。从知识图谱角度评价关联网络的质量则侧重于实体与关系的准确性、知识完整性、可扩展性等方面。

5 建议

在对现有地球表层关联网络基本特征和构建技术比较分析的基础上,本文发现,当前关联网络泛化能力不足,关联网络的构建还不够完善;特征关联技术方法还不够成熟;计算关联度时,对于各个特征的权重分配偏向主观。基于上述比较分析结果,从开放科学数据本体、地学知识复杂关系抽取与推理和构建技术分析3个方面对地表关联网络的构建及评价提出以下几点展望:
(1) 构建高质量、全覆盖的地表系统开放科学数据本体
高质量精准的地表系统开放科学数据是关联网络构建与共享评价应用的基础,而科学数据本体是关联网络数据目录挖掘与构建的重要前置条件。应对地表系统开放科学数据进行全方位、多角度建模,形成能够揭示地表系统开放科学数据多维度、多尺度、多类型特征的统一表达模型,并利用自上而下的方式,系统开展地表系统开放科学数据本体构建,形成包含数据形态、空间、时间、来源、主题等完善数据本体库,为数据挖掘发现、关联网络构建、数据质量评估等任务提供语义支撑。
(2) 考虑数据目录特征的提取方法集成融合与多维度表征
未来数据目录特征提取方面可将基于规则、机器学习、深度学习、GPT大模型等多种方法集成融合,对不同类型、表达方式的科学数据目录进行高置信抽取,降低自然语言表达的不一致性及冗余性,提高科学数据目录信息抽取的完整性、准确性和丰富性;特征表示方面,未来可从语法、语义等多维度、多层次角度进行科学数据目录表征,通过融合地表系统科学数据本体及专家经验知识,通过多种向量表征融合模型(如字符向量、词向量、BERT、GPT表征),实现对科学数据目录的精准表征,实现科学数据目录的向量化计算与语义化推理。
(3) 考虑顾及“时间-空间-内容”地学知识复杂关系及推理
地表系统开放科学数据具有复杂的特征。关联网络的构建需要抽取地学知识之间的时间、空间、内容及语义关系。已有关联网络大多仅仅考虑地学知识间的时空关系。未来的研究中需要从“时间-空间-内容”多层次上考虑地学知识间存在的复杂语义关系,并基于构建的关联网络图谱进行知识嵌入表示与推理,更好的服务数据挖掘与共享。
(4) 发展地表系统开放科学数据共享质量评价方法
基于构建的地表系统开放科学数据目录关联网络,将地表层系统数据关联网络抽象为复杂网络,并充分利用复杂网络理论中的度中心性、近性中心性、介性中心性以及特征向量中心度等节点中心性度量指标,以及最大集团尺寸、子集团平均最短路径、全网效能、连通系数、平均最短路径、平均聚集系统、耦合矩阵特征值等可靠性指标,研究人工智能与专家群智协同相结合的地表系统开放科学数据的共享质量评估方法,对挖掘到的地表系统开放科学数据的共享质量状况(如数据可发现、数据可访问,数据描述信息)及其重要性进行全方位、系统、科学的定量评价,为国家科学数据中心数据资源体系布局、研发以及科研人员的数据使用等提供重要参考依据。
(5) 建立面向多语言的地表系统开放科学数据关联网络方法
地表系统开放科学数据面向的是全球范围,当前已有的研究大多数针对单一语种进行研究,实际应用中不同语种数据可形成互补。因此,需要综合运用数据收集、标准化、语言处理、数据挖掘和机器学习等技术手段,建立面向多语言的地表系统开放数据关联网络,以实现数据的有效关联和广泛应用。
(6) 研究多维定量的基于人工智能下的数据关联方法与关联度计算方法
实现科学数据价值的充分发挥和科研效益的最大化,需要研究科学数据的进一步关联、集成与整合方法,需要深入剖析地表开放科学数据目录主题内容、时间、空间等本质属性,及数据格式、类型结构、坐标基准等形态特征,选取用于关联的数据特征,通过被选特征之间的综合语义关系,研究建立多维、定量的地表系统开放科学数据综合关联模型;结合表示学习、权重计算理论、专家打分等方法,研究顾及地表系统科学数据目录主题内容、空间拓扑、空间精度、时间拓扑、时间粒度、数据类型、数据格式等相似度度量方法,发展科学数据语义相关度计算模型,为关联网络的构建提供更多方法支持。
(7) 提升地表系统开放科学数据关联网络应用成效
目前地表领域关联网络的研究和应用还处于初级阶段,缺乏具体的应用案例和实践经验,虽然有一些相关的研究和案例,但它们往往存在多种不足,例如数据来源不够全面、数据更新不及时、数据格式不一致等问题。因此,在未来的关联网络研究中,应注重具体实践落地并在领域推广应用,如开展地球系统湖泊环境案例应用、双碳目标的固碳速率案例应用、西部生态屏障的蒙古高原案例应用等研究,逐步提升地表系统开放科学数据关联网络的应用成效,并为地表领域的各种应用需求提供更好的支持和服务。

6 结论

关联网络可帮助科学家更加高效地管理和利用地表数据,可将不同来源的数据资源进行关联和整合,形成统一的数据资源库,方便不同用户和应用程序的使用和共享。本文首先分析了地球表层系统开放科学数据关联网络的内容、目标和技术架构,重点总结与比较分析了现阶段关联网络的发展现状及国内外应用情况,最后从开放科学数据本体、地学知识复杂关系抽取与推理和构建技术分析3个方面展望了未来研究趋势。
随着对地观测、物联网监测、互联网、5G等新一代信息技术,以及开放数据共享理念的深入,网络上开放共享的地球表层系统数据爆炸式增长,地球表层系统开放大数据已经形成。如何快速挖掘发现并利用这些地球表层系统开放数据,是大数据时代下,地球表层系统数据共享新的发展趋势和前沿研究方向。结合自然语言处理、机器学习、深度学习、网络爬虫等前沿技术,建立地球表层系统开放数据共享门户网站、数据服务、数据期刊等多类型域名与网络地址探测方法,获取地球表层系统开放数据共享网站列表。进一步挖掘形成符合国际地理信息元数据标准ISO19115的地球表层系统全球开放数据目录,可为关联网络构建、共享质量分析等任务提供数据资源支撑。
本文图文责任编辑: 蒋树芳 黄光玉

感谢中国科学院地理科学与资源研究所王卷乐研究员、诸云强研究员的指导。

[1]
刘昌明, 刘璇, 杨亚锋, 等. 水文地理研究发展若干问题商榷[J]. 地理学报, 2022, 77(1):3-15.

DOI

[ Liu C M, Liu X, Yang Y F, et al. A discussion on some issues of hydro-geographical research[J]. Acta Geographica Sinica, 2022, 77(1):3-15. ] DOI:10.11821/dlxb202201001

[2]
张猛刚, 雷祥义. 地球表层系统浅论[J]. 西北地质, 2005, 38(2):99-101.

[ Zhang M G, Lei X Y. A discussion on the earth surface system[J]. Northwestern Geology, 2005, 38(2):99-101. ] DOI:10.3969/j.issn.1009-6248.2005.02.014

[3]
吴绍洪, 高江波, 戴尔阜, 等. 中国陆地表层自然地域系统动态研究:思路与方案[J]. 地球科学进展, 2017, 32(6):569-576.

DOI

[ Wu S H, Gao J B, Dai E F, et al. Research on dynamic of terrestrial system of China: Academic logic and synthetic scheme[J]. Advances in Earth Science, 2017, 32(6):569-576. ] DOI:10.11867/j.issn.1001-8166.2017.06.0569

[4]
Yuan J, Yue P, Gong J Y, et al. A linked data approach for geospatial data provenance[J]. IEEE Transactions on Geoscience and Remote Sensing, 2013, 51(11):5105-5112. DOI:10.1109/TGRS.2013.2249523

[5]
Duda K A, Abrams M J. Aster and usgs eros disaster response: emergency imaging after hurricane katrina[J]. Photogrammetric Engineering and Remote Sensing, 2005, 71(12):1346-1350. DOI:10.3133/cir13064D

[6]
Desnos Y L, Borgeaud M, Doherty M, et al. The European space agency's earth observation program[J]. IEEE Geoscience and Remote Sensing Magazine, 2014, 2(2):37-46. DOI:10.1109/MGRS.2014.2319270

[7]
王卷乐, 孙九林. 地球系统科学数据共享标准规范体系研究与应用[J]. 地理科学进展, 2009, 28(6):839-847.

[ Wang J L, Sun J L. Study on scientific data sharing standards and specifications system for earth system science and its application[J]. Progress in Geography, 2009, 28(6):839-847. ] DOI:10.11820/dlkxjz.2009.06.002

[8]
马胜男, 魏宏, 刘碧松. 地理信息标准研制的国内外进展及思考[J]. 武汉大学学报(信息科学版), 2008, 33(9):886-891.

[ Ma S N, Wei H, Liu B S. Review and consideration of progress in geographic information standardization at home and abroad[J]. Geomatics and Information Science of Wuhan University, 2008, 33(9):886-891. ]

[9]
Schneider F, Maurer C, Friedberg R C. International organization for standardization (ISO) 15189[J]. Annals of Laboratory Medicine, 2017, 37(5):365-370. DOI:10.3343/alm.2017.37.5.365

PMID

[10]
诸云强, 孙九林, 廖顺宝, 等. 地球系统科学数据共享研究与实践[J]. 地球信息科学学报, 2010, 12(1):1-8.

[ Zhu Y Q, Sun J L, Liao S B, et al. Earth system scientific data sharing research and practice[J]. Journal of Geo-Information Science, 2010, 12(1):1-8. ]

[11]
邢文明, 郭安琪, 秦顺, 等. 科学数据管理与共享的FAIR原则——背景、内容与实施[J]. 信息资源管理学报, 2021, 11(2):60-68,84.

[ Xing W M, Guo A Q, Qin S, et al. FAIR principle of scientific data management and sharing: Background, content and implementation[J]. Journal of Information Resources Management, 2021, 11(2):60-68,84. ] DOI:10.13365/j.jirm.2021.02.060

[12]
Frey J, Hellmann S. FAIR linked data - towards a linked data backbone for users and machines[C]// Companion Proceedings of the Web Conference 2021. ACM, 2021:431-435. DOI:10.1145/3442442.3451364

[13]
Fernández J D, Martínez-Prieto M A, de la Fuente Redondo P, et al. Characterising RDF data sets[J]. Journal of Information Science, 2018, 44(2):203-229. DOI:10.1177/0165551516677945

[14]
曹玉平, 龚主杰, 陈德容, 等. 关联数据技术及其研究现状[J]. 图书馆理论与实践, 2014(11):42-45.

[ Cao Y P, Gong Z J, Chen D R, et al. Linked data technology and its research status[J]. Library Theory and Practice, 2014(11):42-45. ] DOI:10.3969/j.issn.1005-8214.2014.11.011

[15]
Waterworth D, Sethuvenkatraman S, Sheng Q Z. Advancing smart building readiness: Automated metadata extraction using neural language processing methods[J]. Advances in Applied Energy, 2021, 3:100041. DOI:10.1016/j.adapen.2021.100041

[16]
沈志宏, 张晓林, 黎建辉. OpenCSDB:关联数据在科学数据库中的应用研究[J]. 中国图书馆学报, 2012, 38(5):17-26.

[ Shen Z H, Zhang X L, Li J H. OpenCSDB: Application of linked data in scientific database[J]. Journal of Library Science in China, 2012, 38(5):17-26. ] DOI:10.13530/j.cnki.jlis.2012.05.003

[17]
罗侃, 诸云强, 程文芳, 等. 极地科学数据关联方法及应用研究[J]. 极地研究, 2016, 28(3):361-369.

DOI

[ Luo K, Zhu Y Q, Cheng W F, et al. A polar science linked data method and its research application[J]. Chinese Journal of Polar Research, 2016, 28(3):361-369. ] DOI:10.13679/j.jdyj.2016.3.361

[18]
赵红伟, 诸云强, 侯志伟, 等. 地理空间元数据关联网络的构建[J]. 地理科学, 2016, 36(8):1180-1189.

DOI

[ Zhao H W, Zhu Y Q, Hou Z W, et al. Construction of geospatial metadata association network[J]. Scientia Geographica Sinica, 2016, 36(8):1180-1189. ] DOI:10.13249/j.cnki.sgs.2016.08.008

[19]
赵红伟, 诸云强, 杨宏伟, 等. 地理空间数据本质特征语义相关度计算模型[J]. 地理研究, 2016, 35(1):58-70.

DOI

[ Zhao H W, Zhu Y Q, Yang H W, et al. The semantic relevancy computation model on essential features of geospatial data[J]. Geographical Research, 2016, 35(1):58-70. ] DOI:10.11821/dlyj201601006

[20]
朱文武, 王鑫. 三元空间大数据网络关联表征[J]. 中国科学:信息科学, 2021, 51(11):1802-1839.

[ Zhu W W, Wang X. Cyber-physical-human big data correlational representation[J]. Scientia Sinica (Informationis), 2021, 51(11):1802-1839. ]

[21]
于梦月. 基于本体的开放政府数据的元数据方案及其应用研究[D]. 大连: 大连海事大学, 2018.

[ Yu M Y. Ontology-based metadata scheme for open government data and its application[D]. Dalian: Dalian Maritime University, 2018. ]

[22]
Krishnamurthy R, Awazu Y. Liberating data for public value: The case of data.gov[J]. International Journal of Information Management, 2016, 36(4):668-672. DOI:10.1016/j.ijinfomgt.2016.03.002

[23]
梁顺林, 陈晓娜, 陈琰, 等. 陆表卫星遥感GLASS产品集的研发新进展[J]. 遥感学报, 2023, 27(4):831-856.

[ Liang S L, Chen X N, Chen Y, et al. Updates on Global LAnd Surface Satellite(GLASS) products suite[J]. National Remote Sensing Bulletin, 2023, 27(4):831-856. ] DOI:10.11834/jrs.20232462

[24]
邱春艳, 陈可睿. 科学元数据标准的现状、特点与改进建议[J]. 数字图书馆论坛, 2022(12):10-18.

[ Qiu C Y, Chen K R. The status quo, characteristics and suggestions for improvement of scientific metadata standards[J]. Digital Library Forum, 2022(12):10-18. ] DOI:10.3772/j.issn.1673-2286.2022.12.002

[25]
Martin P, Remy L, Theodoridou M, et al. Mapping heterogeneous research infrastructure metadata into a unified catalogue for use in a generic virtual research environment[J]. Future Generation Computer Systems, 2019, 101:1-13. DOI:10.1016/j.future.2019.05.076

[26]
da Silva J R, Ribeiro C, Lopes J C. Ranking Dublin Core descriptor lists from user interactions: A case study with Dublin Core Terms using the Dendro platform[J]. International Journal on Digital Libraries, 2019, 20(2):185-204. DOI:10.1007/s00799-018-0238-x

[27]
Kitchenham B, Brereton P. A systematic review of systematic review process research in software engineering[J]. Information and Software Technology, 2013, 55(12):2049-2075. DOI:10.1016/j.infsof.2013.07.010

[28]
Stadler C, Lehmann J, Höffner K, et al. LinkedGeoData: A core for a web of spatial open data[J]. Semantic Web, 2012, 3(4):333-354. DOI:10.3233/sw-2011-0052

[29]
Dsouza A, Tempelmeier N, Yu R, et al. WorldKG: A world-scale geographic knowledge graph[C]// Proceedings of the 30th ACM International Conference on Information & Knowledge Management. ACM, 2021:4475-4484. DOI:10.1145/3459637.3482023

[30]
Vrandečić D, Krötzsch M. Wikidata: A free collaborative knowledgebase[J]. Communications of the ACM, 2014, 57(10):78-85. DOI:10.1145/2629489

[31]
Ismayilov A, Kontokostas D, Auer S, et al. Wikidata through the eyes of DBpedia[J]. Semantic Web, 2018, 9(4):493-503. DOI:10.3233/SW-170277

[32]
沈志宏, 张晓林. 关联数据及其应用现状综述[J]. 现代图书情报技术, 2010(11):1-9.

[ Shen Z H, Zhang X L. Linked data and its applications: An overview[J]. New Technology of Library and Information Service, 2010(11):1-9. ] DOI:10.11925/infotech.1003-3513.2010.11.01

[33]
尚渡新, 袁润, 夏翠娟, 等. 关联数据在知识库中应用的研究综述[J]. 数字图书馆论坛, 2022(3):22-31.

[ Shang D X, Yuan R, Xia C J, et al. Review on the application of linked data in knowledge base[J]. Digital Library Forum, 2022(3):22-31. ] DOI:10.3772/j.issn.1673-2286.2022.03.003

[34]
Kaur J, Singh J, Sehra S S, et al. Systematic literature review of data quality within OpenStreetMap[C]// 2017 International Conference on Next Generation Computing and Information Systems (ICNGCIS). IEEE, 2017:177-182. DOI:10.1109/ICNGCIS.2017.35

[35]
Almendros-Jiménez J M, Becerra-Terón A, Torres M. Integrating and querying OpenStreetMap and linked geo open data[J]. The Computer Journal, 2019, 62(3):321-345. DOI:10.1093/comjnl/bxx079

[36]
Ryen V, Soylu A, Roman D. Building semantic knowledge graphs from (semi-) structured data: A review[J]. Future Internet, 2022, 14(5):129. DOI:10.3390/fi14050129

[37]
诸云强, 孙凯, 李威蓉, 等. 地球科学知识图谱比较分析与启示:构建方法与内容视角[J]. 高校地质学报, 2023, 29(3):382-394.

[ Zhu Y Q, Sun K, Li W R, et al. Comparative analysis and enlightenment of geoscience knowledge graphs: A perspective of construction methods and contents[J]. Geological Journal of China Universities, 2023, 29(3):382-394. ] DOI:10.16108/j.issn1006-7493.2021111

[38]
Pan Z Y, Zhu T, Liu H, et al. A survey of RDF management technologies and benchmark datasets[J]. Journal of Ambient Intelligence and Humanized Computing, 2018, 9(5):1693-1704. DOI:10.1007/s12652-018-0876-2

[39]
Srinivasan S, Pollard S D, Norris B, et al. A shared-memory algorithm for updating tree-based properties of large dynamic networks[J]. IEEE Transactions on Big Data, 2022, 8(2):302-317. DOI:10.1109/TBDATA.2018.2870136

[40]
刘朋飞, 崔铁军. 地理数据关联研究进展[J]. 天津师范大学学报(自然科学版), 2019, 39(3):10-15.

[ Liu P F, Cui T J. Research progress in geographic data association[J]. Journal of Tianjin Normal University (Natural Science Edition), 2019, 39(3):10-15. ] DOI:10.19638/j.issn1671-1114.20190302

[41]
刘志辉, 魏娟霞, 张均胜. 基于知识图谱的科技创新指标自适应计算方法研究[J]. 情报学报, 2019, 38(8):826-837.

[ Liu Z H, Wei J X, Zhang J S. Adaptive computing method for the determination of scientific and technological innovation indicators based on a knowledge graph[J]. Journal of the China Society for Scientific and Technical Information, 2019, 38(8):826-837. ] DOI:10.3772/j.issn.1000-0135.2019.08.007

[42]
Gao S H, Song J, Zhu Y Q, et al. Association and recomendation for geosciences data attributes based on semantic similarity measurement[C]// 2018 7th International Conference on Agro-geoinformatics (Agro-geoinformatics). IEEE, 2018:1-5. DOI:10.1109/Agro-Geoinformatics.2018.8476118

[43]
董少春, 尹宏伟, 许刚. 地质时间本体在异构数据检索中的应用[J]. 地球信息科学学报, 2010, 12(2):2194-2199.

[ Dong S C, Yin H W, Xu G. Heterogeneous data searching based on geologic time ontology[J]. Journal of Geo-information Science, 2010, 12(2):2194-2199. ]

[44]
胡少虎, 张颖怡, 章成志. 关键词提取研究综述[J]. 数据分析与知识发现, 2021, 5(3):45-59.

[ Hu S H, Zhang Y Y, Zhang C Z. Review of keyword extraction studies[J]. Data Analysis and Knowledge Discovery, 2021, 5(3):45-59. ] DOI:10.11925/infotech.2096-3467.2020.1103

[45]
Li J, Huang G M, Fan C L, et al. Keyword extraction for short text via word2vec, doc2vec, and textrank[J]. TURKISH JOURNAL OF ELECTRICAL ENGINEERING & COMPUTER SCIENCES, 2019, 27(3):1794-1805. DOI: 10.3906/elk-1806-38

[46]
Pradhan L, Zhang C C, Bethard S, et al. Embedding user behavioral aspect in TF-IDF like representation[C]// 2018 IEEE Conference on Multimedia Information Processing and Retrieval (MIPR). IEEE, 2018:262-267. DOI:10.1109/MIPR.2018.00061

[47]
刘宏哲, 须德. 基于本体的语义相似度和相关度计算研究综述[J]. 计算机科学, 2012, 39(2):8-13.

[ Liu H Z, Xu D. Ontology based semantic similarity and relatedness measures review[J]. Computer Science, 2012, 39(2):8-13. ] DOI:10.3969/j.issn.1002-137X.2012.02.002

[48]
Firoozeh N, Nazarenko A, Alizon F, et al. Keyword extraction: Issues and methods[J]. Natural Language Engineering, 2020, 26(3):259-291. DOI:10.1017/s1351324919000457

[49]
Belgiu M, Drăguţ L. Random forest in remote sensing: A review of applications and future directions[J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2016, 114:24-31. DOI:10.1016/j.isprsjprs.2016.01.011

[50]
Chang C C, Lin C J. LIBSVM: A library for support vector machines[J]. ACM Transactions on Intelligent Systems and Technology, 2011, 2(3):1-27. DOI:10.1145/196 1189.1961199

[51]
Zheng S, Jayasumana S, Romera-Paredes B, et al. Conditional random fields as recurrent neural networks[C]// 2015 IEEE International Conference on Computer Vision (ICCV). IEEE, 2015:1529-1537. DOI:10.1109/ICCV.2015.179

[52]
张杰. 文献结构化的细粒度检索技术研究[D]. 南京: 东南大学, 2019.

[ Zhang J. Research on Fine-grained Retrieval Technology via Structuring Literature Corpus[D]. Nanjing: Southeast University, 2019. ]

[53]
Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. ACM, 2017:6000-6010. DOI:10.5555/3295222.3295349

[54]
Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018. DOI:10.48550/arXiv.1810.04805

[55]
Okada S, Ohzeki M, Taguchi S. Efficient partition of integer optimization problems with one-hot encoding[J]. Scientific Reports, 2019, 9(1):13036. DOI:10.1038/s41598-019-49539-6

PMID

[56]
Zhang Y, Jin R, Zhou Z H. Understanding bag-of-words model: A statistical framework[J]. International Journal of Machine Learning and Cybernetics, 2010, 1(1):43-52. DOI:10.1007/s13042-010-0001-0

[57]
Levy O, Goldberg Y, Dagan I. Improving distributional similarity with lessons learned from word embeddings[J]. Transactions of the Association for Computational Linguistics, 2015,3:211-225. DOI:10.1162/tacl_a_00134

[58]
Gordijn B, Have H T. ChatGPT: Evolution or revolution?[J]. Medicine, Health Care, and Philosophy, 2023, 26(1):1-2. DOI:10.1007/s11019-023-10136-0

[59]
白海燕, 朱礼军. 关联数据的自动关联构建研究[J]. 现代图书情报技术, 2010(2):44-49.

[ Bai H Y, Zhu L J. Research on automatic interlinking of linked data[J]. New Technology of Library and Information Service, 2010(2):44-49. ]

[60]
Yaolin L, Molenaar M, Kraak M. Semantic similarity evaluation model in categorical database generalization[J]. International Archives of Photogrammetry Remote Sensing and Spatial Information Sciences, 2002, 34(4):279-285.

[61]
Ye J. Cosine similarity measures for intuitionistic fuzzy sets and their applications[J]. Mathematical and Computer Modelling, 2011, 53(1/2):91-97. DOI:10.1016/j.mcm.2010.07.022

[62]
Liberti L, Lavor C, Maculan N, et al. Euclidean distance geometry and applications[J]. SIAM Review, 2014, 56(1):3-69. DOI:10.1137/120875909

[63]
Ruder S, Vulić I, Søgaard A. A survey of cross-lingual word embedding models[J]. Journal of Artificial Intelligence Research, 2019, 65:569-631. DOI:10.1613/jair.1.11640

[64]
葛斌, 李芳芳, 郭丝路, 等. 基于知网的词汇语义相似度计算方法研究[J]. 计算机应用研究, 2010, 27(9):3329-3333.

[ Ge B, Li F F, Guo S L, et al. Word's semantic similarity computation method based on Hownet[J]. Application Research of Computers, 2010, 27(9):3329-3333. ] DOI:10.3969/j.issn.1001-3695.2010.09.034

[65]
王小林, 王东, 杨思春, 等. 基于《知网》的词语语义相似度算法[J]. 计算机工程, 2014, 40(12):177-181.

DOI

[ Wang X L, Wang D, Yang S C, et al. Word semantic similarity algorithm based on HowNet[J]. Computer Engineering, 2014, 40(12):177-181. ] DOI:10.3969/j.issn.1000-3428.2014.12.033

[66]
Sloman S, Love B, Ahn W. Feature centrality and conceptual coherence[J]. Cognitive Science, 1998, 22(2):189-228. DOI:10.1207/s15516709cog2202_2

[67]
Barrios T, Diamond R, Imbens G W, et al. Clustering, spatial correlations, and randomization inference[J]. Journal of the American Statistical Association, 2012, 107(498):578-591. DOI:10.1080/01621459.2012.682524

[68]
陈军, 赵仁亮. GIS空间关系的基本问题与研究进展[J]. 测绘学报, 1999, 28(2):95-102.

[ Chen J, Zhao R L. Spatial relations in GIS: A survey on its key issues and research progress[J]. Acta Geodaetica et Cartographica Sinica, 1999, 28(2):95-102. ]

[69]
Egenhofer M J, Franzosa R D. Point-set topological spatial relations[J]. International Journal of Geographical Information Systems, 1991, 5(2):161-174. DOI:10.1080/026 93799108927841

[70]
Brahim L, Okba K, Robert L. Mathematical framework for topological relationships between ribbons and regions[J]. Journal of Visual Languages and Computing, 2015, 26(C):66-81. DOI: 10.1016/j.jvlc.2014.11.004.

[71]
Randell D A, Cui Z, Cohn A G. A spatial logic based on regions and connection[C]// Proceedings of the Third International Conference on Principles of Knowledge Representation and Reasoning. ACM, 1992:165-176. DOI: 10.5555/3087223.3087240

[72]
Randell D A, Cohn A G. Modelling Topological and Metrical Properties in Physical Processes[J]. KR, 1989,89:357-368. DOI:10.5555/112922.112958

[73]
Renz J. A canonical model of the region connection calculus[J]. Journal of Applied Non-Classical Logics, 2002, 12(3/4):469-494. DOI:10.3166/jancl.12.469-494

[74]
Sabharwal C L, Leopold J L, Eloe N W. A More Expressive 3D Region Connection Calculus[C]// DMS. 2011: 307-311.

[75]
Schockaert S, De Cock M, Kerre E E. Spatial reasoning in a fuzzy region connection calculus[J]. Artificial Intelligence, 2009, 173(2):258-298. DOI:10.1016/j.artint.2008.10.009

[76]
高云亮. 地理信息资源关联关系的可视化方法研究与实践[D]. 郑州: 解放军信息工程大学, 2017.

[ Gao Y L. Research and Practice of the Visualization of Geographic Information Resources Correlation[D]. Zhengzhou: PLA Information Engineering University, 2017. ]

[77]
刘峰, 韩芳, 魏天珂, 等. 科学数据语义关联技术研究与应用[J]. 数据与计算发展前沿, 2023, 5(1):28-40.

[ Liu F, Han F, Wei T K, et al. Research and applications of semantic association for scientific data[J]. Frontiers of Data & Computing, 2023, 5(1):28-40. ]

[78]
吕天阳, 谢文艳, 郑纬民, 等. 加权复杂网络社团的评价指标及其发现算法分析[J]. 物理学报, 2012, 61(21):145-154.

[ T Y, Xie W Y, Zheng W M, et al. Analysis of community evaluation criterion and discovery algorithm of weighted complex network[J]. Acta Physica Sinica, 2012, 61(21):145-154. ] DOI:10.7498/aps.61.210511

[79]
于会, 刘尊, 李勇军. 基于多属性决策的复杂网络节点重要性综合评价方法[J]. 物理学报, 2013, 62(2):46-54.

[ Yu H, Liu Z, Li Y J. Key nodes in complex networks identified by multi-attribute decision-making method[J]. Acta Physica Sinica, 2013, 62(2):46-54. ] DOI:10.7498/aps.62.020204

[80]
张琨, 沈海波, 张宏, 等. 基于灰色关联分析的复杂网络节点重要性综合评价方法[J]. 南京理工大学学报, 2012, 36(4):579-586.

[ Zhang K, Shen H B, Zhang H, et al. Synthesis evaluation method for node importance in complex networks based on grey relational analysis[J]. Journal of Nanjing University of Science and Technology, 2012, 36(4):579-586. ] DOI:10.14177/j.cnki.32-1397n.2012.04.001

文章导航

/