基于正则表达式的地学科学数据名称提取方法

曹乔卓然; 王丝丝; 陈祖刚; 李国庆; 李静

doi:10.12082/dqxxkx.2023.220945

地球信息科学学报 >

2023 , Vol. 25 >Issue 8: 1601 - 1610

DOI: https://doi.org/10.12082/dqxxkx.2023.220945

地球信息科学理论与方法

基于正则表达式的地学科学数据名称提取方法

曹乔卓然 ^,¹ ,
王丝丝 ² ,
陈祖刚 ^,³^,^* ,
李国庆 ³ ,
李静 ³

展开

1.郑州大学地球科学与技术学院，郑州 450001
2.国家遥感中心，北京 100036
3.中国科学院空天信息创新研究院，北京 100094

*陈祖刚（1989— ），男，河南信阳人，副研究员，主要从事关联数据研究。E-mail: chenzg@aircas.ac.cn

曹乔卓然（1997— ），男，山东泰安人，硕士生，主要从事地理知识抽取与关联研究。E-mail: cqzr9752@126.com

收稿日期: 2022-12-02

修回日期: 2023-04-07

网络出版日期: 2023-07-14

基金资助

国家重点研发计划项目(2020YFE0200700)

收起

The Method of Extracting Names of Geo-science Data based on Regular Expressions

CAO Qiaozhuoran ^,¹ ,
WANG Sisi ² ,
CHEN Zugang ^,³^,^* ,
LI Guoqing ³ ,
LI Jing ³

Expand

1. School of Geo-science ＆Technology, Zhengzhou University, Zhengzhou 450001, China
2. National Remote Sensing Center of China, Beijing 100036, China
3. Aerospace Information Research Institute, Chinese Academy of Sciences, Beijing 100094, China

*CHEN Zugang, E-mail: chenzg@aircas.ac.cn

Received date: 2022-12-02

Revised date: 2023-04-07

Online published: 2023-07-14

Supported by

National Key Research and Development Program(2020YFE0200700)

Fold

摘要

地学科学数据是地学科技文献重要的支撑材料，大量地学科技文献中包含着研究数据信息，而数据名称一般体现着数据的基本内容，是其中的核心信息。从地学科技文献中自动提取研究数据名称，对于促进优质地学数据共享、复现文献实验与结果以及实现科学数据与科技文献之间的关联具有重大意义，可在一定程度上解决当前地学文献中数据信息利用不充分的问题。本研究通过大量阅读地学文献，分析地学科技文献中描述数据来源信息段落的行文、结构特点以及数据名称的表述特征，在总结地学数据名称描述规律的基础上，提出了从地学科技文献中自动抽取地学数据名称的方法。该方法以数据类别特征词为规则触发词，利用正则表达式编写抽取规则，构建正则抽取规则库，从而完成对地学文献中数据名称信息的抽取。最后使用Java语言编写地学数据名称提取程序，以地学文献文本为实验数据材料，开展地学数据名称信息提取实验。实验结果表明，该方法可以有效地提取地学科技文献中的研究数据名称信息，准确率达到62%。

关键词： 地学科技文献; 地学科学数据; 数据名称; 正则表达式; 规则匹配; 信息抽取

本文引用格式

曹乔卓然 , 王丝丝 , 陈祖刚 , 李国庆 , 李静 . 基于正则表达式的地学科学数据名称提取方法[J]. 地球信息科学学报, 2023 , 25(8) : 1601 -1610 . DOI: 10.12082/dqxxkx.2023.220945

Abstract

Geoscientific data represent important supporting information in geoscientific and technological documents. A large number of geoscientific and scientific documents contain research data information, and the data name that reflects the basic content of data acts as the core information. Automatic extraction of research data names from geoscientific and technological documents is of great significance for promoting the sharing of high-quality geoscientific data, reproducing literature experiments and results, and realizing the correlation between scientific data and scientific and technological documents. It can potentially address the problem of insufficient utilization of data information in current geoscientific documents. Through reading a large number of geoscientific documents, this study analyzes the texts, structure characteristics, and expression characteristics of data names existing in paragraphs which describe the data source information, and proposes an automatic extraction method for the names of geoscientific data by summarizing the description rules of geoscientific data names. This method uses data category feature words as rule triggers, uses regular expressions to write extraction rules, and constructs a regular extraction rule library to complete the extraction of data name information from geoscientific documents. Finally, the name extraction program of geoscientific data is written in Java language, and the name information extraction from geoscientific data is carried out using geoscientific literature texts as the experimental data. The experimental results show that this method can effectively extract the name information of research data from geoscientific and scientific documents, with an accuracy of 62%.

Key words： geoscience and technology literature; geoscience data; data name; regular expression; rule matching; information extraction

1 引言

近年来，随着数据密集型科学研究范式的出现，科学数据对科学研究的重要性日益凸显，科学数据共享工作得到了普遍的重视与发展。科技文献反映了人们在一定社会历史阶段的知识水平，是记录科技创新与科学发现的重要载体，也是科研人员获取知识的重要媒介^[1]。地学科技文献的产出，离不开大量地学科学数据的支撑，文献中的研究来源数据是读者关注的重要内容，可以为科研人员提供指导和借鉴。然而，科技文献获取的便利性并不总是意味着科学知识获取的高效性^[2]。目前，对科技文献中包含的研究方法、研究数据、研究实验、研究模型、研究结果和研究结论等深层次的知识内容缺乏标注和抽取，更缺少利用这些信息进行知识发现与共享的研究。如何从大量文献中快速、准确地抽取研究数据信息，以利于数据挖掘和知识发现研究，成为了目前亟需解决的问题。地学科技文献中，包含了不同详细程度的地学数据信息，例如数据的名称、时间特征、空间特征、分辨率、来源信息、参照系、版权信息等内容。在诸多要素中，地学数据名称体现着数据的基本特征（即空间特征、时间特征、主题特征^[3-4]），是其中最为核心的信息。从地学科技文献文本中抽取研究使用的科学数据名称，对挖掘科技文献中的新知识、建立科学数据和科技文献的关联、复现科技文献中阐述的研究成果与结论、促进地学优秀数据集重用具有重要意义。

从地学科技文献文本中获取研究数据的名称信息，需要信息抽取技术的支持。信息抽取，就是从一个特定领域的文本中抽取指定信息并对其进行结构化的描述和存储的过程^[5]。目前，信息抽取技术已经广泛应用于医药卫生、社交媒体、网络技术、经济商业、军事等研究领域^{[6⇓⇓⇓-10]}，促进了相关学科的发展与进步。互联网时代的网络信息多以文本形式存在，文本消息依然是人们日常获取信息的主要来源，信息抽取的主要研究范围是对文本信息的抽取^[11]。文本信息抽取的方法主要包括 3种^[12]：基于规则的方法^[13⇓-15]、基于统计的方法^[16⇓-18]以及基于深度学习的方法^[19⇓-21]。伴随着科技文献大量产出，研究人员使用不同的信息提取方法开展针对科技文献的信息抽取与知识挖掘研究。冷伏海等^[1]利用正则表达式规则抽取技术，提取科技文献中的具体理论方法和性能指标参数；王志飞等^[22]通过正则表达式提取上市中药文献中的“病例数”和“有效率” 2个指标信息，帮助医学人员实现中药上市后的临床再评价；朱丽萍等^[23]标注了大量实验语料以构建目标语句特征库，通过基于规则特征及机器学习的方法抽取自然语言科技文献中的实验语料；陶玥等^[24]使用MARGIN、NSE、MNLP 3种主动学习策略和新提出的LWP策略与神经网络信息抽取模型（CNN-BiLSTM-CRF）结合，研究适用于标注语料匮乏状态下对文献主题信息的抽取方法。

综上所述，部分科研人员已面向科技文献开展了信息抽取研究和应用，但是面向地学科学数据名称抽取研究尚未开始。基于规则的信息提取方法目前使用最为广泛的方法，在多个研究领域均有十分成熟的应用实例^{[25⇓⇓⇓-29]}，具有无需训练、匹配模式强大、匹配结果可追溯可解读、规则可扩展更新等优势^[8]。地学科技文献是具有领域专业性、行文规律性特点的自由文本，地学数据名称的表达方式也遵循一定规范，满足基于规则的信息抽取技术所需的基本条件。因此，本研究以地球科学领域的高质量科技期刊文献作为研究对象，通过正则表达式技术构建匹配规则库，利用正则表达式强大的匹配机制从地学文献中提取数据名称信息。

2 地学文献中科学数据特征分析

2.1 来源特征分析

依据数据使用者、收集者或生产者的关系和数据获取来源的差异，地学研究所使用的数据可划分为原始数据和成品数据^[4,30]两大类。原始数据是作者通过外业测量、实地考察、实验、发放问卷或调查访谈等方式获得的数据资料。成品数据主要包括：统计数据（来源于各种统计年鉴以及调查报告等）、公开数据库数据资源（目前主要的地学数据获取途径）、文献中的加工整理的数据成果等。

成品数据在地球科学研究中具有以下3个特点：① 数据质量与可靠性高。大部分地学成品数据在公之于众前，会进行规范的数据处理，并经过严格的质量审核与精度评定，因此可靠性较高；② 获取成本较低。成品数据大多是已经整理完备的公开数据，无需再投入大量时间、人力、物力资源进行多源异构数据的收集与处理工作。借助互联网平台即可获得丰富的数据资源，大大降低了数据获取成本；③ 使用方便。成品数据可根据数据类型、数据年份、数据存储格式等不同标准分类整理，便于研究人员依据自身需求选用。部分成品数据还附带了详细的数据使用说明文档，帮助研究人员更充分地了解、利用数据。使用业内广泛认可的成品数据有助于促进优秀数据重用，进而提高领域内的文献质量水平。因而，实际科研工作中，地学科技文献选用的研究数据，大都是成品数据。对成品数据名称的提取，是提取方法研究的重点任务。相比于原始数据，成品数据具备更为规范的内容组织与表达形式，可充分体现数据的基本特征。这个特点，对分析数据命名模式和编制提取模板大有裨益，更适用基于规则的信息提取方法。鉴于此，本研究仅讨论适用于提取地学科技文献中的成品数据名称的提取方法，不讨论针对文献中原始数据名称信息的提取。

2.2 定位特征分析

自由文本是指由符合某种语言表达规范的自然语言语句组成的文本^[6]。地学科技文献作为自由文本，其表达方式与文本结构是多种多样的，属于比较难处理的信息抽取材料。不同的作者都有各自的写作风格与习惯，不同的文献出版机构也对稿件的格式和写作规范提出了不同的要求，为制定地学数据名称提取规则带来一定困难。

2.3 表达特征分析

地学文献中的成品数据名称通常是经过命名标准规范处理后的标准化名称。数据名称标准化确保了数据完整性、一致性、可用性，是避免数据内容重复、检索困难等现象的重要手段。地学领域的数据名称具备较强的严谨性与典型性，科研工作者通过数据名称即可对数据的各项属性产生初步认识，这也是人工从文献文本中识别数据名称的基础。地学科技文献中采用专门的术语描述不同类别的数据名称，常见的表述有xx数据、xx资料、xx影像、xx样本、xx图等。在文字结构上，这些术语词出现在数据名称的结尾。这些术语不仅交代了文献研究数据的基本类型，还可以作为数据名称提取的触发词辅助定位数据名称信息在句子中的具体位置，具有识别提取目标的作用。通过对数据类型分类，将描述地学数据类型的术语构成数据名称触发词集，作为制定提取规则的参考依据。此外，因地学数据的3个基本特征或多或少在数据名称中都有所体现，是数据名称重要的组成部分，依据这些基本特征也可以进一步提高提取数据名称信息的准确率。

地学数据的时间特征，指数据采集或数据记录的地学现象发生的时刻或时间段。中文对时间的表达方式多种多样，公元纪年法是地学数据名称中应用最多、最常采用的时间表达方法，因此本研究主要以公元纪年法的文本特征设计数据时间属性的提取方案。公元纪年法中多使用阿拉伯数字和时间量词组合的形式表达时间，常见的时间描述量词有月、日、年等。地学数据名称中常见的时间信息一般以年或者日为最小粒度单元，可分为具有时间跨度的时间段和独立时间点2种类型。表示时间跨度时，采用“到”“至”“和”“-”“~”等单个汉字或符号连接2个时间单元，代表时间的起始与结束，如“1963—2009年”。表示时间点时，常用“某年”“某年某月”“某年某月某日”描述一个确定的时间节点，如“2022年1月”。

地学数据的空间特征，指数据采集或数据记录的地学现象发生的空间位置。地学数据名称中，空间特征体现为某些专门的地理区域概念，常见的表述有：全球，中国，某国，某个省、市、区、县等行政区划或约定俗成的地理空间区划（如青藏高原、长江中下游平原、京津冀地区等）。对于包含空间特征的数据名称，表述空间位置的词语也可以作为定位词，帮助更精确地定位包含数据名称的句子。

地学数据的主题特征描述数据的定性或定量指标，即描述了数据的非空间组成部分，包括语义信息与统计信息。地学研究数据的主题广泛而多样，无法对数据名称中的主题特征进行统一的归纳与总结。

3 研究方法

3.1 基本思路

为了从地学科技文献中抽取地学数据名称信息，本文运用正则表达技术提出一种基于规则的信息抽取方法。正则表达式，又称为规则表达式，因具有快速匹配文本的特性，常见于文本信息抽取和信息检索领域。正则表达式功能的强大，在于其对“模式”的表达^[31]。模式，即一类事物的共性，是思考和描述该事物的逻辑。地学科技文献数据名称一般表现出较为规范和密集的模式，因此适用于使用正则表达式进行信息提取。

通过阅读大量地学科技文献文本，以及调研部分地学数据网站对研究数据的命名方式，选取地学研究中常见的、具有一定代表性的数据名称，总结待抽取数据命名的表达方式和结构形式规律。地学科技文献对数据名称的描述遵循一定的语义特征和结构特征，结合地学领域知识与语言习惯，分析数据命名的组织与表达特点，归纳出它们的表达模式，并使用正则表达式语法编写提取模板。将所有的提取模板统一组织，形成地学科学数据名称抽取规则库，作为从文献文本中提取地学数据名称的工具。本研究的技术路线如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 地学科学数据名称提取方法技术路线

Fig. 1 Technical route of name extraction method for geoscience data

3.2 数据名称抽取规则库构建

正则表达式的编写过程就是将提取模式规则化的过程，在充分总结地学文献中研究数据特征的基础上，人工编写正则表达式抽取规则，构建用于数据名称信息抽取研究的抽取规则库。如表1所示，本研究共编制了14条正则表达式，用于中文文献地学数据名称的识别与抽取。使用抽取规则库匹配数据名称的策略是，只要规则库中的某条规则在待抽取文本中匹配到相应的数据名称则停止匹配，并返回匹配结果作为提取到的数据名称信息。以下介绍其中3条具有代表性的地学数据名称提取规则模式，展现总结提取模式的一般过程。

表1 地学数据名称信息提取规则库

Tab. 1 Extraction rules base of name information of geological data

编号	数据名称实例	数据名称模式	正则表达式
1	1980—2016年逐日最高气温、最低气温、太阳辐射和风速等数据	数据时间（最小粒度为年）跨度+（数据空间位置）+数据主题+数据类型	(\\d{4}年?s?[-\|—\|~\|到\|至]?\\d{4}年){1}[/\|\\u4E00-\\u9FA5\|\\w\|[(\\w\|\\u4E00-\\u9FA5)\|（\\w\|\\u4E00- \\u9FA5）]\|、：“”‘’'（）《》〔〕…—~-]+(信息\|数据\|数据集\|资料\|图\|产品\|样本\|模型){1}"
2	北京市城六区范围内居住小区的数据	数据空间位置+数据主题+数据类型	((\\w\|\\u4E00-\\u9FA5)+(省\|市\|自治区\|地区\|特别行政区\|流域\|区域\|高原\|平原\|区))*[\\w\|\\u4E00-\\u9FA5 \|[(\\w\|\\u4E00-\\u9FA5)]\|[（\\w\|\\u4E00-\\u9FA5）]\|:\|、\|“\|”\|.\|-\|—\|/\|\\+]+(数据\|数据集\|资料\|图\|产品\|样本){1}
3	1:5 000中国地形图	国家基本比例尺+制图区域+制图主题+（地）图	(\\d:[\\d.\\d\|\\d{1,}]){1}[\\u4E00-\\u9FA5](图\|图数据){1}
4	人口自然增长率数据	（数据空间位置）+数据主题+数据类型	\\b[\\w\|\\u4E00-\\u9FA5\|[(\\w\|\\u4E00-\\u9FA5)\|（\\w\|\\u4E00-\\ u9FA5）\|∶\|-\|—\|.\|\|“\|”\|°\|×\|/ \|：\|&\|-]]+(数据\|数据集\|资料\|产品\|样本\|模型\|信息){1}
5	2017-1-1-2019-12-31所有Landsat8（USGSLandsat8SurfaceReflectanceTier1）影像	数据时间（最小粒度为日）跨度+（数据空间位置）+数据主题+数据类型	(\\d{4}年?[—\|-]\\d{1,2}月?[—\|- ]?(\\d{1,2})?日?[-~到至和]?\\d{4}年?[-\|~]\\d{1,2}月?[—\|-]?(\\d {1,2})?日?){1}[\\u4E00-\\u9FA5 \|\\w\|、：“”‘'（）《》〔〕…—-，]+(信息\|数据\|数据集\|资料\|图\|产品\|样本){1}
6	中国物候数据（1963—2009 年）	（数据空间位置）+数据主题+数据类型+括号后补充内容	[\\u4E00-\\u9FA5\|\\w\|:]+(信息\|数据\|数据集\|资料\|图\|产品\|影像\|样本\|模型){1}\\(([^}])\\)\| [\\u4E00-\\u9FA5\|\\w\|:]+(数据\|数据集\|资料\|图\|产品\|影像\|样本\|模型){1}（([^}])）
7	Landsat5 MSS、Landsat5 TM、Landsat7 ETM+SLC -off遥感影像	多个传感器/卫星并列+影像类型数据	[a-z\|0-9]+([+-、])[\\u4E00-\\u9FA5](影像\|遥感数据\|影像数据){1}
8	2004—2011年覆盖西部冰川区的Landsat TM/ETM+遥感影像	数据时间（最小粒度为年）跨度+（数据空间位置）+传感器/卫星名称+影像类型数据	((\\d{4})年\\s[-\|—\|~\|到\|至\|和]\\s\\d{4}\\s年){1}[\\u4E00- \\u9FA5\|a-z\|0-9\|\\W]*(影像\|遥感数据\|影像数据){1}
9	全国2000—2010年1 km网格土地利用数据	特定的空间位置+数据时间（最小粒度为年）跨度+数据主题+数据类型	(中国\|全国\|全球\|我国\|美国){0,1} (\\d{4}年)[\\w\|\\u4E00-\\u9FA5\| (\\d{4}年[-\|—\|~\|到\|至\|和]*\\d {4}年)?]+(数据\|数据集\|资料\|图\|产品\|影像\|样本\|模型){1}
10	Landsat TM/ETM+遥感影像	传感器名称/卫星名称+影像	[(A-Z\|0-9\|\\S]*(影像){1}
11	班轮运输能力指数	（数据空间位置）+数据主题+指数/参数类数据	\\b[\\w\|\\u4E0-\\u9FA5\|[(\\w\|\\u4E00-\\u9FA5)\|:\|-\|—\|（\\w\| \\u4E00-\\u9FA5）\|.\|、\|“\|”]]+(指数\|参数){1}
12	安徽省1980、1995、2000、2005、2010、2015年1:100万土地利用数据	数据空间位置+并列时间年份+数据主题+数据类型	([\\w\|\\u4E00-\\u9FA5]+(省\|市\|自治区\|地区\|特别行政区\|流域\|区域\|高原\|平原\|中国\|我国\|全球\|流域))* (\\d{4}年、){1,}[\\w\|\\u4E0 0-\\u9FA5\|[(\\w\|\\u4E00-\\u9FA5)]\|:](数据\|数据集\|资料\|图\|产品\|样本\|模型){1}
13	1990年北京地区1 km×1 km高分辨率MODIS数据	数据年份+（数据空间位置）+数据主题+数据类型	\\d{4}年[、：“”‘’'（）《》〔〕…—~\|(\\u4E00-\\u9FA5)\|/\|a-z \|×\|0-9]+(数据\|数据集\|资料\|产品\|影像\|样本\|模型){1}
14	LandsatETM、MODIS和高分遥感影像	多个传感器/卫星并列+中文并列词+传感器/卫星名称+影像主题+影像类型数据	[a-z\|0-9]+和[a-z\|0-9]+([+-、])* [\\u4E00-\\u9FA5]*(影像\|遥感数据\|影像数据){1}

（1）规则1：含有时间跨度且时间粒度为“年”的数据

地学数据名称中常常包含数据采集的时间信息，其中最常见的是具有一定跨度、时间粒度为“年”的时间表达模式。此类数据名称信息的表达方式常以一定的时间跨度开头，中间为数据的位置与主题信息，以“数据”、“图”等数据类型特征词结尾。此类数据名称中的位置信息不再作为编制正则表达式的特征依据，数据名称中是否含有空间信息并不影响最终的提取结果。此类数据名称的结构模式为：“数据时间跨度+（数据空间位置）+数据主题+数据类型”。

（2）规则2：含有空间信息而不包含时间信息的数据

部分数据名称中不包含时间信息，但有着明显的空间位置。此时，编制正则表达式是需要充分考虑数据名称中的空间特征。一般将行政区划（如“省”“市”“区”）或约定俗成的地理空间区划（如“xx平原”“xx高原”）作为空间指示词，作为提取此类数据名称的特征依据。此类数据名称的表达方式常以数据的空间位置开头，中间为数据主题信息，以“数据”“资料”“产品”等数据类型特征词结尾，此类数据名称的结构特征模式为：“数据空间位置+数据主题+数据类型”。

（3）规则3 国家标准比例尺地形图

地图是地学研究中常用的研究数据。由于地图的特殊性，国家对公开流通的地图的基本内容（数学要素、地理要素和辅助要素）有着严格规定。地图比例尺反映了地图的量测精度和地图内容的详细程度，一般需要准确体现在地图名称中。我国常用的地图标准比例尺规范分为1:100万、1:50万、1:25万等8种，也是绝大多数地学研究使用地图资料的比例尺。地图数据名称信息的表达方式常以国家标准比例尺开头，以“地图”“地形图”“分布图数据”等地图型特征词结尾，二者中间为制图区域与主题信息，标准地图数据的结构模式为：“国家基本比例尺+制图区域+制图主题+（地型）图”。

3.3 抽取实验过程及步骤

基于构建的正则表达式规则库，使用Java语言编写地学科技文献提取程序，从文献中抽取地学数据名称，实验过程如下：

（1）加载文献文档。利用PDFBox开源库将每篇文献PDF文件中的文本内容加载为一个超长的字符串。这个字符串保留着原PDF文件的版式结构与内容信息，并满足程序设计语言识别、转换、处理文本的要求。

（2）提取数据描述段落。结合上文“定位特征分析”章节中对数据名称描述段落的分析，使用编写好的提取此类段落的正则表达式，从文献全文中提取经PDFbox加载后的数据描述段落。PDF格式的文献中不仅仅包含文献的正文，同时还包含了一些期刊信息，例如期刊名称、期刊页码、作者简介等。这些期刊信息也会被PDFBox加载，成为噪声信息。为减少噪声影响，需要对使用程序获取的数据描述段落进行人工修正，剔除其中的噪声信息。部分文献由于写作格式原因未能自动提取到数据名称描述段落或作者没有撰写专门介绍研究数据的段落，这部分内容需人工识别后补齐。

（3）依标点符号分句。标点符号是分隔语句的基本单元，标点符号的正确使用是科技论文写作中语言规范的一个重要方面^[32⇓-34]。在地学文献中，一个完整的句子中通常只包含一条或一组数据名称信息，通过分句操作可降低单次匹配处理的粒度。以标点符号作为分隔符将文献文本分割为若干短句，对每个短句再进一步匹配处理。

（4）正则表达式匹配。将分割后的每个单句，依据正则表达式规则库中制定的地学数据名称提取模板，逐条逐句进行规则匹配。

（5）获得匹配结果。正则表达式将自动匹配出某单句中存在符合提取规则的数据名称，将其存入表单中作为结构化的提取结果。

3.4 抽取评价指标

评价文本信息抽取方法常选取的指标有：准确率（P）、抽全率（R）和F值。其中，准确率衡量抽取的准确程度，抽全率衡量抽取的全面程度，F值衡量准确率和抽全率的综合性能。各指标计算公式如式（1）—式（3）所示。

（1）

P = K / N

（2）

R = K / M

（3）

F = 2 × P × R P + R

式中：P为准确率；R为抽全率；F为F值；K为抽取结果中正确的数量；N为所有抽取结果的数量；M为标准结果的数量。

4 实验与结果分析

4.1 实验数据

本文实验使用的数据为地理科技文献文本，来源于《地理学报》期刊，文献格式均为PDF。本研究从《地理学报》2015年、2020年全年12期，共计411篇科技文献中，选取了178篇研究性文献作为实验样本数据（文献计量与分析、文献综述、学术会议、学者评述等非研究类型的文献不在选取之列）。

4.2 实验结果

邀请地学领域内的专家对实验所用178篇地学科技文献中的研究数据进行人工整理，作为文献中地学数据的标准名称。按照研究的提取方法，对实验文献提取后的部分结果如表2所示。

表2 数据名称信息抽取实验结果（部分）

Tab. 2 Experiment results of data name information extraction (Part of all results)

文献标题	专家提取结果	本研究提取结果	对应的提取规则
1998—2012 年中国耕地复种指数时空差异及动因	耕地面积数据，农作物播种面积数据，农民人均经营耕地、农村居民家庭人均经营纯收入、成灾受灾比数据，人口非农业化比重数据	[本文所用的耕地面积数据, 农作物播种面积数据, 农民人均经营耕地、农村居民家庭人均经营纯收入、成灾受灾比数据, 人口非农业化比重数据, 香港、澳门和台湾地区由于数据]	\b[\\w\|\\u4E00-\\u9FA5\|[(\\w\|\\u4E00-\\u9FA5)\|:\|-\|—\|（\\w\|\\u4E00-\\u9FA5）\|.\|、\|“\|”]]+(数据\|数据集\|资料\|产品\|样本\|模型){1}
2000—2010年广州市住房产权管理角色变化分析	广州市“五普”和“六普”中的住房来源数据	[数据来源于广州市“五普”和“六普”中的住房来源数据]	\\b[\\w\|\\u4E00-\\u9FA5\|[(\\w\|\\u4E00-\\u9FA5)\|:\|-\|—\|（\\w\|\\u4E00-\\u9FA5）\|.\|、\|“\|”]]+(数据\|数据集\|资料\|产品\|样本\|模型){1}
2004—2011年中国省域生态补偿差异分析	中国各省的森林面积、草地面积、农田（农用地）面积、湿地面积、荒漠面积（沙化土地）、河流和湖泊面积以及各省的相关经济社会数据	[本文需要获得中国各省的森林面积、草地面积、农田（农用地）面积、湿地面积、荒漠面积（沙化土地）、河流和湖泊面积以及各省的相关经济社会数据]	\\b[\\w\|\\u4E00-\\u9FA5\|[(\\w\|\\u4E00-\\u9FA5)\|:\|-\|—\|（\\w\|\\u4E00-\\u9FA5）\|.\|、\|“\|”]]+(数据\|数据集\|资料\|产品\|样本\|模型){1}
1961—2010年中国十大流域水分盈亏量时空变化特征	全国743个站1961—2010年的月平均气温、平均最高气温、平均最低气温、平均相对湿度、平均风速、月日照时数、月降水量等气候要素站点观测资料	[1961—2010年的月平均气温、平均最高气温、平均最低气温、平均相对湿度、平均风速、月日照时数、月降水量等气候要素站点观测资料]	(\\d{4}年?s?[-\|—\|~\|到\|至\|和]?\\d{4}年){1}[\\u4E00-\\u9FA5\|\\w\|[(\\w\|\\u4E00-\\u9FA5)\|（\\w\|\\u4E00-\\u9FA5）]\|、：“”‘’'（）《》〔〕…—~-]+(信息\|数据\|数据集\|资料\|图\|产品\|样本\|模型){1}
水量统一调度以来黄河内蒙古河段耗水量分析	1999—2011年黄河引退水资料，1999—2011年黄河干流和有关支流不同时间尺度的水文数据	[引退水资料, 黄河干流和有关支流不同时间尺度的水文数据]	\\b[\\w\|\\u4E00-\\u9FA5\|[(\\w\|\\u4E00-\\u9FA5)\|:\|-\|—\|（\\w\|\\u4E00-\\u9FA5）\|.\|、\|“\|”]]+(数据\|数据集\|资料\|产品\|样本\|模型){1}

4.3 结果统计与分析

本研究抽取实验结果统计如表3所示。

表3 抽取结果统计

Tab. 3 Statistics of extraction results

2015年		2020年
统计指标	统计结果	统计指标	统计结果
标准数据名称信息项数（M）	278	标准数据名称信息项数（M）	334
抽取数据名称信息项数（N）	430	抽取数据名称信息项数（N）	472
正确抽取信息项数（K）	247	正确抽取信息项数（K）	316
准确率（P）/%	57	准确率（P）/%	67
抽全率（R）/%	89	抽全率（R）/%	95
F值（F）	0.69	F值（F）	0.79

综合2015年和2020年的统计结果，本研究整体准确率为62%，整体抽全率为92%，F值为0.74。其中，2020年发表文献的抽取准确率相较于2015年提升了10%，原因是文献作者更多地使用来自数据中心和数据仓储的研究数据，这些数据管理机构对数据名称的命名遵循某些标准规范，适用于使用正则表达式方法进行信息提取。

通过实验统计结果可以得出，本研究方法的抽全率较高，但准确率较低，造成提取准确率低的原因是提取结果中的冗余信息过多。为尽可能查全文献中的数据名称信息，尤其是模式较为简单的数据名称，提取规则库中制定了通配性较强的提取模板。介绍实验数据的段落中含有大量符合此类模板的句子，且对数据的扩展介绍越详细，冗余信息也越多。尽管本研究已对提取结果进行简单的去冗处理，面对中文复杂的语言环境，依然会保留一些与真实数据名称相似的冗余信息。这里体现了使用正则表达式制定数据名称提取模板时，模板的通配性与专门性的矛盾。

部分研究数据名称未能成功提取的原因是： ① 文献中介绍研究数据时，数据名称中未出现提取模板中设定的提取触发词；② 部分文献文本中没有出现明确的研究数据名称，多使用“本研究数据”“本文数据”“数据”等过于宽泛化和抽象化的表述；③ 研究数据名称中含有一些特殊符号（如同位素符号），在制定提取规则时很难考虑此类不常见的数据名称模式。虽然抽取结果中仍存在冗余信息，还需要人工综合整理提取结果，但使用本研究提出的数据名称提取方法已经大大提高了工作效率。

5 结论与展望

本文通过阅读地学科技文献，分析文献中研究数据描述语句的位置特征、结构特征和表达特征，在总结地学数据命名模式的基础上构建提取规则库，提出了基于正则表达式的地学科学数据名称信息抽取方法。本研究首次尝试使用计算机程序从非结构化文献文本中抽取地学研究数据名称，经实验和测试结果表明，该方法具有一定的准确率，为从科技文献中提取更深层次的知识提供了基本的方法。

然而，由于科技文献中对科学数据表达和描述的复杂性，以及基于正则表达式方法固有的问题，本研究提出抽取科学数据名称方法的准确率还有较大提升空间。影响提取准确率的主要因素有以下3个方面：① 地学科技文献并没有统一的研究数据命名标准，导致无法构建覆盖所有描述情形的科学数据抽取模式；② 地学文献中介绍科学数据时未提供确切的名称或者名称中残缺的特征要素较多，无法构建适合提取此类数据名称的抽取模式；③ 中文文本的语言环境极为复杂，即使制定了大量提取规则，也无法保障可以匹配所有地学科技文献中的数据名称信息。

从地学文献中提取研究数据名称，是一个新领域的应用尝试，目前仍处于探索阶段。未来，需要改进的方向有：① 尽可能大范围地对地学领域内各类期刊展开调研工作，构建更为精细的科学数据名称表达模式；② 各地学文献出版机构制定该期刊的研究数据名称命名规范，并推荐作者撰写文献时使用，从而为制定数据名称提取模板提供便利；③ 制作针对地学科技文献的标注数据，在未来采用深度学习方法开展地学领域的信息抽取研究。

尽管如此，出于对文献格式框架严谨与规范的考虑，地学科技文献在行文结构上具有一些共性特征。科技文献中的每一章节都明确地展示了特定的信息^[7]。科技文献全文由标题、作者、摘要、关键词、引言、正文、结论、致谢和参考文献9个部分组成。在地学科技文献中，作者通常会专门撰写一个介绍和说明研究数据的段落，从中可以获取研究数据名称信息。这个段落大多出现在文献正文的前部位置，例如引言后的第二或者第三个写作段落。此类段落多以“研究数据”“研究区与资料”“研究概况”“数据来源”“数据收集与处理”等标签作为段落标题或小标题。这些标签信息可以用于识别定位，确定需要进行提取的文本内容范围。这部分文本小标题多以论文的1、2级标题编号开头（例如“1.”或“2.2”等），格式上左起顶格书写，小标题中包含关键词“研究区”“数据”或“资料”等。根据这些特征模式编写正则表达式，截取此类小标题和下一个小标题之间的文本，即可获取包含文献研究数据名称信息的段落。这样，待处理的文本范围，就从文献全文缩小到某一个段落，可大幅度提高提取效率。

参考文献

原文顺序 | 文献年度倒序 | 文中引用次数倒序

[1]	冷伏海, 白如江, 祝清松. 面向科技文献的混合语义信息抽取方法研究[J]. 图书情报工作, 2013, 57(11):112-119. DOI [Leng F H, Bai R J, Zhu Q S. A hybrid semantic information extraction methodfor scientific research papers[J]. Library and Information Service, 2013, 57(11):112-119.] DOI:10.7536/j.jssn.0252-3116.2013.11.021 DOI

[2]	徐雷, 秦翠玉, 李娇. 科技文献数据化及组织呈现路径研究[J]. 中国图书馆学报, 2022, 48(3):25-42. [Xu L, Qin C Y, Li J. Datafication, organization and manifestation of scientific literature[J]. Journal of Library Science in China, 2022, 48(3):25-42.] DOI:10.13530/j.cnki.jlis.2022022 DOI

[3]	邬伦, 刘瑜. 地理信息系统:原理、方法和应用[M]. 北京: 科学出版社, 2001. [Wu L, Liu Y. Geographic information system:Principles,methods and applications[M]. Beijing: Science Press, 2001.] DOI:CNKI:SUN:DLXB.0.2001-04-017 DOI

[4]	李军, 周成虎. 地学数据特征分析[J]. 地理科学, 1999, 19(2):158-162. [Li J, Zhou C H. Analysis on the characteristics of geospatial data[J]. Scientia Geographica Sinica, 1999, 19(2):158-162.] DOI:10.3969/j.issn.1000-0690.1999.02.013 DOI

[5]	Patricia Lutsky. Information extraction from documents for automating software testing[J]. Artificial Intelligence in Engineering, 2000,14(1):63-69. DOI:10.1016/S0954-1810(99)00024-2 DOI

[6]	郑影, 李大辉. 面向微博内容的信息抽取模型研究[J]. 计算机科学, 2014, 41(2):270-275. [Zheng Y, Li D H. Research on information extration model for microblog content[J]. Computer Science, 2014, 41(2):270-275.] DOI:10.3969/j.issn.1002-137X.2014.02.060 DOI

[7]	敖龙, 谢海先. 科技文献信息抽取方法浅析[J]. 高校图书馆工作, 2022, 42(2):24-27. [Ao L, Xie H X. An analysis on methods of information extraction from foreign scientific literature[J]. Library Work in Colleges and Universities, 2022, 42(2):24-27.] DOI:10.3969/j.issn.1003-7845.2022.02.006 DOI

[8]	秦彦霞, 张民, 郑德权. 神经网络事件抽取技术综述[J]. 智能计算机与应用, 2018, 8(3):1-5,10. [Qin Y X, Zhang M, Zheng D Q. A survey on neural network-based methods for event extraction[J]. Intelligent Computer and Applications, 2018, 8(3):1-5,10.] DOI:10.3969/j.issn.2095-2163.2018.03.002 DOI

[9]	Shannon C E, Mccarthy J. Automata Studies[J]. Mathematical Gazette, 1956, 42(340):178-179.

[10]	Thompson K. Programming Techniques:Regular expression search algorithm[J]. Communications of the ACM, 1968, 11(6):419-422. DOI:10.1145/363347.363387 DOI

[11]	肖明, 曾莉. 信息抽取技术及其发展[J]. 西南民族大学学报(自然科学版), 2021, 47(6):633-639. [Xiao M, Zeng L. Information extraction technology and its development[J]. Journal of Southwest University for Nationalities (Natrual Science Edition), 2021, 47(6):633-639.] DOI:10.11920/xnmdzk.2021.06.011 DOI

[12]

代建华, 彭若瑶, 许路, 等. 基于深度神经网络的信息抽取研究综述[J]. 西南师范大学学报(自然科学版), 2022, 47(4):1-11.

[Dai

J H

, Peng

R Y

, Xu

, et al. A survey of information extraction based on deep neural networks[J]. Journal of Southwest China Normal University(Natural Science Edition), 2022, 47(4):1-11.] DOI:10.13718/j.cnki.xsxb.2022.04.001

DOI

[13]	苏韶生, 杨勇, 程敏婷, 等. 基于规则库的电子病历信息抽取研究[J]. 中国数字医学, 2014(7):12-13,51. [Su S S, Yang Y, Cheng M T, et al. Research on electronic medical record information extraction based on the rule base[J]. China Digital Medicine, 2014(7):12-13,51.]

[14]

乔磊, 李存华, 仲兆满, 等. 基于规则的人物信息抽取算法的研究[J]. 南京师大学报(自然科学版), 2012, 35(4):134-139.

[Qiao

, Li

C H

, Zhong

Z M

, et al. Research on people' s information extraction based on rules[J]. Journal of Nanjing Normal University (Natural Science Edition), 2012, 35(4):134-139.] DOI:10.3969/j.issn.1001-4616.2012.04.024

DOI

[15]

张萌, 陈佳惠, 孙然然, 等. 基于规则的城市轨道交通安全事件信息抽取及其知识元表示[J]. 科学技术与工程, 2021, 21(15):6435-6440.

[Zhang

, Chen

J H

, Sun

R R

, et al. Rule-based information extraction of urban rail transit safety cases and its common knowledge meta-model representation[J]. Science Technology and Engineering, 2021, 21(15):6435-6440.] DOI:10.3969/j.issn.1671-1815.2021.15.046

DOI

[16]	Zhou G, Su J. Named entity recognition using an HMM-based chunk tagger[C]. Proceedings of the 40^th Annual Meeting of the Association for Computational Linguistics (ACL), 2002,473-480. DOI:10.3115/1073083.1073163 DOI

[17]	Borthwick A. A maximum entropy approach to named entity recognition[D]. New York: New York University, 1999.

[18]	McCallum A, Li W. Early Results for Named Entity Recognition with Conditional Random Fields, Feature Induction and Web-Enhanced Lexicons[J]. Association for Computational Linguistics, 2003, 4:188-191. DOI:10.3115/1119176.1119206 DOI

[19]	Li J Q, Zhao S H, Yang J J, et al. WCP-RNN:A novel RNN-based approach for Bio-NER in Chinese EMRs[J]. The Journal of supercomputing, 2020, 76(3):1450-1467. DOI:10.1007/s11227-017-2229-x DOI

[20]	Liu C Y, Sun W B, Chao W H, et al. Convolution neural network for relation extraction[C]// Advanced Data Mining and Applications: Part II /.Springer, 2013:231-242.

[21]	Devlin J, Chang M, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding[J]. 2018. DOI:10.48550/arXiv.1810.04805 DOI

[22]

王志飞, 谢雁鸣, 王永炎. 正则表达式在上市中药文献信息提取中的应用[J]. 中国中药杂志, 2011, 36(20): 2888-2890.

[Wang

Z F

, Xie

Y M

, Wang

Y Y

. Application of regular expression in extracting key information from Chinese medicine literatures about re-evaluation of post-marketing surveillance[J]. China Journal of Chinese Materia Medica, 2011, 36(20):2888-2890.] DOI:10.4268/cjcmm20112035

DOI

[23]	朱丽萍, 刘蔷, 苏斐, 等. 科技文献的实验语料句抽取方法[J]. 计算机工程与设计, 2016, 37(11):3086-3091. [Zhu L P, Liu Q, Su F, et al. Extracting experiments corpus sentence in scientific literature[J]. Computer Engineering and Design, 2016, 37(11):3086-3091.] DOI:10.16208/j.issn1000-7024.2016.11.040 DOI

[24]	陶玥, 余丽, 张润杰. 科技文献中短语级主题抽取的主动学习方法研究[J]. 数据分析与知识发现, 2020, 4(10):134-143. [Tao Y, Yu L, Zhang R J. Active learning strategies for extracting phrase-level topics from scientific literature[J]. Data Analysis and Knowledge Discovery, 2020, 4(10):134-143.] DOI:10.11925/infotech.2096-3467.2020.0281 DOI

[25]	吴骋, 徐蕾, 秦婴逸, 等. 中文电子病历多层次信息抽取方法的探索[J]. 中国数字医学, 2020, 15(6):29-31. [Wu C, Xu L, Qin Y Y, et al. Exploration on the multi-level information extraction method of Chinese electronic medical records[J]. China Digital Medicine, 2020, 15(6):29-31.] DOI:10.3969/j.issn.1673-7571.2020.06.009 DOI

[26]	牛承志, 骆鑫, 赵丹. 临床科研数据抽取研究[J]. 医学信息学杂志, 2020, 41(7):25-28. [Niu C Z, Luo X, Zhao D. Study on clinical research data extracting[J]. Journal of Medical Intelligence, 2020, 41(7):25-28.] DOI:10.3969/j.issn.1673-6036.2020.07.009 DOI

[27]	霍娜, 吕国英. 基于规则匹配的灾难性追踪事件信息抽取的研究[J]. 电脑开发与应用, 2012, 25(6):7-9,13. [Huo N, Lü G Y. Research on sudden event information extraction of tracking reports based on rules[J]. Computer Development & Applications, 2012, 25(6):7-9,13.] DOI:10.3969/j.issn.1003-5850.2012.06.003 DOI

[28]	丁晟春, 王莉, 刘梦露. 基于规则的动物卫生事件舆情信息抽取研究[J]. 计算机应用与软件, 2018, 35(9):56-62. [Ding S C, Wang L, Liu M L. Research on public opinion information extraction for animal health events based on rules[J]. Computer Applications and Software, 2018, 35(9):56-62.] DOI:10.3969/j.issn.1000-386x.2018.09.010 DOI

[29]	熊志斌, 朱剑锋, 尹成国. 正则表达式在旅游突发事件信息抽取中的应用[J]. 软件, 2015, 36(11):15-17,22. [Xiong Z B, Zhu J F, Yin C G. The application of regular expressions in information extraction of tourism accident[J]. Computer Engineering & Software, 2015, 36(11):15-17,22.] DOI:10.3969/j.issn.1003-6970.2015.11.005 DOI

[30]	Hox J J, Boeije H R. Data collection, primary versus secondary[J], 2005. DOI:10.1016/B0-12-369398-5/00041-4 DOI

[31]

王志飞, 李晓君, 郭霞珍, 等. 正则表达式在中医文献研究中的应用初探[J]. 中国中医药信息杂志, 2010, 17(3):98-99.