图/表 详细信息

基于正则表达式的地学科学数据名称提取方法
曹乔卓然, 王丝丝, 陈祖刚, 李国庆, 李静
地球信息科学学报, 2023, 25(8): 1601-1610.   DOI: 10.12082/dqxxkx.2023.220945

编号 数据名称实例 数据名称模式 正则表达式
1 1980—2016年逐日最高气温、最低气温、太阳辐射和风速等数据 数据时间(最小粒度为年)跨度+(数据空间位置)+数据主题+数据类型 (\\d{4}年?s?[-|—|~|到|至]?\\d{4}年){1}[/|\\u4E00-\\u9FA5|\\w|[(\\w|\\u4E00-\\u9FA5)|(\\w|\\u4E00-
\\u9FA5)]|、:“”‘’'()《》〔〕…—~-]+(信息|数据|数据集|资料|图|产品|样本|模型){1}"
2 北京市城六区范围内居住小区的数据 数据空间位置+数据主题+数据
类型
((\\w|\\u4E00-\\u9FA5)+(省|市|自治区|地区|特别行政区|流域|区域|高原|平原|区))*[\\w|\\u4E00-\\u9FA5
|[(\\w|\\u4E00-\\u9FA5)]|[(\\w|\\u4E00-\\u9FA5)]|:|、|“|”|.|-|—|/|\\+]+(数据|数据集|资料|图|产品|样本){1}
3 1:5 000中国地形图 国家基本比例尺+制图区域+制图主题+(地)图 (\\d:[\\d.\\d|\\d{1,}]*){1}[\\u4E00-\\u9FA5]*(图|图数据){1}
4 人口自然增长率数据 (数据空间位置)+数据主题+数据类型 \\b[\\w|\\u4E00-\\u9FA5|[(\\w|\\u4E00-\\u9FA5)|(\\w|\\u4E00-\\
u9FA5)|∶|-|—|.||“|”|°|×|/
|:|&|-]]+(数据|数据集|资料|产品|样本|模型|信息){1}
5 2017-1-1-2019-12-31所有Landsat8(USGSLandsat8SurfaceReflectanceTier1)影像 数据时间(最小粒度为日)跨度+(数据空间位置)+数据主题+数据类型 (\\d{4}年?[—|-]\\d{1,2}月?[—|-
]?(\\d{1,2})?日?[-~到至和]?\\d{4}年?[-|~]\\d{1,2}月?[—|-]?(\\d
{1,2})?日?){1}[\\u4E00-\\u9FA5
|\\w|、:“”‘'()《》 〔〕…—-,]+(信息|数据|数据集|资料|图|产品|样本){1}
6 中国物候数据(1963—2009 年) (数据空间位置)+数据主题+数据类型+括号后补充内容 [\\u4E00-\\u9FA5|\\w|:]+(信息|数据|数据集|资料|图|产品|影像|样本|模型){1}\\(([^}]*)\\)|
[\\u4E00-\\u9FA5|\\w|:]+(数据|数据集|资料|图|产品|影像|样本|模型){1}(([^}]*))
7 Landsat5 MSS、Landsat5 TM、Landsat7 ETM+SLC
-off遥感影像
多个传感器/卫星并列+影像类型数据 [a-z|0-9]+([+-、])*[\\u4E00-\\u9FA5]*(影像|遥感数据|影像数据){1}
8 2004—2011年覆盖西部冰川区的Landsat TM/ETM+遥感影像 数据时间(最小粒度为年)跨度+(数据空间位置)+传感器/卫星名称+影像类型数据 ((\\d{4})*年*\\s*[-|—|~|到|至|和]*\\s*\\d{4}\\s*年){1}[\\u4E00-
\\u9FA5|a-z|0-9|\\W]*(影像|遥感数据|影像数据){1}
9 全国2000—2010年1 km网格土地利用数据 特定的空间位置+数据时间(最小粒度为年)跨度+数据主题+数据
类型
(中国|全国|全球|我国|美国){0,1}
(\\d{4}年)*[\\w|\\u4E00-\\u9FA5|
(\\d{4}年*[-|—|~|到|至|和]*\\d
{4}年)?]+(数据|数据集|资料|图|产品|影像|样本|模型){1}
10 Landsat TM/ETM+遥感影像 传感器名称/卫星名称+影像 [(A-Z|0-9|\\S]*(影像){1}
11 班轮运输能力指数 (数据空间位置)+数据主题+指数/参数类数据 \\b[\\w|\\u4E0-\\u9FA5|[(\\w|\\u4E00-\\u9FA5)|:|-|—|(\\w|
\\u4E00-\\u9FA5)|.|、|“|”]]+(指数|参数){1}
12 安徽省1980、1995、2000、2005、2010、2015年1:100万土地利用数据 数据空间位置+并列时间年份+数据主题+数据类型 ([\\w|\\u4E00-\\u9FA5]+(省|市|自治区|地区|特别行政区|流域|区域|高原|平原|中国|我国|全球|流域))*
(\\d{4}年*、){1,}[\\w|\\u4E0
0-\\u9FA5|[(\\w|\\u4E00-\\u9FA5)]|:]*(数据|数据集|资料|图|产品|样本|模型){1}
13 1990年北京地区1 km×1 km高分辨率MODIS数据 数据年份+(数据空间位置)+数据主题+数据类型 \\d{4}年[、:“”‘’'() 《》 〔〕…—~|(\\u4E00-\\u9FA5)|/|a-z
|×|0-9]+(数据|数据集|资料|产品|影像|样本|模型){1}
14 LandsatETM、MODIS和高分遥感影像 多个传感器/卫星并列+中文并列词+传感器/卫星名称+影像主题+影像类型数据 [a-z|0-9]+和[a-z|0-9]+([+-、])*
[\\u4E00-\\u9FA5]*(影像|遥感数据|影像数据){1}
表1 地学数据名称信息提取规则库
本文的其它图/表