Multi-model Fusion Extraction Method for Chinese Text Implicative Meteorological Disasters Event Information

  • HU Duanmu , 1, 2 ,
  • YUAN Wu 3 ,
  • NIU Fangqu 4 ,
  • YUAN Wen , 1, * ,
  • HAN Aiai 1, 2
Expand
  • 1. State Key Laboratory of Resources and Environmental Information System, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Computer School, Beijing Institute of Technology, Beijing 100081, China
  • 4. Key Laboratory of Regional Sustainable Development Modeling, Institute of Geographic Sciences and Natural Resources Research, Chinese Academy of Sciences, Beijing 100101, China
*YUAN Wen, E-mail:

Received date: 2022-03-02

  Revised date: 2022-05-08

  Online published: 2023-02-25

Supported by

Strategic Priority Research Program of the Chinese Academy of Sciences(XDA23100103)

Abstract

With global warming, the frequency of extreme weather events and major meteorological disasters is increasing globally. It is important to study the relationship between climate change and the frequency of meteorological disasters for disaster prevention and mitigation in the context of climate change. In this paper, a method is proposed for automatic extraction of spatial and temporal events of meteorological disasters based on natural language processing technology. Because there is a huge amount of spatial and temporal information of meteorological disasters available in literature and web data. Specifically, (1) A coarse-to-fine method was proposed to build a training corpus of meteorological disaster annotations based on professional literature. Firstly, a unified meteorological disaster knowledge system oriented to textual events is constructed to address the problems of ambiguity and incompatibility of different literature materials. Then a coarse annotation method based on chapter structure was constructed, and a Labeled LDA model-based and a fine-grained annotated corpus screening method based on TF-IDF and N-gram models were developed for long texts (modern texts) and short texts (literary texts), respectively, solving the problem of rapid corpus construction; (2) A method for automatic classification of spatiotemporal events of meteorological disasters based on the BERT-CNN model, which integrates contextual semantic features and local semantic features at multiple granularities, was developed for the integrated processing of short and long texts; (3) Using this method, the spatiotemporal events of meteorological disasters were automatically extracted from the textual and web data, and their macro F1 values reached 89.09% and 80.06%, respectively. The spatiotemporal distributions of major events of meteorological disasters were highly correlated with professional statistics; (4) Based on the above results, the spatiotemporal evolution of disasters in various historical periods in China was also reconstructed. We found that the overall volume of disaster data in each period showed a gradual increasing trend, with heavy rainfall disasters, floods, and droughts being the main types of disasters in China. Our method enables both the automatic extraction of long text events from the web and the automatic detection of short text events from literatures, providing a new technique for application of text data to meteorological disaster research and monitoring.

Cite this article

HU Duanmu , YUAN Wu , NIU Fangqu , YUAN Wen , HAN Aiai . Multi-model Fusion Extraction Method for Chinese Text Implicative Meteorological Disasters Event Information[J]. Journal of Geo-information Science, 2022 , 24(12) : 2342 -2355 . DOI: 10.12082/dqxxkx.2022.220088

1 引言

随着气候变暖加剧,全球极端天气事件和重大气象灾害频发,给人类社会造成了巨大损失[1]。据世界气象组织统计,1970——2019年,全球发生超过1.1万起气象、气候和水文灾害,共造成200多万人死亡和3.64万亿美元损失。全球气象灾害的频率和强度仍将继续上升[2]。因此,研究气候变化与气象灾害的关系,对于应对不同气候情境下的气象灾害防治具有重要意义。另外,随着互联网的发展,灾害管理部门网站、新闻网站、微博及论坛等网络媒体中包含了丰富的气象灾害数据,为相关研究提供了重要数据来源。目前已有部分学者使用触发词过滤、机器学习等方法对社交网站数据开展了气象灾害事件抽取的相关研究[3-5],取得较大进步,但存在以下问题:① 多数研究所用数据来源覆盖面相对单一,数据量也有限;② 研究所用数据的时间和位置基本是网络用户发布信息的时间和位置,与灾害实际发生的时间和位置往往不一致。因此,亟需研究一种更普适性的,基于文本上下文的气象灾害时空事件自动抽取方法。
目前随着自然语言处理技术的发展,尤其是深度学习的出现,信息抽取和分类方法取得了很大的进步[6]。信息抽取与分类已从浅层模型发展到深层学习模型[7]。浅层学习模型主要包括TF-IDF[8]、N-gram[9]、LDA[10]等。深层学习模型采用端到端的学习框架,通过多隐层神经网络自动学习数据特征表示,主要方法包括TextCNN[11]、Char-CNN[12]等卷积神经网络特征提取模型,TextRNN[13]、R-CNN[14]等上下文机制模型以及BERT[15]、HAN[16]等注意力模型。根据有无标注训练语料,信息抽取与分类技术可分为无监督和监督两种分类方法。其中,无监督分类方法不需人工标注语料,但是存在着模型解释性差、后期处理困难等问题;监督分类方法相对可控,结果可解释性强,精度也相对高,但需要大量标注语料。语料标注多采用人工标注和人机结合方法,先由领域专家制定标准,再由经过简单培训的人员执行具体的标注工作。一般而言,大规模的高精度语料库构建成本较高,难度大。
目前,气象灾害领域未见有大规模的标注语料训练库,但经多年来灾害部门机构和学者的努力,在历史及近现代气象灾害记录的收集、整理和分类方面做了大量工作,出版了大量的气象灾害专业文献书籍资料,为自动构建气象灾害标注语料训练库奠定了基础。由于研究区域、领域及用途的不同,这些文献资料在灾害事件术语、分类体系、信息粒度等方面存在差异。因此,本文首先针对文献资料构建统一的气象灾害知识体系,其次抽取文献资料的章节结构,并利用Labeled LDA模型、TF-IDF和N-gram模型快速构建具有较高精度的大规模标注语料训练库,然后基于BERT-CNN构建支持长短文本一体化处理的气象灾害时空事件自动分类模型,最后利用该技术从文言文和泛在网络数据中自动抽取时空事件,并重建了中国历史气象灾害时空过程。

2 数据来源与技术路线

2.1 数据来源

本文所使用数据主要来源于《中国气象灾害大典》[17]地方卷(以下简称《大典》)、《中国三千年气象记录总集》[18](以下简称《总集》)和泛在网络数据(表1)。
表1 数据来源

Tab. 1 Data sources

数据来源 时间范围 文字类型 用途
《大典》 31卷地方卷 1804 BC—2000 AD 文言文、现代文 训练集和测试集
《总集》 4卷丛书 1300 BC—1911 AD 文言文 验证集
泛在网络数据 省市应急管理门户网站、政务微博、知网报刊、论坛 2000 AD—至今 现代文 验证集
《大典》和《总集》通过数字扫描、OCR识别、人工校对等处理,形成数字化文本。作为第一部全面反映中国气象灾害史的大型资料性工具书,《大典》共31卷,按省份分灾种汇编而成,本文基于《大典》构建了标注语料训练库。《总集》按时序汇编了历史文献中的灾害记录,但未对之进行分类,故将其作为验证集。泛在网络数据通过网络爬虫获取,并利用基于DOM节点的贡献度累加模型抽取了网页正文内容,构建了网络正文数据库,总量已达3551万条。不同来源的泛在网络数据之间质量存在较大差异。其中,省市地应急管理门户网站数据质量较高,以政府通告为主;政务微博覆盖了国内大多数省市县政府,包括政府通告以及灾情、救援和社会动态等信息,但数据重复率高;网络论坛关于气象灾害的数据较少,主要为网民关于灾情的讨论;知网报刊数据库覆盖除新疆以外的其他省市,侧重于事件的报道以及社会响应的信息,但受限于知识版权,数据获取存在一定困难。与《大典》数据相比,泛在网络数据还包含了大量与灾害事件非直接相关或完全无关的信息,例如政务活动、灾害管理、培训和预报等,这些信息都应作为噪音过滤掉。

2.2 技术路线

文本气象灾害时空事件自动抽取方法的技术路线如图1所示,首先利用专业文献构建由粗到精的气象灾害标注语料训练库,然后基于BERT-CNN模型研发面向长短文本一体处理的气象灾害时空事件自动分类方法,包括以下方面:① 为解决不同专业文献中存在的歧义和不兼容问题,构建面向文本事件统一的气象灾害知识体系;② 抽取出文献的章节结构,利用章节结构对事件自动标注并抽取特征词,构建灾种与特征词之间的映射关系,形成粗标注语料训练库;③ 针对长文本,构建了基于Labeled LDA模型的标注语料筛选方法,通过主题分布概率向量进行K均值聚类,以增强标注结果的可信度;④ 针对短文本,研发了基于TF-IDF和N-gram模型的特征词抽取方法,实现了短文本的标注语料筛选方法;⑤ 综合上述语料筛选结果,形成了覆盖长短文本的较高精度标注语料训练库;⑥ 最后基于BERT-CNN模型构建了面向长短文本一体处理的气象灾害时空事件自动分类方法,实现长短文本灾种的自动抽取。本文利用该技术从文言文和泛在网络数据自动抽取了时空事件,重建了中国历史气象灾害时空过程。
图1 技术路线

Fig. 1 Technical Scheme

3 灾害时空事件分类模型构建方法

3.1 基于专业文献的气象灾害标注语料训练库构建方法

3.1.1 文本气象灾害知识体系构建方法

不同专业文献气象灾害划分体系、覆盖区域、知识粒度和实体名等方面存在差异。例如《灾害性气象事件影响预评估理论与方法》[19]将气象灾害划分成天气、气候灾害和气象次生、衍生灾害2个大类26个小类;《自然灾害分类与代码》[20]包含13个类别,并给出了每个类别的详细定义;郭进修根据灾害特征将气象灾害分成7大类20小类[21]。其中《灾害性气象事件影响预评估理论与方法》[19]覆盖灾种最广;《自然灾害分类与代码》[20]描述最详细,可扩展性最强;郭进修分类体系的知识粒度最细。
本文以《自然灾害分类与代码》[20]为基础,构建了面向文本事件统一的气象灾害知识体系(图2),包括天气、气候灾害和次生、衍生灾害2个大类,天气、气候灾害中进一步划分为20个小类。另外,次生、衍生灾害涵盖郭进修所指出的直接危害和次生灾害,包括滑坡灾害、疫病灾害、泥石流灾害等7种灾害。
图2 气象灾害知识体系

Fig. 2 Meteorological disasters knowledge system

3.1.2 基于文献章节结构的粗分类方法

《大典》按灾种分类汇编了历年灾害事件记录,其章节标题中多数含有描述灾种的特征词,例如“第二章暴雨与洪涝灾害”中的“暴雨”和“洪涝灾害”,正文内容一般会围绕相应灾害展开。因此,可以利用章节标题的特征词直接建立粗标注。表2为从《大典》的章节结构抽取的灾害特征词集合。
表2 各灾种的特征词

Tab. 2 Mapping table of disaster types based on feature words

灾种 特征词 灾种 特征词
低温冷害 冷害、五月寒、寒露风、倒春寒、低温阴雨、低温冷害 连阴雨灾害 连阴雨、梅雨、秋棉雨、霪雨
霜冻灾害 霜、霜灾、霜害、霜冻 沙尘暴灾害 沙尘暴
寒潮灾害 寒潮、寒害 雷电灾害 雷电、雷暴、雷击
冰雹灾害 雹、冰雹、雹灾、雹害 大雾灾害 雾、大雾、雾灾、浓雾、海雾、雾害
雪灾 大雪、雪灾、雪、暴雪 高温灾害 高温、热害、高温酷暑、酷热
冻害 冻害、冻灾 干旱灾害 旱、干旱、旱灾
大风灾害 大风、风灾、海上强风 崩塌灾害 崩塌
干热风灾害 干热风、干旱风、高温逼熟 滑坡灾害 滑坡
龙卷风灾害 龙卷风、龙卷 泥石流灾害 泥石流
台风灾害 台风、飓风 风暴潮灾害 风暴潮、海潮
雨凇灾害 雨凇、冰凌、冻雨 植物病虫害 病虫害、病虫灾害、作物病虫害
洪涝灾害 洪涝、水灾、洪水、雨涝、涝 森林草原火灾 森林火灾、草原火灾、火灾
暴雨灾害 暴雨、黑雨、大雨 蝗灾* 蝗、蝗灾、蝗虫

注:蝗灾*为古代多发灾害,具有重要的研究意义。因此本文将其从病虫害中单独列出。

基于章节结构的语料自动标注方法包括以下3步:① 构建章节结构正则表达模板,提取章节结构,并按章节切分正文,形成层次性树状文档片段结构;② 用特征词进行文档片段自动标注,子节点自动继承父节点的标注结果;③ 以频次最高的灾种作为文档片段的标注。图3为标注过程示例(《大典》山东卷第二章)。
图3 自动标注方法结果

Fig. 3 Results graph of automatic labelling method

本文使用了TextNet时空智能技术从文档片段中抽取出时空事件[22-24]。该技术基于文本上下文实现了时空实体识别和链接,并根据时空场景将文本切割为时空场景颗粒事件(图4)。利用TextNet时空智能技术,本文从《大典》中共抽取385 380条时空事件。
图4 时空事件解析结果

Fig. 4 Result of spatial and temporal events

时空事件自动继承文档片段的标注结果。单灾种事件有180 196条;多灾种事件有205 184条。时空事件的灾害分布不均衡,存在高频灾害和低频次灾害,例如干旱灾害有69 597条,高温灾害仅有135条。

3.1.3 基于Labeled LDA模型的长文本语料筛选方法

Labeled LDA是一种监督主题模型,主要用于对有标签的文档进行建模[25-26]。本文引入该方法对单灾害标注长文本事件进行语料筛选。按灾种随机挑选了各1000条时空事件作为验证集。因《大典》数据中长文本(现代文)和短文本(文言文)数据量不均衡,长文本事件和短文本事件比率为4:1。筛选方法如下:
(1)首先各灾种随机取样240条数据作为训练集(不足240条数据则选取所有数据,设灾种数为M=26),并进行Labeled LDA模型训练。
(2)根据模型结果中的主题概率向量的分布,调整时空事件的灾害分类。灾害分类调整方法如下:利用K均值聚类算法对主题概率向量进行4分类,分别是a(最大簇)、b(次大簇)、c(次小簇)和d(最小簇)。若 d i s t a n c e a - j > 1 M j b , c , d,则将a包含的灾种作为该时空事件的灾种;若 d i s t a n c e a - b < 1 M d i s t a n c e a - b < d i s t a n c e c - d,则将ab包含的灾种作为该时空事件的灾种;若 d i s t a n c e i - j < 1 M i , j a , b , c , d i j或不能划分成4类,则认为该时空事件不属于任何灾种,丢弃该时空事件。
(3)根据(1)和(2)方法处理训练语料中的时空事件,然后迭代更新训练语料库。迭代过程如下:首先将不足240条的灾种进行补全;其次剔除无效类型的时空事件,同时补充新的语料;然后对大于240条的灾种,删除多余的时空事件,以保证语料分布的均匀性;最后在此基础上进行迭代训练优化,直到模型的精度提升不超过0.1%。
时空事件内容除了灾害描述信息外,还存在多个主题同时出现的共性信息,如损失描述等。为剔除共性信息,本文采取了如下方法:① 抽取各灾种的主题词(50个主题词/灾种)及概率分布,使用K均值聚类算法进行二分类,以大概率类的最小概率作为概率阈值P;② 将各灾种中与损失描述有关且概率大于P的主题词合并,得到损失词表;③ 将损失词表中的词语加入到停用词表中,生成不含损失的新语料;④ 剔除损失描述后,重新训练模型作为长文本的精分类模型。实验结果发现以单灾种、迭代优化和剔除损失信息为语料构建的Labeled LDA模型的宏F1值分别达64.96%、76.68%和80.95%,即迭代优化和剔除损失信息可以明显提升模型精度。

3.1.4 基于TF-IDF和N-gram模型的短文本语料筛选方法

Labeled LDA模型比较适宜于处理长文本,短文本的处理能力急剧下降。《大典》中古代部分为摘录的文言文记录,时空事件内容平均长度为8.2,Labeled LDA模型已不适用。为此,本文引入N-gram和TF-IDF模型[27-28],构建了短文本语料筛选技术。主要处理流程如下:① 对单灾害事件内容进行分词和去停用词处理,转化为词列表,作为训练数据; ② 针对每条语料,按照一定规则生成N-gram数据(N=1,2,3。当N=1时,仅提取名词单词;当N >1时,首词为名词、动词或形容词,且尾词为名词。);③ 每条语料逐词串计算TF-IDF值,然后逐词串按灾种累加TF-IDF值计和。选取TF-IDF累加值最大的8个词串作为该灾种的特征词集合。
为排除短文本中损失等共性信息,本文按灾种挑选TF-IDF累加值最大的前30个词串(共26种灾害,780个片段),并合并相同片段(TF-IDF值进行加和处理),然后跨灾种加和相同词串的TF-IDF值。通过上述操作,凸显出损失等共性词串的分布,并由人工方式,筛选出与灾种非直接相关的共性特征词。最后从语料中剔除共性特征词并重新训练,以TF-IDF累加值最大的前8个词串作为相应灾种的特征词(表3)。实验结果发现以单灾种、迭代优化和剔除损失信息为语料构建的TF-IDF和 N-gram模型的宏F1值分别达68.28%、77.29%和80.03%,即迭代优化和剔除损失信息也可以明显提升短文本模型精度。
表3 文言文特征词

Tab. 3 Feature words of literary texts

灾种 Top1 Top2 Top3 Top4 Top5 Top6 Top7 Top8
低温冷害 阴雨 冷害 春寒 寒露风 低温阴雨 寒雨 二月寒 倒春寒
霜冻灾害 陨霜 杀禾 严霜 杀麦 黑霜 大霜 霜冻
寒潮灾害 大寒 严寒 大雪 奇寒 横寒 冻死
冰雹灾害 雨雹 大雨雹 雹灾 大如鸡卵 风雹 大雹 降雹
雪灾 大雪 雨雪 大雨雪 大风雪 冰雪 大寒 飞雪
冻害 冻死 大寒 冰冻 大雪 受冻 冻坏
大风灾害 大风 拔木 大风雨 风雨 烈风 黑风 风雹 大风雪
干热风灾害 干热风 列风 热风 旱风 连日烈风 火风 风如火 风热如火
龙卷风灾害 龙卷 龙起 有龙 龙见 龙降 旋风 龙现
台风灾害 飓风 台风 大飓 飓作 飓风拔木 飓风大作 飓发
雨凇灾害 雨木冰 木冰 冰凌 雨凇 冬木冰 木有冰 凌光 树凝
洪涝灾害 大水 水灾 漂没 淹没
暴雨灾害 大雨 雨雹 大雨雹 暴雨 风雨 雷雨 雨雪 骤雨
连阴雨灾害 霪雨 淫雨 霖雨 阴雨 久雨 连雨 雨连绵 恒雨
沙尘暴灾害 昼晦 风霾 黑风 黄风 雨土 雨沙 雨黄沙 雨黄土
雷电灾害 雷电 雷雨 雷雹 雷震 雷击 大雷 震雷
大雾灾害 大雾 黄雾 黑雾 昏雾 雨雾 阴雾 昼雾
高温灾害 酷热 大热 酷热 炎热 高温 大暑
干旱灾害 大旱 夏旱 旱灾 旱蝗 赤地千里 水旱 亢旱
崩塌灾害 山崩 崩裂 崩塌 山裂 石崩 岩崩
滑坡灾害 滑坡 山催 崖摧 走山 地陷 土溜 地滑 跨山
泥石流灾害 泥石 泥石流 冲压 泥沙 蛟患 奔沙 木石随下 石决
风暴潮灾害 海溢 海潮 风潮 海侵 大海潮 潮溢 潮涌
植物病虫害 虫灾 虫害 有虫 虫食 黑虫 青虫
草原森林火灾 大火 火光 延烧 雷火 有火 起火
蝗灾 飞蝗 旱蝗 蝗蝻 蝗蔽天 大蝗 夏蝗 蝗灾
通过基于Labeled LDA模型、TF-IDF和N-gram模型的语料过滤方法,本文形成了覆盖长短文的较高精度的标注训练语料库,该语料库共包含221 426条的灾害时空事件。

3.2 基于BERT-CNN模型的气象灾害时空事件自动分类方法

标准BERT模型要求字符串长度不超过512字。短文本时空事件长度一般在50字以下(句子级),长文本事件长度多数少于500字(篇章级)。因此本文引入BERT来构建面向长短文本的一体化处理的灾害分类模型。由于BERT模型Encoder层“越浅越能表征低级别语义特征,越深越能表征复杂的语义特征”的特点,其对局部语义特征的表征能力相对较弱[29],而CNN模型局部多粒度语义特征的表征能力相对较强[30],因此本文首先利用BERT模型对语料进行表征,其次选取BERT模型中各个Encoder层中的首个token向量(cls向量)进行拼接,作为CNN模型的输入,再次使用不同大小的卷积核提取多粒度的局部语义特征,最后连接全连接层进行分类(图5)。其中BERT模型部分选用bert-base-chinese预训练模型,CNN模型部分选用大小为2、3、4卷积核。同时训练过程中引入了随机失活(dropout)和提前停止(early stopping)策略以减少模型过拟合的风险,另外引入了预热学习率(Warmup)策略以提高模型的收敛速度。实验基于Python 3.7和PyTorch 1.4.0框架,使用2个GPU(NVIDIA Tesla V100,16 GB)并行训练。具体参数设置如表4所示。
图5 BERT-CNN模型结构

Fig. 5 BERT-CNN model structure

表4 BERT-CNN模型参数设置

Tab. 4 BERT-CNN model parameter setting

参数 参数值
epoch 20
batch size 32
learning rate 1e-5
max sequence length 256
activation function AdamW
dropout 0.3
num filters 256
num classes 3
embedding 768
本文在较高精度的训练语料库基础上,将前文标注的26 000条(1000条/灾种)时空事件作为验证集。同时增加随机挑选的20 000条非灾害时空事件和余下数据共215 426条时空事件作为训练集。本文通过2组实验,对标准BERT模型和BERT-CNN模型进行了精度对比。实验结果发现BERT-CNN模型的宏F1值达87.56%,标准BERT模型的宏F1值达86.79%,前者略高于后者,即前者分类效果更佳。
同时,BERT-CNN模型宏F1值比Labeled LDA模型及N-gram和TF-IDF模型宏F1值分别高6.61%和7.53%。但由于训练语料分布不均衡以及某些灾害的可区分度不足,导致该模型不同灾种的分类差异较大。其中冰雹灾害、台风灾害、干热风灾害和蝗灾F1值大于95%,但寒潮灾害、低温冷害和冻害等灾害识别精度较低(图6)。
图6 基于BERT-CNN模型中各灾种精度

Fig. 6 Accuracy graphs for each disaster type based on the BERT-CNN model

4 《总集》及泛在网络数据时空事件自动抽取及结果分析

利用以上方法对《总集》和泛在网络数据进行了时空事件分类的自动抽取,并按各灾种随机挑选500条时空事件样本,对分类结果进行了人工抽样检查。

4.1 《总集》气象灾害时空事件自动抽取

《总集》共抽取出125 446条时空事件,其中有93 972条灾害时空事件,识别率为74.91%。其中洪涝灾害、干旱灾害、暴雨灾害时空事件最多,分别为31 987、25 718和16 589条。未识别出灾种的事件多为疫病、饥荒等非气象灾害。少数是因地名缺失和地名歧义导致的,如“夏,大旱”、“京师”和“城”、“河”等。《总集》宏F1值为89.09%,其中蝗灾、干热风灾害F1值大于95%(图7)。
图7 《总集》中各灾种精度

Fig. 7 Accuracy graphs of each disaster type in the General Collection

本文统计了1849年长江中下游地区的洪涝灾害时空事件共198条,该结果与张向萍等[31]一致,但空间存在差异,相关性为0.934(P<0.01)。本文按县域统计了明清时期的水旱灾害发生频次,分别为29 035、23 474县次,其中水旱灾的年最大值出现于1823年和1640年,频次分别达230和303县次。该结果与张琨佳等[32]学者发现的水旱灾害年最大值出现的年份一致,频次数值基本吻合。按照分省统计,二者水旱灾相关性分别为0.987(P<0.01)和0.988(P<0.01)。

4.2 泛在网络数据气象灾害时空事件自动抽取

现代灾害数据大量蕴含于灾害管理部门网站、新闻网站、微博及论坛等网络媒体中。本文利用爬虫技术从上述网站中抓取了3551万多条网页,获得了近1.5亿条时空事件,并随机抽取2000条时空事件对分类结果进行了人工抽样检查,准确率为54.61%。其中9.8%问题数据为与灾害有关的管理、培训、救援和预报事件等,另外有24.6%完全与灾害无关的。为此,本文将基于BERT-CNN模型构建了一种阈值逐渐降低的筛选方法,并设置初始阈值P1、P2分别为0.9和0.1,具体如下:①获取每条语料的概率分布,将大于阈值P1自动分为灾害类别,反之,小于阈值P2分为非灾害类别;② 每次迭代 P1=P1-0.05,P2=P2+0.05,并辅以人工方式对错分的时空事件进行挑选,将其放入非灾害类别;③ 重复①和②直到P1=0.6,P2=0.4,则认为已经对非灾害数据进行过滤。在此基础上,使用本文方法对泛在网络数据进行自动抽取,其中雾灾、蝗灾和冰雹灾害F1值大于90%,台风灾害、干旱灾害和暴雨灾害等11种灾害F1值大于80%。但冻害、崩塌灾害、低温冷害等F1值较低,导致模型的宏F1值降至80.06%(图8)。综合考虑《总集》的分类结果,本文认为雾灾、蝗灾、冰雹灾害、台风灾害等14种灾种是可信的分类结果。
图8 泛在网络数据中各灾种精度

Fig. 8 Accuracy graphs of each disaster type in ubiquitous network data

泛在网络数据由于来源广,交叉引用多,因此内容重复率较高,例如郑州“7·20”特大暴雨灾害时空事件高达368条。为此,本文研发了基于时空的事件融合方法,该方法按一定的邻近时空范围合并同灾种时空事件,仅保留时间和地点范围最精确的时空事件,最后构建了泛在灾害时空事件库。本文发现2015—2020年共发生2103条泥石流灾害时空事件和23 290条滑坡灾害时空事件。虽然总数均少于国家统计局发布的数据,泥石流灾害时空事件和滑坡灾害时空事件分别占比达62.61%和77.51%,但数据时序分布相关性分别达0.98(P<0.01)和0.829(P<0.05)。

5 基于时空事件的中国历史气象灾害过程分析

本文基于《大典》、《总集》和泛在网络数据所抽取出的灾害时空事件重建了中国历史气象时空过程,将其演变历程分成4个阶段(图9)。因篇幅问题,空间演变暂不做讨论。
图9 中国气象灾害频次

Fig. 9 Map of the frequency of meteorological disasters in China

第一阶段为1368年以前。该阶段文献记载相对较少,气象灾害频次共计16 009条,仅占比全部历史时期灾害总频次的1.83%。该阶段灾害时空事件呈多峰分布,时间周期约为171年,在1331年左右到达顶峰。其中,干旱灾害、洪涝灾害、暴雨灾害和蝗灾事件最多,分别为3862、3291、1896和1640条。
第二阶段为1368—1911年。该阶段气象灾害时空事件比第一阶段显著增多,达125 987条,占比为14.38%,时间周期约为181年,呈现2个大阶段,包括1640—1680年和1832—1876年。主要灾种为暴雨灾害、干旱灾害、洪涝灾害、蝗灾灾害、冰雹灾害和大风灾害,分别达31 623、25 308、16 289、8033、7017、6921条。其中暴雨灾害与冰雹灾害时序分布相关性达0.865(P<0.05)。
第三阶段为1912—1999年。因国家灾害管理体系的建立,已形成了专业化的灾害监测机制,灾害时空事件收集手段日趋成熟,该阶段所获取的灾害数据日趋丰富,总量为241 560条,占比为27.58%。该阶段灾害周期约为29年,主要灾种包括暴雨灾害、冰雹灾害、洪涝灾害、干旱灾害和大风灾害,分别达33 455、30 358、28 846、21 741和17 456条。其中,暴雨灾害与冰雹灾害、洪涝灾害呈现相关性,时序分布相关性分别为0.945(P<0.01)和0.938(P<0.01);寒潮灾害、雪灾和冰雹灾害的时序分布相关性为0.916(P<0.01)和0.915(P<0.01)。
第四阶段为2000年至今。因互联网技术的推动,该阶段气象灾害数据呈爆发式发展,气象灾害时空事件达492 407条,占比为56.21%。该阶段灾害周期约为4.2年,主要灾种包括暴雨灾害、洪涝灾害、干旱灾害、滑坡灾害和雪灾,分别达82 826、54 832、32 757、29 648和28 967条。其中暴雨灾害与冰雹灾害、洪涝灾害和大风灾害时序分布相关性分别为0.967(P<0.01)、0.958(P<0.01)和0.978(P<0.01),寒潮灾害与雪灾、冰雹灾害时序分布相关性分别达0.994(P<0.01)和0.938(P<0.01)。
总之,我国各时期的灾害数据量整体呈现出逐步上升趋势,暴雨灾害、洪涝灾害与干旱灾害是影响我国的主要灾种。其中蝗灾在1949年前发生频次较高,1949年至今发生频次快速下降,这是蝗灾治理体系完善、防治技术升级等因素的综合作用的结果[33]

6 结论

应对不同气候情境下的灾害防治,需要从长时间尺度综合考察气象灾害演变及人类社会对灾害的应对以寻求最优解决方案。首要任务是重构长时期的灾害时空演变过程。而灾害演变和人类对灾害的应对往往记录在海量文献资料和泛在网络数据中。因此研究基于自然语言理解技术的灾害时空事件自动抽取技术具有重要的意义。为此,本文研发了文本气象灾害时空事件自动抽取方法,进行了以下工作:
(1)针对不同气象灾害文献资料存在的歧义和不兼容等问题,构建了面向文本事件统一的气象灾害知识体系,覆盖了26种气象灾害。
(2)利用《大典》构建了基于章节结构的粗标注方法,分别针对长文本(现代文)和短文本(文言文)研发了基于Labeled LDA模型及基于TF-IDF和N-gram模型的精细标注语料筛选方法,在无需人工标注情况下仅需半天即可实现大规模、较高精度的标注语料训练库的构建。
(3)基于BERT-CNN模型研发了融合上下文语义特征和多粒度的局部语义特征的、面向长短文本一体化处理的气象灾害时空事件自动分类方法。其宏F1值达87.56%,比标准BERT模型高0.77%,取得了更优的分类效果。
(4)利用该技术实现了《总集》和泛在网络数据灾害时空事件的自动抽取,随机抽样结果的宏F1值分别达到89.09%和80.06%,主要气象灾害时空事件时序分布与国家统计数据相关性较高。
(5)基于《大典》、《总集》和泛在网络数据3种数据,重建了我国各历史时期灾害时空演变过程。发现各时期灾害数据量整体呈现出逐步上升趋势,暴雨灾害、洪涝灾害与干旱灾害是影响我国的主要灾种。
(6)利用本文成果,可以实现网络长文本事件的自动发现,也可用于文言文短文本事件的自动检测,为文本数据应用于气象灾害研究和监测提供了新的技术方法。
本文可以在以下3个方面进一步改善:
(1)部分灾种分类结果不理想。后续计划引入其他数据集,使用对抗学习、强化学习等方法提升模型的性能。
(2)本文主要实现了对气象灾害时空事件时间、位置和类型信息的抽取,但并未深入分析各种灾害时空事件之间的关联关系。后续将基于时空关联进行事件链构建及灾害时空动力学分析。
(3)泛在网络数据灾害时空事件准确性还待进一步提高,后续将融合其他非灾害领域知识,构建相对完整的知识体系,减少因数据分布不均衡导致的问题。另外将形成泛在网络数据业务化获取能力,持续获取灾害数据,以构建持续的、实时更新的气象灾害时空数据库。
[1]
Intergovernmental Panel on Climate Change. Climate Change 2013 The Physical Science Basis Working Group I Contribution to the Fifth Assessment Report of the Intergovernmental Panel on Climate Change[M]. Cambridge: Cambridge University Press, 2014.

[2]
WMO. The atlas of mortality and economic losses from weather, Climate and Water Extremes (1970-2019)[ED/OL]. 2021. https://reliefweb.int/report/world/atlas-mortality-and-economic-losses-weather-climate-and-water-extremes-1970-2019.

[3]
韩雪华, 王卷乐, 卜坤, 等. 基于Web文本的灾害事件信息获取进展[J]. 地球信息科学学报, 2018, 20(8):1037-1046.

DOI

[ Han X H, Wang J L, Bu K, et al. Progress in information acquisition of disaster events from web texts[J]. Journal of Geo-information Science, 2018, 20(8):1037-1046.] DOI:10.12082/dqxxkx.2018.180094

DOI

[4]
白华, 林勋国. 基于中文短文本分类的社交媒体灾害事件检测系统研究[J]. 灾害学, 2016, 31(2):19-23.

[ Bai H, Lin X G. Sina weibo disaster information detection based on Chinese short text classification[J]. Journal of Catastrophology, 2016, 31(2):19-23. ] DOI:10.3969/j.issn.1000-811X.2016.02.005

DOI

[5]
杨腾飞, 解吉波, 李振宇, 等. 微博中蕴含台风灾害损失信息识别和分类方法[J]. 地球信息科学学报, 2018, 20(7):906-917.

DOI

[ Yang T F, Xie J B, Li Z Y, et al. A method of typhoon disaster loss identification and classification using micro-blog information[J]. Journal of Geo-information Science, 2018, 20(7):906-917. ] DOI:10.12082/dqxxkx.2018.180062

DOI

[6]
Hirschberg J, Manning C. Advances in natural language processing[J]. Science, 2015, 349(6245):261-266. DOI:10.1126/science.aaa8685

DOI PMID

[7]
Plebe A, Grasso G. The unbearable shallow understanding of deep learning[J]. Minds and Machines, 2019, 29(4):515-553. DOI:10.1007/s11023-019-09512-8

DOI

[8]
Zhang W, Yoshida T, Tang X J. A comparative study of TF*IDF, LSI and multi-words for text classification[J]. Expert Systems With Applications, 2011, 38(3):2758-2765. DOI:10.1016/j.eswa.2010.08.066

DOI

[9]
Brown P F, Della Pietra V J, de Souza P V, et al. Class-based n-gram models of natural language[J]. Computational Linguistics, 1992, 18(4):467-479.

[10]
Jelodar H, Wang Y L, Yuan C, et al. Latent Dirichlet allocation (LDA) and topic modeling: Models, applications, a survey[J]. Multimedia Tools and Applications, 2019, 78(11):15169-15211. DOI:10.1007/s11042-018-6894-4

DOI

[11]
Kadhim A I. Survey on supervised machine learning techniques for automatic text classification[J]. Artificial Intelligence Review, 2019, 52(1):273-292. DOI:10.1007/s10462-018-09677-1

DOI

[12]
Zhang X, Zhao J, Lecun Y. Character-level convolutional networks for text classification[C]//Proceedings of the 28th International Conference on Neural Information Processing Systems(NIPS), Canada, 2015:649-657. DOI:10.5555/2969239.2969312

DOI

[13]
朱立平, 张紫玄, 邓三鸿, 等. 多层次文本分类法的模型构建及实验分析——以进出口商品归类问题为例[J]. 情报科学, 2021, 39(10):178-184.

[ Zhu L P, Zhang Z X, Deng S H, et al. A study on model construction and experimental analysis of multi-level text classification: A case study of import and export commodity classification[J]. Information Science, 2021, 39(10):178-184. ] DOI:10.13833/j.issn.1007-7634.2021.10.025

DOI

[14]
Lai S, Xu L, Liu K, et al. Recurrent convolutional neural networks for text classification[C]//Twenty-Ninth AAAI Conference on Artificial Intelligence, USA: AAAI Publications, 2015:2267-2273. DOI:10.5555/2886521.2886636

DOI

[15]
Cai L K, Song Y, Liu T, et al. A hybrid BERT model that incorporates label semantics via adjustive attention for multi-label text classification[J]. IEEE Access, 2020, 8:152183-152192. DOI:10.1109/ACCESS.2020.3017382

DOI

[16]
Yang Z C, Yang D Y, Dyer C, et al. Hierarchical attention networks for document classification[C]//Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. Stroudsburg, PA, USA: Association for Computational Linguistics, 2016:1480-1489. DOI:10.18653/v1/n16-1174

DOI

[17]
温克刚. 中国气象灾害大典[M]. 北京: 气象出版社, 2008.

[ Wen K G. China meteorological disaster calamity thesaurus[M]. Beijing: China Meteorological Press, 2008. ]

[18]
张德二. 中国三千年气象记录总集[M]. 南京: 江苏教育出版社, 2013.

[ Zhang D E. Total records of meteorology in China in recent 3000 years[M]. Nanjing: Jiangsu Education Publishing House, 2013. ]

[19]
黄全义, 钟少波, 张超, 等. 灾害性气象事件影响预评估理论与方法[M]. 北京: 科学出版社, 2017.

[ Huang Q Y, Zhong S B, Zhang C, et al. Research scheme on pre-assessment theory and method for influences of disastrous meteorological events[M]. Beijing: Science Press, 2017. ]

[20]
张宝军, 马玉玲, 李仪. 我国自然灾害分类的标准化[J]. 自然灾害学报, 2013, 22(5):8-12.

[ Zhang B J, Ma Y L, Li Y. Standardization of natural disaster classification in china[J]. Journal of Natural Disasters, 2013, 22(5):8-12.] DOI:10.13577/j.jnd.2013.0502

DOI

[21]
郭进修, 李泽椿. 我国气象灾害的分类与防灾减灾对策[J]. 灾害学, 2005, 20(4):106-110.

[ Guo J X, Li Z C. Classification of meteorological disasters and strategies for hazard prevention and reduction in China[J]. Journal of Catastrophology, 2005, 20(4):106-110.] DOI:10.3969/j.issn.1000-811X.2005.04.023.

DOI

[22]
北京理工大学计算机学院.袁武[EB/OL]. 2021. https://cs.bit.edu.cn/szdw/jsml/fjs/cyf_20181010083235900491/index.htm.

[School of Computer Science, Beijing University of Technology, Yuan Wu[EB/OL]. 2021. https://cs.bit.edu.cn/szdw/jsml/fjs/cyf_20181010083235900491/index.htm. ]

[23]
袁武, 袁文. 一种基于迭代的三步式无监督中文分词方法: CN108062305B[P]. 2021-12-17.

[ Yuan W, Yuan W. Iteration-based three-step unsupervised Chinese word segmentation method: CN108062305B[P]. 2021-12-17. ]

[24]
Yuan W, Zhuang D F, Yuan W, et al. Equal arc ratio projection and a new spherical triangle quadtree model[J]. International Journal of Geographical Information Science, 2010, 24(11):1703-1723. DOI:10.1080/13658811003619168.

DOI

[25]
Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing Volume 1 - EMNLP '09. Morristown, NJ, USA: Association for Computational Linguistics, 2009:10.5555/1699510.1699543. DOI:10.3115/1699510.1699543

DOI

[26]
李萌, 袁文, 袁武, 等. 基于新闻大数据的北极地区地缘关系研究[J]. 地理学报, 2021, 76(5):1090-1104.

DOI

[ Li M, Yuan W, Yuan W, et al. Big data analysis on geographical relationship of the Arctic based on news reports[J]. Acta Geographica Sinica, 2021, 76(5):1090-1104. ] DOI:10.11821/dlxb202105004

DOI

[27]
Zhang K. Web news data extraction technology based on text keywords[J]. Complexity, 2021, 2021:5529447. DOI:10.1155/2021/5529447

DOI

[28]
Zhu Z L, Liang J, Li D Y, et al. Hot topic detection based on a refined TF-IDF algorithm[J]. IEEE Access, 2019, 7:26996-27007. DOI:10.1109/ACCESS.2019.2893980

DOI

[29]
Cui Y R, Huang C B. A Chinese text classification method based on BERT and convolutional neural network[C]//2021 7th International Conference on Systems and Informatics (ICSAI). IEEE, 2021: 1-6. DOI:10.1109/ICSAI53574.2021.9664066

DOI

[30]
Neruda G A, Winarko E. Traffic event detection from twitter using a combination of CNN and BERT[C]//2021 International Conference on Advanced Computer Science and Information Systems (ICACSIS), IEEE, 2021:1-7. DOI:10.1109/ICACSIS53237.2021.9631334

DOI

[31]
张向萍, 叶瑜, 王辉. 从1849年长江中下游地区洪涝灾害记录谈整编方志资料的使用[J]. 古地理学报, 2011, 13(2):229-235.

[ Zhang X P, Ye Y, Wang H. Discussion on application of chorographic compilations from flood disaster records in Middle and Lower Reaches of the Yangtze River in 1849 2011, 13(2):229-235.] DOI:10.7605/gdlxb.2011.02.011

DOI

[32]
张琨佳, 杨帅, 苏筠. 明清时期我国水、旱灾害时空演变特点的对比分析[J]. 地球环境学报, 2014, 5(6):385-391.

[ Zhang K J, Yang S, Su Y. A comparison of spatial and temporal distribution of flood and drought in Ming and Qing Dynasty[J]. Journal of Earth Environment, 2014, 5(6):385-391.] DOI:10.7515/JEE201406004

DOI

[33]
张龙, 游银伟. 中国特色蝗灾治理技术体系及应用成效[J]. 植物保护学报, 2022, 49(1):118-124.

[ Zhang L, You Y W. Technical systems for locust and grasshopper management with Chinese features and their success in application[J]. Journal of Plant Protection, 2022, 49(1):118-124. ] DOI:10.13802/j.cnki.zwbhxb.2022.2022806

DOI

Outlines

/