A Method of Typhoon Disaster Loss Identification and Classification Using Micro-blog Information

  • YANG Tengfei , 1, 2 ,
  • XIE Jibo , 1, * ,
  • LI Zhenyu 3 ,
  • LI Guoqing 1
  • 1. Institute of Remote Sensing and Digital Earth Chinese Academy of Sciences, Beijing 100049, China
  • 2. University of Chinese Academy of Sciences, Beijing 100049, China
  • 3. Shandong University of Science and Technology, Qingdao 266000, China
*Corresponding author: XIE Jibo, E-mail:

Received date: 2018-01-18

  Request revised date: 2018-03-20

  Online published: 2018-07-13

Supported by

National Key Research and Development Program of China, No.2016YFE0122600; National Natural Science Foundation of China, No.41771476


《地球信息科学学报》编辑部 所有


Social media plays a more and more important role in the real-time disaster information distribution and dissemination. During the disaster event, social media usually generates and contains a lot of real-time disaster loss information, which is very useful for the timely disaster response and disaster loss assessment. However, the social media data has many shortcomings, such as high fragmentation of the information, sparsity of the text features, and the lack of annotated corpus and so on, which makes the traditional supervised learning method difficult to be effectively used for disaster information extraction. This paper proposed a fast disaster loss identification and classification method to extract the disaster information from social media data by extending the context features and matching feature words. By this method, we firstly extracted the keywords from a small amount of sample micro-blog text of different disaster loss categories based on Chinese grammar rules and constructed the pairs of feature words collocation. Then, we used the word vector model and the existing lexicon to supplement and expand these pairs of feature words collocation. And the external corpus was introduced to optimize the semantic collocation relationship between feature words according to the rules of the concurrence of Chinese words. At last, we built a classification knowledgebase for identification and classification of disaster loss information related to typhoon disasters included in micro-blog. An experiment system was developed to evaluate the method introduced in the paper. Typhoon "Meranti" landed on 15th September, 2016 was selected as a case study. Results show that this method has a significant effect (each comprehensive evaluation index of different categories is greater than 0.74) on identifying and classifying different categories of disaster loss information from social media. We mapped the spatio-temporal distribution of typhoon influence based on the classification results of disaster loss from social media. The experiment shows that the classification output data and maps could be used for the disaster loss evaluation and mitigation.

Cite this article

YANG Tengfei , XIE Jibo , LI Zhenyu , LI Guoqing . A Method of Typhoon Disaster Loss Identification and Classification Using Micro-blog Information[J]. Journal of Geo-information Science, 2018 , 20(7) : 906 -917 . DOI: 10.12082/dqxxkx.2018.180062

1 引言


2 研究方法

算法流程如图1所示,包括灾损分类知识库的构建和微博文本蕴含灾损事件信息的识别和分类2部分。具体步骤包括:① 基于训练语料构建规则模板,包括词法规则和否定词约束规则;② 利用词法规则抽取小规模不同灾损类别文本中的特征词搭配对作为种子词对,并利用词向量模型和《同义词词林》补充和扩展种子词对;③ 优化特征词,包括去除低频词和优化词语间搭配关系;④ 根据优化后的特征词对构建分类知识库;⑤ 对测试文本作断句处理,并根据词法规则抽取各个短句的候选特征词与分类知识库以及否定词表匹配,从而完成灾损事件信息抽取和分类。
Fig. 1 Algorithm flow

图1 算法流程

2.1 构建规则模板

2.1.1 词法规则
Tab. 1 Pattern of lexical rule

表1 词法规则模式

模式规则 文本样例
v-n 到处都是被打碎的玻璃
n-v 整个树被吹倒在地了
a-n 一地的碎窗玻璃
n-a 道路一直不畅通
d-vi 很快小区就不再供水了
v-vi 即将停止供电
r-v 看见他被树给砸了
v-r 树枝被风吹断刚好砸到他
vi 今天停电一天


2.1.2 否定词约束规则

2.2 特征词补充与扩展

2.2.1 基于词向量模型补充特征词
在自然语言处理领域,通常利用词向量模型计算词语间的距离,距离近的两个词相关度也高。常用的词向量模型包括CBOW和Skip-gram模型[27],它们是由Mikolov等[28]在神经网络语言模型NNLM(Neural Network Language Model)的基础上改进来的。文献[29]给出了CBOW和Skip-gram模型性能上的详细对比,结果表明Skip-gram模型总体效果要好于CBOW模型。因此,本文在计算词语间相关度上也采用Skip-gram模型。该模型结构包含输入层、投影层和输出层,其原理是通过当前词W(t)来预测该词所在的词组序列的上下文信息,模型结构如图2所示。
Fig. 2 The structure of Skip-gram model

图2 Skip-gram模型结构

G = log p ( Context ( w i ) | w i ) (1)
p Context w i | w i = p ( u | w i ) (2)
Tab. 2 An example of the computational results of the word vector model

表2 词向量模型计算结果示例

整棵 大树
应声 压垮
树枝 42棵
2.2.2 基于《同义词词林》扩展特征词
一种有效、直接的同义词扩展方法则是利用新版《同义词词林》,该部词林包含了77 492条词语,共分为12个大类,94个中类以及1428个小类,小类下按照同义词划分了词群,词群下包含原子词群,《同义词词林》的结构与用法可参见相关文献[30,31]。本文利用《同义词词林》在补充后的种子词对的基础上作原子词群级别的同义扩展。

2.3 特征词优化

2.3.1 低频词去除在中文短文本分类中,高频词对于分类有较大的促进作用,而低频词易增加短文本的噪声,降低分类效率[32]。本文以“2017年台风灾害社交媒体数据集”为语料库,匹配特征词词频低于4的所有词并予以去除。图3为低频词处理流程。
Fig. 3 Process of low frequency word processing

图3 低频词处理流程

2.3.2 词语搭配关系优化
二元组1 同现次数1
二元组2 同现次数2
… …
二元组N 同现次数N
Fig. 4 Optimization process of collocation relationship

图4 词语搭配关系优化流程

2.4 分类知识库构建

Tab. 3 An example of the structure of classified knowledge base

表3 分类知识库结构示例

1 2 3 4
符号举例 B a 01 w1/w2
符号性质 大类 小类 词群 原子词群
级别 第1级 第2级 第3级 第4级

2.5 灾损事件抽取与分类

(1) 按照标点“,”、“。”、“!”、“?”、“;”将待分类文本拆为短句集合D=[s1,s2,…]。
(2) 对每个短句文本分词和词性标注,按照词法规则抽取候选特征词搭配对,并记录特征词在短句中的位置,构建四元组s=[w1,w2,i, j],其中w1,w2表示按照词法规则抽取的特征词,ij表示特征词w1w2在短句文本中的位置下标。同时根据否定词表匹配该短句文本中是否存在否定词,若存在,记录否定词的位置下标k
(3) 将各四元组s中的特征词对“w1-w2”与分类知识库不同灾损类别下的特征词搭配对匹配,同时根据否定词约束规则比较特征词位置下标ij与否定词位置下标k的关系,从而判断该短句的灾损类别,以确定待分类微博文本的类别属性。

3 实验与分析

3.1 实验语料

Tab. 4 Distribution of different categories of corpus

表4 各类别语料分布

类别编号 灾损类别 数量/条
1 人员伤亡 34
2 供水影响 337
3 建筑物损伤 154
4 商业影响 63
5 林业影响 181
6 交通受阻 138
7 交通工具损坏 107
8 供电影响 402
9 电力设施受损 138
10 通讯影响 163
11 基础设施损坏 104
Fig. 5 Classification of disaster loss

图5 灾损信息类别划分

3.2 实验环境

本文基于Java语言研发了“台风灾害损失信息自动识别和分类系统”,用来作为算法测试平台,系统集成了对微博数据实时获取、处理、识别和分类等模块。其中系统的分词和词性标注功能调用 NLPIR 2015工具包(http://ictclas.nlpir.org/),Skip-gram模型基于谷歌的词向量模型框架Word2vec实现。各分类结果的评测标准采用准确率(P)、召回率(R)和F-1值(综合评价指标),3个指标的计算公式如式(3)-(5)所示。
p = 正确分类的灾损信息条数 对应灾损类别下信息识别的总条数 (3)
R = 正确分类的灾损信息条数 对应灾损类别下信息应有的总条数 (4)
F - 1 = 2 PR P + R (5)

3.3 实验结果与分析

Tab. 5 Comparison of experimental results

表5 实验结果对比

类别 评测结果
P/% R/% F-1值/%
第1类人员伤亡 68.00 89.47 77.27
第2类供水影响 87.32 95.48 91.22
第3类建筑物损伤 76.10 85.14 80.37
第4类商业影响 100.00 75.00 85.71
第5类林业影响 79.00 84.61 81.71
第6类交通受阻 78.74 87.71 82.98
第7类交通工具损坏 74.19 88.46 80.70
第8类供电影响 90.29 93.93 92.07
第9类电力设施损坏 78.54 70.53 74.32
第10类通讯影响 86.95 71.42 78.43
第11类基础设施受损 76.47 72.22 74.28
分类结果显示本文方法在准确率、召回率和 F-1值表现较好。与目前常见的短文本分类案例相比,本文涉及分类类别较多,不同类别间有一定的交叉重叠,且同一个短文本涉及多种类别标签,这一定程度上增加了分类难度[16]。同时,实验文本口语化严重、特征词复杂多样、语料信息不均衡等特点,也较大的限制了分类效果[33]。但从现有相关研究成果来看,基于社交媒体的短文本分类在不同背景下的分类效果差别较大,如文献[14]对微博文本中蕴含的地理事件进行提取和分类,并同传统的监督学习方法作了对比,综合评价指标提高了10%以上,但也只达到了71.41%。文献[34]人工标注了大规模分类语料训练SVM模型用于识别微博中的地震事件,虽然综合评价指标达到了89%,但其所涉及的类别单一,且粒度较粗,本文研究之初,也做过相关算法的尝试,效果并不理想。因此,综合来说,本文方法在当前背景下分类效果较好。
Fig. 6 Recall rates of various categories

图6 各类别召回率

Fig. 7 Precision rate of various categories

图7 各类别准确率

4 应用分析

Fig. 8 The variations of the quantity of “Sina-Weibo” with time

图8 微博量随时间变化关系图

Fig. 9 Real-time path of typhoon "Meranti"

图9 台风“莫兰蒂”实时路径图

Fig. 10 Geospaital distribution of the "traffic obstruction" information

图10 “交通受阻”信息空间分布

Fig. 11 Geospatial distribution of disaster loss in each time period

图11 各时间段灾损信息空间分布

Fig. 12 Overall geospatial distribution of disaster loss information

图12 灾损信息整体空间分布

5 结语


