地球信息科学理论与方法

基于语义规则和词向量的台风灾害网络情感分析方法

  • 林筱妍 , 1, 2 ,
  • 吴升 , 1, 2, 3, *
展开
  • 1.福州大学数字中国研究院(福建),福州 350003
  • 2.空间数据挖掘与信息共享教育部重点实验室,福州 350003
  • 3.政务大数据应用协同创新中心,福州 350003
* 吴升(1972— ),男,福建松溪人,博士,教授,主要从事时空数据分析与可视化、数字化规划、智慧应急等。E-mail:

林筱妍(1997— ),女,福建闽侯人,硕士生,主要从事灾害信息挖掘等研究。E-mail:

收稿日期: 2021-09-24

  修回日期: 2021-11-29

  网络出版日期: 2022-03-25

基金资助

福建省科技创新平台项目(〔2015〕75)

福建省科技创新平台项目(〔2017〕675)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Typhoon Disaster Network Emotion Analysis Method based on Semantic Rules and Word Vector

  • LIN Xiaoyan , 1, 2 ,
  • WU Sheng , 1, 2, 3, *
Expand
  • 1. Academy of Digital China (Fujian), Fuzhou University, Fuzhou 350003, China
  • 2. Key Laboratory of Spatial Data Mining and Information Sharing, Ministry of Education, Fuzhou 350003, China
  • 3. Fujian Collaborative Innovation Center for Big Data Applications in Governments, Fuzhou 350003, China
* WU Sheng, E-mail:

Received date: 2021-09-24

  Revised date: 2021-11-29

  Online published: 2022-03-25

Supported by

Fujian Science and Technology Innovation Platform Project(〔2015〕75)

Fujian Science and Technology Innovation Platform Project(〔2017〕675)

Copyright

Copyright reserved © 2022

摘要

灾害期间的舆情引导有助于维护社会稳定。社交媒体是舆论传播的重要渠道,通过微博评论了解用户的网络情感及关注的话题,可以帮助相关舆情监测部门掌握公众的关注热点,从而选择适当的干预节点来应对网络舆情,并对公众情绪进行疏导,这对于应急管理具有现实意义。现有的研究大多是利用有监督的机器学习方法进行情感分类,这需要人工进行语料的标注,工作量大。本文根据微博评论文本的特点,综合考虑情感词以及表情符号等多重情感源,构建了台风灾害领域情感词典。在此基础上,提出了一种基于情感词语义规则的情感倾向计算方法,以及基于词向量的话题聚类方法。首先,采集了近年5次台风灾害期间共计40多万条微博评论文本,基于大连理工情感词汇本体库进行扩展构建了台风灾害领域情感词典,结合PMI法构建表情符号词典,根据语义规则确定情感倾向,并使用3500条评论文本验证了该方法的有效性。然后,本文基于词向量、TF-IDF与K-means的聚类方法探索灾害期间热点话题。最后,以2020年4号台风“黑格比”为例,基于台风期间的5万余条微博评论文本进行了舆情情感分析,并识别出6类与台风相关的话题。通过时空分析发现,随着时间的推移,微博评论文本的数量发生一定变化,评论数量多的地区大都集中在沿海地区和经济水平高的地区,台风登陆当天浙江省的恐惧情感达到最高。结果表明,基于语义规则和词向量的台风灾害网络情感分析方法,能在类似灾害事件发生时为政府部门掌握和引导网络舆情提供辅助。

本文引用格式

林筱妍 , 吴升 . 基于语义规则和词向量的台风灾害网络情感分析方法[J]. 地球信息科学学报, 2022 , 24(1) : 114 -126 . DOI: 10.12082/dqxxkx.2022.210575

Abstract

During natural disasters, public opinion guidance contributes to maintaining social stability. Social media is an important channel for the dissemination of public opinion. Understanding users' network emotions and topics of concern through microblog comments can help relevant public opinion monitoring departments master the hot spots of public concern, so as to select appropriate intervention nodes to deal with network public opinion and dredge public emotions, which is of practical significance for emergency management. Most of the existing researches use supervised machine learning methods for emotion classification, which requires manual labeling of corpus, and the workload is large. While the unsupervised methods are mainly based on the existing emotional dictionary, which can reflect the unstructured characteristics of the text and is easy to understand and explain. According to the characteristics of microblog comments, this paper constructs an emotional dictionary in the field of typhoon disaster by comprehensively considering multiple emotional sources such as emotional words and emoticons. Based on this, this paper proposes a method to calculate emotional tendency based on semantic rules of emotional words and a topic clustering method based on word vector. Firstly, this study collected a total of more than 400 000 comments on Sina Weibo during five times typhoon disasters in recent years and constructed the emotional dictionary in the field of typhoon disaster based DUTIR. We built the expression symbol dictionary combined with the Pointwise Mutual Information method. We determined the emotional tendencies according to the semantic rules, and we used 3500 comments to demonstrate the effectiveness of the proposed method. Secondly, based on the clustering method of word vector, TF-IDF, and K-means, we explored the hot topics during these disasters. Finally, taking typhoon Hagupit, the fourth typhoon in 2020, as an example, this paper conducted an analysis on more than 50 000 Weibo comments during the typhoon disaster, and identified 6 categories of typhoon-related topics. Through the spatial-temporal analysis, it was found that the number of comments on Weibo changed as time went on, and the areas with a large number of comments were also concentrated in coastal areas and areas with high economic level. On the day of typhoon Hagupit landing, the fear in Zhejiang province reached the highest level. The results show that the typhoon disaster network emotion analysis method based on semantic rules and word vector can provide assistance for government departments to master and guide network public opinion when similar disaster events occur.

1 引言

我国沿海地区常年频发台风,每年登陆的台风有7个左右。台风的登陆往往伴随着暴雨、洪水、泥石流等次生灾害,对人民群众的生命财产安全造成了巨大威胁,同时也给灾害管理带来了挑战[1]。突发灾害事件发生时,人们就会借助社交媒体平台发表观点、宣泄自身情绪,引发网络围观效应,而灾害事件本身存在的危害性、突发性与互联网平台的自由性等特点相叠加,形成网络舆情。网络舆情推动着事件的发展进程,这在极大程度上加剧了突发事件发展的复杂性和不确定性[2]。网络舆情传播范围广、扩散速度快,这也对政府的引导能力提出挑战。因此,及时挖掘灾害事件相关网络舆情的热点话题以及网络文本信息中所折射出的用户情绪,这有助于有关部门采取切实有效的措施正确引导舆论导向。那么,如何在舆情爆发初期,从海量的社交媒体数据中识别出不同时间节点用户表达的情感以及讨论话题从而做出相应应急举措?这是社交媒体被有效应用于应急管理的必要前提。
网络的兴起也让短文本的情感分析研究成为时下的热点。大多数情感分析研究主要将情感类别进行粗粒度的情感分类—正向和负向,这无法展现人类复杂的内心世界。目前,情感分类体系尚未有统一的划分。法国哲学家笛卡尔认为人的情感主要是惊讶、爱、恨、渴望、快乐、悲伤这6类的分支或组合; Ekman[3]认为基本情绪主要包括快乐、悲伤、愤怒、恐惧、厌恶和惊讶;中国传统的七情六欲理念[4]认为情感有好、恶、怒、乐、哀、惧、欲7类;徐琳宏[5]结合“七情”理念,并以Ekman的理论为基础,将情感分为7类。许多心理学文献把快乐、恐惧、愤怒、悲伤被视为主要的情感类别[6]; Lwin等[7]将全球新冠疫情中的情感分为快乐、愤怒、恐惧和悲伤4种; Li等[8]认为灾害中最常见的情绪是恐惧、悲伤和惊讶; Zhu等[9]利用2014年上海踩踏事件中的微博文本,将公众情绪分为积极、中立、消极3类情感。现有情感分析研究中,更多是面向Twitter等英文短文本的研究[7-8,10],而面向中文短文本的研究多是进行粗粒度情感分类,根据前人研究,本文将情感分为快乐、喜爱、愤怒、悲伤、恐惧、惊讶这6类细粒度情感。
国内外在灾难性事件的情感分析中有不少研究,Alfarrarjeh等[11]利用多源社交媒体数据与多种情感研究方法对飓风桑迪和纳帕地震进行了地理情感分析;Nair等[12]使用了3种机器学习方法对2015年的金奈洪水灾害的推文进行了分析对比,并识别网络意见领袖;Neppalli等[13]对桑迪飓风期间的推文进行了情感分析,并在地图上可视化用户的情感;张琛等[14]利用新冠疫情期间的微博文本,采用SnowNLP情感分析工具和Single-Pass聚类方法进行舆情演变时空分析。对于Twitter、微博等主观类文本,在情感信息的抽取研究中学者们使用的方法不一,主要包括基于机器学习和基于词典的情感分析方法。有监督的机器学习方法依赖于大量人工标注的语料,费时费力;而无监督的情感分析方法主要通过已有的情感词典来进行情感分析,情感词典能够反映文本的非结构化特征,便于理解和解释。但情感分析仅依靠通用情感词典已不满足多样性的网络文本,需要对已有的情感词典进行扩充,故本文构建了面向台风灾害领域的情感词典用于网络舆情研究中。
在灾害背景下,对社交媒体文本进行情感分析旨在识别用户的情感信息,而了解舆论走向可以帮助相关舆情监管部门从大量情感信息当中即时获悉公众的关注热点,有助于得知公众不同情感表现的原因[15]。挖掘了解用户关注的热点话题对灾害管理中的舆论引导具有重要作用[16],相关部门可以选择适当的干预节点来管控网络舆情,并对公众情绪进行疏导,这对于灾后管理具有现实意义。许多学者采用LDA模型[17]识别热点话题[18,19,20,21,22]。但LDA采用的是词袋模型,无法全面考虑文本语义特征,往往会漏掉重要特征,从而导致聚类效果不理想,且其不适用于微博短文本的处理,难以确定词语间的相关性。近年来,基于深度学习思想的word2vec模型[23]得到较多学者关注,安璐等[24]通过word2vec提取突发事件不同阶段的微博主题;林江豪等[25]对比了word2vec、PLSA和LDA这3种方法的话题抽取效果,发现词向量模型的效果更胜一筹。
综上所述,目前在情感分析研究中尚未有面向台风灾害领域的情感词典,学者们在台风灾害领域的情感倾向研究较少,灾害研究中很少会将用户情绪进行细粒度的情感分类,且对网络文本句子特征的考虑还不够全面,因此,本文针对当前存在的不足,使用台风灾害微博评论文本,在大连理工大学情感词汇本体库[5]的基础上,构建台风灾害领域情感词典,基于点互信息PMI(Pointwise Mutual Information),构建表情符号词典,同时考虑程度副词和否定词对情感影响的作用,计算评论文本的情感倾向。然后,基于word2vec、TF-IDF和K-means的话题聚类方法,挖掘灾害期间公众的热点关注话题,并考虑文本的时间信息与用户注册位置信息,运用时空统计分析方法,量化不同区域用户对台风灾害事件的关注度,分析灾害期间不同阶段的舆情态势及微博用户的情感特征。最后,结合2020年4号台风“黑格比”进行实例分析。

2 技术路线及研究方法

2.1 技术路线

研究流程分为台风灾害语料库构建、模型构建、实例分析3部分。主要从情感词、表情符号等多重情感源抽取微博评论文本中的情感信息,并采用基于词向量的K-means聚类方法,探究灾害期间用户的情感和讨论热点,最后结合黑格比台风事件进行实例分析。技术路线如图1所示。
图1 研究技术路线

Fig. 1 Technical route in this study

2.2 台风网络舆论语料数据的获取与预处理

据《2020微博用户发展报告》[26]调查显示,2020年9月,微博的月活跃用户达到5.11亿,日活跃用户达到2.24亿。微博及其评论文本已成为我国公众表达突发灾害事件情绪、影响舆情的重要社交媒体渠道[27]
以2016—2020年5次台风事件“莫兰蒂”、“天鸽”、“山竹”、“利奇马”、“黑格比”作为关键词进行高级搜索,采集各台风的起编时间到停编时间期间的热门博文下方的所有微博评论文本,每条评论文本抓取内容包括:用户名称、评论时间、评论内容、用户注册位置等信息,并存入csv文件中。并对文本进行数据清洗,该过程主要包括去除转发信息(转发微博、//@···)、回复信息(回复@···)、提到用户的(@···)、话题(#···#)、表情符号、网页链接、图片评论等信息,采用正则化表达式剔除这些无用数据,最后去除空文本。得到417 857条微博评论文本。
将构建好的语料进行分词处理,引入自定义的词典以及大连理工情感词库进行词典扩充,采用jieba作为分词工具对语料库进行分词。接着通过对《1893停用词表》《哈尔滨工业大学停用词表》《四川大学机器智能实验室停用词库》《百度停用词表》(https://download.csdn.net/download/cymlancy/10651346)[28]进行整理、去重得到自定义的停用词表,像“高兴”、“哈哈”、“呜”等含情感特征的词为了便于后续情感提取,此类词不应纳入停用词表中,人工予以剔除,最终得到2319个停用词。使用停用词表进行文本清洗,得到待训练文本407 882条。

2.3 面向台风灾害网络舆情的情感分析方法

本研究主要基于情感词典来对微博文本进行情感分析,但情感词典的方法的准确度很大程度上取决于情感词典的质量,大连理工大学情感词汇本体库仍然有不完善之处,所以如何构建面向台风灾害的情感词典尤为重要。故本文尝试扩展情感词汇本体库进而提升情感分类的准确性,首先对情感词汇本体库中原有的基础情感词进行扩展而构建台风灾害领域的情感词典,同时结合微博的文本基于点互信息法构建表情符号词典,考虑程度副词、否定词的影响作用,根据情感词的不同组合规则计算句子的情感极性强度值,确定情感倾向,最后进行话题聚类来辅助研究。
本节内容主要包括:① 台风灾害领域情感词典的构建。不仅考虑了文本自身的情感词及附带的程度副词、否定词的影响,还考虑到了与文本一同出现的表情符号;② 依据语义规则进行情感倾向判定;③ 词向量的话题聚类。
2.3.1 构建台风灾害领域情感词典
(1)基础情感词典的构建。
对文本进行情感分类,首先需确定分类体系。大连理工大学情感词汇本体库(DUTIR)[5]的分类体系共有快乐、喜爱、愤怒、悲伤、厌恶、恐惧、惊讶7大类21小类,目前是国内最常用的中文基础情感词典之一。情感强度有5档,情感极性为0,1,2,为了便于计算,将负向极性值由2调整到-1,情感强度与情感极性的乘积作为情感词的极性强度值,绝对值越大则表示情感强度越高。
(2)台风灾害领域情感词典。
首先构建情感种子词典:将2.1构建的舆论语料库遍历每条评论文本,剔除重复词和无用词后得到82 267个词汇,然后与情感词汇本体库进行匹配相同的词汇,得到6125个种子情感词,剩余76 142个待选词,并对种子情感词进行情感分类和极性强度标注。
接着对领域情感词进行扩展:通过word2vec训练舆论语料库中各个词的词向量。首先设置好word2vec的模型参数(词向量维度为100,窗口大小为8),将语料库输入到word2vec中进行训练,得到各个词的词向量,保存词向量模型。两词余弦值越大则表示两者的关联度越高,计算公式如下所示:
cos w 1 , w 2 = i = 1 n w 1 i w 2 i i = 1 n w 1 i 2 i = 1 n w 2 i 2
式中: w 1 w 2表示两词的词向量; n表示维度数; w 1 i w 2 i表示词向量在第 i个维度上的取值。
对情感词进行扩展的步骤主要如下:
第①步确定领域情感词。从先前构建的词向量模型中得到各个种子情感词的词向量,计算已有种子情感词与每个待选词之间的余弦相似度,查找与这些种子词相似度最接近的10个词作为候选词汇,阈值设置为0.7,筛选出符合条件的词作为台风领域情感词汇。
第②步确定领域情感词类别。对于已确定的情感词汇计算各个领域情感词汇与不同类别的情感种子词的余弦相似度,并计算领域情感词汇在不同类别的词汇之间的余弦值的平均值,平均值最大的值所对应的类别即为该领域情感词汇的所属类别,用式(2)计算。
Sentiment newword = 1 numbe r A cos ( newword , w i ) max
式中:1 ≤ A ≤ 21, newword为新增情感词; w A表示第A类情感词集合; numbe r A为第A类情感词的数量; w i为第A类种子情感词集合 w A中的第 i个情感词。
第③步确定领域情感词的极性强度。步骤②确定领域情感词的类别后,计算该领域情感词在该类别种子词汇中相似度最大的种子词汇,其对应的极性强度作为该领域情感词汇的极性强度值。
(3)构建辅助词典
程度副词常常用于修饰形容词、表示心理活动的动词,在句子中,程度副词的出现会在情感分析中对句子的情感强度起到增强或减弱的作用。将程度副词分为极量级、高量级、中量级、微量级这4个等级[29],并为每个等级定义了强度值(2,1.5,1,0.5)。筛选的HowNet情感词典[30]中提供的部分程度副词,如表1所示。
表1 程度副词词表

Tab. 1 Degree adverb list

等级 程度副词 强度值
最,顶,极(most) 最,不得了,不堪,极了,极端,极其,绝了,绝对,刻骨铭心,酷,死,滔天,痛,完全,万万,无比,要命,要死,贼,卓绝 2
更,越,愈,格外(very) 太,越发,更,更加,愈加,十二分,非常,十分,不少,出奇,多多,多,多加,多么,格外,好不,何等,很,很是,十足,甚,甚至,实在,太,实在太,特,特别,尤其,着实,过于,过度,万分,真,真的,异常 1.5
较,还(more) 还好,还,较,较为,进一步,那么,那样,如斯,尤甚,愈发,越发,越来越,挺,颇受,多一些 1
略,稍,些微(ish) 蛮,稍,有点,有点儿,稍稍,稍微,略,些小,些许,一点,一点儿 0.5
否定词不像程度副词对句子的情感起到增强或者减弱的作用,而是直接使句子原本的情感极性发生了翻转,所以相较于程度副词,否定词是考量微博情感的关键因素。最后选择48个否定词(表2)。
表2 否定词词表

Tab. 2 List of negative words

否定词
不,非,无,别,甭,不要,不是,不必,不曾,不可,不用,并非,毫无,毫不,切勿,不够,绝不,决不,绝非,绝无,没有,从没,尚未,白白,从不,从未,何必,何曾,何尝,何须,没,没有,莫,难以,徒,徒然,枉,未,未必,未曾,未尝,未有,无从,无须,无庸,毋须,毋庸,勿
否定词的出现会使得情感类别发生改变。当正向情感被否定词修饰后,如“我很快乐”经否定词修饰后变为“我很不快乐”,显而易见,情感类别从“快乐”到“悲伤”;“我感到悲伤”经否定词修饰后变为“我不感到悲伤”,可以看出,此时的情感转变并不是从“悲伤”到“快乐”这样情感相反的关系,经转变后的情感更倾向于无情感。本研究参考经否定词修饰后的情感迁移[31],正向情感类别被否定词修饰后,情感趋向于负向类,负向情感经修饰后,往往倾向于无情感,所以需要对经修饰的情感类别进行调整,最后得到经奇数个否定词修饰后的情感转变,如表3所示。
表3 经否定词修饰后的情感转变

Tab. 3 Emotion conversion modified by negative word

原始的情感类别 奇数个否定词修饰后
快乐
喜爱
愤怒
悲伤
恐惧
厌恶
惊讶
悲伤
厌恶




(4)构建表情符号词典
微博平台上,用户不仅仅通过文字传达自己的情感,表情符号也反映了微博文本的情感特征及用户想要传达的情绪。在整理的近5年的台风灾害事件的40多万条微博文本中,有近 1/4的微博文本使用到表情符号。可以看出,微博表情在微博中出现的概率很大。研究中常被忽略的表情符号可辅助判别文本的情感倾向,在发布的微博文本中,我们看到的是一个表情图案,但是在爬取的文本中显示的是alt标签所标记的文本内容,如[二哈]、[嘻嘻]、[坏笑]、[挤眼]等。
本研究在对表情符号进行分类时,依旧引入大连理工大学情感词汇本体库的7大类进行分类。在一条微博文本中,同一情绪下的不同的表情符号往往会有很强的关联,所以构建表情符号词典可采用点互信息法(PMI)进行计算。
PMI法主要计算两词之间的语义相似度,根据两个表情符号共现的概率以及各自的概率,由一个已知的情感类别的表情符号来确定另一个表情符号的情感类别。其基本思想是统计2个词语在文本中出现的概率,若PMI值越大,则其关联度越高,其计算公式如下:
PMI wor d 1 , wor d 2 = log P wor d 1 wor d 2 P wor d 1 P wor d 2
式中: P ( wor d 1 wor d 2 )表示2个词语共现的概率, P ( wor d 1 ) P ( wor d 2 )表示2个词出现的概率。
识别得到语料中包含246个表情符号,表情符号词典的构建主要包括以下步骤:① 将表情符号alt标签内的词与大连理工情感本体库相匹配,找到对应的词有26个,作为种子情感词。对于未匹配到的220个词计算出现频次最高的前20%的词,即44个词进行人工标注,纳入种子表情符号表中。② 对于余下未知情感类别的176个表情符号,计算其与每个种子表情符号的PMI值。③ 根据公式得到与待选表情符号共现频率最高的种子表情符号所对应的情感类别作为它的类别,并赋上对应极性强度值。
由于PMI计算公式中含有分母及log函数,而分母及log后的值不能为0,所以引入拉普拉斯平滑并进行改进:
PMI word , seedset = log P wordseedset P word P seedset + 0.01 + 0.01
式中: P word表示未分类的表情符号出现的概率; P seedset表示种子表情符号的概率; P ( wordseedset )表示未分类的表情符号与种子表情符号在一条评论中共现的概率。
最终有246个表情符号确定了极性强度及其类别(表4)。
表4 表情符号词典(部分)

Tab. 4 Partical Emotions

情感类别 表情符号
快乐(83)
喜爱(69)
愤怒(8)
悲伤(37)
恐惧(18)
厌恶(18)
惊讶(13)
[微笑] [嘻嘻] [笑cry] [太开心]
[鼓掌] [憧憬] [good] [中国赞] [耶]
[哼] [小黄人不屑] [怒骂] [弱]
[失望] [摊手] [下雨] [哪吒委屈]
[衰] [求饶] [抓狂] [骷髅]
[阴险] [费解] [黑线] [晕]
[吃惊] [哆啦A梦吃惊] [awsl]
2.3.2 基于情感词语义规则的情感倾向判断
对微博文本进行情感判别时,不仅应考虑否定词和程度副词的出现对情感词汇的影响,还应考虑这二者共现的情况及在不同的位置对于情感词的作用。结合程度副词和否定词,情感词组的情感值计算公式如下:
S = m × - 1 numbe r not × sens e adv × sentiscore
式中: S为不同类型情感词组的极性强度值; sentiscore表示情感词的极性强度值; numbe r not表示否定词的数目; adv表示程度副词; sens e adv表示程度副词的强度;m表示组合权值,类型3、5权值为2,类型4取值为0.5,其他组合权值为1。
上述得到每个情感词组的极性强度值和类别,从而得到文本句子中不同类别对应的情感极性强度值,接着进行表情符号类别和极性强度值的确定(表5)。将表情符号词典的权重赋值为0.2,每条微博中含有的表情符号数目为n,则文本中表情符号的情感极性强度值为:
S emoji = 0.2 × n × sentiscor e emoji
式中: sentiscor e emoji为表情符号的极性强度值。从而得到文本中的表情符号在不同类别所对应的情感极性强度值。通过对上述文本和表情符号的计算,进行同类别情感相加后得到不同类别对应的极性强度值,每行中绝对值最大的极性强度值所对应的类别作为该句的情感所属类别(图2)。
表5 情感计算规则

Tab. 5 Rules of sentiment calculation

序号 组合类型 示例 计算公式 公式编号
1 仅含情感词 高兴 sentiscore (7)
2 否定词+情感词 不高兴 ( - 1 ) numbe r not × sentiscore (8)
3 程度副词+情感词 太高兴 2 × sens e adv × sentiscore (9)
4
5
否定词+程度副词+情感词
程度副词+否定词+情感词
不太高兴
太不高兴
( - 1 ) numbe r not × 0.5 × sens e adv × sentiscore
( - 1 ) numbe r not × 2 × sens e adv × sentiscore
(10)
(11)
图2 基于情感词语义规则的情感倾向判断流程

Fig. 2 Flowchart of emotional tendency judgment based on semantic rules of emotional words

2.3.3 基于词向量的话题聚类方法
采用word2vec、TF-IDF和K-means聚类相结合的方法对微博文本进行话题提取。首先通过TF-IDF方法进行词汇权重计算,抽取文本中的关键词,TF-IDF是文本挖掘中最常用的基于统计的权重计算方法,计算公式如下:
TF - IDF = TF × IDF
式中:TF即词频,它衡量一个词在文档中出现得有多频繁;IDF即逆文档频率,表示一个词在所有文本中出现的频率。公式如下:
T F i , j = n i , j j
ID F i = log N N i + 1
式中: n i , j表示词语 i在文档 j中的频率; j表示文档 j中词的总数; N表示语料集中文档的总数; N i表示语料集中包含词语 i的文档总数。
接着通过训练好的word2vec模型得到各关键词的词向量表示,采用关键词集来表示一个话题,将话题的抽取问题转换为词汇的聚类问题,采用 k-means对关键词进行聚类。

2.4 精度评价

根据上文提出的基于台风灾害领域情感词典的情感分类方法,本节进行有效性验证。从所获取的台风灾害的社交媒体数据集中,随机选取3500条微博文本语料进行人工标注。使用最常用的有准确率(Precision),召回率(Recall)和综合评价指标(F1-Measure),计算公式如下:
Precision = Num _ correct Num _ extraction
Recall = Num _ correct Num _ person
F 1 - measure = 2 × Precision × Recall Precision + Recall
式中:Num_correct表示计算的情感类别结果与人工标注相匹配的微博数量;Num_extraction表示计算所得到的被判定为该情感类别的数量;Num_person表示人工标注为该情感类别的数量。
实验结果如表6所示。各类别的准确率、召回率以及F1值都较高。因此,可以证明本文的方法在确定微博文本情感类别方面表现良好,可用于后续分析。
表6 实验结果评价

Tab.6 Evaluation of experimental results (%)

情感类别 准确率P 召回率R 综合评价指标F1
快乐 86.00 87.40 86.69
喜爱 87.40 88.46 87.93
愤怒 89.20 94.09 91.58
悲伤 93.20 82.04 87.27
恐惧 86.80 88.21 87.50
厌恶 85.80 93.06 89.28
惊讶 93.00 89.60 91.27

3 案例及分析

以2020年4号台风“黑格比”为例,以其为关键词获得2020年8月1日—2020年8月6日的微博评论文本数据,共计53 624条。将台风灾害期间的情感主要划分为6个类别:快乐、喜爱、愤怒、悲伤、恐惧、惊讶。

3.1 “黑格比”期间微博话题热度及舆情变化

对灾害期间的词语基于wordcloud库统计提及最多的前100个词语进行高频词可视化,生成词云图如图3(a)所示,其中,“台风”是出现频次最多的词语,“注意安全”、“平安”、“外卖”、“可怕”、“一路走好”等词也出现较频繁,反映了人们的讨论以正向情绪为主。“台风”、“黑格比”等词虽然频次高,但如果仅仅以词频来表示词汇的重要性,这不能反映人们主要讨论的话题,而TF-IDF中逆文档频率(Inverse Document Frequency, IDF)的引入能够降低一些不重要词的权值,从而突出关键词汇,所以本研究采用TF-IDF进行词汇权重计算。首先依次选取TF-IDF值大于0.7、0.6、0.5、0.4,0.3的特征词作为微博文本的特征表示,并进行聚类结果的比较,当阈值太高时有的话题无法识别出,比如当阈值为0.6以上时,8月1日的交通信息无法识别;当阈值太低时,无用信息太多不好区分。最后选取TF-IDF阈值为0.4,此时特征词聚类的效果较好。
图3 台风“黑格比”期间评论文本词云对比

Fig. 3 Comparison of word cloud in comments during Typhoon Hagupit

图3(b)所示,可以看出,“台风”、“黑格比”的权值降低,像“豆腐渣工程”、“质量”等词在原来只依靠词频的图中无法显现的,经TF-IDF处理后展现出被忽视的关键信息,该方法更能反映出用户的关注。
本文首先利用TF-IDF提取各时段的特征词,并利用word2vec将特征词表示为词向量形式,并进行K-means聚类,确定最佳聚类数为6类,通过聚类得到各阶段的话题讨论情况。灾害期间的主要的话题包括6类:天气与警示(Topic 0)、交通状况(Topic 1)、台风路径描述(Topic 2)、灾情讨论(Topic 3)、祈祷及感谢(Topic 4)、抢险救灾(Topic 5)。表7选取起编日和停编日两天的话题情况,台风来临前人们会更加关注台风的路径,台风来临后人们会更加关注灾情方面的信息以及抢险救灾的情况。
表7 话题讨论情况

Tab. 7 Topic discussion of Typhoon Hagupit

话题
编号
话题
类型
话题词条(部分)
起编日当天话题情况 停编日当天话题情况
Topic 0 天气与警示 夏天、打雷、降降温、盼来、风感、烤熟、清凉、西南风 小雨、炎热、暴风雨、高温、太惨、停电
Topic 1 交通状况 延误、学车、停航、推迟、耽误、计划、旅行、取消 开车、高铁、堵车、旅行、取消、车票、公交车
Topic 2 台风路径描述 登陆、威力、交界处、纬度、东南、外围、低压 -
Topic 3 灾情讨论 - 工程质量、安全性、点餐、玻璃、承担责任、恶魔、辟谣
Topic 4 祈祷及感谢 注意安全、灾难、平安、点赞、希望、盼望、保护 感激、因公殉职、节哀顺变、送别、英雄人物、缅怀
Topic 5 抢险救灾 - 善后工作、电力供应、设施、防洪、隐患、公务员、负责人
先前对微博评论文本进行了情感分类,并验证了该方法的有效性。根据每小时的评论数进行绘图,为了解在灾害期间微博讨论热度变化,统计在疫情期间各时间段的微博数量(图4),总体来看,关注热度与台风发展趋势相吻合。在4日凌晨3点左右有个明显起伏,此时台风在浙江温州乐清沿海登陆,此时为人们的睡眠时间,评论热度随后下降,当天晚上讨论热度达到最高。6日下午的微博热度瞬增,由图5可以看出,瞬增主要是来自该日悲伤情感的增加,当天该类型的情感数量较于其他时期达到最高。6日是除登陆日之外热度最高的一天,而结合停编日当天的话题情况,“送别”、“节哀顺变”、“英雄人物”、“永垂不朽”等词可以看出,人们在哀悼因此次台风救灾而牺牲的英雄,所以当天的悲伤情绪剧增。总体来看正向情绪较多,结合关键词“注意安全”、“感谢”、“平平安安”、“致敬”可看出人们多是在对应急救援人员表达感谢、为受灾地区祈祷等。这些关键词可以帮助了解公众情绪变化的原因,为应急管理部门提供参考。
图4 2020年8月1日—2020年8月6日微博评论数随时间变化曲线

Fig. 4 Curve of comment number with time from August 1 to August 6, 2020

图5 不同时期各情感类型的数量及占比

Fig. 5 Number and proportion of emotion types in different periods

3.2 网络舆情空间特征分析

为了更直观看出“黑格比”台风灾害期间的舆情态势,筛选含注册位置(除海外用户外)的评论文本共计3万7千多条。运用地理统计分析,统计各地区用户所发的评论数量,绘制微博热门评论数量的分布图(图6),其中浙江省的用户讨论热度最高,占微博评论数的26.15%,作为此次台风的登陆地,无疑是讨论热度最高的地区。其他地区主要集中在广东、上海、江苏、北京、福建、山东和四川。大部分都是沿海地区、人口密集区和经济发达区。北京市作为中国经济发展的核心地区,讨论热度较高。第七次全国人口普查数据统计,四川省占全国人口比重的5.93%,属于西部人口密度最高的城市,山东省占全国人口比重的7.19%,这两个省份GDP也位于全国前列;所以评论数也呈现了高值。图6(b)也可以看出,浙江省温州市的舆情数量最多,是本次受灾影响最大的地区。
图6 2020年8月1日—6日“黑格比”台风舆情空间分布

Fig. 6 Spatial distribution of typhoon public opinion from August 1 to August 6, 2020

负面情感的积累往往是产生社会冲突的温床[32],所以灾害期间发生时,相较于正面情感,负面情感会更受到关注。表8显示了台风灾害期间负面情感(愤怒、悲伤、恐惧)微博评论数量及占比最高的前3个地区,总体负面情绪最高的仍然是浙江省,其次是人口数量庞大且为沿海地区的广东省以及也同样受到此次台风影响的上海市。
表8 2020年8月1日—8月6日负面情感数量及占比

Tab. 8 Number and proportion of negative emotions from August 1 to August 6, 2020

愤怒情感数量/条 愤怒情感占比/% 悲伤情感数量/条 悲伤情感占比/%
浙江省 1613 30.11 浙江省 1383 24.64
广东省 596 11.13 广东省 733 13.06
江苏省 476 8.89 北京市 441 7.86
恐惧情感数量/条 恐惧情感占比/% 负面情感数量/条 负面情感占比/%
浙江省 953 27.02 浙江省 3949 27.24
广东省 390 11.06 广东省 1719 11.86
上海市 281 7.97 上海市 1113 7.68

3.3 不同灾害阶段舆情空间变化分析

图7展示了2020年4号台风“黑格比”起编日和台风登陆当天的微博舆情变化情况,起编日当天,广东省的微博舆情数量最高,其次是福建省。主要因为他们是2008年同名“黑格比”台风受灾省份。此外,广东、福建、浙江三省作为沿海台风重灾区,关注度、恐惧情感相较于少仅受台风影响的内陆地区更高。台风登陆当天,浙江省的舆情数量和恐惧情感数达到最高,周边地区江苏、上海等地舆论数量增加,随着灾害影响扩大,一些经济发达的内陆地区,如北京等也呈现讨论热度上升的趋势。台风舆情变化情况与台风生命周期相符,也能反映出台风受灾较为严重和关注的地区。通过该方法灾害管理部门可以准确把握舆情的走势,辅助应急救助决策。
图7 2020年4号台风“黑格比”起编日(台风登陆前)及登陆当天舆情数量空间分布

Fig. 7 Spatial distribution of public opinion quantity on the starting date of Typhoon Hagupit (before typhoon landing) and the landing day

4 结论与讨论

本文基于近年5次台风灾害期间的微博评论文本,提出了一种基于语义规则和词向量的台风灾害网络情感分析方法,并验证了该方法抽取情感特征的有效性。主要结论如下:
(1)综合考虑了灾害期间社交媒体文本的特点,对情感词汇本体库进行了扩充,构建了针对台风灾害领域的情感词典。
(2)引入点互信息法构建表情符号词典,并结合情感词的语义规则,设计了面向台风灾害网络舆情的情感计算方法,实现了对微博文本的更细粒度的情感划分。
(3)利用大量语料所训练出的word2vec模型得到所有词汇的向量,结合TF-IDF、K-means进行话题聚类。
(4)结合2020年4号黑格比台风灾害事件进行案例分析,分析了台风“黑格比”灾害期间网络舆情特征、发展态势以及公众情绪状态。
需要进一步解决的问题包括:
(1) 仅在地市级尺度进行实例分析,未根据微博地理标记或抽取其蕴含的地理位置信息进行更细粒度的分析。
(2) 在计算判定情感类别时,无法自动判定情感强度值最大的类别多于一类的情况。
(3) 当微博评论文本中存在词语、符号拼写不规范等现象,以及复杂的修饰手法(如反语等)时,难以准确判定文本情感类别。
[1]
Han X H, Wang J L. Using social media to mine and analyze public sentiment during a disaster: A case study of the 2018 Shouguang city flood in China[J]. ISPRS International Journal of Geo-Information, 2019, 8(4):185. DOI: 10.3390/ijerph17082788

DOI

[2]
马哲坤, 涂艳. 基于知识图谱的网络舆情突发话题内容监测研究[J]. 情报科学, 2019, 37(2):33-39.

[ Ma Z K, Tu Y. Online Emerging Topic Content Monitoring Based on Knowledge Graph[J], Information Science, 2019, 37(2):33-39. ] DOI: 10.13833/j.issn.1007-7634.2019.02.006

DOI

[3]
Ekman P. An argument for basic emotions[J]. Cognition and Emotion, 1992, 6(3/4):169-200. DOI: 10.1080/02699939208411068

DOI

[4]
叶光辉, 曾杰妍, 胡婧岚, 等. 城市画像视角下的社会公众情感演化研究[J]. 数据分析与知识发现, 2020, 4(4):15-26.

[ Ye G H, Zeng J Y, Hu J L, et al. Analyzing public sentiments from the perspective of city ProfilesChinese full text[J]. Data Analysis and Knowledge Discovery, 2020, 4(4):15-26. ] DOI: CNKI:SUN:XDTQ.0.2020-04-002

DOI

[5]
徐琳宏, 林鸿飞, 潘宇, 等. 情感词汇本体的构造[J]. 情报学报, 2008, 27(2):180-185.

[ Xu L H, Lin H F, Pan Y, et al. Constructing the affective lexicon ontology[J]. Journal of the China Society for Scientific and Technical Information, 2008, 27(2):180-185. ] DOI: 10.3969/j.issn.1000-0135.2008.02.004

DOI

[6]
Sensing emotions in a crisis[DB/OL]. 2020. https://techxplore.com/news/2020-10-emotions-crisis.html.

[7]
Lwin M O, Lu J, Sheldenkar A, et al. Global sentiments surrounding the COVID-19 pandemic on twitter: Analysis of twitter trends[J]. JMIR Public Health and Surveillance, 2020, 6(2):e19447. DOI: 10.2196/19447

DOI

[8]
Li L, Fox E A. Understanding patterns and mood changes through tweets about disasters[C]// ISCRAM. 2019.

[9]
Zhu R X, Lin D, Jendryke M, et al. Geo-tagged social media data-based analytical approach for perceiving impacts of social events[J]. ISPRS International Journal of Geo-Information, 2018, 8(1):15. DOI: 10.3390/ijgi8010015

DOI

[10]
Schulz A, Paulheim H, Schweizer I. A Fine-Grained Sentiment Analysis Approach for Detecting Crisis Related Microposts[J]. In:ISCRAM 2013.

[11]
Alfarrarjeh A, Agrawal S, Kim S H, et al. Geo-spatial multimedia sentiment analysis in disasters[C]// 2017 IEEE International Conference on Data Science and Advanced Analytics (DSAA). IEEE, 2017:193-202. DOI: 10.1109/DSAA.2017.77

DOI

[12]
Nair M R, Ramya G R, Sivakumar P B. Usage and analysis of Twitter during 2015 Chennai flood towards disaster management[J]. Procedia Computer Science, 2017, 115:350-358. DOI: 10.1016/j.procs.2017.09.089

DOI

[13]
Neppalli V K, Caragea C, Squicciarini A, et al. Sentiment analysis during Hurricane Sandy in emergency response[J]. International Journal of Disaster Risk Reduction, 2017, 21:213-222. DOI: 10.1016/j.ijdrr.2016.12.011

DOI

[14]
张琛, 马祥元, 周扬, 等. 基于用户情感变化的新冠疫情舆情演变分析[J]. 地球信息科学学报, 2021, 23(2):341-350.

DOI

[ Zhang C, Ma X Y, Zhou Y, et al. Analysis of public opinion evolution in COVID-19 pandemic from a perspective of sentiment VariationChinese full TextEnglish full text (MT)[J]. Journal of Geo-Information Science, 2021, 23(2):341-350. ] DOI: 10.12082/dqxxkx.2021.200248

DOI

[15]
杨腾飞, 解吉波, 闫东川, 李国庆. 基于深度学习的社交媒体情感信息抽取及其在灾情分析中的应用研究[J]. 地理与地理信息科学, 2020, 36(2):62-68.

[ Yang T F, Xie J B, Yan D C, et al. Extracting Sentiment Information from Social Media Based on Deep Learning and the Research on Disaster Reduction[J]. Geography and Geo-Information Science, 2020, 36(2):62-68. ] DOI: 10.3969/j.issn.1672-0504.2020.02.010

DOI

[16]
韩珂珂, 邢子瑶, 刘哲, 等. 重大公共卫生事件中的舆情分析方法研究—以新冠肺炎疫情为例[J]. 地球信息科学学报, 2021, 23(2):331-340.

DOI

[ Han K K, Xing Z Y, Liu Z, et al. Research on public opinion analysis methods in major public health events: Take COVID-19 Epidemic as an Example[J]. Journal of Geo-information Science, 2021, 23(2):331-340. ] DOI: 10.12082/dqxxkx.2021.200226

DOI

[17]
Blei D, Ng A, Jordan M. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022. DOI: 10.1162/jmlr.2003.3.4-5.993

DOI

[18]
Huang B, Yang Y, Mahmood A, et al. Microblog Topic Detection Based on LDA Model and Single-Pass Clustering[J]. 2012. DOI: 10.1007/978-3-642-32115-3_19

DOI

[19]
单斌, 李芳. 基于LDA话题演化研究方法综述[J]. 中文信息学报, 2010, 24(6):43-49.

[ Shan Bin, Li Fang. A Survey of Topic Evolution Based on LDA[J]. Journal of Chinese Information Processing, 2010, 24(6):43-49,68. ] DOI: CNKI:SUN:MESS.0.2010-06-008

DOI

[20]
张岩, 李英冰, 郑翔. 基于微博数据的台风“山竹”舆情演化时空分析[J]. 山东大学学报(工学版), 2020, 50(5):118-126.

[ Zhang Y, Li Y B, Zheng X. Spatial and temporal analysis of network public opinion evolution of typhoon “Mangkhut” based on Weibo data[J/OL]. Journal of Shan-dong University (Engineering Science):1-9(2020-02-22). ] DOI: 10.6040/j.issn.1672-3961.0.2019.371

DOI

[21]
X Han, Wang J, Zhang M, et al. Using social media to mine and analyze public opinion related to COVID-19 in China[J]. International Journal of Environmental Research and Public Health, 2020, 17(8):2788. DOI: 10.3390/ijerph17082788

DOI

[22]
王艳东, 李昊, 王腾, 朱建奇. 基于社交媒体的突发事件应急信息挖掘与分析[J]. 武汉大学学报·信息科学版, 2016, 41(3):290-297.

[ Wang Y D, Li H, Wang T, et al. The mining and analysis of emergency information in sudden events based on social media[J]. Geomatics and Information Science of Wuhan University, 2016, 41(3):290-297. ] DOI: 10.13203/j.whugis20140804

DOI

[23]
Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Representations in Vector Space[J]. Computer Science, 2013.

[24]
安璐, 吴林. 融合主题与情感特征的突发事件微博舆情演化分析[J]. 图书情报工作, 2017, 61(15):120-129.

[ An Lu, Wu Lin. An Integrated Analysis of Topical and Emotional Evolution of Microblog Public Opinions on Public Emergencies[J]. Library and Information Service, 2017, 61(15):120-129. ] DOI: 10.13266/j.issn.0252-3116.2017.15.014

DOI

[25]
林江豪, 周咏梅, 阳爱民, 王伟. 结合词向量和聚类算法的新闻评论话题演进分析[J]. 计算机工程与科学, 2016, 38(11):2368-2374.

[ Lin J H, Zhou Y M, Yang A M, et al. Analysis on Topic Evolution of News Comments by Combining Word Vector and Clustering Algorithm[J]. Computer Engineering and Science, 2016, 38(11):2368-2374. ] DOI: 10.3969/j.issn.1007-130X.2016.11.032

DOI

[26]
微博数据中心. 微博2020用户发展报告[EB/OL].http://data.weibo.com/report/, 2021-03-12.

[ Weibo Data Center. Weibo User Development Report 2020[EB/OL]. http://data.weibo.com/report, 2020-03-12.]

[27]
谌志群, 鞠婷. 基于BERT和双向LSTM的微博评论倾向性分析研究[J]. 情报理论与实践, 2020, 43(8):173-177.

[ Chen Z Q, Ju T. Research on tendency analysis of microblog comments based on BERT and BLSTM[J/OL]. Information Studies: Theory and Application: 1-7(2020-04-13). ] DOI: 10.16353/j.cnki.1000-7490.2020.08.026

DOI

[28]
文本分析—停用词集合[DB/OL]. 2018.https://download.csdn.net/download/cymlancy/10651346

[ Text analysis-stop words set[DB/OL]. 2018.https://download.csdn.net/download/cymlancy/10651346.]

[29]
冯跃. 面向微博的情感倾向性研究[D]. 吉林:吉林大学, 2018.

[ Feng Y. Research on emotional tendency of microblog[D]. Jilin University, 2018. ] DOI: CNKI:CDMD:2.1018.222474

DOI

[30]
董振东, 董强. 知网[EB/OL].[2016-12-08]. http://www.keenage.com/zhiwang/c_zhiwang.html.

[ Dong Z D, Dong Q. HowNet[EB/OL]. [2016-12-08]. http://www.keenage.com/zhiwang/c_zhiwang.html]

[31]
杜振雷. 面向微博短文本的情感分析研究[D]. 北京:北京信息科技大学, 2013.

[ Du Z L. Research on emotion analysis for microblog short text[D]. Beijing Information Science and Technology University, 2013. ] DOI: CNKI:CDMD:2.1014.031421

DOI

[32]
Zhang L, Wei J, Boncella R J. Emotional communication analysis of emergency microblog based on the evolution life cycle of public opinion[J]. Information Discovery and Delivery, 2020, 48(3):151-163. DOI: 10.1108/IDD-10-2019-0074

DOI

文章导航

/