地理空间分析综合应用

面向不同用户群体的社交媒体台风舆情演化分析及对比研究

  • 金城 , 1 ,
  • 吴文渊 2 ,
  • 陈柏儒 1 ,
  • 杨续超 , 1, *
展开
  • 1.浙江大学海洋学院,舟山 316021
  • 2.杭州师范大学理学院,杭州 310036
*杨续超(1980— ),男,河南信阳人,副教授,主要从事全球变化与灾害风险管理等研究工作。 E-mail:

金 城(1995— ),男,浙江湖州人,硕士生,研究方向为海岸带灾害风险管理。E-mail:

收稿日期: 2021-02-04

  要求修回日期: 2021-07-13

  网络出版日期: 2022-02-25

基金资助

国家自然科学基金项目(41971019)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Analysis and Comparative Study of the Evolution of Public Opinion on Social Media during Typhoon for Different User Groups

  • JIN Cheng , 1 ,
  • WU Wenyuan 2 ,
  • CHEN Bairu 1 ,
  • YANG Xuchao , 1, *
Expand
  • 1. Ocean College, Zhejiang University, Zhoushan 316021, China
  • 2. School of Science, Hangzhou Normal University, Hangzhou 310036, China
*YANG Xuchao, E-mail:

Received date: 2021-02-04

  Request revised date: 2021-07-13

  Online published: 2022-02-25

Supported by

National Natural Science Foundation of China(41971019)

Copyright

Copyright reserved © 2021

摘要

社交媒体数据可以为台风灾害追踪、灾时救援和灾情评估提供及时有效的信息。现有研究常采用主题建模和情感分析等技术对台风期间社交媒体平台(如新浪微博等)舆论话题和情感变化进行研究。在省域范围内以小时为时间粒度的多维度有效性论证尚有欠缺,且在舆情分析时未能区分用户群体差异。本文以台风“利奇马”为例,在浙江省域范围内,以新浪微博数据为研究对象,首先从词频分析、台风关注度时空变化以及特定灾害事件响应3个角度探讨了微博数据对台风灾情响应的有效性;其次采用隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型技术挖掘微博文本主题信息,并根据Louvain算法对主题社团进行划分;然后开发了一种基于自定义情感词典的情感分析方法用于情感指数计算,与SnowNLP相比情感倾向性预测精度得到了提高;最后分析了台风期间官方和民众在新浪微博平台上的话题关注以及情感演变差异。结果表明:① 在省级范围内,微博数据能有效反映台风动态和灾害时空分布;② 台风事件微博文本的主题变化反映了灾情不同阶段舆论关注点的动态变化;③ 官方微博文本比民众微博文本具有更明确的主题社团结构;④ 台风事件相关微博文本中的消极情绪在台风登陆后显著增加,其中民众微博文本对台风灾害的情绪响应更及时,官方微博文本中的情感表达始终相对积极。

本文引用格式

金城 , 吴文渊 , 陈柏儒 , 杨续超 . 面向不同用户群体的社交媒体台风舆情演化分析及对比研究[J]. 地球信息科学学报, 2021 , 23(12) : 2174 -2186 . DOI: 10.12082/dqxxkx.2021.210065

Abstract

Social media has been successfully applied to typhoon monitoring, on-site rescue, and disaster loss assessment. Preview studies mostly utilized topic modeling and sentiment analysis technique to analyze the focus of public opinion and sentiment evolution in the social media platform during the typhoon period. However, the existing studies were usually conducted at large spatial scales and long time spans. Moreover, the difference in behavior pattern among user groups was ignored. Firstly, a case study of Typhoon Lekima was implemented for verifying the effectiveness of microblog's response to typhoon disaster in Zhejiang province from three perspectives: word frequency, spatiotemporal change of public attention to typhoon, and public response to specific events. Secondly, the Latent Dirichlet Allocation (LDA) topic model was adopted to mine the text topics, whose community structure were divided by Louvain algorithm. Thirdly, a custom emotion dictionary was developed to calculate the sentiment index, and subsequently compared with SnowNLP in sentiment polarity prediction. Finally, we investigated the difference between official microblogs and public microblogs in topic concern and sentiment evolution. The results indicated that microblogs were capable of tracking typhoon dynamics and reflecting the spatiotemporal distribution of hazards within the provincial region. The LDA model result showed that the percentage of microblogs on public dynamics topic was large in days and small in nights; the percentage of microblogs on warning topic was on a downward trend; the disaster event rose significantly after typhoon landed; and the peak of that on rescue activities appeared in the late period of typhoon. The topic of official microblog had a clearer community structure than the public microblog, but this characteristic may be blurry when mixing the microblogs from two groups. The negative emotion on Sina Weibo significantly deepened in the typhoon landing period, and the public had a more timely emotional response to typhoon disasters, while the sentiment index of official microblog was always higher.

1 引言

台风灾害不仅制约了我国经济社会的可持续发展,而且给海岸带地区人民的生命保障和财产安全构成了严重威胁[1,2]。及时获取台风灾情信息和掌握民众舆论动态有助于科学评估受灾程度,开展合理的灾后救援。传统的台风灾害数据采集方法因受恶劣天气条件影响较大,人工劳动强度大,经济成本高,通常无法在台风灾害发生期间或发生后提供及时精准的灾情信息[3,4,5]。随着社交媒体的发展,社交媒体大数据逐渐成为了追踪灾害事件和评估灾害损失的新兴数据源,并越来越多地被用于灾情态势感知及灾害应急管理。
近年来,国内外一些学者利用Twitter、新浪微博等社交媒体数据开展了台风灾情动态评估和大众舆论风向监测等方面的研究。国外早期的研究多以论证社交媒体在反映灾害时空分布的有效性为主。Guan等[6]分析了飓风“桑迪”期间Twitter活动的时空格局,表明了社交媒体在灾害损失快速评估方面的潜力;Kryvasheyeu等[7]对飓风“桑迪”不同时期的Twitter活动进行了多尺度分析,证明了人均Twitter活动与飓风造成的人均经济损失密切相关。此外,也有学者逐渐重视对文本语义的挖掘,利用主题建模和情感分析技术来监测灾区民众在社交媒体上关注话题的变化及情感动态。Chae等[8]使用LDA(Latent Dirichlet Allocation)主题模型来分析推文,并提取了飓风期间的异常主题;Huang 等[9,10]开发了一个基于云的灾害分析系统,利用LDA模型和空间聚类的方法来检测灾害可能的发生位置和进行灾害事件实时追踪;Neppalli等[11]研究了飓风“桑迪”期间民众情感的时空变化,并肯定了其在灾情态势感知中的作用;Chen等[12]对比了飓风灾害不同阶段灾区民众的情感变化以及与非灾区民众的情感差异;Alam等[13]采用聚类分析、情感分类、主题建模、实体识别、图像处理等技术来处理Twitter文本及图像数据,以表明其在飓风期间为人道主义援助提供的信息支持。由于数据源的差异和中文语义的复杂性,国内社交媒体用于台风灾情监测的研究起步相对较晚。陈梓等[14]论证了人们在微博上的活动与台风灾害的关联性;杨腾飞等[15]提出了一种通过扩展上下文特征和匹配特征词的方法来对台风灾损信息进行快速识别与分类; 梁春阳等[16]使用LDA模型和支持向量机(Support Vector Machine,SVM)对微博的文本信息进行分类,并结合用户分布加权模型进行灾害制图;张岩等[17]结合情感分析、话题聚类、网络社团等模型和地理可视化技术完整展示了台风“山竹”期间网络舆情演化过程。
社交媒体上不同用户群体具有不同的行为特征,其在灾害响应过程中往往也扮演了不同的角色。现有研究从多个角度对用户群体进行划分,分析了不同用户群体在社交媒体上的行为模式差异。Chen等[18]发现经认证的微博用户往往比未经认证的用户具有更高的社交网络活动强度和更大的影响力;王晰巍等[19]利用微博认证信息和用户度中心度挖掘了网络舆情各主题中的意见领袖。在灾害管理与响应过程中,政府负有管理、服务民众和应急救援的责任,社交媒体的开放性和可对话性促进了自然灾害期间官方与民众的快速有效沟通,提升了公共信息服务的效率。因此,也有学者研究了社交媒体在灾害期间地方政府与民众沟通中的作用[20]。Chatfield等[21]使用社交网络分析研究了“桑迪”飓风期间政府与民众在社交媒体上的双向互动作用,肯定了政府作为社交媒体网络 互动中的牵头方在灾害风险沟通中的重要作用;Kogan等[22]关于美国桑迪飓风的案例表明在灾害期间,地方政府机构的社交媒体参与是社交网络中最重要的节点。
在社交媒体反映灾情时空演变有效性分析方面,在省域范围内以小时为时间粒度将有助于在更精细尺度论证数据的有效性,从多个维度开展论证是多元化利用社交媒体数据的重要前提,而目前该方面的研究尚有欠缺。在社交媒体数据语义分析方面,以往研究多从主题建模、情感分析等角度出发,分析了台风灾害期间社交媒体平台上的舆论热点演变和民众情绪动态,少有研究探讨了用户群体在话题关注和情绪表达过程中的行为模式差异。然而官方和民众在社交媒体上往往表现出对灾情不同的响应行为,探讨二者在关注话题和情绪表达方面的差异有助于了解不同用户群体的行为模式特征,从而更准确地辨析灾情期间的舆情演化过程。本文以台风“利奇马”为例,首先评估了新浪微博数据反映台风灾害时空分布的有效性,然后利用LDA主题建模和情感分析技术分析了台风期间的舆情演化,最后探讨了不同用户群体主题发布和情感表达的差异。

2 研究区概况、数据来源及处理

2.1 研究区概况

浙江省位于我国东南沿海地区,地处27°02′N—31°11′N和118°01′E—123°10′E之间,下辖11个地级市,陆域面积为10.43万km2。浙江省是我国受台风灾害影响的主要省份之一,2000—2019年共有19个台风登陆浙江,年均0.95个,其中包括2个超强台风(0608号台风“桑美”和1909号台风“利奇马”)。本文以2019年第9号超强台风“利奇马”为例开展研究,“利奇马”于2019年8月4日9时在菲律宾以东洋面上生成,8月10日1时45分在浙江省温岭市沿海登陆,而后在山东省青岛市沿海二次登陆。“利奇马”是1949年以来登陆我国大陆地区强度第五位的台风,也是登陆浙江省强度第三位的台风,共造成浙江、山东、江苏、安徽、辽宁、上海、福建、河北、吉林9省(市)1402.4万人受灾,被应急管理部列为2019年中国十大自然灾害之首[23]

2.2 微博数据获取与处理

2.2.1 微博数据的获取与筛选
新浪微博是国内最受欢迎的社交媒体之一,也是政务机构发布信息和参与政民互动的重要网络平台[24]。本研究基于Python 3.7平台开发了网络爬虫,基于新浪微博高级搜索页面,通过“关键词+时间段+地点”的搜索方式获取相关主题原创微博。每条微博文本的属性内容包括微博唯一标识符、搜索地区、发文时间、发文用户、发文位置、文本内容、表情内容等字段。微博文本内容采集完成后,根据微博用户名在微博高级搜索页面进行用户精确查找,获取用户认证信息、认证身份等属性,根据用户认证信息将有“微博官方认证”标识的账号作为官方用户,将有“微博个人认证”认证、“微博达人”认证以及无认证信息的账号作为普通民众用户,便于后期用户群体差异的分析。台风“利奇马”影响浙江的主要时间段是2019年 8月9日至2019年8月11日,因此以“台风”、“利奇马”为关键词重点获取了该时间段内浙江省内的台风相关主题的微博数据。同时,为了后续对台风事件微博文本数量进行标准化处理以表征实际关注度,又获取了其他5个台风期间浙江省内的台风相关微博数据作为比较分析。该5个台风包括:登陆我国但未明显影响影响浙江省的1904号台风“木恩”、1907号台风“韦帕”、1909号台风“白鹿”、1914号台风“剑鱼”以及未登陆我国但引起关注的1919号超强台风“海贝思”。在经过去重、去噪等数据清洗处理后,有效获取的微博文本数量如表1所示。
表1 台风事件微博获取情况

Tab. 1 The amount of typhoon-related microblogs crawled

台风编号 台风名称 搜集时段 有效微博数量/条
1904 木恩(Mun) 2019-07-02 00:00—2019-07-05 00:00 303
1907 韦帕(Wipha) 2019-07-31 00:00—2019-08-03 00:00 369
1909 利奇马(Lekima) 2019-08-09 00:00—2019-08-12 00:00 72 514
1911 白鹿(Bailu) 2019-08-24 00:00—2019-08-27 00:00 1404
1914 剑鱼(Kajiki) 2019-09-01 00:00—2019-09-04 00:00 396
1919 海贝思(Hagibis) 2019-10-11 00:00—2019-10-14 00:00 784
2.2.2 中文分词
中文分词是进行主题建模和情感分析的前提。本研究采用Jieba分词工具对台风“利奇马”相关微博文本进行分词。为提高分词效果,将自定义台风灾害词典、百度词典、情感词典以及微博的表情文本库一同接入Jieba分词工具扩充词典库。同时,为避免文本中特殊字符对后续分析造成干扰,接入了百度停用词表和哈工大停用词表进行文本过滤。

3 研究方法

3.1 技术路线

本研究基于“利奇马”台风事件相关的新浪微博数据,首先对微博文本分词结果进行每日词频统计,其次对微博文本数量进行标准化处理后作为实际关注度,并结合台风路径分析了在台风行进过程中关注度的时空演变,然后利用特定事件中的关键词关注度变化识别主要受灾区域,基于以上3个维度评估了台风事件相关微博数据在响应台风灾情时空演变中的有效性(图1)。在论证有效性的基础上,从主题分析和情感分析两方面对台风期间的舆情演化特征进行分析。主题分析方面,首先构建LDA主题模型,用于挖掘微博文本中的潜在语义主题,在分时段汇总后进行主题演变分析,然后利用Louvain算法进行主题词汇网络社团划分,并比较不同用户群体的社团结构特征差异。情感分析方面,研究中基于四大常用情感词典和微博表情文本库构建了情感词典模型,用于计算微博文本的情感指数,利用人工情感倾向性标注的微博语料对该模型进行情感倾向性分类结果评价,并与开源情感分析工具SnowNLP的结果进行比较,择优选择后对所有微博文本计算情感指数,并比较不同用户群体在微博平台上的情感演变差异。
图1 台风灾害舆情演化分析流程

Fig. 1 The flow chart of public opinion evolution analysis during typhoon disaster

3.2 台风事件微博关注度计算方法

将获取的“利奇马”台风事件微博数据以6 h为间隔进行分时段数量汇总,并分城市进行统计,得到了浙江省11个地级市3 d共12个时间段内的台风事件微博文本数量。用各城市各时段的台风事件微博文本数量除以该城市该时段的微博基数,以得到台风事件微博文本的相对数量,微博基数是通过将2019年其他5个台风在登陆前后共 3 d的微博数量按城市统计,并同样分12个时间段汇总,并将3 d相同时段求和得到。主要目的为克服以下3点时空差异:① 不同城市微博用户基数的差异;② 不同城市民众对台风信息响应程度的差异;③ 民众在一天内不同时间段在微博平台的活跃度差异。因此,可以认为台风事件微博文本的相对数量能够相对准确地反映一个地区民众对台风的实际关注度。

3.3 主题建模与社团结构划分方法

利用LDA主题模型挖掘台风事件微博文本中隐含的主题信息并分析不同主题的演化情况。LDA是由Blei等[25]提出的一种文档主题生成模型,能够挖掘大规模文本中潜在的主题信息。该主题模型本质上是一种三层贝叶斯概率生成模型,包括文档层、主题层、特征词层,每个文档被认为是由若干个主题以一定概率的形式组合而成,每个主题又被认为是由若干个概率不同的特征词的组合[26,27]。参数估计是LDA模型求解的重要环节,在实际应用中,通常采用吉布斯采样(Gibbs sampling)进行参数估计[28]
台风事件微博主题词汇网络是通过将不同主题模型中的共现特征词进行无向连接所构成的具有社团结构特征的网络。通过社团结构发现可以将特征词汇划分到不同的社团结构中,从而实现对相关主题的聚合。网络社团模型的算法可分为分离算法和聚合算法,其中聚合算法划分效果更佳且效率更高[29]。Louvain算法是一种基于模块度优化的聚合算法[30],其中模块度Q是评估网络社团结构划分质量的指标,其值越大说明划分的社团结构越明显,一般当Q大于0.3时可认为当前网络具有明显的社团结构[31]

3.4 情感分析方法

情感分析是通过对文本进行特征处理并根据特定规则挖掘文本中的情感信息的过程。现有研究中进行情感分析的方法主要包括基于情感词典的方法和基于机器学习的方法。
基于情感词典的情感分析方法通过统计文本中出现的情感词汇、程度副词等词汇并根据特定的情感判别统计规则对文本情感倾向进行打分。该方法的应用效果依赖于情感语料的完备性。本研究整合了当前研究中广泛采用的四大情感词典:知网HowNet情感词典、清华大学李军中文褒贬义词典、大连理工大学情感词汇本体库、台湾大学NTUSD简体中文情感词典,同时为了更好适应微博文本的情感分析需求,还添加了网络流行语情感词典以及微博表情词汇库。在此基础上,将一段文本划分为若干个情感词汇单元,每个单元应包含一个情感词汇及其与上一情感词汇之间可能存在的程度副词和否定词,并根据程度副词、否定词的出现次数与句式权重计算得到每个情感单元的情感指数,对所有单元的情感指数求和即为此段文本的情感指数。
Senti _ index = i = 1 n weig h t i × p i × d i × e i
式中: Senti_index表示每段文本的情感指数;n表示该文本包含的情感词汇数量;i表示第i个情感单元;weighti为句式结构权重系数;pi为否定词系数;di为程度副词系数;ei为情感词汇的情感系数。其中,weighti值用于调节不同句式结构所表达的情感差异,例如短文本“台风天,我不是很开心”和“台风天,我很不开心”中均包含1个情感词汇,1个程度副词和1个否定词,但是两者表达的情感程度存在差异,因此需要通过句式权重系数wi进行调节。
基于机器学习的情感分析方法通过对标注情感倾向的语料库进行训练,提取情感特征,利用机器学习方法构建分类模型,从而实现对文本的情感倾向性预测。该方法依赖于标注语料的数量和主题相关性。朴素贝叶斯(Naïve Bayes)是一种基于贝叶斯定理的分类器,在此基础上假设所有特征属性之间相互独立,从而计算后验概率。本研究通过调用SnowNLP情感分析工具来实现基于朴素贝叶斯的情感分类[32],其结果为区间[0, 1]的数值,越接近于1表明积极情绪程度更深,越接近于0表明消极情绪更明显。
本研究中将情感倾向分为积极、中性、消极 3类,并采用查准率(Precision)、召回率(Recall)、调和均值(F-measure)3个指标对2种方法的分类结果进行评价,公式分别如下:
Precision = True ( s i ) Doc ( s i )
Recall = True ( s i ) Response ( s i )
F - measure = 2 × Precision × Recall Precisio n + Recall
式中: S表示所有分类结果的集合;si表示第i种分类结果; True ( s i )表示被分类器正确分为si的微博文本数; Doc ( s i )表示情感倾向被标注为si的所有微博文本数; Response ( s i )表示所有被分为si的微博文本数。由于查准率和召回率通常情况下表现为负相关,因此引入 F - measure对二者进行综合考量。

4 结果及分析

4.1 微博数据响应灾情时空演变的有效性分析

4.1.1 台风事件微博文本的词频变化分析
在获取“利奇马”台风事件相关的微博数据并计算关注度后,对微博文本分词结果进行了分时段词频统计。从“利奇马”登陆浙江前一天、当天以及后一天浙江省域范围台风事件相关微博词云分布 (图2)中,可以发现“利奇马”、“台风”始终是出现频率最多的关键词;在8月9日的高频词中,“超强台风”、“登陆”、“风力”等关于台风状态的描述以及“红色预警”、“影响”、“防御”、“注意安全”等灾情预警相关词汇居多;在台风登陆的8月10日,“登陆”一词热度明显上升,同时,“停电”、“积水”、“被淹”等受灾信息词汇逐渐被广泛提及;在台风过境浙江后的8月11日,由于前日傍晚临海“老城失守”,遭遇全面受淹,因此“临海”、“灾害”、“紧急”、“救援”等灾情响应信息成为议论的重点。此外,高频词汇中还包括“今天”、“晚上”等时间词汇;“浙江”、“杭州”等地名词汇;“暴雨”、“大风”等反映天气状况的词汇;“外面”、“家里”等位置描述词汇;“出门”、“工作”等行为描述词汇;“希望”、“可怕”等情感词汇以及“允悲”、“二哈”等微博表情词汇,这也反映出在情感分析时引入微博表情对于评估文本情感倾向的重要性。
图2 台风“利奇马”期间浙江省台风微博词云变化

Fig. 2 Word cloud change of typhoon microblogs in Zhejiang province during Typhoon Lekima

4.1.2 台风事件微博关注度时空演变
对台风事件微博文本数量进行分城市统计和分时段汇总,结果如图3所示。从图3(a)中可以发现,在各个时段内杭州市域内的台风事件微博文本数量均远大于其他地级市,这与杭州市拥有更庞大的新浪微博用户基数有关。此外,在台风登陆的前后两天,从早到晚4个时段内微博文本数量均呈递增趋势,这是因为新浪微博用户多为青年群体,傍晚和夜间是该群体在社交媒体上的主要活跃时间段。台风登陆当天上午2个时段的台风事件微博文本数量远高于前后两日同时段,表明了民众在台风登陆期间对台风动态的密切关注,图3(b)中大部分城市台风事件微博文本的相对数量在登陆时间段内有明显上升同样表明了这一点。为更好地反映微博活动随台风发展的响应变化,在ArcGIS 10.2平台上将各城市台风事件微博文本的相对数量与台风路径和风力等级一同进行可视化展示,如图4所示。结果表明:① 不同城市对台风的关注度随台风移动而不断变化;② 在特定时段内,不同城市对台风的关注度不同,越靠近台风中心的城市对台风灾害响应程度通常比其他城市更高。
图3 台风“利奇马”期间浙江省各地级市台风相关微博的数量与相对数量变化

Fig. 3 Changes in the amount and relative amount of typhoon-related microblogs of prefecture-level cities in Zhejiang province during Typhoon Lekima

图4 台风“利奇马”期间浙江省台风相关微博的相对数量随台风发展的时空分布

Fig. 4 Spatiotemporal distribution of the relative amount of typhoon-related microblogs with typhoon development in Zhejiang province during Typhoon Lekima

4.1.3 微博数据对特定灾害事件的响应变化分析
为分析民众在社交媒体上对该灾害事件及其影响的响应情况,以超强台风“利奇马”持续性强降雨在浙江临海上游河道爆发洪水的事件为例,分别计算不同时段“洪水”和“停电”相关微博文本的相对数量。8月10日下午3时,临海古城城门“失守”,古城被淹,图5(a)显示在台风登陆后一段时间内台州市“洪水”微博文本相对数量略有上升,表明在临海洪水爆发前期可能已有相关部门发布了洪水预警,引起了部分民众的关注。此外,在临海古城被淹后,临海所属的台州市对“洪水”的响应尤为陡然上升,之后逐渐下降,其他城市虽然在同一时段内对“洪水”的关注度也有所上升,但在11日12时后基本趋于0,且在各时段内均低于台州市对“洪水”的响应。从图5(b)可以发现,各时段台州市“停电”相关微博文本的相对数量普遍高于其他城市,这与台州是“利奇马”登陆以及主要影响的城市有关。尤其在临海古城被淹后的一段时间内,台州市对“停电”微博关注度始终远高于其他城市。
图5 台风“利奇马”期间浙江省特定事件微博相对数量变化

Fig. 5 Changes in the relative number of microblogs related to specific events in Zhejiang province during Typhoon Lekima

4.2 “利奇马”台风事件相关微博数据中的主题 演变与社团挖掘

4.2.1 主题演变
经LDA主题建模后,每条微博文本都得到了一个关于20个主题的概率分布,将每条文本归入概率最大的主题下,然后再将20个主题归并为“灾害预警”、“灾情信息”、“救援信息”、“民众动态”四大主题,以2 h为时间间隔统计各大主题微博文本的数量,并计算比例绘制主题流图。从图6中可以发现,反映民众动态的微博文本比例在夜晚时段整体略高于在白天时段;其他3类比例总和的每日峰值往往出现在当日10—14时的时段范围内,其中“灾害预警”类微博文本占比在8月 9日10时达到峰值后整体表现为下降趋势,“灾情信息”类微博文本占比在台风登陆后有明显上升,并在此后始终保持相对较高的比例,“救援信息”类微博文本比例的整体增加趋势起步则稍晚于“灾情信息”。
图6 台风“利奇马”期间浙江省台风事件微博主题流图

Fig. 6 The topic flow diagram of typhoon-related microblog in Zhejiang province during Typhoon Lekima

4.2.2 用户群体差异下的主题社团网络分析
为分析官方用户和普通个人用户在社交媒体上对台风的响应差异,同时为探究不同微博文本主题之间的关联性,根据微博发布来源为官方用户和普通个人用户将微博数据划分为两个数据集,分别进行LDA主题建模,各自得到10个主题,每个主题20个关键词,统计所有关键词之间的共现情况,即每一对关键词在主题中同时出现的次数。在本研究中,官方微博文本和民众微博文本的主题词汇中分别包含不重复词汇162个和43个,共构建共现词汇对1137对和682对。每对共现词汇中的2个主题词之间为无向连接,以共现次数作为权重,在Gephi软件中采用Modularity模块化工具进行主题社团检测。
检测结果显示,官方微博数据和民众微博数据的主题模块度分别为0.571和0.055,说明官方微博文本主题表现为高度划分的社团结构特征,而民众微博文本主题之间联系紧密,区分度不高。图7显示社团划分结果由节点和边组成,节点大小代表每个主题词汇的出现频次,反映了该关键词的重要性,边的粗细程度代表两个主题词汇的共现次数,反映了两者的紧密程度。从图7(a)中可以发现官方微博文本主题中“利奇马”是最重要的关键词,所有主题词汇被较为清晰地划分成了7个社团,可以归纳为“台风预警”(紫色)、“民众提醒”(红色)、“交通”(绿色)、“电力通讯”(橙色)、“消防”(蓝色)、“灾害救援”(青色)、“防台准备”(灰色)。此外每个社团中均有一个及以上相对重要的关键词,不同关键词之间重要性差异较为明显。图7(b)显示民众微博文本主题被划为了2个社团,概括为“民众活动”(青色)和“台风灾情”(蓝色),但是也可以发现两个社团区分度不高,社团间部分节点联系较为紧密,且主题词重要性差异相对不明显。造成官方与民众微博文本主题词汇网络结构检测结果差异的原因在于官方用户在台风灾害期间的微博文本主题信息传递更明确,而普通民众微博文本在主题传达上更随意。将所有微博数据进行主题建模和社团划分后的结果如图7(c)所示,模块度为0.118,表明将官方微博文本与民众微博文本融合在一起后主题社团结构区分不明显,这是由于民众微博文本数量占所有微博文本比例(84.7%)较大,导致官方微博文本原本较好的层次化主题结构被“稀释”。该检测结果表明在挖掘主题信息时,有必要将官方用户和普通民众加以区分,一方面避免官方微博文本的层次化结构特征被海量的民众微博文本所“稀释”,另一方面保证民众微博数据中丰富的语义信息不受官方微博数据干扰,从而能被进一步有效提取。
图7 台风“利奇马”期间浙江省台风微博主题网络社团图

Fig. 7 The community structure of typhoon-related microblog topics in Zhejiang province during Typhoon Lekima

4.3 “利奇马”台风事件相关微博数据中的用户情感 趋势

4.3.1 2种情感分析方法的比较
从台风微博数据集中随机抽取1000条微博标记情感倾向性,并分别采用基于自定义情感词典的方法和SnowNLP方法分别计算情感指数,划分情感倾向性,并与标记类型对比,计算得到3个评价指标结果如表2所示。结果显示,基于情感词典的情感倾向性预测结果整体优于SnowNLP,这主要得益于本研究中综合了多种现有情感词典,扩充了词汇库,并且在情感词典中引入了微博表情,这对于准确判断微博情感倾向具有重要作用;同时结合否定词、程度副词并根据部分句式结构对语句情感进行调整优化。
表2 基于情感词典的模型和SnowNLP的情感倾向性评价结果

Tab. 2 Sentiment polarity assessment result of sentiment dictionary-based model and SnowNLP respectively

基于情感词典 SnowNLP
积极 中性 消极 积极 中性 消极
Precision 0.873 0.713 0.835 0.472 0.348 0.547
Recall 0.785 0.760 0.881 0.608 0.204 0.517
F-measure 0.826 0.736 0.857 0.532 0.257 0.532
4.3.2 用户群体差异下的情感演变
根据上述评价结果,选择基于自定义情感词典的方法对全部微博进行情感指数计算,以2 h间隔分时段求均值,得到情感趋势如图8所示。从图中可以发现民众微博文本从8月9日起始终表现为消极情绪,在台风登陆后6 h内明显下降,而后逐渐缓和。官方微博文本中的情感走势整体上与民众微博文本接近,但一定程度上稍滞后于后者,例如民众微博文本在台风登陆的8月10日0—2时消极情绪显著加深,而官方微博文本的情感指数在2—4时才明显下降,并在此后一段时间内(至8月11日 6时)基本滞后于民众微博文本的情感变化,表明民众在社交媒体上对灾害的情绪响应通常更及时。此外,官方微博文本较民众微博文本在情感倾向上表现得更为积极,推测其主要原因是:① 官方媒体在发布信息公告时需要本着客观负责的态度,同时应兼顾对民众的舆论引导,对客观事实的太过消极表达容易将民众的恐慌情绪放大;② 官方微博文本通常篇幅更长,且发布预警信息时,通常会伴随对市民的温馨提示;③ 实时救灾类的通常由官方微博发布,此类微博数据一定程度上有利于缓和民众在灾害中的悲观情绪。
图8 台风“利奇马”期间浙江省台风微博情感趋势

Fig. 8 The emotional trend of typhoon microblog in Zhejiang province during Typhoon Lekima

为分析微博文本情绪的累积效应,对微博数据情感指数分时段求和,并绘制瀑布图(图9)。从 图9(a)中可发现,官方微博文本整体始终表现为积极情感,在凌晨时段的变化不是很明显,这与其在该时段活跃度较少有关。从图9(b)可见,自8月9日0时至8月10日16时的各时段内民众始终反映出消极情绪,在台风登陆时段消极情绪加深最为明显。图9(c)显示在台风登陆前的各时段,官方的情感动态对整体的情感走势变化占主导作用,在台风登陆后的10小时内,民众情绪对整体情感演变的影响更大,此后随着官方的积极情绪引导和民众消极情绪缓解,微博文本的整体情感呈稳步上升趋势。
图9 台风“利奇马”期间浙江省台风微博情感变化瀑布图

Fig. 9 The waterfall diagram of sentiment change in Zhejiang province during Typhoon Lekima

5 结论与展望

5.1 结论

本研究结合新浪微博数据和气象数据探讨了台风微博灾情响应的有效性,并采用LDA主题模型、网络社团模型和情感分析等技术挖掘了台风灾害时期微博文本的主题演变和情感趋势等信息,进一步比较了官方微博文本和民众微博文本在话题和情感表达中的差异。首先爬取台风相关新浪微博,从词频变化、关注度时空演变以及特定灾害事件跟踪3个角度论证了台风微博反映台风灾害的有效性;其次利用LDA主题模型分析了微博文本的主题演变,采用Louvain算法进一步挖掘主题社团结构,比较了官方微博文本与民众微博文本在主题表达上的差异性;最后构建了情感词典的分析方法,并与SnowNLP比较,2种方法择优选择对所有微博文本计算情感指数,并探讨用户差异下的情感演变的差异。本文主要结论如下:
(1)在省级范围内,微博数据能有效跟踪台风动态和反映灾害时空分布。台风微博数据经标准化处理后能一定程度消除地区用户基数与活跃度差异,从而能更准确地反映地区对台风动态的实际关注度,在特定灾害事件中关键词经标准化后能够准确识别主要受灾地区。
(2)台风事件微博文本的主题变化反映了灾情各阶段舆论关注点的动态变化,“民众动态”类微博文本占比表现为“昼少夜多”的特征,“灾害预警”类在灾害前期占比相对较高,随后表现为下降趋势,“灾情信息”类在台风登陆后有所上升,并保持相对较高占比;“救援信息”类的峰值则出现在灾害后期。
(3)官方微博数据与民众微博数据表现为不同主题社团结构特征,二者主题模块度分别为0.571和0.055,表明官方微博文本主题社团结构高度划分,而民众微博文本主题之间区分度不高,在划分社团时若不将二者区分前者的层次化结构特征往往会被“稀释”。
(4)台风事件微博文本中的整体情感在台风登陆前一天始终表现为消极,并在台风登陆后程度加深,官方与民众在微博文本中的情绪表达方面存在差异,民众在台风灾害中的情绪变化稍早于官方,后者出于舆论引导等原因情感表达始终相对积极。

5.2 展望

由于新浪微博不提供每条微博的经纬度,因此微博数据的位置信息仅能根据用户发文时的签到地址查询经纬度获取。鉴于签到用户仅占少数,且部分用户在签到时选取了县市级地名等模糊地址,而此类信息通常无法反映用户准确的发文位置,加之本文在相对较小的空间范围和时间跨度下开展研究,带有精确地址的微博数量有限,导致本文在时空分析方面较为薄弱。后期将进一步挖掘微博的位置信息,并从更大空间范围和时间跨度探讨灾害时空演变和分析不同主题下微博话题的持续周期,进而分析不同群体在社交媒体上对灾害的响应差异。另外,将根据用户属性细化用户分类,研究不同类型用户在灾害影响不同时期的话题关注度变化,进而分析台风期间不同群体在社交媒体上发挥的作用。
[1]
李钢, 邱新法, 张眉, 等. 浙江省台风灾害直接经济损失评估模型[J]. 热带地理, 2014, 34(2):178-183.

[ Li G, Qiu X F, Zhang M, et al. Direct economic losses assessment of typhoon disaster in Zhejiang Province[J]. Tropical Geography, 2014, 34(2):178-183. ]

[2]
郭云霞, 侯一筠, 齐鹏. 中国东南沿海区域台风数值模拟与危险性分析[J]. 海洋科学, 2020, 44(4):1-12.

[ Guo Y X, Hou Y J, Qi P. Typhoon wind numerical simulation and risk analysis for southeast coastal region of China[J]. Marine Sciences, 2020, 44(4):1-12. ]

[3]
Li Z L, Wang C Z, Emrich C T, et al. A novel approach to leveraging social media for rapid flood mapping: A case study of the 2015 South Carolina floods[J]. Cartography and Geographic Information Science, 2018, 45(2):97-110.

DOI

[4]
Hao H, Wang Y. Leveraging multimodal social media data for rapid disaster damage assessment[J]. International Journal of Disaster Risk Reduction, 2020, 51:1-13.

[5]
Erdelj M, Król M, Natalizio E. Wireless sensor networks and multi-UAV systems for natural disaster management[J]. Computer Networks, 2017, 124:72-86.

DOI

[6]
Guan X Y, Chen C. Using social media data to understand and assess disasters[J]. Natural Hazards, 2014, 74(2):837-850.

DOI

[7]
Kryvasheyeu Y, Chen H, Obradovich N, et al. Rapid assessment of disaster damage using social media activity[J]. Science Advances, 2016, 2(3):e1500779.

DOI

[8]
Chae J, Thom D, Jang Y, et al. Public behavior response analysis in disaster events utilizing visual analytics of microblog data[J]. Computers & Graphics, 2014, 38:51-60.

DOI

[9]
Huang Q, Cervone G, Jing D, et al. DisasterMapper: A CyberGIS framework for disaster management using social media data[C]// Proceedings of the 4th International ACM SIGSPATIAL Workshop on Analytics for Big Geospatial Data. ACM, 2015:1-6.

[10]
Huang Q, Cervone G, Zhang G. A cloud-enabled automatic disaster analysis system of multi-sourced data streams: An example synthesizing social media, remote sensing and Wikipedia data[J]. Computers, Environment and Urban Systems, 2017, 66(1):23-37.

DOI

[11]
Neppalli V K, Caragea C, Squicciarini A, et al. Sentiment analysis during Hurricane Sandy in emergency response[J]. International Journal of Disaster Risk Reduction, 2017, 21:213-222.

DOI

[12]
Chen S, Mao J, Li G, et al. Uncovering sentiment and retweet patterns of disaster-related tweets from a spatiotemporal perspective: A case study of Hurricane Harvey[J]. Telematics and Informatics, 2020, 47:1-18.

[13]
Alam F, Ofli F, Imran M. Descriptive and visual summaries of disaster events using artificial intelligence techniques: Case studies of Hurricanes Harvey, Irma, and Maria[J]. Behaviour & Information Technology, 2020, 39(3):288-318.

[14]
陈梓, 高涛, 罗年学, 等. 反映自然灾害时空分布的社交媒体有效性探讨[J]. 测绘科学, 2017, 42(8):44-48,129.

[ Chen Z, Gao T, Luo N X, et al. Empirical discussion on relation between realistic disasters and social media data[J]. Science of Surveying and Mapping, 2017, 42(8):44-48,129. ]

[15]
杨腾飞, 解吉波, 李振宇, 等. 微博中蕴含台风灾害损失信息识别和分类方法[J]. 地球信息科学学报, 2018, 20(7):906-917.

DOI

[ Yang T F, Xie J B, Li Z Y, et al. A method of typhoon disaster loss identification and classification using micro-blog information[J]. Journal of Geo-Information Science, 2018, 20(7):906-917. ]

[16]
梁春阳, 林广发, 张明锋, 等. 社交媒体数据对反映台风灾害时空分布的有效性研究[J]. 地球信息科学学报, 2018, 20(6):807-816.

DOI

[ Liang C Y, Lin G F, Zhang M F, et al. Assessing the Effectiveness of Social Media Data in Mapping the Distribution of Typhoon Disasters[J]. Journal of Geo-information Science, 2018, 20(6):807-816. ]

[17]
张岩, 李英冰和郑翔.基于微博数据的台风“山竹”舆情演化时空分析[J]. 山东大学学报(工学版), 2020, 50(5):118-126.

[ Zhang Y, Li Y B, Zheng X. Spatial and temporal analysis of network public opinion evolution of typhoon"Mangkhut"based on Weibo data[J]. Journal of Shandong University(Engineering Science), 2020, 50(5):118-126. ]

[18]
Chen J T, She J. An analysis of verifications in microblogging social networks-Sina Weibo[C]// Proceedings of the 32nd IEEE International Conference on Distributed Computing Systems Workshops (ICDCSW). IEEE, 2012:147-154.

[19]
王晰巍, 张柳, 黄博, 等. 基于LDA的微博用户主题图谱构建及实证研究——以“埃航空难”为例[J]. 数据分析与知识发现, 2020, 4(10):47-57.

[ Wang X, Zhang L, Huang B, et al. Constructing topic graph for Weibo users based on LDA: case study of“Egypt Air Disaster”[J]. Data Analysis and Knowledge Discovery, 2020, 4(10):47-57. ]

[20]
Graham M W, Avery E J, Park S. The role of social media in local government crisis communications[J]. Public Relations Review, 2015, 41(3):386-394.

DOI

[21]
Chatfield A T, Reddick C G. All hands on deck to tweet #sandy: Networked governance of citizen coproduction in turbulent times[J]. Government Information Quarterly, 2018, 35(2):259-272.

DOI

[22]
Kogan M, Palen L, Anderson K M. Think local, retweet global: retweeting by the geographically- vulnerable during Hurricane Sandy[C]// Proceedings of the 18th ACM Conference on Computer Supported Cooperative Work & Social Computing. ACM, 2015:981-993.

[23]
应急管理部救灾和物资保障司. 应急管理部公布2019年全国十大自然灾害[EB/OL]. https://www.mem.gov.cn/xw/bndt/202001/t20200112_343410.shtml, 2020-01-12.

[ Disaster Relief and Material Support Division, Ministry of Emergency Management of the People's Republic of China. Ministry of Emergency Management announced 10 major natural disasters in 2019[EB/OL]. https://www.mem.gov.cn/xw/bndt/202001/t20200112_343410.shtml, 2020-01-12.

[24]
人民网舆情数据中心. 2019年政务指数·微博影响力报告[EB/OL]. http://yuqing.people.com.cn/NMediaFile/2020/0117/MAIN202001171722000261251830504.pdf,2020-01-17.

[Public Opinion Data Centre of People's Daily Online. Government affairs index microblog influence report 2019[EB/OL]. http://yuqing.people.com.cn/NMediaFile/2020/0117/MAIN202001171722000261251830504.pdf,2020-01-17.

[25]
Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of machine Learning research, 2003, 3:993-1022.

[26]
方东昊. 基于LDA的微博短文本分类技术的研究与实现[D]. 沈阳:东北大学, 2011.

[ Fang D H. Study and implementation for Microblog's short text classification based on LDA[D]. Shenyang: Northeastern University, 2011. ]

[27]
王鹏, 高铖, 陈晓美. 基于LDA模型的文本聚类研究[J]. 情报科学, 2015, 33(1):63-68.

[ Wang P, Gao C, Chen X M. Research on LDA model based on text clustering[J]. Information Science, 2015, 33(1):63-68. ]

[28]
Xiao H, Stibor T. Efficient collapsed gibbs sampling for latent dirichlet allocation[C]. Proceedings of 2nd Asian Conference on Machine Learning, 2010.

[29]
吴祖峰, 王鹏飞, 秦志光, 等. 改进的Louvain社团划分算法[J]. 电子科技大学学报, 2013, 42(1):105-108.

[ Wu Z F, Wang P F, Qin Z G, et al. Improved Algorithm of Louvain Communities Dipartition[J]. Journal of University of Electronic Science and Technology of China, 2013, 42(1):105-108. ]

[30]
Blondel V D, Guillaume J L, Lambiotte R, et al. Fast unfolding of communities in large networks[J]. Journal of Statistical Mechanics: Theory and Experiment, 2008, 2008(10):1-12.

[31]
黄天诚. 基于图着色的并行Louvain社区发现算法研究[D]. 长春:吉林大学, 2016.

[ Huang T C. Design of parallel Louvain method for community detection algorithm based on graph coloring[D]. Changchun: Jilin University, 2016. ]

[32]
Chen C, Chen J, Shi C. Research on credit evaluation model of online store based on SnowNLP[C]// Proceedings of the 3rd International Conference on Advances in Energy and Environment Research (ICAEER). EDP Sciences, 2018:1-4.

文章导航

/