Analysis of Public Opinion Evolution in COVID-19 Pandemic from a Perspective of Sentiment Variation

  • ZHANG Chen , 1 ,
  • MA Xiangyuan 1 ,
  • ZHOU Yang 1 ,
  • GUO Renzhong , 1, 2, *
Expand
  • 1. School of Resource and Environmental Sciences, Wuhan University,Wuhan 430079, China
  • 2. Research Institute for Smart Cities, School of Architecture and Urban Planning, Shenzhen University, Shenzhen 518060, China
* GUO Renzhong, E-mail:

Received date: 2020-05-20

  Revised date: 2020-07-21

  Online published: 2021-04-25

Supported by

China Postdoctoral Science Foundation(2019M663070)

Copyright

Copyright reserved © 2021.

Abstract

As a Public Health Emergency of International Concern (PHEIC), the COVID-19 pandemic caused great concern in social media all over the world. The content of Weibo comments is a collection of users' perceptions, attitudes, tendencies, and behaviors of the pandemic, and provides a high-timeliness and high-sequence text corpus for public opinion evolution research based on sentiment analysis. In this paper, we used a corpus obtained from People's Daily on Weibo during COVID-19 pandemic (January 23 - April 8, 2020) as our research data. First, we extracted emotional tendencies to classify text comments into positive and negative sentiments with SnowNLP, a Chinese natural language processing tool. Second, based on the Single-Pass clustering algorithm, we implemented text cluster analysis to explore hot topics about the pandemic situation. Moreover, we realized the information mining about public attention by using the Louvain community analysis algorithm. (1) On temporal dimension, the result of daily emotional trend analysis shows that the public has experienced three emotional phases, which are a period presenting anxiety and fear (January 23 - February 18), a period presenting steadiness and confidence (February 19 - March 15) and a period presenting tension and concern (March 16 - April 8). (2) On a spatial dimension, joint analysis of the number of users, the emotional states, and emotional projections among different provinces shows obvious differences in the public attention and emotional value of the COVID-19 pandemic. Additionally, for those Weibo users in COVID-19 affected areas, the level of their online participation is positively correlated with the pandemic severity and the value of the emotional state and emotional projection is lower. Meanwhile, those in worst-hit areas tend to have a higher impact on the evolution of public opinion. The results show that Weibo users in Guangdong Province and Heilongjiang Province have high levels of attention and low averages of emotional state and emotional projection. It can be judged the two provinces are still facing great pressure for pandemic prevention and control. Although Hubei Province is most affected by the pandemic, with a low emotional state value but a high emotional projection value, it is speculated Weibo users' comments on Hubei Province are more encouraging and praised. In addition, the number of confirmed cases in the northwestern region is relatively small, and the number of comment participation is less than in other regions, but the averages of emotional state and emotional projection are higher. The research applies natural language processing and network community detection algorithms to construct a methodological framework of public opinion analysis for social media comments. The developed framework has promising potentials, as it provides theoretical and practical support for related research on major public events.

Cite this article

ZHANG Chen , MA Xiangyuan , ZHOU Yang , GUO Renzhong . Analysis of Public Opinion Evolution in COVID-19 Pandemic from a Perspective of Sentiment Variation[J]. Journal of Geo-information Science, 2021 , 23(2) : 341 -350 . DOI: 10.12082/dqxxkx.2021.200248

1 引言

面对新型冠状病毒感染肺炎的全球大流行,我国反应迅速,积极采取“扩大检测、应收尽收”的防治策略,在短时间内实现了疫情的有效控制[1,2]。国内的疫情防控形势持续向好,多地已在“内防反弹、外防输入”的策略指导下,积极推动“复工复产”[3,4]。近年来,基于实时性、互动式、多元化等特征的社交媒体,如微博、知乎等,已成为传播热点事件、反映社情民意和度量网络舆情的重要媒介[5],而人民日报、央视新闻等权威媒体的疫情报道,更是在疫情期间成为网络用户及时掌握疫情演变讯息的可靠渠道。疫情背景下,社交媒体的兴起为公众对热点事件的表达和分享提供了便捷化的主题选择和内容自定义途径[6],以微博为代表的社交媒体中的高现势性和高时序性评论数据作为舆情信息基底,有效支撑了传播机理探索、驱动因素挖掘、演化态势预测、舆论监控引导及事件预警防控等主题研究[7,8]。因此,基于社交媒体评论数据的舆情分析,有助于辅助决策机构尽早掌握群众切实关注的问题,更好地构建“群策群力、群议群定”的立体化、多层次全民交流网络,促进相关舆情应对和舆论引导工作由事后管理、部件管理和被动管理向事前管理、事件管理和主动管理的全面转变[9]。本文旨在依托疫情背景探究情感变化并拓展舆情研究方法,利用社交媒体评论数据,通过自然语言处理及社团网络算法挖掘和分析疫情期间有价值的舆情信息以供决策者参考,并为舆情研究提供一种情感信息抽取与时空数据分析的框架和理论依据。
社交媒体数据已成为评估事态发展及制定政策的重要信息源,在城市人群行为分类、热点事件信息挖掘、时空过程建模等研究中都有体现,广泛应用于政府平台建设和城市规划等方面[10,11,12]。近年来,国内外基于社交媒体数据的舆情分析逐渐兴起:在数据类型层面,Li[13]利用微博数据分析了一批热点事件的舆情变化并划分为4种类型,发现网络媒体在事件发展过程中对于舆情走向影响显著。王宏俐[14]等以Twitter平台上脱欧进程的十大关键事件推文为研究对象,结合层次分析与质性解读方法,探讨脱欧事件的社会影响及传播机制。在研究方法层面,吴娱[15]对网络舆情研究进行需求分析,提出了基于语义改进的机器学习文本倾向性分析方法。裴韬等[16]提出了一套面向公共安全事件的网络文本结构化框架,为地图可视化与舆情监控提供了语义技术参考。Han等[17]通过LDA主题模型与随机森林算法对新冠疫情相关微博进行了主题分类,探索随时间变化的主题演变规律并提出早期舆情针对策略。在内容选取层面,王敬泉等[18]使用微博文本探究公众对于突发安全事件的关注而产生的舆情传播模式,揭示了事件发生地与用户距离和关注度之间的相关关系。陈兴蜀等[19]以新冠疫情主题的微博为语料,基于K-Means算法聚类获取微博热点话题,可视化展现了疫情期间网络舆情的时空演化。
既有研究多以社交媒体的博文主题展开,而聚焦形式多样和语用功能丰富的评论文本,可以深化情感分析的舆情研究。本文以人民日报官微疫情通报的评论内容为研究对象,使用中文情感分析工具SnowNLP训练并建立情感分析模型,进一步引入Single-Pass文本聚类算法[20]将评论语料进行主题提取以展现新冠疫情期间公众的关注热点。然后借由空间分析方法,量化展示不同区域的网络用户对于疫情发展的关注情况和情感特征,结合疫情实际严重程度和相关报道进行结果验证和解读。

2 数据获取与处理

微博的公开性、传播性、即时性延展了新闻话题的传播效率和受众渠道,从而汇集了大量的社群评论。作为一种社交媒体中的自然语言,微博评论反映了用户对公共事件的态度和看法,具有很大的研究意义和参考价值,对其内容的情感倾向性分析可以展现研究事件的舆情趋势[21]。微博用户同时是信息接收者和传播者,用户的参与让微博评论内容具有观点广泛和指向明确等特征,所以微博评论比微博主题本身更能影响舆论走向[22],而网络爬虫在获取文本内容时具有优势,是一种重要的自动获取网络数据方式[23]
2020年1月23日,受新冠肺炎疫情影响,湖北省武汉市实行“封城”政策。2020年4月8日,武汉市解除“封城”。期间内全国各地迅速启动并开展疫情防控工作,与新冠肺炎疫情有关的微博讨论活跃度高,“人民日报”微博发布的每日疫情报道下汇集了大量的评论内容。因此,本文以1月23日至4月8日(共计76 d)“人民日报”每日通报全国新冠疫情的微博评论(简称“疫情通报”)为爬取对象[24],以一条微博为一个目标单元,一天为一个时间节点,共获取疫情通报微博及其评论61 376条。每条微博抓取内容包括:话题链接、发布日期、话题内容、转发量、评论量和点赞量。每条微博评论抓取内容包括:评论者ID、评论者性别、评论者地址、评论日期、评论内容。获得的数据均以csv文本的形式存储,并对文本进行数据清洗。该过程去除了微博评论中无评论内容的记录以及评论内容仅为数字、标点符号(如!,?,.....)、转发信息(@***)以及非中文评论的记录。得到的微博话题及评论数据示例如表1表2所示。
表1 “疫情通报”微博内容数据格式

Tab. 1 Data format of Weibo content

话题ID 日期 转发/次 评论/次 点赞/次 微博内容
4464171633076141 2020-01-24 3146 10 028 188 687 #全国确诊新型肺炎病例#【#29省累计新冠肺炎确诊病例830例#】1月23日0—24时……
4464534334753932 2020-01-25 16 249 75 005 184 301 全国确诊新型肺炎病例#【#全国新增444例新型肺炎确诊病例# 累计确诊1287例】国家卫健委通报,1月24日0—24时……
4468152664621792 2020-02-04 894 1563 8871 【#全国新增确诊3235例#,#全国累计确诊20 438例#】2月3日0—24时……
表2 “疫情通报”微博评论数据格式

Tab. 2 Data format of Weibo comments

评论者ID 性别 地址 日期 评论内容示例
1939099823 m 其他 2020-01-30 感谢奋战在疫区一线的医务人员,人民警察,防疫人员,人民子弟兵,夜以继日工作的火神山医院工程建设者
6996680055 f 上海 2020-01-30 没办法复工了损失惨重
6047870405 f 四川 2020-02-07 快点儿好起来中国加油
5470355309 m 海南 2020-03-03 外防输入,内防扩散
5492496027 f 广东 2020-04-05 怎么新增这么多

3 研究方法

3.1 研究框架

本文以“人民日报”每日疫情通报下用户评论为目标语料作为数据基础,通过开源中文自然语言处理工具包SnowNLP进行语料情感评分,然后使用Single-Pass聚类算法找寻评论内容中的热点话题,在此基础上开展了时空间维度的数据分析。时间维度上,根据每日情感数值、热点话题比重等指标开展情感变化趋势和舆情话题演变2个方面研究,展现不同时间段内的公众情绪与关注热点,为揭示用户情感变化的归因提供依据;空间维度上,根据评论内容从用户分布特征、用户情绪特征和社团情感网络3个方面以地图和网络形式展现省级尺度下微博用户对疫情的关注度分布和用户群体的情绪差异。分析时参照实际的疫情严重程度与相关事实报导,对分析结果进行验证,展现舆情情感分析方法在重大事件中的理论意义与社会价值。本文研究框架如图1所示。
图1 舆情演变时空分析研究框架

Fig. 1 Research framework of spatio-temporal analysis of public opinion evolution

3.2 相关技术

3.2.1 情感值计算
SnowNLP的情感值计算以朴素贝叶斯分类算法为理论基础,属于生成式分类算法,计算公式为:
P 类别 | = P | 类别 P 类别 P
基于已标注完成的训练数据计算先验概率 P ( 类别 ) ,使用其内置的分词工具和去停用词工具对语料进行精简处理并计算每个词出现的概率 P ( ) 及不同类别的词出现的概率 P ( | 类别 ) ,最后计算目标词汇属于正类或负类的后验概率 P 类别 | 来判断出词汇的所属类别,且将该概率值作为情感值。
3.2.2 Single-Pass聚类
Single-Pass算法不需要指定类目数,通过设定相似度阈值控制聚类团簇的数量,在聚类过程中只对数据进行一次遍历。本文主题聚类的算法流程如下:
(1)以语料库中的第一条语料为种子语料,建立第一个话题 T 0 ;
(2)通过TF-IDF算法将语料中的每一条评论转为文本向量 V 1 , V 2 , V 3 , , V n ;
(3)设置相似度阈值S,并将 V 1 , V 2 , V 3 , , V n 依次与已有话题中的文本向量(第一次是 V 0 )做相似度计算;
(4)将相似度计算结果大于阈值S的文本划归到所属话题(第一次是 T 0 )内,若无小于阈值的文本则跳转至⑹;若存在小于阈值的文本则跳转至下一步;
(5)建立新话题 T n (n=1,2,3,……),将相似度小于阈值S的文本放入新话题内,具有话题归属的文本不再参与步骤(3),其余文本继续进行步骤(3)直至所有文本归属到所建立的话题类别中;
(6)聚类结束,语料主题提取完成。

4 结果与分析

4.1 时序分析

4.1.1 情感随时间变化分析
情感分析又称倾向性分析,是指对主观性文本中蕴含的情感倾向进行抽取和分类识别[25]。微博评论是用户在某一微博话题中发表的主观见解或者建议,可从中挖掘出评论者对于事件、事物、人物等对象的倾向性。情感倾向在分类时通常可分为积极和消极(正面和负面)2种,本文在标注数据时,以情绪类别中的“高兴”、“喜悦”、“希望”、“赞扬”、“鼓励”、“振奋”为积极倾向的情感,以“惊讶”、“恐惧”、“悲伤”、“生气”、“厌恶”、“焦虑”、“呼吁”、“祈求”为消极倾向的情感。SnowNLP的情感分析原理以朴素贝叶斯分类算法为理论基础[26],使用[0, 1]之间的概率值作为情感值得分。当情感值范围为[0, 0.5 )表明该语料的情感表达为负面情感,当情感值范围为[0.5, 1]之间则表明语料的情感表达为正面情感。本文将每日微博评论的均值作为当日评论情感值,生成用户情感值趋势图(图2)。
图2 疫情期间用户正负情感值趋势

Fig. 2 Trend of positive and negative sentiment values during COVID-19 pandemic

由曲线走势可看出,从1月24日到4月8日的网络用户情感值可以分为3个阶段,分别为“1月 24日—2月18日(26 d)”、“2月19日—3月15日 (26 d)”、“3月16日—4月8日(24 d)”。第一阶段用户情绪呈现由消极转为积极的情感值上升态势;第二阶段用户情绪呈现平稳状态,情感值均值保持在0.5上下;第三阶段情绪波动较大,极值下降到0.2以下,且多数为负向情绪。
本文结合该期间疫情发展变化与实际相关事件报道对此现象进行了分析解读:
(1)第一阶段为正向情绪上升期,由于新型冠状病毒出现的偶然性、疫情爆发和蔓延形势的突发性及响应和防控任务的迫切性,初期整体情感值较低,消极情感占据主流;但随着各地联防联控、群防群控、内防外控等应急战疫机制的启动,严格检测、追踪观察、隔离治疗等有效防疫措施的落实,疫情逐渐得到控制,多数网络用户受到慰勉,出现了大量如“武汉加油”、“湖北挺住”和“国家做的已经很好了”的评论。该阶段每日情感值均值多分布在0.5以上,体现为正面情感,重要事件如“自2月12日起新增治愈出院数超1000人”,重要的时间节点如“每日治愈人数首次超过每日新增人数”也出现在该时间段内,所以在此期间呈现出情感值由低到高,情绪由消极到积极的正向情绪上升态势。
(2)第二阶段为平稳期,2月19日以后各地陆续推进复工复产,国内除湖北外的其他地区疫情得到有效控制,“现有确诊”这一指标出现拐点,开始出现下降态势,实现病例清零、结束经济停摆和恢复生活有序等群体性的心理期望使得用户情绪呈现稳定状态,期间大多数评论都是赞扬国家防控措施有力高效,如“越来越好了”、“胜利曙光”等用词,每日情感值保持在0.5左右,网络用户的情绪更多表现为希望、振奋。
(3)第三阶段为下降期,根据疫情发展实际情况,3月16日以后国内疫情防控持续向好,复工复产已经达到一定规模,但国际疫情危机持续严重,且境外输入型病例陆续出现,战疫工作重心开始由“内控”转向“外防”。在此背景下情感值开始下降,用户担忧输入型病例对既有防疫成果的潜在影响,以及造成疫情危机二次复发的隐忧,因此评论中集中表达了诸如“严防境外输入”、“严格管控隔离”等对境外归国人员的关切,情感值到达了前所未有的最低点。
4.1.2 热点话题演变分析
为进一步探索新冠疫情期间网络用户的话题关注热点从而明确舆论导向,研究使用Single-Pass算法进行了评论语料的聚类分析,构建了以每日话题讨论比重为指标的主题河流图(图3)以展示用户关注的热点话题。
图3 疫情期间微博评论热点主题演变

Fig. 3 The evolution of hot topics in Weibo comments during the pandemic

根据文本聚类结果定义出排名前十的热点话题词分别为“湖北武汉”、“加油”、“境外输入”、“新增”、“越来越好”、“开学”、“广东”、“好消息”、“结束”、“北京”,且以不同比重和频率纵贯3个阶段。如图3所示,用户在第一阶段(1月24日—2月18日)和第二阶段(2月19日—3月15日)讨论较多的主题为“湖北武汉”、“加油”、“新增病例”。值得注意的是第二阶段中“境外输入”主题占比的快速上升,大量用户开始集中发评与“境外输入”有关内容,造成了该主题占比的剧增。在第三阶段(3月16日— 4月8日),“境外输入”主题占据了每日讨论内容的绝大部分,“广东”和“北京”等话题在此阶段内与“境外输入”主题具有同步增长的响应关系。此外,3月下旬后“开学”也逐渐成为后期占比较大的一个话题。

4.2 空间分析

4.2.1 评论用户数量分布
本文基于评论用户的位置信息,统计微博热门评论用户分布,以此反映地区用户对疫情话题的讨论热度和对疫情发展形势的关注度(图4)。有关“新冠肺炎疫情”的讨论覆盖全国各省级行政区;其中,所在地为广东、北京和湖北的评论用户占比分别高达14%、11%和8%,这些地区微博活跃用户人数和话题评论数量远多于其他行政区,均为本次疫情确诊人数最多和防控压力最高的地区,因此用户对疫情防控和发展趋势的关注度最高。参与讨论人数占比超过5%的行政区依次为山东、江苏、上海、浙江和四川,均为本次疫情蔓延较为严重的地区,这与前期地区确诊数量持续攀升及后期境外输入病例快速增加的现状具有同步关系。西南、西北如内蒙古等多个行政区疫情严重程度较低,且得益于严格及时的疫情防控应对机制,其评论人数较少,疫情话题参与度较低。
图4 1月23日—4月8日的累积评论人数与截止至4月8日的累计确诊人数省际分布

注:该图基于自然资源部标准地图服务网站下载的审图号为GS(2019)1825号的标准地图制作,底图无修改。

Fig. 4 Provincial distribution of the cumulative number of reviews from January 23 to April 8 and the cumulative number of confirmed cases up to April 8

4.2.2 情绪状态与投射特征
疫情中的事件作为一般背景会对受众产生强度和持续性不一的心理刺激和影响,从而使微博用户产生系列的心境、激情和应激方面的倾向性反应,称之为情绪表现[27]。疫情背景下微博用户的情绪活动在强度、速度和持续时间上的综合情绪表现我们称为“所在地情绪状态”。同时,个体对非本地疫情事件关注引起的无意识状态下的情绪的主观指向和特征转移我们称为“评论地情绪投射”。将正向和负向情绪表现均值作为地区的评价指标,从所在地情绪状态值和评论地情绪投射值2个维度来进行微博用户的情感关注度空间分析,并且通过生成专题地图更直观地反映数量特征。
图5(a)所示,广东省和黑龙江省的情绪状态值最低,分别为0.3537和0.3912,说明受本地确诊病例长期未清零、境外输入性病例不断出现、联防联控超长隔离期的持续影响等,本地疫情的客观严重性造成用户情绪普遍低落,心情愉悦度低。北京、上海、湖北、四川和福建等行政区为情绪状态次低区,情绪状态均值分布在0.3912~0.4476之间,这类地区早期为受疫情蔓延较为严重的行政区,后期境外输入性病例增加较多,导致微博用户多数有负向情绪及很低的心情愉悦度。陕西等18个行政区情绪状态值在0.4476~0.5000之间,属于疫情严重程度一般地区,用户情感值适中。青海、贵州、江西、安徽和湖南等9个行政区的情绪状态值均在0.5以上,这类地区疫情严重程度较低,受输入性病例影响极小,用户情绪倾向较为积极,心情愉悦度高。在图5(b)中,青海的情绪投射值最高为0.4851,西藏的情绪投射值为0.3247且高于除湖北省外的其他行政区,由于较低的确诊病例数、较快清零和保持了输入性病例为零的记录,用户对其疫情防控成效具有较好的评价。疫情严重地区湖北情绪投射值为0.4389,表明微博用户对其疫情发展形势关注度高,正向的鼓励性评价较多。天津、黑龙江等14个行政区的情绪投射均值都分布在0.1以下,显示微博用户对这类地区的疫情防控情况和疫情发展趋势的评论多为负面情感。
图5 用户情绪状态值与情绪投射值省际分布

注:该图基于自然资源部标准地图服务网站下载的审图号为GS(2019)1825号的标准地图制作,底图无修改。

Fig. 5 The map of sentiment states and emotional projections

4.2.3 舆情社团网络挖掘
社团结构是复杂网络的一种由边和节点组织的拓扑结构,舆情网络社团是一组由行政区点位与有向共现词链接组成的集合。根据节点间的共现词链,将行政区节点一个个划分到具有分层结构的群组化社团,并根据社团结构信息布局来展示社交网络数据属性的过程称为舆情网络社团发现[28]。相关的社团发现算法主要分为分裂的算法和凝聚的算法[29]。本文采用一种具有较低时间复杂度的凝聚算法,即Louvain算法。本文从获取到的微博文本中筛选出含有发评所在地地名的用户(Source),从分词文本中检索出含省级行政区或下辖城市地名信息的词条(Target)得到34个省级行政区(节点)之间的有向链接(边)信息分别为631条(图6(a))和585条(图6(b)),对同向节点间信息进行合并得到边的权重值。如所在地为北京市用户评论“湖北加油”或“武汉挺住”,此时便建立了节点间的有向链接,由北京指向湖北。利用Gephi[30]分别对行政区间的被提及次数和情感值构建有向网络图。
图6 被提及次数社团结构与舆情社团网络

Fig. 6 Community structure of the number of users and public opinions

图6(a)所示,利用软件Modularity模块基于模块度进行社团结构检测,将34个行政区划分为 7个社团。模块度计算结果为0.483,说明各行政区具有良好层次化社团结构特征。节点大小代表行政区的加权度,反映节点在舆情社团中的层次;节点间不同粗细的边代表被提及次数合并的权值,边的链接数量代表节点的互评次数,二者共同反映节点在舆情网络中的被关注度高低。结果发现湖北为加权度最大,被提及次数最多,舆情被关注度最高的地区。西藏的被提及频数次之,舆情被关注度高于除湖北外的其他行政区。广东和四川为第三级节点,微博评论中的被提及次数和被关注度也明显高于其他行政区。
图6(b)中节点间不同粗细的边代表情绪值合并的权值,节点大小反映了节点作为评论地区和被关注地区在舆情网络中的组成重要性。模块度计算结果为0.027;结果显示湖北省的情绪加权度最高,作为国内疫情最严重地区,湖北是参与度最高的省份,且参与用户的平均情感值最高。其次,作为确诊病例较早、防疫响应启动较快及境外人员输入较多的地区,北京和广东在网络中也具有较高的参与度。整体来看,各行政区的舆情参与度与微博评论人数和疫情严重程度(图4)等定量参数,以及防控应对成效、境外输入形势和热点事件演化等定性方面具有高度的关联性。

5 结论与展望

重大公共事件经网络传播、时间推移、情绪发酵,往往会引起网络用户的讨论并且形成极强的主观倾向性,掌握重点区域的舆情走势在网络舆情引导、社会综合治理等方面具有重要意义。为研究疫情期间微博用户的情感状况和讨论热点,本文爬取了1月23日—4月8日的每日疫情通报微博评论内容,基于SnowNLP和Single-Pass进行评论内容的情感分析与文本聚类并开展新冠疫情网络舆情演变的时空分析,结果表明:
(1)在此期间评论用户经历了焦虑害怕(1月24日—2月18日)、平稳自信 (2月19日—3月15日)和紧张担忧(3月16日—4月8日)的情感更迭阶段。
(2)各省份评论用户对于疫情的关注度和情感表现不同,疫情越严重地区的微博用户通常参与度越高且情绪状态与投射值越低,同时在舆情演变过程中对情感趋势的影响更大。
(3)不同省份在舆情社团网络中的话题参与程度具有差异性,与疫情严重程度、防控应对成效和热点事件演化等方面紧密关联。
本文针对新冠疫情这一重大突发公共卫生事件进行舆情分析,有利于重点区域的疫情防控及感染人员的增减预测。基于此构建出的舆情分析方法框架,将数据获取、指标评定、信息抽取、时空分析、可视化表达等环节进行分解,引入自然语言处理技术与社团网络发现算法解析复杂文本语料和挖掘不同区域指标信息,可为重大公共事件的舆情分析与评价提供借鉴和参考依据。
对于文本语料的选取,本文仅将微博评论作为对象,评论者多为活跃于社交媒体的青年群体,未能覆盖全年龄段的网络用户,后续相关研究将使用不同类型媒体平台数据更加全面地抽取舆情信息。此外,SnowNLP的情感分析对公众倾向性明确的评价能够准确识别,但对于倾向性相对模糊或偏向中立公众情感则较难获取正确评分。因此,通过引入情感分析神经网络模型来改进评分的合理性[31],也是未来开展舆情研究工作的一个主要方向。
[1]
Chen S, Yang J, Yang W, et al. COVID-19 control in China during mass population movements at New Year[J]. The Lancet, 2020,395(10226):764-766.

DOI

[2]
冯明翔, 方志祥, 路雄博, 等. 交通分析区尺度上的COVID-19时空扩散推估方法——以武汉市为例[J]. 武汉大学学报·信息科学版, 2020,45(5):651-657,681.

[ Feng M X, Fang Z X, Lu X B, et al. Traffic analysis zone-based epidemic estimation approach of COVID-19 based on mobile phone data: An example of Wuhan[J]. Geomatics and Information Science of Wuhan University, 2020,45(5):651-657,681. ]

[3]
Altmann D M, Douek D C, Boyton R J. What policy makers need to know about COVID-19 protective immunity[J]. The Lancet, 2020,395(10236):1527-1529.

DOI

[4]
Prem K, Liu Y, Russell T W, et al. The effect of control strategies to reduce social mixing on outcomes of the COVID-19 epidemic in Wuhan, China: A modelling study[J]. The Lancet Public Health, 2020,5(5):e261-e270.

DOI PMID

[5]
王艳东, 李昊, 王腾, 等. 基于社交媒体的突发事件应急信息挖掘与分析[J]. 武汉大学学报·信息科学版, 2016,41(3):290-297.

[ Wang Y D, Li H, Wang T, et al. The mining and analysis of emergency information in sudden events based on social media[J]. Geomatics and Information Science of Wuhan University, 2016,41(3):290-297. ]

[6]
Garrett L. COVID-19: The medium is the message[J]. The Lancet, 2020,395(10228):942-943.

DOI

[7]
黄发良, 冯时, 王大玲, 等. 基于多特征融合的微博主题情感挖掘[J]. 计算机学报, 2017,40(4):872-888.

[ Huang F L, Feng S, Wang D L, et al. Mining topic sentiment in microblogging based on multi-feature fusion[J]. Chinese Journal of Computers, 2017,40(4):872-888. ]

[8]
陈梓, 高涛, 罗年学, 等. 反映自然灾害时空分布的社交媒体有效性探讨[J]. 测绘科学, 2017,42(8):44-48,129.

[ Chen Z, Gao T, Luo N X, et al. Empirical discussion on relation between realistic disasters and social media data[J]. Science of Surveying and Mapping, 2017,42(8):44-48,129. ]

[9]
黄晓斌, 赵超. 文本挖掘在网络舆情信息分析中的应用[J]. 情报科学, 2009,27(1):94-99.

[ Huang X B, Zhao C. Application of text mining technology in analysis of Net-Mediated public sentiment[J]. Information Science, 2009,27(1):94-99. ]

[10]
周艳, 李妍羲, 黄悦莹, 等. 基于社交媒体数据的城市人群分类与活动特征分析[J]. 地球信息科学学报, 2017,19(9):1238-1244.

DOI

[ Zhou Y, Li Y X, Huang Y Y, et al. Analysis of classification methods and activity characteristics of urban population based on social media data[J]. Journal of Geo-information Science, 2017,19(9):1238-1244. ]

[11]
苏凯, 程昌秀, Murzintcev N, 等. 主题模型在基于社交媒体的灾害分类中的应用及比较[J]. 地球信息科学学报, 2019,21(8):1152-1160.

DOI

[ Su K, Cheng C X, Murzintcev N, et al. Application and comparison of topic model in identifying latent topics from disaster-related tweets[J]. Journal of Geo-information Science, 2019,21(8):1152-1160. ]

[12]
Wang Z, Ye X, Tsou M H. Spatial, temporal, and content analysis of Twitter for wildfire hazards[J]. Natural Hazards, 2016,83(1):523-540.

DOI

[13]
Li S, Liu Z, Li Y. Temporal and spatial evolution of online public sentiment on emergencies[J]. Information Processing and Management, 2020,57(2):102177.

DOI PMID

[14]
王宏俐, 李王莹, 刘书凝, 等. “英国脱欧”社交网络舆情分析与启示[J]. 情报杂志, 2020,39(4):98-103.

[ Wang H L, Li W Y, Liu S N, et al. Research into Social Network Public Opinion on the "Brexit"[J]. Journal of Intelligence, 2020,39(4):98-103. ]

[15]
吴娱. 网络舆情分析关键技术研究与实现[D]. 成都:电子科技大学, 2011.

[ Wu Y. Research and realization of key technology of network public opinion analysis[D]. Chengdu: University of Electronic Science and Technology, 2011. ]

[16]
裴韬, 郭思慧, 袁烨城, 等. 面向公共安全事件的网络文本大数据结构化研究[J]. 地球信息科学学报, 2019,21(1):2-13.

DOI

[ Pei T, Guo S H, Yuan H C, et al. Public security event themed web text structuring[J]. Journal of Geo-information Science, 2019,21(1):2-13. ]

[17]
Han X, Wang J, Zhang M, et al. Using social media to mine and analyze public opinion related to COVID-19 in China[J]. International Journal of Environmental Research and Public Health, 2020,17(8):2788.

DOI

[18]
王敬泉, 王凯. 基于GIS的突发事件网络舆情传播可视化探究[J]. 测绘通报, 2019(12):142-146.

[ Wang J Q, Wang K. Research on the visualization of network public opinion of emergence spreading on GIS[J]. Bulletin of Surveying and Mapping, 2019(12):142-146. ]

[19]
陈兴蜀, 常天祐, 王海舟, 等. 基于微博数据的“新冠肺炎疫情”舆情演化时空分析[J]. 四川大学学报(自然科学版), 2020,57(2):409-416.

[ Chen X S, Chang T Y, Wang H Z, et al. Spatial and temporal analysis on public opinion evolution of epidemic situation about novel coronavirus pneumonia[J]. Journal of Sichuan University (Natural Science Edition), 2020,57(2):409416. ]

[20]
Shen D, Yang Q, Sun J, et al. Thread detection in dynamic text message streams [C]// International ACM SIGIR Conference on Research and Development in Information Retrieval, Washington, USA, 2006: 35-42.

[21]
曹彦波. 基于新浪微博的2018年云南通海5.0级地震舆情时空特征分析[J]. 地震研究, 2018,41(4):525-533.

[ Cao Y B. Analysis of the spatial and temporal characteristics of public opinion about Yunnan Tonghai Ms5.0 earthquake in 2018 based on Sina Micro-blog [J]. Journal of Seismological Research, 2018,41(4):525-533. ]

[22]
谌志群, 鞠婷. 基于BERT和双向LSTM的微博评论倾向性分析研究[J/OL]. 情报理论与实践:1-7( 2020-04-13).

[ Chen Z Q, Ju T. Research on tendency analysis of microblog comments based on BERT and BLSTM[J/OL]. Information Studies: Theory and Application:1-7( 2020-04-13). ]

[23]
周中华, 张惠然, 谢江. 基于Python的新浪微博数据爬虫[J]. 计算机应用, 2014,34(11):3131-3134.

DOI

[ Zhou Z H, Zhang H R, Xie J. Data crawler for Sina Weibo based on Python[J]. Journal of Computer Applications, 2014,34(11):3131-3134. ]

[24]
Weibo: People's Daily [EB/OL]. https://weibo.com/rmrb.

[25]
Liu B. Opinion mining and sentiment analysis[M]. Springer, Berlin, 2011.

[26]
Tai Z S, Fei W F, Fan D, et al. Research on the majority decision algorithm based on WeChat sentiment classification[J]. Journal of Intelligent and Fuzzy Systems, 2018,35(3):2975-2984.

DOI

[27]
林志萍, 王丽萍, 余斌, 等. 抗击新型冠状病毒肺炎疫情期间一线防疫人员不良情绪反应及其影响因素分析[J]. 中国公共卫生, 2020,36(5):677-681.

[ Lin Z P, Wang L P, Yu B, et al. Adverse emotional response and its influencing factors among frontline health workers during coronavirus disease 2019 epidemic[J]. Chinese Journal of Public Health, 2020,36(5):677-681. ]

[28]
张岩, 李英冰, 郑翔. 基于微博数据的台风“山竹”舆情演化时空分析[J/OL]. 山东大学学报(工学版): 1-9(2020-02-22).

[ Zhang Y, Li Y B, Zheng X. Spatial and temporal analysis of network public opinion evolution of typhoon “Mangkhut” based on Weibo data[J/OL]. Journal of Shandong University (Engineering Science): 1-9(2020-02-22).]

[29]
赵润乾, 吴渝, 陈昕. 大规模社交网络社区发现及可视化算法[J]. 计算机辅助设计与图形学学报, 2017,29(2):328-336.

[ Zhao R Q, Wu Y, Chen X. An algorithm for large-scale social network community detection and visualization[J]. Journal of Computer-Aided Design and Computer Graphics, 2017,29(2):328-336. ]

[30]
Bastian M, Heymann S, Jacomy M. Gephi: An open source software for exploring and manipulating networks [C]//International AAAI Conference on Weblogs and Social Media, California, USA, 2009.

[31]
Xie T, Yang Y, Li Q, et al. Knowledge graph construction for intelligent analysis of social networking user opinion[M] //Advances in E-Business Engineering for Ubiquitous Computing, Springer, Cham, 2020.

Outlines

/