Analysis and Visualization of Multi-dimensional Characteristics of Network Public Opinion Situation and Sentiment: Taking COVID-19 Epidemic as an Example

  • DU Yixian , 1, 2 ,
  • XU Jiapeng 1, 2 ,
  • ZHONG Linying 1, 2 ,
  • HOU Yingxu 1, 2 ,
  • SHEN Jie , 1, 2, *
Expand
  • 1. Key Laboratory of Virtual Geographic Environment, Ministry of Education, Nanjing Normal University, Nanjing 210023, China
  • 2. School of Geography, Nanjing Normal University, Nanjing 210023, China
* SHEN Jie, E-mail:

Received date: 2020-05-28

  Revised date: 2020-12-21

  Online published: 2021-04-25

Supported by

National Natural Science Foundation of China(41871371)

National Key Research and Development Program of China(2016YFE0131600)

Copyright

Copyright reserved © 2021.

Abstract

At the beginning of 2020, COVID-19 epidemic swept across China, and the development of COVID-19 attracted extensive attention from all sectors of society. Social media platform is an important carrier of online public opinion. In the process of epidemic prevention and control, it is very important to analyze the characteristics of network public opinion comprehensively and accurately. Firstly, from the perspective of spatiotemporal correlation between public opinion ontology and object, we construct a multi-dimensional analysis model of network public opinion during the epidemic period. We obtained the network public opinion data related to the covid-19 epidemic in multiple media platforms from January 17 to March 17, 2020. Secondly, from the perspective of epidemic spread, the spatial and temporal evolution and semantic characteristics of network public opinion in Wuhan, Hubei and the national scale are explored by comparative study and Spearman correlation coefficient. Finally, we use HowNet sentiment dictionary and emotional vocabulary ontology to analyze public opinion sentiment, and use interactive information chart to visualize the above results. The results show that: (1) The characteristics of time changes of public opinions are basically the same in Wuhan, Hubei province and China. There is a positive correlation between the number of daily public opinions and the number of new cases per day. With the rapid spread of the epidemic, the number of daily public opinions continues to increase. As the epidemic is gradually brought under control, the number of daily public opinions has shown a tortuous downward trend. (2) There is a positive correlation between the spatial distribution of public opinion data and the distribution of epidemic situation. The spatial distribution of the number of public opinions is similar to the distribution of the epidemic situation, and the areas with a large number of public opinions are mostly areas with severe epidemics. Changes in public opinions are spatially related to the development of the epidemic. (3) During the epidemic, the neutral sentiment of online public opinions was the most. Compared with forums, WeChat and Weibo, news platforms have a more positive overall sentiment. (4) At different stages of the development of the epidemic, the emotional characteristics of Weibo hot search data are quite different. The mood changed from anxiety in the early stage of the epidemic to excitement in the mid-term. And as the epidemic is gradually brought under control, emotions have also stabilized. Generally speaking, there are more positive emotions than negative emotions. Research shows that the multi-dimensional analysis model proposed in this article can visually show the public opinions situation, public opinions focus, and emotional changes at multiple scales during the epidemic.

Cite this article

DU Yixian , XU Jiapeng , ZHONG Linying , HOU Yingxu , SHEN Jie . Analysis and Visualization of Multi-dimensional Characteristics of Network Public Opinion Situation and Sentiment: Taking COVID-19 Epidemic as an Example[J]. Journal of Geo-information Science, 2021 , 23(2) : 318 -330 . DOI: 10.12082/dqxxkx.2021.200268

1 引言

新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)主要通过接触和呼吸道飞沫传播,对人体具有普遍的传染性[1],疫情对我国公众健康造成了巨大的挑战和威胁,迅速成为世界关注的焦点。习近平总书记做出重要指示,提出要全力做好防控工作,全力救治患者,及时发布疫情信息,加强舆论引导[2]。疫情发生以来,地理信息科学在多源大数据快速汇聚、疫情信息快速可视传播、病毒空间溯源、人群区域传播预测、区域空间风险划分与防控力度选择、防控资源供需平衡与调度、社会情绪引导与恐慌消除等方面发挥了重要作用[3],可视化技术可以帮助用户洞悉信息内部的关系及趋势、辅助决策者做出预判和决策。因此,如何通过地理信息分析方法与可视化手段,将疫情期间的网络舆情信息的时空分布特征、公众的关注重点以及情感倾向直观地展现,成为亟需深入研究的课题。
疫情相关的网络舆情作为广大网民针对疫情相关事件表达观点的产物,天然与疫情发展存在一定的联系,然而目前对于公共卫生领域的网络舆情信息研究多关注数量变化规律分析[4,5,6],没有采用更为科学的方法表现舆情态势与疫情发展的联系。近年来,地理空间环境如何影响人们的情绪开始受到关注,研究表明在某种诱发因素下,地理空间会影响人们对舆情的关注、态度以及行为[7],不同尺度下网络舆情信息的时空分布特征通常存在较大差异[8,9,10,11,12,13],因此,在新冠肺炎疫情背景下有必要探究多尺度下舆情态势与疫情发展在时间演变和空间分布上的相关关系,从而为各级部门把握舆情态势、制定针对性的疫情及舆情防控措施提供参考。
21世纪后,情感分析已经成为自然语言处理的热点研究问题,在数据挖掘、Web挖掘、文本挖掘和信息检索方面有广泛的研究[14]。对文本数据进行情感分析主要有基于情感词典[15,16]和基于机器学习[17,18,19] 2种方法。目前的研究主要采用主流媒体平台的热门搜索或者评论数据进行情感分析[19,20,21],然而多数研究仅针对微博、Twitter、YouTube等单一平台进行舆情数据获取、处理与分析,舆情数据来源相对狭窄,只观察到舆论的局部变化,缺乏多媒体平台舆情态势及情感的对比分析,无法对不同媒体平台舆情态势及情感倾向进行整体把握。
针对以上问题,本文拟从舆情本体与客体时空关联的角度提出疫情期间网络舆情多维分析模型的构建方法,运用比较研究法、Spearman相关系数等方法探索武汉市、湖北省及全国尺度下的网络舆情态势时空演变及语义特征,使用情感词典对多个媒体平台的网络舆情数据进行舆情情感分析,以诠释疫情期间网络舆情本体与客体在不同载体和时空环境下相互作用的动态关系,探究疫情期间网络舆情态势及情感特征。

2 数据来源与研究方法

2.1 数据来源

2.1.1 疫情数据
中华人民共和国国家卫生健康委员会(NHC)是我国最具权威的卫生健康的监督与管理机构,在COVID-19疫情暴发后,国家和各省的卫生健康委员会每天都会以文章的形式发布COVID-19疫情通报,其中包括新增和累计的COVID-19确诊病例、疑似病例、新增病例和死亡病例。腾讯新闻、人民日报、丁香园、新浪微博等新闻媒体平台也都对这些数据进行采集、整理、更新,发布了各地区的疫情地图。本研究使用的疫情数据是以腾讯新闻[22]的API接口获取,通过Python语言的Requests库请求数据接口并进行解析,得到国家级、省级与市级不同尺度的疫情数据。通过API接口等手段获取到的疫情数据可能会出现数据缺失,针对这种情况,主要通过其他新闻媒体平台的相关报道进行补充。
2.1.2 舆情数据
(1)媒体报道数据
百度作为中国最受欢迎的搜索引擎,推出了百度舆情平台[23],可以实时监控互联网中相关舆情。本研究以“疫情”为关键词,使用该平台获取了2020年1月17日—3月17日我国34个省级行政区尺度及武汉市等重点城市尺度的舆情数据。数据主要为来源于新闻、论坛、微信、微博等平台的媒体报道数据,包括报道标题、URL、时间戳、媒体来源、媒体类型等,经过数据筛选,得到548 082条数据。
(2)微博每日热搜数据
新浪微博(简称“微博”)是我国最受欢迎的社交媒体平台之一,微博中最受关注、最热门的信息会在热门搜索排行榜[24]中展示,其搜索量直接反映了公众对话题的关注和态度。通过网络爬虫技术,爬取了2020年1月17日—3月17日新浪微博每日热搜前100名中与疫情有关的热搜话题数据,包括热搜话题名称、话题搜索量及热搜日期,经过筛选,总计获取3185条微博热搜数据。

2.2 技术路线

本研究首先使用腾讯新闻API接口、百度舆情平台、网络爬虫等技术获取了2020年1月17日— 3月17日多尺度下的疫情数据,以及多个媒体平台中新冠肺炎疫情相关的网络舆情数据,并从舆情本体与客体时空关联的视角构建了疫情期间网络舆情多维分析模型;其次根据网络舆情态势多尺度划分的方法,运用比较研究法、Spearman相关系数等方法探索了网络舆情时空及语义特征;接着根据舆情数据特征的差异,使用HowNet情感词典和情感词汇本体进行了舆情情感分析;最后基于可交互地图及信息图表对成果进行可视化表达。本文研究框架如图1所示。
图1 网络舆情多维分析与可视化研究框架

Fig. 1 Research framework of multi-dimensional analysis and visualization of network public opinion

2.3 研究方法

2.3.1 疫情期间网络舆情多维分析模型构建
舆情一般应包含主体、客体、本体、载体和引体5个方面的内容,其中主体为舆情事件参与用户,客体为与舆情事件相关的对象(如社会现象及问题),本体为全部意识形态,载体为承载舆情活动的平台或空间,引体为引发舆情活动的事件[25]。在此基础上,网络舆情被定义为以互联网为传播媒介,以舆情事件刺激主体,最终形成对舆情事件的认知、态度、情感和行为倾向的集合[26]。本文基于网络舆情的基本概念,从舆情本体与客体时空关联的视角,构建了疫情期间网络舆情多维分析模型(图2),其中主体为参与舆情事件的公众,本体为舆情数据的基本内容,主要从数量、语义、情感等维度进行描述;客体为新冠肺炎疫情,主要从病例数量的角度进行描述;载体为承载网络舆情的多媒体平台,包括新闻、微博、微信及论坛等;此外基于舆情的生态演化逻辑,引入时间和空间环境要素。基于该模型,本文将从舆情多维度(态势、语义、情感)、舆情来源多平台、空间多尺度(全国、省、市)、时间多阶段等角度对疫情期间网络舆情进行多维分析,旨在诠释疫情期间网络舆情本体与客体在不同载体和时空环境下相互作用的动态关系。
图2 疫情期间网络舆情多维分析模型

Fig. 2 Multi-dimensional analysis model of network public opinion during the epidemic

2.3.2 网络舆情态势多尺度划分
地理信息的尺度特性主要表现在空间尺度、时间尺度和语义尺度3个维度[27],且地理现象及其空间分布模式都是在特定尺度下的观测结果[28]。本研究在对网络舆情态势进行空间尺度划分时,微观上以区县为基本单元,以表现城市的整体态势;中观上以城市为基本单元,以表现省份的整体态势;宏观上以省份为基本单元,以表现国家的整体态势。此外,湖北省武汉市作为此次疫情暴发的中心,是疫情防控及舆情引导的重点区域,因此本研究拟通过疫情蔓延的视角,从武汉市出发,依次将空间尺度扩大至湖北省及全国范围,旨在探索微观、中观及宏观尺度下网络舆情态势时空演变及语义特征的区别与联系。在时间尺度方面,本研究选择2020年1月17日—3月17日(共计61 d)作为研究时段,该时间段跨越了全国疫情的高发期及稳定下降期,对研究疫情发展不同阶段的舆情态势时空演变特征具有重要意义,由于数据获取精度的限制,选择以天作为时间间隔,并且在宏观尺度中根据疫情发展及舆情特征划分了时间阶段。在语义尺度方面,本研究以事件的集合为基本单元,将舆情文本拆分为单词,解析单词的含义,并进行情感分析。
2.3.3 情感分析
本研究获取了新闻、论坛、微信、微博等不同媒体平台与疫情相关的媒体报道数据,从全国、省级尺度对多个媒体平台的舆情态势及情感进行对比分析,旨在全面地展现不同媒体平台的情感差异及网络舆情的整体态势。媒体报道数据一般比较客观,采用三类别体系进行情感分类,即将情感分为正向、中性和负向。采用三类别体系进行情感分析时,使用的是HowNet情感词典。情感分析分为3个步骤:
(1)基于HowNet构建情感词典。该词典包含中文正面评价词语3730个、中文负面评价词语3116个、中文正面情感词语836个、中文负面情感词语1254个。
(2)构建情感计算公式,基于语义的情感词典的倾向性计算主要是利用情感词典及句式词库对文本语句中的情感倾向词进行分析,采用权值算法进行情感分类。情感词的权值是由其情感强度决定的,然后进行加权求和。对于正面情感的词,根据情感强烈程度,给定1,3,5不同的权值,同理,对于负面情感的词,给定-1,-3,-5权值。张昊旻等[29]利用加权平均算法(式(1))计算,该方法可有效提高通用领域情感分类的效率和准确率,其加权平均算法公式为:
E ̅ = i = 1 N p w p i + j = 1 N n w p j N p + N n
式中: N p N n 分别代表表达正面情感和负面情感的词汇数目; w p i w p j 分别代表正面情感词汇和负面情感词汇的权值(含符号)。
(3)确定阈值来判断舆情信息的倾向性。一般情况下,加权计算结果为正为正面倾向,结果为负是负面倾向,结果为0则无倾向,即表示中立态度。
为了更细致地探索疫情发展不同阶段网络舆情的情感特征,本研究获取了新浪微博每日热搜前100名中与疫情有关的热搜话题以及对应的搜索量,将网络舆情情感与疫情实际发展情况及社会热点相结合,从时间维度展现网络舆情态势及情感。对于情感倾向较为丰富的微博每日热搜数据,本文采用多类别体系进行情感分析,使用大连理工大学信息检索研究室整理和标注的情感词汇本体[30]作为情感词典,这种方法的情感分析步骤为:
(1)基于情感词汇本体构建情感词典。该词典对于情绪的划分主要为“好、乐、哀、怒、惧、恶、惊”7大类,21种小类,共有情绪词27 466个,情感强度从小到大分为1、3、5、7、9共5档。本研究增加了“平淡”的情感,减少了“恶”这一类情感。
(2)构建情感计算公式。每个情绪词都对应一个极性,本研究中设定0代表中性情感,1代表正面情感,-1代表负面情感。由于情感词汇本体中有的情感词汇不只有一个情感分类及强度,因此,对于该情感词 i 的情感强度值,使用以下公式计算:
P i = k = 1 n α k β k ( 1 k n , n { 1,2 } )
式中: α 为情感词的情感强度值; β 为情感词的极性值; n 表示情感词有几类情感分类。若 n = 1 ,则该情感词只有一类情感;若 n = 2 ,则该情感词有辅助情感分类。
(3)最终需判别出微博情感的7大类,因此需要将情感词的情感分类先归为7大类中的某类,判别公式如下:
E P i = M α k 1 β k 1 < α k 2 β k 2 N α k 1 β k 1 α k 2 β k 2
式中:M为情感词汇第一大类的情感; α k 1 β k 1 为该类别下的情感强度值;N为该情感词的辅助分类; α k 2 β k 2 为该类别下的情感强度值。通过情感词汇本体对于情绪的21种分类可得到MN的具体的情感类别。

3 网络舆情态势时空特性分析与可视化

3.1 时间特征分析与可视化

随着新冠肺炎疫情的发展,舆情态势不断变化,并在特殊的时间点出现不同的峰值,为了探究疫情的发展是否会影响着舆情的走向和热度,采用Spearman相关系数判断不同空间尺度下每日舆情数据数量与每日新增病例数的相关性。结果显示,多尺度下的每日舆情数据数量与每日新增病例数之间存在正相关关系,其中全国尺度下每日舆情数据数量与每日新增病例数相关系数为0.551(P<0.001),省级尺度以湖北省为例,每日舆情数据数量与每日新增病例数相关系数为0.694(P<0.001),城市尺度以武汉市为例,每日舆情数据数量与每日新增病例数相关系数为0.553(P<0.001)。
本文以时间为横轴,以每日新增病例数量及每日舆情数据数量为纵轴,使用折线—柱状复合图表的形式制作了武汉市、湖北省、全国等不同空间尺度下的每日新增病例数与舆情数据数量关系图(图3),其中相对体积较大的柱状图表示舆情数据数量这一表达主体,以更具波动特征的折线图来表达每日新增确诊人数这一指标。从图3可以看出,3个尺度下每日新增病例数量变化趋势基本一致,均呈现出先增长后下降,接着由于诊断方法更新使得每日确诊病例数达到峰值,最后再浮动下降。武汉市每日舆情数据数量变化相对比较稳定,大部分时间每日舆情数据数量都维持在较高水平,在4000~6000条范围内浮动变化,总体上呈现先增长再浮动变化的趋势。湖北省每日舆情数据数量变化的整体趋势与全国尺度较为相似,舆情数据数量在前期快速增长,到中期的浮动变化,再到后期呈现下降的趋势。疫情初期全国尺度下疫情相关的每日舆情数据数量处于较少状态,仅有200多条,随着疫情开始在全国范围内扩散,舆情数据数量也快速增加,直到2月7日每日舆情数据数量达到13 000多条,此后每日舆情数据数量在7000~14 000条范围内浮动变化,在2月12日由于湖北将临床诊断病例数纳入确诊病例数,导致当天新增确诊人数激增,同时这一天的舆情数据数量也达到峰值,随着疫情得到控制,每日舆情数据数量也呈曲折下降的趋势。
图3 多尺度下的每日新增病例数与舆情数据数量关系

Fig. 3 The relationship between the number of new cases per day and the number of public opinions under multi-scale

由此可见,不同空间尺度下的舆情时间变化特征基本一致,且疫情期间每日舆情数据数量与每日新增病例数均存在正相关关系,随着疫情的快速蔓延,舆情数据数量不断增加,并且随着疫情形势的好转,每日舆情数据数量呈曲折下降的态势。

3.2 空间特征分析与可视化

本文使用多尺度的舆情数据累计数量分布图(图4)展示研究时段内舆情数据总数量在地域上的分布状况,通过分层设色的方式分别从武汉市、湖北省、全国3个尺度反映舆情数据累计数量的空间分布情况。由于篇幅有限,选取了1月17日、1月19日、1月21日、2月13日及3月17日这5日具有代表性的数据制作了全国每日舆情数据数量动态变化图(图5)来展现每日舆情数据数量在空间上的变化情况。
图4 2020年1月17日—3月17日多尺度下的网络舆情数据累计数量分布

注:该图基于自然资源部标准地图服务网站下载的审图号为GS(2019)1825号的标准地图制作,底图无修改。

Fig. 4 The distribution of network public opinions under multi-scale from January 17 to March 17, 2020

图5 2020年1月17日—3月17日全国尺度每日舆情数据数量动态变化

注:该图基于自然资源部标准地图服务网站下载的审图号为GS(2019)1825号的标准地图制作,底图无修改。

Fig. 5 Dynamic changes of the number of public opinions in China from January 17 to March 17, 2020

图4可以看出,在研究时段内,武汉市中舆情数据数量排名前三的为江岸区3078条、武昌区1679条、洪山区1679条。湖北省中舆情数据数量排名前三的为武汉市,黄冈市和荆州市,其中武汉市的舆情数据数量为52 001条,远远超过3558条排名第二的黄冈市。在全国范围内,湖北省的舆情数 据数量最多,达到了99 147条,广东省紧随其后为 62 517条,其次为江西、浙江、山东、河南等省。截至3月17日24时,据31个省(自治区、直辖市)和新疆生产建设兵团报告,全国累计报告确诊病例808 94例,其中湖北省累计确诊病例67 800例,广东、河南、浙江、湖南等省累计确诊病例已超过1000例,安徽、江西、山东、江苏、重庆、四川等省(直辖市)累计确诊病例也已超过500例,以上地区网络舆情数据数量普遍较高。采用Spearman相关系数验证了研究时段内各尺度下累计病例数与舆情数据累计数量的正相关关系,其中武汉市内各区累计病例数与舆情数据累计数量相关系数为0.593(P<0.05),湖北省内各市累计病例数与舆情数据累计数量相关系数为0.757(P<0.001),全国各省级行政区累计病例数与舆情数据累计数量相关系数为0.833(P<0.001)。
图5中可以看出,疫情发展初期,各省与疫情相关的每日舆情数据数量较少,大部分省份不足10条。1月19日,湖北省每日舆情数据数量率先突破百位,随后广东、浙江、江西、山东等相继破百条。 1月21日,湖北省每日舆情数据数量突破千条,此后在1000~2500条内浮动,偶有突破2500条(2月13日、2月19日)。除湖北省外,在疫情发展中期,广东、浙江、江西等省的每日舆情数据数量相继破千,山东、河南、湖南、四川、福建、河北、江苏等省份也相继突破500条。随着各省疫情形势的发展,省内舆情态势变化不尽相同,直至3月17日,湖北、江西、广东每日舆情数据数量仍超过500条,相较于 2月舆情数据数量的快速增长,3月各省市每日舆情数据数量总体呈下降态势。由于1月17日及1月19日全国各省每日新增病例数据的缺失,本研究仅对1月21日、2月13日及3月17日制作了全国尺度每日新增病例数量分布图(图6),通过相同日期对比分析,可以发现在疫情初期的1月21日湖北与广东出现了新增病例,其当日的舆情数据数量相较于其他省份也更多,虽然只有几个省份发现感染者病例,但网络舆情信息已覆盖了整个国家的全部地区,得到了全国的普遍关注。2月13日处于疫情全面暴发时期,全国范围内确诊病例数量快速增长,当日除山西、青海、西藏、海南、台湾等省(自治区)外,其余各省份均出现新增病例,各省每日舆情数据数量也处于高速增长时期。直至3月17日,除北京、香港特别行政区、台湾、澳门特别行政区、上海、四川、湖北等省(直辖市)外,其余各省当日均未出现新增病例,说明疫情已经得到有效控制,但是由于部分省份如湖北、广东、浙江、四川等仍存在较多确诊病例,且全国范围内境外输入确诊病例呈现增长趋势,因此当日舆情数据数量仍处在较高水平。
图6 2020年1月17日—3月17日全国尺度每日新增病例数量分布

注:该图基于自然资源部标准地图服务网站下载的审图号为GS(2019)1825号的标准地图制作,底图无修改。

Fig. 6 Distribution of daily new cases in China from January 17 to March 17, 2020

由此可见,不同尺度下的舆情空间分布特征具有相似性,且舆情数据数量的空间分布与疫情分布存在正相关关系,舆情数据数量多的地区多为疫情高发区域。就城市尺度而言,武汉市舆情数据数量较多的江岸区、武昌区及洪山区疫情态势十分严峻;就省级尺度而言,湖北省舆情分布集中性强,主要分布在武汉市、黄冈市和荆州市等湖北省内疫情重点防控区域;就全国尺度而言,舆情数据总数量较多的省份为湖北、广东、江西、浙江、山东、河南省等,这些省份均为疫情较为严重的地区。此外,在疫情前期湖北省每日舆情数据数量迅速增长,随后其余各省开始出现舆情的暴发,这与新冠肺炎疫情首先发生在湖北省武汉市是一致的,也反映了疫情由局部扩散到全国范围的特征,之后随着疫情得到控制,各省对应的每日舆情数据数量有所减少,也体现了舆情变化与疫情发展具有空间上的相关性。

3.3 语义特征分析与可视化

在对舆情文本数据进行语义特征分析之前,需要对文本数据进行文本分词和文本去噪等预处理工作。本文的分词工作是通过jieba分词进行,且jieba分词采用了基于Trie树结构实现高效的词图扫描,之后建立停用词表,以匹配停用词表的形式筛除文本中无意义的噪音。为了能够反映疫情本身的特点,本研究借鉴了基于字典与词库匹配的方法[31],建立了疫情特定词库,之后逐个扫描字典中的字符串,若与词库中的词相同,则完成匹配而自动分词。该方法融合了汉语语法和相关汉语言知识,具有良好的针对性。
本研究对不同空间尺度下的舆情文本数据进行分词处理,利用wordcloud库对清洗过的所有时间段舆情文本数据进行高频词统计,选择词频排列前50位的词汇制作多尺度下的舆情词云图(图7),并将多尺度下的高频词汇与对应尺度下的时事热点相结合进行解析,探索不同空间尺度下舆情语义特征的区别与联系。其中,省、市级尺度下舆情词云以各个区域行政边界的形状进行排列,更加直观地展示疫情期间各区域媒体和公众最为关心的话题。
图7 不同尺度下的舆情词云

Fig. 7 Public opinion words cloud under different scales

根据不同空间尺度下的舆情高频词统计结果,全国、湖北省、武汉市3个尺度的舆情高频词分别有436个、223个和185个,其中3个尺度下频率最高的词均为“疫情”,而紧随其后的高频词如“疫情防控”、“战疫”、“抗疫”、“新型冠状病毒”、“肺炎”等都直接反映了人们对于新冠肺炎疫情的高度关注。通过对3个尺度下的高频词对比发现,全国尺度和湖北省的高频词十分相似,更多地体现了宏观角度的防疫,如“战役”、“抗疫”、“中国”、“一线”等,并且都出现了地名“武汉”,而武汉市作为此次新冠肺炎疫情最为严重的地区,感染人数最多,其舆情高频词则更多体现为与新冠肺炎疫情直接相关的词汇,如“新型肺炎”、“感染”、“确诊”等。在图7中可看到,“医院”、“医疗”、“口罩”等词汇均出现在3个尺度中,这与新冠肺炎疫情期间人们对医疗设施及防护措施的关注是一致的。此外,从全国尺度的舆情词云中还可以看到“支援”、“驰援”、“行动”等词汇,表现出全国人民在政府的带领下弘扬“一方有难,八方支援”的优秀品质,集全国之力支援武汉,驰援湖北,共同抗疫。除了对疫情防控的关注外,“复工”、“复产”、“开学”等词汇也反映了人们对于民生的关注,国家的经济发展和人们的生活离不开工作和生产,所以在关注疫情的同时人们也十分关注复工复学的相关政策。词云中还出现了人名“钟南山”,钟南山院士为疫情防治做出了巨大贡献,也反映了人们对钟南山院士的敬仰与肯定。

4 网络舆情情感分析与可视化

本研究对获取到的548 082条媒体报道数据的标题进行分词处理,共得到1 864 582个词语,进一步将文本内容与已经建立的情感分类词表进行情感词的匹配,最终提取到1 224 128个情感词,在知网HowNet情感字典的基础上扩展得到疫情舆情的情感分类词典,经过加权平均算法公式计算后,将所有的舆情信息分为正面、中立和负面。基于上述成果,本文制作了研究时段内媒体报道数据情感分析图(图8)及研究时段内各省舆情情感倾向对比图(图9),选取不同媒体平台、不同省份等角度分析舆情情感倾向。
图8 2020年1月17日—3月17日媒体报道数据情感分析

Fig. 8 Sentiment analysis of media report data from January 17 to March 17, 2020

图9 2020年1月17日—3月17日各省舆情情感倾向对比

Fig. 9 Comparison of sentiment tendencies of public opinions in various provinces from January 17 to March 17, 2020

本文对比分析了全国尺度下不同平台媒体报道数据的舆情态势及舆情情感,通过图8可以看出在全国尺度下新闻平台对于疫情的报道数量最多,其次是论坛、微信和微博,各平台中立舆情最多,而正面舆情和负面舆情数据数量基本持平。通过统计全国尺度下各平台不同情感倾向舆情数据数量在该平台舆情数据总数量中的占比(表1),可以看出正面舆情的占比中,新闻平台最高,微博平台最低;负面舆情的占比中,微博平台最高,新闻平台最低。总体而言,新闻平台较其他媒体平台情绪更正面。
表1 2020年1月17日—3月17日不同媒体平台舆情情感倾向统计

Tab.1 Statistics on sentiment trends of different media platforms from January 17 to March 17, 2020

媒体平台 正面舆情数据数量/条 中立舆情数据数量/条 负面舆情数据数量/条 正面舆情占比/% 中立舆情占比/% 负面舆情占比/%
微博 1199 9256 2194 9.48 73.18 17.35
微信 2544 19 152 3579 10.07 75.77 14.16
论坛 13 792 77 593 147 85 12.99 73.08 13.93
新闻 52 825 303 576 47 587 13.08 75.14 11.78
此外,本文就省级尺度对媒体报道数据进行了情感分析,在图9中通过交互可以选择查看各省正面、中立、负面的舆情数据数量,其中正面舆情数据数量排名前三的省份依次是湖北、广东、江西,中立舆情数据数量排名前三的省份依次是湖北、广东、浙江,负面舆情数据数量排名前三的省份依次是湖北、广东、浙江,这些省份大多是本次疫情蔓延比较严重的地区。通过统计各省正面舆情及负面舆情数据数量在本省舆情数据总量中的占比,正面舆情所占比例排名前5位的省(自治区)依次为新疆、贵州、江苏、内蒙古、河南(表2),这些地区主要特征是新冠肺炎疫情不太严重或防控意识较强;负面舆情所占比例排名前五位的省(直辖市)依次为台湾、香港特别行政区、江西、北京、广东,尤其是台湾、香港特别行政区在疫情期间的某些不安定因素,增加了人民对于当地疫情防控的不确定性,使得负面舆情比例偏高。
表2 2020年1月17日—3月17日正面及负面舆情数据数量各占比前五的地区

Tab. 2 The top five regions in terms of positive public opinion and negative public opinion respectively from January 17 to March 17, 2020

正面舆情占比/% 负面舆情占比/%
新疆 16.69 台湾 50.60
贵州 16.30 香港 25.30
江苏 14.91 江西 15.93
内蒙古 14.88 北京 14.51
河南 14.66 广东 14.30
本研究对3185条微博每日热搜数据进行分词后,共得20 165个词语(不含单字词),匹配后提取到5462个的情感词。在DUTIR情感字典的基础上扩展得到疫情舆情的情感分类词典,将情感由正向到负向的过渡分为“乐”、“好”、“平淡”、“哀”、“惧”、“惊”、“怒”7个类别(图10),通过交互的方法展示不同类别情感话题的搜索量随时间的变化,并将其与疫情发展情况进行关联分析。
图10 2020年1月17日—3月17日微博热搜数据情感类别分析

Fig. 10 Sentiment category analysis of hot search data of Weibo from January 17 to March 17, 2020

本研究使用微博热搜数据,从时间维度展现了疫情发展不同阶段的网络舆情态势及情感。在所有话题中,“乐”相关的话题数最少,“好”相关的话题数最多,总体上正面情绪状态多于负面。从图8可以看出,在情绪的发展变化方面,不同时期舆情情感特征有较大差异。疫情发展的初期阶段,微博热搜中与疫情相关的话题较少,随着1月20日“钟南山肯定新型冠状病毒肺炎人传人”成为当日微博热搜话题,大多数网民意识到问题的严重性,“惊”的情绪相较之前搜索量大幅增加。随着确诊人数的快速增多,正面及负面的情感呈现起伏不定的特征,反映了疫情期间人们担忧、焦虑的情绪。随着疫情的发展及政府的防控措施的开展,“中国有信心打赢新型肺炎疫情攻坚战”、“各级政府有序开展防控措施”、“各地医护人员驰援湖北”、“湖北首地清零确诊病例”等正面情绪话题登上微博热搜,“好”等正面情绪较之前增加,反映出网民在情绪上由担忧、焦虑转向自信、振奋。随着疫情逐渐得到控制,政府做出经济社会发展和有序复工复产的重大决策,“哀”、“惧”、“惊”这3个负面情绪相关的话题量和搜索量也随之逐渐降低,“平淡”和“好”相关的话题搜索量有所增加,体现了这一时期人们对于疫情的恐惧开始逐渐淡化,情绪趋于平稳向好态势。

5 结论与讨论

本研究从舆情本体与客体时空关联的角度构建了疫情期间网络舆情多维分析模型,运用比较研究法、Spearman相关系数等方法探索了武汉市、湖北省及全国尺度下的网络舆情态势时空演变及语义特征,使用情感词典对多个媒体平台的网络舆情数据进行舆情情感分析,以诠释疫情期间网络舆情本体与客体在不同载体和时空环境下相互作用的动态关系,探究疫情期间网络舆情态势及情感特征。研究表明:
(1)武汉市、湖北省、全国尺度下的舆情信息由于其区域疫情的发展态势和防控工作的不同而有所差异,多尺度下的舆情数据数量在时间演变和空间分布上存在相似性,每日舆情数据数量与每日新增病例数之间存在正相关关系,随着疫情的快速蔓延,每日舆情数据数量不断增加,随着疫情逐渐得到控制,每日舆情数据数量呈曲折下降的趋势;舆情数据数量的空间分布特征与疫情分布存在正相关关系,舆情数据数量多的省份多为疫情较为严重的地区。
(2)疫情期间不同平台的媒体报道数据情感倾向不同,新闻平台与论坛、微信、微博相比,整体情绪更为正面。在疫情发展的不同阶段,微博热搜数据情感特征有较大差异,情绪由疫情初期的焦虑变为中期的振奋,且随着疫情逐渐得到控制,情绪也趋于平稳,总体上呈现正面情绪多于负面。
与现有关于网络舆情分析与可视化的研究相比,本研究构建了疫情期间网络舆情多维分析模型,使用科学的分析方法探索了舆情数据数量与疫情发展的相关关系,并且根据数据源的特点使用不同的情感分类方法对疫情期间网络舆情进行情感分析与可视化。本研究提出的分析与可视化方法可以基于疫情相关舆情数据直观展现多尺度下的舆情态势、舆情焦点和情绪变化,从而为政府及相关部门有效引导与控制网络舆情提供理论基础支撑和参考借鉴。
本文在数据及方法上存在一定的局限性。首先,本文在对疫情期间微博平台舆情情感进行进一步分析时,采用的是微博热搜数据,并未获取微博用户的评论数据,而后者更能直观反映公众情绪。此外,本研究将多尺度地理空间划分为国家、省、市等行政区划,然而在地理邻近性、交通网络、防控措施等因素的共同影响下,疫情扩散的过程具有一定的地理空间模式,因此对于多尺度地理空间的划分不能仅局限于行政区划,后续将探讨如何根据新冠肺炎疫情的传播模式与多尺度地理空间的叠加,得出多尺度下的疫情及舆情可视化分析单元。
[1]
中华预防医学会新型冠状病毒肺炎防控专家组. 新型冠状病毒肺炎流行病学特征的最新认识[J]. 中华流行病学杂志, 2020(2):139-144.

[ Chinese medical association covid-19 prevention and control expert group. An update on the epidemiological characteristics of novel coronavirus pneumonia (COVID-19)[J]. Chinese Journal of Epidemiology, 2020(2):139-144. ]

[2]
中华人民共和国中央人民政府. 习近平对新型冠状病毒感染的肺炎疫情作出重要指示[EB/OL]. http://www.gov.cn/xinwen/2020-01/20/content_5471057.htm, 2020-01-20.

[ The central people's government of the People's Republic of China. Xi jinping gave important instructions on the novel coronavirus pneumonia outbreak[EB/OL]. http://www.gov.cn/xinwen/2020-01/20/content_5471057.htm, 2020-01-20.]

[3]
Zhou C H, Su F Z, Pei T, et al. COVID-19: Challenges to GIS with big data[J]. Geography and Sustainability, 2020,1(1):77-87.

[4]
Qin L, Sun Q, Wang Y, et al. Prediction of number of cases of 2019 novel coronavirus (COVID-19) using social media search index[J]. International Journal of Environmental Research and Public Health, 2020,17(7):2365

[5]
Yin F L, Lv J H, Zhang X Y, et al. COVID-19 information propagation dynamics in the Chinese Sina-microblog[J]. Mathematical Biosciences and Engineering: MBE, 2020,17(3):2676-2692.

DOI PMID

[6]
Li C L, Chen L J, Chen X Y, et al. Retrospective analysis of the possibility of predicting the COVID-19 outbreak from Internet searches and social media data, China, 2020[J]. Eurosurveillance, 2020,25(10).

DOI PMID

[7]
赖凯声, 付宏, 晏齐宏, 等. 地理舆情:大数据时代舆情研究的新路径[J]. 情报理论与实践, 2020,43(8):64-69.

[ Lai K S, Fu H, Yan Q H, et al. Geographical public opinion: a new approach of public opinion research in big data era[J]. Information Studies: Theory & Application, 2020,43(8):64-69. ]

[8]
黄鑫楠. 热点信息关注度的时空特征及地理距离对其的影响作用[D]. 上海:华东师范大学, 2019.

[ Huang X N. Spatial-temporal characteristics of network attention to hot information and the shaping role of geographical distance[D]. Shanghai: East China Normal University, 2019. ]

[9]
王卷乐, 张敏, 韩雪华, 等. COVID-19疫情防控中的中国公众舆情时空演变特征[J]. 地理学报, 2020,75(11):2490-2504.

[ Wang J L, Zhang M, Han X H, et al. Spatio-temporal evolution and regional differences of the public opinion on the prevention and control of COVID-19 epidemic in China[J]. Acta Geographica Sinica, 2020,75(11):2490-2504. ]

[10]
张琛, 马祥元, 周扬, 等. 基于用户情感变化的新冠疫情舆情演变分析[J]. 地球信息科学学报, 2021,23(2). DOI: 10.12082/dqxxkx.2020.200248. https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=DQXX20200924000&v=Bg3Ir%25mmd2BkXDeflqiQBFzhR5UXSvyr0P7LUFaG3ThKq1p2EBSB9a7iS5OblN0Cp7pm2.

[ Zhang C, Ma X Y, Zhou Y, et al. Analysis of public opinion evolution in COVID-19 pandemic from a perspective of sentiment variation[J]. Journal of Geo-information Science, 2021,23(2). DOI: 10.12082/dqxxkx.2020.200248. https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&file=nameDQXX20200924000&v=Bg3Ir%25mmd2BkXDeflqiQBFzhR5UXSvFaG3ThKq1p2EBSByr0P7LU9a7iS5OblN0Cp7pm2.

[11]
韩珂珂, 邢子瑶, 刘哲, 等. 重大公共卫生事件中的舆情分析方法研究——以新冠肺炎疫情为例[J]. 地球信息科学学报, 2021,23(2). DOI: 10.12082/dqxxkx.2020.200226. https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=DQXX20201116001&v=Bg3Ir%25mmd2BkXDeedZbQEQiBeLaVFYXRLYgI%25mmd2BQn7VOf%25mmd2BbBdY9EaOfjRPjkHHOGBazKfuJ.

[ Han K K, Xing Z Y, Liu Z, et al. Research on public opinion analysis methods in major public health events: take COVID-19 epidemic as an example[J]. Journal of Geo-information Science, 2021,23(2). DOI: 10.12082/dqxxkx.2020.200226. https://kns.cnki.net/kcms/detail/detail.aspx?dbcode=CAPJ&dbname=CAPJLAST&filename=DQXX20201116001&v=Bg3Ir%25mmd2BkXDeedZbQEQiBeLaVFYXRLYgI%25mmd2BQn7VOf%25mmd2BbBdY9EaOfjRPjkHHOGBazKfuJ.

[12]
刘大均, 胡静, 程绍文, 等. 中国旅游微博空间分布格局及影响因素——以新浪旅游微博为例[J]. 地理科学, 2015,35(6):717-724.

[ Liu D J, Hu J, Cheng S W, et al. Spatial pattern and influencing factors of tourism micro-blogs in China: A case of tourism Sina micro-blogs[J]. Scientia Geographica Sinica, 2015,35(6):717-724. ]

[13]
郑嘉丽, 张丰, 杜震洪, 等. 传染病的多尺度时空特征分析——以杭州市淋病、细菌性痢疾和流行性腮腺炎为例[J]. 浙江大学学报(理学版), 2018,45(5):605-616.

[ Zheng J L, Zhang F, Du Z H, et al. Multi-scale analysis of spatial-temporal characteristics of infectious diseases: A case study on gonorrhea, bacillary dysentery and mumps in Hangzhou. Journal of Zhejiang University (Science Edition), 2018,45(5):605-616. ]

[14]
Zhang L, Wang S, Liu B. Deep learning for sentiment analysis: A survey[J]. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2018,8(4):e1253.

[15]
Loureiro M L, Alló M. Sensing climate change and energy issues: Sentiment and emotion analysis with social media in the UK and Spain[J]. Energy Policy, 2020,143:111490.

[16]
Vilares D, Alonso M A, Gómez-Rodríguez C. Supervised sentiment analysis in multilingual environments[J]. Information Processing & Management, 2017,53(3):595-607.

[17]
Ansari M Z, Aziz M B, Siddiqui M O, et al. Analysis of political sentiment orientations on twitter[J]. Procedia Computer Science, 2020,167:1821-1828.

DOI

[18]
Sailunaz K, Alhajj R. Emotion and sentiment analysis from Twitter text[J]. Journal of Computational Science, 2019,36:101003.

DOI

[19]
Douiji, yasmina, Mousannif, et al. Using YouTube comments for text-based emotion recognition[J]. Procedia Computer Science, 2016.

DOI PMID

[20]
Lwin M O, Lu J, Sheldenkar A, et al. Global sentiments surrounding the COVID-19 pandemic on Twitter: analysis of Twitter trends[J]. JMIR Public Health and Surveillance, 2020,6(2):e19447.

DOI PMID

[21]
Zhao Y X, Cheng S X, Yu X Y, et al. Chinese public attention to COVID-19 epidemic: based on social media (preprint)[J]. Journal of Medical Internet Research, 2020.22.10.2196/18825.

DOI PMID

[22]
Tencent news[EB/OL]. https://news.qq.com/zt2020/page/feiyan.htm.

[23]
Baidu public opinion[EB/OL]. http://yuqing.baidu.com.

[24]
Weibo[EB/OL]. https://s.weibo.com/top/summary/.

[25]
王连喜. 网络舆情领域相关概念分布及其关系辨析[J]. 现代情报, 2019,39(6):132-141.

[ Wang L X. network public opinion: Critical analysis on relative concepts and its distribution[J]. Journal of Modern Information, 2019,39(6):132-141. ]

[26]
高承实, 陈越, 荣星, 等. 网络舆情几个基本问题的探讨[J]. 情报杂志, 2011,30(11):52-56.

[ Gao C S, Chen Y, Rong X, et al. Some basic problems on network opinion research[J]. Journal of Intelligence, 2011,30(11):52-56. ]

[27]
刘凯, 秦耀辰. 论地理信息的尺度特性[J]. 地理与地理信息科学, 2010,26(2):1-5.

[ Liu K, Qin Y C. On scale characteristics of geographic information[J]. Geography and Geo-Information Science, 2010,26(2):1-5. ]

[28]
李小文, 曹春香, 张颢. 尺度问题研究进展[J]. 遥感学报, 2009,13(s1):12-20.

[ Li X W, Cao C X, Zhang H. Research progress of scale problem[J]. Journal of Remote Sensing, 2009,13(s1):12-20. ]

[29]
张昊旻, 石博莹, 刘栩宏. 基于权值算法的中文情感分析系统研究与实现[J]. 计算机应用研究, 2012,29(12):4571-4573,4597.

[ Zhang H M, Shi B Y, Liu Y H. Study and implementation of Chinese language emotion analysis system based on weight algorithm[J]. Application Research of Computer, 2012,29(12):4571-4573,4597. ]

[30]
陈建美. 中文情感词汇本体的构建及其应用[D]. 大连:大连理工大学, 2009.

[ Chen J M. The construction and application of Chinese emotion word ontology[D]. Dalian:Dalian University of Technology, 2009. ]

[31]
Kim Y. Convolutional neural networks for sentence classification[J]. Eprint Arxiv, 2014.

Outlines

/