Research on Public Opinion Analysis Methods in Major Public Health Events: Take COVID-19 Epidemic as an Example

HAN Keke; XING Ziyao; LIU Zhe; LIU Junming; ZHANG Xiaodong

doi:10.12082/dqxxkx.2021.200226

Journal of Geo-information Science >

2021 , Vol. 23 >Issue 2: 331 - 340

DOI: https://doi.org/10.12082/dqxxkx.2021.200226

Research on Public Opinion Analysis Methods in Major Public Health Events: Take COVID-19 Epidemic as an Example

HAN Keke ^,¹^,² ,
XING Ziyao ¹^,² ,
LIU Zhe ¹^,² ,
LIU Junming ¹^,² ,
ZHANG Xiaodong ^,¹^,²^,^*

Expand

1. College of Land Science and Technology, China Agriculture University, Beijing 100083, China
2. Key Laboratory of Remote Sensing for Agri-Hazards, Ministry of Agriculture and Rural Affairs, Beijing 100083, China

^* ZHANG Xiaodong, E-mail: zhangxd@cau.edu.cn

Received date: 2020-05-07

Revised date: 2020-07-20

Online published: 2021-04-25

Supported by

National Key R&D Program of China(2018YFC1508901-3)

Copyright

Fold

Abstract

Since December 2019, COVID-19 has rapidly swept the world. As of May 10, 2020, 16:40 PM, Beijing time, the global confirmed COVID-19 cases reached 4,115,662, which has become a major global issue. Social media platforms such as microblog have become the important channel for information transmission and an effective sensor of public sentiment. In-depth mining and analysis of microblog information can not only characterize the public opinion, but also help the government to conduct targeted guidance on public sentiment and properly control public opinion. Therefore, this study collected more than 330,000 Sina Weibo data about COVID-19 from January 18, 2020 to January 28, 2020. Based on the spatial clustering method using Louvain and K-means and an improved BTM subject word extraction algorithm, users' attention information and emotional characteristics are labeled with their locations. Thus, the evaluation method of public opinion is constructed by integrating user's location information, which is able to analyze the characteristics of public opinion and the difference in the topics concerned at different regions. Our results show that the characteristics of public opinion in different regions can be comprehensively evaluated using the spatial clustering method based on Louwain and K-mean. The BTM subject word extraction method based on BERT word vector can effectively make up the disadvantages of traditional subject word extraction methods that need large computation and have data redundancy, and thus has stronger expression ability in user data mining. The hot topics concerned in different regions have certain differences. The public opinion analysis method proposed in this paper can effectively reflect the public opinion characteristics of different regions and provide reference for the public opinion analysis of major public health events.

Key words： COVID-19; Weibo; sentiment analysis; spatial clustering; public opinion; subject word extraction; hot mining; the crawler

Cite this article

HAN Keke , XING Ziyao , LIU Zhe , LIU Junming , ZHANG Xiaodong . Research on Public Opinion Analysis Methods in Major Public Health Events: Take COVID-19 Epidemic as an Example[J]. Journal of Geo-information Science, 2021 , 23(2) : 331 -340 . DOI: 10.12082/dqxxkx.2021.200226

1 引言

2019新型冠状病毒（COVID-19）感染引起的急性呼吸道传染病,简称“新冠肺炎”,因为疫情对全球的影响,在社交媒体上的讨论居高不下,成为2020年热点事件与舆情的风向标。网络舆情是指以互联网作为传播平台,以社会问题为主要议题的网络舆论,包括公众对社会问题的认知、态度、情感和行为倾向^[1,2]。传染病类突发公共事件对人类健康造成极大的危害,伴随而生的网络舆情具有传播速度快、暴发性强等特点,公众情绪及舆论与公共事件本身相互作用,不断影响公共事件的安全风险,合理管控舆情对应对公共事件起到重要作用^[3]。有效挖掘分析疫情下的舆情特点,引导公众情绪并营造良好的舆论环境在疫情防控中显得尤为重要。

在大数据的背景下,社交媒体平台在公共事件中既发挥着信息传播的作用又具有描绘公众行为及情感特征的能力^[4]。Hridoy等^[5]提出,社交网络数据是研究公众舆情最有效、最准确的指标之一。其中,微博信息因含有位置信息、丰富的情感信息以及鲜明的主题内容,还往往带着情绪进行传播,在舆情研究中具有重要意义。国内外学者主要从情感分析、关注热点挖掘、空间分析等维度来分析舆情特点。

齐珉等^[6]采用Rost 情感分析工具对2017年九寨沟地震期间的微博数据进行情感分析,挖掘公众情感特征;Ragini等^[7]将洪水后社交媒体信息分为积极、消极和中性3类,分析公众对灾害的响应并了解灾中人们的需求。社交交媒体数据是实时获取公共卫生事件中公众情绪的有效跟踪工具,Gomide等^[8]通过对Twitter数据进行情感分析,来监控登革热病流行期间的民众恐慌情绪;Dwibhasi等^[9]则分析了埃博拉疫情影响下的Twitter数据中积极与消极情感的比例,发现公众情绪与重大社会事件有明显的相关性。

了解公众关注热点有助于阻止舆情危机暴发并正确引导舆论^[10],为如何从海量、非结构化的文本信息中快速挖掘关注热点的问题,催生了许多主题模型。例如,BLEI等^[11]于2003年提出了LDA（Latent Dirichlet Allocation）模型,是目前使用最为广泛的概率主题模型。谈成访^[12]基于LDA主题模型实现了中文微博热点话题的发现,但由于微博文本短小、口语化等特点,主题分析效果受到影响。随后提出的CTM （Correlated Topic Model）模型^[13],与LDA类似,但只能描述成对主题间的相似性,基于此局限性,Li等^[14]在2006年提出了PAM模型,不仅可以描述词之间的相似性还可以描述主题之间的相关性。余淼淼等^[15]基于2000条Twitter数据使用PAM概率主题模型进行热点挖掘,证明针对微博的特殊文本结构,PAM概率主题模型比LDA模型在挖掘热点时具有更强的表达能力,但是无法根据热词得到主题描述。王亚民等^[16]、苏凯等^[17]采用BTM模型发现微博热点,克服微博短文本的稀疏性问题,但由于BTM在建模过程中速度较慢,易出现冗余主题。

舆情具有一定的地域性,嵌入的位置信息的社交媒体数据,为研究和理解舆情特征提供了有价值的指标。然而,一般针对舆情的空间统计分析,多使用行政区作为分析单元,或直接利用用户发布社交媒体数据时定位的坐标,基于密度进行情感特征分析,例如张岩等^[18]挖掘台风“山竹”期间广东省各个市的情感值高低以及受灾严重程度,以市级行政区为分析单元,但分析范围仅限于一个省;陈兴蜀等^[19]基于微博数据对新冠肺炎进行舆情演化时空分析,将全国各省区市的民众情感值、微博人数进行可视化展示,虽然研究范围扩大到全国,但因为空间单元为省级行政区,无法反映市级行政区尺度的舆情差异,而此次疫情传播在城市之间具有明显的地域差异;Alves等^[20]采用GeoSEn geoparser的方法从文本中获取地理信息转化为坐标进行情感空间分析,但存在监测位置不准确的现象,使得分析结果在空间上存在偏差。特别是不同级别行政单元的分析结果差异较大,而具有用户定位坐标的微博数量少,导致分析结果的有偏性进一步增加。同时,舆情传播还具有一定的地域关联特征,公众不仅仅关注本地的热点信息,还关注其他地域的信息,然而传统的舆情分析方法未能有效对其进行挖掘。

综上所述,微博已成为舆情分析的重要数据源,众多学者在情感分析、话题挖掘以及时空特征等方面已开展了很多的研究,但在分析方法上仍然有待于继续深入探讨。特别是这次新冠疫情的特殊性与严重性,更需要分析信息背后隐藏着区域之间的联系,以及公众对周边疫情的感知态度。因此,本文对新冠肺炎舆情的研究,主要进行微博主题文本的知识发现,旨在挖掘地名、空间关系、情感联系以及关注热点的异同,探索基于位置的信息融合,从而构建反映情感特征、地域关联与热点关注在内的舆情评价方法。

2 数据来源与研究方法

2.1 数据来源

新浪微博从诞生至今,一直是人们生活中重要的信息分享和交流平台。根据新浪微博数据中心《2018微博用户发展报告》^[21]显示,截至2019年3月15日,微博月活跃用户4.62亿。由于微博信息中具有明显的情感倾向,可反映公众情绪状态并包含地理位置信息,在此次疫情的信息传播中,产生了一定的影响,如2020年1月18日新型肺炎相关微博557条,而1月20日相关的微博数量激增为8000多条,故本文采用新浪微博数据作为数据源进行分析。

2019年12月31日武汉市卫生健康委员会首次在官网向社会公布新冠肺炎疫情,但公众对于疫情讨论较少,直到2020年1月18日—19日左右疫情话题讨论度逐渐增多,1月20日国家领导人对疫情作出重要指示,国家高级别专家进驻湖北武汉,钟南山院士公开宣布这种疾病呈现人传人的特点,疫情进入全面暴发期;2020年1月23日,武汉“封城”,疫情进入蔓延阶段,此后各省区市陆续出现确诊病例。1月28日后公众情绪倾向于积极并且平稳。因此,本文选取的时间段为2020年1月18日—28日共计11 d,利用网络爬虫以新型肺炎为关键词抓取微博数据,数据包含微博用户名、微博内容、发表时间、用户所在市4项,以市级行政区为空间单元,经过数据清洗共得到可用数据334 251条。

2.2 技术路线

本研究主要从情感特征、地域关联和关注热点3个维度构建舆情评价方法：采用Louvain与Kmeans聚类相结合的空间聚类方法,以百度API情感值和地名共现计算结果,融合地域关联特征对区域进行聚类,研究基于位置的情感特征空间分布,分别以市、省为面积单元分析情感倾向,探究不同空间尺度下的舆情特征;并基于BERT词向量的BTM主题词提取方法进行主题词提取,分析不同区域公众关注热点。方法流程如图1所示。

显示原图|下载原图ZIP|生成PPT

图1 舆情分析方法流程

Fig. 1 Process of constructing public opinion analysis method

2.3 情感分析方法

文本情感分析是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。微博中大量用户参与,表达了人们的情感色彩和情感倾向,可了解人们对于某一事件的看法^[22]。本文对比python自带情感分析包SnowNLP和百度情感分析API 2种工具对微博文本情感值计算的结果,通过人工判断分析,发现百度情感分析API计算结果更加准确,因此本文选择百度情感分析API进行微博文本情感值计算,该工具使用Bi-LSTM的情感分类模型,基于语义进行情感倾向的判断,避免了传统基于特征工程方式分类的局限,计算结果介于0~1之间,当结果大于0.5文本情感较为积极,结果值越大,文本就越积极;结果小于0.5,文本情感偏向消极,越接近0,文本情感越消极。

2.4 基于Louvain-Kmeans的空间聚类方法

突发公共事件对于不同地域会产生不同的影响,但由于传染病的跨地域传播特性和地域间频繁的经济文化交流,不同区域的社交媒体舆情信息既存在地域特征又具有一定关联,因此本文采用Louvain-Kmeans空间聚类方法,该方法同时考虑了地域关联、情感倾向和空间位置。Louvain算法通过构建地域间的网络空间进行社区发现,能够体现地域关联特征,Kmeans则融合地域的情感及空间属性将社区进一步聚类为特定个数的区域类别,能分析更大尺度上的区域舆情的共性与差异。

Louvain-Kmeans聚类算法如下：

（1）利用jieba分词工具的词性识别,提取微博中出现的地名,利用百度地图API的地理编码功能将其转换为经纬度,并定位至市一级,以市名作为地名text_loc_name。

（2）用户所在地与该地微博文本中出现的地点词组成的地名可构成共现对。例如,若身处武汉的用户所发微博中含有北京一词,则（武汉、北京）为一个地名共现对。利用发布该条微博的用户所在地地名user_loc_name与微博文本中出现的市级地名text_loc_name构成地名共现对（text_loc_name,user_loc_name）。

（3）重复步骤（1）、（2）,统计所有微博的地名共现情况,计算各个地名共现对出现的次数n。

（4）以所有地名为节点,n为边的权重构成无向图G,输入Louvain模型中,得到社区发现结果。

（5）计算各类社区的空间重心和平均情感值,基于Kmeans算法将社区进一步聚类,得到最终的聚类结果。

研究中采用了的肘部法（Elbow）,通过绘制不同聚类目标数K的SSE（Sum of the Squared Errors,误差平方和）,选出SSE下降幅度最大的K作为聚类数目,最终选择将市级行政单元聚为6类。SSE计算公式如式（1）所示。

（1）

SSE = ∑ i = 1 k ∑ x ∈ V i | x - m i | 2

式中：

V i

是指所有数据的第i个簇;x是

V i

中的样本点,即一个特征向量;

m i

是

V i

中所有样本的均值。基于Louvain社区发现结果以社区为单位重新计算各个社区包含微博的情感均值,并利用各社区包含市的空间位置计算社区重心,基于情感均值和社区重心位置经纬度使用Kmeans聚类为6类,得到新的空间分析尺度。

2.5 基于BERT词向量的BTM主题词提取方法

为分析公众关注热点,需对微博文本进行主题词提取。因微博文本具有一定的随意性且数据量较大,传统的BTM主题词提取方法会存在计算复杂度较大,主题冗余与交叉、提取难度大等问题。为在一定程度上克服这些不足,本文提出了一种基于BERT词向量的BTM主题词提取方法,该方法先将微博文本进行分词,基于BERT预训练模型生成词向量,使用Kmeans聚类方法将词向量聚类,在每一类中选取词频较高的词作为代表词,并将同一类中的其他词替换为代表词,减少输入数据数量,而后使用BTM模型进行主题词的提取。

BTM（Biterm Topic Model for Short Text）模型由Yan等^[23]提出,它针对短文本特点,通过整个语料库的词对共现模式对文本进行学习,以利用更为丰富的信息抽取主题。BTM模型的建模过程是先生成词对语料库,然后再根据生成的语料库进行模型训练,推断模型参数,最终得到语料库上的主题分布和词分布。假设语料库中有M个特征词,|B|个词对,K个主题。那么语料库级别的主题分布用

θ

表示,主题K的分布用

θ k

表示,词分布用ϕ表示。则

θ = {θ k} k = 1 k

,且

∑ k = 1 K θ k = 1

θ k = p (z = k)

,w代表词语; z代表抽取的一个主题;

p (z = k)

是主题k出现的概率;主题k下的词分布为：

φ w, k = p (w | z = k)

,且有

∑ w = 1 M φ w, k = 1

。

p (w | z = k)

是主题k下w出现的概率。

BERT使用了双向的Transformer模型^[24],并且使用预测目标词和下一句训练这种多任务方式进行训练。因此利用BERT对文本进行向量化表达,充分考虑了句子中每一个词语对其他上下文中词语的影响,以及同一个词语在不同语境中的不同含义表达。且由于BERT以字为单位进行词向量训练,解决了无法生成未登录词向量的问题。因此,本文使用肖涵基于python开发的bert-as-service库（https://github.com/hanxiao/bert-as-service）,基于分词结果对各个词生成维度为768词向量,以实现词语的向量表征,并利用向量间的距离描述词与词之间的相似性。而后使用Kmeans算法进行词向量的聚类。根据观察和统计,文本中的主题词往往具有较高的词频,而文本中大部分词的词频极小,本文仅保留文本中词频占所有词汇前40%的词汇参与聚类,聚类类别数按照所有参与词汇个数的30%进行选择。根据聚类结果将每类所有词按照词频从高到低排序,选择词频最高的词汇作为该类的代表词,替换该类其他词（如使用词频较高的“驰援”代替“奔赴、赶赴、赶往、奔赴前线、飞赴”等词）,从而将替换后的文本输入BTM模型中进行主题词提取。

利用BERT模型生成的词向量充分挖掘词语间的语义关系,并用词向量的替换使输入数据量减少,不仅可以减少BTM模型计算复杂度,减少特征提取难度,还可以使BTM模型提取的主题词语义差异增大,重合主题减少。以武汉气愤类文本主题提取结果为例（表1）,在仅输出前5类概率较高的主题时,原始方法中第3、第4类语义重合度较大,应合并为一类;本方法可提取出原始方法提取结果中缺失的”封城相关”类主题。同时相同主题中的关键词更为独立,例如“野味相关”类主题中原始BTM主题提取结果将“野味”、“野生动物”重复提取为关键词,而经过BERT词向量替换后,“野生动物”一词被替换为“野味”,增加了”野味“在该主题中的权重。

表1 原始BTM与改进后的BTM主题提取结果对比

Tab. 1 Comparison of results between the original BTM and the improved BTM theme extraction results

编号	原始BTM主题提取结果		基于BERT词向量改进后的BTM主题提取结果
编号	主题	关键词	主题	关键词
1	确诊病例相关	武汉;说;没有;全国;确诊;真的;病例;现在	确诊病例相关	武汉;知道;全国;确诊;病例;想;没有;现在
2	口罩相关	口罩;戴;武汉;说;确诊;病例;出门	口罩	口罩;戴;买;出门;去;大家;出来;严重
3	医院物资缺乏	武汉;医院;确诊;病例; 医生;物资;全国;没有	医院物资缺乏	医院;医生;医护人员;没有;物资;现在;发热
4	医院物资缺乏二	物资;全国;没有;医院;现在;武汉;没;号;今天	野味相关	野味;吃;气死我了;大家;希望;重视;隔离;相信
5	野味相关	吃;野味;确诊;病例;全国;武汉;气死我了;野生动物	封城相关	武汉;口罩;封城;想;政府;人民;超市;戴上

3 结果及分析

3.1 基于情感均值的舆情空间分析

为使“新冠肺炎疫情”的舆情分析更加直观,计算全国各省（自治区）、各市微博情感均值进行地图可视化（图2）,并基于情感分析、地域关联特征和位置信息,利用Louvain-Kmeans算法聚类,将聚类后各区域按照情感均值从低到高分别命名为区域1—区域6（图3）。

显示原图|下载原图ZIP|生成PPT

图2 全国各省（自治区）、各市新冠肺炎早期相关微博情感均值分布

注：该图基于自然资源部标准地图服务网站下载的审图号为GS(2019)1702号的标准地图制作,底图无修改。

Fig. 2 The mean distribution of COVID-19 related emotions in early microblogs by province and city in China

显示原图|下载原图ZIP|生成PPT

图3 新冠疫情情感聚类

注：该图基于自然资源部标准地图服务网站下载的审图号为GS(2019)1702号的标准地图制作,底图无修改。

Fig. 3 COVID-19 emotional cluster diagram

3.1.1 聚类区域舆情分析

从整体来看,全国公众情绪趋于积极,聚类结果呈现一定的南北向空间聚集性。区域1包含辽源、通化、四平、铁岭等市,情感均值最低,仅有0.17,但所占区域最小,且该类区域发博数量极少,表明仅有少部分居民情绪较为消极;区域2包含北京、上海、南京、鄂州、西安、沈阳等市,分散分布在我国东北部地区,情感均值为0.54,该区域包含许多大中城市,微博用户数量多且公众对疫情关注程度较高,且关注距离较远的区域信息;区域3包含武汉、郑州、广州、湛江、许昌等市,分布在我国中部,情感均值为0.60;区域4包含我国西部地区的昆明、乌鲁木齐、和田等市,所占区域最大,分布也较为集中,该区域内部关联度较大,公众往往仅关注临近地市的信息,情感均值为0.62;区域5包含厦门、舟山、泰安等市,散布在我国东部,聚类结果受情感值影响较大,均值为0.68;区域6分布于我国中部,包含成都、咸阳、雅安、丽水遵义等市,情感均值最高,达到0.70,情绪最为积极。

虽然空间聚类的要求是类内差异最小、类间差异最大,但理想状况和实际应用会存在一定差距,在某一聚类区内总会有一些实体与同类中的其他实体差异较大,这些类内属性值差异显著的点称为该类别的“特异值”。由于本文在利用Louvain-Kmeans聚类时,除了情感特征,还融合了地域关联和空间位置,单独以情感值进行特异值分析时会出现特异值,特异值的识别可为分区评价提供补充信息,对类内比较特殊的区域区别对待,避免在决策中一视同仁。

箱形图是一种可以较为直观地观测数据并对数据的特异值进行识别的方法。利用箱形图识别特异值的标准为：小于

Q 1 - 1.5 Δ Q

或大于

Q 3 + 1.5 Δ Q

,其中

Q 1

表示下四分位数、

Q 3

表示上四分位数,

Δ Q

表示四分位间距（

Q 3 - Q 1

）。且箱形图的绘制依靠实际数据,对数据分布没有要求。因此研究采用箱形图分析特异值（图4）,该图识别了情感值较本区域的情感均值相差较大的地点,即情感特异点（红色点）,并标明了区域情感均值（黄色点）。表2提供了各区域情感特异值的个数及所占比例。

显示原图|下载原图ZIP|生成PPT

图4 全国新冠肺炎情感聚类特异值分析

Fig. 4 Analysis of national COVID-19 emotion clustering specific values

表2 各类别情感特异值统计

Tab. 2 Statistics of various emotional specific values

	区域1	区域2	区域3	区域4	区域5	区域6	合计
特异值个数/个	2	2	4	1	3	2	14
区域总数/个	18	62	111	47	56	54	378
比例/%	11.11	3.23	3.60	2.13	5.36	3.70	3.70

由表2可知,区域4情感特异值比例较小,说明该区域内情感较为相似,区域1和区域5的情感特异值比例较大,特别是区域1的情感特异值比例超过10%,反映了该区域情感倾向差异较大,但公众主要关注附近的信息而使得该类空间聚集性较强。其中,松原、湘潭、绵阳、河池、黄南藏族自治州、承德、新竹市均比其所属区域情感值低,其中松原市的市民因比较关注本省省会疫情情况,在社区发现时与长春同属一个空间社区且公众情绪相较于吉林其他市更为消极,进而被划分为特异值;而空间位置指标是河池、黄南藏族自治州、承德、新竹成为特异值的主导原因,如河池与南宁位置相邻故同被聚为区域3。吉林、铁岭、西安、防城港、嘉义、新竹市较其所在区域的情感值高,其中甘南市、嘉义市、防城港市是受空间位置的影响,其余各市受地域关联和空间位置共同作用。在舆情管理中,应重点关注特异值所在地区,重点了解该地区公众对于疫情的了解程度以及关注热点,及时把控和引导舆情走向。

3.1.2 省级行政区舆情分析

总的来讲,新疆、甘肃、宁夏、陕西、浙江、福建等省（自治区）情感值普遍较高,多表达对疫情的祈福和祝愿,其中新疆、甘肃、宁夏在疫情初期病例出现较晚,微博数量较少,多为对相关新闻转发,负面情感抒发类较少;吉林省情感值最低且整体微博数量较少,多为抒发对疫情的害怕等情绪;对于较早出现病例的省市,如北京、上海、广东普遍情感值较低,江苏、河南等省也出现了情感值较低的情况,但疫情相关微博发布较多,在一定程度上可推测该区域公众对于疫情重视程度较高,当地政府应加强对舆情的引导,增强公众对于疫情防控的信心。

3.1.3 市级行政区舆情分析

通过对比可知,在以市级行政区为空间单元的情感分布图中,可发现广东的情况较为复杂,市与市之间差异较大,情感值由最高到最低均有分布。贵州一部分市情感值较高,一部分市情感值偏向中性,若采用以省为空间单元的情感分析尺度则会忽略这一差异。在以省为空间单元的情感均值分布图中,吉林情感值最低,而在以市为单位的情感分析中吉林的松原市、四平市、通化市等市发微博人数极少且情感偏向负面,而长春等市则微博数量相对较多且情感趋于积极。由于微博数量在一定程度上反映了信息的宣传力度和公众对于疫情的了解程度,在疫情暴发的初期,公众对信息的需求十分迫切,应及时有效地进行信息公开和宣传,增强公众的心理承受能力和心理包容能力,化解公众的负面情绪。

3.1.4 不同空间单元下对比分析

以省为空间单元的情感分析,可以发现各个省公众的情绪平均状态;以市为空间单元的情感分析可以精准描绘每个城市的舆情特点。由于本次疫情以较快速度在全国范围传播,各地情感值受信息传播影响较大,体现出全国性的关联特征,公众不仅关心本地病例的确诊情况,也在一定程度上关心其他地区的疫情。可以发现新疆、西藏等自治区内具有强关联性,而河北、四川等省情感及关注热点差异较大,体现了聚类过程中地域关联特征的作用。与省级行政单元情感分布图对比可知,因为聚类时位置参与了聚类,江西西北部与东南部分别与相邻的四川、重庆及广西等省（直辖市）产生较为相似的特点。将聚类后的分区图与市级行政单元情感分布图相比可知,区域尺度包含的情感值跨度很大,例如在区域3中,绵阳市、河池市情感值较低而广元市、防城港市情感值较高,突出了地域关联和地点位置在聚类中的作用。在区域2中,受情感均值的影响,聚类区域较为分散。对聚类区域进行情感分析相较于以省为单位可以在一定程度上发掘部分地级市的情感异常情况,打破省界对于情感值统计的局限性,而相较于市为空间单元的统计,更易于判断全国范围内不同地域的情感特征。

综上所述,不同空间单元的对比对于舆情特征的获取至关重要,在进行舆情管控中应该根据需要选择多种空间单元,重点关注情感特异值分布情况,并且,在公共卫生事件信息宣传中不仅仅考虑推送本地信息,还需要考虑各区域间的地域关联情况以推送公众所需信息。

3.2 基于主题词提取的舆情热点挖掘

基于BERT词向量的BTM主题词提取方法,进一步分析空间聚类后的6类区域的舆情特征,制作了词云图显示各个区域概率占比前五的主题所对应主题词（图5）。由图可知,各区域公众对于防控工作安排、确诊与新增病例相关主题均较为关注,占各区域主题词的主导地位,同时表达了祈福和祝愿,希望疫情可以早日结束,医护人员和受疫情影响的地区可以平安。

显示原图|下载原图ZIP|生成PPT

图5 新冠肺炎6个聚类区域词云图

注：从左到右,从上到下依次为区域1—区域6的主题词词云图,词的大小由该词所在主题概率与该词在该主题中的概率相乘后从大到小排序决定。

Fig. 5 COVID-19 word cloud map of six cluster regions

另外,通过主题词挖掘可以发现不同地域的差异性特征主题。区域1包含吉林松原、四平、通化、辽源等市情感值最低所含区域最少,公众对疫情态度较为消极,公众对食用野生动物的行为表达了气愤之情,另外值得关注的是该区域公众重点关于口罩等防护用品的价格是否上涨,并提及药店等防护用品销售渠道;区域2位于我国东部及东北部,提取出的特征主题为疫情症状,对应主题词如发热、咳嗽等;区域3、区域4均关注防护措施及物资供应情况,例如口罩的佩戴、消毒措施等,区域3的公众还并表达了对于外出的害怕和担心;区域5的特征主题主要由山东省公众发布,表达了对因疫情而暂停的客运和旅游班线的关注;区域6位于我国中西部整体情感值较高,许多公众关注疫情在世界范围内的传播情况,多提及美国确诊新冠肺炎情况。

基于主题词的挖掘,可以发现不同区域关注热点的共同性和差异性,在舆情管理中为消除群众对疫情的疑惑,避免引发公众情绪失衡,应重点关注主题挖掘所反映的该区域疫情防控或信息宣传所产生的特征热点信息,并及时做出相应措施。

4 结论与展望

在突发公共卫生事件发生时,公众倾向于从社交媒体工具上获取最新消息以及发表自己的感受,网络舆情研究变得十分有意义。本文利用python爬虫爬取了2020年1月18日—2020年1月28日中国各市与“新冠肺炎”相关的微博数据,基于情感分析和改进的BTM主题词提取等研究方法,提出了一种挖掘不同地域公众的关注热点和情感特征的网络舆情分析方法的思路,研究以新冠肺炎为例从空间、情感等方面综合分析了相关社交媒体数据,得出以下结论：

（1）研究构建了一种融合情感特征、地域关联和关注热点在内的舆情挖掘方法,有助于基于社交媒体信息挖掘舆情特征,为相关部门提供突发公共事件中更有效的危机应对和管理依据。

（2）基于BERT词向量的BTM主题词提取方法,在一定程度上弥补了传统的BTM主题词提取方法计算复杂度大、主题冗余度高等缺点,可以有效挖掘舆情特征,了解公众关注热点。

（3）研究表明,疫情信息扩散初期公众情绪整体较为积极,情感值在空间上呈现西部高,东部略低,中部过渡的特点,且相邻地域情感特征在一定程度上呈现相似特征,并在南北方向表现较为明显的空间聚集。

（4）通过主题词提取方法可知公众多表达对受疫情影响的地区和人员的祈福祝愿,并关注防控工作安排、确诊与新增病例等信息,及时通报新冠肺炎的有关情况和防疫知识可在一定程度上稳定人们的情绪。另外,公众情感受当地相关新闻报道影响较大,政府及相关部门应基于对舆情的了解,精准引导舆论走向。

（5）基于Louvain-Kmeans的空间聚类结果,发现不同区域舆情具有一定的差异性,各区域对疫情的态度由消极到积极不同,对食用野生动物、防护用品价格、新冠肺炎症状、防护措施、医用物资等信息的关注程度不一;同时,聚类结果一方面体现类内的疫情相似性,另一方面也能发现类内的特异值,区域一的情感特异值比例最高,超过10%,类内差异较大;区域4情感特异值的比例最小,这些特异值更需要关注。

（6）对新冠肺炎相关微博进行情感分析得知甘肃、宁夏、陕西等省（自治区）整体情绪较为积极,而江苏、广东部分地区情感值较低,其中吉林的四平、通州等市公众情感最为消极。区域1情感值最低但所占区域最少,区域4—区域6情感均值较高,所占面积超全国的一半,表明大部分地区的公众对于此次疫情呈现积极态度。

本文所用情感分析方法将情绪量化并未对情感进行类别分析,下阶段将进行情感分类的研究,完善舆情分析方法。其次,为了验证提出的方法,本文仅使用了新冠肺炎疫情初期的新浪微博数据,理论上本方法适用于更多的重大公共卫生事件。此外,微博用户多为年轻人,基于微博数据研究会存在一定的片面性,下阶段会考虑加入抖音、快手等数据,力求包含的用户群体更加全面,描绘更加完善的区域舆情特点为政府舆情管理提供信息。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	汪明艳, 余丽彬, 朱译冰. 舆论反转中群体极化效应的影响因素研究[J]. 情报杂志, 2018(9):106-112,119. [ Wang M Y, Yu L B, Zhu Y B. Research on the influencing factors of group polarization in public opinion reversal[J]. Journal of Intelligence, 2018(9):106-112,119. ]

[2]	邵真如. 技术赋权视域下的90后大学生网络舆情研究:挑战与应对[J]. 课程教育研究, 2018(12):175. [ Shao Z R. Research on network public opinion of post-90s college students from the perspective of technology empowerment: challenges and solutions[J]. Curriculum Education Research, 2018(12):175. ]

[3]	丁学君, 樊荣, 杨锦仪. 突发公共卫生事件网络舆情研究现状及评述[J]. 电子政务, 2017(6):47-56. [ Ding X J, Fan R, Yang J Y. Research status and comments of online public opinion on public health emergencies[J]. E-Government, 2017(6):47-56. ]

[4]	Xing Z, Su X, Liu J, et al. Spatiotemporal change analysis of earthquake emergency information based on microblog Data: A case study of the “8.8” Jiuzhaigou earthquake[J]. ISPRS International Journal of Geo-Information, 2019,8(8):359. DOI

[5]	Anwar Hridoy S A, Ekram M T, Islam M S, et al. Localized twitter opinion mining using sentiment analysis[J]. Decision Analytics, 2015,2(1):1-9. DOI

[6]	齐珉, 齐文华, 苏桂武. 基于新浪微博的2017年四川九寨沟7.0级地震舆情情感分析[J]. 华北地震科学, 2020,38(1):57-63. [ Qi M, Qi W H, Su G W. 2017 Sichuan Jiuzhaigou M7.0 earthquake sentiment analysis based on sina weibo[J]. North China Earthqauke Sciences, 2020,38(1):57-63. ]

[7]	Ragini J R Anand P M R Bhaskar V. Big data analytics for disaster response and recovery through sentiment analysis[J]. International Journal of Information Management, 2018,42:13-24. DOI

[8]	Gomide J, Veloso A, Meira W, et al. Dengue surveillance based on a computational model of spatio temporal locality of twitter [C]. International Web Science Conference. ACM, 2011: 1-8

[9]	Dwibhasi S, Jami D, Lanka S, et al. Analyzing and visualizing the sentiments of Ebola outbreak via tweets [C]//Proceedings of the SAS Global Forum, Dallas, TX, USA. 2015: 26-29.

[10]	林萍, 黄卫东. 基于LDA模型的网络舆情事件话题演化分析[J]. 情报杂志, 2013,32(12):26-30. [ Lin P, Huang W D. Event topic evolution of network Ppublic opinions: an analysis based on LDA model[J]. Journal of Intelligence, 2013,32(12):26-30. ]

[11]	Blei D, Ng A, Jordan M. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.

[12]	谈成访, 汪材印, 张亚康. 基于LDA模型的中文微博热点话题发现[J]. 宿州学院学报, 2014,29(4):71-73,77. [ Tan F C, Wang C Y, Zhang Y K. A hot topic identification based on LDA for Chinese microblog[J]. Journal of Suzhou University, 2014,29(4):71-73,77. ]

[13]	Blei D M, Lafferty J D. Correlated topic models[C]. Advances in Neural Information Processing Systems18. Cambridge, MA: MIT Press, 2006.

[14]	Li W, Mccallum A, Allocation P. DAG-structured mixture models of topic correlations [C]. Proceedings of the International Conference on Machine Learning (ICML). Pittsburgh, Pennsylcania, 2006.

[15]	余淼淼, 周志平, 赵晓东, 等. 基于PAM概率主题模型的微博热点挖掘[J]. 微型机与应用, 2013,32(15):86-89. [ Yu M M, Zhou Z P, Zhao X D, et al. PAM-based microblog hot spot mining[J]. Microcomputer & Its Applications, 2013,32(15):86-89. ]

[16]	王亚民, 胡悦. 基于BTM的微博舆情热点发现[J]. 情报杂志, 2016,35(11):119-124,140. [ Wang Y M, Hu Y. Hotspot detection in microblog public opinion based on biterm topic model[J]. Journal of Intelligence, 2016,35(11):119-124,140. ]

[17]

苏凯, 程昌秀, Nikita

Murzintcev

, 等. 主题模型在基于社交媒体的灾害分类中的应用及比较[J]. 地球信息科学学报, 2019,21(8):1152-1160.

DOI

[ Su

, Cheng C

, Murzintcev

, et al. Application and comparison of topic model in identifying latent topics from disaster-related Tweets[J]. Journal of Geo-information Science, 2019,21(8):1152-1160. ]

[18]	张岩, 李英冰, 郑翔. 基于微博数据的台风“山竹”舆情演化时空分析[J/OL]. 山东大学学报(工学版): 1-9[2020-04-10]. [ Zhang Y, Li Y B, Zheng X. Spatial and temporal analysis of network public opinion evolution of typhoon”Mangkhut” based on Weibo data[J]. Journal of Shangdong University(Engineering Science): 1-9[2020-04-10]. ]

[19]

陈兴蜀, 常天祐, 王海舟, 等. 基于微博数据的“新冠肺炎疫情”舆情演化时空分析[J]. 四川大学学报(自然科学版), 2020,57(2):409-416.

[ Chen X

, Chang T

, Wang H

, et al. Spatial and temporal analysis on public opinion of epodemic situation about novel coronavirus pneumonia based on micro-blog data[J]. Journal of Sichuan University(Natural Science Edition), 2020,57(2):409-416. ]

[20]	Alves, André Luiz Firmino, Baptista, et al. A Spatial and Temporal Sentiment Analysis Approach Applied to Twitter Microtexts. [C]// International Conference on Innovative Computing. IEEE, 2016.

[21]	Di Li, Jianwei Niu, Meikang Qiu, et al. Sentiment Analysis on Weibo Data[A]. IEEE Beijing Section.Proceedings of 2014 IEEE Computers, Communications and IT Applications Conference (ComComAp) [C].IEEE Beijing Section: IEEE BEIJING SECTION(跨国电气电子工程师学会北京分会), 2014: 6.

[22]	胡赫薇, 冯晓曦. 基于Bi-LSTM的财金文本情感分类研究[J]. 电脑与信息技术, 2020,28(2):35-37. [ Hu H W, Feng X X. Research on sentiment classification of financial textbased on Bi-LSTM[J]. Computer and Information Technolog, 2020,28(2):35-37. ]

[23]	Yan X H, Guo J F, Lan Y Y, et al. A biterm topic model for short texts [C]//Proceedings of the 22nd International Conference on WWW, 2013.

[24]	袁和金, 张旭, 牛为华, 等. 融合注意力机制的多通道卷积与双向GRU模型的文本情感分析研究[J]. 中文信息学报, 2019,33(10):109. [ Yuan H J, Zhang X, Niu W H, et al. Sentiment analysis based on multi-channel convolution and Bi-directional GRU with attention mechanism[J]. Journal of Chinese Information Processing, 2019,33(10):109. ]

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

1 引言

2 数据来源与研究方法

2.1 数据来源

2.2 技术路线

图1 舆情分析方法流程

2.3 情感分析方法

2.4 基于Louvain-Kmeans的空间聚类方法

2.5 基于BERT词向量的BTM主题词提取方法

表1 原始BTM与改进后的BTM主题提取结果对比

3 结果及分析

3.1 基于情感均值的舆情空间分析

图2 全国各省（自治区）、各市新冠肺炎早期相关微博情感均值分布

图3 新冠疫情情感聚类

图4 全国新冠肺炎情感聚类特异值分析

表2 各类别情感特异值统计

3.2 基于主题词提取的舆情热点挖掘

图5 新冠肺炎6个聚类区域词云图

4 结论与展望

References