地球信息科学理论与方法

突发自然灾害事件网络舆情传播特征及影响因素研究

  • 赵飞 , * ,
  • 廖永丰
展开
  • 应急管理部国家减灾中心,北京 100124

赵 飞(1979— ),女,山东高唐人,副研究员,主要从事灾害评估与风险防范研究。E-mail:

收稿日期: 2020-09-12

  要求修回日期: 2020-10-26

  网络出版日期: 2021-08-25

基金资助

国家重点研发计划项目(2018YFC1508900)

国家重点研发计划项目(2017YFC1503000)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Research On the Dissemination Characteristics and Influencing Factors of Network Public Opinion of Sudden Natural Disaster Events

  • ZHAO Fei , * ,
  • LIAO Yongfeng
Expand
  • National Disaster Reduction Center of China,Beijing 100124, China
*ZHAO Fei, E-mail:

Received date: 2020-09-12

  Request revised date: 2020-10-26

  Online published: 2021-08-25

Supported by

National Key Research and Development Program of China(2018YFC1508900)

National Key Research and Development Program of China(2017YFC1503000)

Copyright

Copyright reserved © 2021

摘要

随着网络技术的发展,网络舆情分析在应对突发事件中发挥的作用日益显著。自然灾害发生后,准确把握舆情信息传播特征并分析其影响因素有助于应急管理部门及时采取有效的应急救援措施。本文以台风“利奇马”为例,基于“新浪舆情通”系统搜集的相关微博、微信、论坛、网站等全网舆情数据,探究台风灾害全过程舆情信息的时空分布特征,开展灾害舆情信息影响因素相关性分析。研究表明:① 相比于灰色EGM(1, 1)模型,ARIMA模型对于舆情的短时预测具有较高的适用度,所预测的舆情信息的时序变化与利奇马台风的生命周期相符;② 舆情的空间分布具有聚集性,其分布与受灾程度呈正相关关系,但同时受灾区经济状况和网络普及率影响;③ 灾情严重程度与原创舆情信息的相关性高于转发舆情信息,原创舆情信息更能反映受灾地区的实际受灾情况。研究内容为应急管理部门及时掌握舆情走势并调整应急救助决策提供了指导价值。

本文引用格式

赵飞 , 廖永丰 . 突发自然灾害事件网络舆情传播特征及影响因素研究[J]. 地球信息科学学报, 2021 , 23(6) : 992 -1001 . DOI: 10.12082/dqxxkx.2021.200526

Abstract

With the development of network technology, the analysis of internet public opinion plays an increasingly important role in dealing with the emergency. After the occurrence of natural disasters, it is helpful for the emergency management department to take effective emergency rescue measures in time to accurately grasp the characteristics of public opinion information and analyze its influencing factors. Based on the network public opinion data related to Typhoon Lekima, including micro-blog, WeChat, forums, websites, and other online public opinion data collected by the "Public opinion on Sina" system, this article analyzes the spatiotemporal characteristics of disaster public sentiment in the process of disaster. The influencing factors of the disaster public opinion information are also analyzed. The results show that the temporal distribution of public opinion information is consistent with the lifecycle of Typhoon Lekima. Compared with the grey EGM (1,1) model, ARIMA model has a higher applicability for short-term prediction of public opinion. The spatial distribution of public opinion is positively related to the severity of the disaster and also related to the economic condition and the network popularity in the affected area. The correlation between the severity of the disaster and the original public opinion information is stronger than that between the severity of the disaster and the transmitted public opinion information. The original public opinion information can better reflect the actual situation of affected areas. The study provides guidance for emergency departments to grasp the trend of public opinion and adjust emergency measures timely.

1 引言

网络舆情是指广大网民以网络媒体为平台,在网络公共空间针对公共事物表达自己的观点、态度和情绪。中国互联网络信息中心发布的第45次中国互联网发展状况统计报告表明,截至2020年3月,我国网民规模为9.04亿,互联网普及率达64.5%[1]。如此庞大的用户群体,使得网络舆情已发展成为不容小觑的舆论场。随着网络技术的发展,网络舆情分析在应对突发事件当中扮演着越来越重要的角色。在突发事件中,如何快速对海量网络数据开展舆情传播特征及其影响因素分析是当前研究的热点和难点。
当前,许多国内外学者开展了自然灾害条件下的互联网舆情信息挖掘研究,研究重点主要聚焦于网络舆情的时间空间分布特征分析和突发事件下的网络舆情影响因素分析。互联网舆情信息主要来源于网络社交媒体,就所采用的社交媒体平台而言,国内以微博为主,国外以Twitter和Facebook为主。Yan等[2]通过分析微博信息内容和微博话题趋势,分析信息传播的过程以及探讨中国网民应如何利用微博应对灾难;Doan等[3]和Shibuya等[4]分别通过Twitter和Facebook数据的分析,发现社交媒体数据可有效运用于早期预警监视,并可在灾害期间分析公众的关注点及需求;Karami等[5]提出了基于Twitter的网络舆情信息分析框架,以指导救灾相关部门。
在时间序列分析方面,秦琴等[6]基于突发灾害事件的时序变化特征,运用突发灾害理论和信息传播理论,构建了突发灾害网络舆情风险监测体系;郑步青等[7]结合ARIMA和灰色预测模型的基础理论,提出基于拐点的预测方法,并利用网络舆情数据对该方法进行实例验证;杨茂青等[8]基于随机森林算法建立突发事件网络舆情演化预测模型,以微博作为数据来源进行模型的训练与预测;He等[9]基于灰色系统理论与模糊神经网络构建组合预测算法,对网络舆情进行了预测研究。国内外学者在网络舆情时序预测中采用的灰色预测、ARIMA模型等方法在今后的研究中仍可使用,但其适用性有待比较。
在空间分布特征分析方面,梁春阳等[10]基于台风“莫兰蒂”的微博数据,开展基于Moran's I指数的空间自相关分析,探讨灾害下社交媒体的空间分布特性;熊俊楠等[11]采用GIS工具进行空间自相关分析和聚类分析,探讨四川省山洪灾害的时空分布及影响因素;阮文奇等[12]基于百度指数,运用空间自相关分析和热点分析,探讨九寨沟地震后客源地的旅游需求影响及空间差异;王敬泉等[13]挖掘微博数据,使用GIS技术实现网络舆情空间分布可视化,并通过数据回归分析研究了舆论在空间维度上的传播模式。空间自相关分析、冷热点分析等方法理论已经相对成熟,将空间分布特征分析与GIS技术相结合已成当今研究的主要趋势。
在舆情影响因素分析方面,研究学者发现经济发展水平、网络资源等因素对舆情空间分布和传播存在影响。王波等[14]借助微博用户关系分析网络社区的地理特征,发现网络信息与社会经济发展水平存在相关性;杨敏等[15]采用微博数据分析景区危机事件的空间扩散效应,发现经济发达地区是舆情的主要扩散地点;陈昱杉等[16]以微博“九寨沟地震”事件为例,研究舆情信息扩散的影响因素,表明网络资源、经济水平、是否有同类事件发生等因素影响了舆情的分布与传播。此外,还有学者通过数学回归方法分析各项因素对研究对象的影响程度,姚可桢等[17]通过逐步回归分析,探讨大数据下我国各地区食甜度的影响因素。目前,针对自然灾害舆情影响因素的研究仍然较少,尤其2019年“利奇马”台风此类多时段触发、影响范围广、受灾规模大的自然灾害舆情影响因素更是鲜有讨论。
我国大陆东濒太平洋,海岸线绵延18 000多公里,是世界上受热带气旋影响最严重、最频繁的区域之一。在台风灾害应对过程中,关于台风的预警信息、造成损失及救援行动等均易引起媒体和公众的高度关注。本文以台风“利奇马”为例,基于新闻门户网站及社交网站、微博、微信、论坛等渠道获取的多源互联网舆情数据,对比灰色EGM(1, 1)模型和ARIMA模型对舆情信息时序预测的适用性,分析舆情信息的空间分布特征,探讨台风灾害舆情的影响因素以及舆情分布与受灾严重程度的相关性,旨在为应急管理部门优化应急救援策略提供参考。

2 数据来源及处理方法

2.1 利奇马台风基本概况

台风“利奇马”于2019年8月4日15时获得日本气象厅命名;8月10日1时45分许在浙江省温岭市城南镇沿海登陆,登陆时中心附近最大风力有16级;随后其纵穿浙江、江苏两省并移入黄海海面,又于8月11日20时50分在山东省青岛市黄岛区沿海再次登陆,登陆时中心附近最大风力有9级;此后其移入渤海海面并不断减弱,最终于8月13日14时被中央气象台停止编号。
根据应急管理部灾情数据,台风“利奇马”是1949年以来登陆我国大陆地区强度第五位的超强台风,造成浙江、山东、江苏、安徽、辽宁、上海、福建、河北、吉林9省(市)64市403个县(市、区)1402.4万人受灾,直接经济损失总计达515.3亿元。

2.2 数据来源及构成

新浪舆情通是一个政企舆情大数据服务平台,该平台以中文互联网大数据以及新浪微博的官方数据为基础,24 h不间断采集新闻、报刊、微博等多个信息来源的网络数据。本文通过“新浪舆情通”系统,以“利奇马”为搜索关键词,以“8月3日至21日”为采集时间范围,获取台风命名前日至停编后一周内(涵盖台风灾前预警期和灾后重建期)的全网舆情数据共6 369 450条,其中仅微博数据便达5 145 824条。对采集的网络舆情数据进行分析,可探讨利奇马台风舆情的时间空间分布特征及其影响因素。
为了分析利奇马台风舆情的影响因素,除上述获取的舆情信息数据外,本文还借助各省的其他数据,具体包括:① 各省年均气温、降雨量、相对湿度等气候条件数据来源于2017年《中国气象年鉴》[19],用各省会城市的数据作为该省的气候条件数据。② 以2019年各省GDP总量作为该省的经济发展水平,单位为:亿元人民币。③ 各省的网络普及率数据来源于《中国互联网发展报告2019》[20]。④ 建国以来至2019年的各省台风登陆次数来源于中国气象局统计数据[21]。⑤ 利奇马台风灾害损失数据来源于应急管理部国家减灾中心灾情信息管理系统中地方上报的灾情数据。

3 研究方法

3.1 舆情数据时间序列预测方法

未来舆情信息的准确预测,有利于对网络舆情进行适当的管理与引导。常见的时序预测模型有灰色系统理论模型和ARIMA模型,本文通过比较二者对舆情信息数量的预测结果,检验二者在自然灾害网络舆情预测中的适用性。
3.1.1 灰色EGM(1, 1)模型
灰色模型(Grey Model)能根据少量信息,建立灰色微分预测模型进行时序预测,简称GM模型[22]。EGM(1,1)模型表示1阶、1个变量的均值灰色模型,适用于非指数增长的震荡序列。利用该模型进行舆情时序预测的流程如下:
(1)获取已知的前n小时舆情信息序列 X 0 = ( x 1 0 , x 2 0 , , x n 0 ) ;
(2)将舆情信息数量进行一次累加: X 1 = ( x 1 1 , x 2 1 , , x n 1 ) ;
(3)构造数据系列B和数据向量Y
B = - 1 2 x 1 1 + x 2 1 - 1 2 x 2 1 + x 3 1 1 1 - 1 2 x n - 1 1 + x n 1 1 1 Y = x 2 0 x 3 0 x n 0
(4)求解一阶微分方程系数a和b:
a b = B T B - 1 B T Y
(5)则EGM(1,1)模型的时序响应序列为:
x k + 1 1 = x 1 0 - b a e - ak + b a
(6)将k取不同值代入时序响应序列,可以得到预测的一次累加值,进行一次累减计算后即可得到预测值 x ˆ k + 1 0
本文取n, k=6,基于前6 h的舆情数量,预测下个小时的舆情数量 x ˆ 7 0
3.1.2 ARIMA模型
差分整合移动平均自回归模型(Autoregressive Integrated Moving Average model,ARIMA模型),该模型适用于非平稳的时间序列建模和预测,对于短期预测精度比较高[7]。利用ARIMA模型对网络舆情数量进行预测的基本流程如下:
(1)画出舆情时间序列的散点图,检验其方差和趋势,判断时间序列的平稳性;
(2)如果时间序列非平稳,则要对数据进行差分处理,直到处理后的数据的自相关函数值和偏相关函数值无显著地异于零;
(3)建立ARIMA(p, d, q)模型并选择其参数,其中p为自回归项数,d为差分处理的次数,q为滑动平均项数;
(4)进行假设检验,诊断残差序列是否为白噪声,若不是,则说明有用信息没有完全提取,需要重新建模;
(5)利用通过检验的模型对舆情信息进行预测。
本文选择台风登陆前24 h的舆情信息作为原始序列,对台风登陆后每小时的舆情信息数量进行预测。得到某个小时的舆情数量预测值后,将其与真实值进行比对,然后将真实值添加到原始序列中,再进行下一个小时的舆情数量预测,以此类推。经过检验,当选择参数为p=1,d=1,q=0时,所得到的预测结果较为准确。

3.2 舆情数据空间分析方法

3.2.1 空间自相关分析
空间自相关分析(Spatial Autocorrelation Analysis)用于检验某一变量在空间上是否存在依赖关系。本研究通过空间自相关分析,探讨利奇马台风舆情数据在我国各区域的聚集情况和聚集类型。根据研究范围的不同,分为全局空间自相关分析和局部空间自相关分析[17]
(1)全局空间自相关分析
全局空间自相关分析用于判断舆情数据在我国整体上是否存在聚集现象。一般采用莫兰指数(Moran's I)进行衡量,计算公式为:
I = n i = 1 n j = 1 n W ij x i - x ̅ x j - x ̅ i = 1 n j = 1 n W ij i = 1 n x i - x ̅ 2
式中:I为莫兰指数;n为省份个数;xixj分别为第i个省份和第j个省份的舆情数量; x ̅ 表示所有省份舆情数量的均值;Wij为空间权重矩阵。空间权重矩阵描述每两个省份间的位置关联程度,Wij=1表示省份i和省份j是“邻居”,否则Wij=0。采用不同空间权重矩阵分析的自相关性可能会出现显著差异。I >0表示舆情整体上具有正相关性,即舆情高(低)值省份容易聚集在一起;I=0表示舆情随机分布;I<0表示舆情整体上具有负相关性。
莫兰指数没有显著性检验功能,将其转化为正态检验统计量Z参照正态分布表进行显著性检验:
Z = I - E I VAR I
式中: VAR I 为全局莫兰指数的方差; E I 为全局莫兰指数的期望值。
(2)局部空间自相关分析
全局空间自相关分析仅能判断舆情整体是否存在聚集现象,无法确定某一省份与其邻近省份的相关程度。为反映各省份之间的舆情聚集类型,对某省份的局部莫兰指数:
I i = x i - x ̅ x i - x ̅ 2 W ij x i - x ̅
同样可通过式(4)计算Z值检验局部莫兰指数的显著性水平。若局部空间自相关显著,说明该省份的舆情与周边省份的舆情一定存在某种聚集关系,具体的聚集类型包括4种:高-高聚集(H-H)、低-低聚集(L-L)、高-低聚集(H-L)、低-高聚集(L-H)。
3.2.2 冷热点分析
空间自相关分析,仅能判断舆情是否存在聚集现象及其聚集类型,无法说明聚类是由高值或是低值组成。在局部空间自相关分析中,个别高值或低值容易受到过度关注,其相邻省份的情况可能会被忽略。Getis-Ord Gi*统计(称为冷热点分析)能够避免过度关注高值或低值要素,可识别具有统计显著性的热点和冷点区域。Gi*的计算公式为:
G * = j = 1 n W ij x j - X ̅ j = 1 n W ij S n j = 1 n W ij 2 - j = 1 n W ij 2 n - 1
式中: x j 是省份j的舆情数量; W ij 是省份i和省份j的空间权重;n为省份个数。且有:
X ̅ = j = 1 n x j n
S = j = 1 n x j 2 n - X ̅ 2
冷热点分析的显著性水平用正态分布统计量的Z值和p值确定,方法同式(4)所示。由Z值确定冷热点区域的聚类情况,Z越高且为正值,说明该省份为热点区域;Z值越低且为负值,说明该省份为冷点区域。

3.3 舆情影响因素分析方法

本文首先考虑受灾程度、社会经济因素等方面筛选可能的影响因素,建立舆情影响因素模型,采用逐步回归分析法拟合出模型的最优解。本质上是建立最优的多元线性回归方程,基本思想是:将各个影响因素逐个引入回归方程,拟合求解各项因素的系数,同时进行显著性水平检验,若未通过显著性水平检验则剔除该因素,直到所有能通过显著性水平检验的影响因素都选入回归方程为止。在拟合结果中,R2值越大且各项系数显著性水平较高,则说明拟合效果越好。本文借助软件SPSS进行逐步回归分析。

4 结果及分析

4.1 舆情时间序列分析结果

4.1.1 舆情时间分布基本概况
将采集获取的636万余条舆情数据按照每日的数量变化绘制成曲线,如图1所示。以台风获得命名、登陆与停编为3个时间节点,把利奇马台风灾害划分为预警期、应急期、灾后期3个阶段。预警期为8月4日至9日,应急期为8月9日至13日,灾后期为8月13日至21日。
图1 台风“利奇马”舆情时间分布

Fig. 1 Time distribution of public opinion about Typhoon "Lekima"

图1可知,舆情信息的时序变化与利奇马台风的灾害生命周期是相符的。预警期内,舆情数量逐渐增加并且增加速率逐渐加快,表明越接近台风预计登陆时间,舆论对利奇马台风的关注程度越高;应急期内,舆情数量迅速上升,于8月11日达到峰值,随后迅速下降,体现出舆情信息的时效性与爆发性;灾后期,舆情数量缓慢下降,在8月17日以后,舆情数量趋于平稳。
4.1.2 舆情数据时序预测结果
本文基于台风登陆前已有的舆情数量,分别采用EGM(1, 1)模型和ARIMA模型对台风登陆后每小时的舆情信息数量进行预测,以验证时序预测模型的适用性。分别采用灰色EGM(1, 1)模型和ARIMA模型进行网络舆情预测的结果如图2所示。
图2 全国舆情数量预测结果

Fig. 2 Forecast Results of national public opinion

计算真实值与预测值的相关系数可评判二者的相似程度,其结果越接近1则说明预测结果越准确。由图3可知,ARIMA模型的预测结果与真实值的相关系数达0.936,优于灰色EGM(1, 1)模型的预测结果。灰色EGM(1, 1)的预测结果准确性不高,是由于灰色EGM(1, 1)模型仅适用于非指数增长的序列,导致在舆情信息数量骤增或骤减的时段,预测值偏差较大。
图3 浙江、江苏、山东舆情数量预测结果

Fig. 3 Forecast results of public opinion in Zhejiang, Jiangsu and Shandong

采用ARIMA模型对受灾较严重的浙江、江苏、山东三省的舆情数量进行预测,结果如图3所示。在3个省的舆情时序分布中,ARIMA模型的预测结果与舆情真实值均具有很高的相关性,进一步说明ARIMA模型对于台风灾害网络舆情的预测具有较高的适用性。因此,在自然灾害发生时,可采用时序预测ARIMA模型对网络舆情进行实时预测,以便有关部门提前掌握舆情走势并调整应急救助决策。

4.2 舆情空间分布特征分析结果

4.2.1 舆情空间分布基本概况
在搜集的636万余条舆情信息中,有570万余条信息可获取用户归属的地域信息,其中网页信息的归属地域为网站备案地址,微博信息的归属地域为账号注册地址。为分析在利奇马台风舆情信息的空间分布特征,基于软件ArcGIS用自然间断点法将舆情数量划分为5个等级,如图4所示。
图4 台风“利奇马”舆情空间分布

注:该图基于自然资源部标准地图服务网站下载的审图号为GS(2016)2923号的标准地图制作,底图无修改。

Fig. 4 Spatial distribution of public opinions on Typhoon "Lekima"

由图可知,我国东部和东南部沿海一带的舆情数量普遍较高,利奇马台风舆情信息在整体上呈现出一定的聚集性分布特征。其中,舆情数量最高的5个省份依次是北京、广东、山东、浙江和江苏,其相邻省份也具有较高的舆情信息数量。同时可知,我国西南地区和西北地区的舆情数量较少。由此可知,利奇马台风舆情的空间分布在整体上存在一定的空间自相关性。
4.2.2 基于莫兰指数的空间自相关分析
为反映利奇马台风舆情信息的真实聚集情况,本节基于莫兰指数,针对我国各省级行政单位的舆情数量进行全局和局部自相关分析。
4.2.3 基于莫兰指数的全局自相关分析
开展全局自相关分析时,空间权重矩阵的构建影响了自相关分析的结果,是分析结果是否准确的关键。构建空间权重矩阵的一般方法包括反距离法、距离范围法、共边邻接法和k近邻法等。使用反距离法时,认为距离越远的省份,对目标省份的计算的影响越小;使用距离范围法时,给定某一临界距离,间距小于临界距离的省份其权重设为1,否则为0;使用共边邻接法时,与目标省份有公共边界的省份,其权重设为1,否则为0;使用k近邻法时,给定正整数k,则距离目标省份最近的k个省份的权重设为1,其余为0。由于我国省级行政单元面积差别较大,采用距离范围法会导致“孤元”或者“邻居”数量较多,本研究采用k近邻法构建空间权重矩阵。空间权重矩阵的不同构建方法或者k近邻法的不同k值,对莫兰指数分析结果的影响如表1所示。
表1 全局莫兰指数分析结果

Tab. 1 Analysis results of global Moran's I

空间权重矩阵构建方法 莫兰指数 Z p
反距离法 0.0459 0.9513 0.3414
距离范围法 0.0637 1.3192 0.1870
共边邻接法 -0.1374 -1.6360 0.1018
k近邻法(k=4) 0.1281 1.6327 0.1025
k近邻法(k=5) 0.0922 1.4159 0.1567
k近邻法(k=6) 0.0743 1.3421 0.1795
k近邻法(k=7) 0.0436 1.0509 0.2932
k近邻法(k=8) 0.0583 1.3743 0.1693
k近邻法(k=9) 0.0694 1.6975 0.0895
k近邻法(k=10) 0.0422 1.3554 0.1752
表1中的Z值越大,p值越小,则说明分析结果的显著性水平越高。研究发现,当采用k近邻法构建空间权重矩阵,并且k值取9时,空间自相关分析的显著性水平最高。此时莫兰指数Moran's I=0.0694>0,说明利奇马台风舆情信息的空间分布具有一定的聚集性;p值=0.0895<0.1,说明该分析结果的置信水平达到90%。
4.2.4 基于莫兰指数的局部自相关分析
通过上述全局自相关分析,仅能说明利奇马台风舆情在整体上存在聚集现象,无法说明舆情在我国各个地区或者各个省份周围的具体聚集情况,因此需要开展进一步的局部空间自相关分析。本文基于k近邻法构建空间权重矩阵(k=9),计算我国各省份舆情数量的局部莫兰指数。分析结果中存在显著局部自相关的省份及其聚集类型如表2所示。
表2 局部莫兰指数分析结果

Tab. 2 Analysis Results of Local Moran's I

省份 舆情数量/起 局部莫兰指数 Z p 聚集类型
山东 730 950 0.9901 3.7047 0.000212 H-H
浙江 667 165 0.6154 2.3446 0.019047 H-H
广东 761 821 -1.2235 -4.3323 0.000015 H-L
在全国34个省级行政单位中,仅山东、浙江和广东3省存在显著的局部空间自相关,均通过了5%的显著性检验,其余省份均不具备显著的局部空间自相关性(图5)。山东省和浙江省的聚集类型为 H-H型,即高-高聚集型,舆情数量高的省份同样被舆情数量高的省份包围;广东省的聚集类型为H-L型,即高-低聚集型,舆情数量高的省份被舆情数量低的省份包围。由此得出结论:台风直接登陆省份及其周边省份的舆情数量较多,呈现高-高聚集现象;广东省的舆情数量远高于相邻省份,表现出对台风的超高关注程度。
图5 台风“利奇马”舆情局部自相关分析

注:该图基于自然资源部标准地图服务网站下载的审图号为GS(2016)2923号的标准地图制作,底图无修改。

Fig. 5 Local autocorrelation analysis of public opinion on Typhoon "Lekima"

4.2.5 基于Gi*统计量的冷热点分析
通过全局和局部空间自相关分析,可以说明利奇马台风舆情信息在空间上的聚集情况,但不能直接说明该聚集是由高值或者低值构成的,无法排除存在特殊情况的可能。例如,在局部自相关分析中得知广东省的聚集类型为H-L型,广东省的舆情数量高于相邻省份,但无法说明广东及其相邻省份的舆情数量在全国范围内属于高值还是低值。本研究采用Gi*统计量,对我国各省级行政单位的舆情数量进行热点分析,在构建空间权重矩阵时选择k近邻法(k=9)。分析得到的利奇马台风舆情冷热点分布如图6所示。
图6 台风“利奇马”舆情冷热点分布

注:该图基于自然资源部标准地图服务网站下载的审图号为GS(2016)2923号的标准地图制作,底图无修改。

Fig. 6 Distribution of cold spots and hot spots of public opinion on Typhoon "Lekima"

由图可知,利奇马台风舆情的热点区域集中分布在我国东部,冷点区域集中分布在我国西部。山东省属于利奇马台风舆情的热点区域且通过了5%的显著性检验。同样位于利奇马台风路径上的江苏省和浙江省,以及相邻的安徽省和京津冀地区,在90%的置信水平下同样属于利奇马台风舆情的热点区域。同时可知,位于我国西部的新疆、西藏、青海和四川是利奇马台风舆情的冷点区域,置信度达90%。在冷热点分析中,广东省并未列入舆情的热点区域,说明广东省的高舆情数量在东南沿海一带属于个例。

4.3 舆情影响因素分析结果

4.3.1 舆情影响因素模型构建
4.3.1.1 影响因素筛选
上述研究表明,利奇马台风舆情的空间分布呈现出聚集现象,舆情数量的高值聚集在我国东部沿海及京津冀地区,舆情数量的低值聚集在我国西部内陆。这种分布格局的形成,必然是多种影响因素共同作用的结果。通过调研与分析,本文筛选出可能对舆情的分布造成影响的一些因素,具体如下:
(1)受灾程度方面:台风途经省份往往会遭受不同程度的损失,其居民可能会更关注台风的实时动态、当地的受灾情况以及应急救援情况等。考虑到台风途经或影响省份可能具有更高的舆情数量,本文获取了利奇马台风中各省的直接经济损失作为影响指标。
(2)社会经济因素方面:经济发达的省份,可能拥有较高的网络普及率和网民数量,从而增加了台风灾害中的网络舆情数量。同时,受众颇广的新闻媒体也加速了网络舆情的传播。本研究考虑的社会经济因素包括各省GDP总量和各省网络普及率。
(3)历史因素方面:多年以来频繁发生台风灾害的省份,其居民可能具有更高的台风安全意识,养成了关注台风消息的习惯。本研究统计了建国以来至2019年的各省台风登陆次数。
(4)自然因素方面:频繁的降雨以及较高的湿度等因素,可能会增强网民对台风的关注程度。本研究考虑的自然因素包括年均气温、年降雨量和年均相对湿度。
(5)地理位置方面:台风产生于海洋面上,受影响最严重的为沿海地区,我国内陆地区少有受台风影响,临海居民和内陆居民可能对台风具有不同的关注程度。本研究在构建影响因素模型时添加了二值变量k,k=1表示该省份临海(拥有海岸线),k=0表示该省份不临海。
4.3.1.2 建立回归模型
由于不同影响因素的数据内部差异过大,为提高模型的拟合精度,本文采用双对数回归模型。建立的回归模型如下:
ln y = c + β 1 ln t + β 2 ln p + β 3 h + β 4 ln GDP + β 5 r + β 6 m + β 7 ln s + β 8 × k × ln t + β 9 × k × ln p + β 10 × k × h
式中:y为各省舆情数量;t代表年平均气温;p代表年降水量;h代表年均相对湿度;GDP代表各省GDP总量;r代表各省网络普及率;m代表各省自建国以来至2019年的年均台风登录次数;s代表各省利奇马台风直接经济损失;k为二值变量; β 1 β 10 为各影响因素项系数;c为常数项。
由于港澳台地区的部分影响因素数据获取困难,在影响因素建模与拟合时不考虑港澳台地区的数据。由于各省年均台风登录次数m的数值较小,年均相对湿度h和网络普及率r的数值为百分比,在针对该3项影响因素进行建模时,不取对数。
4.3.2 舆情影响因素分析结果
本文借助SPSS软件中的逐步回归方法对影响因素模型进行求解,计算出的各模型参数结果如 表3所示。
表3 逐步回归分析参数

Tab. 3 Stepwise regression analysis parameters

变量 模型1 模型2 模型3 模型4
βi βi βi βi
c -0.493 -1.474 -0.708 -0.476
lnGDP 1.187 1.038 0.969 0.959
r 4.487 4.129 3.386
lns 0.035 0.037
m 0.085*
R2 0.805 0.868 0.887 0.889

注:*表示未通过95%显著性水平检验。当加入的变量多于5个时,各项变量的影响系数的显著性水平逐渐变差,因此未列出。

表3可知,模型1、模型2和模型3均通过了置信度95%的显著性水平检验,其中模型3的 R 2 值最大,达到0.887,说明在各模型中,模型3的拟合效果最好。所以,模型3对应的回归方程即为最优回归方程:
ln y = - 0.708 + 0.969 × ln GDP + 4.129 × r + 0.035 × ln s
由此可知,各省的经济情况、网络普及率和受灾严重程度是影响舆情数量的主要因素,影响系数分别为0.969、4.129和0.035。说明舆情数量的多少很大程度上取决于网络普及率的高低,其次是当地经济情况和受灾严重程度。由方程可知,自然条件因素、历史台风登陆次数、地理位置是否临海等因素已被自动剔除,原因为未通过显著性水平检验。基于数据量少等原因,未能证明自然条件等因素能对舆情造成显著的影响。
由上述分析可知,当地的网络普及率、经济情况和受灾严重程度是影响舆情的显著因素,其中受灾严重程度来源于台风直接影响,研究台风灾害本身对舆情的影响更具有实际意义。对于受台风影响的省份,对其直接经济损失和舆情数量进行相关性分析,如图7所示。由图可知,原创舆情数量与灾害损失的相关性高于转发舆情数量。说明原创舆情信息更能反映受灾当地的灾情严重程度以及受灾地民众的关注程度,转发的舆情数量往往只代表该事件在某区域的热度。发生台风等自然灾害时,应急管理部门应更多地关注受灾地的原创舆情信息,从中了解灾区情况和民众关注重点等信息以指导应急救援。
图7 舆情信息与灾害损失相关性分析

Fig. 7 Correlation analysis of public opinion information and Disaster Loss

5 结论与讨论

准确把握灾后舆情信息传播特征并分析其影响因素有助于应急管理部门及时采取有效的应急救援措施。本文以台风“利奇马”为例,基于“新浪舆情通”系统搜集网络舆情数据,进行自然灾害网络舆情的时空分布特征分析以及影响因素分析,主要结论如下:
(1)台风灾害舆情的时序变化与台风生命周期相符。救灾过程中对网络舆情的精准预测有利于上级部门准确把握舆情走势并及时调整应急救助决策。
(2)对比全国舆情数量的真实值,ARIMA模型预测结果的相关系数达0.936,而灰色EGM(1, 1)模型预测结果的相关系数仅为0.838,ARIMA模型对于台风灾害舆情的短时预测具有更高的适用度。
(3)台风灾害舆情的空间分布整体上具有聚集性,舆情的热点区域集中在台风影响省份以及京津冀地区,除台风直接影响外,舆情还受灾区网络普及率和经济状况影响。
(4)受灾严重程度与原创舆情信息的相关性高于转发舆情信息,说明原创舆情信息更能反映灾区的受灾情况。对舆情密集及灾情严重的地区,应急管理部门应重点关注原创舆情,及时协调各方救援力量采取针对性的应急救援措施。
[1]
中国互联网络信息中心(CNNIC). 第45次中国互联网络发展现状统计报告[R]. 北京:中国互联网信息中心, 2020.

[ China Internet Network Information Center. The 45th statistical report on the development of internet in China[R]. Beijing: China Internet Network Information Center, 2020. ]

[2]
Qu Y, Huang C, Zhang P, et al. Microblogging after a major disaster in China: A case study of the 2010 Yushu earthquake[C]// Proceedings of the 2011 ACM Conference on Computer Supported Cooperative Work, CSCW 2011, Hangzhou, China, March 19-23,2011. ACM, 2011.

[3]
Doan S, Vo B K H, Collier N. An analysis of twitter messages in the 2011 Tohoku earthquake[J]. Computer Science, 2011,91:58-66.

[4]
Shibuya Y, Tanaka H. Public and sentiment demand for used cars after a large-scale disaster: Social media sentiment analysis with Facebook pages[J]. 2018, arXiv:1801.07004.

[5]
Karami A, Shah V, Vaezi R, et al. Twitter speaks: a case of national disaster situational awareness[J]. Journal of Information Science, 2019, DOI: 10.1177/01655515198 28620.

DOI

[6]
秦琴, 汤书昆. 突发自然灾害网络舆情风险监测指标体系研究[J/OL]. 电子科技大学学报(社科版):1-9 [2020-04-29]. https://doi.org/10.14071/j. 1008-8105(2019)-3023.

[ Qin Q, Tang S K. Research on the index system of network public opinion risk monitoring for sudden natural disasters[J/OL]. Journal of University of Electronic Science and Technology of China(Social Sciences Edition): 1-9 [2020-04-29]. https://doi.org/10.14071/j. 1008-8105(2019)-3023.

[7]
郑步青, 邹红霞, 胡欣杰. 基于拐点的网络舆情预测研究[J]. 计算机科学, 2018,45(S2):539-541,575.

[ Zheng B Q, Zou H X, Hu X J. Research on public opinion prediction based on inflection point[J]. Computer Science, 2018,45(S2):539-541,575. ]

[8]
杨茂青, 谢健民, 秦琴, 等. 基于RF算法的突发事件网络舆情演化预测分析[J]. 情报科学, 2019,37(7):95-100.

[ Yang M Q, Xie J M, Qin Q, et al. Prediction for the evolution of emergency network public opinion based on RF algorithm[J]. Information Science, 2019,37(7):95-100. ]

[9]
He H, Patnaik S. Research on prediction of internet public opinion based on grey system theory and fuzzy neural network[J]. Journal of Intelligent & Fuzzy Systems, 2018,35(1):325-332.

[10]
梁春阳, 林广发, 张明锋, 等. 社交媒体数据对反映台风灾害时空分布的有效性研究[J]. 地球信息科学学报, 2018,20(6):807-816.

DOI

[ Liang C Y, Lin G F, Zhang M F, et al. Assessing the effectiveness of social media data in mapping the distribution of typhoon disasters[J]. Journal of Geo-information Science, 2018,20(6):807-816. ]

[11]
熊俊楠, 赵云亮, 程维明, 等. 四川省山洪灾害时空分布规律及其影响因素研究[J]. 地球信息科学学报, 2018,20(10):1443-1456.

DOI

[ Xiong J N, Zhao Y L, Cheng W M, et al. Temporal-spatial distribution and the influencing factors of mountain-flood disasters in Sichuan[J]. Journal of Geo-information Science, 2018,20(10):1443-1456. ]

[12]
阮文奇, 李勇泉. 自然灾害型危机事件对客源地旅游需求的影响及空间差异——九寨沟地震后的时空异质性分析[J]. 经济地理, 2018,38(8):214-223.

[ Ruan W Q, Li Y Q. The impact and spatial difference of natural disaster crisis on tourist demand[J]. Economic Geography, 2018,38(8):214-223. ]

[13]
王敬泉, 王凯. 基于GIS的突发事件网络舆情传播可视化探究[J]. 测绘通报, 2019(12):142-146.

[ Wang J Q, Wang K. Research on the visualization of network public opinion of emergence spreading on GIS[J]. Bulletin of Surveying and Mapping, 2019(12):142-146. ]

[14]
王波, 甄峰, 席广亮, 等. 基于微博用户关系的网络信息地理研究——以新浪微博为例[J]. 地理研究, 2013,32(2):380-391.

[ Wang B, Zhen F, Xi G L, et al. A study of cybergeography based on micro-blog users' relationship: with a case of Sina micro-blog[J]. Geographical Research, 2013,32(2):380-391. ]

[15]
杨敏, 李君轶, 陈宏飞. 景区危机事件信息空间扩散效应及其影响因素分析[J]. 陕西师范大学学报(自然科学版), 2017,45(5):92-100.

[ Yang M, Li J T, Chen H F. Effect of spatial diffusion of crisis information in scenic areas and its influencing factors[J]. Journal of Shaanxi Normal University(Natural Science Edition), 2017,45(5):92-100. ]

[16]
陈昱杉, 李凤全, 王天阳, 等. 网络舆情信息扩散中距离的影响——以新浪微博“九寨沟地震”事件为例[J]. 浙江师范大学学报(自然科学版), 2020,43(1):77-84.

[ Chen Y S, Li F Q, Wang T Y, et al. The role of distance in Internet public opinion diffusion: Taking Sina microblog “Jiuzhaigou earthquake” as an example[J]. Journal of Zhejiang Normal University(Natural Sciences), 2020,43(1):77-84. ]

[17]
姚可桢, 岳书平. 网络大数据下的中国现代食甜习惯空间分布特征及其影响因素研究[J]. 地球信息科学学报, 2020,22(6):1202-1215.

DOI

[ Yao K Z, Yue S P. Study on spatial distribution of modern sweet diet and its impact factors in China based on big data from internet[J]. Journal of Geo-information Science, 2020,22(6):1202-1215. ]

[18]
中央气象台. 超强台风“利奇马”的一生[EB/OL]. http://www.cma.gov.cn/2011xwzx/2011xqxxw/2011xzytq/2019 08/t20190814_533010.html, 2019-08-14.

[ Chinese Central Meteorological Station. Lifetime of super typhoon "Lekima"[EB/OL]. http://www.cma.gov.cn/2011xwzx/2011 xqxxw/2011xzytq/201908/t20190814_533010.html, 2019-08-14.]

[19]
许小峰. 中国气象年鉴[M]. 北京: 气象出版社, 2017.

[ Xv X F. China Meteorological Yearbook[M]. Beijing: China Meteorological Press, 2017. ]

[20]
中国互联网协会. 中国互联网发展报告2019[R]. 北京:中国互联网协会, 2019.

[ Internet Society of China. China internet development report 2019[R]. Beijing: Internet Society of China, 2019. ]

[21]
中国气象局. 登陆热带气旋名录[EB/OL]. http://tcdata.typhoon.org.cn/, 2020.

[ China Meterological Administration. List of landing tropical cyclones [EB/OL]. http://tcdata.typhoon.org.cn/, 2020.]

[22]
王宁, 赵胜洋, 单晓红. 基于灰色系统理论的网络舆情预测与分级方法研究[J]. 情报理论与实践, 2019,42(2):120-126.

[ Wang N, Zhao S Y, Shan X H. Method of network public opinion prediction and grading based on grey system theory[J]. Information Studies: Theory & Application, 2019,42(2):120-126. ]

文章导航

/