疫情时空分析

基于谱系聚类的全球各国新冠疫情时间序列特征分析

  • 谢聪慧 , 1, 2, 6 ,
  • 吴世新 , 1, 2, * ,
  • 张晨 1, 2, 6 ,
  • 孙文涛 1, 6 ,
  • 何海芳 3, 4, 6 ,
  • 裴韬 5, 6 ,
  • 罗格平 1, 2
展开
  • 1.中国科学院新疆生态与地理研究所荒漠与绿洲生态国家重点实验室,乌鲁木齐 830011
  • 2.新疆维吾尔自治区遥感与地理信息系统应用重点实验室,乌鲁木齐 830011
  • 3.中国科学院青海盐湖研究所,中国科学院盐湖资源综合高效利用重点实验室,西宁 810008
  • 4.青海省盐湖地质与环境重点实验室,西宁 810008
  • 5.中国科学院地理科学与资源研究所 资源与环境信息系统国家重点实验室,北京 100101
  • 6.中国科学院大学,北京 100049
* 吴世新(1965— ),男,副研究员,主要从事遥感与地理信息系统应用。E-mail:

谢聪慧(1997— ),女,硕士生,主要从事遥感与地理信息系统应用。E-mail:

收稿日期: 2020-08-17

  修回日期: 2020-11-21

  网络出版日期: 2021-04-25

基金资助

中国科学院战略性先导科技专项(A类)(XDA23100000)

国家科技基础资源调查专项(2017FY101004)

国家自然科学基金项目(42041001)

版权

版权所有,未经授权,不得转载、摘编本刊文章,不得使用本刊的版式设计。

Analysis of Time Series Features of COVID-19 in Various Countries based on Pedigree Clustering

  • XIE Conghui , 1, 2, 6 ,
  • WU Shixin , 1, 2, * ,
  • ZHANG Chen 1, 2, 6 ,
  • SUN Wentao 1, 6 ,
  • HE Haifang 3, 4, 6 ,
  • PEI Tao 5, 6 ,
  • LUO Geping 1, 2
Expand
  • 1. Key Laboratory of Desert and Oasis Ecology, Institute of Ecology and Geography, Xinjiang, Chinese Academy of Sciences, Urumqi 830011, China
  • 2. Key Laboratory of Remote Sensing and GIS Applications, Xinjiang, Xinjiang, Urumqi 830011, China
  • 3. Key Laboratory of Comprehensive and Highly Efficient Utilization of Salt Lake Resources, Qinghai Institute of Salt Lakes, Chinese Academy of Sciences, Xining 810008, China
  • 4. Qinghai Provincial Key Laboratory of Geology and Environment of Salt Lakes, Xining 810008, China
  • 5. State key laboratory of resource and Environmental Information Systems, Chinese Academy of Sciences, Beijing 100101, China
  • 6. University of Chinese Academy of Sciences, Beijing 100049, China
* WU Shixin, E-mail:

Received date: 2020-08-17

  Revised date: 2020-11-21

  Online published: 2021-04-25

Supported by

Chinese Academy of Sciences strategic leading science and technology project (Class A)(XDA23100000)

National Science and technology basic resources survey project(2017FY101004)

National Natural Science Foundation of China(42041001)

Copyright

Copyright reserved © 2021.

摘要

COVID-19暴发以来,世界各国疫情呈现出不同的时序特点,研究不同国家疫情发展模式的特点,揭示其背后的主导因素,可为未来防控策略提供参考。为了揭示不同国家疫情时间序列之间的异同,本文提取了主要疫情国家每日新增病例时间序列的标准差、Hurst指数、治愈率、增长时长、平均增长率、防控效率进行谱系聚类,并从经济、医疗、人文冲突方面对聚类结果进行了成因分析。结果表明,全球疫情发展模式可分为3大类:C型、S型和I型。C型国家时间序列的特点是持续波动上涨,治愈率较低,原因是其人文冲突不利于疫情防控,经济医疗资源经过长时间大量消耗已趋于匮乏,建议在防控中加强宣传疏导,改变观念,统筹分配经济、医疗资源;S型国家时间序列的特点是快速上升后立即下降,并最终保持稳定趋势,总体治愈率较高,其原因是这类国家国内稳定,经济医疗水平较高,以及防控措施及时,建议加强国际合作和科学研究,并为可能到来的二次疫情做好准备;I型国家时间序列特点是缓慢上涨,整体发展趋势不稳定,治愈率较低,原因是其暴发比较晚,程度较小,大部分经济医疗水平以及人文冲突不利于疫情防控,建议汲取较好的防控经验,实施严格的隔离措施,尽量满足疫情期间物资需求,优化治疗方法。

本文引用格式

谢聪慧 , 吴世新 , 张晨 , 孙文涛 , 何海芳 , 裴韬 , 罗格平 . 基于谱系聚类的全球各国新冠疫情时间序列特征分析[J]. 地球信息科学学报, 2021 , 23(2) : 236 -245 . DOI: 10.12082/dqxxkx.2021.200470

Abstract

Since the outbreak of COVID-19, countries around the world have shown different time-series characteristics. Studying the characteristics of the development patterns of different countries and revealing the dominant factors behind them can provide references for future prevention and control strategies. In order to reveal the similarities and differences between the epidemic time series in different countries, this article extracts the standard deviation, Hurst index, cure rate, growth time, average growth rate, and prevention and control efficiency of the daily time series of new cases in the main epidemic countries for pedigree clustering. We also analyzes the causes of clustering results from the aspects of economics, medical treatment, and humanistic conflicts. The results show that the global epidemic development model can be divided into three categories: C-type, S-type, and I-type. The time series of C-type countries are characterized by continuous fluctuations and rising, and the cure rate is low. The reason is that humanistic conflicts are not conducive to epidemic prevention and control. Economic and medical resources have become scarce after a long period of large consumption. It is recommended to strengthen publicity and guidance in prevention and control, change concepts, and coordinate the allocation of economic and medical resources. The time series of S-type countries is characterized by a rapid rise and then an immediate decline, and eventually maintains a stable trend. The overall cure rate is relatively high. The reason is that these countries have domestic stability, high economic and medical standards, and timely prevention and control measures. It is recommended to strengthen international cooperation and scientific research, and prepare for the possible second epidemic. The time series of I-shaped countries is characterized by a slow rise, the overall development trend is unstable, and the cure rate is low. The reason is that its outbreak is relatively late and less severe. Most of the economic and medical levels and humanistic conflicts are not conducive to epidemic prevention and control. It is recommended to learn better prevention and control experience, implement strict isolation measures, try to meet the material needs during the epidemic, and optimize treatment methods.

1 引言

2019年年底发现并报告的新型冠状病毒肺炎(COVID-19)疫情相继在世界各国蔓延,2020年 2月初全球COVID-19累计确诊病例增长到1万,3月初增长到10万,4月初增长到100万,5月中旬增长到500万,6月20日增长到1000多万,至7月30日,全球累计确诊病例已达到2000万,北美洲最多,南美洲其次,亚洲第三,全球所有国家均有病例报告,其中美国、巴西、印度累计确诊病例超过100万,全球新冠疫情防控形势愈发严峻,研究并探索各国疫情发展模式,从而制定相应防控措施成为必要。
COVID-19疫情暴发以来,世界各国疫情在时序特征方面,呈现出不同的发展特点,防控的效果也各不相同。不同国家疫情发展到底存在何种特征,不同特征的背后是何种因素在主导,对于这一问题的揭示将有助于发现疫情发生的时序规律及不同防控效果背后的深层次原因。各国学者对疫情的发展时序特征及其影响因素进行了大量研究,主要可归纳为针对疫情时间序列特征的研究和影响疫情发展的因素研究。其中针对疫情时间序列特征的研究包括表征感染病例的时间模式的系统模型研究[1,2,3]、COVID-19时间序列特征变更点的研究[4]、分析 COVID-19多元时间序列演化的聚类方法研究[5]、COVID-19暴发预测研究[6,7];针对影响疫情发展因素研究包括不同干预措施对控制疫情传播的影响[8,9,10,11,12],AQI、PM2.5、NO2和温度等气象因素与COVID-19发病率关系的研究[13,14]、防控措施对降低COVID-19死亡率和减少医疗资源需求的必要性[15,16,17],使公众了解如何最好地避免感染的政府沟通策略、个人如何回应有关预防传播的建议以及应对经济下滑的额外支持对疫情发展特征的重要影响[18]等。
目前针对疫情时序特征及其影响因素的研究虽然已有不少,但大部分对国家疫情暴发的时间序列特征研究比较单一,国家之间疫情防控形势也缺乏系统的对比。本文针对全球疫情较重国家的时间序列数据,运用谱系聚类方法根据其基本统计特征、时域特征和疫情特有特征对各个国家进行聚类,揭示各国疫情序列存在的规律与特点,并从不同的角度定量刻画每个国家防控形势,比较分析不同类别的原因和各国防控效果,从而有针对性地提出建议。

2 数据来源与研究方法

2.1 数据来源

本文采用数据包括全球各个疫情国家2020年1月29日—2020年7月30日新冠肺炎每日新增确诊病例数和每日新增治愈数的统计数据,来自世界卫生组织(WHO)网站(https://covid19.who.int/table)和美国约翰斯·霍普金斯大学实时监测系统(https://systems.jhu.edu/)。

2.2 研究方法

首先对数据进行预处理,构建主要疫情国家时间序列,选取在此期间确诊病例总数在10 000以上的60个主要疫情国家,以研究期内出现首个病例的时间作为疫情时序的起点,提取基本统计特征、时域特征、疫情特有特征中的6个时间序列指标,通过标准化消除量纲影响,并用谱系聚类的方法将主要疫情国家的时间序列指标进行聚类,然后对聚类结果从经济、医疗、人文冲突3个方面进行成因分析(图1)。
图1 基于谱系聚类的全球各国新冠疫情时间序列特征分析流程

Fig. 1 The flow chart of time series feature analysis of COVID-19 in various countries based on pedigree clustering

2.2.1 谱系聚类方法
常用的聚类算法大体可以分为基于划分的聚类方法、基于层次的聚类方法、基于密度的聚类方法等。由于聚类对象为病例的时间序列,存在特征复杂、对象高维、相似性影响因素多等特点,大部分聚类方法难以适应。例如, K-means等基于划分的聚类方法计算量大,需要预先制定聚类数,DBSCAN等基于密度的聚类不适合上述特征为相似性度量的划分。基于层次的谱系聚类法主要思想是先将每个国家单独聚成一类,然后选择衡量国家之间的距离的相似性度量方法,根据每个国家的特征值计算各个国家间的距离,选择距离最小的2个国家聚合成一类,再计算生成的新类与其他类的距离,然后同上面的步骤一样,将距离较近的两类合并,直至所有国家都聚为一个大类,然后画聚类图,设定距离的阈值,对照聚类图,由此决定类的个数和组成。相比于其他聚类方法,谱系聚类法可以处理任意对象,包括较为复杂的时间序列[19],同时限制条件少,距离和规则的相似度容易定义,不需要预先制定聚类数,类的层次关系可视化程度强[20],所以本研究采用谱系聚类分析方法,距离计算方法选用类间平均距离法,即以2类样本两两之间距离的平均作为类别间的距离。相似性度量方法选用Pearson相关系数。
2.2.2 时间序列特征指标选取
当数据存在高维,或者有缺失、不等长等问题的时候,如果针对原始时间序列进行聚类,仅能得到序列表面的相似性,没有触及序列的内在机制,应用时有很大的局限性[21],而将时间序列抽象为特征,然后针对特征进行时间序列聚类是对时间序列全局构造或内在变化机制的描述,它可以很好地表现时间序列特点,且易于实现[22,23]。所以本文采用基于特征的时间序列聚类方法来对研究数据进行处理。
基于特征的时间序列聚类中常用的特征包括上升、下降、头肩模式、不连续点、极值点、突变点、转折点等形态特征;均值、方差、偏度、峰度、T趋势项、S季节项、k滞后自协方差函数、Box-Pierce指数、Hurst指数、李雅普诺夫指数、周期解析强度和谱密度等结构特征;高斯过程模型、ARMA(自回归滑动平均模型)以及ARIMA模型(差分自回归移动平均模型)、马尔科夫链模型、隐马尔科夫模型等模型特征[24]。由于形态特征大多可以直观地看出,而模型特征又太过于复杂,所以本文选择可以描述时间序列全局构造和内在变化机制的结构特征来进行聚类。其中基本统计特征(标准差)和时域特征(Hurst指数)广泛应用于揭示一般时间序列的相似变化机制和结构,而疫情特征(治愈率、增长时长、平均增长率和防控效率)可以贴切地表征疫情时间序列的发展特征,由于本文研究的是疫情时间序列,所以赋予了疫情特有特征更高的权重,选取了 4个疫情特征指标来着重获取疫情相关特征,从而更加准确地将疫情国家聚类。
(1)统计特征
标准差S是描述时间序列全局结构的统计量,用于描述新增确诊病例时间序列的变化幅度(式(1))。
s = i = 1 n ( x i - x ̅ ) 2 n - 1
式中:i代表新增确诊病例时间序列时长; x i 代表第 i 日新增确诊病例数; x ̅ 代表每日新增确诊病例平均值; n 代表每日新增确诊病例总时长。
(2)时域特征
Hurst指数H反映了时间序列随时间变化的规律,可以定量描述疫情将来的发展趋势和现有趋势的关系,H越大证明时间序列趋势的延续性越强。本文选用的是重极差(R/S)方法,回归求H[25](式(2))。
log R s t = log K + Hlog ( t )
式中:H代表新增确诊病例时间序列Hurst指数;R表示每日新增确诊病例每个时间序列片段最大距离;s表示每日新增确诊病例每个时间序列片段的标准差;K为正常数;t表示每日新增确诊病例时间序列片段的时间窗长度。
(3)疫情特征
① 治愈率v是疫情发展过程中的一个核心指标,和各个国家的医疗储备、医疗体系等都息息相关,有利于分析国家的医疗水平对疫情的影响(式(3))。
v = a b × 100 %
式中:a代表研究期内治愈总人数;b代表研究期内确诊总人数。
② 增长时长(初始值到峰值)N对于处于高暴发中或者已经度过暴发期的国家,反映了疫情暴发时的持续时间,而对于刚刚暴发疫情的国家,可以反映其初始爆发状态。
③ 平均增长率(初始值到峰值) G ̅ 反映了研究期内从发现病例的第一天开始到新增病例达到最大值的速度,反映了疫情的蔓延速度,也在一定程度上反映了国家的防控措施是否及时有效(式(4))。
G ̅ = x max x 0 N - 1
式中:N代表每日新增确诊病例时间序列初始值到峰值的时长; x max 代表每日新增确诊病例最大值; x 0 代表每日新增确诊病例第一个不为零的值。
④ 防控效率(峰值与最后3 d平均值的比值) u反映了研究期内每日新增确诊病例减少的程度,反映了国家的整体防控效果,同时也受国家的经济、医疗、人文冲突状况影响(式(5))。
u = a x max m
式中: x max 代表每日新增确诊病例最大值;m代表每日新增确诊病例时间序列最后3 d平均值。
2.2.3 成因分析因子选取
为对聚类结果进行成因分析,评价各国疫情防控的严峻程度,从而发现各国在疫情防控中存在的问题并提出防控建议,本文选取了影响疫情发展的经济、医疗、人文冲突3个因子(表1),然后对上述变量参照相关资料进行国家排名,并用3个因子的排名总和构成综合防控严峻指数,综合防控严峻指数越大,疫情防控的难度越大。
表1 COVID-19综合防控严峻指数构成

Tab.1 Composition of COVID-19 comprehensive prevention and control severity index

评价指标 评价内容 意义 来源
经济因子 经济实力、增长、发展 经济基础决定了国家是否有足够的经济实力支撑抗疫进度,但经济发达也意味着人群活动性强,从而加大疫情传播,影响时间序列发展趋势 兰德公司传染病脆弱性指数中的经济指标[26]
交通运输、技术、通讯等基础设施
医疗因子 个人医疗服务的获取和质量 国家的医疗体系是否完善决定了治愈率和死亡率的大小 《柳叶刀》发布的2019全球医疗质量和可及性榜单[27]
人文冲突因子 暴力内部冲突概率 国家的人文冲突程度影响着疫情的传播,国内冲突较多会增强疫情的传播,国民配合程度也会较低,从而降低防控效率,新增确诊病例时间序列也会难以下降 欧盟委员会(JRC)联合研究中心开发的多危害风险评估信息全球风险指数增强版(GRI)中的人文指标[28]
高暴力内部冲突概率
国家权力冲突强度
国家以下各级冲突强度

3 结果及分析

3.1 聚类结果

新冠疫情暴发以来,世界各国呈现不同的疫情发展特点。经聚类,其整体可以划分为3类(图2),美国、巴西等17个国家为第一类;比利时、中国等15个国家为第二类;埃及、瑞典等28个国家为第三类。按每类的主要特点(图3),本文将其分别取名为:C型(Continuous burst type)、S型(Stable control type)、I型(Initial outbreak type)。通过对每类国家各个指标取平均,得出每类国家各个指标的平均定量特征(图3)。
图2 各国疫情时间序列特征谱系聚类结果

注:纵坐标的数字代表国家序号。

Fig. 2 The pedigree clustering results of the time series characteristics of epidemics in various countries

图3 各类型国家疫情时间序列图及其聚类指标特点

Fig. 3 The time series graphs of epidemics in various countries and the characteristics of their clustering indicators

标准差:C型>S型>I型,说明C型新增确诊病例时间序列波动幅度最大,I型和S型波动幅度较小。
Hurst指数:S型>C型>I型,说明S型时间序列持续性较强,C型其次,I型持续性较弱。
平均增长率:S型>C型>I型,说明S型新增确诊病例增长较快,疫情在国内的蔓延速度很快,C型其次,I型则增长较慢,蔓延速度也较慢。
增长时长:I型>C型>S型,说明I型和C型峰值出现得很慢,暴发持续时间很长,S型峰值出现较快,暴发强有力。
防控效率:S型>C型>I型,说明S型新增确诊病例减少明显,整体防控效果较好,I型和C型减少较少,防控效果不明显。
治愈率:S型>I型>C型,说明S型治愈情况较好,医疗状况良好,C型和I型医疗状况有待改善。
总体上看,C型国家的时间序列特征为平均增长时长是S型国家的2倍,平均增长率是I型国家的2倍,平均标准差远大于S型和I型,Hurst指数较高,平均治愈率是3类中最低的,防控效率也远远低于S型,其中美国、巴西、印度标准差尤其大,说明C型国家总体时间序列特点是持续波动上涨;S型国家的时间序列特征为平均增长率和防控效率远大于C型和I型,平均增长时长和平均标准差较小,平均治愈率和Hurst指数都是3类中最大的,说明S型国家总体时间序列的特点是快速上升并立即下降,最终保持稳定趋势;I型国家时间序列特征为增长时长最大,治愈率比S型小比C型大、平均增长率、Hurst指数、防控效率和标准差都最小,说明I型国家总体时间序列特点是缓慢上涨,整体发展趋势不稳定。

3.2 成因分析

3.2.1 第一类:C型
C型国家综合防控严峻指数都在50以上,最大的是巴基斯坦168,也是3类中最高的(图4),说明这些国家的所有影响因子均不利于疫情的防控。
图4 C型疫情国家综合防控严峻指数及聚类指标特征值

Fig. 4 Characteristic values of clustering index and comprehensive prevention and control severity index in type C countries

(1)这类国家新增确诊病例整体波动上涨,防控效率远远低于S型是因为在经济上,排名靠前的发达国家如美国、西班牙、英国、法国等,经济的较高水平一方面导致人群活动性增强而加大了疫情的传播,另一方面,未采取有效防控措施使经济对疫情防控效果未产生显著的影响。而排名靠后的发展中国家如巴基斯坦、印度、孟加拉国等,经济基础薄弱,不能及时进行财政补贴和医疗设备等抗疫物资的补充。
(2)这类国家平均治愈率是3类中最低的,主要是因为暴发规模和医疗条件不匹配造成的。关于医疗条件,本组国家分为2类,排名在前半部分的国家如美国、英国、西班牙、法国等,医疗水平较高,医疗资源储备相对雄厚,但随着病例越来越多,且暴发时间较长,国内的医疗资源已经匮乏;排名在后半部分的国家如巴基斯坦、印度、南非等,医疗水平不高,医疗资源也不足以支撑持续暴发的疫情的治疗需要,最终导致治愈率和防控效率都较低。
(3)Hurst指数较高,标准差很大的原因是防控措施不到位,其根源主要是人文冲突。这些国家人文冲突因子的排名都在20名之后,国内的暴力冲突、权力冲突等概率较大,导致在疫情暴发时国家不能对抗疫工作顺利地进行统一部署,所以新增病例的波动较大,未来的疫情趋势也不稳定,防控措施也不能很好的实施。例如,美国、巴西、印度人文冲突因子的排名明显靠后,所以其标准差也相应较大。
3.2.2 第二类:S型
S型国家综合防控严峻指数大多位于0~100之间,综合防控形势良好,截止到7月底疫情基本已经控制住(图5)。
图5 S型疫情国家综合防控严峻指数及聚类指标特征值

Fig. 5 Characteristic values of clustering index and comprehensive prevention and control severity index in type S countries

(1)这类国家的平均增长率和防控效率都遥遥领先于其他2类,增长时长却最小,说明这类国家暴发比较迅速,但暴发持续时间较短,新增确诊病例减少也很明显,这是因为在经济上,这些国家绝大部分排名在前半部分,很多都是发达国家,如德国、荷兰、瑞士、卡塔尔、爱尔兰等,有着排名较前的经济基础,能够采取效率较高的防控措施和提供相对充足的抗疫物资,从而应对国内本来暴发程度就不高的疫情,所以平均防控效率、平均治愈率是3类中最高的。对于中国和土耳其等经济基础排名不是特别靠前的国家,疫情出现较早,但防控比较及时,所以新增确诊病例时间序列也快速出现下降,尤其是中国,防控效率是所有国家中最高的。
(2)这类国家治愈率最高主要还是因为大部分国家医疗资源比较充足。在医疗上,这类国家绝大部分排名小于20,如德国、瑞士、加拿大、意大利、爱尔兰拥有丰厚的医疗资源储备,医疗水平也较高,新增的确诊病例拥有比较好的医疗条件,所以治愈率也比较高,疫情防控效果也比较明显。
(3)这类国家标准差远小于C型但大于I型且Hurst指数最大,是由于这类国家虽然经历过疫情暴发但已经基本控制住疫情,而且一般情况下这些国家的疫情将会继续保持稳定。因为在人文冲突方面,绝大部分国家的暴力冲突或者权力冲突都较少,有一个稳定的国内环境,所以可以顺利地统一安排有关防控的一系列措施,而国民配合程度也较高,所以疫情防控比较成功,新增确诊病例很快下降。
另外,这类中的厄瓜多尔和阿富汗综合防控严峻指数较大,但被分到了基本稳定型国家中是因为厄瓜多尔4月24日新增确诊病例大幅增加又随即大幅下降,但是厄瓜多尔政府表明4月24日确诊病例大幅增加随后减少是由于统计结果滞后造成的,所以厄瓜多尔并不像S型中其他国家疫情那样基本稳定,综合防控严峻指数为114。而阿富汗虽然防控条件恶劣新增确诊病例却明显下降的主要原因得益于阿富汗政府防控积极,在医疗条件有限的情况下,还专门安排传染病医院收治疑似病例,并积极寻求国际援助。
3.2.3 第三类:I型
I型国家综合防控严峻指数范围较广,上至163(伊拉克)下至19(澳大利亚),防控形势严峻且深受疫情困扰的国家与可以基本掌控疫情发展的国家并存,但共同的特点是大部分国家暴发较晚,规模较小(图6)。
图6 I型疫情国家综合防控严峻指数及聚类指标特征值

Fig. 6 Characteristic values of clustering index and comprehensive prevention and control severity index in type I countries

(1)平均Hurst指数最小,平均增长率、标准差远低于C型和S型是因为这类国家整体暴发较晚,疫情发展趋势不稳定。平均增长时长最大,平均防控效率最小是因为这类国家在经济方面,排名在30以下的国家特别是尼日利亚、加纳、洪都拉斯这些经济排名垫底的国家已经不足以应对疫情,所以新增确诊病例的增长幅度一直没有明显改善。排名在前半部分的国家如澳大利亚、日本、阿联酋等虽然经济基础较好,但由于疫情暴发较晚,尚处于初始暴发阶段,还没有制定完善的防控措施,所以看不到明显的防控效果。
(2)这类国家平均治愈率不高的原因主要是这类国家除了日本、澳大利亚、新加坡、巴林、瑞典、阿联酋在医疗上排名小于20外,其他22个国家排名都靠后,且大多数是非洲或拉美国家,只有几十或几百台呼吸机,许多医疗机构甚至没有氧气等基本治疗手段[29]
(3)这类国家平均增长时长最大,平均防控效率最小,且平均标准差最小的另一个重要原因是在人文冲突方面,这类国家大多都是排在后半部分的亚非拉国家,如伊拉克、菲律宾、尼日利亚、乌克兰等,除了疫情以外,这些中东国家和拉美国家还要面对国内局势动荡、社会生活失序、国家间地缘矛盾尖锐等复杂局面[30],这使得防控措施起不到效果,以至于这些国家大部分新增确诊病例时间序列都保持稳定上涨趋势。对于排名在前半部分的国家,如澳大利亚、日本、瑞典、新加坡等国内人文冲突较少,综合防控严峻指数也较低,但很多没有意识到疫情防控的重要性,在一定程度上耽误了疫情防控的主要时间节点,所以防控效率也有待提高。

4 结论

4.1 结论与建议

本文构建了全球疫情较为严重的60个国家的新增病例数据的时间序列,并提取标准差、Hurst指数、治愈率、增长时长、平均增长率、防控效率6个时间序列特征,选择谱系聚类的方法对其进行了聚类,共聚成3大类:C型、S型、I型。
(1)对于C型国家,时间序列特征为持续波动上涨且治愈率较低。C型国家平均增长时长是S型国家的两倍,平均增长率是I型国家的两倍,平均标准差远大于S型和I型,Hurst指数较高,平均治愈率是3类中最低的,防控效率远远低于S型,其中美国、巴西、印度标准差尤其大。这是因为这类国家综合防控严峻指数较大,虽然美国、英国、西班牙、法国等国家经济基础和医疗水平较好,但防控措施不到位导致经济和医疗条件起到的作用不明显,而经济和医疗水平较差的国家如巴西、印度、南非、墨西哥、巴基斯坦、孟加拉国等国家本就难以支撑长时间高强度的暴发,原有的人文冲突方面也整体较差,导致了新增确诊病例持续波动上涨,没有明显的下降趋势,治愈率也不高。未来的防控措施建议包括:美国等西方国家有很大一部分人拒绝戴口罩,需要改变其固有的人文观念,尤其是易感人群更要保护好自己,公众应达成共识,及早发现、及早报告、及早隔离、及早诊断、及早治疗是控制COVID-19肺炎的最佳、最有效途径;南非等经济基础较差和医疗资源不足的国家要组织后备医务人员,重视氧气等医疗资源的供应,及时建立收容医院以缓解供需不平衡,同时政府部门应建立应对疫情的综合防控系统,加强国际组织间的合作。
(2)对于S型国家,时间序列特征为快速上升后立即下降,并最终保持稳定趋势,总体治愈率较高。S型国家平均增长率和防控效率远大于C型和I型、平均增长时长和平均标准差较小、平均治愈率和Hurst指数都是3类中最大的。这是因为这类国家综合防控严峻指数较小,大部分国家如中国、德国虽然一度暴发程度很大,但原有的经济基础、医疗水平和人文冲突情况整体较好,大多数国家凭借其优秀的医疗系统、口罩的使用、隔离系统、快速和大规模的诊断测试、先进的信息通信技术和自愿参与的社会距离控制,及时控制住了COVID-19的暴发,所以暴发时间短,并且将会继续保持稳定。未来的防控措施建议包括:加强国际合作和科学研究,并争取在药物研究、疫苗研发和流行病学调查等方面取得新进展,并尽力为可能到来的二次疫情做好准备。充分利用信息通信技术了解人口迁移的数量和方向,从而对人们出行最热门的区域进行预警,合理配置医疗资源。
(3)对于I型国家,时间序列特征为缓慢上涨,整体发展趋势不稳定,治愈率较低。I型国家增长时长最大,治愈率比S型小比C型大、平均增长率、Hurst指数、防控效率和标准差都最小。说明这类国家暴发的比较晚,暴发程度普遍较小,但整体防控措施不够及时有效,这是因为大部分国家如这类中的亚非拉国家的经济基础、医疗水平以及人文冲突情况不佳,未来疫情趋势有待观察,未来的防控措施建议包括:这类国家中综合防控严峻指数较小的国家如日本、新加坡、澳大利亚、瑞典等疫情总体处于控制范围内,可以建立专家咨询委员会开展感染预防和COVID-19管控教育,并建立疫情联防联控机制,共享相关疫情信息,尽量满足疫情防控医院的医疗物资需求,满足普通群众对防控物资和基本生活必需品的需求,保障所有疫情防控物资的生产、流通和储备。亚非拉等综合防控严峻指数较大的国家虽然现在暴发规模较小,但其经济基础和医疗资源匮乏,短时间内提高经济和医疗水平不太现实,应汲取疫情防控工作做得比较好的国家的经验,实施严格的隔离等措施,每个医疗机构都应该建立专门的标准和程序以便能够在任何可能的临床情况下治疗传染性和非传染性患者,扩大重症监护病房和通风能力,针对感染、疑似和非传染性病例制定护理指南,并根据疫情实时调整和补充,优化治疗方法。

4.2 讨论

通过研究表明,本文选取的谱系聚类方法对于COVID-19相关疫情时间序列在理论、实践以及结果表达等方面都具有良好的适用性。本文的聚类结果与Vasilios Zarikas等[31]在疫情早期研究的较早病例国家与病例最多的国家的病例演变情况聚类结果,以及Nick James等[32]研究的确诊病例以及死亡病例的聚类结果基本符合,不同的是Vasilios Zarikas等将急剧上升后快速下降然后保持稳定的形态按照病例数情况分成了2类,分别以中国和韩国为代表,Nick James等着重分析了不同国家加入各个集群的时间先后。
需要说明的是,本文分析的是2020年1月29日—2020年7月30日的部分疫情严重国家的状况,各个国家的疫情发展模式会一直处于变化之中,后续的时间序列态势需要持续关注并根据实际情况进行防控。此外,由于前期部分国家用于检测病例的医疗设备不足,其检测上报的病例数量会有不同程度的误差。在成因分析部分,由于影响疫情发展的因子很多,本文选取了3个相对重要的因子进行分析,若想了解各个国家的详细状况还需考虑其他因子,如政治体系、人口老龄化等都会影响感染率、治愈率和死亡率。综上所述,不管是已经控制住疫情的国家还是正处于暴发阶段的国家,疫情防控都任重而道远,需要世界各国集体努力,互帮互助,共同度过这次疫情。
[1]
Alarcon Falconi T M, Estrella B, Sempértegui F, et al. Effects of data aggregation on time series analysis of Sseasonal infections[J]. International Journal of Environmental Research and Public Health, 2020,17(16):5887.

[2]
Melin P, Monica J C, Sanchez D, et al. Multiple ensemble neural network models with fuzzy response aggregation for predicting COVID-19 time series: The case of Mexico[J]. Healthcare (Basel), 2020,8(2):181.

[3]
Papastefanopoulos V, Linardatos P, Kotsiantis S. COVID-19: A comparison of time series methods to forecast percentage of active cases per population[J]. Applied Science, 2020,10:3880.

DOI

[4]
Vokó Z, Pitter J G. The effect of social distance measures on COVID-19 epidemics in Europe: An interrupted time series analysis[J]. Geroscience, 2020,42(4):1075-1082.

DOI PMID

[5]
James N, Menzies M. Cluster-based dual evolution for multivariate time series: Analyzing COVID-19[J]. Chaos, 2020,30(6):061108.

DOI PMID

[6]
Anastassopoulou C, Russo L, Tsakris A, et al. Data-based analysis, modelling and forecasting of the COVID-19 outbreak[J]. PLoS One, 2020,15(3):e0230405.

[7]
Chimmula V K R, Zhang L. Time series forecasting of COVID-19 transmission in Canada using LSTM networks[J]. Chaos Solitons & Fractals, 2020,135:109864.

DOI PMID

[8]
Tian H, Liu Y, LI Y, et al. An investigation of transmission control measures during the first 50 days of the COVID-19 epidemic in China[J]. Science, 2020,368(6491):638.

DOI PMID

[9]
Prem K, Liu Y, Russell TW, et al. The effect of control strategies to reduce social mixing on outcomes of the COVID-19 epidemic in Wuhan, China: A modelling study[J]. Lancet Public Health, 2020,5(5):e261-e270.

DOI PMID

[10]
Kraemer M U G, Yang C H, Gutierrez B, et al. The effect of human mobility and control measures on the COVID-19 epidemic in China[J]. Science, 2020,368(6490):493-497.

DOI PMID

[11]
Chinazzi M, Davis JT, Ajelli M, et al. The effect of travel restrictions on the spread of the 2019 novel coronavirus (COVID-19) outbreak[J]. Science, 2020,368(6489):395-400.

[12]
Liu M, Ning J, Du Y, et al. Modelling the evolution trajectory of COVID-19 in Wuhan, China: Experience and suggestions[J]. Public Health, 2020,183:76-80.

DOI PMID

[13]
Li H, Xu X L, Dai D W, et al. Air pollution and temperature are associated with increased COVID-19 incidence: A time series study[J]. International Journal of Infectious Diseases, 2020, 97(278-82.

DOI PMID

[14]
Qi H, Xiao S, Shi R, et al. COVID-19 transmission in Mainland China is associated with temperature and humidity: A time-series analysis[J]. Science of The Total Environment, 2020,728:138778.

DOI

[15]
Li R, Rivers C, Tan Q, et al. The demand for inpatient and ICU beds for COVID-19 in the US: lessons from Chinese cities[J]. medRxiv 2020.[cited 2020 November 21]

DOI PMID

[16]
Li R, Rivers C, Tan Q, et al. Estimated demand for US hospital inpatient and intensive care unit beds for patients with COVID-19 based on comparisons with Wuhan and Guangzhou, China[J]. JAMA Network Open, 2020,3(5):e208297.

DOI PMID

[17]
Ferguson N M, Laydon D, Nedjati-Gilani G, et al. Impact of Non-Pharmaceutical Interventions (NPIs) to reduce COVID- 19 mortality and healthcare demand[J]. Imperial College London, 2020.

[18]
Anderson R M, Heesterbeek H, Klinkenberg D, et al. How will country-based mitigation measures influence the course of the COVID-19 epidemic?[J]. Lancet, 2020,395:931-934.

DOI PMID

[19]
Wang X Z, Smith K, Hyndman R. Characteristic- based clustering for time series data[J]. Data Mining and Knowledge Discovery, 2006,13(3):335-364.

[20]
Takahashi K, Umano M, Fujimoto N. Partition of time series using hierarchical clustering [C]. Proceedings of the 2018 Joint 10th International Conference on Soft Computing and Intelligent Systems (SCIS) and 19th InternationalSymposium on Advanced Intelligent Systems (ISIS), 2018.

[21]
Drago C, Scepi G. Time series clustering from high dimensional data; proceedings of the clustering high-dimensional data [C]. Springer Berlin Heidelberg, 2015.

[22]
Nanopoulos A, Alcock R, Manolopoulos Y. Feature-based classification of Time-series data[J]. International Journal of Computer Research, 2001,10:49-61.

[23]
Ouyang R, Ren L, Cheng W, et al. Similarity search and pattern discovery in hydrological time series data mining.[J]. Hydrological Processes, 2010,24(9):1198-1210.

[24]
宋辞, 裴韬. 基于特征的时间序列聚类方法研究进展[J]. 地理科学进展, 2012,31(10):1307-1317.

[ Song C, Pei T. Research progress of feature-based time series clustering methods[J]. Advances in Geographical Sciences, 2012,31(10):1307-1317. ]

[25]
Rose O. Estimation of the hurst parameter of long-range dependent time series[R]. Research Report, 1996.

[26]
Moore, Melinda, Bill Gelfeld,et al. Identifying Future Disease Hot Spots: Infectious Disease Vulnerability Index. Santa Monica, CA: RAND Corporation, 2016.

[27]
GBD 2016 Healthcare Access and Quality Collaborators. Measuring performance on the Healthcare Access and Quality Index for 195 countries and territories and selected subnational locations: A systematic analysis from the Global Burden of Disease Study 2016[J]. Lancet, 2018,391(10136):2236-2271.

DOI PMID

[28]
Poljanšek K, Marin-Ferrer , et al. Incorporating epidemics risk in the INFORM Hazard- dependent Global Risk Index[M]. Publications Office of the European Union, Luxembourg, 2018.

[29]
袁勇. 非洲疫情形势值得密切关注[N]. 经济日报, 2020-04-11(002).

[ Yuan Yong. The situation of the epidemic in Africa deserves close attention[N]. Economic Daily, 2020-04-11(002). ]

[30]
刁海洋. 全球疫情复杂演化关键问题依然待解[J]. 健康中国观察, 2020(4):90-91.

[ Diao H Y. Key issues in the complex evolution of the global epidemic remain to be solved[J]. Healthy China Watch, 2020(4):90-91. ]

[31]
Zarikas V, Poulopoulos S G, Gareiou Z, et al. Clustering analysis of countries using the COVID-19 cases dataset [J]. Data in Brief, 2020,31(105787.

DOI PMID

[32]
James N, Menzies M. Cluster-based dual evolution for multivariate time series: Analyzing COVID-19[J]. Chaos: An Interdisciplinary Journal of Nonlinear Science, 2020,30(6):061108.

文章导航

/