A Bayesian Network Method Considering Spatial Cluster to Evaluate Health Risk of Hand, Foot and Mouth Disease

Hand, foot and mouth disease (HFMD) is a common infectious disease. Previous studies showed that multiple factors, such as meteorological, geographical, environmental and socio-economic factors were associated with HFMD. The associations between these risk factors and disease are complex. HFMD incidences present strong spatial clustering and auto-correlation. It is difficult to capture such complex non-linear associations and spatial auto-correlation using ordinary linear regression. Based on the previous studies, we proposed a Bayesian network based integrated risk approach to explore the relationship between HFMD incidence risk and the influential factors, such as meteorological parameters, land-use pattern, socio-economic status and air pollution. HFMD is a typical disease of children in Shandong Province of China and it was taken as our study case. Our approach incorporated the output of spatial clusters obtained by scanning statistics to enhance spatial reasoning of the proposed Bayesian network. This could also reduce the bias and improved the performance of the prediction. The results showed that the integrated Bayesian network model proposed achieved higher accuracy than the other methods. Also, spatial hot spots incorporated well in our model. By interpreting the marginal probability of every influential factor in the model, we analyzed the effect of these risk factors, in particular meteorological parameters, socio-economic factors and air pollution on the HFMD incidence. Our spatial Bayesian network approach is useful and the results provided important information for early-warning, prevention and control of HFMD.

1 引言


2 研究区概况与数据源

2.1 研究区概况

山东省位于中国东部沿海,西邻华北平原,东部为山东半岛并伸入黄海。山东省总面积15.8万km2,以近9800万人口成为中国的第二大人口大省。山东属温带大陆性季风气候,雨热同季,年均温度13 ℃,降雨集中于夏季,全年降雨量在550~950 mm之间[6]。山东省是手足口病的多发省份,自2000年起烟台、泰安、临沂等地均有暴发流行报告,2008年山东省全省手足口病发病数居全国第三[25]图1展示了研究区域山东省及其发病率分布图。
Fig. 1 Study area

图1 研究区域

2.2 数据源

① 气象站点数据
② 社会经济数据
③ 空气污染监测数据
④ NDVI数据
NDVI(Normalized Difference Vegetation Index),即归一化植被指数是从遥感影像数据中提取的反映地表植被覆盖度的一项数据,是间接反映影响手足口病的环境因素[14]。本研究采用的数据源为2009年MODIS影像,分辨率为1000 m×1000 m,在ENVI 5.0软件中提取研究区域内的NDVI值,以各区县范围内的NDVI均值作为该区县NDVI值,加入模型参与分析。
⑤ 土地覆盖数据
研究表明土地类型对手足口病有重要影响[14],本研究获取来自GlobCover的2009年全球土地覆盖栅格数据集,分辨率为230 m×230 m,裁剪出研究区域数据并进行分类,分为水体、人造区域和自然区域,以表示水体覆盖、人工建造物为主的覆盖以及自然植被或荒地覆盖。对于各区县,计算每种覆盖在该区县所占比例,将该比例作为该区县土地覆盖因子加入模型。
⑥ 交通路网数据

3 研究方法


3.1 贝叶斯网络

贝叶斯网络由一组节点V和连接这些节点的有向边构成的有向无环图,每个节点V表示一个随机变量(代表影响手足口病影响因素或风险水平),每条边表示变量间的概率影响/依赖关系。每个节点V对应着一条件概率表P(Conditional Probability Table,CPT),用于定量描述该影响因素节点与父节点之间概率依赖的数量关系,如果某个节点没有父节点,则其条件概率表为给定的先验概率分布。
(2)数据预处理。我们需要对目标变量及连续的解释变量进行离散化处理,并根据其对手足口病发病风险贡献率的大小进行变量的选择,减少风险评估模型中的噪音。目标变量(手足口发病率的高低)可根据领域知识按照一定规律得的域值将发病率分成高/低2类;而对解释变量的离散化方法可采用Fayyad and Irani的算法[27]选择对目标变量分类最优的离散化区间。根据最优的离散化方案,计算解释变量对目标变量分类的贡献度,采用了常用的Quinlan信息获取比率作为划分的依据。

3.2 空间聚集性信息及其风险概率推理

p ( r = r i c = c k ) = P ( r = r i , c = c k ) P ( c = c k ) = sum ( r = r i , c = c k ) sum ( c = c k ) (1)
式中:p(…)表示概率;r表示手足口发病率“高” (r1)或“低”(r0)风险水平;c表示是否"热点"(ck=1)或非聚集区(ck=6),可以通过频数统计得到条件依赖关系。如果数据有缺失,采用EM算法;而数据量大,则通过Gibbs抽样得到条件概率表(表1)。
Fig. 2 Bayesian network topology of HFMD with spatial correlation

图2 结合空间聚集性的手足口病贝叶斯风险建模结构图

Tab. 1 Methods of Bayesian network topology and parameter learning

表1 贝叶斯网络结构建立及参数的学习方法[21]

主要算法 主要方法 在手足口病风险评估中的适用性
结构学习 K2 通过变量固定拓扑排序得到节点间连接[28] 初始变量顺序是基于朴素贝叶斯模型 局部优化算法,计算速度快,适用于处理海量数据查找各影响因素同手足口病发病风险的关系
爬山算法 通过迭代最终选择得分最高的结构模型[29]
Tabu 一种最优爬山法,在学好的结构中加Markov Blanket连接[30]
TAN 设计算法来计算极大权重扩展树[31]
模拟退火 在上一模型基础上随机生成备选网络模型BS',如果该模型比上一个模型更好,则使用这个备选模型[30] 局部优化算法,但算法较为复杂,搜索较慢,不适用于处理大数据量,但算法实施可较好地搜寻各种影响因素同手足口病发病风险的关系
遗传算法 通过遗传算法找到最优的网络结构[32]
结构微调 结合域知识 根据手足口病的传播源及影响因素领域知识[2,8,16],移除无实质意义的连接,增加新的有意义的 连接 结合特别适合于手足口病影响因素复杂情况,根域知识,可移除关系学习中的偏差,纠正网络
参数学习 简单贝叶斯 根据Dirichlet分布根据数据进行概率计算[30] 基本求参数的方法
期望最大化 EM算法,基于最大似染法,可处理数据缺失的参数的估计值[33] 适用于有有自变量缺失的情况
Gibbs抽样 通过蒙特卡洛方法进行抽样计算条件概率,适合数据量大的情况[34] 适用于海量数据学习手足口病风险评估模型

3.3 结果的评估及解译

对模型总体性能的评价指标包括探测率,本研究选用了以下几个指标衡量模型的有效性,即真正率、精确性、基于pd及精确性的综合性指标F计 分(F score=2×(pd×precision)/(pd+ precision))和ROC area。
ROC area: 指ROC曲线,即受试者特征曲线(Receiver Operating Characteristic Curve)下方的面积。该曲线是在坐标轴中以每个样本的假正率为横坐标,真正率为纵坐标绘制的曲线,越好的模型,ROC曲线越趋向左上方。

4 结果分析

4.1 山东省手足口病发病率的总体规律

2008年5月至2009年3月,山东省共有37 945起手足口病病例,全省发病率为40.32×10-5。全年发病率最高的区县为济南槐荫区,达到638.33×10-5,而最低的则是聊城冠县,为0.283×10-5。2008年5月第二周济南槐荫的发病率达到89.71×10-5,该周临沂兰山的发病数达到558例,均为全年最高。
从全年趋势上看,手足口病发病率在2008年5-6月时最高,全省每周发病率维持2×10-5以上, 7月过后逐渐下降,在冬季约11月有轻微的上涨趋势,但发病率仅在1×10-5左右,随后一直平稳直至2009年春季。与过往的相关研究结果类似[35],山东省手足口病的高发季节为夏季,且在冬季11月出现一个次高峰(图3)。
Fig. 3 Weekly incidence rates of HFMD

图3 山东省手足口病发病率时间变化趋势


4.2 山东省手足口病发病的空间扫描统计及聚集 等级

本研究使用Satscan软件进行分析,采用空间泊松(Poisson)模型对全部47周的区县发病率数据进行高发病率扫描统计,最终探测出5个聚集热点,按照发病聚集程度从高至低,中心区分别在菏泽市曹县、莱芜市莱城区、莱阳市、枣庄市中心、德州市德城区。图4为空间扫描统计得到的山东省各区县空间聚集等级图,1表示具有最显著的发病聚集,数字递增聚集程度递减,6为无明显聚集的区域。在贝叶斯建模中,空间聚集等级将作为一个变量加入模型,其取值为各区县的聚集等级,即1至5表示热点的聚集等级且程度递减,6表示该区县不在聚集 热点中。
Fig. 4 Spatial clusters of HFMD in Shandong Province

图4 山东省手足口病发病空间聚集等级图

4.3 手足口病发病风险的贝叶斯网络建模分析

4.3.1 解释变量选择和处理
Tab. 2 Variable selection of HFMD Bayesian network risk model

表2 手足口病贝叶斯网络风险模型变量的选择

类别 解释变量 属性重要性(Gain Ratio)
气象 日均气温
社会经济 GDP(生产总值)
空气污染数据 PM2.5浓度 0.125
NDVI 区县NDVI均值 0.017
土地覆盖 人工覆盖比例 0.086
交通路网 主要及次要道路密度 0.168
空间聚集 空间聚集等级 0.219
4.3.2 发病风险的等级划分
4.3.3 气象、环境和社会经济因素与手足口病发病风险的贝叶斯网络建模
Fig. 5 Bayesian network topology of HFMD risk and predictors

图5 手足口病发病风险与各解释变量的贝叶斯网络结构图

Tab. 3 Performance comparison of different Bayesian network without spatial clusters

表3 无空间聚集性贝叶斯网络风险不同模型的建模结果

学习算法 真正率(风险:高/低) 假正率(风险:高/低) 精确度(风险:高/低) 准确度 ROC面积
综合BN+域知识 0.57/0.85 0.15/0.43 0.63/0.82 0.77 0.78
BN K2 0.52/0.82 0.17/0.48 0.56/0.80 0.74 0.79
BN 爬山 0.52/0.88 0.12/0.48 0.67/0.80 0.76 0.79
BN Tabu 0.52/0.87 0.13/0.48 0.65/0.80 0.76 0.78
BN 模拟退火 0.45/0.90 0.10/0.55 0.68/0.79 0.77 0.68
决策树:J48 0.38/0.98 0.02/0.62 0.84/0.78 0.80 0.62
随机森林 0.48/0.85 0.15/0.52 0.59/0.79 0.74 0.78
逻辑斯特回归 0.48/0.91 0.10/0.52 0.59/0.80 0.77 0.70
4.3.4 考虑时空聚集性后的贝叶斯网络建模
Fig. 6 Bayesian network topology of HFMD risk and predictors

图6 结合空间聚集性后的贝叶斯网络结构图

Tab. 4 Performance comparison of different Bayesian network with spatial clusters

表4 有空间聚集性贝叶斯网络风险不同模型建模结果

学习算法 真正率(风险:高/低) 假正率(风险:高/低) 精确度(风险:高/低) 准确度 ROC面积
BN+域知识 0.64/0.85 0.15/0.36 0.70/0.83 0.80 0.79
BN K2 0.62/0.85 0.15/0.38 0.65/0.84 0.78 0.78
BN 爬山 0.54/0.87 0.12/0.45 0.60/0.80 0.78 0.79
BN Tabu 0.52/0.87 0.14/0.48 0.71/0.81 0.76 0.79
BN 模拟退火 0.43/0.93 0.06/0.58 0.75/0.79 0.78 0.71
决策树:J48 0.40/0.95 0.05/0.60 0.77/0.78 0.77 0.62
随机森林 0.52/0.84 0.15/0.50 0.78/0.79 0.74 0.78
逻辑斯特回归 0.50/0.86 0.15/0.52 0.60/0.80 0.74 0.69
Tab. 5 Conditional probability table of risk factors and HFMD incidence risk

表5 解释变量与发病风险的边际条件概率表

解释变量 等级 范围 发病风险
相对湿度/% 71.04~73.52 0.736 0.264
60.58~71.04 0.304 0.696
日最低气温/℃ 17.05~20.03 0.747 0.253
13.44~17.05 0.291 0.709
GDP(元/人) 42 146~176 826 0.553 0.447
20 847~42 146 0.386 0.614
2200~20 847 0.252 0.748
人均医院床位 62.15~72.23 0.752 0.248
28.30~62.15 0.325 0.675
10.81~28.30 0.172 0.828
小学在校人数比例/% 0.831~1.082 0.103 0.897
0.416~0.831 0.317 0.683
道路网密度/(km/km2 0.56~2.60 0.481 0.519
0.21~0.56 0.223 0.777
NDVI 0.43~0.61 0.160 0.840
0.18~0.43 0.358 0.642
土地覆盖(人工用地比例/%) 26.18~99.05 0.944 0.056
10.29~26.18 0.677 0.323
1.16~10.29 0.210 0.780

5 讨论

气象因素是影响手足口病发病的重要要素,以往的研究对不同的气象指标与手足口病发病间的关系进行了探讨[3,5]。本研究选取了气温、相对湿度、风速、气压等指标参与建模,在贝叶斯网络结构中,日最低温和相对湿度与手足口病发病率有直接的联系,通过边际概率表可以发现,当相对湿度较高时,发病风险概率提高。Onozuka等[4]的研究结果表明相对湿度和气温上升时,手足口病的发病显著增加。Chen等[3]也发现相对湿度的增加在一定的滞 没后期内会导致疾病发病的增加,该研究还发现温度在1-3 d的滞后期内与手足口病发病的变化呈负相关,在5-9 d的滞后期内呈正相关。吴北平等[18]则发现了发病率相关的气象因素依次是:周平均温度、平均风速和平均气压。尽管这些研究是在时间尺度上进行的,本研究发现日最低温及相对湿度的高低与手足口病发病的关系在空间尺度上也具有相似的规律,即根据边际概率表,日最低温和相对湿度较高的地区,具有更高的患病风险。在潮湿的地区,空气中的水汽为病毒的传播提供了便利。日最低温而不是日均气温或最高温能够更明显地影响发病,本研究认为是人体对最低温的变化可能较为敏感导致的,但具体的机理仍需要深入研究。
本研究仍有一些局限性:① 研究所采用的手足口病发病数据是以区县为空间单位,以周为时间单位的数据,缺乏更为精准的个案数据来揭示各影响要素,特别是社会经济要素对发病的影响;② 限于各因子数据不统一的时间尺度,本研究没有考虑时间变化,将全年数据一并进行建模分析,而手足口病发病数据及气象要素数据均具有明显的季节性变化,时间尺度上的影响未能在模型中体现。而我们也即将开展与时空相结合的方法研究山东省的手足口病时空分异规律。

6 结论


