流行病空间数据分析与建模 钟少波 清华大学 首届“环境健康遥感诊断”国际学术研讨会 公共安全研究院 zhongshaobo@tsinghua.edu.cn 清华大学 公共安全研究院 2011年12月24日 中国科学院遥感应用研究所,北京
报告内容 疾病空间分布模式分析 传染病时空蔓延过程模拟 疾病与环境因素相关性分析 疾病态势制图
疾病空间分布模式分析 空间分布模式分析 应用领域: 检验空间聚集性 检验全局空间相关性 检验局部空间相关性 …… Moran’s I 指标: Geary’s c 指标: 检验空间聚集性 检验局部空间相关性 检验全局空间相关性 应用领域: 疾病数据空间聚集性/相关性分析 犯罪数据空间聚集性/相关性分析 地震灾害空间聚集性/相关性分析 矿难事故空间聚集性/相关性分析 …… G指标: G*指标: Ripley’s k 函数: 核密度:
疾病空间分布模式分析 疾病发生数据 选择一种统计指标进行计算 H0: I0 = IN H1: I0 ≠ IN Moran’s I 指标: 表示观测值个数; 表示点i与点j之间空间临近权, 显著性检验 结论 在显著性水平 时, :随机模式下的期望值和方差 95%的可能疾病发生的空间聚集趋势不是偶然因素引起。 wij定义的合理与否,直接关系到分析结果的好坏。选择合适的wij定义经常是具体应用的重点和难点。
a) General G b) Moran’s I 案例:HPAI疫情空间热点分析 c) Gi d) Local Moran’s I 全局相关性分析 局部相关性分析 a) General G b) Moran’s I 根据高致病性禽流感流行特征,几种可能的wij定义: 根据行政区域邻接状态 根据候鸟迁徙路线 根据湿地面积 根据家禽养殖密度 进一步通过局部相关分析,可以得到疫情空间聚集性分布图,给出局部空间区域聚集性指标。为疫情预测预警提供参考。 通过全局相关分析,可以断定:高值聚类的出现是因为偶然因素导致的可能性小于5% 。
传染病时空蔓延过程模拟 A1 A2 A3 A4 m2,3 m1,4 SIR模型 空间区域交互模式 4p微分方程组 Metapopulation model Spatial patch model Multi-city model …… 综合考虑了自然出生、死亡,感染、恢复、病死,空间区域之间迁移等因素。
传染病时空蔓延过程模拟 参数意义: 说明: Ai(Ni):出生率(单位时间出生人数); di:自然死亡率,独立于疾病状态,常量;βi(Ni)为疾病的传染率; 1/αi, 1/γi, 1/δi:疾病潜伏、传染、免疫的平均时间; εi:疾病导致感染者死亡的致死率,常量。 以上为一般化的模型,如果限制相关参数的取值范围,可以相应得到几种常见的模型类别。 说明: 如果δi=0,模型特化为SEIR模型; 如果αi→∞,模型特化为SIRS模型; 如果δi→∞,模型特化为SIS模型。
传染病时空蔓延过程模拟 为了便于结合地理信息系统进行传染病的时空传播过程可视化模拟,需要对上述微分方程组进行离散化处理。 不考虑人口的自然出生和死亡,对上述方程组进行离散化,得到差分方程组如下:
传染病时空蔓延过程模拟 令nS(i, -, t), nE(i, -, t), nI(i, -, t), nR(i, -, t)分别表示t时刻从城市外部进入区域i的Susceptible、 Exposed、 Infected和Recovered的个体数量,nS(-, i, t), nE(-, i, t), nI(-, i, t), nR(-, i, t) 分别表示t时刻从区域i移出到城市外部的Susceptible、 Exposed、 Infected和Recovered的个体数量。据此,上述模型变为:
传染病时空蔓延过程模拟 模型优点: 避免微分方程的局限性,能灵活地进行参数设置和调控 时空离散模型,便于数值模拟,模拟结果可视化展示和分析 能够建模不同尺度的空间过程 与GIS无缝集成,充分利用GIS的空间数据组织与管理、空间分析、可视化等功能 针对真实环境下传染病复杂时空过程模拟需求,对元胞自动机各个要素进行了定制和扩展。
难点:空间连通性测度 方式一:基于空间邻接关系 方式二:基于路网通行能力 方式三:基于人流量观测数据
基于空间邻接关系连通性
基于路网通行能力的连通性
基于观测数据的连通性
案例:甲型H1N1
案例:甲型H1N1
案例:甲型H1N1
传染病模拟分析系统设计
传染病模拟分析系统设计 策略模式 空间连通性 [][][]conn 方式1和2: conn[i,j,t]=constant 方式3: conn[i,j,t]=flow[i,j,t]
模拟可视化
传染病模拟分析系统实现
传染病模拟分析系统实现
疾病与环境因子相关性研究 logistic模型和考虑空间自相关的logistic模型 General logistic:基于多因素的条件概率(观测值之间独立) Autologistic: 空间数据存在普遍的空间自相关性(地理学第一定律) 空间自相关成份 i样本点的邻域样本点 几种常用空间邻域形式 Autologistic模型的不足: 不能描述全局空间相关性(SARS、HPAI的空间飞点传播特征) 不能描述时间维相关性(各种传染病时间维特征)
疾病与环境因子相关性研究 考虑时空自相关的logistic模型 两点关键改进: 增加时间维相关成份:时空位置 之间存在时空相关性; x y t t1 ti tn I(ti): ti时刻及之前的观测集合。 与目标存在时空相关的观测数据集 时空自相关成份 链接函数 两点关键改进: 增加时间维相关成份:时空位置 之间存在时空相关性; 空间邻域扩展到全局:研究区域内任意两个空间位置点均可能存在空间自相关。
疾病与环境因子相关性研究 纳入分析的变量列表 确定潜在环境因子 04-05中国大陆高致病性禽流感(HPAI)与环境因子相关性分析 变量 描述 单位 类型 自变量 national 与所有国道最近距离 km 连续变量 railway 与所有铁路最近距离 reservoir 与所有水库最近距离 lake 与所有湖泊最近距离 river 与所有河流最近距离 lst MODIS地表温度 分类变量 wv MODIS近红外水汽 vegetation SPOT植被指数 sigmaw 时空相关虚拟变量 因变量 present 是否疫点 二元分类 确定潜在环境因子 病毒传播与鸟类和家禽活动有关系 植被指数(NDVI) 候鸟的迁徙导致大范围禽流感传播 水体类因素(河流、湖泊、水库) 禽类贸易可能对禽流感传播有影响 交通类因素(国道、铁路) 禽流感病毒对温度和湿度敏感 地表温度,水汽 空气质量对禽流感传播有影响 气溶胶
疾病与环境因子相关性研究 04-05中国大陆高致病性禽流感(HPAI)与环境因子相关性分析 GIS支持下的时空抽样过程: 借鉴病例-对照(case-control)研究方法 时空抽样 时空抽样 环境因子提取 GIS支持下的时空抽样过程: 将空间进行规则格网划分; 空间维和时间维(2004-2005)等概率随机抽样; 病例取疫情发生的空间位置; 对照取格子质心。 时空相关系数计算 参数估计 动态风险预测
计算最后两次迭代的A0,1;A1,1;A2,1;A1,2;A2,2差值 疾病与环境因子相关性研究 04-05中国大陆高致病性禽流感(HPAI)与环境因子相关性分析 SYNergy of Terra and Aqua MODIS data (SYNTAM)气溶胶反演算法 SYNTAM算法 Terra影像 Aqua影像 Tang, Xue, 2005, Remote Sensing of Environment Iterative self-consistent approach for earth surface temperature 计算Ts,1 计算Ts,2 计算Ts,1与Ts,2之间的相关系数R(A0,1) 求使R(A0,1) >0.9的所有A0,1 计算Ts,1和Ts,2的最小平方差S(A0,1) 求A0,1使得S(A0,1) 最小且R(A0,1) >0.8 计算A0,2 计算A1,1;A2,1;A1,2;A2,2新值 计算A0,1新值 计算最后两次迭代的A0,1;A1,1;A2,1;A1,2;A2,2差值 满足精度? 计算终止 Xue, 2005, International Journal of Remote Sensing 水汽 MODIS遥感数据 地表温度 气溶胶 Sobrino算法 SPOT5遥感数据 植被指数 湖泊专题图 水库专题图 国道专题图 河流专题图 铁路专题图 河流临近度 湖泊临近度 水库临近度 国道临近度 铁路临近度 GIS空 间 分 析 先前已有的温度和气溶胶反演算法仅对海水面等均一下垫面有效 时空抽样 环境因子提取 环境因子提取 时空相关系数计算 参数估计 动态风险预测
疾病与环境因子相关性研究 04-05中国大陆高致病性禽流感(HPAI)与环境因子相关性分析 空间相关系数 时间相关系数: 时空相关系数: 时空抽样 空间相关系数 环境因子提取 时空相关系数: 时空相关系数计算 时空相关系数计算 参数估计 动态风险预测
疾病与环境因子相关性研究 04-05中国大陆高致病性禽流感(HPAI)与环境因子相关性分析 样本数据之间存在相关性 似然估计 样本独立同分布 似然估计 局部相关性 相关性具有全局特征 伪似然估计 MCMC Logistic模型 参数估计 autologistic模型 时空相关logistic模型 预测模型: 以与国道临近度为例,离国道的距离每增加1km, 疫情发生概率与不发生概率的比值将降为原来的0.893倍。按此推算,如果增加10km,比值将降为原来的0.322(= )倍。这种定量的分析结果,对疫情防控具有重要的意义。 单因素分析: 时空抽样 环境因子提取 时空相关系数计算 参数估计 参数估计 动态风险预测
疾病与环境因子相关性研究 04-05中国大陆高致病性禽流感(HPAI)与环境因子相关性分析 a) 2004-1-31疫情发生情况 b) 2004-1-31疫情预测结果 c) 阈值 =0.3 d) 阈值 =0.5 时空抽样 环境因子提取 时空相关系数计算 参数估计 动态风险预测 动态风险预测
疾病态势制图研究 制图目的: 曲面方程 距离倒数 地理统计 消除混淆因子,探测数据的空间 相关性,降低观测数据噪声 获得空间连续的分布图 监测、普查数据 曲面方程 距离倒数 地理统计 风险预测结果 过程模拟结果 制图目的: 消除混淆因子,探测数据的空间 相关性,降低观测数据噪声 获得空间连续的分布图
案例: Mapping Hepatitis B 全国多年乙肝发病率空间分布态势制图 探索性空间数据分析 全国乙肝普查数据 GIS空间数据分析 数据准备 数据探索 拟合一个模型 模型诊断 比较模型 西北内蒙和甘肃一带、中南和华东部分地区和东北部分省市为高发地区。长江以南高于长江以北。东部沿海高于西部边疆。 Kriging空间插值模型 GIS空间数据 可视化 空间趋势面 空间变异 随机误差 全国多年乙肝发病率态势分布图
案例: Mapping Hepatitis B ESDA技术可用于了解空间数据集,揭示其底层结构,抽取重要变量,探测异常值,检验基本假定,以及确定优化的因子设置。 Kriging方法可以充分表达空间数据的相关性。不像一些基于模型的制图方法通常需要制图数据满足严格的假设条件,Kriging方法具有更好的鲁棒性。因此它的应用面也更加广泛。如果需要,还可以对Kriging方法进行改进,从而满足非平稳空间结构数据分析的需要。此外,Kriging方法能对预测结果的精度和可靠性进行评价,这是一些确定性插值方法所不具备的。
下一步研究:环境因素时空插值 Space-time trend analysis Detrend Variance analysis of residuals Space-time separable test of covariance Space-time variogram modeling Space-time kriging Accuracy evaluation
传染病监测与早期预警 SaScan软件 Geosurveillance软件 Kulldorff’s space scan statistic: Rogerson’s CUSUM: SaScan软件 Geosurveillance软件
传染病信息直报体系
Epidemiological news publishing The strategies and manners of signalling of an alarm are important. Publishing strategy in society should be analysed and decided to avoid the general panic in case of virus outbreaks. To help make publishing strategy and propose scientific prevention action to the public, a Decision Support System (DSS) is required which can assist in decision-makers to work out optimal or feasible solutions through providing necessary information and proposal. There are three core tasks in constructing a DSS of disease publishing strategy, i.e. the implementation of model for news publishing sensitivity analysis, the design and building of the rule set of publishing and the typical cases of historical solutions.
Epidemiological news publishing Internet, wireless communication and broadcasting and television networks are three most frequently used approaches to information dissemination. Emerging techniques for aiding disease news publishing Integration of three networks Web GIS
传染病监测和早期预警系统架构
Resilience implications There is an urgent need to develop tools able to identify disease outbreaks at an early stage in order to mitigate their impact on society and economy. The risk of cholera Haiti Earthquake could perhaps have been reduced if more hygienic environment, clean supplies (e.g. water) and appropriate medical care were available. During the Beijing SARS, Substantial health resources (e.g. doctors, nurses and medicines) were allocated, in designated hospitals and clinics, to guarantee remedial containment of SARS which resulted in a significant resources waste (e.g. human power, wards and medicine) that could have been saved. Through building a network comprised of temporary and permanent stations setup in health and care facilities, such as hospitals and clinics, we can monitor diseases and report to local and national health institutions continuously to be analysed in real-time. This will perceive potential risks at an early stage and thus reduce cost of health resources and recover their normal operations as well as decrease any potential losses.
Resilience implications A more comprehensive resilience strategy, with the potential for implementation, is therefore needed to respond to high risks resulting from climate change and other hazards. Some researchers have developed climate change adaptation models for sustainability and resilience. This framework could be integrated with these models to develop a more comprehensive strategic model that is able to respond to the increasing risks of disease outbreaks.
Future work The monitoring network of disease need to have a complete coverage over the target area and can work stably and efficiently. The current methods of cluster detection still have some disadvantages and methodological research is still urgent for better results. Some management factors including the standard and rule of disease report, education and training also need solving for implementation and effective use of the system framework. DSS ability need to be implemented and enhanced in the proposed framework. The integration of the framework with resilience and sustainability strategies will also be targeted in order to develop a universal model to improve the resilience, sustainability and disaster prevention techniques (e.g. this framework).
敬请批评指正! 谢谢!