Poisson分布的统计分析
Poisson分布样本均数与总体均数的比较 内容 Poisson分布的概念与特性 1 Poisson分布总体均数的估计 2 Poisson分布样本均数与总体均数的比较 3 Poisson分布两样本均数的比较 4 STATA计算 5
Poisson分布的概念 描述所观察到的某事件发生次数x的概率 对于观察单位充分小的情况下某事件发生是非常罕见的 格子数 细分 有限格子 中有细菌 每个格子的大小恰好能容纳一个细菌 1L水
什么是Poisson分布 Poisson分布主要用于描述在单位时间(空间)中某种事件发生数的概率分布 放射性物质在单位时间内的放射次数 在单位容积充分摇匀的水中的细菌数 野外单位空间中的某种昆虫数 显然,Poisson分布也是一种离散型随机变量的分布
什么是Poisson分布 可以认为满足以下三个条件的随机变量服从Poisson分布: 平稳性:X的取值与观察单位的位置无关,只与观察单位的大小有关 独立性:在某个观察单位上X的取值与前面各观察单位上X的取值独立(无关) 普通性:在充分小的观察单位上X的取值最多为1 实际上可以看作是在二项分布要求上更进了一步
什么是Poisson分布 Poisson分布的概率分布规律 X取值范围为非负整数,即0,1,…; 其相应取值概率为 式中e:自然对数的底,e≈2.7182;是大于0的常数。 X服从以为参数(X的总体均数)的Poisson分布可记为X~P()
Poisson分布的特性 Poisson分布的均数与方差 由Poisson分布计算概率公式可见Poisson分布只有一个参数 。这个参数就是Poisson分布的总体均数。不同的总体均数对应于不同的Poisson分布 总体方差也等于此参数 这是Poisson分布的特性
Poisson分布的特性 Poisson分布的可加性 正态分布与Poisson分布的关系 如果X1, X 2 , …, X k相互独立,且它们分别服从Poisson分布,则T= X1+ X2+…+ Xk也服从Poisson分布,其参数为原各参数之和1+ 2+…+ k 正态分布与Poisson分布的关系 只取决于均数,均数很小时分布很偏,当均数增加时,逐渐趋于对称 当均数越来越大时,Poisson分布逐渐逼近于均数为,方差为的正态分布。据此性质,均数较大的Poisson分布可按正态分布近似计算
Poisson分布的特性
Poisson分布的特性 Poisson分布与二项分布的关系 设X~B (n , ),则当n→∞且n保持不变时,可以证明X的极限分布是以n 为参数的Poisson分布 由以上性质可得,当n很大,很小时,二项分布近似Poisson分布。当n很大时,二项分布概率的计算量相当大。因此可以利用二项分布的Poisson近似这一性质,当n很大且很小时,可以用Poisson分布概率计算替代二项分布的概率计算
Poisson分布总体均数的估计
小样本时总体均数的估计 当待估总体均数与样本均数的观察单位相同时,总体均数的点估计就是样本计数,也就是说此时的样本计数就是样本均数。 按照分布规律,直接通过计算不同发生数的概率即可得到区间估计 例7.1 对某一水体进行卫生学评价,随机取得100ml水样,培养得大肠菌落30个,试估计该水体中平均每100毫升所含大肠菌数的95%可信区间。 由于希望求得的是100毫升水样的菌落数可信区间,因此可以将这些水样看作是一个观察单位来进行分析。 Cii命令
大样本时总体均数的估计 在大样本时可以直接利用正态近似原理得到区间估计 当待估总体均数与样本均数的观察单位不同时,要根据样本观察单位进行估计,然后把估计结果进行单位转换,使估计结果中的观察单位与总体观察单位相同(用正态近似方法可以直接变换观察单位)。
大样本时总体均数的估计 例7.2 测得某放射性同位素半小时内发出的脉冲数为490个,试估计该放射性同位素平均每30分钟脉冲数的95%可信区间。 已知n=490,由于此样本计数大于50,故可考虑利用近似正态分布的原理估计其总体均数。这里,待估总体均数的单位是30分钟,样本均数也是观察了1次30分钟得到的,所以应当以30分钟作为一个观察单位 可直接按照近似原理计算,或者用cii命令计算 由于观察单位数等于1,因此公式中标准误的大小就等于标准差
大样本时总体均数的估计 例7.3 为了解某地新生儿出生缺陷的发生水平,该地某年内共监测新生儿192000人,其中出生缺陷的发生数为1977人,监测出生缺陷发生率为102.97/万,试估计该地新生儿出生缺陷发生率的95%可信区间。 新生儿出生缺陷的发生率常以万分率来表示,如果以1万人为单位,该地监测的新生儿出生数192000人可看作是19.2个观察单位(即n=19.2),其样本均数为102.97,正态近似时的标准差也应当按此计算 注意此时标准误的大小不等于标准差 计算结果与不同的观察单位大小无关
Poisson分布样本均数与 总体均数的比较
小样本计算 例7.4 一般孕产妇的死亡率是56/10万,某地研究者为了解当地孕产妇的死亡率是否低于一般,对该地7500名孕产妇进行监测,其中3名死亡,死亡率为40/10万,试作统计推断。 可利用Poisson分布的概率函数直接计算假设检验所需的的概率P值,和检验水准比较之后下结论。
分析步骤 H0:当地孕产妇的总体平均死亡数与一般孕产妇的死亡数相等 H1:当地孕产妇的总体平均死亡数低于一般孕产妇的死亡数 单侧
正态近似法 例7.5 利用例7.3的结果,若全国新生儿出生缺陷发生率为89.62/万,研究该地新生儿出生缺陷发生率是否高于全国的水平,试作统计推断。 可利用正态近似的原理作以下计算进行u检验 H0:当地新生儿出生缺陷平均发生数与全国的平均发生数相等 H1:当地新生儿出生缺陷平均发生数高于全国的平均发生数 单侧
分析步骤
Poisson分布两样本均数的比较
方法原理 当两个样本计数均较大时,可根据Poisson分布近似正态分布的性质作u检验。当两样本计数中有一个较小或两个均较小时,可先作变量转换,然后再作适当的检验。本节仅介绍两个样本计数均较大时的u检验。根据两个样本观察单位是否相同,所采用的计算公式又分为两种。
方法原理 两样本观察单位相等 近似u检验的公式为: 显然,是由两样本的u检验公式直接化简而来 两样本观察单位不等
等样本分析实例 例7.6 为研究两水源被污染的情况是否相同,在每个水源各随机抽取10份水样,每份1 ml,作细菌培养。甲水源水样共得细菌菌落580个,乙水源水样共得菌落432个,试作统计推断。 都是按照10ml进行的计数,因此可以将其看成是一个观察单位 如果按1ml来计算,检验结果不变
不等样本分析实例 例7.7 为研究某省不同性别意外伤害死亡情况有无差异,已知2000年该省疾病监测数据中,男性292512人,女性283474人,因意外伤害死亡的人数分别为180人、60人,试作统计推断。 由于观察人数不同,因此需要考虑化成相同的观察单位大小,此处可根据喜好自行设定,例如按照每10万人口作为一个观察单位
不等样本分析实例 假设检验 H0:男女的平均意外伤害死亡人数相同 H1:男女的平均意外伤害死亡人数不同 =0.05 调整相同观察单位 P<0.001,拒绝H0,可以认为男性平均意外伤害死亡高于女性,差异有统计学意义。
Stata计算 Possion分布的总体均数95%可信区间 cii 观察单位数 观察到的发生数 ,poisson poistest 样本均数 已知总体均数
Thank You !