计数资料的统计推断 (2 学时) 吴成秋 公共卫生学院预防医学系 计数资料的统计推断 (2 学时) 吴成秋 公共卫生学院预防医学系
一、均数的抽样误差与标准误的概念 从N(,2)的总体中做随机抽样,每次抽样样本含量为n,样本均数为x,标准差为S . 如下: 1 n x1 s1 sx1 t1 2 n x2 s2 sx2 t2 3 n x3 s3 sx3 t3 4 n x4 s4 sx4 t4 … … … … … … 100 n x100 s100 sx100 t100 标准误用x表示,它是说明均数抽样误差的大小 可知:每一个样本均数与不一定相等,它们之差别是由抽样所造成的;另外,这100个样本均数大小也不尽相同,它们之间的变异程度可以用样本均数的标准差来表示,即标准误(为了与反映个体变异的标准差相区别)
二、率的抽样误差与标准误的概念 n P=(1-) 从总体率为的总体中做随机抽样,每次抽样样本含量为n,阳性例数为X,P=x/n, 如下: 1 n X1 p1 2 n X2 p2 3 n X3 P3 4 n X4 P4 … … … … 100 n X100 P100 率的标准误用P表示,它是说明率的抽样误差大小 P=(1-) 可知:每一个样本率p与不一定相等,它们之差别是由抽样所造成的;另外,这100个样本率p大小也不尽相同,它们之间的变异程度可以用样本率的标准差来表示,即标准误p n
n 标准误的计算 在实际工作中,由于是未知,由上式不能求出标准误,因此,用样本率p来估计的大小。 标准误(估计值) SP= P(1-P). n
例10-4:某研究组欲研究高中生饮酒(每周饮酒一次及以上)与父亲饮酒的关系,在某地随机抽取了1个街区家中有高中学生的父亲进行调查,258个父亲不饮酒,其子饮酒的有36人;365个父亲饮酒,其子饮酒的有129人,计算父亲饮酒与否的高中生饮酒率及其标准误。
n1=258, X1=36, P1=36/258=0.1395, 1-P1=0.8605 n2=365, X2=129, P2=129/365=0.3534, 1-P2=0. 6466 SP1=P1(1-P1) =0.1395(1-0.1395) =0.0216=2.16% SP2=P2(1-P2) =0.3534(1-0.3534) =0.025=2.50% n1 258 n2 365
三、总体率的估计 点估计(point estimation):估计总体率的具体数值大小,一般就用P代替的大小。该估计方法没有考虑抽样误差的大小,较少用。 例:某抽样得P=13.95%, =13.95%. 区间估计(interval estimation):指用P和SP按一定的概率估计总体率在哪一个范围,该区间包含总体率的概率为1-,称为总体率的1-可信区间。1-一般取0.95或0.99。
(一) 正态近似法 1.条件:要求资料服从正态分布: ①n>50, ②nP>5 和 n(1-P)>5 ③ P或(1-P)均不接近0或100% 2.估计方法 双侧:PuSP 单侧: <P+uSP 或>P-uSP
例10-4中父亲饮酒与否的高中生饮酒率的95%的可信区间。 父亲不饮酒组: PuSP=13.59%1.96×2.16%=9.7164%~18.1836% 父亲饮酒组: PuSP=35.34%1.96×2.50%=30.44%~40.24%
(二)查表法 当n较小,n≤50,特别是P或1-P接近0或1时,按二项分布原理估计总体率的可信区间。 可根据样本含量n和阳性例数 X查阅相应的可信区间估计用表。
四、率的假设检验 (一)、样本率与总体率的比较 1、直接法 :按二项分布的原理直接计算概率 一般适用于 (1)单侧性检验 (2)发生的阳性数或阴性数较少(资料不满足正态近似的条件)
累积概率的计算
2、正态近似法(u检验) 符合正态近似的条件,可用u检验
例10-5 根据大量调查资料,城镇25岁及以上者高血压患病率为11%。某研究组在某油田职工家属区随机抽查了25岁及以上者598人,82人确诊为高血压。问油田职工家属的高血压患病率与一般人有无不同?
0.11×0.89/598 解: 0=0.11, 1-0=0.89, n=598, x=82, p=82/598=0.14 H0: π=0 H1: π≠0 α=0.05 u = 0.14-0.11 =2.34 查u界值表,得P<0.05。按α=0.05水准,拒绝H0,接受H1,即该油田职工家属的高血压患病率高于一般。 0.11×0.89/598
Sp1-p2=Pc(1-Pc)(1/n1+1/n2) (二)两样本率的u比较 已知;P1 推导 : π1 P2 π2 如果 n1 , n2均较大,大于50;且 p1、1-p1及p2、1-p2均不太小;n1p1、n1(1-p1) 及 n2 p2 、n2(1-p2)均大于5。 可用u检验 u=p1-p2 Pc=X1+X2 Sp1-p2 n1+n2 Sp1-p2=Pc(1-Pc)(1/n1+1/n2)
例6-5为研究某职业人群颈椎病发病的性别差异,今随机抽查了该职业人群男性120人和女性110人,发现男性中有36人患有颈椎病,女性中有22人患有颈椎病。试作统计推断。
已知 P1 ≠ P2 推导 : π1 ≠ π2 H0: π1= π2 H1: π1≠ π2 α=0.05 本例n1=120, x1=36, p1=x1/n1=36/120=0.30 n2=110, x2=22, p2=x2/n2=22/110=0.20 u=(0.30-0.20)/0.0573=1.745 查u界值表得0.05<P<0.10。按α=0.05水准,不拒绝H0,尚不能认为该职业人群颈椎病的发病有性别差异。
例10-6 利用例10-4的资料,比较父亲饮酒与不饮酒组高中生饮酒率有无差别? 例10-6 利用例10-4的资料,比较父亲饮酒与不饮酒组高中生饮酒率有无差别? n1=258, X1=36, P1=36/258=0.1395, 1-P1=0.8605 n2=365, X2=129, P2=129/365=0.3534, 1-P2=0. 6466 Pc=X1+X2 = 36 + 129 =0.2648, 1-Pc =0.7352 n1+n2 258+365
H0: π1= π2 H1: π1≠ π2 α=0.05 Sp1-p2= Pc(1-Pc)(1/n1+1/n2) = 0.2648.07352.(1/258+1/365)=0.03589 u=(0.3534-0.1395)/0.03589=5.96 查u界值表得P<0.01。按α=0.05水准,拒绝H0,认为父亲饮酒率高,其子女饮酒率也高。