分类变量资料的统计推断
一、率的抽样误差与标准误 率的抽样误差:由于抽样而引起的样本率与总体率之间的差别 第一节 率的抽样误差和总体率的估计 一、率的抽样误差与标准误 率的抽样误差:由于抽样而引起的样本率与总体率之间的差别
例11.1:某地随机抽取了368名5岁儿童,检查得龋齿患病率为62.50%,试计算该地5岁儿童龋齿患病率的标准误
二、总体率的估计 点值估计: 区间估计: 1、查表法:n50 见有关参考书 2、正态近似法: n足够大,p和1-p均不太小,且np和n(1-p)均大于5时 p usp 例:11.2 P189
条件: n较大,p和1-p均不太小,且np和n(1-p)均大于5 第二节 率的u检验 条件: n较大,p和1-p均不太小,且np和n(1-p)均大于5
一、样本率与总体率的比较 例:11.3 P189
二、两样本率的比较 例:11.4 P190
用途: 两个及多个样本率或构成比的比较 两属性变量间的关联分析 频数分布的拟和优度检验 第三节 2检验 用途: 两个及多个样本率或构成比的比较 两属性变量间的关联分析 频数分布的拟和优度检验
例:为了解某中草药预防流感的效果,将410名观察者随机分为两组,观察结果如表11-1,问两组流感发病率是否有差别? 一、四格表资料的2检验 例:为了解某中草药预防流感的效果,将410名观察者随机分为两组,观察结果如表11-1,问两组流感发病率是否有差别?
表11-1 两组人群流感发病率的比较 分组 发病人数 未发病人数 合计 发病率(%) 服药组 40 190 230 17.39 对照组 50 130 180 27.78 90 320 410 21.95 (50.49) (179.51) (39.51) (140.49) 实际数 理论数
(一)2检验的基本思想 =(R-1)(C-1) 2分布:连续性分布 与自由度有关 2界值表:P196 附表11-1
(一)2检验的基本思想 首先假设H0成立,基于此前提计算出2值,它表示观察值与理论值之间的偏离程度。根据2分布,由统计量2及自由度可以确定在H0成立的条件下获得当前统计量及更极端情况的概率P。如果P值很小,说明观察值与理论值偏离程度太大,应当拒绝原假设,表示比较资料间的差异有统计学意义;否则就不能拒绝原假设,还不能认为 资料间有差异。
(二) 2检验的步骤 1、基本公式法: H0 : 1=2 H1 : 1 2 =0.05 T11= 50.49 T12=179.51 T21= 39.51 T22=140.49
=(2-1)(2-1)=1 根据 =1查2界值表,得0.01<P < 0.025,按=0.05的检验水准,拒绝H0,接受H1,可认为两组发病率差别有统计学意义,服药组流感发病率低与对照组
2、专用公式法 组别 阳性 阴性 合计 A组 a b a+b B组 c d c+d a+c b+d a+b + c+d
3、四格表资料2检验的校正 当n>40 但有1<T < 5时,用校正公式: 当n 40 或有T <1时,用四格表确切概率法计算
例11.6 : 隔离服种类 感染情况 合计 感染率( % ) 感染 未感染 甲 1(3.76) 10(7.24) 11 9.09 乙 表11-2 穿甲乙两种隔离服医生某传染病感染率比较 隔离服种类 感染情况 合计 感染率( % ) 感染 未感染 甲 1(3.76) 10(7.24) 11 9.09 乙 13(10.24) 17(19.76) 30 43.33 14 27 41 34.15
二、配对设计四格表资料的2检验 例11.7 某医师对55例类风湿关节炎患者,分别采用免疫比浊法(ITA)与乳胶凝集试验(LAT)法检测类风湿因子( RF ),结果见表11-3,问两种方法检测效果有无差别?
表11-3 两种方法检测RF结果比较 ITA LAT 合计 + - 31(a) 12(b) 43 1(c) 11(d) 12 32 23 55
计算公式 b+c<40时 =1
检验步骤 H0 :B=C H1 :BC =0.05 根据 =1查2界值表,得0.005<P < 0.01,按=0.05的检验水准,拒绝H0,接受H1,可认为两种方法检出率有差别,ITA检出阳性率高于LAT
三、行列表(R C表)资料2检验 (一)多个样本率或构成比比较 基本公式: 简化公式:
表11-4 不同季节呼吸道感染率比较 季节 感染人数 未感染人数 合计 感染率(%) 春 12 699 711 1.69 夏 666 678 1.77 秋 29 665 694 4.18 冬 35 717 752 4.65 88 2747 2835 3.10
H0 :四个季节呼吸道感染率相同 H1 :四个季节呼吸道感染率不同或不全相同 =0.05
根据 =3查2界值表,得P < 0. 005,按=0 根据 =3查2界值表,得P < 0.005,按=0.05的检验水准,拒绝H0,接受H1 ,可认为四个季节呼吸道感染率不同或不全相同
表11-5 两组儿童发生意外伤害的种类 分组 意外伤害类型 合计 跌伤 碰撞伤 锐器割刺伤 烧烫伤 其他 有行为问题 75 35 25 12 表11-5 两组儿童发生意外伤害的种类 分组 意外伤害类型 合计 跌伤 碰撞伤 锐器割刺伤 烧烫伤 其他 有行为问题 75 35 25 12 34 181 无行为问题 296 118 69 33 146 662 371 153 94 45 180 843
H0 :两组儿童意外伤害类型分布相同 H1 :两组儿童意外伤害类型分布不同或 不全相同 =0.05
根据 =3查2界值表,得P > 0.05,按=0.05的检验水准,不拒绝H0,还不能认为两组儿童意外伤害类型分布不同。
(二)行列表资料2检验的注意事项 1、行列表资料2检验,一般不宜有1/5以上格子理论频数小于5,或有一个格子的理论频数小于1 2、当多个样本率或构成比比较时,如拒绝H0只能认为各总体率或总体构成比之间差别有统计学意义,不能说明彼此间都有差别,或某两者间有差别
练习: 1.χ2分布的形状() 同正态分布 B.同t分布 C.与自由度ν有关 D.与样本含量n有关 2. χ2 的取值范围() (-∞,+∞) B. (0,+∞) C. (1,+∞) D. (-∞,1) .
3. 当四格表的周边合计不变时,如果某格的实际频数改变,则其理论频数() 随实际频数的改变而改变 B.不变 C.不确定 D. 变大.
4. 四格表的自由度() 不一定等于1 B.一定等于1 C.等于行数×列数 D.等于格子数减1 5 .对于总合计数为500的5个样本率作χ2检验,其自由度为 () A. 499 B. 496 C. 1 D. 4 E. 9
5. 5个样本率作比较,χ2 >χ20.01,4则在α=0.05的检验水准下,可认为() A.各总体率不全相等 B.各总体率均不等 C.各样本率均不等 D.各样本率不全等
SPSS的应用 例题11.5(P190)数据输入的格式: Group:分组变量 1-服药组 2-对照组 Disease:表示是否发病 1-发病 0-未发病 F:表示频数 group disease f 1 40 2 190 3 50 4 130
SPSS的应用 Data →weight cases → weight cases by: frequency variable:f →ok analyze →descriptive statistics→crosstabs…: row: group column:disease statistics →选择chi-square →continue → ok
作业:P512 计算分析题:1-8