第十七章 分类资料的统计推断
一、率的抽样误差 第一节 率的抽样误差与区间估计 第一节 率的抽样误差与区间估计 一、率的抽样误差 如同前面所讨论过的样本均数与总体均数存在着抽样误差一样,样本率与总体率同样存在着抽样误差。这个误差的大小我们用率的标准误来描述, 用 表示。 由于抽样引起的样本率之间及样本率与总体率之间的误差,称为率的抽样误差或率的标准误。
式中 为总体率, 为样本例数。
由于在实际中,总体率往往未知,我们常用样本率P来近似代替总体率,则上述公式变为:
例17-1 某研究者为了解某地儿童结核的自然感染情况,调查了500儿童,其中有20人感染了结核,结核的自然感染率为4% 例17-1 某研究者为了解某地儿童结核的自然感染情况,调查了500儿童,其中有20人感染了结核,结核的自然感染率为4%. 试估计该样本频率的抽样误差。 已知:p=4%,n=500,代入公式得到标准误估计值:
总体率的估计 点估计 区间估计 正态近似法 查表法
二、率的区间估计 (一)正态近似法 当n足够大,且np和n(1-p)均大于等于5时,P的分布接近正态分布。可用下列公式来求总体率的可信区间:
例17.1 中结核感染率95%的可信区间为
(二)查表法 当样本含量较小时,比如n≤50,特别是p接近0或1,需查表(百分率的可信区间表),得到总体率的可信区间。
第二节 率的u检验 一、样本率与总体率的比较
例17.2 某研究者用新的方法治疗脑梗死患者98人,治疗四周后其生活能力改善率为50%。一般情况下脑梗死患者四周后生活能力改善率为30%,问该疗法与一般情况相比其生活能力改善率是否有统计学差异? 分析: np和n(1-p)均大于等于5,可认为近似正态分布,可用u检验。
1、建立检验假设,确定检验水准 H0:π1=π2 H1:π1≠π2 α=0.05 2、计算统计量 3、确定P值,做出推断结论
二、 两样本率的比较
例17. 3 某研究者为了解乙肝携带率的城乡差异,调查了城乡居民1000人,其中城市522人,乙肝携带者24人,携带率为4 例17.3 某研究者为了解乙肝携带率的城乡差异,调查了城乡居民1000人,其中城市522人,乙肝携带者24人,携带率为4.6%,农村478人,乙肝携带者为33人,携带率为6.9%,试比较乙肝携带城乡差异有无统计学差异。
1、建立检验假设,确定检验水准 H0:π1=π2 H1:π1≠π2 α=0.05 2、计算检验统计量 3、确定P值,做出推断结论。
第三节 χ2检验 2检验(Chi-square test)是英国人K .Pearson(1857-1936)于1900年提出的一种具有广泛用途的统计方法检验。 用途: 1、两个及多个样本率或构成比的比较 2、两分类变量间的关联分析 3、频数分布的拟和优度检验
一 四格表资料的2检验 (一)2检验的基本思想 四格表资料的基本形式
例17-1 某研究者为探讨不同性别大学生的近视眼患病率是否相同。收集了资料见表17-2。问男女同学近视眼患病率有无差别? 例17-1 某研究者为探讨不同性别大学生的近视眼患病率是否相同。收集了资料见表17-2。问男女同学近视眼患病率有无差别? 表17-2 男女生近视眼患病率的比较 性别 近视人数 视力正常人数 合计 患病率% 男 88(104) 112(96) 200 44.0 女 120(104) 80(96) 60.0 208 192 400 52.0
实际频 数A 理论频 数T 性别 近视人数 视力正常人数 合计 患病率% 男 88(104)a 112(96)b 200 44.0 女 120(104)c 80(96)d 60.0 208 192 400 52.0 实际频 数A 理论频 数T
A:实际频数 T:理论频数即如果检验假设成立,应该观察到的例数。
2分布(chi-square distribution) 2分布是一种连续型分布,按分布的密度函数可给出不同自由度的一簇分布曲线。2分布的形状依赖于自由度的大小。 2017/2/27 21
P=0.05的临界值 3.84 7.81 12.59
(1) 建立检验假设,确定检验水准 H0 :1=2,… H1 :12,… =0.05 (二)2检验的步骤 (1) 建立检验假设,确定检验水准 H0 :1=2,… H1 :12,… =0.05
(2)计算检验统计量值
故P < 0.01,按=0.05的检验水准,拒绝H0,接受H1,差别有统计学意义,可认为女生的患病率高于男性。 查2界值表: 故P < 0.01,按=0.05的检验水准,拒绝H0,接受H1,差别有统计学意义,可认为女生的患病率高于男性。
二、四格表资料2检验的专用公式 组别 阳性 阴性 合计 A组 a b a+b B组 c d c+d a+c b+d a+b + c+d
为了不计算理论频数T, 可由基本公式推导出,直接由各格子的实际频数(a、b、c、d)计算卡方值的公式:
例1
三、四格表资料2检验的校正公式 2界值表是根据连续性的理论分布计算出来的,但分类变量资料属于非连续性分布,由此计算出的2值也是不连续的,仅是2分布的一种近似,尤其是自由度为1的四格表,当n与T较小时,所得的P值较小,须做连续性校正: n ≥ 40,且Tmin ≥ 5时,用2检验基本公式和专用公式 n≥ 40,但1≤Tmin<5时,用2检验校正公式 n<40,或Tmin<1时,或P≈α用四格表Fisher确切概率法
校正公式:
例17-5 某医师用甲乙两种方法治疗单纯性肥胖,结果见表17-3。试问两种方法的疗效有无统计学差异? 组别 有效 无效 合计 甲 例17-5 某医师用甲乙两种方法治疗单纯性肥胖,结果见表17-3。试问两种方法的疗效有无统计学差异? 表17-3 两种疗法对单纯性肥胖疗效的比较 组别 有效 无效 合计 甲 25(27.7) 7(4.3) 32 乙 27(24.3) 1(3.7) 28 52 8 60
例17-5 : H0 :1=2,… n=78,T22=28*8/60=3.7<5, 应计算校正值 (1) 建立检验假设,确定检验水准 H0 :1=2,… H1 :12,… =0.05 (2)求检验统计量值 (3) 确定P 值,作出推断结论 P>0.05…. 若未进行校正, 2= 4.33,则P<05.
例17-6 某研究者用甲乙两种试剂检验132份HBsAg阳性血清,结果见表17-5。问两种方法的检测结果有无差别? 二 配对四格表资料的2检验 例17-6 某研究者用甲乙两种试剂检验132份HBsAg阳性血清,结果见表17-5。问两种方法的检测结果有无差别?
表7-3 两种方法的检测结果 配对设 计资料 甲试剂 乙试剂 合计 + - 80(a) 10(b) 90 31(c) 11(d) 42 111 21 132 分类变量的配对设计资料特点:一组观察对象分别观察其两种分类变量的表现,归纳成双向交叉排列的统计表。
四个格子数a,b,c,d中a和d对χ2值影响较小,因此只通过对b和c有无差异来进行两法检出率的比较。
1.建立假设、确定检验水准α。 H0:B=C,即两种方法的总体检测结果相同 H1:B≠C,即两种方法的总体检测结果不相同 α=0.05 2.计算检验统计量。 由于b+c=41>40, 3.确定P值,下结论。 P<0.05,按=0.05检验水准,拒绝H0,接受H1,可以认为两种方法的检测结果不同,乙试剂检出率较高。
三 行列表资料2检验 多个样本率的比较时,有R行2列,称为R×2表; 两个样本的构成比比较时,有2行C列,称为2×C表; 三 行列表资料2检验 多个样本率的比较时,有R行2列,称为R×2表; 两个样本的构成比比较时,有2行C列,称为2×C表; 多个样本的构成比比较,以及双向无序分类资料关联性检验时,称为R×C表。
基本公式: 简化公式:
例17-7 某研究者用三种不同的治疗方案治疗慢性支气管炎,得到如下表的数据资料,试比较三种疗法的有效率有无差别?
3×2表 表17-6 三种疗法有效率的比较 疗法 有效 无效 合计 有效率(%) 西药 57 30 87 65.52 中药 24 20 44 54.55 中西医结合 130 150 86.67 481 70 281 75.09
H0 :三种治疗方案的有效率相等 H1 :三种治疗方案的有效率不等或不全相等 =0.05
2>20.005,2 ,得P < 0.005,按=0.05的检验水准,拒绝H0,接受H1,可认为三种疗法治疗的有效率不等 根据 =3,查2界值表 2>20.005,2 ,得P < 0.005,按=0.05的检验水准,拒绝H0,接受H1,可认为三种疗法治疗的有效率不等
四 行列表2检验注意事项 1、行列表资料2检验,一般不宜有1/5以上格子理论频数 小于5,或有一个格子的理论频数小于1。 四 行列表2检验注意事项 1、行列表资料2检验,一般不宜有1/5以上格子理论频数 小于5,或有一个格子的理论频数小于1。 对理论数太小有三种处理办法: A: 最好是增加样本例数以增大理论频数 B: 删除理论频数太小的行和列,或与性质相近邻行列合并 C: 改用双向无序RC表资料的Fisher确切概率法 B法可能会损失信息,损害样本的随机性,故不宜作常规方法
2、对于等级资料的统计处理,即当处理效应按强弱分为若干个级别,如:-、+、++、+++、++++等,由于效应是按顺序排列的,那么按试验结果整理为单向有序行列表,在比较各处理组的效应有无差别时,宜用下一讲的秩和检验。若作了2检验只说明各处理组的效应在构成比上有无差异。 3、当多个样本率或构成比比较时,如拒绝H0只能认为各总体率或总体构成比之间差别有统计学意义,不能说明彼此间都有差别,或某两者间有差别,若要进一步对每两个率/构成比进行比较,可用多个率的多重比较。
SPSS软件 谢谢