Presentation is loading. Please wait.

Presentation is loading. Please wait.

医学统计学 主讲人:信息部 林雪君.

Similar presentations


Presentation on theme: "医学统计学 主讲人:信息部 林雪君."— Presentation transcript:

1 医学统计学 主讲人:信息部 林雪君

2 个人简介 2015年6月毕业于吉林大学流行病与卫生统计学专业, 硕士在读期间以第一作者发表2篇SCI,2篇中文核心期刊 文章。 联系方式:
电话 (613248) 邮箱

3 目 录 第一讲:医学统计学基本内容(一) 第二讲:医学统计学基本内容(二) 第三讲: t 检验及其spss操作
目 录 第一讲:医学统计学基本内容(一) 第二讲:医学统计学基本内容(二) 第三讲: t 检验及其spss操作 第四讲:方差分析及其spss操作 第五讲:卡方检验及其spss操作 第六讲:秩和检验及其spss操作 第七讲:logistic回归分析和生存分析的spss操作

4 χ2 检验及其spss操作 第一节 χ2 检验的基本思想 第二节 χ2 检验 一、独立样本2×2列联表资料的 χ2 检验
第一节 χ2 检验的基本思想 第二节 χ2 检验 一、独立样本2×2列联表资料的 χ2 检验 二、配对设计资料的 χ2 检验 三、独立样本R ×C列联表资料的 χ2 检验 第三节 χ2 检验的spss操作

5 第一节 χ2 检验的基本思想 χ2检验(chi-square test)是分类变量资料中最常用、用途较广的假设检验方法。它不但可以推断两个及多个总体率或总体构成比之间的差异,而且还可检验两种属性或两个变量之间有无关联性,以及频数分布的拟合优度检验等。

6 当两个样本率进行比较时,可以将两个率转化成四个绝对数,即每组中的实际发生数和未发生数,此四数构成了两行、两列的四格表(four-fold table)。形式见表9-1a。

7 通过下面例 9-1b(两个样本治愈率比较)介绍 χ2 检验的基本思想。
例9-1b 某研究者为探讨A、B两种治疗方法对某种疾病的疗效,收集的资料见表9-1b。问两种治疗方法的疗效是否有统计学差异。

8 π1=π2 π1≠π2 ? B疗法 A疗法 π1 π2 n1=100 p1=11.0% p2=28.2% n2=110

9 H0: π1 =π2 H1: π1 ≠π2 α= 0.05 可将H0看作π1 =π2 =两样本合并的治愈率pc=20.0%。若A疗法按此合并治愈率将得到下述治愈数: 此数称为理论频数(theoretical frequency),简称理论数,用T 表示。

10 其计算公式为: 式中Trc 为第r行第c列的理论数,nr为Trc所在行合计,nc为Trc所在列合计。

11 A疗法按上述理论数计算公式将得到下述治愈数:
同理,B疗法按此合并治愈率将得到下述治愈数:

12 A、B疗法若按合并治愈率得到未治愈数分别为:
从上可以看出,两样本率的差别就等价于实际数A与理论数T的差别。在H0下,英国统计学家 Pearson K构造了下述检验统计量:

13 基本公式: 此值称Pearson χ2值。此值是以理论数T为基数的实际数A与理论数T的相对误差,它反映了实际数A与理论数T的吻合程度(差别的程度)。 若H0成立,则实际数A与理论数T的差别不会很大,出现大的χ2值的概率P是很小的,若P≤α检验水准,就说明H0成立是一个小概率事件,因而拒绝H0;若P>α,则尚不能拒绝H0。

14 Pearson χ2值近似服从χ2分布。 χ2分布是一个连续型分布。χ2分布与自由度ν(=n-1)有关。统计学家制作了χ2分布曲线下面积分布表--χ2界值表。 χ2界值用χ2α(ν)表示, χ20.05(1)=3.84,表示在自由度ν=1的 χ2分布曲线下大于等于3.84的面积是0.05[即P(x≥3.84)=0.05]。直观含义参见图1.。 Pearson χ2值的自由度与格子数有关,其计算公式为:

15 图1. 自由度为1的 χ2分布曲线下面积为0.05的界值

16 例9-1b χ2检验的完整步骤如下: H0: π1 =π2 H1: π1 ≠π2 α= 0.05 ν=(行数-1)(列数-1)=(2-1)(2-1)=1,查χ2界值表,χ20.05(1)=3.84。今求得χ2=9.66>3.84,则P<0.05 ,按α=0.05水准拒绝H0,差异有统计学意义。可认为B种疗法的疗效高于A种疗法。

17 第二节 χ2检验 一、独立样本2×2列联表资料的 χ2 检验 二、配对设计资料的 χ2 检验 三、独立样本R ×C列联表资料的 χ2 检验

18 一、独立样本2×2列联表资料的 χ2 检验 ㈠ 四格表资料χ2检验的专用公式 使用条件:n≥40且每一格的T≥5

19 用四格表专用公式求例9-1b χ2值如下: 与四格表基本公式的结果相同。实际常用四格表专用公式求χ2值,因为此式不必求理论数即可求χ2值。

20 ㈡ 四格表资料χ2检验的连续性校正 由于χ2分布是一个连续型分布,而四格表中的资料为离散型数据,由此得到的χ2检验统计量的抽样分布也是离散型分布。为改善χ2统计量分布的连续性,需要对χ2值作连续性校正。 连续性校正的四格表基本公式为:

21 连续性校正的四格表专用公式为: 四格表χ2检验的条件为: ① 当n≥40且每一格的T≥5,不用校正。 ② 当n≥40且有一格的1≤T<5,需校正。 ③ 当n<40或有一格的T<1,不能用χ2检验, 需用Fisher精确概率法(Fisher’s exact test)。

22 判断四格表资料是否符合四格表χ2检验的某条件的简便方法为:
首先判断n是否≥40,若n≥40,接着求四格表中行合计数与列合计数均最小的那一格的理论数T,若T≥5,则用χ2检验;若1≤T<5,则用校正 χ2 检验;若T<1,则用Fisher精确概率法。若 n<40,则直接用Fisher精确概率法。

23 本例若按理论数计算公式求出所有理论数(见括号内数),
例9-2a 某医师用甲、乙两种药物治疗小儿单纯性消化不良症状,结果见下表9-3a。试问甲、乙两种药物的疗效是否有统计学差异。 本例若按理论数计算公式求出所有理论数(见括号内数), 发现有两个格子的理论数小于5且总例数大于40,需用校正χ2检验。

24 H0: π1 =π2 H1: π1 ≠π2 α= 0.05 或者

25 ν=1,查χ2界值表,χ20. 05(1)=3. 84。今求得χ2= 2. 75<3. 84,则P>0. 05,按α=0
ν=1,查χ2界值表,χ20.05(1)=3.84。今求得χ2= 2.75<3.84,则P>0.05,按α=0.05水准尚不能拒绝H0,差异无统计学意义。认为甲乙两种药物的疗效相同。 本例若不进行连续性校正,χ2值为: 则χ2=4.07>3.84,则P<0.05,按α=0.05水准拒绝H0,差异有统计学意义。与上述结论相反,不校正导致了假阳性错误。

26 二、配对设计分类变量资料的χ2检验 对于配对设计的分类资料,可把数据整理成如下表9-5a的形式,此表常称配对四格表。

27 从配对四格表中可以看出,a 是甲、乙两法均是阳性的频数,d 是甲、乙两法均是阴性的频数, b 是甲法阳性、乙法阴性的频数,c 是甲法阴性、乙法阳性的频数。
若比较甲、乙两法有无差别,只需推断b 和c 分别代表的总体的B 和C是否相等即可,其检验统计量的计算公式为: 适用条件:b +c≥40

28 配对2×2列联表χ2检验又称 McNemar检验。
当b +c<40时,应作连续性校正,见下式。 配对2×2列联表χ2检验又称 McNemar检验。 例9-3a 某研究者用甲、乙两种试剂检验132份HBsAg阳性血清,结果见下表9-4a。试问甲、乙两种试剂检验结果有无差别。

29 本例为分类资料配对设计的四格表,故可用配对
四格表χ2检验,又已知b +c=31+10=41>40,不需校正。

30 H0: π1 =π2 H1: π1 ≠π2 α= 0.05 ν=1,查χ2界值表,χ20.05(1)=3.84。今求得χ2= 10.76>3.84,则P<0.05,按α=0.05水准拒绝H0 ,差别有统计学意义。认为甲乙两种试剂的HBsAg检出率不同。

31 需要注意的是:当配对四格表中的a 格和d 格的数字都特别大,而b 格和c 格的数字都相对较小时,即使配对四格表χ2检验有统计学意义,其实际意义也不大。

32 三、行×列表资料的 χ2检验 当多个样本率或多组构成比进行比较时,可构成多行多列的表,称为行×列表,又称R×C表。
将理论数的公式代入 χ2检验的基本公式,化简得下式。 式中n 为总例数,A为每个格子的实际数,nR、nC分别为某格子实际数A对应的行合计数和列合计数。

33 例9-6a 某医院研究急性白血病患者与慢性白血病患者的血型构成情况,数据资料见下表9-8a。问急、慢性白血病患者的总体血型构成是否相同。

34 H0: 急性和慢性白血病患者的血型构成相同 H1: 急性和慢性白血病患者的血型构成不全同 α= 0.05 ν=(R-1)(C-1)=(2-1)(4-1)=3,查χ2界值表,χ20.05(3)=7.81。今求得χ2=1.84<7.81,则P>0.05 ,按α=0.05水准尚不拒绝H0。认为急、慢性白血病患者的总体血型构成相同。

35 例9-4a 某研究者用三种不同的治疗方案治疗慢性支气管炎,得到如下表9-6a的数据。试比较三种治疗方案的疗效有无统计学差异。
H0: 三种治疗方案的总体有效率相等 H1:三种治疗方案的总体有效率不相等或不全相等 α= 0.05

36 ν=(R-1)(C-1)=(3-1)(2-1)=2,查χ2界值表,χ20. 05(2)=5. 99。今求得χ2=24. 94>5
ν=(R-1)(C-1)=(3-1)(2-1)=2,查χ2界值表,χ20.05(2)=5.99。今求得χ2=24.94>5.99,则P <0.05 ,按α=0.05水准拒绝H0。认为三种方案治疗慢性支气管炎的疗效不相等或不全相等。 上述例9-4a和例9-6a的χ2检验的P值的大小是通过各自由样本求得的χ2值,再比较在α=0.05水准下χ2分布曲线下相应界值获得的,其直观表达参见图2.。

37 图2. 自由度为2、3的χ2分布曲线下面积为0.05的界值

38 行×列表χ2检验的适用条件为:不能有理论数T<1,或理论数1≤T<5的格子数不超过总格子数的1/5。
由于行×列表χ2检验没有校正公式,当条件不满足时有下列四种处理方法: 增大样本例数使理论数变大,这是最好方法; ② 删去理论数太小的行或列,这样可能损失信息; 将理论数太小的行或列与相近的邻行或邻列 合并,以此使理论数变大,需结合专业知识; 改用R×C表的Fisher确切概率法。

39 在进行多组频率的两两比较时,根据比较次数修正检验水准。如:3个处理组,共比较3次,每一次检验水准α’=0.05/3=0.0167。
R×C列联表的分割 对于多个率或多个频率分布比较的2检验,结论为拒绝H0时,仅表示多组之间有差别,即多组中至少有两组的有效概率是不同的,但并不是任何两组之间都有差别。若要明确哪两组之间不同,还需要作进一步的两两比较,需要分割R×C列联表,并对每两个率之间有无统计学意义作出结论。 在进行多组频率的两两比较时,根据比较次数修正检验水准。如:3个处理组,共比较3次,每一次检验水准α’=0.05/3=0.0167。

40 * Fisher确切概率法 前面讲过,当四格表中,n<40 或有T<1,则用Fisher确切概率法。
此方法不属于2检验范畴,但可作为四格表2检验应用上的补充。

41 确切概率计算法的基本思想是:在四格表边缘合计固定不变的条件下,利用公式直接计算表内四个格子数据的各种组合的概率,然后计算单侧或双侧累计概率,并与检验水准α比较, 作出是否拒绝H0的结论。
式中a、b、c、d为四格表中的四个频数,n为总例数。 例9-7a 将23名精神抑郁症患者随机分到两组,分别用两种药物治疗,结果见表9-9a,问两种药物的治疗效果是否不同。

42 本例为完全随机设计的四格表,已知n=23<40,需用确切概率法。
由于手工计算常常计算量很大,实际常用统计软件去计算。

43 对于四格表资料2检验,统计软件SPSS自动给出Fisher确切概率值。本例结果见下表。

44 独立样本2×2列联表资料的 χ2 检验 χ20.05(1)=3.84

45 配对设计分类变量资料的χ2检验 χ20.05(1)=3.84

46 不能有理论数T<1,或理论数1≤T<5的格子数不超过总格子数的1/5。
行×列表资料的 χ2 检验 不能有理论数T<1,或理论数1≤T<5的格子数不超过总格子数的1/5。

47 Fisher确切概率法 n<40 ; 有一格理论频数T<1; R×C列联表:理论数1≤T<5的格子数超过 总格子数的1/5; χ2 检验后所得概率P 接近检验水准 α。

48 第三节 χ2 检验的spss操作 一、四格表 χ2 检验 ㈠ 使用Crosstabs命令
SPSS主要通过Analyze → Descriptive Statistics  → Crosstabs…分析完成对某资料的四格表 χ2 检验。 ㈡ 例题及分析过程 下面通过对例8.3的四格表做 χ2 检验来讲述操作步骤及结果的判读。

49 1. 建立数据文件 2. 加权例数 若非原始数据而是整理好的频数表数据(即四格表),需要加权例数(Weight cases)。 Data → Weight cases … →打开Weight cases对话框,将频数变量f移入Weight cases by选项下的Frequency Variable:栏中, OK完成。 3. χ2 检验

50 Analyze → Descriptive Statistics  → Crosstabs…打开Crosstabs对话框,将处理方法变量(t)移入Row(s)列表栏里,将疗效变量(r)移入Column(s)列表栏里,点击 Statistics…按钮打开Crosstabs: Statistics对话框,选择Chi-Square选项, → Continue ,点击 Cells…Cros按钮打开stabs: Cell Display对话框,选择 Expected及 Row选项, → Continue → OK完成。 4. 结果判读 表中显示了四格表的实际频数(Count)、理论频数(Expected Count)、行百分数(% within 处理方法)等结果。

51

52 数据文件

53 修改Lable和Value

54 加权例数

55

56 χ2 检验

57

58

59 输出结果

60 输出结果 χ2 = 6.508, P=0.011 < 0.05 有0个(0%)格子的理论频数小于5。最小的理论频数等于7.70。

61 SPSS主要通过Analyze → Nonparametric Tests →
二、配对四格表 χ2 检验 ㈠ 使用2 Related Samples命令 SPSS主要通过Analyze → Nonparametric Tests → 2 Related Samples…分析完成对某资料的配对四格表 χ2 检验。配对四格表 χ2 检验又称McNemar检验。 ㈡ 例题及分析过程 下面通过对例8.6的配对四格表做 χ2 检验来讲述操作步骤及结果的判读。 1. 建立数据文件 2. 加权例数:具体操作步骤参见上例。 3. 配对 χ2 检验

62 Analyze → Nonparametric Tests  →2 Related Samples…打开Two-Related-Samples Tests对话框,选择A培养基变量(a)和B培养基变量(b)作为配对变量,调入右侧的Test Pair(s) List:栏里,在Test Type里选择 McNemar 选项, 去掉Wilcoxon选项,→ OK完成。 4.结果判读 表中显示了配对四格表的检验结果。P=0.021<0.05,差异有统计学意义。

63

64 数据文件

65 修改Lable和Value

66 χ2 检验

67

68 输出结果 P=0.021 < 0.05 注意:由于提供了精确概率,SPSS就 不提供McNemar检验χ2 统计量的值。

69 三、行×列表 χ2 检验 ㈠ 使用Crosstabs命令 ㈡ 例题及分析过程 1. 打开数据文件
SPSS通过Analyze → Descriptive Statistics  → Crosstabs…分析完成对某资料的行×列表 χ2 检验。 ㈡ 例题及分析过程 下面通过例8.2资料中地区与血型分布做 χ2 检验来讲述操作步骤及结果的判读。 1. 打开数据文件 2. 行×列表 χ2 检验

70 Analyze → Descriptive Statistics  → Crosstabs…打开Crosstabs对话框,将地区移入Row(s)列表栏里,将血型分布移入Column(s)列表栏里,点击 Statistics…按钮打开Crosstabs: Statistics对话框,选择 Chi-Square选项, → Continue → OK完成。 3.结果判读 输出结果显示了不同地区的血型分布形成的行×列表 (3 × 4表)的结果。 显示了此行×列表的检验结果。χ2= ,P<0.001,在α= 0.05水平上拒绝H0,差别有统计学意义,可以认为不同地区血型分布不同。

71 4. 两两分组 首先进入SPSS Data Editor窗口,点击Variable View名签进入变量定义窗口(Variable View),点击变量的Missing属性单元格,弹出Missing Values 对话框,选择Discrete missing values选项并在其中的格子中敲入3(即北美洲人组的分组标志值), → OK完成。 5. 两两比较 Analyze → Descriptive Statistics  → Crosstabs…打开Crosstabs对话框,将地区变量移入Row(s)列表栏里,将血型变量移入Column(s)列表栏里, 点击 Statistics…按钮打开Crosstabs: Statistics对话框,选择 Chi-Square选项, → Continue → OK完成。

72 6.结果判读 输出结果显示: χ2= ,P<0.017。说明亚洲和欧洲人的血型构成有统计学上的差异显著性(Significance)。 注意:此处的检验水准为校正后的值,即α=0.05/3= 0.017,3为两两比较的次数。 7. 其它两两比较 仿上述1. ~ 5.步,操作步骤略。

73

74 数据文件

75 修改Lable和Value

76 χ2 检验

77 输出结果 χ2 = , P < 0.001

78 两两分组

79 χ2 检验

80 两两比较(亚洲与欧洲)结果 P<0.001<0.017

81 两两分组

82 χ2 检验

83 两两比较(亚洲与北美洲)结果

84 可以登录辽宁省肿瘤医院数字图书馆网站: 查看以上课件!


Download ppt "医学统计学 主讲人:信息部 林雪君."

Similar presentations


Ads by Google