Presentation is loading. Please wait.

Presentation is loading. Please wait.

第九章 列联表 (定类变量-定类变量).

Similar presentations


Presentation on theme: "第九章 列联表 (定类变量-定类变量)."— Presentation transcript:

1 第九章 列联表 (定类变量-定类变量)

2 第一节 什么是列联表?

3 列联表(一个实际例子) 【例】某单位对闲暇时间进行了全面调查,根据不同年龄档和喜爱收看电视节目的类型进行了如下的统计分类 列联频次分布表(表10-2) P269 老年 中年 青年 合计 戏曲 20 10 2 32 歌舞 5 35 60 球赛 27 40 57 124 !常规:行y -希望检验的变量(问卷中问题的选项);列x -分类变量

4 列联表(一个实际例子) 合计 26 % 48 % (27) (40) (57) (124) 74% 25 % 4 % 19 % 50 %
【例】某单位对闲暇时间进行了全面调查,根据不同年龄档和喜爱收看电视节目的类型进行了如下的统计分类 列联概率分布表(表10-2) P269 老年 中年 青年 合计 戏曲 74% 25 % 4 % 26 % 歌舞 19 % 50 % 61 % 48 % 球赛 7 % 35 % (27) (40) (57) (124) !注意:一般是计算列百分比

5 什么是列联表? 两个定类变量进行交叉分类的频次分布表。 行变量的类别用 r 表示, ri 表示第 i 个类别
列变量的类别用 c 表示, cj 表示第 j 个类别 每种组合的观察频次用 nij 表示 表中列出了行变量和列变量的所有可能的组合,所以称为列联表 一个 r 行 c 列的列联表称为 r  c 列联表 P271: 表10-3

6 列联表的结构(2   列联表) 一个2   列联表 n11 n12 n11+ n12 n21 n22 n21+ n22
列( cj ) 合计 j =1 j =2 i =1 n11 n12 n11+ n12 i =2 n21 n22 n21+ n22 n11+ n21 n12+ n22 n 列(cj) 行 (ri)

7 列联表的结构(r  c 列联表) n11 n12 r1 n21 n22 r2 c1 c2 n r 行 c 列的列联表 列(cj)
合计 j =1 j = 2 i =1 n11 n12 r1 i = 2 n21 n22 r2 : c1 c2 n 列(cj) 行(ri) nij 表示第 i 行第 j 列的观察频数

8 列联表的分布

9 列联表的分布(概念要点) 联合分布 边缘分布 条件分布 联合频次分布表:当分布表中每一项表示的是频次nij时
联合概率分布表:当分布表中每一项表示的是概率pij时 边缘分布 y边缘分布:行观察值的合计数的分布 x边缘分布:列观察值的合计数的分布 条件分布 变量 X 条件下变量 Y 的分布,或在变量 Y 条件下变量 X 的分布(行百分比或者列百分比) 条件分布中的每一项都是以边缘分布的N1* 、 N2* 或 Nc*为分母,而联合分布中各项,则都是以N为分母。

10 联合频次分布(图示) 合计 32 60 27 40 57 124 观察频次 y边缘分布 x边缘分布 20 10 2 5 35 老年 中年
青年 合计 戏曲 20 10 2 32 歌舞 5 35 60 球赛 27 40 57 124 x边缘分布

11 联合概率分布(概念要点) 条件频数反映了数据的分布,但不适合进行对比 为在相同的基数上进行比较,可以计算相应的百分比,称为联合概率分布
x的条件概率:行的每一个观察频数除以相应的行合计数(nij / ri) y的条件概率:列的每一个观察频数除以相应的列合计数( nij / cj ) 总概率:每一个观察值除以观察值的总个数( nij / n )

12 联合概率分布(图示) 合计 32/124 60/124 27/124 40/124 57/124 1 概率 y边缘分布 x边缘分布
老年 中年 青年 合计 戏曲 20/124 10/124 2/124 32/124 歌舞 5/124 35/124 60/124 球赛 27/124 40/124 57/124 1 x边缘分布

13 一般只研究控制自变量x之后,因变量y的条件分布。
条件分布(图示) y边缘分布 关于y的条件分布 计算结果见表10-15(P275) 老年 中年 青年 合计 戏曲 20/27 10/40 2/57 32/124 歌舞 5/27 20/40 35/57 60/124 球赛 2/27 20/57 1 一般只研究控制自变量x之后,因变量y的条件分布。

14 列联表中变量的相互独立性

15 列联表中变量的相互独立性 合计 32/124 60/124 1 关于y的条件分布 y边缘分布 20/27 10/40 2/57 5/27
计算结果见表10-15(P275) 老年 中年 青年 合计 戏曲 20/27 10/40 2/57 32/124 歌舞 5/27 20/40 35/57 60/124 球赛 2/27 20/57 1 如果选择喜爱节目的比例,对于三代人都是一样的话,称作变量之间是相互独立的,必然存在变量的条件分布等于它的边缘分布。

16 列联表中变量的相互独立性 如果列联表中的变量相互独立的话(x与y没有关系),则边缘分布与联合分布则满足下面的公式: Pij =Pi* P*j
列百分比 行百分比

17 期望频次的分布

18 期望频次的分布(概念要点) 假定行变量和列变量是独立的
一个实际频数 nij 的期望频数 eij ,是总频数的个数 n 乘以该实际频数 nij 落入第 i 行 和第j列的概率,即

19 期望频次的分布(算例) 合计 32 60 27 40 57 124 期望频次 32×27/124 32×40/124 32×57/124
用表10-8计算 老年 中年 青年 合计 戏曲 32×27/124 32×40/124 32×57/124 32 歌舞 60×27/124 60×40/124 60×57/124 60 球赛 27 40 57 124

20 第二节 列联表的检验  检验

21 假设检验的步骤 提出原假设和备择假设 确定适当的检验统计量 规定显著性水平,查表得出拒绝域和临界值 计算检验统计量的值 作出统计判断: 将检验统计量的值与 水平的临界值进行比较,得出接受或拒绝原假设的结论:若样本统计量的值落入拒绝域,则拒绝原假设,接受备择假设;否则,接受H0

22 研究假设的确定 将列联表中变量之间无关系(或相互独立)作为检验的原假设 H0:Pij =Pi* P*j (行变量与列变量没有关系)

23  统计量 用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立。
 统计量 用于检验列联表中变量之间是否存在显著性差异,或者用于检验变量之间是否独立。 当n很大,每格eij都不太小时,服从自由度K=(r-1)(c-1) 的分布 计算公式:

24  检验的拒绝域   列联表的检验从内容上看是双边检验,从形式上看是右侧单边检验。 因为从假设上来看,它所检验的是两个变量是否存在关系
 检验的拒绝域 列联表的检验从内容上看是双边检验,从形式上看是右侧单边检验。 因为从假设上来看,它所检验的是两个变量是否存在关系 但从列联表  的统计公式来看,只有期望频次与实测频次间的差距越大,才能越否定原假设, 即  >     2 (r-1)(c-1) (r-1)(c-1)

25  检验 P285: 例2

26 使用 统计量检验列联表时, 需要注意的问题?
使用 统计量检验列联表时, 需要注意的问题? 对于2×2列联表,需要用修正的公式: 前面讲的二总体成数差的检验是列联表的 检验的特例。 使用 统计量检验列联表时, eij要保持在一定数目之上, 最好eij5,当出现小于5时,可将期望值偏小的格值合并。 列联表的检验是通过频次,而不是通过相对频次进行的。

27 第三节 列联表中的相关测量 列联强度

28 列联表中的相关测量  统计量检验只检验了列联表变量间是否存在关系,而没有测量关系的强度 列联表中的相关测量就是检验变量间关系的强度
 统计量检验只检验了列联表变量间是否存在关系,而没有测量关系的强度 列联表中的相关测量就是检验变量间关系的强度 列联表相关测量的指标主要有 以值为基础的相关测量  系数 C 系数 V 系数 以减少误差比例为基础的相关测量 系数

29 以值为基础的相关测量  系数 C系数 V 系数

30  系数 测度 22列联表中数据相关程度的一个量 对于22 列联表, 系数的值在0~1之间  系数计算公式为

31  系数(原理分析) a b a + b c d c + d a + c b + d n 一个简化的 22 列联表 因素 Y 因素 X
 系数(原理分析) 一个简化的 22 列联表 因素 Y 因素 X 合计 x1 x2 y1 a b a + b y2 c d c + d a + c b + d n

32  系数(原理分析) 列联表中每个单元格的期望频数分别为 将各期望频数代入  的计算公式得

33  系数(原理分析) 将入 系数的计算公式得
 系数(原理分析) 将入 系数的计算公式得 ad 等于 bc ,  = 0,表明变量X 与 Y 之间独立 若 b=0 ,c=0,或a=0 ,d=0,意味着各观察频数全部落在对角线上,此时|| =1,表明变量X 与 Y 之间完全相关 的实际取值为[-1,+1],但列联表中变量的位置可以互换,的符号没有实际意义,故取绝对值即可

34  系数的缺点 对于2×2列联表,的取值为[-1,+1]; 但当r×c表的格式增多后, 的值将增加,没 有上限。这样系数间就缺乏比较。
 系数的缺点 对于2×2列联表,的取值为[-1,+1]; 但当r×c表的格式增多后, 的值将增加,没 有上限。这样系数间就缺乏比较。 因此,对于r×c表将用C系数和V系数测量变量 之间的相关程度。

35 C系数 用于测度大于22列联表中数据的相关程度 计算公式为 C 的取值范围是 0C<1 C = 0表明列联表中的两个变量独立
不同行和列的列联表计算的列联系数不便于比较

36 V 系数 计算公式为 V 的取值范围是 0V1 V = 0表明列联表中的两个变量独立 V=1表明列联表中的两个变量完全相关
不同行和列的列联表计算的列联系数不便于比较 当列联表中有一维为2,min[(r-1),(c-1)]=1,此时V=

37 、C、V 系数的比较 同一个列联表,、C、V 的结果会不同 不同的列联表,、C、V 的结果也不同
在对不同列联表变量之间的相关程度进行比较时,不同列联表中的行与行、列与列的个数要相同,并且采用同一种系数

38 、C、V相关测量 (一个实例) 【例3】:P297

39 以减少误差比例为基础的相关测量 系数

40 减少误差比例 计算公式为 E1:不知道y与x有关系时,预测y的全部误差 (用边缘分布中的众数来预测)
E2:知道y与x有关系后,用x去预测y的全部误差 (用每一列的众数来预测) E1-E1:表示知道y与x有关系后,预测y所减少的误差 :表示所减少的相对误差 ; 其值越大,表示y与x的关系越密切 0 < PRE < 1 用PRE定义的相关程度可以适用于各种层次的变量。

41 系数 计算公式为 的取值范围:0   1 x与y无相关: =0 x与y全相关: =1 的非对称性: y ≠ x
用列联表中的众数来预测E1,预测误差为: 用每一列的众数来预测E2,预测误差为: 的取值范围:0   1 x与y无相关: =0 x与y全相关: =1 的非对称性: y ≠ x

42 系数的意义 表示用x去预测y,可以减少百分之多少的预测误差 =0.30,表示用x去预测y,可以减少30%的预测误差

43 系数 计算公式为 的取值范围:0   1 x与y无相关: =0 x与y全相关: =1 的非对称性: y ≠ x
的取值范围:0   1 x与y无相关: =0 x与y全相关: =1 的非对称性: y ≠ x

44 系数 计算举例: 课后习题一 P306


Download ppt "第九章 列联表 (定类变量-定类变量)."

Similar presentations


Ads by Google