Presentation is loading. Please wait.

Presentation is loading. Please wait.

第九章 对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1.

Similar presentations


Presentation on theme: "第九章 对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1."— Presentation transcript:

1 第九章 对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1

2 §9.1 引言  对应分析( correspondence analysis )是用于寻找列联表的行 和列之间关联的一种低维图形表示法,它同时可以揭示同一 分类变量的各个类别之间的差异。  对应分析是由法国人 Benzecri 于 1970 年提出的,起初在法国 和日本最为流行,然后引入到美国。  在对应分析中,列联表的每一行对应(最常是二维)图中的 一点,每一列也对应同一图中的一点。该图形方法特别适用 于有许多类别的列联表,它能有效地用直观、简洁的图形来 描述庞杂的列联表数据中所蕴含的对应关系。  由于列联表中行变量和列变量的地位是对称的,所以对应分 析方法本身及其所得结论对于行和列也是对称的。 2

3 §9.2 行轮廓和列轮廓  一、列联表  二、对应矩阵  三、行、列轮廓 3

4 一、列联表 列 12 ⋯ q 合 计 行 1n 11 n 12 ⋯ n1qn1q n 1∙ 2n 21 n 22 ⋯ n2qn2q n 2∙ ⋮⋮⋮⋮⋮ pnp1np1 n p 2 ⋯ n pq np∙np∙ 合 计 n ∙1 n ∙2 ⋯ n∙qn∙q n 表 9.2.1 p × q 列联表 4

5 二、对应矩阵 这里, 。 显然有 。 列 12q 合 计 行 1p 11 p 12 p1qp1q p 1∙ 2p 21 p 22 p2qp2q p 2∙ ppp1pp1 p p 2 p pq pp∙pp∙ 合 计 p ∙1 p ∙2 p∙qp∙q 1 表 9.2.2 对应矩阵 5

6  称 为对应矩阵。将对应矩阵表中的 最后一列用 r 表示,即 其中 是元素均为 1 的 q 维向量,最后一行 用 表示,即 其中 是元素均为 1 的 p 维向量,向量 r 和 c 的元素有时称为行和列密度( masses )。 6

7 三、行、列轮廓  第 i 行轮廓( profile ) : 其各元素之和等于 1 ,即 。  第 j 列轮廓: 其各元素之和等于 1 ,即 。 7

8 行轮廓矩阵 其中 。 8

9 列轮廓矩阵 其中 。 9

10 可见, r 可以表示成各列轮廓的加权平均。类似地, 即 可以表示成各行轮廓的加权平均。 10

11  例 9.2.1 将由 n=1660 个人组成的样本按心理健康状 况与父母社会经济地位进行交叉分类,分类结果见 表 9.2.3 。 表 9.2.3 心理健康状况 - 父母社会经济状况数据 父母社会 经济地位 A (高) BCD E (低) 心理健康 状况 0 (好) 12157723621 1 (轻微症状形成) 1881051419771 2 (中等症状形成) 112657754 3 (受损) 8660947871 11

12  表 9.2.4 给出的行密度和列密度向量为 表 9.2.4 从表 9.2.3 算得的对应矩阵 父母社会 经济状况 A (高) BCD E (低)合 计 心理健康 状况 0 (好) 0.0730.0340.0430.0220.0130.185 1 (轻微症状形成) 0.1130.0630.0850.0580.0430.363 2 (中等症状形成) 0.0670.0390.0460.033 0.218 3 (受损) 0.0520.0360.0570.0470.0430.234 合 计 0.3050.1730.2310.1600.1311.000 12

13 行轮廓矩阵为 列轮廓矩阵为 13

14 两个马赛克图 对心理健康的每一种状况, A,B,C,D,E 五个小方块的宽度显 示了行轮廓, 0,1,2,3 四种心理健康状况的小方块高度显示了 行密度。 14

15 对父母社会经济的每一种地位, 0,1,2,3 四个小方块 的高度显示了列轮廓, A,B,C,D,E 五种父母社会经济 地位的小方块宽度显示了列密度。 15

16 §9.3 独立性的检验和总惯量  一、行、列独立的检验  二、总惯量 16

17 一、行、列独立的检验  在列联表中,检验行变量和列变量相互独立假设的 统计量为  当独立性的原假设为真,且样本容量 n 充分大,期望 频数 时,  拒绝规则为 若 ,则拒绝独立性的原假设 17

18  χ 2 值取决于 n 和 这两部分, 越大,表明实际频率 p ij 与独立假设下的期望频率 p i pj 总体上 差异越大,也就认为样本数据越是偏离行、列变量相互独立 的情形,从而越应拒绝独立性的原假设; n 越大,表明样本 所含的信息越多,越易检测出对原假设的偏离。  如果表 9.2.1 的列联表中有些单元格的频数很小或为零,上述 的 χ 2 近似就不会很令人满意,在这种情况下可借助于对应分 析将一些具有相近行轮廓(或列轮廓)的类别合并以增加单 元格的频数。 18

19 二、总惯量   总惯量可作为行、列变量之间关联性的度量。  例 9.3.1 例 9.2.1 中, χ 2 =45.594>21.026= 故拒绝心理健康状况与父母社会经济地位相互独立 的原假设( p=8.15×10 -6 )。 19

20  总惯量还可以行轮廓和列轮廓的形式表达如下: 其中 称为第 i 行轮廓 r i 到行轮廓中心 c 的卡方( χ 2 )距离,它可看作 是一个权数为的加权平方欧氏距离。 20

21  同样, 是第 j 列轮廓 c j 到列轮廓中心 r 的卡方距离。  故总惯量可看成是行轮廓到其中心的卡方距离的加 权平均,也可看成是列轮廓到其中心的卡方距离的 加权平均。它既度量了行轮廓之间的总变差,也度 量了列轮廓之间的总变差。  由此可见,行和列之间的关联性越强,行(列)轮 廓之间的差异性就越大;反之亦然。 21

22 总惯量为零的等价情形  总惯量为零与以下三种情形的任一种等价: (1) ,或表示 为 ; (2) 所有的行轮廓相等,即 ; (3) 所有的列轮廓相等,即 。  所以,如果行变量与列变量相互独立,则我们可以 期望(由样本数据构成的)列联表中所有的行有相 近的轮廓,所有的列亦有相近的轮廓。 22

23 总惯量的分解  对 P - rc′ 构造标准化矩阵 其元素为 记 k=rank(Z) ,有 k≤min(p - 1,q - 1) ,因为 23

24  对 Z 进行奇异值分解,得 其中 U=(u 1,u 2, ⋯,u k ),V=(v 1,v 2, ⋯,v k ), Λ=diag(λ 1,λ 2, ⋯, λ k ) ,这里 u 1,u 2, ⋯,u k 是一组 p 维正交单位向量, v 1,v 2, ⋯,v k 是一组 q 维正交单位向量,即有 U′U=V′V=I , λ 1,λ 2, ⋯,λ k 是 Z 的 k 个奇异值。于是, 是 ZZ′ 的正特征值。因此 24

25 §9.4 行、列轮廓的坐标  其中 上式常被称为广义奇异值分解。由于 U′U=V′V=I ,从而  显然, A 和 B 都是列满秩的,故 a 1,a 2, ⋯,a k 是一组线性无关的 p 维向量,而 b 1,b 2, ⋯,b k 是一组线性无关的 q 维向量。 25

26  将行轮廓矩阵 R 中心化(即每一行减去 ),得 其中  上式也可表达为 即中心化的第 i 行轮廓在由 b 1,b 2, ⋯,b k 构成的坐标系中 的坐标为 (x i1,x i2, ⋯,x ik ), i=1,2, ⋯,p 。  类似地,将列轮廓矩阵 C 中心化 ( 即每一列减去 r), 得 其中 26

27  上式亦可表达为 即中心化的第 j 列轮廓在由 a 1,a 2, ⋯,a k 构成的坐标系中 的坐标为 (y j1,y j2, ⋯,y jk ), j=1,2, ⋯,q 。  从而 27

28  即各行点在坐标轴 b i 上坐标的加权平均值为 0 , i=1,2, ⋯,k 。同 理可得 即各列点在坐标轴 a i 上坐标的加权平均值也为 0 , i=1,2, ⋯,k 。  由关系式 知 28

29 即有 于是  即各行点和列点在第 i 坐标轴上的坐标平方的加权平均都等于 ,称之为第 i 主惯量或第 i 惯量, i=1,2, ⋯,k 。主惯量度量 了在每一坐标轴上的变差,类似于主成分的方差。  总惯量可以分解为各主惯量之和,这类似于主成分分析中总 方差可分解为各主成分方差之和。  各行点和各列点在每一坐标轴上的中心都是 0 ,且变差程度 (即主惯量)相同。因此,我们作图时可方便地将行点和列 点置于同一个坐标系中,并使用同一坐标刻度。 29

30 §9.5 对应分析图  一、行、列轮廓的逼近  二、行(列)点之间的距离  三、行点和列点相近的意涵 30

31 一、行、列轮廓的逼近  P - rc′ 的降秩到 2 的最优逼近为 于是 其中 , B 1 =( b 1, b 2 ) 。 X 1 是由 X 的前 2 列 构成的,即 31

32 故 X 1 的第 i 行 (x i1, x i2 ) 是中心化的第 i 行轮廓 在由 b 1 和 b 2 构成的平面坐标系中的坐标, i=1,2, ⋯,p 。  类似地, 其中 。 Y 1 是由 Y 的前 2 列构成的,即 32

33 故 Y 1 的第 j 行 (y j1, y j2 ) 是中心化的第 j 列轮廓 c j −r 在由 a 1 和 a 2 构成的平面坐标系中的坐标, j=1,2, ⋯,q 。  将上述两个平面坐标系重叠在一个坐标系中, b 1 和 a 1 重叠在第一维坐标轴上,具有同一主惯量 ,其 对总惯量的贡献率为 。 b 2 和 a 2 重叠在第二维 坐标轴上,具有同一主惯量 ,其对总惯量的贡献 率为 。  前二维对总惯量的累计贡献率为 , 该值如很大,则说明所作的对应分析图几乎解释了 列联表数据的所有变差。 33

34 二、行(列)点之间的距离  在累计贡献率 足够大的对应分析图中,第 i 个 行点 (x i1, x i2 ) 与第 j 个行点 (x j1, x j2 ) 之间的平方欧氏距离  类似地,第 i 个列点 (y i1, y i2 ) 与第 j 个列点 (y j1, y j2 ) 之间的平方欧 氏距离 34

35  可见,如果两个行(列)点接近,则表明相应的两 个行(列)轮廓是类似的;反之,如果两个行(列 )点远离,则表明相应的两个行(列)轮廓是非常 不同的。  此外,对应分析图中行(列)点的方位是富有意义 的,而行点与列点之间的距离并没有意义。 35

36 三、行点和列点相近的意涵  如果对应分析图上第 i 个行点和第 j 个列点相近,即有  则在 足够大的条件下,近似地有  如果一个行点和一个列点相近,则表明行、列两个变量的相 应类别组合发生的频数一般会高于这两个变量相互独立情形 下的期望值,也就意味着该行类别与该列类别相关联。 36

37   分别是第 j 个行点和列点对总惯量的 贡献。可见,行(列)点离坐标原点越近(远),其对总惯 量的贡献就倾向于越小(大)。 表 9.5.1 行(或列)轮廓都相同的数据 列变量 ABCD 合计 行变量 110347455 21003407040550 3301022112165 合计 1404769856770 37

38  一般来说,对于相近的行点和列点,它们离原点越远,说明 关联倾向越明显。  例 9.5.1 在例 9.2.1 中,经计算,奇异值、主惯性以及贡献率 等的计算结果列于表 9.5.1 中。总惯量的 94.75% 可由第一维来 解释,前二维解释了高达 99.76% 的总惯量,几乎解释了列联 表数据的所有变差。 表 9.5.1 奇异值、主惯量以及贡献率 维数 123 奇异值 0.16130.03710.0082 总值 主惯量 0.02600.00140.00010.0275 贡献率 0.94750.05010.00241.0000 累计贡献率 0.94750.99761.0000 38

39 行点和列点的前二维坐标矩阵为 将各行点和列点置于同一坐标系中,构成对应分析 图,如下图所示。 39

40 图 9.5.1 心理健康状况 - 父母社会经济地位数据的对应分析图 40

41 表 9.5.2 行点和列点靠近的分类组合频数及行、列独立情形下的频数期望值 父母社会 经济地位 A (高) BCD E (低) 心理健康状况 0 (好) 121 ( 93.8 ) 57723621 1 (轻微症状形成) 188 105 ( 104.1 ) 141 ( 139.3 ) 9771 2 (中等症状形成) 112 65 ( 62.6 ) 7754 3 (受损) 86609478 ( 62.1 ) 71 ( 50.9 ) 41

42  例 9.5.2 表 9.5.4 中的数据来源于奶酪品尝的实验, 实验记录了九种不同响应和四种不同奶酪添加剂的 交叉频数。九种不同的响应是从最不喜欢到最喜欢 ,品尝者依次打分为 1,2, ⋯,9 ,四种不同的奶酪添加 剂分别为 A,B,C,D 。 42

43 编号奶酪添加剂响应频数编号奶酪添加剂响应频数 1A1019C11 2A2020C21 3A3121C36 4A4722C48 5A5823C5 6A6824C67 7A71925C75 8A8826C81 9A9127C90 10B1628D10 11B2929D20 12B3 30D30 13B41131D41 14B5732D53 15B6633D67 16B7134D714 17B8035D816 18B9036D911 表 9.5.4 奶酪品尝的实验数据 43

44 (1) 奶酪添加剂轮廓及密度 (2) 响应轮廓及密度 图 9.5.2 奶酪添加剂 - 响应数据的轮廓及密度 44

45 图 9.5.3 奇异值、主惯量、贡献率以及行、列点的坐标 45

46 图 9.5.4 奶酪添加剂 - 响应数据的对应分析图 46

47 图 9.5.5 奶酪添加剂 - 响应数据的三维对应分析图 47

48 响应 123456789 奶酪添加剂 A 0 0 1 7 8 8 (7) 19 (9.75) 8 1 B 6 (1.75) 9 (2.5) 12 (4.75) 11 7 6 1 0 0 C 1 1 6 8 (6.75) 23 (10.25) 7 5 1 0 D00013714 16 (6.25) 11 (3) 表 9.5.5 类别组合的实际频数及行、列独立情形下的期望频数 48


Download ppt "第九章 对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1."

Similar presentations


Ads by Google