第九章对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1.

第九章对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1

§9.1 引言  对应分析（ correspondence analysis ）是用于寻找列联表的行和列之间关联的一种低维图形表示法，它同时可以揭示同一分类变量的各个类别之间的差异。  对应分析是由法国人 Benzecri 于 1970 年提出的，起初在法国和日本最为流行，然后引入到美国。  在对应分析中，列联表的每一行对应（最常是二维）图中的一点，每一列也对应同一图中的一点。该图形方法特别适用于有许多类别的列联表，它能有效地用直观、简洁的图形来描述庞杂的列联表数据中所蕴含的对应关系。  由于列联表中行变量和列变量的地位是对称的，所以对应分析方法本身及其所得结论对于行和列也是对称的。 2

§9.2 行轮廓和列轮廓  一、列联表  二、对应矩阵  三、行、列轮廓 3

一、列联表列 12 ⋯ q 合计行 1n 11 n 12 ⋯ n1qn1q n 1∙ 2n 21 n 22 ⋯ n2qn2q n 2∙ ⋮⋮⋮⋮⋮ pnp1np1 n p 2 ⋯ n pq np∙np∙ 合计 n ∙1 n ∙2 ⋯ n∙qn∙q n 表 9.2.1 p × q 列联表 4

二、对应矩阵这里，。显然有。列 12q 合计行 1p 11 p 12 p1qp1q p 1∙ 2p 21 p 22 p2qp2q p 2∙ ppp1pp1 p p 2 p pq pp∙pp∙ 合计 p ∙1 p ∙2 p∙qp∙q 1 表 9.2.2 对应矩阵 5

 称为对应矩阵。将对应矩阵表中的最后一列用 r 表示，即其中是元素均为 1 的 q 维向量，最后一行用表示，即其中是元素均为 1 的 p 维向量，向量 r 和 c 的元素有时称为行和列密度（ masses ）。 6

三、行、列轮廓  第 i 行轮廓（ profile ）：其各元素之和等于 1 ，即。  第 j 列轮廓：其各元素之和等于 1 ，即。 7

行轮廓矩阵其中。 8

列轮廓矩阵其中。 9

可见， r 可以表示成各列轮廓的加权平均。类似地，即可以表示成各行轮廓的加权平均。 10

 例 9.2.1 将由 n=1660 个人组成的样本按心理健康状况与父母社会经济地位进行交叉分类，分类结果见表 9.2.3 。表 9.2.3 心理健康状况 - 父母社会经济状况数据父母社会经济地位 A （高） BCD E （低）心理健康状况 0 （好） 12157723621 1 （轻微症状形成） 1881051419771 2 （中等症状形成） 112657754 3 （受损） 8660947871 11

 表 9.2.4 给出的行密度和列密度向量为表 9.2.4 从表 9.2.3 算得的对应矩阵父母社会经济状况 A （高） BCD E （低）合计心理健康状况 0 （好） 0.0730.0340.0430.0220.0130.185 1 （轻微症状形成） 0.1130.0630.0850.0580.0430.363 2 （中等症状形成） 0.0670.0390.0460.033 0.218 3 （受损） 0.0520.0360.0570.0470.0430.234 合计 0.3050.1730.2310.1600.1311.000 12

行轮廓矩阵为列轮廓矩阵为 13

两个马赛克图对心理健康的每一种状况， A,B,C,D,E 五个小方块的宽度显示了行轮廓， 0,1,2,3 四种心理健康状况的小方块高度显示了行密度。 14

对父母社会经济的每一种地位， 0,1,2,3 四个小方块的高度显示了列轮廓， A,B,C,D,E 五种父母社会经济地位的小方块宽度显示了列密度。 15

§9.3 独立性的检验和总惯量  一、行、列独立的检验  二、总惯量 16

一、行、列独立的检验  在列联表中，检验行变量和列变量相互独立假设的统计量为  当独立性的原假设为真，且样本容量 n 充分大，期望频数时，  拒绝规则为若，则拒绝独立性的原假设 17

 χ 2 值取决于 n 和这两部分，越大，表明实际频率 p ij 与独立假设下的期望频率 p i pj 总体上差异越大，也就认为样本数据越是偏离行、列变量相互独立的情形，从而越应拒绝独立性的原假设； n 越大，表明样本所含的信息越多，越易检测出对原假设的偏离。  如果表 9.2.1 的列联表中有些单元格的频数很小或为零，上述的 χ 2 近似就不会很令人满意，在这种情况下可借助于对应分析将一些具有相近行轮廓（或列轮廓）的类别合并以增加单元格的频数。 18

二、总惯量   总惯量可作为行、列变量之间关联性的度量。  例 9.3.1 例 9.2.1 中， χ 2 =45.594>21.026= 故拒绝心理健康状况与父母社会经济地位相互独立的原假设（ p=8.15×10 -6 ）。 19

 总惯量还可以行轮廓和列轮廓的形式表达如下：其中称为第 i 行轮廓 r i 到行轮廓中心 c 的卡方（ χ 2 ）距离，它可看作是一个权数为的加权平方欧氏距离。 20

 同样，是第 j 列轮廓 c j 到列轮廓中心 r 的卡方距离。  故总惯量可看成是行轮廓到其中心的卡方距离的加权平均，也可看成是列轮廓到其中心的卡方距离的加权平均。它既度量了行轮廓之间的总变差，也度量了列轮廓之间的总变差。  由此可见，行和列之间的关联性越强，行（列）轮廓之间的差异性就越大；反之亦然。 21

总惯量为零的等价情形  总惯量为零与以下三种情形的任一种等价： (1) ，或表示为； (2) 所有的行轮廓相等，即； (3) 所有的列轮廓相等，即。  所以，如果行变量与列变量相互独立，则我们可以期望（由样本数据构成的）列联表中所有的行有相近的轮廓，所有的列亦有相近的轮廓。 22

总惯量的分解  对 P - rc′ 构造标准化矩阵其元素为记 k=rank(Z) ，有 k≤min(p - 1,q - 1) ，因为 23

 对 Z 进行奇异值分解，得其中 U=(u 1,u 2, ⋯,u k ),V=(v 1,v 2, ⋯,v k ), Λ=diag(λ 1,λ 2, ⋯, λ k ) ，这里 u 1,u 2, ⋯,u k 是一组 p 维正交单位向量， v 1,v 2, ⋯,v k 是一组 q 维正交单位向量，即有 U′U=V′V=I ， λ 1,λ 2, ⋯,λ k 是 Z 的 k 个奇异值。于是，是 ZZ′ 的正特征值。因此 24

§9.4 行、列轮廓的坐标  其中上式常被称为广义奇异值分解。由于 U′U=V′V=I ，从而  显然， A 和 B 都是列满秩的，故 a 1,a 2, ⋯,a k 是一组线性无关的 p 维向量，而 b 1,b 2, ⋯,b k 是一组线性无关的 q 维向量。 25

 将行轮廓矩阵 R 中心化（即每一行减去），得其中  上式也可表达为即中心化的第 i 行轮廓在由 b 1,b 2, ⋯,b k 构成的坐标系中的坐标为 (x i1,x i2, ⋯,x ik ), i=1,2, ⋯,p 。  类似地，将列轮廓矩阵 C 中心化 ( 即每一列减去 r), 得其中 26

 上式亦可表达为即中心化的第 j 列轮廓在由 a 1,a 2, ⋯,a k 构成的坐标系中的坐标为 (y j1,y j2, ⋯,y jk ), j=1,2, ⋯,q 。  从而 27

 即各行点在坐标轴 b i 上坐标的加权平均值为 0 ， i=1,2, ⋯,k 。同理可得即各列点在坐标轴 a i 上坐标的加权平均值也为 0 ， i=1,2, ⋯,k 。  由关系式知 28

即有于是  即各行点和列点在第 i 坐标轴上的坐标平方的加权平均都等于，称之为第 i 主惯量或第 i 惯量， i=1,2, ⋯,k 。主惯量度量了在每一坐标轴上的变差，类似于主成分的方差。  总惯量可以分解为各主惯量之和，这类似于主成分分析中总方差可分解为各主成分方差之和。  各行点和各列点在每一坐标轴上的中心都是 0 ，且变差程度（即主惯量）相同。因此，我们作图时可方便地将行点和列点置于同一个坐标系中，并使用同一坐标刻度。 29

§9.5 对应分析图  一、行、列轮廓的逼近  二、行（列）点之间的距离  三、行点和列点相近的意涵 30

一、行、列轮廓的逼近  P - rc′ 的降秩到 2 的最优逼近为于是其中， B 1 =( b 1, b 2 ) 。 X 1 是由 X 的前 2 列构成的，即 31

故 X 1 的第 i 行 (x i1, x i2 ) 是中心化的第 i 行轮廓在由 b 1 和 b 2 构成的平面坐标系中的坐标， i=1,2, ⋯,p 。  类似地，其中。 Y 1 是由 Y 的前 2 列构成的，即 32

故 Y 1 的第 j 行 (y j1, y j2 ) 是中心化的第 j 列轮廓 c j −r 在由 a 1 和 a 2 构成的平面坐标系中的坐标， j=1,2, ⋯,q 。  将上述两个平面坐标系重叠在一个坐标系中， b 1 和 a 1 重叠在第一维坐标轴上，具有同一主惯量，其对总惯量的贡献率为。 b 2 和 a 2 重叠在第二维坐标轴上，具有同一主惯量，其对总惯量的贡献率为。  前二维对总惯量的累计贡献率为，该值如很大，则说明所作的对应分析图几乎解释了列联表数据的所有变差。 33

二、行（列）点之间的距离  在累计贡献率足够大的对应分析图中，第 i 个行点 (x i1, x i2 ) 与第 j 个行点 (x j1, x j2 ) 之间的平方欧氏距离  类似地，第 i 个列点 (y i1, y i2 ) 与第 j 个列点 (y j1, y j2 ) 之间的平方欧氏距离 34

 可见，如果两个行（列）点接近，则表明相应的两个行（列）轮廓是类似的；反之，如果两个行（列）点远离，则表明相应的两个行（列）轮廓是非常不同的。  此外，对应分析图中行（列）点的方位是富有意义的，而行点与列点之间的距离并没有意义。 35

三、行点和列点相近的意涵  如果对应分析图上第 i 个行点和第 j 个列点相近，即有  则在足够大的条件下，近似地有  如果一个行点和一个列点相近，则表明行、列两个变量的相应类别组合发生的频数一般会高于这两个变量相互独立情形下的期望值，也就意味着该行类别与该列类别相关联。 36

  分别是第 j 个行点和列点对总惯量的贡献。可见，行（列）点离坐标原点越近（远），其对总惯量的贡献就倾向于越小（大）。表 9.5.1 行（或列）轮廓都相同的数据列变量 ABCD 合计行变量 110347455 21003407040550 3301022112165 合计 1404769856770 37

 一般来说，对于相近的行点和列点，它们离原点越远，说明关联倾向越明显。  例 9.5.1 在例 9.2.1 中，经计算，奇异值、主惯性以及贡献率等的计算结果列于表 9.5.1 中。总惯量的 94.75% 可由第一维来解释，前二维解释了高达 99.76% 的总惯量，几乎解释了列联表数据的所有变差。表 9.5.1 奇异值、主惯量以及贡献率维数 123 奇异值 0.16130.03710.0082 总值主惯量 0.02600.00140.00010.0275 贡献率 0.94750.05010.00241.0000 累计贡献率 0.94750.99761.0000 38

行点和列点的前二维坐标矩阵为将各行点和列点置于同一坐标系中，构成对应分析图，如下图所示。 39

图 9.5.1 心理健康状况 - 父母社会经济地位数据的对应分析图 40

表 9.5.2 行点和列点靠近的分类组合频数及行、列独立情形下的频数期望值父母社会经济地位 A （高） BCD E （低）心理健康状况 0 （好） 121 （ 93.8 ） 57723621 1 （轻微症状形成） 188 105 （ 104.1 ） 141 （ 139.3 ） 9771 2 （中等症状形成） 112 65 （ 62.6 ） 7754 3 （受损） 86609478 （ 62.1 ） 71 （ 50.9 ） 41

 例 9.5.2 表 9.5.4 中的数据来源于奶酪品尝的实验，实验记录了九种不同响应和四种不同奶酪添加剂的交叉频数。九种不同的响应是从最不喜欢到最喜欢，品尝者依次打分为 1,2, ⋯,9 ，四种不同的奶酪添加剂分别为 A,B,C,D 。 42

编号奶酪添加剂响应频数编号奶酪添加剂响应频数 1A1019C11 2A2020C21 3A3121C36 4A4722C48 5A5823C5 6A6824C67 7A71925C75 8A8826C81 9A9127C90 10B1628D10 11B2929D20 12B3 30D30 13B41131D41 14B5732D53 15B6633D67 16B7134D714 17B8035D816 18B9036D911 表 9.5.4 奶酪品尝的实验数据 43

(1) 奶酪添加剂轮廓及密度 (2) 响应轮廓及密度图 9.5.2 奶酪添加剂 - 响应数据的轮廓及密度 44

图 9.5.3 奇异值、主惯量、贡献率以及行、列点的坐标 45

图 9.5.4 奶酪添加剂 - 响应数据的对应分析图 46

图 9.5.5 奶酪添加剂 - 响应数据的三维对应分析图 47

响应 123456789 奶酪添加剂 A 0 0 1 7 8 8 (7) 19 (9.75) 8 1 B 6 (1.75) 9 (2.5) 12 (4.75) 11 7 6 1 0 0 C 1 1 6 8 (6.75) 23 (10.25) 7 5 1 0 D00013714 16 (6.25) 11 (3) 表 9.5.5 类别组合的实际频数及行、列独立情形下的期望频数 48

第九章对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1.

Similar presentations

Presentation on theme: "第九章对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第九章 对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1.

Similar presentations

Presentation on theme: "第九章 对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1."— Presentation transcript:

Similar presentations

About project

反馈

第九章对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1.

Presentation on theme: "第九章对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1."— Presentation transcript: