第九章 对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1.

Slides:



Advertisements
Similar presentations
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
Advertisements

2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
§3.4 空间直线的方程.
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
3.4 空间直线的方程.
第一部分 微专题强化练.
欧洲西部 要点·疑点·考点 欧洲西部 1. 自然环境 位置:欧洲西半部,北临北冰洋,西临大西洋,南临地中海
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
§1 二阶与三阶行列式 ★二元线性方程组与二阶行列式 ★三阶行列式
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
会计从业资格 主讲:栗银芳.
第三章 函数逼近 — 最佳平方逼近.
碘缺乏病.
<<广东省中小学生体能素质评价标准>>
第一章 行列式 第五节 Cramer定理 设含有n 个未知量的n个方程构成的线性方程组为 (Ⅰ) 由未知数的系数组成的n阶行列式
US Dollar Index 聚金财富金融研究中心 研究员:罗晨.
发展心理学 王 荣 山.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
主要内容 § 3.1 多维随机变量及联合分布 联合分布函里数 联合分布律 联合概率密度 § 3.2 二维随机变量的边缘分布
欢迎来到我们的课堂!.
探索三角形相似的条件(2).
初中数学八年级下册 (苏科版) 10.4 探索三角形 相似的条件(2).
第七章 财务报告 主讲老师:王琼 上周知识回顾.
经济法基础习题课 第7讲 主讲老师:赵钢.
元素替换法 ——行列式按行(列)展开(推论)
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
数学模型实验课(三) 插值与三维图形.
第十章 方差分析.
本节内容 平行线的性质 4.3.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
线性代数 第二章 矩阵 §1 矩阵的定义 定义:m×n个数排成的数表 3) 零矩阵: 4) n阶方阵:An=[aij]n×n
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
VB与Access数据库的连接.
3.3 垂径定理 第2课时 垂径定理的逆定理.
复习.
例7.1 (主成分分析) xi :5支股票的周回报率 x1 :JP Morgan x2 :Citibank x3 :Wells Fargo
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
复习: 若A(x1,y1,z1) , B(x2,y2,z2), 则 AB = OB - OA=(x2-x1 , y2-y1 , z2-z1)
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
§8.3 不变因子 一、行列式因子 二、不变因子.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.1.2 空间向量的数量积运算 1.了解空间向量夹角的概念及表示方法. 2.掌握空间向量数量积的计算方法及应用.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
1.2 子集、补集、全集习题课.
4) 若A可逆,则 也可逆, 证明: 所以.
§ 正方形练习⑵ 正方形 本资料来自于资源最齐全的21世纪教育网
O x y i j O x y i j a A(x, y) y x 5.4 平面向量的坐标运算 5.4 平面向量的坐标运算 5.4 平面向量的坐标运算 5.4 平面向量的坐标运算 5.4 平面向量的坐标运算 5.4 平面向量的坐标运算 5.4 平面向量的坐标运算.
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
线 性 代 数 厦门大学线性代数教学组 2019年5月12日4时19分 / 45.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
在发明中学习 线性代数概念引入 之四: 矩阵运算 李尚志 中国科学技术大学.
定义5 把矩阵 A 的行换成同序数的列得到的矩阵,
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
3.2 平面向量基本定理.
序偶及直角坐標系統.
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
位似.
平面的基本性质 江苏省泰州中学 数学组 姜莹. 平面的基本性质 江苏省泰州中学 数学组 姜莹.
§4.5 最大公因式的矩阵求法( Ⅱ ).
第三章 线性方程组 §4 n维向量及其线性相关性(续7)
一元一次方程的解法(-).
第三章 图形的平移与旋转.
3.3.2 两点间的距离 山东省临沂第一中学.
Presentation transcript:

第九章 对应分析  §9.1 引言  §9.2 行轮廓和列轮廓  §9.3 独立性的检验和总惯量  §9.4 行、列轮廓的坐标  §9.5 对应分析图 1

§9.1 引言  对应分析( correspondence analysis )是用于寻找列联表的行 和列之间关联的一种低维图形表示法,它同时可以揭示同一 分类变量的各个类别之间的差异。  对应分析是由法国人 Benzecri 于 1970 年提出的,起初在法国 和日本最为流行,然后引入到美国。  在对应分析中,列联表的每一行对应(最常是二维)图中的 一点,每一列也对应同一图中的一点。该图形方法特别适用 于有许多类别的列联表,它能有效地用直观、简洁的图形来 描述庞杂的列联表数据中所蕴含的对应关系。  由于列联表中行变量和列变量的地位是对称的,所以对应分 析方法本身及其所得结论对于行和列也是对称的。 2

§9.2 行轮廓和列轮廓  一、列联表  二、对应矩阵  三、行、列轮廓 3

一、列联表 列 12 ⋯ q 合 计 行 1n 11 n 12 ⋯ n1qn1q n 1∙ 2n 21 n 22 ⋯ n2qn2q n 2∙ ⋮⋮⋮⋮⋮ pnp1np1 n p 2 ⋯ n pq np∙np∙ 合 计 n ∙1 n ∙2 ⋯ n∙qn∙q n 表 p × q 列联表 4

二、对应矩阵 这里, 。 显然有 。 列 12q 合 计 行 1p 11 p 12 p1qp1q p 1∙ 2p 21 p 22 p2qp2q p 2∙ ppp1pp1 p p 2 p pq pp∙pp∙ 合 计 p ∙1 p ∙2 p∙qp∙q 1 表 对应矩阵 5

 称 为对应矩阵。将对应矩阵表中的 最后一列用 r 表示,即 其中 是元素均为 1 的 q 维向量,最后一行 用 表示,即 其中 是元素均为 1 的 p 维向量,向量 r 和 c 的元素有时称为行和列密度( masses )。 6

三、行、列轮廓  第 i 行轮廓( profile ) : 其各元素之和等于 1 ,即 。  第 j 列轮廓: 其各元素之和等于 1 ,即 。 7

行轮廓矩阵 其中 。 8

列轮廓矩阵 其中 。 9

可见, r 可以表示成各列轮廓的加权平均。类似地, 即 可以表示成各行轮廓的加权平均。 10

 例 将由 n=1660 个人组成的样本按心理健康状 况与父母社会经济地位进行交叉分类,分类结果见 表 。 表 心理健康状况 - 父母社会经济状况数据 父母社会 经济地位 A (高) BCD E (低) 心理健康 状况 0 (好) (轻微症状形成) (中等症状形成) (受损)

 表 给出的行密度和列密度向量为 表 从表 算得的对应矩阵 父母社会 经济状况 A (高) BCD E (低)合 计 心理健康 状况 0 (好) (轻微症状形成) (中等症状形成) (受损) 合 计

行轮廓矩阵为 列轮廓矩阵为 13

两个马赛克图 对心理健康的每一种状况, A,B,C,D,E 五个小方块的宽度显 示了行轮廓, 0,1,2,3 四种心理健康状况的小方块高度显示了 行密度。 14

对父母社会经济的每一种地位, 0,1,2,3 四个小方块 的高度显示了列轮廓, A,B,C,D,E 五种父母社会经济 地位的小方块宽度显示了列密度。 15

§9.3 独立性的检验和总惯量  一、行、列独立的检验  二、总惯量 16

一、行、列独立的检验  在列联表中,检验行变量和列变量相互独立假设的 统计量为  当独立性的原假设为真,且样本容量 n 充分大,期望 频数 时,  拒绝规则为 若 ,则拒绝独立性的原假设 17

 χ 2 值取决于 n 和 这两部分, 越大,表明实际频率 p ij 与独立假设下的期望频率 p i pj 总体上 差异越大,也就认为样本数据越是偏离行、列变量相互独立 的情形,从而越应拒绝独立性的原假设; n 越大,表明样本 所含的信息越多,越易检测出对原假设的偏离。  如果表 的列联表中有些单元格的频数很小或为零,上述 的 χ 2 近似就不会很令人满意,在这种情况下可借助于对应分 析将一些具有相近行轮廓(或列轮廓)的类别合并以增加单 元格的频数。 18

二、总惯量   总惯量可作为行、列变量之间关联性的度量。  例 例 中, χ 2 =45.594>21.026= 故拒绝心理健康状况与父母社会经济地位相互独立 的原假设( p=8.15×10 -6 )。 19

 总惯量还可以行轮廓和列轮廓的形式表达如下: 其中 称为第 i 行轮廓 r i 到行轮廓中心 c 的卡方( χ 2 )距离,它可看作 是一个权数为的加权平方欧氏距离。 20

 同样, 是第 j 列轮廓 c j 到列轮廓中心 r 的卡方距离。  故总惯量可看成是行轮廓到其中心的卡方距离的加 权平均,也可看成是列轮廓到其中心的卡方距离的 加权平均。它既度量了行轮廓之间的总变差,也度 量了列轮廓之间的总变差。  由此可见,行和列之间的关联性越强,行(列)轮 廓之间的差异性就越大;反之亦然。 21

总惯量为零的等价情形  总惯量为零与以下三种情形的任一种等价: (1) ,或表示 为 ; (2) 所有的行轮廓相等,即 ; (3) 所有的列轮廓相等,即 。  所以,如果行变量与列变量相互独立,则我们可以 期望(由样本数据构成的)列联表中所有的行有相 近的轮廓,所有的列亦有相近的轮廓。 22

总惯量的分解  对 P - rc′ 构造标准化矩阵 其元素为 记 k=rank(Z) ,有 k≤min(p - 1,q - 1) ,因为 23

 对 Z 进行奇异值分解,得 其中 U=(u 1,u 2, ⋯,u k ),V=(v 1,v 2, ⋯,v k ), Λ=diag(λ 1,λ 2, ⋯, λ k ) ,这里 u 1,u 2, ⋯,u k 是一组 p 维正交单位向量, v 1,v 2, ⋯,v k 是一组 q 维正交单位向量,即有 U′U=V′V=I , λ 1,λ 2, ⋯,λ k 是 Z 的 k 个奇异值。于是, 是 ZZ′ 的正特征值。因此 24

§9.4 行、列轮廓的坐标  其中 上式常被称为广义奇异值分解。由于 U′U=V′V=I ,从而  显然, A 和 B 都是列满秩的,故 a 1,a 2, ⋯,a k 是一组线性无关的 p 维向量,而 b 1,b 2, ⋯,b k 是一组线性无关的 q 维向量。 25

 将行轮廓矩阵 R 中心化(即每一行减去 ),得 其中  上式也可表达为 即中心化的第 i 行轮廓在由 b 1,b 2, ⋯,b k 构成的坐标系中 的坐标为 (x i1,x i2, ⋯,x ik ), i=1,2, ⋯,p 。  类似地,将列轮廓矩阵 C 中心化 ( 即每一列减去 r), 得 其中 26

 上式亦可表达为 即中心化的第 j 列轮廓在由 a 1,a 2, ⋯,a k 构成的坐标系中 的坐标为 (y j1,y j2, ⋯,y jk ), j=1,2, ⋯,q 。  从而 27

 即各行点在坐标轴 b i 上坐标的加权平均值为 0 , i=1,2, ⋯,k 。同 理可得 即各列点在坐标轴 a i 上坐标的加权平均值也为 0 , i=1,2, ⋯,k 。  由关系式 知 28

即有 于是  即各行点和列点在第 i 坐标轴上的坐标平方的加权平均都等于 ,称之为第 i 主惯量或第 i 惯量, i=1,2, ⋯,k 。主惯量度量 了在每一坐标轴上的变差,类似于主成分的方差。  总惯量可以分解为各主惯量之和,这类似于主成分分析中总 方差可分解为各主成分方差之和。  各行点和各列点在每一坐标轴上的中心都是 0 ,且变差程度 (即主惯量)相同。因此,我们作图时可方便地将行点和列 点置于同一个坐标系中,并使用同一坐标刻度。 29

§9.5 对应分析图  一、行、列轮廓的逼近  二、行(列)点之间的距离  三、行点和列点相近的意涵 30

一、行、列轮廓的逼近  P - rc′ 的降秩到 2 的最优逼近为 于是 其中 , B 1 =( b 1, b 2 ) 。 X 1 是由 X 的前 2 列 构成的,即 31

故 X 1 的第 i 行 (x i1, x i2 ) 是中心化的第 i 行轮廓 在由 b 1 和 b 2 构成的平面坐标系中的坐标, i=1,2, ⋯,p 。  类似地, 其中 。 Y 1 是由 Y 的前 2 列构成的,即 32

故 Y 1 的第 j 行 (y j1, y j2 ) 是中心化的第 j 列轮廓 c j −r 在由 a 1 和 a 2 构成的平面坐标系中的坐标, j=1,2, ⋯,q 。  将上述两个平面坐标系重叠在一个坐标系中, b 1 和 a 1 重叠在第一维坐标轴上,具有同一主惯量 ,其 对总惯量的贡献率为 。 b 2 和 a 2 重叠在第二维 坐标轴上,具有同一主惯量 ,其对总惯量的贡献 率为 。  前二维对总惯量的累计贡献率为 , 该值如很大,则说明所作的对应分析图几乎解释了 列联表数据的所有变差。 33

二、行(列)点之间的距离  在累计贡献率 足够大的对应分析图中,第 i 个 行点 (x i1, x i2 ) 与第 j 个行点 (x j1, x j2 ) 之间的平方欧氏距离  类似地,第 i 个列点 (y i1, y i2 ) 与第 j 个列点 (y j1, y j2 ) 之间的平方欧 氏距离 34

 可见,如果两个行(列)点接近,则表明相应的两 个行(列)轮廓是类似的;反之,如果两个行(列 )点远离,则表明相应的两个行(列)轮廓是非常 不同的。  此外,对应分析图中行(列)点的方位是富有意义 的,而行点与列点之间的距离并没有意义。 35

三、行点和列点相近的意涵  如果对应分析图上第 i 个行点和第 j 个列点相近,即有  则在 足够大的条件下,近似地有  如果一个行点和一个列点相近,则表明行、列两个变量的相 应类别组合发生的频数一般会高于这两个变量相互独立情形 下的期望值,也就意味着该行类别与该列类别相关联。 36

  分别是第 j 个行点和列点对总惯量的 贡献。可见,行(列)点离坐标原点越近(远),其对总惯 量的贡献就倾向于越小(大)。 表 行(或列)轮廓都相同的数据 列变量 ABCD 合计 行变量 合计

 一般来说,对于相近的行点和列点,它们离原点越远,说明 关联倾向越明显。  例 在例 中,经计算,奇异值、主惯性以及贡献率 等的计算结果列于表 中。总惯量的 94.75% 可由第一维来 解释,前二维解释了高达 99.76% 的总惯量,几乎解释了列联 表数据的所有变差。 表 奇异值、主惯量以及贡献率 维数 123 奇异值 总值 主惯量 贡献率 累计贡献率

行点和列点的前二维坐标矩阵为 将各行点和列点置于同一坐标系中,构成对应分析 图,如下图所示。 39

图 心理健康状况 - 父母社会经济地位数据的对应分析图 40

表 行点和列点靠近的分类组合频数及行、列独立情形下的频数期望值 父母社会 经济地位 A (高) BCD E (低) 心理健康状况 0 (好) 121 ( 93.8 ) (轻微症状形成) ( ) 141 ( ) (中等症状形成) ( 62.6 ) (受损) ( 62.1 ) 71 ( 50.9 ) 41

 例 表 中的数据来源于奶酪品尝的实验, 实验记录了九种不同响应和四种不同奶酪添加剂的 交叉频数。九种不同的响应是从最不喜欢到最喜欢 ,品尝者依次打分为 1,2, ⋯,9 ,四种不同的奶酪添加 剂分别为 A,B,C,D 。 42

编号奶酪添加剂响应频数编号奶酪添加剂响应频数 1A1019C11 2A2020C21 3A3121C36 4A4722C48 5A5823C5 6A6824C67 7A71925C75 8A8826C81 9A9127C90 10B1628D10 11B2929D20 12B3 30D30 13B41131D41 14B5732D53 15B6633D67 16B7134D714 17B8035D816 18B9036D911 表 奶酪品尝的实验数据 43

(1) 奶酪添加剂轮廓及密度 (2) 响应轮廓及密度 图 奶酪添加剂 - 响应数据的轮廓及密度 44

图 奇异值、主惯量、贡献率以及行、列点的坐标 45

图 奶酪添加剂 - 响应数据的对应分析图 46

图 奶酪添加剂 - 响应数据的三维对应分析图 47

响应 奶酪添加剂 A (7) 19 (9.75) 8 1 B 6 (1.75) 9 (2.5) 12 (4.75) C (6.75) 23 (10.25) D (6.25) 11 (3) 表 类别组合的实际频数及行、列独立情形下的期望频数 48