第七章 典型相关与对应分析 7.1 典型相关分析 7.2 对应分析.

Slides:



Advertisements
Similar presentations
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
Advertisements

全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
§3.4 空间直线的方程.
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
3.4 空间直线的方程.
第六章 主成分分析与因子分析 6.1 主成分分析 6.2 因子分析.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
第三章 函数逼近 — 最佳平方逼近.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
第十章 典型相关分析 §10.1 引言 §10.2 总体典型相关 §10.3 样本典型相关 §10.4 典型相关系数的显著性检验.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
不确定度的传递与合成 间接测量结果不确定度的评估
走进编程 程序的顺序结构(二).
元素替换法 ——行列式按行(列)展开(推论)
第一讲: 基本流程(1).
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
数学模型实验课(三) 插值与三维图形.
第十章 方差分析.
用event class 从input的root文件中,由DmpDataBuffer::ReadObject读取数据的问题
工业机器人技术基础及应用 主讲人:顾老师
第七章 参数估计 7.3 参数的区间估计.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
线段的有关计算.
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
3 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 教案
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
Three stability circuits analysis with TINA-TI
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
PT200中拼版的制作 一、概念部分 如图中所示,PT200中坐标系定义为4种方向,当选择某的坐标系后,则认为在程式的制作中凡是在选定的贴装位置都是正的坐标,注意的是在PT200及设备中(程式部分)没有负的坐标。 *也就表示测量数据时,选择某点为原点在选定的坐标系的方向上测量元件贴装位置,所有的数值都纪录为正的数值,而不是四象限坐标系中的正的和负的数值的坐标。
第五节 对坐标的曲面积分 一、 对坐标的曲面积分的概念与性质 二、对坐标的曲面积分的计算法 三、两类曲面积分的联系.
复习.
6.4 你有信心吗?.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
复习: 若A(x1,y1,z1) , B(x2,y2,z2), 则 AB = OB - OA=(x2-x1 , y2-y1 , z2-z1)
第九节 赋值运算符和赋值表达式.
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
iSIGHT 基本培训 使用 Excel的栅栏问题
§8.3 不变因子 一、行列式因子 二、不变因子.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.1.2 空间向量的数量积运算 1.了解空间向量夹角的概念及表示方法. 2.掌握空间向量数量积的计算方法及应用.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
第七、八次实验要求.
2.2矩阵的代数运算.
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
线 性 代 数 厦门大学线性代数教学组 2019年5月12日4时19分 / 45.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
概率论与数理统计B.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
欢迎大家来到我们的课堂 §3.1.1两角差的余弦公式 广州市西关外国语学校 高一(5)班 教师:王琦.
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
位似.
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
§4.5 最大公因式的矩阵求法( Ⅱ ).
3.3.2 两点间的距离 山东省临沂第一中学.
Presentation transcript:

第七章 典型相关与对应分析 7.1 典型相关分析 7.2 对应分析

7.1 典型相关分析 7.1.1 典型相关分析的概念与步骤 7.1.2 用INSIGHT模块实现典型相关分析 7.1 典型相关分析 7.1.1 典型相关分析的概念与步骤 7.1.2 用INSIGHT模块实现典型相关分析 7.1.3 用“分析家”实现典型相关分析 7.1.4 用CANCORR过程实现典型相关分析

7.1.1 典型相关分析的概念与步骤 1. 典型相关分析的基本思想 7.1.1 典型相关分析的概念与步骤 1. 典型相关分析的基本思想 典型相关分析采用主成分的思想浓缩信息,根据变量间的相关关系,寻找少数几对综合变量(实际观测变量的线性组合),用它们替代原始观测变量,从而将二组变量的关系集中到少数几对综合变量的关系上,通过对这些综合变量之间相关性的分析,回答两组原始变量间相关性的问题。除了要求所提取的综合变量所含的信息量尽可能大以外,提取时还要求第一对综合变量间的相关性最大,第二对次之,依次类推。

这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。典型相关系数能简单、完整地描述两组变量间关系的指标。当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当其中的一组只有一个变量时,典型相关系数即为复相关系数。

2. 典型相关系数与典型相关变量 设X = (X1,X2,…,Xp)',Y = (Y1,Y2,…,Yq)'是两个随机向量。利用主成分思想寻找第i对典型相关变量(Ui,Vi): Ui = ai1X1 + ai2X2 + … + aipXp = ai'X Vi = bi1Y1 + bi2Y2 + … + biqYq = bi'Y i = 1,2,…,m = min(p,q);称ai'和bi'为(第i对)典型变量系数或典型权重。

记第一对典型相关变量间的典型相关系数为: CanR1 = Corr(U1,V1)(使U1与V1间最大相关); 第二对典型相关变量间的典型相关系数为: CanR2 = Corr(U2,V2)(与U1、V1无关;使U2与V2间最大相关)… 第m对典型相关变量间的典型相关系数为: CanRm = Corr(Um,Vm)(与U1,V1,…,Um–1,Vm–1无关;Um与Vm间最大相关)

3. 典型相关变量的性质 各对典型相关变量所包括的相关信息互不交叉,且满足: 1) U1,U2,…,Um互不相关,V1,V2,…,Vm互不相关,即其相关系数为

2) 同一对典型相关变量Ui和Vi之间的相关系数为CanRi,不同对的典型相关变量之间互不相关,即: 3) Ui和Vi的均值为0,方差为1(i = 1,…,m)。 4) 1 ≥ CanR1 ≥ CanR2 ≥ … ≥ CanRm ≥ 0

4. 典型相关系数的求解步骤 1) 求X,Y变量组的相关阵 R = ; 2) 求矩阵 A = (R11)–1R12(R22)–1R21 和 B = (R22)–1R21(R11)–1R12, 可以证明A、B有相同的非零特征值; 3) 求A或B的特征值λi与CanRi,A或B的特征值即为典型相关系数的平方:λi = (CanRi)2,i = 1,…,m。

Ui = ai'X* = ai1X1* + ai2X2* + … + aipXp* 4) 求A、B关于λi的特征向量。设ai为A关于λi的特征向量,bi为B关于λi的特征向量,则ai'和bi'为(第i对)典型变量系数。即第i对典型相关变量(Ui,Vi): Ui = ai'X* = ai1X1* + ai2X2* + … + aipXp* Vi = bi'Y* = bi1Y1* + bi2Y2* + … + biqYq* i = 1,2,…,m = min(p,q);其中X*,Y*为原变量组的标准化。

5. 特征根 特征根(eigenvalue)是方差分析和多元检验的基础,特征根与典型相关系数之间的数量关系为:

6. 典型相关系数的标准误 7. 典型相关系数的假设检验 典型相关系数的假设检验包括对全部总体典型相关系数的检验和对部分总体典型相关系数的检验。对数据的要求: 1) 两个变量组均应服从多维正态分布: (X,Y)~Np+q(μ,σ2) 2) n > p + q

(1) 全部总体典型相关系数为0 H0:CanRi = 0,i = 1,…,m H1:至少有一个CanRi ≠ 0 检验的似然比统计量为 对于充分大的n,当H0成立时,统计量 近似服从自由度为pq的2分布。

(2) 部分总体典型相关系数为0 仅对较小的典型相关作检验: H0:CanRi = 0,i = s,…,m,2 ≤ s ≤ m H1:至少有一个CanRi ≠ 0 其检验的统计量为 对于充分大的n,当H0成立时,统计量 近似服从自由度为(p – k)(q– k)的2分布。

7.1.2 用INSIGHT模块实现典型相关分析 1. 实例 【例7-1】1985年中国28省市城市男生(19~22岁)的调查数据,见表7-1。其中6项形态指标:身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽,分别记为x1,x2,…,x6;5项机能指标:脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml),分别记为y1,y2,…,y5。

设表中数据已经存放在数据集Mylib.xtyjn中,试分析形态指标和机能指标这两组变量间的相关性。 表7-1 城市男生(19~22岁)形态与机能调查数据 设表中数据已经存放在数据集Mylib.xtyjn中,试分析形态指标和机能指标这两组变量间的相关性。 编号 身高x1 坐高x2 体重x3 胸围x4 肩宽x5 盆骨宽x6 脉搏y1 收缩压y2 舒张压y3 舒张压y4 肺活量y5 1 173.28 93.62 60.1 86.72 38.97 27.51 75.3 117.4 74.6 61.8 4508 2 172.09 92.83 60.38 87.39 38.62 27.82 76.7 120.1 77.1 66.2 4469 3 171.46 92.78 59.74 85.59 38.83 27.46 75.8 121.8 75.2 65.4 4398 4 170.08 92.25 58.04 85.92 38.33 27.29 76.1 115.1 73.8 61.3 4068 5 170.61 92.36 59.67 87.46 38.38 27.14 72.9 119.4 77.5 67.1 4339 … 16 167.94 90.91 55.97 86.66 38.17 27.16 76.2 110.9 68.5 56.8 4141 17 168.82 91.3 56.07 85.87 37.61 26.67 77.2 113.8 71 57.5 3905 18 168.02 91.26 55.28 85.63 39.66 28.07 74.5 117.2 74 63.8 3943 19 167.87 90.96 55.79 84.92 38.2 26.53 74.3 112.3 69.3 50.2 4195 20 168.15 91.5 54.56 84.81 38.44 27.38 63.6 4039 21 168.99 91.52 55.11 86.23 38.3 77.7 113.3 72.1 52.8 4238

2. 分析设置 在INSIGHT模块中打开数据集Mylib.xtyjn。 1) 选择菜单“Analyze”“Multivariate(Y X)(多元分析)”,打开“Multivariate(Y X)”对话框; 2) 将6项形态指标:x1至 x6选为X变量,将5项机能指标: y1至 y5选为Y变量,如图7-1左所示。

3) 单击“Output”按钮,在打开的对话框中选中“Canonical Correlation Analysis(典型相关分析)”复选框,单击下面的“Canonical Correlation Options(典型相关选项)”按钮,打开“Canonical Correlation Options”对话框, 并按下图右所示设置。 4) 三次单击“OK”按钮,得到分析结果。

3. 结果分析 (1) 典型相关系数 第1典型相关系数为0.939573,校正值为0.908276,标准误差为0.026207,典型相关系数的平方为0.882797;第2典型相关系数为0.877842,校正值为0.842459,标准误差为0.051294,典型相关系数的平方为0.770606,如图所示。 前两个典型相关系数比形态指标和机能指标两组间的任何一个相关系数都大。

(2) 典型变量所解释的变异 第二部分是的5个特征根(Eigenvalues),包括:特征根、相邻两个特征根之差、特征根所占方差信息量的比例和累积方差信息量的比例。从中可以看出,前两对典型变量所能解释的变异占总变异(方差)的91.18%,如图7-4所示。其它三个典型相关变量的作用很小,一共只解释了总变异的9%,可以不予考虑。

(3) 典型相关系数的检验 用似然比法检验典型相关系数与零的差别是否显著,其原假设为小于此对典型变量典型相关系数的所有典型相关系数都为0,其p值依次为0.0010,0.0509和0.5089等等,如图7-5所示,说明前两对典型相关系数基本具有显著意义(在α > 0.0509的显著水平下)。因此,两组变量相关性的研究可转化为研究前两对典型相关变量的相关性。

(4) 典型相关结构 典型相关结构(下图)分别是各组原始变量与典型变量两两之间的相关系数矩阵。从相关系数判断,形态指标中除x5(0.0514)、x6(0.2433)外各变量与第一典型变量间的相关性都比较高,机能指标中除y2(0.0975)外各变量与第一典型变量间的相关性也都比较高。 x5与第二典型变量间的相关性比较高,y2与第二典型变量间的相关性比较高。 y1与前两个典型变量的相关系数为负值。

说明,第一对典型变量对肩宽x5和收缩压y2的解释作用不大。 另外,从形态指标组的变量和机能指标组的典型变量之间,以及机能指标组的变量和形态指标组的典型变量之间的相关系数可见,各组变量与前两对典型变量之间均有较强的相关。

输出结果中还给出标准化变量的典型变量系数,如图所示。 来自机能指标的第一典型变量CY1为(原始变量的右上角带“*”表示为标准化变量): (5) 标准化变量的典型相关变量的系数 输出结果中还给出标准化变量的典型变量系数,如图所示。 来自机能指标的第一典型变量CY1为(原始变量的右上角带“*”表示为标准化变量): CY1 = – 0.071672y1* – 0.789642y2* + 0.567178y3*+ 0.508332y4*+ 0.533496y5* 容易看出,CY1主要代表了舒张压变音、舒张压消音、肺活量等指标。

易知,CX1主要代表了胸围、身高和肩宽等指标。 关于第二典型变量有: CX1 = 0.4287x1* – 0.09696x2* – 0.16210x3* + 0.93745x4* + 0.23498x5* – 0.18696x6* 易知,CX1主要代表了胸围、身高和肩宽等指标。 关于第二典型变量有: CY2 = – 0.026533y1* + 1.213436y2* – 0.535038y3* – 0.186048y4*+ 0.455870y5* CX2 = 0.70270x1* – 0.39985x2* + 0.84359x3* – 0.99063x4* – 0.06829x5* + 0.48310x6* 可见,CY2代表了收缩压和肺活量等指标;CX2代表了身高、体重、盆骨宽等指标。

(6) 典型冗余分析 典型冗余分析(canonical redundancy analysis)表明,两对典型变量仍不能全面预测配对的那组变量。来自形态指标的标准方差被对方两个典型变量(CY1、CY2)解释的累积方差比例为55.86%,来自机能指标的标准方差被对方两个典型变量(CX1、CX2)解释的累积方差比例为44.61%,如图所示。

7.1.3 用“分析家”实现典型相关分析 1. 实例 【例7-2】某康复俱乐部对20名中年人测量了3项生理指标:体重(weight)、腰围(waist)、脉搏(pulse)和3项运动指标:引体向上(chins)、起坐次数(situps)、跳跃次数(jumps)。其数据列于表7-2中。

设表中数据已经存放在数据集Mylib.slzb中,试分析生理指标和运动指标这两组变量间的相关性。 表7-2 某康复俱乐部测量的生理指标和运动指标 设表中数据已经存放在数据集Mylib.slzb中,试分析生理指标和运动指标这两组变量间的相关性。 编号 体重weight 腰围waist 脉搏pulse 引体向上chins 起坐次数situps 跳跃次数jumps l 191 36 50 5 162 60 2 189 37 52 110 3 193 38 58 12 101 4 35 62 105 46 13 155 6 182 56 42 … 154 34 64 14 215 247 1 15 70 31 16 202 210 120 17 176 54 25 18 157 32 11 230 80 19 156 33 225 73 20 138 68 43

2. 分析设置 1) 在“分析家”中打开数据集Mylib.slzb; 2) 选择菜单“Statistics(统计)”“Multivariate(多元分析)”“Canonical Correlation(典型相关分析)”,打开“Canonical Correlation”对话框; 3) 在对话框中将生理指标选为Set1,运动指标选为Set2,如图所示。

4) 单击“Statistics(统计)”按钮,打开“Canonical Correlation:Statistics”对话框; 选中“Canonical redundancy statistics”复选框,并选择3个典型变量,如图所示。两次单击“OK”按钮,得到计算结果。

3. 结果分析 (1) 典型相关系数及显著性检验 第一部分的4列依次是:典型相关系数、校正的典型相关系数、近似的标准误以及典型相关系数的平方。从图7-10中可以看出,本例提取了3个典型相关系数,第一个典型相关系数CanR1 = 0.795608,其校正值为0.754056,标准误为0.084197,CanR12 = 0.632992,第一典型相关系数表示的是第一对典型相关变量之间的相关性。第二个典型相关系数为0.200556,第三个为0.072570。

第二部分是特征根以及相应的统计量,如图所示。 可以看出,第一对典型变量所能解释的变异已占总变异的97.34%,其它两个典型相关变量的作用很小,一共只解释了总变异的3%,可以不予考虑。 右边4列给出对典型相关系数的检验,结果表明,第一行的F值2.05,p值为0.0635,在0.07的检验水平下,应拒绝原假设,认为第一相关系数以及比它小的两个相关系数不为0;后两行检验的p值都远大于显著水平0.05,故可以认为只有第一个典型相关系数不为0。

第三部分输出的是用四种多元统计方法进行的所有典型相关系数均为0的F检验结果,如图所示。四种方法中一般参照Wilks' Lambda检验的结果。本例中的Wilks' Lambda检验结果与前述完全一致,表明至少有一个典型相关系数在α = 0.0635的显著水平下非0。

(2) 典型变量系数与典型结构 第四部分给出的是用原始变量表达的典型变量系数(典型权重),如图所示。 因6个变量没有使用相同单位进行测量,因此考虑分析标准化后的系数。

第五部分给出的是用标准化变量(对原始变量标准化)表达的典型变量系数,如图所示。 V1 = – 0.7754 weight*+1.5793 waist* – 0.0591 pulse* 它近似地是waist*和weight*的加权差,在waist*上权重更大些。V1在pulse*上系数近似为0。 W1 = – 0.3495 chins* – 1.0540 situps* + 0.7164 jumps* 它在situps*上的系数最大。这一对典型变量主要是反映waist*和situps*的负相关关系。

第六部分为典型结构,分别是各组原始变量与典型变量两两之间的相关系数矩阵,如图所示。可以看出: 在原始变量与本组的典型变量的相关关系(典型载荷)中,生理指标的典型变量V1与腰围waist的相关系数最大(0.9254),说明这个典型变量主要反映人的肥胖程度;运动指标的典型变量W1与起坐次数situps和引体向上次数chins有较大的负相关关系(-0.7276,-0.8177),说明这个典型变量主要反映人不适合运动的程度。

在原始变量与配对组的典型变量的相关关系(典型交叉载荷)的分析结果中,腰围waist与运动指标的第1典型变量W1的相关性较强,这也说明了腰围大(体形较胖)则运动能力差;起坐次数和引体向上与生理指标的第1典型变量V1呈一定的负相关系数,说明人的体形肥胖程度对这两种运动能力有负面影响。

(3) 典型冗余分析 第七部分给出典型冗余分析的结果 上图是变量的原始方差通过它的典型变量和配对的典型变量所解释的方差比例。

下图是变量的标准化方差通过它的典型变量和配对的典型变量所解释的方差比例。 图中看出,生理指标通过它的第一个典型变量解释的共享方差的比例是45.08%,而被对方第一个典型变量W1解释的方差比例为28.54%,其比值28.54/45.08= 0.6330恰为CanR2。运动指标通过它的第一个典型变量解释的共享方差的比例是40.81%,而被对方个典型变量V1解释的方差比例为25.84%,其比值也是0.6330。

第八部分给出各原始变量和配对组的典型变量间的复相关系数(Multiple Correlations)的平方(图7-18),即原始变量与典型变量的判定系数,如weight与第1典型变量W1的相关系数为0.4938(见图7-15),则其复相关系数平方为0.49382 = 0.2438。

由复相关系数的平方可看出,生理指标的第一典型变量W1对chins(0. 3351)和situps(0 由复相关系数的平方可看出,生理指标的第一典型变量W1对chins(0.3351)和situps(0.4233)有一定解释能力,但对jumps(0.0167)几乎没有解释能力。而来自运动指标的第一典型变量V1对waist(0.5421)有相当好的解释能力,对weight(0.2438)较差,而对pulse(0.0701)几乎没有解释能力。其中,运动指标的第一典型变量对生理指标中的腰围指标解释能力最强,可以说明运动对体形影响较大,加强体育锻炼可以减肥。

7.1.4 用CANCORR过程实现典型相关分析 1. CANCORR过程 CANCORR过程的常用语法格式如下: PROC CANCORR <选项列表>; WITH <变量列表>; VAR <变量列表>; RUN; 其中PROC CANCORR语句、WITH语句是每个过程中必不可少的,其余语句可视情况使用。

下面分别介绍各语句的用法和功能。 (1) PROC CANCORR语句:标示典型相关分析开始,可以规定输入输出数据集,指定分析方法和控制输出结果的显示等。语句中可设置的常用选项及其功能见表7-3。 (2) VAR语句:列出要进行典型相关分析的第一组变量,变量必须是数值型的。如果VAR语句被忽略,所有未被其他语句提到的数值型变量都将被视为第一组变量。 (3) WITH语句:列出要进行典型相关分析的第二组变量,变量必须是数值型的。该语句是每一个PROC CANCORR中必不可少的。

表7-3 常用选项及其功能 EDF= 指定误差的自由度。EDF数为有效的观察值减1 DATA= 表7-3 常用选项及其功能 EDF= 指定误差的自由度。EDF数为有效的观察值减1 DATA= 指定输入数据集的名字,可以是原始数据集,或用TYPE= CORR,COV,FACTOR,SSCP,UCORR,或者UCOV的数据集,如果省略则使用最新创建的数据集 OUT= 指定输出数据集的名字,输出包括原始数据及典型变量得分的数据集。当输入数据集的类型为CORR,COV,FACTOR,SSCP,UCORR,或者UCOV,就不能使用这个选项 OUTSTAT= 生成包含各种统计量的SAS数据集,包括典型相关系数和典型系数,以及你要求的多元回归统计量 VNAME= 为来自VAR语句中分析变量指定标签,作为标签的字符要用单引号引起来 VPREFIX= 为来自VAR语句的典型变量指定前缀名,默认时典型变量命名为V1,V2,V3等 WNAME= 为来自WITH语句中的分析变量指定标签,作为标签的字符要用单引号引起来 WPREFIX= 为来自WITH语句中的典型变量指定前缀名,默认为W1,W2,W3等控制输出的选项 ALL 打印所有选择的输出 CORR 打印原始变量之间的相关系数 NCAN= 规定要输出典型变量的个数 NOPRINT 禁止所有的输出 REDUNDANCY 打印冗余度分析的结果 SHORT 除了典型相关和多元统计列表以外,禁止打印典型相关分析过程默认的输出 SIMPLE 打印均值、标准差等简单统计量

2. 使用CANCORR过程 【例7-3】家庭特征与家庭消费之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量: x1:每年去餐馆就餐的频率,x2:每年外出看电影的频率; y1:户主的年龄,y2:家庭的年收入,y3:户主受教育程度。 x1 x2 y1 y2 y3 X1 1.00 0.80 0.26 0.67 0.34 X2 0.33 0.59 Y1 0.37 0.21 Y2 0.35 Y3 试分析两组变量之间 的关系。假定变量的相 关系数阵如表所示。

如下代码,利用变量的相关系数矩阵作典型相关分析: DATA jt(TYPE=CORR); INPUT NAME $ 1-2 (X1 X2 Y1-Y3) (6.); CARDS; X1 1.00 0.80 0.26 0.67 0.34 X2 0.80 1.00 0.33 0.59 0.34 Y1 0.26 0.33 1.00 0.37 0.21 Y2 0.67 0.59 0.37 1.00 0.35 Y3 0.34 0.34 0.21 0.35 1.00 ; PROC CANCORR EDF=70 REDUNDANCY; VAR X1 X2; WITH Y1-Y3; RUN;

说明: 1) 在数据集名jt后用TYPE = CORR表明数据的类型为相关矩阵,而不是原始数据。 2) INPUT语句中用“NAME $”读取左侧的变量名,“1-2”表示变量名的字符落在第1、2列上,“(X1 X2 Y1-Y4)”表示各列数据所对应的变量名,“(6.)”表示读取数据的宽度均为6列,其中相关系数占4位,其后的空格占2位;

3) 选择项EDF = n – 1,为典型相关分析提供一个计算误差自由度的参考值,因为该过程中没有合适的选择项可以将原始数据的样本含量n准确地送入。如果忽略这一选择项,将以缺省值n = 10000作为样本含量参与有关计算和统计检验,显然不妥; 4) 选项REDUNDANCY表示输出典型冗余分析的结果。

3. 结果分析 (1) 典型相关系数及显著性检验 第一部分的4列依次是:典型相关系数、校正的典型相关系数、近似的标准误以及典型决定系数(典型相关系数的平方)。从中可以看出,本例提取了2个典型相关系数,第一个典型相关系数CanR1 = 0.687948,其校正值为0.673671,标准误为0.062956,CanR12 = 0.473272;第二个典型相关系数为0.186865。

第二部分是特征根以及相应的统计量,从中可以看出,第一对典型变量所能解释的变异已占总变异的96 第二部分是特征根以及相应的统计量,从中可以看出,第一对典型变量所能解释的变异已占总变异的96.13%,另一对典型相关变量的作用很小,只解释了总变异的3.87%,可以不予考虑。 右边4列给出对典型相关系数的检验,具体采用似然比法,所求的似然比统计量近似服从F分布。第一行检验的是第一相关系数以及比它小的两个相关系数是否为0,第一行的F值8.86,p值<0.0001。后一行检验的p值远大于置信水平0.05,故可以认为只有第一个典型相关系数有统计学意义。

第三部分(图7-21)输出的是按照多元分析的原理进行的所有典型相关系数是否为0的检验,四种方法中一般参照Wilks' Lambda检验的结果。本例中4种方法的检验结果与前述完全一致。

(2) 典型变量系数与典型结构 第四部分(图左)给出的是用原始变量表达的典型变量系数。考虑标准化后的系数,即第五部分(图右)给出的典型变量和标准化变量(对原始变量标准化)间的换算公式。由于使用原始变量的相关系数阵作为输入数据,所以这两部分相同。

来自消费模式指标的第一典型变量V1为(原始变量的右上角带“*”表示为标准化变量): V1 = 0.7689 x1*+0.2721 x2* 它是x1*(每年去餐馆就餐的频率)和x2*(每年外出看电影的频率)的加权和,在x1*上的权重更大些。 来自家庭特征指标的第一典型变量W1为: W1 = 0.0491 y1* + 0.8975 y2* + 0.1900 y3* 它在y2*(家庭的年收入)上的系数最大。这一对典型变量主要是反映x1*(每年去餐馆就餐的频率)和y2*(家庭的年收入)的相关关系。

第六部分(图7-24)为典型相关结构,分别是各组原始变量与典型变量两两之间的相关系数矩阵。

可以看出:x1和x2与第1典型变量V1的相关系数皆为正值,分别为0.9866和0.8872,可见V1可以作为消费特性的指标。 家庭特征指标的所有变量与第1典型变量W1的相关系数分别为:0.4211,0.9822和0.5145,可见典型变量W1主要代表了了家庭收入。 V1和W1的典型相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的。

第二对典型变量中V2与x2的相关系数为0.4614,可以看出V2可以作为文化消费特性的指标,第二对典型变量中W2与y1和y3之间的分别相关系数为0.8464和0.3013,可见典型变量W2主要代表了家庭成员的年龄特征和教育程度,V2和W2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间有一定关系。

(3) 典型冗余分析 第七部分给出典型冗余分析的结果(图7-25、7-26),由于本例是对相关系数矩阵作分析故两个结果相同。 两对典型变量解释配对变量组方差的累计比例分别为42.08%和23.157%。

消费指标通过它的第一个典型变量解释的共享方差的比例是88. 03%,而被对方第一个典型变量W1解释的方差比例为41. 66%,其比值41 消费指标通过它的第一个典型变量解释的共享方差的比例是88.03%,而被对方第一个典型变量W1解释的方差比例为41.66%,其比值41.66% / 88.03% = 0.4733恰为Can R2(Canonical R-Square),通过它的第二个典型变量解释的共享方差的比例是11.97%,被对方第二个典型变量W2解释的方差比例为0.42%,其比值为0.0349。家庭特征指标通过它的第一个典型变量解释的共享方差的比例是46.89%,而被对方第一个典型变量V1解释的方差比例为22.19%,通过它的第二个典型变量解释的共享方差的比例是27.31%,而被对方第二个典型变量V2解释的方差比例为0.95%。

第八部分给出各原始变量和配对组的典型变量间的复相关系数(Multiple Correlations)的平方,即原始变量与典型变量的判定系数,如x1与第1典型变量W1的相关系数为0.6787,则其判定系数为0.67872 = 0.4607。 由复相关系数的平方可看出,消费指标的典型变量V1对y2(0.4566)有一些预测能力,但对y1(0.0839)和y3(0.1253)有微弱的预测能力。而来自家庭特征指标的典型变量W1对x1(0.4607)和x2(0.3725)有较好的预测能力。

7.2 对应分析 7.2.1 对应分析的基本概念 7.2.2 使用CORRESP过程实现对应分析

7.2.1 对应分析的基本概念 1. 对应分析的方法概述 对应分析,也称相应分析,它是寻求样品(行)与变量(列)之间联系的低维图示法。其关键是利用一种数据变换方法,使含有n个样品m个变量的原始数据矩阵 变成另一个矩阵 , 并使SR = Z'Z(分析变量之间关系的协方差矩阵)与SQ = ZZ'(分析样品之间关系的协方差矩阵)具有相同的非零特征根,它们相应的特征向量之间也有密切的关系。

对协方差矩阵SR、SQ进行因子分析,分别提取两个最重要的公因子R1、R2与Q1、Q2。由于采取的是一种特殊变换方法,公因子R1与Q1在本质上是相同的,同理,R2与Q2在本质上也是相同的,故可用dim1作为R1、Q1的统一标志,用dim2作为R2、Q2的统一标志。于是可将(R1,Q1)和(R2,Q2)两组数据点画在由(dim2,dim2)组成的同一个直角坐标系中,这样,便于考察变量与样品之间的相互关系。

2. 对应分析的步骤 设原始数据矩阵X = (xij)nm,i = 1, 2,…,n(n为样品数);j =1,2,…,m(m为变量数)。 1) 计算过渡矩阵Z = (zij)nm: (1) 其中,Xi.为第i行的合计、X.j为第j列的合计、X..为全部数据的合计。

2) 对SR = Z'Z作因子分析。 计算协差阵SR = Z'Z的特征值(又称为惯量)λ1  λ2  …  λm,按其累积百分比 取前p个特征值(主惯量),通常p取2。并计算相应的单位特征向量u1,u2,从而得到因子载荷阵: 在两因子轴平面上作变量点图。

3) 对SQ = ZZ'作因子分析。 对上述2个特征值计算SQ中相应的单位特征向量v1 = Zu1,v2 = Zu2,从而得到因子载荷阵: 在上述因子平面上作样品点图。 说明:对应分析的提出最初是为了研究两个或多个属性变量之间的相关关系,即用于列联表(参见第9章)数据的分析。此时行变量的各个水平相当于各个样品,列变量的各个水平相当于不同的变量。

7.2.2 使用CORRESP过程实现对应分析 1. CORRESP过程 PROC CORRESP <选项列表>: VAR <变量列表>; TABLES <行变量列表>,<列变量列表>; ID <变量>; RUN; 其中的PROC CORRESP语句、TABLES语句或者VAR语句是必须使用的,除了这两个语句,其他语句都是可以选择的,下面分别介绍各语句的用法和功能。

(1) PROC CORRESP语句 标示对应分析开始,可以规定输入输出数据集,指定分析方法和控制输出结果的显示等。语句中可设置的常用选项及其功能见表7-5。 (2) VAR语句 输入数据为表格格式时使用,不能与TABLES同时使用。变量必须是数值型的。 (3) ID语句 ID语句只能与VAR语句一起使用,如果使用了TABLES或者MCA选项,就不能使用该语句。该语句只能规定一个字符变量。自动用ID语句的变量值作为输出表格列的标签,并且保存在输出数据集中。

(4) TABLES语句 TABLES语句用行变量和列变量构造一个列联表,行变量和列变量之间用逗号分隔。不可与ID和VAR语句同时使用。

2. 对二维列联表数据的对应分析 【例7-4】调查了三个民族的血型分布资料如表7-6所示,试作对应分析。 表7-6 三个民族不同血型出现的频数 假定上述数据已经存放在数据集Mylib.xx中。 血型 傣族 佤族 土家族 A 112 200 362 B 150 219 O 205 135 310 AB 40 73 69

(1) SAS代码 对应分析的代码如下: proc corresp data = Mylib.xx out = result; var DZ WZ TJZ; id Type; run; options ps = 40; proc plot data=result; plot dim2*dim1="*"$Type/ box haxis=-0.2 to 0.3 by 0.1 vaxis=-0.1 to 0.3 by 0.1 HREF=0 VREF=0;

(2) 主要输出结果及其解释 1) 惯量与卡方分解 图7-28的第一列为Z的奇异值,最有用的是第2列(主惯量),即矩阵SR = Z'Z的特征值。原始数据有4行3列,这里提取2个特征值,即可完全解释数据的信息量。第一个特征值解释了信息量的78.07%,第二个特征值解释了21.93%,前两个特征值的累积贡献率已达100%,以第一维度为主。 自由度 = (变量数 – 1)  (样品数 – 1) = 6。

2) 样品点坐标,如图7-29所示。相当于因子分析中的公因子载荷,表示“样品”在公因子Dim1和Dim2上的坐标。 其结果可表示为∶ 血型A = – 0.1918Dim1 – 0.0706Dim2 血型B = 0.1283Dim1 + 0.0303Dim2 血型O = 0.1582Dim1 – 0.0201Dim2 血型AB = – 0.1941Dim1 + 0.2528Dim2 在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个样品就是1个点,如血型A点的坐标为(– 0.1918,– 0.0706)。显然,血型A在第3象限内,血型B在第1象限内,血型O在第4象限内,血型AB在第2象限内。

3) 样品点的汇总统计量,如图7-30所示。Quality为每个变量上两个公因子贡献率(样品点的余弦平方值中各行数值)之和(%),若此值接近于1,则表明对应的样品点所包含的信息由两个公因子就可很好地反映出来;Mass为原始数据中各列数据之和占总合计的百分比(%);Inertia为每个样品对总特征值0.03599贡献的百分比(%),由此列数值可看出,A、O、AB三种血型贡献的百分比比较接近。

4) 样品点局部惯量贡献,如图7-31所示。A型血对第1公因子贡献最大;AB型血对第2公因子贡献最大。 5) 对样品点惯量贡献最大的坐标标号,这是各样品的坐标对特征值贡献最多的标志,贡献少、中、多依次用0、1、2来表示,如图7-32所示。

6) 样品点的余弦平方值,如图7-33所示。为每个样品点上两个公因子各自的贡献率,各行数值之和应近似为1,因为用两个公因子已经表示所有的信息,故各行之和均为1。由各行数值可看出:除了AB型之外,其他三个血型的信息主要由第1公因子给出,而AB型的信息则主要由第2个公因子来反映。 以上对样品的统计又对变量作了一遍,结果如下: 7) 变量点坐标与变量点的汇总统计量,如图所示。

显然,佤族与土家族之间的距离最短,傣族与佤族之间的距离最长,说明这2个民族在血型的出现频率上具有较高的正相关关系。 在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个变量也是1个点。傣族位于第一象限中,佤族位于第二象限中,土家族位于第三象限中。4个点(变量)中任何两点之间的欧氏距离如下: 显然,佤族与土家族之间的距离最短,傣族与佤族之间的距离最长,说明这2个民族在血型的出现频率上具有较高的正相关关系。 两民族间 傣族─佤族 傣族─土家族 佤族─土家族 欧氏距离 0.459451 0.334114 0.253707

8) 变量点局部惯量贡献,如图左所示,图左上半部分是每个变量对公因子的贡献率(%),各列数值之和为1。显然,傣族对第1公因子贡献最大;其他两个民族对第2公因子贡献较大。 9) 变量点的余弦平方值,如图右所示。表示公因子对变量的贡献率。第一公因子主要影响傣族和佤族,分别贡献了95.28%和75.79,而第二公因子主要影响土家族,贡献率为86.76%。

(3) 分析结果 A型血对第1公因子贡献最大;AB型血对第2公因子贡献最大。它们的点所对应的坐标(dim1,dim2)分别为: A(– 0.1918,– 0.0706),AB(– 0.1941,0.2528);

每个分类在坐标系中分得很开。佤族和AB型血同在第二象限,而且两个点在Dim1上差别很小,说明两者有联系;而土家族和A型血同在第三象限,傣族和B型血同在第一象限,在Dim1上差别很小,如图所示。

说明:对应分析的输出结果有很多,最主要的是看第一部分中各个维度以及各个维度解释的百分比,样品点及变量点的坐标。 对图形的输出结果首先要看两个方向的区分情况,如三个民族在第一维度上分得很开,区分很好,而血型则在第二维度上区分较好。但由于第一维度携带了近80%的信息量,远大于第二维度,所以解释以第一维度为主。 还可以比较各个点在空间的分布情况,距离较近的点彼此有联系,散点间的距离越近,说明关联的倾向越明显。

3. 类别数较多的例子 【例7-5】疾病与人的基因型密切有关,而不同民族各种基因出现的频率不尽相同。下面是某研究者收集到的资料,试分析各种基因频率与民族之间的关系。各民族下面的小数是36种基因出现的频率。 表7-7 民族各种基因出现的频率

设数据文件名为mzjy,位于逻辑库Mylib中,对应分析的代码如下: (1) SAS代码 设数据文件名为mzjy,位于逻辑库Mylib中,对应分析的代码如下: options nodate nonumber ps = 500;; proc corresp data = Mylib.mzjy out = result; var z n y h; id jy; run; options ps = 50; proc plot data=result; plot dim2*dim1="*"$jy/ box haxis=-1.1 to 1.1 by 0.2 vaxis=-1.0 to 1.0 by 0.2 HREF=0 VREF=0;

(2) 主要输出结果及其解释 1) 惯量与卡方分解,如图7-38所示。 这里第一列为Z的奇异值,最有用的是第2列(主惯量),即矩阵SR = Z'Z的特征值。由于前两个特征值的累积贡献率已达82.54%,所以只需取前两个特征值。将根据前两个较大的特征值分别算出与样品(基因型)、变量(民族)对应的特征向量。

2) 变量点坐标,如图7-39所示。 这是每个变量(指Z、N、Y、H)在两个公因子上的载荷,其结果可表示为∶ Z = – 0.3316Dim1 + 0.0193Dim2 N = 0.4068Dim1 – 0.6030Dim2 Y = 0.5310Dim1 + 0.6257Dim2 H = – 0.5604Dim1 + 0.0542Dim2 在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个变量就是1个点,如Z(藏族)点的坐标为(– 0.3316,0.0193)。显然,Z(藏族)、H(汉族)两个点在第2象限内;N(尼泊尔)点在第4象限内、Y(印度)点在第1象限内。

在以dim1与dim2作为横轴与纵轴的直角坐标系内,4个点(变量)中任何两点之间的欧氏距离如下: 显然,藏族与汉族之间的距离最短,说明这2个民族在多数基因的出现频率上具有较高的正相关关系。 两民族间 Z─N Z─Y Z─H N─Y N─H Y─H 欧氏距离 0.9657 1.0544 0.2314 1.2350 1.1694 1.2319

3) 变量坐标点的汇总统计量,如图7-40所示。 Quality为每个变量上两个公因子贡献率(即下文中变量坐标点的平方余弦值表中各行数值)之和(%),若此值接近于1,则表明对应的变量所包含的信息由两个公因子就可很好地反映出来;Mass为原始数据中各列数据之和占总合计的百分比(%);Inertia为每个变量对总特征值0.49399贡献的百分比(%),由此列数值可看出,后三个民族贡献的百分比比较接近。

4) 变量坐标点局部惯量贡献,如图所示。 这是每个公因子上每个变量的贡献率(%),各列数值之和为1。显然,汉族对第1公因子贡献最大;尼泊尔、印度这2个民族对第2公因子贡献最大。 5) 对变量坐标点惯量贡献最大的坐标标号,如图所示。 这是各变量的坐标对特征值贡献最多的标志,贡献少、中、多依次用0、1、2来表示。

6) 变量坐标点的平方余弦值,如图7-43所示。 这是每个变量上两个公因子各自的贡献率,各行数值之和应近似为1,因为只用了两个主要的公因子,与最小特征值0.08624对应的公因子的贡献未给出,故少了一些信息。由各行数值可看出:尼泊尔、印度这2个民族的信息几乎完全可由这2个公因子反映出来;而藏族的信息则不能很好地由这2个公因子来反映。

(3) 分析结果 B46对第1公因子贡献最大;B48、C6对第2公因子贡献最大。它们的点所对应的坐标(dim1,dim2)分别为:B46(-1.0770,0.0529)、B48(0.3626,-0.9077)、C6(0.7278,-0.8463)。显然,B46点落在第2象限内;B48与C6这两点落在第4象限内、且距离较近。再结合上面关于“Column Coordinates”部分的解释可知:藏族与汉族接近主要表现在B46基因型上有较高的一致性(因为这3点都落在第2象限内、且距离较近);而尼泊尔族与B48、C6两种基因型上有较高的一致性(因为这3点都落在第4象限内、且距离较近)。

由散点图(图7-44)可以看出三大类民族各自有着特征基因群,分别位于第一、第二和第四象限中。与汉族、藏族最接近的基因为C3,与尼泊尔族最接近的基因为B48,与印度族最接近的基因是B8。