Download presentation
Presentation is loading. Please wait.
1
第七章 典型相关与对应分析 7.1 典型相关分析 7.2 对应分析
2
7.1 典型相关分析 7.1.1 典型相关分析的概念与步骤 7.1.2 用INSIGHT模块实现典型相关分析
7.1 典型相关分析 典型相关分析的概念与步骤 用INSIGHT模块实现典型相关分析 用“分析家”实现典型相关分析 用CANCORR过程实现典型相关分析
3
7.1.1 典型相关分析的概念与步骤 1. 典型相关分析的基本思想
典型相关分析的概念与步骤 1. 典型相关分析的基本思想 典型相关分析采用主成分的思想浓缩信息,根据变量间的相关关系,寻找少数几对综合变量(实际观测变量的线性组合),用它们替代原始观测变量,从而将二组变量的关系集中到少数几对综合变量的关系上,通过对这些综合变量之间相关性的分析,回答两组原始变量间相关性的问题。除了要求所提取的综合变量所含的信息量尽可能大以外,提取时还要求第一对综合变量间的相关性最大,第二对次之,依次类推。
4
这些综合变量被称为典型变量,或典则变量,第1对典型变量间的相关系数则被称为第1典型相关系数。典型相关系数能简单、完整地描述两组变量间关系的指标。当两个变量组均只有一个变量时,典型相关系数即为简单相关系数;当其中的一组只有一个变量时,典型相关系数即为复相关系数。
5
2. 典型相关系数与典型相关变量 设X = (X1,X2,…,Xp)',Y = (Y1,Y2,…,Yq)'是两个随机向量。利用主成分思想寻找第i对典型相关变量(Ui,Vi): Ui = ai1X1 + ai2X2 + … + aipXp = ai'X Vi = bi1Y1 + bi2Y2 + … + biqYq = bi'Y i = 1,2,…,m = min(p,q);称ai'和bi'为(第i对)典型变量系数或典型权重。
6
记第一对典型相关变量间的典型相关系数为:
CanR1 = Corr(U1,V1)(使U1与V1间最大相关); 第二对典型相关变量间的典型相关系数为: CanR2 = Corr(U2,V2)(与U1、V1无关;使U2与V2间最大相关)… 第m对典型相关变量间的典型相关系数为: CanRm = Corr(Um,Vm)(与U1,V1,…,Um–1,Vm–1无关;Um与Vm间最大相关)
7
3. 典型相关变量的性质 各对典型相关变量所包括的相关信息互不交叉,且满足:
1) U1,U2,…,Um互不相关,V1,V2,…,Vm互不相关,即其相关系数为
8
2) 同一对典型相关变量Ui和Vi之间的相关系数为CanRi,不同对的典型相关变量之间互不相关,即:
3) Ui和Vi的均值为0,方差为1(i = 1,…,m)。 4) 1 ≥ CanR1 ≥ CanR2 ≥ … ≥ CanRm ≥ 0
9
4. 典型相关系数的求解步骤 1) 求X,Y变量组的相关阵 R = ; 2) 求矩阵 A = (R11)–1R12(R22)–1R21 和
B = (R22)–1R21(R11)–1R12, 可以证明A、B有相同的非零特征值; 3) 求A或B的特征值λi与CanRi,A或B的特征值即为典型相关系数的平方:λi = (CanRi)2,i = 1,…,m。
10
Ui = ai'X* = ai1X1* + ai2X2* + … + aipXp*
4) 求A、B关于λi的特征向量。设ai为A关于λi的特征向量,bi为B关于λi的特征向量,则ai'和bi'为(第i对)典型变量系数。即第i对典型相关变量(Ui,Vi): Ui = ai'X* = ai1X1* + ai2X2* + … + aipXp* Vi = bi'Y* = bi1Y1* + bi2Y2* + … + biqYq* i = 1,2,…,m = min(p,q);其中X*,Y*为原变量组的标准化。
11
5. 特征根 特征根(eigenvalue)是方差分析和多元检验的基础,特征根与典型相关系数之间的数量关系为:
12
6. 典型相关系数的标准误 7. 典型相关系数的假设检验
典型相关系数的假设检验包括对全部总体典型相关系数的检验和对部分总体典型相关系数的检验。对数据的要求: 1) 两个变量组均应服从多维正态分布: (X,Y)~Np+q(μ,σ2) 2) n > p + q
13
(1) 全部总体典型相关系数为0 H0:CanRi = 0,i = 1,…,m H1:至少有一个CanRi ≠ 0 检验的似然比统计量为 对于充分大的n,当H0成立时,统计量 近似服从自由度为pq的2分布。
14
(2) 部分总体典型相关系数为0 仅对较小的典型相关作检验: H0:CanRi = 0,i = s,…,m,2 ≤ s ≤ m H1:至少有一个CanRi ≠ 0 其检验的统计量为 对于充分大的n,当H0成立时,统计量 近似服从自由度为(p – k)(q– k)的2分布。
15
7.1.2 用INSIGHT模块实现典型相关分析 1. 实例
【例7-1】1985年中国28省市城市男生(19~22岁)的调查数据,见表7-1。其中6项形态指标:身高(cm)、坐高、体重(kg)、胸围、肩宽、盆骨宽,分别记为x1,x2,…,x6;5项机能指标:脉搏(次/分)、收缩压(mmHg)、舒张压(变音)、舒张压(消音)、肺活量(ml),分别记为y1,y2,…,y5。
16
设表中数据已经存放在数据集Mylib.xtyjn中,试分析形态指标和机能指标这两组变量间的相关性。
表7-1 城市男生(19~22岁)形态与机能调查数据 设表中数据已经存放在数据集Mylib.xtyjn中,试分析形态指标和机能指标这两组变量间的相关性。 编号 身高x1 坐高x2 体重x3 胸围x4 肩宽x5 盆骨宽x6 脉搏y1 收缩压y2 舒张压y3 舒张压y4 肺活量y5 1 173.28 93.62 60.1 86.72 38.97 27.51 75.3 117.4 74.6 61.8 4508 2 172.09 92.83 60.38 87.39 38.62 27.82 76.7 120.1 77.1 66.2 4469 3 171.46 92.78 59.74 85.59 38.83 27.46 75.8 121.8 75.2 65.4 4398 4 170.08 92.25 58.04 85.92 38.33 27.29 76.1 115.1 73.8 61.3 4068 5 170.61 92.36 59.67 87.46 38.38 27.14 72.9 119.4 77.5 67.1 4339 … 16 167.94 90.91 55.97 86.66 38.17 27.16 76.2 110.9 68.5 56.8 4141 17 168.82 91.3 56.07 85.87 37.61 26.67 77.2 113.8 71 57.5 3905 18 168.02 91.26 55.28 85.63 39.66 28.07 74.5 117.2 74 63.8 3943 19 167.87 90.96 55.79 84.92 38.2 26.53 74.3 112.3 69.3 50.2 4195 20 168.15 91.5 54.56 84.81 38.44 27.38 63.6 4039 21 168.99 91.52 55.11 86.23 38.3 77.7 113.3 72.1 52.8 4238
17
2. 分析设置 在INSIGHT模块中打开数据集Mylib.xtyjn。
1) 选择菜单“Analyze”“Multivariate(Y X)(多元分析)”,打开“Multivariate(Y X)”对话框; 2) 将6项形态指标:x1至 x6选为X变量,将5项机能指标: y1至 y5选为Y变量,如图7-1左所示。
18
3) 单击“Output”按钮,在打开的对话框中选中“Canonical Correlation Analysis(典型相关分析)”复选框,单击下面的“Canonical Correlation Options(典型相关选项)”按钮,打开“Canonical Correlation Options”对话框, 并按下图右所示设置。 4) 三次单击“OK”按钮,得到分析结果。
19
3. 结果分析 (1) 典型相关系数 第1典型相关系数为 ,校正值为 ,标准误差为 ,典型相关系数的平方为 ;第2典型相关系数为 ,校正值为 ,标准误差为 ,典型相关系数的平方为 ,如图所示。 前两个典型相关系数比形态指标和机能指标两组间的任何一个相关系数都大。
20
(2) 典型变量所解释的变异 第二部分是的5个特征根(Eigenvalues),包括:特征根、相邻两个特征根之差、特征根所占方差信息量的比例和累积方差信息量的比例。从中可以看出,前两对典型变量所能解释的变异占总变异(方差)的91.18%,如图7-4所示。其它三个典型相关变量的作用很小,一共只解释了总变异的9%,可以不予考虑。
21
(3) 典型相关系数的检验 用似然比法检验典型相关系数与零的差别是否显著,其原假设为小于此对典型变量典型相关系数的所有典型相关系数都为0,其p值依次为0.0010,0.0509和0.5089等等,如图7-5所示,说明前两对典型相关系数基本具有显著意义(在α > 的显著水平下)。因此,两组变量相关性的研究可转化为研究前两对典型相关变量的相关性。
22
(4) 典型相关结构 典型相关结构(下图)分别是各组原始变量与典型变量两两之间的相关系数矩阵。从相关系数判断,形态指标中除x5(0.0514)、x6(0.2433)外各变量与第一典型变量间的相关性都比较高,机能指标中除y2(0.0975)外各变量与第一典型变量间的相关性也都比较高。 x5与第二典型变量间的相关性比较高,y2与第二典型变量间的相关性比较高。 y1与前两个典型变量的相关系数为负值。
23
说明,第一对典型变量对肩宽x5和收缩压y2的解释作用不大。
另外,从形态指标组的变量和机能指标组的典型变量之间,以及机能指标组的变量和形态指标组的典型变量之间的相关系数可见,各组变量与前两对典型变量之间均有较强的相关。
24
输出结果中还给出标准化变量的典型变量系数,如图所示。 来自机能指标的第一典型变量CY1为(原始变量的右上角带“*”表示为标准化变量):
(5) 标准化变量的典型相关变量的系数 输出结果中还给出标准化变量的典型变量系数,如图所示。 来自机能指标的第一典型变量CY1为(原始变量的右上角带“*”表示为标准化变量): CY1 = – y1* – y2* y3* y4* y5* 容易看出,CY1主要代表了舒张压变音、舒张压消音、肺活量等指标。
25
易知,CX1主要代表了胸围、身高和肩宽等指标。 关于第二典型变量有:
CX1 = x1* – x2* – x3* x4* x5* – x6* 易知,CX1主要代表了胸围、身高和肩宽等指标。 关于第二典型变量有: CY2 = – y1* y2* – y3* – y4* y5* CX2 = x1* – x2* x3* – x4* – x5* x6* 可见,CY2代表了收缩压和肺活量等指标;CX2代表了身高、体重、盆骨宽等指标。
26
(6) 典型冗余分析 典型冗余分析(canonical redundancy analysis)表明,两对典型变量仍不能全面预测配对的那组变量。来自形态指标的标准方差被对方两个典型变量(CY1、CY2)解释的累积方差比例为55.86%,来自机能指标的标准方差被对方两个典型变量(CX1、CX2)解释的累积方差比例为44.61%,如图所示。
27
用“分析家”实现典型相关分析 1. 实例 【例7-2】某康复俱乐部对20名中年人测量了3项生理指标:体重(weight)、腰围(waist)、脉搏(pulse)和3项运动指标:引体向上(chins)、起坐次数(situps)、跳跃次数(jumps)。其数据列于表7-2中。
28
设表中数据已经存放在数据集Mylib.slzb中,试分析生理指标和运动指标这两组变量间的相关性。
表7-2 某康复俱乐部测量的生理指标和运动指标 设表中数据已经存放在数据集Mylib.slzb中,试分析生理指标和运动指标这两组变量间的相关性。 编号 体重weight 腰围waist 脉搏pulse 引体向上chins 起坐次数situps 跳跃次数jumps l 191 36 50 5 162 60 2 189 37 52 110 3 193 38 58 12 101 4 35 62 105 46 13 155 6 182 56 42 … 154 34 64 14 215 247 1 15 70 31 16 202 210 120 17 176 54 25 18 157 32 11 230 80 19 156 33 225 73 20 138 68 43
29
2. 分析设置 1) 在“分析家”中打开数据集Mylib.slzb;
2) 选择菜单“Statistics(统计)”“Multivariate(多元分析)”“Canonical Correlation(典型相关分析)”,打开“Canonical Correlation”对话框; 3) 在对话框中将生理指标选为Set1,运动指标选为Set2,如图所示。
30
4) 单击“Statistics(统计)”按钮,打开“Canonical Correlation:Statistics”对话框;
选中“Canonical redundancy statistics”复选框,并选择3个典型变量,如图所示。两次单击“OK”按钮,得到计算结果。
31
3. 结果分析 (1) 典型相关系数及显著性检验 第一部分的4列依次是:典型相关系数、校正的典型相关系数、近似的标准误以及典型相关系数的平方。从图7-10中可以看出,本例提取了3个典型相关系数,第一个典型相关系数CanR1 = ,其校正值为 ,标准误为 ,CanR12 = ,第一典型相关系数表示的是第一对典型相关变量之间的相关性。第二个典型相关系数为 ,第三个为 。
32
第二部分是特征根以及相应的统计量,如图所示。
可以看出,第一对典型变量所能解释的变异已占总变异的97.34%,其它两个典型相关变量的作用很小,一共只解释了总变异的3%,可以不予考虑。 右边4列给出对典型相关系数的检验,结果表明,第一行的F值2.05,p值为0.0635,在0.07的检验水平下,应拒绝原假设,认为第一相关系数以及比它小的两个相关系数不为0;后两行检验的p值都远大于显著水平0.05,故可以认为只有第一个典型相关系数不为0。
33
第三部分输出的是用四种多元统计方法进行的所有典型相关系数均为0的F检验结果,如图所示。四种方法中一般参照Wilks' Lambda检验的结果。本例中的Wilks' Lambda检验结果与前述完全一致,表明至少有一个典型相关系数在α = 的显著水平下非0。
34
(2) 典型变量系数与典型结构 第四部分给出的是用原始变量表达的典型变量系数(典型权重),如图所示。 因6个变量没有使用相同单位进行测量,因此考虑分析标准化后的系数。
35
第五部分给出的是用标准化变量(对原始变量标准化)表达的典型变量系数,如图所示。
V1 = – weight* waist* – pulse* 它近似地是waist*和weight*的加权差,在waist*上权重更大些。V1在pulse*上系数近似为0。 W1 = – chins* – situps* jumps* 它在situps*上的系数最大。这一对典型变量主要是反映waist*和situps*的负相关关系。
36
第六部分为典型结构,分别是各组原始变量与典型变量两两之间的相关系数矩阵,如图所示。可以看出:
在原始变量与本组的典型变量的相关关系(典型载荷)中,生理指标的典型变量V1与腰围waist的相关系数最大(0.9254),说明这个典型变量主要反映人的肥胖程度;运动指标的典型变量W1与起坐次数situps和引体向上次数chins有较大的负相关关系( , ),说明这个典型变量主要反映人不适合运动的程度。
37
在原始变量与配对组的典型变量的相关关系(典型交叉载荷)的分析结果中,腰围waist与运动指标的第1典型变量W1的相关性较强,这也说明了腰围大(体形较胖)则运动能力差;起坐次数和引体向上与生理指标的第1典型变量V1呈一定的负相关系数,说明人的体形肥胖程度对这两种运动能力有负面影响。
38
(3) 典型冗余分析 第七部分给出典型冗余分析的结果 上图是变量的原始方差通过它的典型变量和配对的典型变量所解释的方差比例。
39
下图是变量的标准化方差通过它的典型变量和配对的典型变量所解释的方差比例。
图中看出,生理指标通过它的第一个典型变量解释的共享方差的比例是45.08%,而被对方第一个典型变量W1解释的方差比例为28.54%,其比值28.54/45.08= 恰为CanR2。运动指标通过它的第一个典型变量解释的共享方差的比例是40.81%,而被对方个典型变量V1解释的方差比例为25.84%,其比值也是0.6330。
40
第八部分给出各原始变量和配对组的典型变量间的复相关系数(Multiple Correlations)的平方(图7-18),即原始变量与典型变量的判定系数,如weight与第1典型变量W1的相关系数为0.4938(见图7-15),则其复相关系数平方为 = 。
41
由复相关系数的平方可看出,生理指标的第一典型变量W1对chins(0. 3351)和situps(0
由复相关系数的平方可看出,生理指标的第一典型变量W1对chins(0.3351)和situps(0.4233)有一定解释能力,但对jumps(0.0167)几乎没有解释能力。而来自运动指标的第一典型变量V1对waist(0.5421)有相当好的解释能力,对weight(0.2438)较差,而对pulse(0.0701)几乎没有解释能力。其中,运动指标的第一典型变量对生理指标中的腰围指标解释能力最强,可以说明运动对体形影响较大,加强体育锻炼可以减肥。
42
7.1.4 用CANCORR过程实现典型相关分析 1. CANCORR过程 CANCORR过程的常用语法格式如下:
PROC CANCORR <选项列表>; WITH <变量列表>; VAR <变量列表>; RUN; 其中PROC CANCORR语句、WITH语句是每个过程中必不可少的,其余语句可视情况使用。
43
下面分别介绍各语句的用法和功能。 (1) PROC CANCORR语句:标示典型相关分析开始,可以规定输入输出数据集,指定分析方法和控制输出结果的显示等。语句中可设置的常用选项及其功能见表7-3。 (2) VAR语句:列出要进行典型相关分析的第一组变量,变量必须是数值型的。如果VAR语句被忽略,所有未被其他语句提到的数值型变量都将被视为第一组变量。 (3) WITH语句:列出要进行典型相关分析的第二组变量,变量必须是数值型的。该语句是每一个PROC CANCORR中必不可少的。
44
表7-3 常用选项及其功能 EDF= 指定误差的自由度。EDF数为有效的观察值减1 DATA=
表7-3 常用选项及其功能 EDF= 指定误差的自由度。EDF数为有效的观察值减1 DATA= 指定输入数据集的名字,可以是原始数据集,或用TYPE= CORR,COV,FACTOR,SSCP,UCORR,或者UCOV的数据集,如果省略则使用最新创建的数据集 OUT= 指定输出数据集的名字,输出包括原始数据及典型变量得分的数据集。当输入数据集的类型为CORR,COV,FACTOR,SSCP,UCORR,或者UCOV,就不能使用这个选项 OUTSTAT= 生成包含各种统计量的SAS数据集,包括典型相关系数和典型系数,以及你要求的多元回归统计量 VNAME= 为来自VAR语句中分析变量指定标签,作为标签的字符要用单引号引起来 VPREFIX= 为来自VAR语句的典型变量指定前缀名,默认时典型变量命名为V1,V2,V3等 WNAME= 为来自WITH语句中的分析变量指定标签,作为标签的字符要用单引号引起来 WPREFIX= 为来自WITH语句中的典型变量指定前缀名,默认为W1,W2,W3等控制输出的选项 ALL 打印所有选择的输出 CORR 打印原始变量之间的相关系数 NCAN= 规定要输出典型变量的个数 NOPRINT 禁止所有的输出 REDUNDANCY 打印冗余度分析的结果 SHORT 除了典型相关和多元统计列表以外,禁止打印典型相关分析过程默认的输出 SIMPLE 打印均值、标准差等简单统计量
45
2. 使用CANCORR过程 【例7-3】家庭特征与家庭消费之间的关系。为了了解家庭的特征与其消费模式之间的关系。调查了70个家庭的下面两组变量: x1:每年去餐馆就餐的频率,x2:每年外出看电影的频率; y1:户主的年龄,y2:家庭的年收入,y3:户主受教育程度。 x1 x2 y1 y2 y3 X1 1.00 0.80 0.26 0.67 0.34 X2 0.33 0.59 Y1 0.37 0.21 Y2 0.35 Y3 试分析两组变量之间 的关系。假定变量的相 关系数阵如表所示。
46
如下代码,利用变量的相关系数矩阵作典型相关分析:
DATA jt(TYPE=CORR); INPUT NAME $ 1-2 (X1 X2 Y1-Y3) (6.); CARDS; X X Y Y Y ; PROC CANCORR EDF=70 REDUNDANCY; VAR X1 X2; WITH Y1-Y3; RUN;
47
说明: 1) 在数据集名jt后用TYPE = CORR表明数据的类型为相关矩阵,而不是原始数据。 2) INPUT语句中用“NAME $”读取左侧的变量名,“1-2”表示变量名的字符落在第1、2列上,“(X1 X2 Y1-Y4)”表示各列数据所对应的变量名,“(6.)”表示读取数据的宽度均为6列,其中相关系数占4位,其后的空格占2位;
48
3) 选择项EDF = n – 1,为典型相关分析提供一个计算误差自由度的参考值,因为该过程中没有合适的选择项可以将原始数据的样本含量n准确地送入。如果忽略这一选择项,将以缺省值n = 10000作为样本含量参与有关计算和统计检验,显然不妥; 4) 选项REDUNDANCY表示输出典型冗余分析的结果。
49
3. 结果分析 (1) 典型相关系数及显著性检验 第一部分的4列依次是:典型相关系数、校正的典型相关系数、近似的标准误以及典型决定系数(典型相关系数的平方)。从中可以看出,本例提取了2个典型相关系数,第一个典型相关系数CanR1 = ,其校正值为 ,标准误为 ,CanR12 = ;第二个典型相关系数为 。
50
第二部分是特征根以及相应的统计量,从中可以看出,第一对典型变量所能解释的变异已占总变异的96
第二部分是特征根以及相应的统计量,从中可以看出,第一对典型变量所能解释的变异已占总变异的96.13%,另一对典型相关变量的作用很小,只解释了总变异的3.87%,可以不予考虑。 右边4列给出对典型相关系数的检验,具体采用似然比法,所求的似然比统计量近似服从F分布。第一行检验的是第一相关系数以及比它小的两个相关系数是否为0,第一行的F值8.86,p值<0.0001。后一行检验的p值远大于置信水平0.05,故可以认为只有第一个典型相关系数有统计学意义。
51
第三部分(图7-21)输出的是按照多元分析的原理进行的所有典型相关系数是否为0的检验,四种方法中一般参照Wilks' Lambda检验的结果。本例中4种方法的检验结果与前述完全一致。
52
(2) 典型变量系数与典型结构 第四部分(图左)给出的是用原始变量表达的典型变量系数。考虑标准化后的系数,即第五部分(图右)给出的典型变量和标准化变量(对原始变量标准化)间的换算公式。由于使用原始变量的相关系数阵作为输入数据,所以这两部分相同。
53
来自消费模式指标的第一典型变量V1为(原始变量的右上角带“*”表示为标准化变量):
V1 = x1* x2* 它是x1*(每年去餐馆就餐的频率)和x2*(每年外出看电影的频率)的加权和,在x1*上的权重更大些。 来自家庭特征指标的第一典型变量W1为: W1 = y1* y2* y3* 它在y2*(家庭的年收入)上的系数最大。这一对典型变量主要是反映x1*(每年去餐馆就餐的频率)和y2*(家庭的年收入)的相关关系。
54
第六部分(图7-24)为典型相关结构,分别是各组原始变量与典型变量两两之间的相关系数矩阵。
55
可以看出:x1和x2与第1典型变量V1的相关系数皆为正值,分别为0.9866和0.8872,可见V1可以作为消费特性的指标。
家庭特征指标的所有变量与第1典型变量W1的相关系数分别为:0.4211,0.9822和0.5145,可见典型变量W1主要代表了了家庭收入。 V1和W1的典型相关系数为0.6879,这就说明家庭的消费与一个家庭的收入之间其关系是很密切的。
56
第二对典型变量中V2与x2的相关系数为0.4614,可以看出V2可以作为文化消费特性的指标,第二对典型变量中W2与y1和y3之间的分别相关系数为0.8464和0.3013,可见典型变量W2主要代表了家庭成员的年龄特征和教育程度,V2和W2的相关系数为0.1869,说明文化消费与年龄和受教育程度之间有一定关系。
57
(3) 典型冗余分析 第七部分给出典型冗余分析的结果(图7-25、7-26),由于本例是对相关系数矩阵作分析故两个结果相同。 两对典型变量解释配对变量组方差的累计比例分别为42.08%和23.157%。
58
消费指标通过它的第一个典型变量解释的共享方差的比例是88. 03%,而被对方第一个典型变量W1解释的方差比例为41. 66%,其比值41
消费指标通过它的第一个典型变量解释的共享方差的比例是88.03%,而被对方第一个典型变量W1解释的方差比例为41.66%,其比值41.66% / 88.03% = 恰为Can R2(Canonical R-Square),通过它的第二个典型变量解释的共享方差的比例是11.97%,被对方第二个典型变量W2解释的方差比例为0.42%,其比值为0.0349。家庭特征指标通过它的第一个典型变量解释的共享方差的比例是46.89%,而被对方第一个典型变量V1解释的方差比例为22.19%,通过它的第二个典型变量解释的共享方差的比例是27.31%,而被对方第二个典型变量V2解释的方差比例为0.95%。
59
第八部分给出各原始变量和配对组的典型变量间的复相关系数(Multiple Correlations)的平方,即原始变量与典型变量的判定系数,如x1与第1典型变量W1的相关系数为0.6787,则其判定系数为 = 。 由复相关系数的平方可看出,消费指标的典型变量V1对y2(0.4566)有一些预测能力,但对y1(0.0839)和y3(0.1253)有微弱的预测能力。而来自家庭特征指标的典型变量W1对x1(0.4607)和x2(0.3725)有较好的预测能力。
60
7.2 对应分析 对应分析的基本概念 使用CORRESP过程实现对应分析
61
对应分析的基本概念 1. 对应分析的方法概述 对应分析,也称相应分析,它是寻求样品(行)与变量(列)之间联系的低维图示法。其关键是利用一种数据变换方法,使含有n个样品m个变量的原始数据矩阵 变成另一个矩阵 , 并使SR = Z'Z(分析变量之间关系的协方差矩阵)与SQ = ZZ'(分析样品之间关系的协方差矩阵)具有相同的非零特征根,它们相应的特征向量之间也有密切的关系。
62
对协方差矩阵SR、SQ进行因子分析,分别提取两个最重要的公因子R1、R2与Q1、Q2。由于采取的是一种特殊变换方法,公因子R1与Q1在本质上是相同的,同理,R2与Q2在本质上也是相同的,故可用dim1作为R1、Q1的统一标志,用dim2作为R2、Q2的统一标志。于是可将(R1,Q1)和(R2,Q2)两组数据点画在由(dim2,dim2)组成的同一个直角坐标系中,这样,便于考察变量与样品之间的相互关系。
63
2. 对应分析的步骤 设原始数据矩阵X = (xij)nm,i = 1, 2,…,n(n为样品数);j =1,2,…,m(m为变量数)。 1) 计算过渡矩阵Z = (zij)nm: (1) 其中,Xi.为第i行的合计、X.j为第j列的合计、X..为全部数据的合计。
64
2) 对SR = Z'Z作因子分析。 计算协差阵SR = Z'Z的特征值(又称为惯量)λ1 λ2 … λm,按其累积百分比 取前p个特征值(主惯量),通常p取2。并计算相应的单位特征向量u1,u2,从而得到因子载荷阵: 在两因子轴平面上作变量点图。
65
3) 对SQ = ZZ'作因子分析。 对上述2个特征值计算SQ中相应的单位特征向量v1 = Zu1,v2 = Zu2,从而得到因子载荷阵: 在上述因子平面上作样品点图。 说明:对应分析的提出最初是为了研究两个或多个属性变量之间的相关关系,即用于列联表(参见第9章)数据的分析。此时行变量的各个水平相当于各个样品,列变量的各个水平相当于不同的变量。
66
7.2.2 使用CORRESP过程实现对应分析 1. CORRESP过程
PROC CORRESP <选项列表>: VAR <变量列表>; TABLES <行变量列表>,<列变量列表>; ID <变量>; RUN; 其中的PROC CORRESP语句、TABLES语句或者VAR语句是必须使用的,除了这两个语句,其他语句都是可以选择的,下面分别介绍各语句的用法和功能。
67
(1) PROC CORRESP语句 标示对应分析开始,可以规定输入输出数据集,指定分析方法和控制输出结果的显示等。语句中可设置的常用选项及其功能见表7-5。 (2) VAR语句 输入数据为表格格式时使用,不能与TABLES同时使用。变量必须是数值型的。 (3) ID语句 ID语句只能与VAR语句一起使用,如果使用了TABLES或者MCA选项,就不能使用该语句。该语句只能规定一个字符变量。自动用ID语句的变量值作为输出表格列的标签,并且保存在输出数据集中。
68
(4) TABLES语句 TABLES语句用行变量和列变量构造一个列联表,行变量和列变量之间用逗号分隔。不可与ID和VAR语句同时使用。
69
2. 对二维列联表数据的对应分析 【例7-4】调查了三个民族的血型分布资料如表7-6所示,试作对应分析。
表7-6 三个民族不同血型出现的频数 假定上述数据已经存放在数据集Mylib.xx中。 血型 傣族 佤族 土家族 A 112 200 362 B 150 219 O 205 135 310 AB 40 73 69
70
(1) SAS代码 对应分析的代码如下: proc corresp data = Mylib.xx out = result;
var DZ WZ TJZ; id Type; run; options ps = 40; proc plot data=result; plot dim2*dim1="*"$Type/ box haxis=-0.2 to 0.3 by 0.1 vaxis=-0.1 to 0.3 by 0.1 HREF=0 VREF=0;
71
(2) 主要输出结果及其解释 1) 惯量与卡方分解 图7-28的第一列为Z的奇异值,最有用的是第2列(主惯量),即矩阵SR = Z'Z的特征值。原始数据有4行3列,这里提取2个特征值,即可完全解释数据的信息量。第一个特征值解释了信息量的78.07%,第二个特征值解释了21.93%,前两个特征值的累积贡献率已达100%,以第一维度为主。 自由度 = (变量数 – 1) (样品数 – 1) = 6。
72
2) 样品点坐标,如图7-29所示。相当于因子分析中的公因子载荷,表示“样品”在公因子Dim1和Dim2上的坐标。
其结果可表示为∶ 血型A = – Dim1 – Dim2 血型B = Dim Dim2 血型O = Dim1 – Dim2 血型AB = – Dim Dim2 在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个样品就是1个点,如血型A点的坐标为(– ,– )。显然,血型A在第3象限内,血型B在第1象限内,血型O在第4象限内,血型AB在第2象限内。
73
3) 样品点的汇总统计量,如图7-30所示。Quality为每个变量上两个公因子贡献率(样品点的余弦平方值中各行数值)之和(%),若此值接近于1,则表明对应的样品点所包含的信息由两个公因子就可很好地反映出来;Mass为原始数据中各列数据之和占总合计的百分比(%);Inertia为每个样品对总特征值 贡献的百分比(%),由此列数值可看出,A、O、AB三种血型贡献的百分比比较接近。
74
4) 样品点局部惯量贡献,如图7-31所示。A型血对第1公因子贡献最大;AB型血对第2公因子贡献最大。
5) 对样品点惯量贡献最大的坐标标号,这是各样品的坐标对特征值贡献最多的标志,贡献少、中、多依次用0、1、2来表示,如图7-32所示。
75
6) 样品点的余弦平方值,如图7-33所示。为每个样品点上两个公因子各自的贡献率,各行数值之和应近似为1,因为用两个公因子已经表示所有的信息,故各行之和均为1。由各行数值可看出:除了AB型之外,其他三个血型的信息主要由第1公因子给出,而AB型的信息则主要由第2个公因子来反映。 以上对样品的统计又对变量作了一遍,结果如下: 7) 变量点坐标与变量点的汇总统计量,如图所示。
76
显然,佤族与土家族之间的距离最短,傣族与佤族之间的距离最长,说明这2个民族在血型的出现频率上具有较高的正相关关系。
在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个变量也是1个点。傣族位于第一象限中,佤族位于第二象限中,土家族位于第三象限中。4个点(变量)中任何两点之间的欧氏距离如下: 显然,佤族与土家族之间的距离最短,傣族与佤族之间的距离最长,说明这2个民族在血型的出现频率上具有较高的正相关关系。 两民族间 傣族─佤族 傣族─土家族 佤族─土家族 欧氏距离
77
8) 变量点局部惯量贡献,如图左所示,图左上半部分是每个变量对公因子的贡献率(%),各列数值之和为1。显然,傣族对第1公因子贡献最大;其他两个民族对第2公因子贡献较大。
9) 变量点的余弦平方值,如图右所示。表示公因子对变量的贡献率。第一公因子主要影响傣族和佤族,分别贡献了95.28%和75.79,而第二公因子主要影响土家族,贡献率为86.76%。
78
(3) 分析结果 A型血对第1公因子贡献最大;AB型血对第2公因子贡献最大。它们的点所对应的坐标(dim1,dim2)分别为: A(– ,– ),AB(– ,0.2528);
79
每个分类在坐标系中分得很开。佤族和AB型血同在第二象限,而且两个点在Dim1上差别很小,说明两者有联系;而土家族和A型血同在第三象限,傣族和B型血同在第一象限,在Dim1上差别很小,如图所示。
80
说明:对应分析的输出结果有很多,最主要的是看第一部分中各个维度以及各个维度解释的百分比,样品点及变量点的坐标。
对图形的输出结果首先要看两个方向的区分情况,如三个民族在第一维度上分得很开,区分很好,而血型则在第二维度上区分较好。但由于第一维度携带了近80%的信息量,远大于第二维度,所以解释以第一维度为主。 还可以比较各个点在空间的分布情况,距离较近的点彼此有联系,散点间的距离越近,说明关联的倾向越明显。
81
3. 类别数较多的例子 【例7-5】疾病与人的基因型密切有关,而不同民族各种基因出现的频率不尽相同。下面是某研究者收集到的资料,试分析各种基因频率与民族之间的关系。各民族下面的小数是36种基因出现的频率。 表7-7 民族各种基因出现的频率
82
设数据文件名为mzjy,位于逻辑库Mylib中,对应分析的代码如下:
(1) SAS代码 设数据文件名为mzjy,位于逻辑库Mylib中,对应分析的代码如下: options nodate nonumber ps = 500;; proc corresp data = Mylib.mzjy out = result; var z n y h; id jy; run; options ps = 50; proc plot data=result; plot dim2*dim1="*"$jy/ box haxis=-1.1 to 1.1 by 0.2 vaxis=-1.0 to 1.0 by 0.2 HREF=0 VREF=0;
83
(2) 主要输出结果及其解释 1) 惯量与卡方分解,如图7-38所示。 这里第一列为Z的奇异值,最有用的是第2列(主惯量),即矩阵SR = Z'Z的特征值。由于前两个特征值的累积贡献率已达82.54%,所以只需取前两个特征值。将根据前两个较大的特征值分别算出与样品(基因型)、变量(民族)对应的特征向量。
84
2) 变量点坐标,如图7-39所示。 这是每个变量(指Z、N、Y、H)在两个公因子上的载荷,其结果可表示为∶ Z = – Dim Dim2 N = Dim1 – Dim2 Y = Dim Dim2 H = – Dim Dim2 在以dim1与dim2作为横轴与纵轴的直角坐标系内,每个变量就是1个点,如Z(藏族)点的坐标为(– ,0.0193)。显然,Z(藏族)、H(汉族)两个点在第2象限内;N(尼泊尔)点在第4象限内、Y(印度)点在第1象限内。
85
在以dim1与dim2作为横轴与纵轴的直角坐标系内,4个点(变量)中任何两点之间的欧氏距离如下:
显然,藏族与汉族之间的距离最短,说明这2个民族在多数基因的出现频率上具有较高的正相关关系。 两民族间 Z─N Z─Y Z─H N─Y N─H Y─H 欧氏距离 0.9657 1.0544 0.2314 1.2350 1.1694 1.2319
86
3) 变量坐标点的汇总统计量,如图7-40所示。 Quality为每个变量上两个公因子贡献率(即下文中变量坐标点的平方余弦值表中各行数值)之和(%),若此值接近于1,则表明对应的变量所包含的信息由两个公因子就可很好地反映出来;Mass为原始数据中各列数据之和占总合计的百分比(%);Inertia为每个变量对总特征值 贡献的百分比(%),由此列数值可看出,后三个民族贡献的百分比比较接近。
87
4) 变量坐标点局部惯量贡献,如图所示。 这是每个公因子上每个变量的贡献率(%),各列数值之和为1。显然,汉族对第1公因子贡献最大;尼泊尔、印度这2个民族对第2公因子贡献最大。 5) 对变量坐标点惯量贡献最大的坐标标号,如图所示。 这是各变量的坐标对特征值贡献最多的标志,贡献少、中、多依次用0、1、2来表示。
88
6) 变量坐标点的平方余弦值,如图7-43所示。 这是每个变量上两个公因子各自的贡献率,各行数值之和应近似为1,因为只用了两个主要的公因子,与最小特征值 对应的公因子的贡献未给出,故少了一些信息。由各行数值可看出:尼泊尔、印度这2个民族的信息几乎完全可由这2个公因子反映出来;而藏族的信息则不能很好地由这2个公因子来反映。
89
(3) 分析结果 B46对第1公因子贡献最大;B48、C6对第2公因子贡献最大。它们的点所对应的坐标(dim1,dim2)分别为:B46( ,0.0529)、B48(0.3626, )、C6(0.7278, )。显然,B46点落在第2象限内;B48与C6这两点落在第4象限内、且距离较近。再结合上面关于“Column Coordinates”部分的解释可知:藏族与汉族接近主要表现在B46基因型上有较高的一致性(因为这3点都落在第2象限内、且距离较近);而尼泊尔族与B48、C6两种基因型上有较高的一致性(因为这3点都落在第4象限内、且距离较近)。
90
由散点图(图7-44)可以看出三大类民族各自有着特征基因群,分别位于第一、第二和第四象限中。与汉族、藏族最接近的基因为C3,与尼泊尔族最接近的基因为B48,与印度族最接近的基因是B8。
Similar presentations