第十章 典型相关分析 §10.1 引言 §10.2 总体典型相关 §10.3 样本典型相关 §10.4 典型相关系数的显著性检验
§10.1 引言 典型相关分析(canonical correlation analysis)是研究两组变量之间相关关系的一种统计分析方法,它能够有效地揭示两组变量之间的相互线性依赖关系。 典型相关分析是由霍特林(Hotelling,1935,1936)首先提出的。
典型相关分析的应用例子 在工厂里,考察产品的q个质量指标(y1,y2,⋯,yq)与原材料的p个质量指标(x1,x2,⋯,xp)之间的相关关系; 牛肉、猪肉的价格与按人口平均的牛肉、猪肉的消费量之间的相关关系; 初一学生的阅读速度、阅读才能与数学运算速度、数学运算才能之间的相关关系; 硕士研究生入学考试的各科成绩与本科阶段一些主要课程成绩之间的相关关系; 一组政府政策变量与一组经济目标变量之间的相关关系。
§10.2 总体典型相关 一、典型相关的定义及导出 二、典型相关变量的性质 三、从相关矩阵出发计算典型相关
一、典型相关的定义及导出 设x=(x1,x2,⋯,xp)′和y=(y1,y2,⋯,yq)′是两组随机变量,且V(x)=Σ11(>0),V(y)=Σ22(>0),Cov(x, y)=Σ12,即有 其中Σ21=Σ12′。 我们研究u=a′x与v=b′y之间的相关关系,其中 a=(a1,a2,⋯,ap)′,b=(b1,b2,⋯,bq)′ Cov(u,v)=Cov(a′x,b′y)=a′Cov(x,y)b=a′Σ12b V(u)=V(a′x)=a′V(x)a=a′Σ11a V(v)=V(b′y)=b′V(y)b=b′Σ22b
所以 附加约束条件 V(u)=1,V(v)=1 即 a′Σ11a=1,b′Σ22b=1 在此约束条件下,求a∈Rp和b∈Rq,使得 ρ(u,v)=a′Σ12b 达到最大。
令 ,于是约束条件化为 α′α=1,β′β=1 利用柯西不等式(1.8.1),有 由(1.8.3)式知,当β=β1时, 达到最大 值 ,其中 是非负定矩阵 的最大特征 值,β1相应的单位特征向量。若取 (10.2.7)
则依 (1.8.1) 式知,不等式(10.2.7)中的等号成立。从而,当取 时,ρ(u,v)=a′Σ12b达到最大值ρ1(显然ρ1≤1)。称 为第一对典型相关变量,称ρ1为第一个典型相关系数。 记m为Σ12的秩,则 从而, 有m个正特征值,记为 ,相应的正交单位特征向量记为 β1,β2,⋯,βm。 和 都具有相同的非零特征值。
ρ(u2,u1)=ρ(a′x,a1′x)=Cov(a′x, a1′x)=a′Σ11a1=0 令 则α1,α2,⋯,αm为 的相应于 的正交单位特征向量;a1,a2,⋯,am为 的相应于 的特征向量;b1,b2,⋯,bm为 的相应于 的特征向量。 第一对典型相关变量u1,v1提取了x与y之间相关的最主要部分,如果这一部分还显得不够,可以在剩余相关中再求出第二对典型相关变量u2=a′x,v2=b′y,也就是a,b应满足标准化条件且应使得第二对典型相关变量不包括第一对典型相关变量所含的信息,即 ρ(u2,u1)=ρ(a′x,a1′x)=Cov(a′x, a1′x)=a′Σ11a1=0 ρ(v2,v1)=ρ(b′y,b1′y)=Cov(b′y,b1′y)=b′Σ22b1=0
ρ(u2,v2)=ρ(a′x,b′y)=a′Σ12b 达到最大。 在这些约束条件下使得 ρ(u2,v2)=ρ(a′x,b′y)=a′Σ12b 达到最大。 一般地,第i(1<i≤m)对典型相关变量ui=a′x,vi=b′y是指,找出a∈Rp,b∈Rq,在约束条件 a′Σ11a=1,b′Σ22b=1 a′Σ11ak=0,b′Σ22bk=0,k=1,2,⋯,i−1 下,使得 ρ(ui,vi)=ρ(a′x,b′y)=a′Σ12b 令 ,于是上述约束条件等价于 α′α=1,β′β=1 α′αk=0,β′βk=0,k=1,2,⋯,i−1
由 (1.8.4) 式知,在该约束条件下,当β=βi时, 达到最大值 。若取 则依 (1.8.1) 式,不等式(10.2.7)中的等号成立。所以,当取a=ai,b=bi时,ρ(ui,vi)达到最大值ρi,称它为第i个典型相关系数,称ai,bi为第i对典型系数。
二、典型相关变量的性质 1.同一组的典型变量互不相关 2.不同组的典型变量之间的相关性 3.原始变量与典型变量之间的相关系数 4.典型相关系数也是某种复相关系数 5.简单相关、复相关和典型相关之间的关系
1.同一组的典型变量互不相关 设x,y的第i对典型变量为 ui=ai′x,vi=bi′y, i=1,2,⋯,m 则有 V(ui)=ai′Σ11ai=1,V(vi)=bi′Σ22bi=1,i=1,2,⋯,m ρ(ui,uj)=Cov(ui,uj)=ai′Σ11aj=0,1≤i≠j≤m ρ(vi,vj)=Cov(vi,vj)=bi′Σ22bj=0,1≤i≠j≤m
V(u)=I,V(v)=I,Cov(u,v)=Λ 2.不同组的典型变量之间的相关性 ρ(ui,vi)=ρi,i=1,2,⋯,m 记u=(u1,u2,⋯,um)′,v=(v1,v2,⋯,vm)′,则上述两个性质可用矩阵表示为 V(u)=I,V(v)=I,Cov(u,v)=Λ 或 其中Λ=diag(ρ1,ρ2,⋯,ρm)。
3.原始变量与典型变量之间的相关系数 记A=(a1,a2,⋯,am),B=(b1,b2,⋯,bm),则原始变量与典型变量之间的协方差矩阵为 Cov(x,u)=Cov(x,A′x)=Σ11A Cov(x,v)=Cov(x,B′y)=Σ12B Cov(y,u)=Cov(y,A′x)=Σ21A Cov(y,v)=Cov(y,B′y)=Σ22B 原始变量与典型变量之间的相关矩阵为 其中 (10.2.18)
(10.2.18)式的证明 现证明第一个等式,其余三个等式的证明是完全类似的。令 其中μ1=E(x),μ2=E(y),即对x和y的各分量作标准化变换,于是
4.典型相关系数也是某种复相关系数 与y的复相关系数为 与x的复相关系数为
5.简单相关、复相关和典型相关之间的关系 当p=q=1时,x与y之间的(惟一)典型相关就是它们之间的简单相关; 可见,复相关是典型相关的一个特例,而简单相关是复相关的一个特例。 第一个典型相关系数至少同x(或y)的任一分量与y(或x)的复相关系数一样大,即使所有这些复相关系数都较小,第一个典型相关系数仍可能很大; 同样,从复相关的定义也可以看出,当p=1(或q=1)时,x(或y)与y(或x)之间的复相关系数也不会小于x(或y)与y(或x)的任一分量之间的相关系数,即使所有这些相关系数都较小,复相关系数仍可能很大。
三、从相关矩阵出发计算典型相关 有时,x和y的各分量的单位不全相同,我们希望在对各分量作标准化变换之后再作典型相关分析。
于是 因为 所以 式中 ,有 。同理 式中 ,有 。
由此可见, 为x*和y*的第i对典型系数,其第i个典型相关系数仍为ρi,在标准化变换下具有不变性,这一点与主成分分析有所不同。 由于 故x*和y*的第i对典型变量 是x和y的第i对典型变量ui=ai′x,vi=bi′y的中心化值,自然都具有零均值。 例10.2.1 设x,y有如下相关矩阵: 这里|α|<1, | γ|<1,可以保证 存在。
由于11′有惟一的非零特征值1′1=2,故 有惟一非零特征值 在约束条件 下,相应于特征值 的特征向量为 。同理,在约束条件 下,
相应于特征值 的特征向量为 。所以,第一对典型相关变量为 第一个典型相关系数为 。由于|α|<1, |γ|<1,故ρ1>|β|,表明第一个典型相关系数大于两组原始变量之间的相关系数。
§10.3 样本典型相关 设数据矩阵为 则样本协方差矩阵为 S可用来作为Σ的估计。当n>p+q时, §10.3 样本典型相关 设数据矩阵为 则样本协方差矩阵为 S可用来作为Σ的估计。当n>p+q时, 可分别作为 的估计;它们的非零特征值 可用来估计 ;
相应的特征向量 作为a1,a2,⋯,am的估计, 作为b1,b2,⋯,bm的估计。 的正平方根rj称为第i个样本典型相关系数, 称为第i对样本典型相关变量, i=1,2,⋯,m。 中心化的m对典型变量为 将样本(xj,yj),j=1,2,⋯,n代入上式,有 分别称uji和vij为(第j个样品的)xj和yj的第i个样本典型变量得分。由约束条件 可得ui的样本方差 同理可得vi的样本方差
可画出第一对典型变量得分(uj1,vj1),j=1,2,⋯,n的散点图,该图能最大限度地呈现两组变量之间的相关性,也可用来检查是否有异常值出现。如需要,可再画出第二对或更多对的典型变量得分散点图。 样本典型变量对(在前述的约束条件下)使样本相关系数达到最大,而非使(总体)相关系数达到最大;同组的样本典型变量之间是样本不相关,而非(总体)不相关;样本典型变量的样本方差为1,而非(总体)方差为1。
例10.3.1 某康复俱乐部对20名中年人测量了三个生理指标:体重(x1)、腰围(x2)、脉搏(x3)和三个训练指标:引体向上(y1)、起坐次数(y2)、跳跃次数(y3)。其数据列于表10.3.1。 表10.3.1 某康复俱乐部的生理指标和训练指标数据 编 号 x1 x2 x3 y1 y2 y3 1 191 36 50 5 162 60 2 189 37 52 110 3 193 38 58 12 101 4 35 62 105 46 13 155 6 182 56 42 7 211 8
8 167 34 60 6 125 40 9 176 31 74 15 200 10 154 33 56 17 251 250 11 169 50 120 38 12 166 52 13 210 115 64 14 215 105 247 46 1 193 36 70 16 202 37 62 54 4 25 18 157 32 230 80 19 156 225 73 20 138 68 2 110 43
的特征值分别为0.6630、0.0402和0.0053,于是 r1=0.797,r2=0.201,r3=0.073 相应的样本典型变量系数为
因此,第一对样本典型变量为 如果需要,第二对样本典型变量为
例10.3.2 在研究组织结构对“职业满意度”的影响时,作为其中一部分,邓讷姆(Dunham)调查了职业满意度与职业特性相关的程度。对从一大型零售公司各分公司挑出的n=784个行政人员,测量了p=5个职业特性变量:用户反馈(x1)、任务重要性(x2)、任务多样性(x3)、任务特性(x4)及自主权(x5)和q=7个职业满意度量:主管满意度(y1)、事业前景满意度(y2)、财政满意度(y3)、工作强度满意度(y4)、公司地位满意度(y5)、工种满意度(y6)及总体满意度(y7)。对784个被测者的样本相关矩阵为
样本典型相关系数和样本典型变量系数列于表10.3.2中。
表10.3.2 典型相关系数和典型变量系数 标准化变量 x1* 0.42 0.34 −0.86 −0.79 0.03 x2* 0.20 表10.3.2 典型相关系数和典型变量系数 标准化变量 x1* 0.42 0.34 −0.86 −0.79 0.03 x2* 0.20 −0.67 0.44 −0.27 0.98 x3* 0.17 −0.85 −0.26 0.47 −0.91 x4* −0.02 0.36 −0.42 1.04 0.52 x5* 0.46 0.73 −0.17 −0.44 rj 0.55 0.24 0.12 0.07 0.06 y1* 0.43 −0.09 0.49 −0.13 −0.48 y2* 0.21 −0.78 −0.34 −0.75 y3* −0.04 −0.61 0.35 y4* 0.02 0.93 −0.01 0.40 0.31 y5* 0.29 −0.10 0.28 −0.45 0.70 y6* −0.55 −0.41 0.69 0.18 y7* −0.11 −0.03 0.27
第一对样本典型变量为 根据典型系数,u1*主要代表了用户反馈和自主权这两个变量,三个任务变量显得并不重要;而v1*主要代表了主管满意度和工种满意度变量,其次代表了事业前景满意度和公司地位满意度变量。我们也可从相关系数的角度来解释典型变量,原始变量与第一对典型变量间的样本相关系数列于表10.3.3中。
表10.3.3 原始变量与典型变量的样本相关系数 所有五个职业特性变量与第一典型变量u1*有大致相同的相关系数,故u1*可以解释为职业特性变量,这与基于典型系数的解释不同。v1*主要代表了主管满意度、事业前景满意度、公司地位满意度和工种满意度,v1*可以解释为职业满意度—公司地位变量,这与基于典型系数的解释基本相一致。第一对典型变量u1*与v1*的样本相关系数r1=0.55,可见,职业特性与职业满意度之间有一定程度的相关性。 原始变量 样本典型变量 x u1* v1* y x1:用户反馈 0.83 0.46 y1:主管满意度 0.42 0.76 x2:任务重要性 0.73 0.40 y2:事业前景满意度 0.36 0.64 x3:任务多样性 0.75 y3:财政满意度 0.21 0.39 x4:任务特性 0.62 0.34 y4:工作强度满意度 0.38 x5:自主权 0.86 0.48 y5:公司地位满意度 0.65 y6:工种满意度 0.45 0.80 y7:总体满意度 0.28 0.50
§10.4 典型相关系数的显著性检验 一、全部总体典型相关系数均为零的检验 二、部分总体典型相关系数为零的检验
一、全部总体典型相关系数均为零的检验 设 。又设S为样本协差阵,且n>p+q。 考虑假设检验问题: H0:ρ1=ρ2=⋯=ρm=0 其中m=min{p,q}。若检验接受H0,则认为讨论两组变量之间的相关性没有意义;若检验拒绝H0,则认为第一对典型变量是显著的。(10.4.1)式实际上等价于假设检验问题 H0:Σ12=0,H1:Σ12≠0 H0成立表明x与y互不相关。 (10.4.1)
似然比检验统计量为 对于充分大的n,当H0成立时,统计量 在给定的α下,若 ,则拒绝H0,认为典型变量u1与v1之间的相关性是显著的;否则,就认为第一个典型相关系数不显著。
例10.4.1 在例10.3.1中,假设为多元正态数据,欲检验: H0:ρ1=ρ2=ρ3=0,H1:ρ1≠0 它的似然比统计量为 查χ2分布表得, ,因此在α=0.10的显著性水平下,拒绝原假设H0,也即认为至少有一个典型相关是显著的。
二、部分总体典型相关系数为零的检验 若H0:ρ1=ρ2=⋯=ρm=0经检验被拒绝,则应进一步检验假设 H0:ρ2=⋯=ρm=0 若原假设H0被接受,则认为只有第一对典型变量是有用的;若原假设H0被拒绝,则认为第二对典型变量也是有用的。 如此进行下去,直至对某个k,假设H0:ρk+1=⋯=ρm=0被接受,这时可认为只有前k对典型变量是显著的。 对于假设检验问题 H0:ρk+1=⋯=ρm=0 H1:ρk+1,⋯,ρm至少有一个不为零
其检验统计量为 对于充分大的n,当H0为真时,统计量 近似服从χ2 [(p−k)(q−k)] 。给定α,若 ,则拒绝H0,认为ρk+1是显著的,即第k+1对典型变量显著相关。 以上的一系列检验实际上是一个序贯检验,检验直到对某个k值H0未被拒绝为止。事实上,检验的总显著性水平已不是α了,且难以确定。还有,检验的结果易受样本容量大小的影响。因此,检验的结果只宜作为确定典型变量个数的重要参考依据,而不宜作为惟一的依据。通常选择尽可能小的k。
例10.4.2 在例10.3.1中,欲进一步检验: H0:ρ2=ρ3=0,H1:ρ2≠0 检验统计量为 故接受H0,即认为第二个典型相关是不显著的。因此,只有一个典型相关是显著的。