3 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 2014.4.24 多元统计分析 教案 医用多元统计分析 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 3 主讲人 陶育纯 2014.4.24 教案
第三讲 课程名称:多元统计分析 主要教材: «医学统计学与电脑实验» 年级、专业: 2013公卫学院研究生 授课时间:2014年4月24日 (第二版) 方积乾 主编 上海科学技术出版社 年级、专业: 2013公卫学院研究生 授课时间:2014年4月24日 授课时数:4h 2014.4.24
目录 第二部分 多重回归和相关(2) 一、多重线性相关 二、典型相关分析 ㈠ 多重线性相关的概念 ㈡ 多重线性相关与直线相关的区别 ㈢ 多重线性相关的实例 二、典型相关分析 ㈠ 典型相关分析的概念 ㈡ 典型相关分析的基本原理 ㈢ 典型相关分析的实例 2014.4.24
目录 三、练习资料 ㈠ 课堂练习习题 ㈡ 课后作业题 2014.4.24
一、多重线性相关 第二部分 多重回归和相关(2) ㈠ 多重线性相关概念 多重线性相关(Multiple Linear Correlation) 定义:是研究一个因变量和多个自变量间互依关系的一种统计学方法。 线性 1个因变量 k个自变量(k>1) 2014.4.24
必须满足正态分布或多元正态分布(Multivariate Normal Distribution)。 上述的因变量和自变量的地位是相同的,都 必须满足正态分布或多元正态分布(Multivariate Normal Distribution)。 多重线性相关常通过以下三个统计指标进行 分析。 简单相关系数(Simple correlation coefficient) 复相关系数(Multiple correlation coefficient) 偏相关系数(Partial correlation coefficient) 2014.4.24
㈡ 多重线性相关与直线相关的区别 直线相关 1个因变量 1个自变量 多重线性相关 1个因变量 k个自变量(k>1) 直线相关是多重线性相关的特例,是描述两个变量线性互依关系的最常用的方法,常用直线相关系数(Pearson’s correlation coefficient)表达和分析。 2014.4.24
۞简单相关系数 是一组随机变量X1,X2,…,Xp和Y中任何两个变量之间的Pearson相关系数。把这些相关系数列在一起就形成了相关系数矩阵(Correlation Matrix) 。 下例为X1,X2,X3和Y的简单相关系数矩阵。 2014.4.24
是度量一组随机变量(X1,X2,…,Xp)和Y之间的线性互依关系的指标。其计算方法为: ۞复相关系数 是度量一组随机变量(X1,X2,…,Xp)和Y之间的线性互依关系的指标。其计算方法为: 首先求Y和X1,X2,…,Xp的多重回归,得到: Y和 的简单相关系数取绝对值就称Y和(X1,X2,…,Xp)的复相关系数,记为R, 2014.4.24
۞偏相关系数 2014.4.24
几个相关系数的区别 2014.4.24
㈢ 多重线性相关的实例 例4. 石磊(1991)发表了其所在医院1970~1989年间历年门诊人次X1, 病床利用率X2, 病床周转次数X3 和住院人数Y的数据如表4所示。试求X1, X2, X3 和Y的简单相关系数矩阵、复相关系数,扣除X2的影响后X1 和Y的偏相关系数。 2014.4.24
1. 建立Excel数据文件(见exp4.xls); 2. 选择“工具”→“数据分析”打开数据分析 对话框,选择分析工具栏中的“相关系数”→确 定。 3. 在“相关系数”对话框中的“输入区域”内 输入所有变量的数据范围,选取适当的“输出区 域” →确定,即可完成计算简单相关系数矩阵。 结果见exp4.xls 。 复相关系数的结果可通过回归分析得到,过 程参见前述的多重回归分析,结果见exp4.xls 。 Excel不提供偏相关系数的计算。 2014.4.24
1. 建立SPSS数据文件(见exp4.sav); 2. Analyze → Correlate → Bivariate…打开Bivariate Correlations对话框,将Y和X1、X2、X3调入Variables:栏中, →OK即可完成简单相关系数矩阵的计算。主要结果见exp4out.spo 。 3. Analyze → Correlate → Partial…打开Partial Correlations对话框,将Y和X1调入Variables:栏中,将X3调入Controlling for:栏中→OK即可完成偏相关系数的计算。主要结果见exp4out.spo 。 2014.4.24
Excel不直接提供简单相关系数矩阵中的任 两个变量的简单相关系数的假设检验。复相关系 数的假设检验与多重回归的假设检验等价。不提 SPSS不直接提供复相关系数的计算。 复相关系数的结果可通过回归分析得到,过 程参见前述的多重回归分析,结果略。 Excel不直接提供简单相关系数矩阵中的任 两个变量的简单相关系数的假设检验。复相关系 数的假设检验与多重回归的假设检验等价。不提 供偏相关系数的假设检验。 SPSS则提供三种相关系数的假设检验。关 于简单相关系数的假设检验和偏相关系数的假设 2014.4.24
二、典型相关分析 检验均在列出相关系数的同时列出。复相关系数的假设检验也通过多重回归的假设检验获得。 ㈠ 典型相关分析的概念 典型相关分析(Canonical Correlation Analysis) 定义:是研究多个因变量和多个自变量间互依关系的一种统计学方法。 线性 k个因变量(k>1) k个自变量(k>1) 2014.4.24
采用主成分思想寻找第i对典型(相关)变量(Ui,Vi): ㈡ 典型相关分析的基本原理 采用主成分思想寻找第i对典型(相关)变量(Ui,Vi): 典型相关系数 典型变量系数或典型权重 2014.4.24
X*1,X*2,…,X*p和Y*1,Y*2,…,Y*q分别为X1,X2,…,Xp和 Y1,Y2,…,Yq的正态离差标准化值。 记第一对典型相关变量间的典型相关系数为: CanR1=Corr(U1,V1)(使U1与V1 间最大相关) 第二对典型相关变量间的典型相关系数为: CanR2=Corr(U2,V2)(与U1、V1 无关; 使U2与V2 间最大相 关)…… 第五对典型相关变量间的典型相关系数为: CanR5=Corr(U5,V5) (与U1、V1 、…、 U4、V4无关; U5与V5 间最大相关) 有: 1≥CanR1≥CanR2≥……≥CanR5≥0 2014.4.24
X1 Y1 X2 Y2 X3 Y3 X4 … … Yq Xp 典型相关分析示意图 X Y CanR1 CanR2 CanR3 CanR4 U1 U2 U3 U4 U5 V1 V2 V3 V4 V5 X3 Y3 X4 … … Yq Xp 2014.4.24
典型相关系数及其检验 (一)求解典型相关系数的步骤 求X,Y变量组的相关阵R= 求矩阵A、B 可以证明A、B有相同的非零特征根 3. 求A或B的λi(相关平方)与CanRi,i=1,…,m 4. 求A、B关于λi的特征根向量即变量系数. 2014.4.24
略。通过统计软件获得。 (二)典型相关系数计算过程 (三)典型相关系数的特点 全略才 好呢! 略。通过统计软件获得。 (三)典型相关系数的特点 两变量组的变量单位改变,典型相关系数不变,但典型变量系数改变。(无论原变量标准化否,获得的典型相关系数不变) 第一对典型相关系数较两组变量间任一个简单相关系数或复相关系数之绝对值都大,即CanR1≥max(|Corr(Xi,Yj)|) 或CanR1≥max(|Corr(X,Yj)|)≥max(|Corr(Xi,Y)|) 2014.4.24
(四)典型相关系数的假设检验 全部总体典型相关系数均为0 部分总体典型相关系数为0 2014.4.24
Test of H0: The canonical correlations in F近似检验(SAS结果) Test of H0: The canonical correlations in the current row and all that follow are zero Likelihood Approximate Ratio F Value Num DF Den DF Pr > F 1 0.06798466 2.24 30 70 0.0030 2 0.28840509 1.38 20 60.649 0.1686 3 0.63195301 0.80 12 50.561 0.6504 4 0.85521598 0.54 6 40 0.7729 5 0.97803479 0.24 2 21 0.7920 2014.4.24
Multivariate Statistics and F Approximations Statistic Value F Value Num DF Den DF Pr > F Wilks' Lambda 0.06798 2.24 30 70 0.0030 Pillai's Trace 1.71651 1.83 30 105 0.0133 Hotelling-Lawley Trace 4.95277 2.62 30 35.396 0.0032 Roy's Greatest Root 3.24221 11.35 6 21 <.0001 NOTE: F Statistic for Roy's Greatest Root is an upper boun. 2014.4.24
(五)典型变量的冗余分析 (Canonical Redundancy Analysis) 该方法由Stewart and Love 1968; Cooley and Lohnes 1971; van den Wollenberg 1977)发展。 以原变量与典型变量间相关为基础。 通过计算X、Y变量组由自己的典型变量解释与由对方的典型变量解释的方差百分比与累计百分比,反映由典型变量预测原变量的程度。 2014.4.24
X原变量的相关被典型变量解释的百分比 典型 变量 编号 X1,X2,X3,X4,X5,X6 被U1,U2,…,U5解释 典型相关系数的平方 被V1,V2,…,V5解释 百分比 累计百分比 1 0.4999 0.7643 0.3821 2 0.1024 0.6023 0.5436 0.0557 0.4377 3 0.1016 0.7039 0.2611 0.0265 0.4643 4 0.1378 0.8417 0.1256 0.0173 0.4816 5 0.1306 0.9724 0.0220 0.0029 0.4844 2014.4.24
Y原变量的相关被典型变量解释的百分比 典型 变量 编号 Y1,Y2,Y3,Y4,Y5 被V1,V2,…,V5解释 典型相关系数平方 被U1,U2,…,U5解释 百分比 累计百分比 1 0.3960 0.7643 0.3027 2 0.1537 0.5497 0.5436 0.0836 0.3862 3 0.1201 0.6698 0.2611 0.0313 0.4176 4 0.1424 0.8122 0.1256 0.0179 0.4355 5 0.1878 1.0000 0.0220 0.0041 0.4396 2014.4.24
实例冗余分析的解释 U1,U2,…,U5并没有完全概括X变量的全部信息(97.24%),而V1,V2,…,V5 却概括了Y变量的全部信息(100%); V1,V2,…,V5中仅蕴含X变量信息的48.44%,而U1,U2,…,U5中仅蕴含Y变量信息的43.96%。 2014.4.24
㈢ 典型相关分析的实例 例5. 在某个健身俱乐部,测量20个中年男性的3个生理指标:体重、腰围和心率以及3个反映运动能力的指标:引体向上、仰卧起坐和跳绳(见下表)。请分析生理指标和运动能力之间的相关性。 2014.4.24
SAS分析程序 实际不能省略啊! 指定第一组变量对应的典型相关变量的命名前缀 指定第二组变量对应的典型相关变量的命名前缀 第一组变量 2014.4.24
SAS分析结果1 两组变量的描述统计结果 2014.4.24
SAS分析结果2 两组变量 各自的相 关系数矩阵 两组变量 间的相 关系数矩阵 2014.4.24
SAS分析结果3 第一部分依次为:典型相关系数、校正的典型相关系数、近似的标准误 和典型决定系数; 第二部分主要是特征根有关的统计量和典型相关系数的假设检验结果。 2014.4.24
SAS分析结果4 多变量统计量与F近似检验 为0的检验,四种方法中一般参照Wilks’ Lambda检验的 结果。 按照多元方差分析的原理进行第一典型相关系数是否 为0的检验,四种方法中一般参照Wilks’ Lambda检验的 结果。 2014.4.24
SAS分析结果5 2014.4.24
SAS分析结果6 两组典型变量都分别概括了自己原始变量的全部信息(100%),但包含对方原始变量的信息都很低(25.73%和28.30%)。 2014.4.24
三、练习资料 ㈠ 课堂练习习题 本讲中的例4. 、例5.数据; 2014.4.24
C ㈡ 课后作业题 对《医学统计学与电脑实验》(第二版) 第二十七章Page465 例27.1数据作典型相关 分析。(见数据文件hw2data.xls)其中X1~X6 为形态指标, Y1~Y5为功能指标。 C 2014.4.24