Download presentation
Presentation is loading. Please wait.
1
5 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 2014.5.6 多元统计分析 教案
医用多元统计分析 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 5 主讲人 陶育纯 教案
2
第五讲 课程名称:多元统计分析 主要教材: «医学统计学与电脑实验» 年级、专业: 2013公卫学院研究生 授课时间:2014年5月6日
(第二版) 方积乾 主编 上海科学技术出版社 年级、专业: 2013公卫学院研究生 授课时间:2014年5月6日 授课时数:4h
3
目录 第四部分 聚类分析 第五部分 判别分析 一、聚类分析的基本原理 二、聚类分析的实例 一、判别分析的基本原理 二、判别分析的实例
4
目录 练习资料 ㈠ 课堂练习习题 ㈡ 课后作业题
5
一、聚类分析的基本原理 第五部分 聚类分析 ㈠ 方法简介 聚类分析(Cluster Analysis)是定量研究分类问题的一种多元统计方法。
基本思想:根据已知数据,计算各观察个体或变量之间亲疏关系的统计量(距离或相关系数)。根据某种准则(最短距离法、最长距离法、中间距离法、重心法等),使同一类内的差别较小,而类
6
与类之间的差别较大,最终将观察个体或变量分为若干类。 医学研究中经常遇到下列情况: 同一种疾病(如肝炎),根据临床表现和化验
指标等将病人分成若干类型(甲、乙、丙、丁、 戊型肝炎); 根据疾病的若干临床表现,将病人分成轻、中、 重三类; 根据医院的病床数、门诊量、诊治水平、效益指 标等,把医院分成几类。
7
Q型聚类与R型聚类(即样品聚类clustering for
㈡ 聚类分析的种类 根据分类的原理可将聚类分析分为: 系统聚类与快速聚类 根据分类的对象可将聚类分析分为: Q型聚类与R型聚类(即样品聚类clustering for cases与变量聚类clustering for variables)
8
如何聚类? See an example. 引例 对10位应聘者做智能检验。3项指标X,Y和Z分
别表示数学推理能力,空间想象能力和语言理解能力。 其得分如下,选择合适的统计方法对应聘者进行分类。 应聘者 1 2 3 4 5 6 7 8 9 10 X 28 18 11 21 26 20 16 14 24 22 Y 29 23 27 Z
9
首先用3D散点图直观地显示上述数据。 凭肉眼和感觉看,好像分成三堆…
11
Congratulation ! Your feeling is right.
Because SPSS has the same results, too. ۞以下是SPSS的聚类分析hierarchical cluster方法 得出的树状图(Dendrogram) 结果。 太小!看不清。
12
这还差 不多。
13
۞用数学的语言表示这种感觉就是通过任意两点 的离差平方和的平方根的大小来表达这两点的 远近程度(即是否聚在一起成一类)。
如计算4号和6号的远近程度: [(21-20)2+(23-23)2+(22-22)2]½ =1 如计算4号和2号的远近程度: [(21-18)2+(23-23)2+(22-18)2]½ =5 如计算4号和3号的远近程度: [(21-11)2+(23-22)2+(22-16)2]½ ≈11.7 以上结果看出,4号和6号可以聚成一类,而4号和3号很难聚成一 类。若标准定在6上,4号和2号也可以聚成一类。
14
研究样品或变量的远近程度(或称亲疏程度)的 数量指标有两种,一种叫相似系数,性质越接近的 变量或样品,它们的相似系数越接近于1或-1,而
㈢ 聚类分析的统计量 研究样品或变量的远近程度(或称亲疏程度)的 数量指标有两种,一种叫相似系数,性质越接近的 变量或样品,它们的相似系数越接近于1或-1,而 彼此无关的变量或样品,它们的相似系数则越接近 于0,相似的为一类,不相似的为不同类;另一种 叫距离,它是将每一个样品看作p维空间的一个点, 并用某种度量测量点与点之间的距离,距离较近的 归为一类,距离较远的点应属于不同的类。
15
(1) 距离 欧式(Euclidian )距离 这个式子好像前面见过。
16
二维空间欧式距离的直观表达
17
闵可夫斯基(Minkowski)距离
18
优点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲。
马哈拉诺比斯(Mahalanobis)距离 分别表示第i个样品和第j样品的p指标观测值所组成的列向量,即样本数据矩阵中第i个和第j个行向量的转置,表示观测变量之间的协方差短阵。在实践应用中,若总体协方差矩阵未知,则可用样本协方差矩阵作为估计代替计算。 优点:马氏距离既排除了各指标间的相关性干扰,又消除了各指标的量纲。
19
兰思-维廉姆斯(Lance & Williams)距离
这是一个自身标准化的量,由于它对大的奇异值不敏感,这样使得它特别适合于较大变异的数据。缺点是没有考虑指标之间的相关性。 看来,谁也不能十全十美。
20
各变量之间不相关时,斜交空间退化为欧氏距离。
斜交空间距离 这是一个考虑指标之间的相关性的距离。当 各变量之间不相关时,斜交空间退化为欧氏距离。 杰斐瑞-马突斯塔( Jffreys & Matusita )距离
21
这是一个从向量集合的角度所定义的一种测度变量之间远近程度的相似系数。
(2) 相似系数 夹角余弦(Cosine) 这是一个从向量集合的角度所定义的一种测度变量之间远近程度的相似系数。
22
相关系数(Pearson’s correlation coefficient)
㈣ 聚类分析的统计量的选择 一般说来,同一批数据采用不同的统计量,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的统计量所衡量的亲疏程度的实际意义不同,也就是说,不同的统计量代表了不同意义上的亲疏程度。
23
因此,我们在进行聚类分析时,应注意统计量的选择。通常,选择统计量时,应注意遵循的基本原则主要有:
1. 所选择的统计量在实际应用中应有明确的意义。如在分析中,常用相关系数表示定量变量之间的亲疏程度。 2. 统计量的选择要综合考虑已对样本观测数据实施的变换方法和将要采用的聚类分析方法。如在标准化变换之下,夹角余弦实际上就是相关系数;
24
3. 适当地考虑计算工作量的大小。如对大样本的聚类问题,不适宜选择斜交空间距离。
如聚类方法若选用离差平方和法,则距离只能选用欧氏距离。 3. 适当地考虑计算工作量的大小。如对大样本的聚类问题,不适宜选择斜交空间距离。 总之,样品间或变量间亲疏测度指标的选择是一个比较复杂且带主观性的问题,我们应根据研究对象的特点作具体分折,以选择出合适的统计量。实践中,在开始进行聚类分析时,不妨试探性地多选择几个统计量,分别进行聚类,然后对聚类分析的结果进行对比分析,以确定出合适的统计量。
25
最短距离法(Nearest Neighbor)
㈤ 类与类的评价方法 最短距离法(Nearest Neighbor) x21• x12• x22• x11•
26
最长距离法(Furthest Neighbor)
x21• • x11• • • • • •
27
组间平均连接法(Between-group Linkage)
• • • • • •
28
组内平均连接法(Within-group Linkage)
• x21 x11• x12• • x22
29
重心法(Centroid clustering)
即均值点的距离 • • 中间距离法(Median clustering) Wald法(Wald’s method)
30
(1)系统聚类法(hierarchical cluster)
㈥ 聚类分析的方法介绍 (1)系统聚类法(hierarchical cluster) 系统聚类法是聚类分析方法中使用最多的一种。 分析步骤如下: 将n个样品各作为一类; 计算n个样品两两之间的距离,构成距离矩阵; 合并距离最近的两类为一新类; 计算新类与当前各类的距离。再合并、计算,直至只 有一类为止; 画聚类图,解释。
31
(2)快速聚类法(K-means cluster)
又称动态聚类、逐步聚类。适合大样本的记录聚类,可以降低运算时间。 分析步骤如下: 选择初始凝聚点; 根据欧氏距离将每个样品归类; 各类的重心代替初始凝聚点; 根据欧氏距离将每个样品归类,… … ; 直至分类达到稳定。
32
二、聚类分析的实例 SPSS操作步骤 1. 建立SPSS数据文件(见judges.sav);
的体育爱好者给某体育比赛中选手的评分情况。试根据他们各自的评分 差异分成适当的若干类。(系统聚类--变量聚类) SPSS操作步骤 1. 建立SPSS数据文件(见judges.sav); 2. 使用系统聚类法:Analyze →Classify→Hierarchical Cluster…打开系统聚类法对话框, 将全部变量(judge1~judge8) 调入Variable(s):栏中,在Cluster下选择分类对象Variables
33
SPSS输出结果 缺失值报告 项,点击 Plots…按钮打开该窗口,选择 Dendrogram →
Continue,Method…按钮默认,→ OK即可完成系统聚类。 SPSS输出结果 Proximities 缺失值报告
34
上表给出聚类分析的详细步骤,第一步变量2和4合并,第 二步3和5合并,第三步2、4又合并了6,依次类推,直到全 部合为一类。
Cluster Average Linkage (Between Groups) 上表给出聚类分析的详细步骤,第一步变量2和4合并,第 二步3和5合并,第三步2、4又合并了6,依次类推,直到全 部合为一类。
35
上图为垂直冰柱图,用于显示各变量依次在不同类别时的 分类归属情况。由于较乱,一般不用。
36
上图为树状图,横向距离表示变异的大小,树状结构表示 分类情况。由于较清晰,是最佳的结果表达方式。
Dendrogram 以5为阈值,把 8个裁判分成4类: 韩、法、美为一类 ;罗、中、俄为一类;意和爱好者各 成一类。 South Korea France United States Romania China Russia Italy Armchair En. 上图为树状图,横向距离表示变异的大小,树状结构表示 分类情况。由于较清晰,是最佳的结果表达方式。
37
SPSS操作步骤 1. 打开SPSS数据文件(见child.sav); 例15. 某研究者调查了97名幼儿的性别、月龄、体重(kg)、身高
(cm)、坐高(cm)、胸围(cm)、头围(cm)、左眼视力、右眼视力和年龄等 生长发育数据,并建立数据文件child.sav。试根据上述变量对样品进行适当的归类(计划分3类)。(快速聚类—样品聚类) SPSS操作步骤 1. 打开SPSS数据文件(见child.sav); 2. 使用快速聚类法:Analyze →Classify→K-Means… 打开快速聚类法对话框, 将分析变量(x3 ~ x10、age)调入 Variable(s):栏中,在Number of Clusters旁添入3表明拟将样 分成三类,点击Save…按钮打开该窗口,选择 Cluster
38
membership和 Distance from cluster center → Continue ,
点击Options…按钮打开该窗口,在Statistics栏中选择 Initial cluster centers、 ANOVA table 、 Cluster information for each case → Continue → OK即可完成对所有样品的快速 聚类。 SPSS输出结果 Quick Cluster See next page
39
迭代记录,本例两次迭代后即收敛。 左侧给出了三个类中心的初始位置,对应数据库里 分别是75号、70号 和17号样品。其中
70号头围为0的数据 有问题。 迭代记录,本例两次迭代后即收敛。
40
左侧给出了每 一样品的最终分类 结果以及距所属类 中心的距离。 … … … …
41
左侧给出了针 对每一变量的最终 的类中心的位置。 左侧给出最终 的类中心之间的距 离。
42
上表给出了针对每一变量的单 因素方差分析结果,用于考察 每个变量在类间是否有差异。 左侧表格给出每一类的样品数、 总有效数以及缺失值数。
43
SPSS从11.0开始,在分类统计方法(Classify)
在给出分析结果的同时,原始数据集中也生成了 两个新变量,一个名为qcl_1,用于记录聚类后每一样 品所属的类别号;另一个名为qcl_2,用于记录聚类后 每一样品距所属类中心的距离。 SPSS从11.0开始,在分类统计方法(Classify) 中新增了TwoStep Cluster (二阶段聚类)和Tree (树型聚类)两种新的方法用于改进和特殊用途的分类统计,具体详情参见SPSS相关手册。 总算完了,还得学下一个,唉…
44
一、判别分析的基本原理 第六部分 判别分析 ㈠ 方法简介
判别分析(Discriminant Analysis)是利用已知类别的样本培训模型,为未知样本判类的一种多元统计方法。 基本思想:根据已知观测对象的分类和若干表明观测对象特征的变量值,建立判别函数和判别准则, 并使其错判率最小, 对于一个未知分类的样本,
45
将所测指标代入判别方程,从而判断它来自哪个总体或属于哪一类。 判别分析在医学研究中有非常广泛的应用,主 要有以下几方面:
疾病的计算机辅助诊断研究; 慢性疾病的早期预防; 手术预后的估计和病因研究; 细菌的分类; 疾病的鉴别诊断和疾病类型的判断。
46
㈡ 判别分析与聚类分析的区别 (1) 聚类分析可以对样品进行分类,也可以对变量进行 分类;而判别分析只能对样品进行分类;
(2) 聚类分析事先不知道事物的类别,也不知道应分几 类;而判别分析必须事先知道事物的类别,也知道应分 几类; (3) 聚类分析不需要分类的历史资料,能直接对样品进 行分类;而判别分析需要分类历史资料去建立判别函数, 然后才能对样品进行分类。
47
Fisher判别法 Bayes判别法 ㈢ 判别分析的种类 一般常用的判别分析方法有:
是以距离为判别准则来分,即样本与哪个类的距离最短就分到哪一类。 Bayes判别法 是以概率为判别准则来分,即样本属于哪一类的概率最大就分到哪一类。 关于Fisher判别法和Bayes判别法的详细原理参见相应的参考书。
48
㈣ 判别分析的步骤 1. 选择变量 和判别分析的目的密切相关 反映要判类的主要特征 变量的灵敏度要强 2. 确定分析样本和验证样本
1. 选择变量 和判别分析的目的密切相关 反映要判类的主要特征 变量的灵敏度要强 2. 确定分析样本和验证样本 分析样本用于确定判别函数 验证样本用于检查判别的效果
49
分类函数内的所有变量都重要,分类函数 外的所有变量都不重要
3. 用逐步判别法筛选变量 解释变量的特异性越强,判别能力越强 不要遗漏有显著判别能力的变量 不要引入不必要的判别能力弱的变量 4. 估计分类函数 建立判别规则 分类函数内的所有变量都重要,分类函数 外的所有变量都不重要
50
5. 检查判别的效果 计算错判比率和正确判定的比率 对于正确判定的比率应该达到多少才能 接受,并没有严格的规则
51
二、判别分析的实例 例16. 某医院眼科为研究视网膜病变严重程度和视网膜电图的关系,以便用各种指标来判断糖尿病病人的视网膜病变严重程度,测量了131例糖尿病病人的10个指标:年龄(AGE),患糖尿病年数(TIME),血糖水平(GLUCOSE),视力(VISION)及视网膜电图中的A波峰时(AT),A波振幅(AV),B波峰时(BT),B波振幅(BV),QP波峰时(QPT)和QP波振幅(QPV)。同时也详细检查了这些病人的视网膜病变情况。根据统一标准诊断为轻、中或重度。病变情况变量名为GROUP,轻度记为1,中等记为2,重度记为3。试以此数据为训练样本,用判别分析建立判别函数(分类函数)。根据患者王××的检测信息:38岁,患糖尿病3年,视力1.0,at=14.25,av=268.86,bt=55.25,bv=383.39,qpt=75.5,qpv=43.18,试判断其视网膜病变属于哪一型。
52
SPSS操作步骤 1. 建立SPSS数据文件(见exp16.sav);
2. 判别分析:Analyze → Classify → Discriminant… 打开判别分析对话框,将“病变情况”变量(group)调入 Grouping Variable:栏中,点击Define range…按钮定义分类 标志值范围(本例为1~3),将待分析变量全部调入 Independents:栏中,选择 Use stepwise method指明进行逐 步判别分析,点击Statistics…按钮打开其对话框,在 Function Coefficients栏中选择Fisher’s → Continue ,点击 Method…按钮打开其对话框,在Criteria栏中选择 Use
53
SPSS输出结果 Discriminant probability of F,→ Continue ,点击Statistics…按钮打开其
对话框,在Display栏中选择Summary table → Continue , 点击Save…按钮打开其对话框,选择Predicted group membership,Probabilities of group member,→Continue, 其它选项默认即可,→ OK即可完成判别分析。 SPSS输出结果 Discriminant 见下页。
54
缺失值报告 数据库中分组变量 (病变情况)的有 效例数统计 … … … …
55
Analysis 1 Stepwise Statistics 上表给出逐步判别分析的运行记录,第一步选入“视力”变量且Wilks’ Lambda检验有统计学意义,说明此变量纳入判别函数对正确判断分类是有作用的。以下依次类推。
56
逐步判别分析过程 中每步剔除变量的 统计结果 … … … … 逐步判别分析过程 中每步引入变量的 统计结果
57
解释同前 Summary of Canonical Discriminant Functions
上表说明在分析中提取了两个维度的典型判别函数,其中第一个函 数解释了所有变异的79.2%,剩余的20.8%由第二个函数解释。
58
两个维度的典型判别 函数的假设检验。 提供了两个判别函数中 每个变量的标准化系数, 由此可写出函数式。
59
提供各个变量与主成分 的结构系数(相关系数) 矩阵。 提供分类变量各个类别重心 在空间中的坐标位置。本例 二维。
60
上表为各分类的先验概率,此处采用了等概率。
Classification Statistics 缺失值报告 上表为各分类的先验概率,此处采用了等概率。
61
重要! 上表提供了Bayes判别函数式的系数,据此可写 出具体的判别函数式。 轻: 中: 重:
62
我们可以利用上述判别式直接计算新观测值的每类
得分,得分最高的一类就是该观测值所属的类别。 上表对比显示了原始数据库中分类变量的分类构成情况以及使用判 别分析得到的分类构成情况,并提供了二者整体吻合情况,即本例 93.1%的原始样品被正确分类。 比我手里的东西还重要啊!
63
四个新变量,一个名为Dis_1,用于记录利用判别函 数判别每一样品所属的类别号;另三个名为Dis1_1、
在给出分析结果的同时,原始数据集中也生成了 四个新变量,一个名为Dis_1,用于记录利用判别函 数判别每一样品所属的类别号;另三个名为Dis1_1、 Dis2_1、Dis3_1、用于记录利用判别函数判别每一样品 属于某一类的概率。 根据王××的检测信息:38岁,患糖尿病3年,视力1.0,at=14.25,av=268.86,bt=55.25,bv=383.39,qpt=75.5,qpv=43.18,分别代入上述代表轻、中、重的三个判别函数如下: 轻: 中: 重:
64
三类判别函数的最终得分分别为y(轻)=182.91、
y(中)=180.53、y(重)=180.44, 由于“轻”类判别函数得分最高,故王××应判为轻类。
65
练习资料 ㈠ 课堂练习习题 本讲中的例14~例16数据。
[CW] 利用例16的资料建立起来的判别函数,对新观察的1例糖尿病病人张××的数据进行考核,判断其属于何种类型。 张××的检测信息:58岁,患糖尿病8年,视力0.6,at=15.25, av=350.16,bt=56.25,bv=456.78,qpt=76.0,qpv=10.68。
66
C ㈡ 课后作业题 HW6. 已知29名儿童的血红蛋白(Hemoglobin, g)、
钙(Ca, μg)、镁(Mg, μg)、铁(Fe, μg)、锰(Mn, μg)、铜(Cu,μg)的含量,已建立了数据文件hemoglo.sav。试对这些指标进行聚类分析。 C
Similar presentations