多元统计分析 何晓群 中国人民大学出版社 2017/3/13 1 中国人民大学六西格玛质量管理研究中心.

Slides:



Advertisements
Similar presentations
质数和合数 中心小学 顾禹 人教版小学五年级数学下册 一、激趣导入 提示:密码是一个三位 数,它既是一个偶数, 又是 5 的倍数;最高位是 9 的最大因数;中间一位 是最小的质数。你能打 开密码锁吗?
Advertisements

因数与倍数 2 、 5 的倍数的特征

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
第九章 SPSS的聚类分析.
第十一章SPSS的聚类分析 11.1聚类分析的一般问题 聚类分析的意义
資料概說 1.1 基本名詞介紹 1.2 資料型態 1.3 基本操作 商管研究資料分析SPSS的應用 Chapter 1 資料概說.
第五章 聚类分析 第一节 引言 第二节 相似性的量度 第三节 系统聚类分析法 第四节 K均值聚类分析 第五节 有序样品的聚类分析法
第十一章 多变量的可视化分析 第一节 引言 第二节 折线图分析法 第三节 条形图分析法 第四节 散点图分析法 第五节 雷达图分析法
聚类分析( cluster analysis)
插入超链接 高邮市第一实验小学 范太国 任务一:设置文本超链接 任务一:设置文字超链接 步骤:1、选定文字并右击,在快捷菜单 中选择“超链接”命令。 2、在弹出的对话框中选择左侧“链接到:”中的“本文档中的位置(A)”项,在“请选择文档中的位置(C):”中选择需要链接的幻灯片,单击“确定”按钮。
如何使用 Excel 與SPSS繪製 統計圖型
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第十七章 SPSS系统在传播学研究中的应用
在PHP和MYSQL中实现完美的中文显示
第八章 菜单设计 §8.1 Visual FoxPro 系统菜单 §8.2 为自己的程序添加菜单 §8.3 创建快捷菜单.
欢迎访问 下载课件和数据 2018/11/30 中国人民大学六西格玛质量管理研究中心.
第六章 因子分分析 §6.1 因子分析的基本理论 §6.2 因子载荷的求解 §6.3 因子分析的步骤与逻辑框图 §6.4 因子分析的上机实现
辅导课程六.
元素替换法 ——行列式按行(列)展开(推论)
第一讲: 基本流程(1).
计算机数学基础 主讲老师: 邓辉文.
Online job scheduling in Distributed Machine Learning Clusters
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
第十七章 相關係數 17.1 前言 17.2 相關係數 17.3 功能視窗(Bivariate) 17.4 範例(Bivariate)
第十章 方差分析.
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法.
聚类分析 电子工业出版社.
使用矩阵表示 最小生成树算法.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
多元统计分析 何晓群 中国人民大学出版社 2019/4/4 中国人民大学六西格玛质量管理研究中心.
宁波市高校慕课联盟课程 与 进行交互 Linux 系统管理.
SOA – Experiment 2: Query Classification Web Service
介绍: 1、主成分分析与因子分析的概念 2、主成分分析与因子分析的过程
模型分类问题 Presented by 刘婷婷 苏琬琳.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
实验九 SPSS聚类分析.
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法
聚类 IRLAB.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
实体描述呈现方法的研究 实验评估 2019/5/1.
Web安全基础教程
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
第六章 素材的加工与处理 第13讲 用GoldWave进行音频的截取、合并、淡入淡出操作
第4课时 绝对值.
第7章 基本统计分析 2019/5/14.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
分数再认识三 真假带分数的练习课.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第8章 创建与使用图块 将一个或多个单一的实体对象整合为一个对象,这个对象就是图块。图块中的各实体可以具有各自的图层、线性、颜色等特征。在应用时,图块作为一个独立的、完整的对象进行操作,可以根据需要按一定比例和角度将图块插入到需要的位置。 2019/6/30.
聚类分析(第2部分) Cluster Analysis 统计本科应用多元分析教学.
创建、启动和关闭Activity 本讲大纲: 1、创建Activity 2、配置Activity 3、启动和关闭Activity
基于学案制作ppt 录屏工具使用 郑建彬.
位似.
使用Fragment 本讲大纲: 1、创建Fragment 2、在Activity中添加Fragment
§4.5 最大公因式的矩阵求法( Ⅱ ).
培训课件 AB 变频器的接线、操作及参数的备份 设备动力科.
第二次课后作业答案 函数式编程和逻辑式编程
最小生成树 最优二叉树.
多个Activity的使用 本讲大纲: 1、使用Bundle在Activity之间交换数据 2、调用另一个Activity并返回结果
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

多元统计分析 何晓群 中国人民大学出版社 2017/3/13 1 中国人民大学六西格玛质量管理研究中心

第三章 聚类分析 §3.1 聚类分析的思想 §3.2 相似性度量 §3.3 类和类的特征 §3.4 系统聚类法 §3.5 模糊聚类分析 §3.1 聚类分析的思想 §3.2 相似性度量 §3.3 类和类的特征 §3.4 系统聚类法 §3.5 模糊聚类分析 §3.6 K-均值聚类和有序样本聚类 §3.7 计算步骤与上机实现 §3.8 社会经济案例研究 2017/3/13 中国人民大学六西格玛质量管理研究中心

§3.7 计算步骤与上机实践 本书以SPSS15.0软件来说明前面讲述的几种聚类法的实现过程。具体步骤如下: §3.7 计算步骤与上机实践 本书以SPSS15.0软件来说明前面讲述的几种聚类法的实现过程。具体步骤如下: *分析所需要研究的问题,确定聚类分析所需要的多元变量; *选择对样品聚类还是对指标聚类; *选择合适的聚类方法; *选择所需的输出结果。 我们将实现过程用逻辑框图表示为图3.8。 2017/3/13 3 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.7 计算步骤与上机实践 2017/3/13 4 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.7 计算步骤与上机实践 § 3.7.1 系统聚类法 3.7.1 系统聚类法 §3.7 计算步骤与上机实践 § 3.7.1 系统聚类法 3.7.1 系统聚类法 用SPSS软件自带的数据文件World95.sav来做一个实例分析。 为了研究亚洲国家的经济发展水平和文化教育水平,以便于对亚洲国家进行分类研究,这里我们进行聚类分析(在World95.sav数据中筛选出亚洲国家,使用Data→Select Cases→If condition is satisfied中选入region=3)。 详细步骤如下: (1) 打开数据。使用菜单中File→Open命令,然后选中要分析的数据World95.sav。 2017/3/13 5 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.1 系统聚类法 (2)在菜单中的选项中选择Analyze→Classify命令,Classify命令下有两个聚类分析命令,一是K-means cluster(K­-均值聚类),二是Hierarchical cluster(系统聚类法)。这里我们选择系统聚类法。 (3) 在系统聚类法中,我们看到Cluster下有两个选项,Cases(样品聚类或Q型聚类)和Variables (变量聚类或R型聚类)。这里我们选择对样品进行聚类。 (4) Display下面有两个选项,分别是Statistics (统计量)、Plots(输出图形),我们可以选择所需要输出的统计量和图形。 2017/3/13 10 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.1 系统聚类法 (5) 在系统聚类法中底下有四个按纽,分别是Statistics、Plots、Method、Save。 (a)在Statistics中,有Agglomeration schedule(每一阶段聚类的结果),Proximity matrix(样品间的相似性矩阵)。由Cluster membership可以指定聚类的个数,none选项不指定聚类个数,Single solution指定一个确定类的个数,Range of solution指定类的个数的范围(如从分3类到分5类)。 (b)在Plots中,有Dendrogram(谱系聚类图,也称树状聚类图)、Icicle(冰柱图)、Orientation指冰柱图的方向(Horizontal 水平方向、Vertical垂直方向)。 (c)在Method中, Cluster可以选择聚类方法,Measure中可以选择计算的距离。 (d)在Save中,可以选择保存聚类结果。 选好每个选项后,点“OK”就可以执行了。 2017/3/13 12 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.1 系统聚类法 在这个数据文件中,我们选择的变量(Variables(s))有Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country(国家或地区)来标识(Label Cases)本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。 这里我们将原始变量标准化(在Method选项下Transform Values的Standardize空白框内,选择Z Scores),在Statistics选项中选择Agglomeration Schedule,聚类方法选择组内联结法(Within-group linkage),计算距离选择平方欧氏距离,输出冰柱图和树状聚类图。得到的结果如下: 2017/3/13 17 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.1 系统聚类法 输出结果中,表3.7表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算距离使用的是平方欧氏距离,所以样品间距离越大,样品越相异,如果我们计算距离选择Pearson相关系数,则接近度矩阵是相似性矩阵。由表中矩阵可以看出,Bangladesh(孟加拉国)与Cambodia(柬埔寨)的距离是最小的,因此它们最先聚为一类。 2017/3/13 20 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

接近度矩阵 2017/3/13 21 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

聚类冰柱图 22 2017/3/13 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.1 系统聚类法 图3.12是冰柱图,也是反映样品聚类情况的图,如果按照设定的类数,在那类数的行上从左到右就可以找到各类所包含的样品。比如我们希望分为三类,最左边的类数应选3,每个样品右边都有一列X,如果某个样品右边的X个数少于3,那么它和前面多于3个X的样品聚为一类,如此下去,直到找到全部三类为止。例如,Hong Kong右边的列只有两个X,那么它就与Japan和Singapore聚为一类了,而China右边的列只有一个X,那么从Taiwan到China又被聚为一类,后面样品聚为另一类。 2017/3/13 23 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

表3-8 组内连接法聚合表

§ 3.7.1 系统聚类法 表3.8是反映每一阶段聚类的结果,Coefficients表示聚合系数,第2列和第3列表示聚合的类,比如第一阶段时(Stage=1)第2个样品——Bangladesh(孟加拉国)与第3个样品——Cambodia(柬埔寨)聚为一类,注意这时有16类(17-1=16)。因此某阶段的分类数等于总的样品数减去这个阶段的序号。 2017/3/13 25 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

聚合系数曲线 将表3-8的聚合系数利用Excel作出聚合系数随分类数变化曲线,如图3-13. 中国人民大学六西格玛质量管理研究中心 2017/3/13 26 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.1 系统聚类法 图3.13是聚合系数随分类数变化的曲线。由图可以看出,当分类数为3或4时, 曲线变得比较平缓,这个分类数也符合我们分类的目的。 2017/3/13 27 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

系统树状图 2017/3/13 28 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

图3.14 树状聚类图, 图3.14是树状聚类图,从图中可以由分类个数得到分类情况。如果我们选择分类数为3,就从距离为10的地方往下切,得到分类结果如下。{1:孟加拉国、柬埔寨、阿富汗、印度、巴基斯坦};{2:香港、新加坡、日本};{3:泰国、越南、中国、印度尼西亚、马来西亚、菲律宾、韩国、台湾和朝鲜}。我们可以从经济发展水平和文化教育水平来理解所作的分类。第2类应该是亚洲国家中经济发达程度最高的国家或地区,第1类的经济水平和文教水平都比较低,第3类国家的经济水平和文教水平居中。 2017/3/13 29 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.2 快速聚类法 同样我们使用上面的数据文件World95.sav,从中筛选出亚洲国家,试图将亚洲国家按经济和文教水平分为3类。可以使用快速聚类法对样品进行聚类。 我们使用的变量有Country(国家或地区)、Urban(城市人口比例),Lifeexpf(女性平均寿命)、Lifeexpm(男性平均寿命)、Literacy(有读写能力的人所占比例)、Gdp_cap(人均国内生产总值),以Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家进行聚类。 2017/3/13 30 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.2 快速聚类法 在SPSS软件中选择Analyze→Classify→K-Means Cluster。进入K-均值聚类对话框以后,将上面5个变量选入Variable,将Country用于标识(Label cases by)。将分类数(Number of clusters)定为3。我们可以在Option选项中选择Initial cluster center(最初分类重心),ANOVA(方差分析表),Cluster information for each case(每个样品的分类信息)。得到如下分类结果: 2017/3/13 31 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.2 快速聚类法

§3.7 计算步骤与上机实践 2017/3/13 33 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.2 快速聚类法 输出结果中表3.9表示最初各类的重心,也就是种子点。表3.10是样品的分类情况。这里我们看到快速聚类法将亚洲国家或地区分为这样3类。{1:阿富汗、孟加拉国、柬埔寨、中国、印度、印度尼西亚、马来西亚、朝鲜、巴基斯坦、泰国、越南}。{2:香港、日本、新加坡}。{3:韩国、台湾}。我们也可以对分类结果做分析。第1类国家或地区经济和文教卫生水平较低。第2类国家或地区是亚洲国家或地区中的佼佼者,其经济发达程度和文教卫生水平都是很高的。第3类国家或地区处于两者中间。这个结果可以结合表3.13(最后各类的重心)来分析,我们看到第2类的人均GDP比另外两组要高。 2017/3/13 34 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.2 快速聚类法

§ 3.7.2 快速聚类法 36 2017/3/13 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§ 3.7.2 快速聚类法 表3.12是方差分析表,但是应当注意值只能作为描述所用,而不能根据该值判断各类均值是否有显著差异。通过方差分析表我们可以看出,有4个变量对分类贡献显著。 2017/3/13 37 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

继续使用上面的例子,希望将亚洲国家或地区分成3类进行分析研究。这里我们使用S-Plus2000软件。 §3.7.3 计算步骤与上机实践 模糊聚类法 继续使用上面的例子,希望将亚洲国家或地区分成3类进行分析研究。这里我们使用S-Plus2000软件。 (略) 2017/3/13 38 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究 2017/3/13 39 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究 例3.5 城镇居民消费水平通常用表3.15中的八项指标来描述,八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际就是对指标聚类。原始数据列于表3.15。 将原始数据录入SPSS,并依次点击“Analyze”→ “Correlate” →“Bivariate”,打开Bivariate Correlations对话框,把八个变量选入Variables栏中,单击“OK”,得到这八个指标对应的相关系数,列于表3.16。 40 2017/3/13 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究 2017/3/13 45 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究 表3.16中最大的相关系数为r4,8=0.837,将G4和G8并成一新类G9,然后计算G9与各类的相关系数,再找最大的相关系数,每次缩小一类得图3-17。 我们可以看出全国城镇居民得消费结构大致可以分为三个方面,一类是各种副食、日用品及交通通信、文化教育和住房等支出,这是在消费结构中起主导作用的方面;其次是居民购买烟、酒、饮料及着装支出;粮食和水电燃料是两项很重要的消费指标,但目前在城镇居民的消费中占的比例较小,可将它们归并为同一类。

§3.8 社会经济案例研究 2017/3/13 47 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究 上面介绍的几种系统聚类方法,并类的原则和步骤基本一致,所不同的是类与类的距离有不同的定义。其实可以把这几种方法统一起来,有利于在计算机上灵活地选择更有意义的谱系图。

§3.8 社会经济案例研究 对例3.5,采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。 §3.8 社会经济案例研究 对例3.5,采用欧氏距离分别用类平均法、最短距离法、最长距离法把31个省市分类。 类平均法聚类在SPSS中的操作为:点选“Analyze”→“Classify” →“Hierarchical Cluster”,打开Hierarchical Cluster Analysis对话框,将八个聚类指标选入Variables栏中,将表示地区的变量选入Label Cases By栏中,按“Plots”按钮,在弹出的窗口中选中Dendrogram(谱系图)选项,按“Continue”返回主对话框,在按“Method”按钮,在Cluster Method下拉菜单中选择Between-groups linkage(组间连接法,即类平均法)选项,返回主对话框后按“OK”即可得到聚类结果。 2017/3/13 49 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究 最短距离法和最长距离法操作步骤与类平均法一样,只不过要在Cluster Method下拉菜单中分别选择Nearest Neighbor和Furthest Neighbor选项。图3.18、图3.19、图3.20分别显示了三种方法的分类结果。为便于对照,将三种方法分类的结果综合列于表3.18。 直观看出,类平均法分为三类:{1,9,11,19}为第一类,{13,2,22,10}为第二类,其他为第三类;最短距离法分为两类,{1,9,11,19}为一类,其余的省市归为一大类;最长距离法也分为三类:{1,9,11,19}为第一类,{10,22,2,13,26}为第二类,其余的省市为第三类。很显然,这三种方法的分类效果是有差异的。 2017/3/13 50 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究 那么究竟采用哪一种分类为好呢?一种方法是根据分类问题本身的知识来决定取舍。另一种方法是将几种方法的共性取出来,有争议的样品根据其实际情况再划分。综合考虑这两点,笔者认为从全国各省、市、区的消费情况来看,分为三类较为合适。 由分类结果可以看出,类平均法和最长距离法的分类结果基本上一致,只是在西藏应该划入第二类还是第三类上存在差异,从表3.15的实际情来看,西藏的经济发展和消费水平与始终处在第二类的福建、天津、重庆和江苏有较大差距,因此划入第三类较为合适,即这个聚类分析用类平均法较为合适。 2017/3/13 51 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 类平均法树状图 52 2017/3/13 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 最短距离法树状图

§3.8 最长距离法树状图 2017/3/13 54 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究 例3.6 我们仍以2005年31个省、市、自治区的城镇居民月平均消费支出数据为例,在SPSS中利用K-均值法对31个省、市、自治区的城镇居民消费水平进行聚类分析。 在SPSS中依次点击“Analyze”→“Classify” →“K-Means Cluster”,打开K-Means Cluster Analysis对话框,将8个变量选入Variable框中,将表示地区的变量选入Label Cases By栏中,将分类数(Number of clusters)定为3。另外,点击Iterate按钮可以在其中输入最大迭代次数(Maximum iterations)和收敛标准(Convergence criterion);在Save按钮中可以选择保存样本的聚类结果(Cluster membership)和各样本距各自中心点的距离(Distance from cluster center);在Options按钮中可以选择输出初始类中心点、方差分析表等结果,读者可以根据实际情况来选择。点击“OK”得到聚类结果如下: 2017/3/13 56 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究 2017/3/13 58 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究 其中第一个表显示了3个类的初始类中心情况,可以看出,第一类的各指标值总体上是最优的,往下依次为第二类和第三类。第二个表展示了3个类中心点每次迭代的偏移情况,可知第一次迭代3个类的中心点分别偏移了42.593,48.416,66.676,直到第三次迭代3个类的中心点偏移才达到指定判定标准(0)。第三个表展示了3个类的最终类中心情况,总体来看,第一类各指标值仍是最优的。最后一个表给出了各类中的样品数目,第一类包括4个地区,第二类包括6个地区,第三类包括21个地区。 2017/3/13 59 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束

§3.8 社会经济案例研究

The end! Thanks! 2017/3/13 61 中国人民大学六西格玛质量管理研究中心