统 计 学 (第三版) 2008 作者 贾俊平 统计学.

Slides:



Advertisements
Similar presentations
因数与倍数 2 、 5 的倍数的特征
Advertisements

3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,

2 和 5 的倍数的特征 运动热身 怎样找一个数的倍数? 从小到大写出 2 的倍数( 10 个): 写出 5 的倍数( 6 个) 2 , 4 , 6 , 8 , 10 , 12 , 14 , 16 , 18 , 20 5 , 10 , 15 , 20 , 25 , 30.
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
7.1 内置对象概述及分类 JSP 视频教学课程. JSP2.2 目录 1. 内置对象简介 1. 内置对象简介 2. 内置对象分类 2. 内置对象分类 3. 内置对象按功能区分 3. 内置对象按功能区分 4. 内置对象作用范围 4. 内置对象作用范围.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
阻塞操作. 在 linux 里,一个等待队列由一个 wait_queue_head_t 类型的结构来描述 等待队列的初始化: static wait_queue_head_t testqueue; init_waitqueue_head(&testqueue);
第九章 SPSS的聚类分析.
第十一章SPSS的聚类分析 11.1聚类分析的一般问题 聚类分析的意义
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
第五章 聚类分析 第一节 引言 第二节 相似性的量度 第三节 系统聚类分析法 第四节 K均值聚类分析 第五节 有序样品的聚类分析法
龙星课程—肿瘤生物信息学上机课程 曹莎
多元统计分析 何晓群 中国人民大学出版社 2017/3/13 1 中国人民大学六西格玛质量管理研究中心.
聚类分析( cluster analysis)
黑龙江 吉林 新疆 辽宁 甘肃 内蒙古 北京 河北 宁夏 青海 山西 山东 陕西 河南 江苏 西藏 安徽 上海 四川 湖北 浙江 江西 湖南
整理者:浙江省建德市新安江第一小学 秦爱军
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
不确定度的传递与合成 间接测量结果不确定度的评估
辅导课程六.
元素替换法 ——行列式按行(列)展开(推论)
第一讲: 基本流程(1).
第十章 方差分析.
1085至1125年间的官员地域分布与社会关系 1.
绿色圃中小学教育网 比例 比例的意义 绿色圃中小学教育网
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法.
聚类分析 电子工业出版社.
第8章 静电场 图为1930年E.O.劳伦斯制成的世界上第一台回旋加速器.
使用矩阵表示 最小生成树算法.
2.1.2 空间中直线与直线 之间的位置关系.
第七章 参数估计 7.3 参数的区间估计.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
C++语言程序设计 C++语言程序设计 第七章 类与对象 第十一组 C++语言程序设计.
C语言程序设计 主讲教师:陆幼利.
模型分类问题 Presented by 刘婷婷 苏琬琳.
实验九 SPSS聚类分析.
第17章 集群分析 本章的學習主題  1. 集群分析的概念 2. 相似性及最近距離的衡量 3. 階層分析法 4. 非階層分析法
WPT MRC. WPT MRC 由题目引出的几个问题 1.做MRC-WPT的多了,与其他文章的区别是什么? 2.Charging Control的手段是什么? 3.Power Reigon是什么东西?
聚类分析法预测(Cluster Analysis)
用计算器开方.
聚类 IRLAB.
Lightweight Data-flow Analysis for Execution-driven Constraint Solving
实体描述呈现方法的研究 实验评估 2019/5/1.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
iSIGHT 基本培训 使用 Excel的栅栏问题
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
PROJECT NAME 项目名称 张三 安徽xx文化传播有限公司.
第4课时 绝对值.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
分数再认识三 真假带分数的练习课.
集群分析(Cluster) 根據觀察值在一群變項上的測量值進行分類的多變量分析方法。 在不同專業領域也稱為
2.3.运用公式法 1 —平方差公式.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
基于列存储的RDF数据管理 朱敏
我们能够了解数学在现实生活中的用途非常广泛
第8章 创建与使用图块 将一个或多个单一的实体对象整合为一个对象,这个对象就是图块。图块中的各实体可以具有各自的图层、线性、颜色等特征。在应用时,图块作为一个独立的、完整的对象进行操作,可以根据需要按一定比例和角度将图块插入到需要的位置。 2019/6/30.
聚类分析(第2部分) Cluster Analysis 统计本科应用多元分析教学.
线性规划 Linear Programming
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
《偏微分方程》第一章 绪论 第一章 绪论 1.1.
§4.5 最大公因式的矩阵求法( Ⅱ ).
第二次课后作业答案 函数式编程和逻辑式编程
3.3.2 两点间的距离 山东省临沂第一中学.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

统 计 学 (第三版) 2008 作者 贾俊平 统计学

现实是复杂的,是绝对不可能由一 个有组织的科学模型完全描述出来 的。 ——Thomas Kuhn 统计名言 现实是复杂的,是绝对不可能由一 个有组织的科学模型完全描述出来 的。 ——Thomas Kuhn 2008年8月

第 12 章 聚类分析 12.1 聚类分析的基本原理 12.2 层次聚类 12.3 K-均值聚类

学习目标 聚类分析的基本思想和原理 层次聚类和K-均值聚类的基本过程 解释聚类的结果 层次聚类和K-均值聚类的差异及应用条件 聚类分析的注意事项 用SPSS进行聚类分析 As a result of this class, you will be able to ... 2008年8月

怎样把消费者分类? 南京雅兴市场研究有限公司在A城市的14个城区抽取3000个15岁以上具有独立购买能力的消费者样本, 研究消费者的生活方式。调查中采用一系列关于对社会活动、价值观念等内容的陈述,请消费者根据自己的情况做出评价。评价结果采用7分评价法,1分表示“非常同意”,7分表示“非常不同意” 对调查结果先通过因子分析将一系列的测试语句进行综合,根据消费者的回答情况,将这些语句分为几大类,最后得到5个主要因子,它们的含义分别是:对时尚的观点、个人的事业性与进取性、对经济利益的看法、社交能力与影响力、生活的计划性。根据因子分析的结果对样本的回答按照新的类型进行重新评估打分,然后根据这些评价进行聚类分析 根据每一类消费者的因子的特征,最终将消费者的生活方式分为6个类别,即:时尚型、自保型、领袖型、上进型、迷茫型(缺乏生活目标型)和平庸型 2008年8月

怎样把消费者分类? 时尚型:这类消费者约占样本量的约21%,主要特征为:年龄相对较轻,平均年龄在35岁左右,教育程度相对较高,一般具有高中以上文化程度,虽然平均家庭月收入较好,平均在2200元左右,同时也是分散程度最高的,表明喜爱时尚并不是高收入者的专利。这一类型中的三资企业员工的比例最大,未婚的比例较大,约占1/4,女性的比例为55%,高于男性 自保型:这类消费者占16%,他们更多的是为自己的生计考虑,考虑自己能否有稳定的经济来源,维持家庭的经济保障是他们最关心的问题。这些人的平均受教育程度较低,中年人的比例较高,平均年龄在44岁左右,家庭月收入较低,平均在1600元左右,国营企业员工以及离退休人员的比例较高。女性的比例高于男性 领袖型:这类消费者占13%。教育程度处于社会平均水平,主要为中年人,有较多的生活阅历,年龄多在45-54岁之间。家庭月平均收入一般在1800元左右。在职业上没有显著特征。已婚比例是各类消费者中最高的,这似乎表明有稳定的家庭也是成为领袖的一个条件。男性比例占55%,高于女性   2008年8月

怎样把消费者分类? 上进型:占消费者总人数的不到13%。他们对生活的态度积极,多为未婚青年,平均年龄在28岁左右,25岁以下的占40%,单身未婚的比例占1/2以上。职业上的显著特征是:1/3为学生,三资企业员工的比例达1/10。男性的比例高于女性。这类消费者是受教育程度最高的,他们的平均家庭收入却是最高的,月平均收入在2300元左右 迷茫(缺乏生活目标)型:约占15%,他们既不注重经济保障,也不参加培训,生活节奏较缓慢。这类消费者主要为退休人员,约占该类型人员的2/3,剩下的主要为国营企业员工。平均年龄在50岁以上,他们的教育程度是最低的,家庭收入也是最低的,平均不到1600元。在性别分布上,女性的比例远远高于男性,占62% 平庸型:这类消费者约占23%,最大的特点是生活没有计划,日常生活没有规律,而其他指标则均处于中间状态。这类消费者在年龄上比较分散,从15岁到54岁之间的各年龄段均有相当比例,平均教育程度一般,家庭月平均收入在1900元左右。在职业上没有显著特征,但待岗人员的比例稍高于其他各类型。在性别上,男性稍高于女性 2008年8月

聚类分析 (cluster analysis) 在现实生活中,分类问题是十分常见的 根据经济发展水平把各个国家分成发达国家、中等发达国家、发展中国家 按照消费者的特征对消费者分类,按照产品特征对产品分类 这些分类中,有的事先并不知道存在什么类别,完全按照反映对象特征的数据把对象进行分类,这在统计上称为聚类分析;有的则是在事先有了某种分类标准之后,判定一个新的研究对象应该归属到哪一类别,这在统计上则称为判别分析(discriminant analysis) 本章主要介绍聚类分析方法 2008年8月

第 12 章 聚类分析 12.1 聚类分析的基本原理 12.1.1 什么是聚类分析? 12.1.2 相似性的度量

12.1 聚类分析的思想和原理 12.1.1 什么是聚类分析?

什么是聚类分析? (cluster analysis) 把“对象”分成不同的类别 这些类不是事先给定的,而是直接根据数据的特征确定的 把相似的东西放在一起,从而使得类别内部的“差异”尽可能小,而类别之间的“差异”尽可能大 聚类分析就是按照对象之间的“相似”程度把对象进行分类 2008年8月

什么是聚类分析? (两种分类方式) 聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量 什么是聚类分析? (两种分类方式) 聚类分析的“对象”可以是所观察的多个样本,也可以是针对每个样本测得的多个变量 按照变量对所观察的样本进行分类称为Q型聚类 按照多项经济指标(变量)对不同的地区(样本)进行分类 按照样本对多个变量进行分类,则称为R型聚类 按照不同地区的样本数据对多个经济变量进行分类 两种聚类没有什么本质区别,实际中人们更感兴趣的通常是根据变量对样本进行分类(Q型聚类) 2008年8月

什么是聚类分析? (按什么分类) 按对象的“相似”程度分类 什么是聚类分析? (按什么分类) 按对象的“相似”程度分类 根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、Pearson相关系数等工具,也称为相似系数 变量间的相似系数越大,说明它们越相近 根据变量来测度样本之间的相似程度则使用“距离” 把离得比较近的归为一类,而离得比较远的放在不同的类 2008年8月

12.1 聚类分析的思想和原理 12.1.2 相似性的度量

相似性的度量 聚类分析中是用“距离”或“相似系数”来度量对象之间的相似性 在第13章例13.1中,31个地区的人均GDP数据就是直线上的31个点,每一个点对应一个地区 如果按照人均GDP对它们进行分类,就可以把在直线上离得比较近的那些点归为一类。如果再考虑财政收入,那么人均GDP和财政收入就是二维平面上的一个点,31个地区就是平面中的31个点 多个变量就是高维空间中的一个点,31个地区就是高维空间中的31个点 各个点之间距离的远近就是分类的依据 2008年8月

相似性的度量 (样本点间距离的计算方法) 在对样本进行分类时,度量样本之间的相似性使用点间距离 点间距离的计算方法主要有 欧氏距离(Euclidean distance) 平方欧氏距离(Squared Euclidean distance) Block距离(Block distance) Chebychev距离(Chebychev distance) 马氏距离(Minkovski distance) 最常用的是平方欧氏距离 2008年8月

相似性的度量 (样本点间距离的计算方法) Euclidean距离 Squared Euclidean距离 Block距离 Chebychev距离 Minkovski距离 2008年8月

相似性的度量 (变量相似系数的计算方法) 在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法有 夹角余弦 Pearson相关系数 2008年8月

第 12 章 聚类分析 12.2 层次聚类 12.2.1 层次聚类的两种方式 12.2.2 类间距离的计算方法 12.2.3 层次聚类的应用

12.2 层次聚类 12.2.1 层次聚类的两种方式

层次聚类 (hierarchical cluster) 层次聚类又称系统聚类 事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类 根据运算的方向不同,层次聚类法又分为合并法和分解法,两种方法的运算原理一样,只是方向相反 2008年8月

层次聚类 (合并法) 将每一个样本作为一类,如果是k个样本就分k成类 再计算出新产生的类别与其他各类别之间的距离,并将距离最近的两个类别合并为一类。这时,如果类别的个数仍然大于1,则继续重复这一步,直到所有的类别都合并成一类为止 总是先把离得最近的两个类进行合并 合并越晚的类,距离越远 事先并不会指定最后要分成多少类,而是把所有可能的分类都列出,再视具体情况选择一个合适的分类结果 2008年8月

层次聚类 (分解法) 分解方法原理与合并法相反 先把所有的对象(样本或变量)作为一大类,然后度量对象之间的距离或相似程度,并将距离或相似程度最远的对象分离出去,形成两大类(其中的一类只有一个对象) 再度量类别中剩余对象之间的距离或相似程度,并将最远的分离出去,不断重复这一过程,直到所有的对象都自成一类为止 SPSS中只提供了合并法 2008年8月

12.2 层次聚类 12.2.2 类间距离的计算方法

类间距离的计算方法 在层次聚类法中,当类别多于1个时,就涉及到如何定义两个类别之间的距离问题 计算类间距离(与上面介绍的点间距离不同)的方法有很多,不同方法会得到不同的聚类结果 实际中较常用的是离差平方和法(Ward’s method),又称Ward法 2008年8月

类间距离的计算方法 最短距离法 (Nearest neighbor) 最长距离法 (Furthest neighbor) 重心法 (Centroid clustering) 组间平均距离 (Between-groups linkage) 离差平方和法 (Ward’s method) 2008年8月

类间距离的计算方法 Nearest neighbor(最短距离法)—用两个类别中各个数据点之间最短的那个距离来表示两个类别之间的距离 Furthest neighbor(最长距离法)—用两个类别中各个数据点之间最长的那个距离来表示两个类别之间的距离 Centroid clustering(重心法)—用两个类别的重心之间的距离来表示两个类别之间的距离 between-groups linkage(组间平均距离法)—SPSS的默认方法。是用两个类别中间各个数据点之间的距离的平均来表示两个类别之间的距离 Ward‘s method(离差平方和法)—使各类别中的离差平方和较小,而不同类别之间的离差平方和较大 2008年8月

12.2 层次聚类 12.2.3 层次聚类的应用

层次聚类的应用 (实例分析) 【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析 层次聚类的应用 (实例分析) 【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析 2008年8月

用SPSS进行层次聚类 第1步 选择【Analyze】下拉菜单,并选择【Classify- Hierarchical Cluster】,进入主对话框 第2步 将用于聚类的所有变量选入【Variable(s)】;把区分样 本的标签 (本例为“地区”)选入【Label Cases by】;若 对样本进行聚类,在【Cluster】下选择【Cases】(本 例选择对样本聚类),若对变量进行聚类,在 【Cluster】下选择【Variables】 第3步 点入【Statistics】选中【Agglomeration schedule】, 点击【Continue】回到主对话框 第4步 点入【Plots】选中【Dendrogram】,点击 【Continue】回到主对话框 2008年8月

用SPSS进行层次聚类 第5步 点入【Method】,在【Cluster Method】中选择类间距离的 定义方法(本例选择Ward’s method);在【Measure】下选择 点间距离的定义方法(本例使用Squared Euclidean distance);在【Transform Values】的【Standardize】框中 选择否对原始数据进行标准化处理(本例选择了【Z scores】)。点击【Continue】回到主对话框 第6步 点入【Save】,在【Cluster Membership】下选择在原始数 据中保留分类结果,其中【Single solution】表示指定要分成 类时各样本所属的类,【Range of solution】表示指定要分成 最少类、最多类时各样本所属的类(SPSS会将分类的结果以 变量形式保存到原数据窗口中),点击【Continue】【OK】 2008年8月

SPSS的输出结果 (实例分析) 层 次 聚 类 过 程 的 步 骤 号 2008年8月

SPSS的输出结果 (实例分析) 第1列是聚类的步骤号。第2列和第3列给出了每一步被合并的对象(这里是地区) 层次聚类过程的步骤号 第1列是聚类的步骤号。第2列和第3列给出了每一步被合并的对象(这里是地区) 首先把31个地区各自作为一类(共有31类)。第1步是把距离最近的两个地区21(海南)和地区30(宁夏)合并成一类。在后面的步骤中,对于包含多个样本的新类别,实际上是用类中的一个样本来代表该类别,比如,第2步被合并的是21和地区29(青海),这里的“21”实际上是指在第1步中被合并的类别,只是用“21”表示21(海南)所在的类别 2008年8月

SPSS的输出结果 (实例分析) 层次聚类过程的步骤号 第4列给出每一步被合并的两个类之间的聚类系数(即距离)。距离按从小到大排列,越早合并的类距离越近。0.013是地区21(海南)和地区30(宁夏)之间的距离,而0.040是先被合并的第一小类与地区29(青海)之间的距离 第5列和第6列表示本步聚类中参与聚类的是原始的样本还是已经合并的小类,0表示本步聚类的是原始的样本,第一次出现在聚类过程中,其他数字则表示第几步聚类生成的小类参与了本步聚类。第7列给出了在每一步中合并形成的新类别下一次将在第几步中与其他类别合并。例如,在第2步中,参与聚类的是第1步形成的小类(21号样本所在的类)和地区29(青海),第5列的“1”表示21号类是在第1步中形成的小类,而“0”表示地区29(青海)是第一次出现在本步聚类中的原始样本,第7列中的“10”表示这一类将在第10步中与其他类别合并,其余类推 2008年8月

Cluster Membership 分成2类到5类时各地区所属的类别 2008年8月

  cut     层 分成四类 次 聚 类 的 树 状 分成两类 图 2008年8月 最大距离作为相对距离25 ,其余的距离都换算成与 之相比的相对距离大小  分成两类   cut    2008年8月

层次聚类的应用 (分类汇总) 类别 地区 地区个数 第一类 北京,天津,上海 3 第二类 河北,辽宁,安徽,福建,河南,湖北,湖南,四川 8 层次聚类的应用 (分类汇总) 类别 地区 地区个数 第一类 北京,天津,上海 3 第二类 河北,辽宁,安徽,福建,河南,湖北,湖南,四川 8 第三类 山西,内蒙古,吉林,黑龙江,江西,广西,海南,重庆,贵州,云南,西藏,陕西,甘肃,青海,宁夏,新疆 16 第四类 江苏,浙江,山东,广东 4 2008年8月

使用SPSS中的Means过程 (计算分类统计量) 据表中应包括SPSS以变量名CLU5_1、CLU4_1、 CLU3_1、CLU2_1等保存的结果,然后按下列步骤操作 第一步 选择【Analyze】下拉菜单,并选择 【Compare Means-Means】主对话框 第二步 将用于描述的所有变量选入【Dependentlist】,把地 区所属的类别号变量选入【Independent list】 第三步 点击【Options】并选 择所需要的统计量,点击 【Continue】主对话框 【OK】 2008年8月

层次聚类的应用 (类别检验) 各类别所属地区的描述统计量 2008年8月

层次聚类的应用 (类别检验) 不同类别6项经济指标的方差分析表 2008年8月

第 12 章 聚类分析 12.3 K-均值聚类 12.3.1 K-均值聚类的基本过程 12.3.2 K-均值聚类的应用 第 12 章 聚类分析 12.3 K-均值聚类 12.3.1 K-均值聚类的基本过程 12.3.2 K-均值聚类的应用 12.3.3 使用聚类方法的注意事项

K-均值聚类 (K-means cluster) 层次聚类事先不需要确定要分多少类,聚类过程一层层进行,最后得出所有可能的类别结果,研究这根据具体情况确定最后需要的类别。该方法可以绘制出树状聚类图,方便使用者直观选择类别,但其缺点是计算量较大,对大批量数据的聚类效率不高 K-均值聚类事先需要确定要分的类别数据,计算量要小得多,效率比层次聚类要高, 也被称为快速聚类(quick cluster) 2008年8月

12.3 K-均值聚类 12.3.1 K-均值聚类的基本过程

K-均值聚类 (步骤) 第1步:确定要分的类别数目K 第2步:确定K个类别的初始聚类中心 需要研究者自己确定 在实际应用中,往往需要研究者根据实际问题反复尝试,得到不同的分类并进行比较,得出最后要分的类别数量 第2步:确定K个类别的初始聚类中心 要求在用于聚类的全部样本中,选择K个样本作为K个类别的初始聚类中心 与确定类别数目一样,原始聚类中心的确定也需要研究者根据实际问题和经验来综合考虑 使用SPSS进行聚类时,也可以由系统自动指定初始聚类中心 2008年8月

K-均值聚类 (步骤) 第3步:根据确定的K个初始聚类中心,依次计算每个样本到K个聚类中心的距离欧氏距离,并根据距离最近的原则将所有的样本分到事先确定的K个类别中 第4步:根据所分成的K个类别,计算出各类别中每个变量的均值,并以均值点作为新的K个类别中心。根据新的中心位置,重新计算每个样本到新中心的距离,并重新进行分类 2008年8月

K-均值聚类 (步骤) 第5步:重复第4步,直到满足终止聚类条件为止 迭代次数达到研究者事先指定的最大迭代次数(SPSS隐含的迭代次数是10次) 新确定的聚类中心点与上一次迭代形成的中心点的最大偏移量小于指定的量(SPSS隐含的是0.02) K-均值聚类法是根据事先确定的K个类别反复迭代直到把每个样本分到指定的里类别中。类别数目的确定具有一定的主主观性,究竟分多少类合适,需要研究者对研究问题的了解程度、相关知识和经验 2008年8月

12.3 K-均值聚类 12.3.2 K-均值聚类的应用

K-均值聚类的应用 (实例分析) 【例】根据我国31个省市自治区2006年的6项主要经济指标数据,采用层次聚类法进行分类,并对结果进行分析 2008年8月

 数据检查 K-均值聚类的应用 (实例分析) 若原始变量取值差异较大,应先将原始数据进行标准化,避免变量值差异过大对分类结果的影响 可以先观察6项经济指标的有关描述统计量 2008年8月

 数据标准化(SPSS) K-均值聚类的应用 (实例分析) 【Analyze】【Descriptive Statistics】 【Descriptives】主对话框 将需要标准化的变量选入【Variable(s)】 【Save standardized values as variables】  【OK】 2008年8月

K-均值聚类的应用 (实例分析) 分成4类的初始聚类中心  该表列出每一类别的初始聚类中心,本例的这些中心是由SPSS自动生成的,它实际上就是数据集中的某一条记录。聚类中心的选择原则是中心点距离其他点尽可能远。例如,第一类的聚类中心是3.17960,这实际上就是上海的人均GDP标准化后的值。第二类聚类中心是1.83293则是天津的标准化人均GDP,等等 2008年8月

K-均值聚类的应用 (实例分析) 分成4类的迭代过程  该表从表中可以看出每次迭代过程中类别中心的变化,随着迭代次数的增加,类别中心点的变化越来越小。本例只4次就已经收敛了 2008年8月

K-均值聚类的应用 (实例分析) 分成4类的最终聚类中心  表中的数据表示各个类别在各变量上的平均值。如,第一类的2.88521表示被分到第一类的地区(北京和上海)标准化后的人均GDP平均值 2008年8月

K-均值聚类的应用 (实例分析) 分类后各个变量在类别之间的方差分析表  利用方差分析表可以判断所分的类别是否合理。从表中可以看出,分类后各变量在不同类别之间的差异都是显著的(P值均接近0) 2008年8月

K-均值聚类的应用 (实例分析) 分成4类时每一类的地区数量  由该表可以看出,第一类包括2个地区,第二类包括11个地区,第三类包括4个地区,第四类包括14个地区 2008年8月

K-均值聚类的应用 (实例分析) 分成4类时每个地区所属的类别 2008年8月

K-均值聚类的应用 (分类汇总) 类别 地区 地区个数 第一类 上海,北京 2 第二类 天津,内蒙古,吉林,海南,重庆,贵州,西藏,甘肃,青海,宁夏,新疆 11 第三类 江苏,浙江,山东,广东 4 第四类 河北,山西,辽宁,黑龙江,安徽,福建,江西,河南,湖北,湖南,广西,四川,云南,陕西 14 2008年8月

12.3 K-均值聚类 12.3.3 使用聚类方法的注意事项

聚类分析的注意事项 除分层聚类法和K-均值聚类法外,1996年还提出一种新的聚类方法,即两步聚类法(TwoStep Cluster)(SPSS提供了该聚类方法的程序) 无论那种分类方法,最终要分成多少类别,并不是完全由方法本身来决定,研究者应结合具体问题而定 聚类分析是一种探索性的数据分析方法。相同的数据采用不同的分类方法,也会的得到不同的分类结果。分类的结果没有对错之分,只是分类标准不同而已 使用聚类方法时,首先要明确分类的目的,再考虑选择哪些变量(或数据)参与分类,最后才需要考虑方法的选择。至于分类结果是否合理,该如何解释,更多取决于研究者对所研究问题的了解程度、相关的背景知识和经验 2008年8月

聚类分析的注意事项 从数据要求上看 参与分类的变量首先应符合要求 各变量的取值不应有数量级上的过大差异,否则会对分类结果产生较大影响。这时需要对变量进行标准化处理(SPSS提供的层次聚类法中在聚类时可以选择对变量做标准化处理,而K-均值聚类法则需要单独做标准化处理,尔后再进行聚类) 各变量间不应有较强的相关关系。若两个强相关的变量同时参与聚类分析,在测度距离时,就加大了它们的贡献,而其他变量则相对被削弱 2008年8月

聚类分析的注意事项 从聚类方法的选择上 首先看数据的类型,如果参与分类的变量是连续变量,层次聚类法、K-均值聚类法、以及两步聚类法都是适用的。如果变量中包括离散变量(计数变量),则需要将先对离散变量进行连续化处理,否则应该使用两步聚类法。当数据量较少时(比如小于100),三种方法都可以选用,当数据量较多时(比如大于1000),则应该考虑选用K-均值聚类法或两步聚类法 要看分类的对象。如果是对样本分类,三种方法都可用;如果是对变量分类则应选择层次聚类法(至少SPSS的程序是这样) 2008年8月

聚类分析的注意事项 注意对分类结果的检验 分类结果是否合理取决于它是否“有用”,但分类结果是否可靠和稳定,则需要反复聚类和比较 一般来说,在所分的类别中,各类所包含的对象(样本或变量)的数量应该大致相当。至少这从表面上看更漂亮一些 2008年8月

本章小节 聚类分析的基本思想和原理 层次聚类和K-均值聚类的基本过程 解释聚类的结果 层次聚类和K-均值聚类的差异及应用条件 聚类分析的注意事项 用SPSS进行聚类分析 As a result of this class, you will be able to ... 2008年8月

结 束 THANKS