社会科学统计软件及应用 马秀麟 2015年8月
第9讲 降维分析与分类分析 (归因分析) 2015年12月
一、降维分析与分类分析的概念 1、统计学中的降维分析简介 (1)什么是降维分析? (2)降维分析的前提条件 在数据统计分析过程中,常常从多个视角制作调查或评价指 标,从而能够全面地反应调查对象的属性和特点。 然而,在调查完成后,常常发现以下问题: 多个指标项的语义有重叠; 需要获得凝练的分析结论。 为此,需要对调研指标进行凝练,减少评价指标的维数,使 结论变得更加易于表述和理解。 (2)降维分析的前提条件 部分变量之间存在着高度的相关性(同类变量); 部分变量之间存在着显著差异性(不同类变量)。
一、降维分析与分类分析的概念 1、统计学中的降维分析简介 (3)降维分析的常见手段 主成分分析 因子分析中的一种,寻求影响多个指标项的一个或多个主 成份(这些主成分的特征根在1以上) 面向变量的聚类分析 对于调研数据,针对变量进行聚类,把多个变量分为若干 小组,形成几个聚结的变量集; 分析每个变量集的语义,形成凝结的维度。 对应分析 对于调研数据来讲,综合性的结论通常与全体变量的取值 有关系。但是,某些情况下,某一特定变量的取值可能直 接影响最终结果。 对应分析就是找出相关的两个变量之间取值对应关系的操 作。
一、降维分析与分类分析的概念 2、统计学中的分类分析简介 (1)什么是分类分析 (2)数据分类的基本条件 在数据统计与分析过程中,常常需要把成千上万的个案分成 若干类,以便于操作。例如,可以把学生分为男生、女生, 还可以把学生按照综合表现分为优等生、良好生、普通生和 差生。 依据某些因素,对个案分类的过程就是分类。 (2)数据分类的基本条件 不同个案的属性取值离散化程度较高,存在着比较明显的差 别; 依据某几个属性,具备把个案分成几类的可能性。
一、降维分析与分类分析的概念 2、实现分类分析的主要技术 (1)聚类分析——面向个案 面向个案的聚类分析就是分类。 其目标是把众多个案聚结为较少的几个类别,以便总结规 律或者实施数据管理。 (面向变量的系统聚类是降维分析,称为R聚类) 面向个案的聚类分析有两种技术: 面向个案的系统聚类(也叫层次聚类),被称为Q聚类。 自动分层聚类, 从与个案数相同的类别数逐步聚结为1类,构成树状结构 K-Means聚类技术 指定类别数的聚类 基于用户指定的聚类类别数、类别中心点,开始聚类。
一、降维分析与分类分析的概念 2、实现分类分析的三种技术 (2)判别分析 判别分析的概念 判别分析的过程是基于已有数据集制作分类规则的过程。 即系统接受用户提供的已有类别(基于某一变量取值分类, 内部包含若干样本),然后寻找基于其他变量的判别规则, 构造判定函数,以便基于判定函数对未来个案自动分类的 过程。 判别分析过程实际上是系统主动探索与学习的过程(类似 于多元回归分析),然后依据已经习得的规则,对其他个 案进行判定其归属类别。
一、降维分析与分类分析的概念 2、实现分类分析的三种技术 判别分析的示例 基本要求 某校收集了学生的很多项信息。其中有一条是“是否三 好学生”。现在需要找到一个判别函数,能够从学习成 绩、承担班级事务、参与社会活动、热心帮助其他同学 等维度来实现为尚未分类的学生自动分类的过程。 基本思路 先根据已有的个案,把“是否三好学生”作为因变量, 把“学习成绩、承担班级事务、参与社会活动、热心帮 助其他同学”作为自变量,让系统根据这些数据进行归 纳,最终构造出判定函数。 对于新同学,只需输入作为自变量的几个属性值,由系 统根据判定函数做出判定,找出检验概率值最大的类别, 作为最终类别。
二、层次聚类分析 1、层次聚类分析的概念 (1)什么是层次聚类? (2)层次聚类的特点 SPSS中的系统聚类,也叫层次聚类、分层聚类。 采用逐层、逐级聚类模式 先把距离最近的若干元素归类,形成新元素点 再从新元素点中挑选距离最近的元素进一步聚类 直到所有元素都被聚集为同一类。 (2)层次聚类的特点 是一种没有预设条件的聚类模式, 逐层、逐级聚类 最终所有元素聚集为一类。
二、层次聚类分析 2、层次聚类分析的类型 Q聚类 是针对个案的聚类,目的是把个案按照距离关系逐级聚类。 与生活中的分类思想完全一致。 本质上是一种行聚类,把每行的数据作为一个处理元素。 基本思路: 先计算不同元素(行数据)之间的距离, 每次选择距离最近的元素,把它们聚为一类。
二、层次聚类分析 R聚类 是针对变量的聚类,目的是把变量按照距离关系逐级聚类。 减少变量的数量,实现降维的目标。 本质上是一种列聚类,把每列的数据作为一个处理元素。 基本思路: 先计算不同元素(列数据)之间的距离, 每次选择距离最近的元素,把它们聚为一类。 最终,通过观察聚类结果,体会各个变量之间的逻辑关系。
二、层次聚类分析 3、层次聚类分析的实用案例——降维聚类 (1)案例要求 已知,对于中职院校门户网站的评价,涉及到了总体得分和 校务公开、教师工作、学校工作等8个子指标项。 请对测试指标项进行聚类,归纳其关键语义。
二、层次聚类分析 3、层次聚类分析的实用案例——降维聚类 (2)操作过程 启动SPSS的层次聚类 分析——聚类——系统聚类
二、层次聚类分析 3、层次聚类分析的实用案例——降维聚类 (3)参数设置 选择“参与聚类的变量”; 选择聚类类型为“变量”; 选择输出为“统计量”和“图”; 最后,单击“确定”。
二、层次聚类分析 3、层次聚类分析的实用案例 (4)输出结果与解读
二、层次聚类分析 3、层次聚类分析的实用案例——降维聚类 (4)输出结果与解读 注意:聚类的实施步骤,最后被聚合的是距离最远的元素。
二、层次聚类分析 3、层次聚类分析的实用案例——降维聚类 (5)参数与补充说明 统计量: 输出“合并进程表”、“相似性矩阵” 绘制 绘制出“树形图”, 设置聚类图的方向:“垂直”、“水平”
二、层次聚类分析
二、层次聚类分析 方法 聚类方法: 组间连接 组内连接等 度量标准: 以何种方式计算距离 转化值: 区间距离(欧式距离、欧式平方距离等) 计数距离(卡方测量、Phi方测量) 二分类距离 转化值: 对于变量值域等级不同的原始数据,应该如何转化? 不转化、 Z分数 全距变为0-1、均值变为1
二、层次聚类分析 4、层次聚类分析的实用案例——个案聚类 (1)案例要求 已知,对于中职院校门户网站的评价,涉及到了总体得分和 校务公开、教师工作、学校工作等8个子指标项。 请对参与评价的网站进行聚类,以便掌握网站之间的内在相 似关系。
二、层次聚类分析 4、层次聚类分析的实用案例——个案聚类 (2)操作过程 启动SPSS的层次聚类 分析——聚类——系统聚类
二、层次聚类分析 4、层次聚类分析的实用案例——个案聚类 (3)参数设置 选择“参与聚类的变量”; 选择聚类类型为“个案”; 选择输出为“统计量”和“图”; 最后,单击“确定”。
二、层次聚类分析 4、层次聚类分析的实用案例——个案聚类 (4)输出结果与解读
二、层次聚类分析 4、层次聚类分析的实用案例——个案聚类 (4)输出结果与解读 注意:聚类的实施步骤,最后被聚合的是距离最远的元素。
三、K-Means聚类分析 1、K-Means聚类分析的概念 (1)K-Means聚类的特点 (2)K-Means聚类的方式 需要指定最终类别数目。 以便快速结束聚类过程。 可以预先制定聚类中心。 本质上是一种个案聚类(类似于R聚类) (2)K-Means聚类的方式 进行“迭代与分类” 仅仅“分类”
三、K-Means聚类分析 2、K-Means聚类分析的实用案例 (1)案例要求 已知,对于中职院校门户网站的评价,涉及到了总体得分和 校务公开、教师工作、学校工作等8个子指标项。 请对参与评价的网站进行聚类,以便掌握网站之间的内在相 似关系。 要求所有参与评价的网站被分为5类。
三、K-Means聚类分析 4、K-Means聚类分析的实用案例 (2)操作过程 启动SPSS的层次聚类 分析——聚类——K-均值聚类
三、K-Means聚类分析 (3)参数设置 选择“参与聚类的变量”; 选择聚类数为“5”; 选择【聚类方法】为“迭代与分类”; 最后,单击“确定”。
三、K-Means聚类分析 4、K-Means聚类分析的实用案例 (4)输出结果与解读
三、K-Means聚类分析 4、K-Means聚类分析的实用案例
三、K-Means聚类分析 4、K-Means聚类分析的实用案例
三、K-Means聚类分析 4、K-Means聚类分析的实用案例 显示出每个类别的案例数 显示出每个个案的所属类别号 如下图所示。 若在“保存”按钮对应的对话框下选择了“聚类成员”复选框, 则会在数据表右侧增加一列,直接输出每个个案的类别号。
三、K-Means聚类分析 4、K-Means聚类分析的实用案例 (4)对参数的补充说明 选择“迭代”按钮 可设置迭代次数,或者限定“迭代”的结束标准 选择“保存”按钮 聚类成员:在原始数据集中标记出每个个案所在的类别号; 与聚类中心的距离:在原始数据集中标记出每个个案与聚 类中心的距离。 左下角的“聚类中心” 预先指定每个类别的“聚类中心” 如果事先没有准备好“中心”,则可忽略此项,由系统自 动设置各个类别的中心值。
四、判别分析 1、判别分析的概念 (1)什么是判别分析? 问题的提出 在数据处理中,常常有这样一种现象:现在已经有若干样 本被正确地分类了,但不清楚分类的依据是什么。 未来还会有大量的未被分类的样本,需要按照上述规则判 定这些样本的所属类别。 解决策略 根据已被正确分类的样本及其属性,进行数据分析,找出 影响样本归类的关键因素,甚至获得一个判定函数; 依据判定函数,对未来样本进行判别。 根据与组质心的距离,判定新个案的归属——Fisher 直接由判定函数的最大值,决定个案的归属——Bayes
四、判别分析 工作流程 其工作机理类似于多元线性回归; 寻求决定最终结果的回归方程(判定函数); 预测其他数据的走向。 价值 对未来个案的自动归类或预测 修正当前已归类数据中的不严谨结论。
四、判别分析 (2)判别分析与Q聚类分析的异同 相同点 二者都是基于数据对个案进行归类 不同点 原始数据的性质不同 判别分析的原始数据是已经归好类的数据 目标不同 Q聚类分析是对现有的个案进行分类,以完成分类为目 的; 判别分析寻找一个对个案进行判别的规则 操作思路不同 Q聚类分析是分析现有个案之间的距离,实现个案归类 判别分析是根据已有分类数据的特征,逆向分析各个类 别个案的关键特征,是系统智能化学习的过程。
四、判别分析 2、判别分析的条件与输出 (1)条件 (2)输出 已经被正确归类的原始个案; 关于个案的客观数据:包括类别号、个案的多个属性及其取 值; (2)输出 对判别分析的评价 判别函数式 Fisher函数式 标准化 非标准化 Bayes函数式 针对判别函数式的评价表
四、判别分析 3、判别分析的实用案例 (1)案例要求 对MydataW来讲,请计算出三位专家给分的总分,并按照总分 设置每个网站的等级,把10%最优网站设置为“优秀”,把 得分最低的35%网站设置为“较差”,其他网站设置为“良 好”。 在此基础上,把网站等级数字化,接着根据分项得分进行判 别分析,并解释输出结果,说明判别函数。
四、判别分析 3、判别分析的实用案例 (2)操作过程 (a)数据准备 计算三个专家的总分; 转换——计算变量, 目标值:WScore,公式:专家1+专家2+专家3 根据总分对网站等级数字化。命名新字段为WGrade。 转换——重新编码为不同变量
四、判别分析 (b)执行判别分析命令 操作命令:分析—分类——判别分析
四、判别分析 3、判别分析的实用案例 (3)必要的参数设置 在“保存”按钮对应的对话框中: 设置“预测组成员”为有效 设置“判别得分”为有效 设置“组成员概率”为有效 其他设置采用默认值。 最后,执行“确定”。
四、判别分析 3、判别分析的实用案例 (4)输出结果与解读 分析中的变量——逐步进入
四、判别分析 3、判别分析的实用案例 (4)输出结果与解读 威尔克斯λ值 变化范围在0-1之间,用于说明变量对模型的影响程度; λ值越小,说明当前模型的影响越显著。 λ值=组内变异平方和/总变异平方和。
四、判别分析 3、判别分析的实用案例 (4)输出结果与解读 对判别式函数的评价——通过特征值,获得了2个判别式函数 方差的%:反应判别函数式的作用,越大越好。 特征值:反应当前函数的作用显著性,越大越好。
四、判别分析 3、判别分析的实用案例 (4)输出结果与解读 最终判别函数 非标准化系数:得到2个判别函数式 组质心处的函数:获得每个类别的是组中心多维坐标值。
四、判别分析 3、判别分析的实用案例 (4)对输出结果的解读 正确理解判别函数。 本例得到2个判别函数(因为总共有3类),分别为: Y1=0.050*X1+0.055*X2+0.056*X3+0.04*x4 -13.069 Y2=0.108*X1-0.072*X2+0.022*X3-0.004*X4-4.241 其中:X1:学校工作、X2:教师工作、 X3:互动交流、X4:教育资源 如何实施判定? 先把每个个案的自变量值带入各个判别函数式 求出2个Y值,得到其2个判别得分。 利用2个判别得分构成新坐标点,通过判断坐标点与质心处的 距离决定类别归属。 或:检验每个类别(类别1、2、3)的检验概率,以检验概率 最高的类别号作为最终类别。 系统能够自动判定,基本不需要人工干预。
四、判别分析 4、对操作参数的补充说明 (1)自变量逐步进入方程的方法 操作位置 “方法”按钮对话框 三种不同的判定依据 马氏距离 威尔科斯λ值 最小F值 变量的选择标准(“方法”按钮的对话框) 基于指定范围的F值 基于F值的检验概率
四、判别分析 4、对操作参数的补充说明 (2)判别方程的两种类别 Fisher判定 默认类型 以组质心坐标与判定函数值坐标的距离确定类别归属 Bayes判定 操作方法 在“统计量”对话框的左下角,把“Fisher”复选框设置 为有效状态。 输出结果 两个“分类统计量”表格 分类函数系数表格——Bayes函数式
四、判别分析 4、对操作参数的补充说明 获得Bayes的判定函数式: Y1=1.213*学校工作+…-76.473 使用方法 把待判别个案的属性值带入3个判 别函数 取最大的值作为最终值; 取最终值所对应的方程号作为类 别号。例如,若Y2最大,则个案 归为第2组。
四、判别分析 (3)输出要保存的列 (4)输出“判定”正确率 操作位置 在“保存”按钮的对话框 输出内容 预测组成员:当前个案的最终判定类别 判别得分:当前个案在每个判别函数的得分 组成员概率:当前个案位于每个类别的可能性 (4)输出“判定”正确率 在“分类”对话框中,设置“摘要表”为有效 输出摘要表 说明正确分类百分比。
四、判别分析 (4)输出判定图 操作位置 在“分类”按钮对话框的右 下角“图”区域中 输出内容 合并组 “分组”图 区域图
五、因子分析 1、因子分析的概念 (1)因子分析的原因 在以多维变量测量事物性质的过程中,经常出现多个变量的 描述信息出现交叉与重叠的情况: 评价者设置的多个指标项所获得的数据可能指向同一个潜 属性,这些属性可由一个潜属性描述出来; 事物的全体性质可由潜属性(少量的)反应出来。 抽取出潜属性(称为公共因素) 需要从多个变量描述中抽取出能够更准确地反应事物性质 的若干个潜属性。 潜属性(公共因素)应该是相对独立的,尽可能互不相交 的。 因子分析本质上是降维的思想。
五、因子分析 1、因子分析的概念 (2)因子分析的目标 基于众多变量及其取值,从中提取出能够比较全面地反应事 物性质的若干个公共因素Ci。 如果把新因素命名为Ci,那么对于变量Xi可以表示为以下方程: Xi=ni1*C1+ni2*C2+……+nix*Cx+Ei 在这里:每个公共属性的系数反映了这个公共属性对变量 Xi的影响力,称为因素载荷。 根据因素方程,分析某个因素对所有变量的总贡献,找到贡 献量比较大的公共因素,用它们来描述事物的性质。
五、因子分析 (3)因子分析的常见流程 假设被调查事物的性质中隐含了若干公共因素; 针对现有变量,列出因子方程式; 计算出每个因素对全体变量的贡献,找到贡献比较大的那几 个公共因素; 找到特征根大于1的公共因素,称之为主成分。 分析各个变量对每个主成分的贡献率,基于贡献率总结每个 主成分的语义。 如果难以利用变量贡献率抽象出主成分的含义,则表示现有 变量描述视角不能直观地反应主成分,则需要对因子分析数 据进行各种旋转,以便使主成分的语义能更好地被解释。
五、因子分析 1、因子分析的概念 (4)相关术语 因素载荷 在因素分析方程组中,某一公共因素C前的系数能够反应 它对某个变量X的贡献,这个数值就叫做C对X的因素载荷。 特征根 公共因素C对所有变量的总贡献量,称为公共因素C的特征根。 特征根大于1的公共因素属于受关注因素,会在因子分析结 果中保留。
五、因子分析 2、主因子提取的方法 主成分分析法 未加权的最小平方法 借助方差分析选取新因素的方法。它先形成观察变量的不相 关的线性组合。选取具有最大的方差的因素作为主成分。后 面的成分对方差的解释的比例逐渐变小,它们相互之间均不 相关。 未加权的最小平方法 此方法可以使观察的相关性矩阵和再生的相关性矩阵之间 的差的平方值之和最小(忽略对角线)。
五、因子分析 2、主因子提取的方法 极大似然法 主轴因子分解 最常见的是主成分分析法。 在样本来自多变量正态分布的情况下,它生成的参数估计最 有可能生成了观察到的相关矩阵。将变量单值的倒数作为权 重对相关性进行加权,并使用迭代算法。 主轴因子分解 从初始相关矩阵抽取因子的方法,在初始相关矩阵中,多元 相关系数的平方放置于对角线上作为公因子方差的初始估计 值。这些因子载荷用来估计替换对角线中的旧公因子方差估 计值的新的公因子方差。继续迭代,直到某次迭代和下次迭 代之间公因子方差的改变幅度能满足抽取的收敛条件。 最常见的是主成分分析法。
五、因子分析 4、因子分析的实用案例 (1)案例要求 已知,对于中职院校门户网站的评价,涉及到了总体得分和 校务公开、教师工作、学校工作等8个子指标项。 请对测试指标项进行降维,抽取其主成分。
五、因子分析 4、因子分析的实用案例 (2)操作过程 启动SPSS的层次聚类 分析——降维——因子分析
五、因子分析 4、因子分析的实用案例 (3)参数设置 选择“抽取”按钮 抽取方法为“主成分”; “输出”中选中“碎石图”; “特征根”选择“大于1”。 选择“旋转”按钮 设置“方法”为“最大方差法” 设置“输出”为“旋转解”、“载荷图”为有效。 最后,单击“确定”按钮。
五、因子分析 4、因子分析的实用案例 (4)输出结果与解读 初始公因子方差
五、因子分析 4、因子分析的实用案例 (4)输出结果与解读 解释的总方差 有两个特征根大于1的主因子。
五、因子分析 4、因子分析的实用案例 (4)输出结果与解读 碎石图:两个特征根大于1。
五、因子分析 4、因子分析的实用案例 (4)输出结果与解读 成分矩阵 成分1包括了5个变量,可 解释为学校常规管理效率; 成分2主要包括3个变量, 可解释为学校的教育信息 化发展水平。
五、因子分析 4、因子分析的实用案例 (4)输出结果与解读 旋转后的成分矩阵 成分1:学校常规管理效 率; 成分2:教育信息化水平 本案例可不旋转。
五、因子分析 4、因子分析的实用案例 (4)输出结果与解读 空间载荷成分图
五、因子分析 4、因子分析的实用案例 (5)对操作的补充说明 在“描述”统计表下。
五、因子分析 4、因子分析的实用案例 (5)对操作的补充说明 在“得分”对话框下
感谢聆听! 马秀麟