社会科学统计软件及应用马秀麟 2015年8月.

社会科学统计软件及应用马秀麟 2015年8月

第9讲降维分析与分类分析（归因分析） 2015年12月

一、降维分析与分类分析的概念 1、统计学中的降维分析简介 (1)什么是降维分析？ (2)降维分析的前提条件
在数据统计分析过程中，常常从多个视角制作调查或评价指标，从而能够全面地反应调查对象的属性和特点。然而，在调查完成后，常常发现以下问题：多个指标项的语义有重叠；需要获得凝练的分析结论。为此，需要对调研指标进行凝练，减少评价指标的维数，使结论变得更加易于表述和理解。 (2)降维分析的前提条件部分变量之间存在着高度的相关性（同类变量）；部分变量之间存在着显著差异性（不同类变量）。

一、降维分析与分类分析的概念 1、统计学中的降维分析简介 (3)降维分析的常见手段主成分分析
因子分析中的一种，寻求影响多个指标项的一个或多个主成份（这些主成分的特征根在1以上）面向变量的聚类分析对于调研数据，针对变量进行聚类，把多个变量分为若干小组，形成几个聚结的变量集；分析每个变量集的语义，形成凝结的维度。对应分析对于调研数据来讲，综合性的结论通常与全体变量的取值有关系。但是，某些情况下，某一特定变量的取值可能直接影响最终结果。对应分析就是找出相关的两个变量之间取值对应关系的操作。

一、降维分析与分类分析的概念 2、统计学中的分类分析简介 (1)什么是分类分析 (2)数据分类的基本条件
在数据统计与分析过程中，常常需要把成千上万的个案分成若干类，以便于操作。例如，可以把学生分为男生、女生，还可以把学生按照综合表现分为优等生、良好生、普通生和差生。依据某些因素，对个案分类的过程就是分类。 (2)数据分类的基本条件不同个案的属性取值离散化程度较高，存在着比较明显的差别；依据某几个属性，具备把个案分成几类的可能性。

一、降维分析与分类分析的概念 2、实现分类分析的主要技术 (1)聚类分析——面向个案面向个案的聚类分析就是分类。
其目标是把众多个案聚结为较少的几个类别，以便总结规律或者实施数据管理。（面向变量的系统聚类是降维分析，称为R聚类）面向个案的聚类分析有两种技术：面向个案的系统聚类（也叫层次聚类），被称为Q聚类。自动分层聚类，从与个案数相同的类别数逐步聚结为1类，构成树状结构 K-Means聚类技术指定类别数的聚类基于用户指定的聚类类别数、类别中心点，开始聚类。

一、降维分析与分类分析的概念 2、实现分类分析的三种技术 (2)判别分析判别分析的概念判别分析的过程是基于已有数据集制作分类规则的过程。
即系统接受用户提供的已有类别（基于某一变量取值分类，内部包含若干样本），然后寻找基于其他变量的判别规则，构造判定函数，以便基于判定函数对未来个案自动分类的过程。判别分析过程实际上是系统主动探索与学习的过程（类似于多元回归分析），然后依据已经习得的规则，对其他个案进行判定其归属类别。

一、降维分析与分类分析的概念 2、实现分类分析的三种技术判别分析的示例基本要求
某校收集了学生的很多项信息。其中有一条是“是否三好学生”。现在需要找到一个判别函数，能够从学习成绩、承担班级事务、参与社会活动、热心帮助其他同学等维度来实现为尚未分类的学生自动分类的过程。基本思路先根据已有的个案，把“是否三好学生”作为因变量，把“学习成绩、承担班级事务、参与社会活动、热心帮助其他同学”作为自变量，让系统根据这些数据进行归纳，最终构造出判定函数。对于新同学，只需输入作为自变量的几个属性值，由系统根据判定函数做出判定，找出检验概率值最大的类别，作为最终类别。

二、层次聚类分析 1、层次聚类分析的概念 (1)什么是层次聚类？ (2)层次聚类的特点 SPSS中的系统聚类，也叫层次聚类、分层聚类。
采用逐层、逐级聚类模式先把距离最近的若干元素归类，形成新元素点再从新元素点中挑选距离最近的元素进一步聚类直到所有元素都被聚集为同一类。 (2)层次聚类的特点是一种没有预设条件的聚类模式，逐层、逐级聚类最终所有元素聚集为一类。

二、层次聚类分析 2、层次聚类分析的类型 Q聚类是针对个案的聚类，目的是把个案按照距离关系逐级聚类。与生活中的分类思想完全一致。
本质上是一种行聚类，把每行的数据作为一个处理元素。基本思路：先计算不同元素（行数据）之间的距离，每次选择距离最近的元素，把它们聚为一类。

二、层次聚类分析 R聚类是针对变量的聚类，目的是把变量按照距离关系逐级聚类。减少变量的数量，实现降维的目标。
本质上是一种列聚类，把每列的数据作为一个处理元素。基本思路：先计算不同元素（列数据）之间的距离，每次选择距离最近的元素，把它们聚为一类。最终，通过观察聚类结果，体会各个变量之间的逻辑关系。

二、层次聚类分析 3、层次聚类分析的实用案例——降维聚类 (1)案例要求
已知，对于中职院校门户网站的评价，涉及到了总体得分和校务公开、教师工作、学校工作等8个子指标项。请对测试指标项进行聚类，归纳其关键语义。

二、层次聚类分析 3、层次聚类分析的实用案例——降维聚类 (2)操作过程启动SPSS的层次聚类分析——聚类——系统聚类

二、层次聚类分析 3、层次聚类分析的实用案例——降维聚类 (3)参数设置选择“参与聚类的变量”；选择聚类类型为“变量”；
选择输出为“统计量”和“图”；最后,单击“确定”。

二、层次聚类分析 3、层次聚类分析的实用案例 (4)输出结果与解读

二、层次聚类分析 3、层次聚类分析的实用案例——降维聚类 (4)输出结果与解读注意：聚类的实施步骤，最后被聚合的是距离最远的元素。

二、层次聚类分析 3、层次聚类分析的实用案例——降维聚类 (5)参数与补充说明统计量：输出“合并进程表”、“相似性矩阵” 绘制
绘制出“树形图”，设置聚类图的方向：“垂直”、“水平”

二、层次聚类分析

二、层次聚类分析方法聚类方法：组间连接组内连接等度量标准：以何种方式计算距离转化值：
区间距离（欧式距离、欧式平方距离等）计数距离（卡方测量、Phi方测量）二分类距离转化值：对于变量值域等级不同的原始数据，应该如何转化？不转化、 Z分数全距变为0-1、均值变为1

二、层次聚类分析 4、层次聚类分析的实用案例——个案聚类 (1)案例要求
已知，对于中职院校门户网站的评价，涉及到了总体得分和校务公开、教师工作、学校工作等8个子指标项。请对参与评价的网站进行聚类，以便掌握网站之间的内在相似关系。

二、层次聚类分析 4、层次聚类分析的实用案例——个案聚类 (2)操作过程启动SPSS的层次聚类分析——聚类——系统聚类

二、层次聚类分析 4、层次聚类分析的实用案例——个案聚类 (3)参数设置选择“参与聚类的变量”；选择聚类类型为“个案”；
选择输出为“统计量”和“图”；最后,单击“确定”。

二、层次聚类分析 4、层次聚类分析的实用案例——个案聚类 (4)输出结果与解读

二、层次聚类分析 4、层次聚类分析的实用案例——个案聚类 (4)输出结果与解读注意：聚类的实施步骤，最后被聚合的是距离最远的元素。

三、K-Means聚类分析 1、K-Means聚类分析的概念 (1)K-Means聚类的特点 (2)K-Means聚类的方式
需要指定最终类别数目。以便快速结束聚类过程。可以预先制定聚类中心。本质上是一种个案聚类（类似于R聚类） (2)K-Means聚类的方式进行“迭代与分类” 仅仅“分类”

三、K-Means聚类分析 2、K-Means聚类分析的实用案例 (1)案例要求
已知，对于中职院校门户网站的评价，涉及到了总体得分和校务公开、教师工作、学校工作等8个子指标项。请对参与评价的网站进行聚类，以便掌握网站之间的内在相似关系。要求所有参与评价的网站被分为5类。

三、K-Means聚类分析 4、K-Means聚类分析的实用案例 (2)操作过程启动SPSS的层次聚类分析——聚类——K-均值聚类

三、K-Means聚类分析 (3)参数设置选择“参与聚类的变量”；选择聚类数为“5”；选择【聚类方法】为“迭代与分类”；
最后,单击“确定”。

三、K-Means聚类分析 4、K-Means聚类分析的实用案例 (4)输出结果与解读

三、K-Means聚类分析 4、K-Means聚类分析的实用案例

三、K-Means聚类分析 4、K-Means聚类分析的实用案例显示出每个类别的案例数显示出每个个案的所属类别号如下图所示。
若在“保存”按钮对应的对话框下选择了“聚类成员”复选框，则会在数据表右侧增加一列，直接输出每个个案的类别号。

三、K-Means聚类分析 4、K-Means聚类分析的实用案例 (4)对参数的补充说明选择“迭代”按钮
可设置迭代次数，或者限定“迭代”的结束标准选择“保存”按钮聚类成员：在原始数据集中标记出每个个案所在的类别号；与聚类中心的距离：在原始数据集中标记出每个个案与聚类中心的距离。左下角的“聚类中心” 预先指定每个类别的“聚类中心” 如果事先没有准备好“中心”，则可忽略此项，由系统自动设置各个类别的中心值。

四、判别分析 1、判别分析的概念 (1)什么是判别分析？问题的提出
在数据处理中，常常有这样一种现象：现在已经有若干样本被正确地分类了，但不清楚分类的依据是什么。未来还会有大量的未被分类的样本，需要按照上述规则判定这些样本的所属类别。解决策略根据已被正确分类的样本及其属性，进行数据分析，找出影响样本归类的关键因素，甚至获得一个判定函数；依据判定函数，对未来样本进行判别。根据与组质心的距离，判定新个案的归属——Fisher 直接由判定函数的最大值，决定个案的归属——Bayes

四、判别分析工作流程其工作机理类似于多元线性回归；寻求决定最终结果的回归方程（判定函数）；预测其他数据的走向。价值
对未来个案的自动归类或预测修正当前已归类数据中的不严谨结论。

四、判别分析 (2)判别分析与Q聚类分析的异同相同点二者都是基于数据对个案进行归类不同点原始数据的性质不同
判别分析的原始数据是已经归好类的数据目标不同 Q聚类分析是对现有的个案进行分类，以完成分类为目的；判别分析寻找一个对个案进行判别的规则操作思路不同 Q聚类分析是分析现有个案之间的距离，实现个案归类判别分析是根据已有分类数据的特征，逆向分析各个类别个案的关键特征，是系统智能化学习的过程。

四、判别分析 2、判别分析的条件与输出 (1)条件 (2)输出已经被正确归类的原始个案；
关于个案的客观数据：包括类别号、个案的多个属性及其取值； (2)输出对判别分析的评价判别函数式 Fisher函数式标准化非标准化 Bayes函数式针对判别函数式的评价表

四、判别分析 3、判别分析的实用案例 (1)案例要求
对MydataW来讲，请计算出三位专家给分的总分，并按照总分设置每个网站的等级，把10%最优网站设置为“优秀”，把得分最低的35%网站设置为“较差”，其他网站设置为“良好”。在此基础上，把网站等级数字化，接着根据分项得分进行判别分析，并解释输出结果，说明判别函数。

四、判别分析 3、判别分析的实用案例 (2)操作过程 (a)数据准备计算三个专家的总分；转换——计算变量，
目标值：WScore，公式：专家1+专家2+专家3 根据总分对网站等级数字化。命名新字段为WGrade。转换——重新编码为不同变量

四、判别分析 (b)执行判别分析命令操作命令：分析—分类——判别分析

四、判别分析 3、判别分析的实用案例 (3)必要的参数设置在“保存”按钮对应的对话框中：设置“预测组成员”为有效设置“判别得分”为有效
设置“组成员概率”为有效其他设置采用默认值。最后，执行“确定”。

四、判别分析 3、判别分析的实用案例 (4)输出结果与解读分析中的变量——逐步进入

四、判别分析 3、判别分析的实用案例 (4)输出结果与解读威尔克斯λ值变化范围在0-1之间，用于说明变量对模型的影响程度；
λ值越小，说明当前模型的影响越显著。 λ值=组内变异平方和/总变异平方和。

四、判别分析 3、判别分析的实用案例 (4)输出结果与解读对判别式函数的评价——通过特征值，获得了2个判别式函数
方差的%：反应判别函数式的作用，越大越好。特征值：反应当前函数的作用显著性，越大越好。

四、判别分析 3、判别分析的实用案例 (4)输出结果与解读最终判别函数非标准化系数：得到2个判别函数式
组质心处的函数：获得每个类别的是组中心多维坐标值。

四、判别分析 3、判别分析的实用案例 (4)对输出结果的解读正确理解判别函数。本例得到2个判别函数(因为总共有3类)，分别为：
Y1=0.050*X *X *X3+0.04*x Y2=0.108*X *X *X *X 其中：X1：学校工作、X2:教师工作、 X3：互动交流、X4:教育资源如何实施判定？先把每个个案的自变量值带入各个判别函数式求出2个Y值，得到其2个判别得分。利用2个判别得分构成新坐标点，通过判断坐标点与质心处的距离决定类别归属。或：检验每个类别（类别1、2、3）的检验概率，以检验概率最高的类别号作为最终类别。系统能够自动判定，基本不需要人工干预。

四、判别分析 4、对操作参数的补充说明 (1)自变量逐步进入方程的方法操作位置 “方法”按钮对话框三种不同的判定依据马氏距离
威尔科斯λ值最小F值变量的选择标准（“方法”按钮的对话框）基于指定范围的F值基于F值的检验概率

四、判别分析 4、对操作参数的补充说明 (2)判别方程的两种类别 Fisher判定默认类型以组质心坐标与判定函数值坐标的距离确定类别归属
Bayes判定操作方法在“统计量”对话框的左下角，把“Fisher”复选框设置为有效状态。输出结果两个“分类统计量”表格分类函数系数表格——Bayes函数式

四、判别分析 4、对操作参数的补充说明获得Bayes的判定函数式： Y1=1.213*学校工作+…-76.473
使用方法把待判别个案的属性值带入3个判别函数取最大的值作为最终值；取最终值所对应的方程号作为类别号。例如，若Y2最大，则个案归为第2组。

四、判别分析 (3)输出要保存的列 (4)输出“判定”正确率操作位置在“保存”按钮的对话框输出内容预测组成员：当前个案的最终判定类别
判别得分：当前个案在每个判别函数的得分组成员概率：当前个案位于每个类别的可能性 (4)输出“判定”正确率在“分类”对话框中，设置“摘要表”为有效输出摘要表说明正确分类百分比。

四、判别分析 (4)输出判定图操作位置在“分类”按钮对话框的右下角“图”区域中输出内容合并组 “分组”图区域图

五、因子分析 1、因子分析的概念 (1)因子分析的原因在以多维变量测量事物性质的过程中，经常出现多个变量的描述信息出现交叉与重叠的情况：
评价者设置的多个指标项所获得的数据可能指向同一个潜属性，这些属性可由一个潜属性描述出来；事物的全体性质可由潜属性（少量的）反应出来。抽取出潜属性（称为公共因素）需要从多个变量描述中抽取出能够更准确地反应事物性质的若干个潜属性。潜属性（公共因素）应该是相对独立的，尽可能互不相交的。因子分析本质上是降维的思想。

五、因子分析 1、因子分析的概念 (2)因子分析的目标基于众多变量及其取值，从中提取出能够比较全面地反应事物性质的若干个公共因素Ci。
如果把新因素命名为Ci,那么对于变量Xi可以表示为以下方程： Xi=ni1*C1+ni2*C2+……+nix*Cx+Ei 在这里：每个公共属性的系数反映了这个公共属性对变量 Xi的影响力，称为因素载荷。根据因素方程，分析某个因素对所有变量的总贡献，找到贡献量比较大的公共因素，用它们来描述事物的性质。

五、因子分析 (3)因子分析的常见流程假设被调查事物的性质中隐含了若干公共因素；针对现有变量，列出因子方程式；
计算出每个因素对全体变量的贡献，找到贡献比较大的那几个公共因素；找到特征根大于1的公共因素，称之为主成分。分析各个变量对每个主成分的贡献率，基于贡献率总结每个主成分的语义。如果难以利用变量贡献率抽象出主成分的含义，则表示现有变量描述视角不能直观地反应主成分，则需要对因子分析数据进行各种旋转，以便使主成分的语义能更好地被解释。

五、因子分析 1、因子分析的概念 (4)相关术语因素载荷
在因素分析方程组中，某一公共因素C前的系数能够反应它对某个变量X的贡献，这个数值就叫做C对X的因素载荷。特征根公共因素C对所有变量的总贡献量,称为公共因素C的特征根。特征根大于1的公共因素属于受关注因素，会在因子分析结果中保留。

五、因子分析 2、主因子提取的方法主成分分析法未加权的最小平方法
借助方差分析选取新因素的方法。它先形成观察变量的不相关的线性组合。选取具有最大的方差的因素作为主成分。后面的成分对方差的解释的比例逐渐变小，它们相互之间均不相关。未加权的最小平方法此方法可以使观察的相关性矩阵和再生的相关性矩阵之间的差的平方值之和最小（忽略对角线）。

五、因子分析 2、主因子提取的方法极大似然法主轴因子分解最常见的是主成分分析法。
在样本来自多变量正态分布的情况下，它生成的参数估计最有可能生成了观察到的相关矩阵。将变量单值的倒数作为权重对相关性进行加权，并使用迭代算法。主轴因子分解从初始相关矩阵抽取因子的方法，在初始相关矩阵中，多元相关系数的平方放置于对角线上作为公因子方差的初始估计值。这些因子载荷用来估计替换对角线中的旧公因子方差估计值的新的公因子方差。继续迭代，直到某次迭代和下次迭代之间公因子方差的改变幅度能满足抽取的收敛条件。最常见的是主成分分析法。

五、因子分析 4、因子分析的实用案例 (1)案例要求
已知，对于中职院校门户网站的评价，涉及到了总体得分和校务公开、教师工作、学校工作等8个子指标项。请对测试指标项进行降维，抽取其主成分。

五、因子分析 4、因子分析的实用案例 (2)操作过程启动SPSS的层次聚类分析——降维——因子分析

五、因子分析 4、因子分析的实用案例 (3)参数设置选择“抽取”按钮抽取方法为“主成分”； “输出”中选中“碎石图”；
“特征根”选择“大于1”。选择“旋转”按钮设置“方法”为“最大方差法” 设置“输出”为“旋转解”、“载荷图”为有效。最后，单击“确定”按钮。

五、因子分析 4、因子分析的实用案例 (4)输出结果与解读初始公因子方差

五、因子分析 4、因子分析的实用案例 (4)输出结果与解读解释的总方差有两个特征根大于1的主因子。

五、因子分析 4、因子分析的实用案例 (4)输出结果与解读碎石图：两个特征根大于1。

五、因子分析 4、因子分析的实用案例 (4)输出结果与解读成分矩阵成分1包括了5个变量，可解释为学校常规管理效率；
成分2主要包括3个变量，可解释为学校的教育信息化发展水平。

五、因子分析 4、因子分析的实用案例 (4)输出结果与解读旋转后的成分矩阵成分1：学校常规管理效率；成分2：教育信息化水平
本案例可不旋转。

五、因子分析 4、因子分析的实用案例 (4)输出结果与解读空间载荷成分图

五、因子分析 4、因子分析的实用案例 (5)对操作的补充说明在“描述”统计表下。

五、因子分析 4、因子分析的实用案例 (5)对操作的补充说明在“得分”对话框下

感谢聆听！马秀麟

社会科学统计软件及应用马秀麟 2015年8月.

Similar presentations

Presentation on theme: "社会科学统计软件及应用马秀麟 2015年8月."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

社会科学统计软件及应用 马秀麟 2015年8月.

Similar presentations

Presentation on theme: "社会科学统计软件及应用 马秀麟 2015年8月."— Presentation transcript:

Similar presentations

About project

反馈

社会科学统计软件及应用马秀麟 2015年8月.

Presentation on theme: "社会科学统计软件及应用马秀麟 2015年8月."— Presentation transcript: