欢迎访问 http://www.ruc-6sigma.com 下载课件和数据 2018/11/30 中国人民大学六西格玛质量管理研究中心
例4.1:例4.1 2018/11/30 2 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 数据文件:例4.1.sav 2018/11/30 3 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
2018/11/30 4 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 2018/11/30 6 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 2018/11/30 7 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 2018/11/30 8 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 2018/11/30 9 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 输出结果4.3分析的是典型判别函数。第1张表反映判别函数的特征值、解释方差的比例和典型相关系数。(注意我们仅选取了两个解释变量,所以判别函数解释了全部的方差)第2张表是对第一个判别函数的显著性检验。由Wilks’ Lambda检验,认为判别函数在0.01的显著性水平上是极显著的。 2018/11/30 10 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 输出结果4.4显示的是判别函数、判别载荷和各组的重心。 中国人民大学六西格玛质量管理研究中心 2018/11/30 11 目录 上页 下页 返回 结束
例4.1 第2张表是结构矩阵,即判别载荷。由判别权重和判别载荷可以看出两个解释变量对判别函数的贡献较大。 2018/11/30 12 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 2018/11/30 13 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 2018/11/30 14 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 输出结果4.5是分类的统计结果。 第1张表概括了分类过程,说明24个观测都参与分类。第2张表说明各组的先验概率,我们在Classify选项中选择的是所有组的先验概率相等。 第3张表是每组的分类函数(区别于判别函数),也称费歇线性判别函数, 2018/11/30 15 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 第4张表是分类矩阵表。Predicted Group Membership表示预测的所属组关系,Original表示原始数据的所属组关系,Cross-validated表示交叉验证的所属组关系,这里交叉验证是采用“留一个在外”的原则,即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的。 2018/11/30 16 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.1 我们还可以通过保存(Save)选项选择预测的类别关系和判别得分等,对观测进行诊断。
例4.2:例4.2 【例4.2】研究者希望能够根据气候、经济因素、人口等信息来判断某国家或地区属于哪一类型。这里国家country(因变量)有3种类别,OECD表示经合组织的国家(包括美国、加拿大和西欧等发达国家),Pacific/Asia表示亚太地区的国家,Africa表示非洲地区的国家。考虑了以下几个自变量,climate(气候因素,包括沙漠气候、干旱气候、地中海气候、海洋气候、温带气候和极地气候等),urban(城市居民的比例),population(人口数),gdp_cap(人均GDP)。数据集来自SPSS15.0自带的数据集World95.sav。 2018/11/30 18 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.2
例4.2
例4.2 进入判别分析对话框以后,我们使用逐步判别分析,Method选择马氏距离。得到如下输出结果: 首先显示有类似的输出结果4.1的3张表,第1张表是分析的样本及其缺失情况。第2张表是各组变量的描述统计分析。第3张表是各组变量均值是否相等的统计检验,结果说明四个自变量各组的均值在0.05的显著性水平上是不相等的。此处从略。 2018/11/30 21 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.2 输出结果4.6是对协方差阵是否相等的检验。由第2张表可以看出,原假设被拒绝,即认为各组的协方差阵不等。(注意这里违反了原假设) 2018/11/30 22 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.2 2018/11/30 23 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.2 2018/11/30 24 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.2 输出结果4.7是说明逐步回归的结果。第1,2张表说明变量进入判别函数的情况。第3张表说明不在判别函数的变量,结果反映城市居民的比例(urban)对判别函数的贡献不显著,其他三个自变量被选入判别方程。第4张表说明判别函数的显著性,由Step3的结果说明判别函数在0.05的显著性水平上是显著的,模型拟合较好。 2018/11/30 25 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.2 2018/11/30 26 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.2 输出结果4.8分析的是典型判别函数。第1张表说明选取了两个典型判别函数,它们可以解释全部的方差。第2张表是对两个判别函数的Wilks’ Lamada检验,检验结果说明两个判别函数在0.05的显著性水平上是显著的。第3张表是标准化判别函数,第4张表是结构矩阵(即判别载荷矩阵),第5张表是非标准化判别函数,由这几张表可以说明,第一判别函数主要反映一国的气候和经济因素,第二判别函数主要反映人口因素。第6张表反映各组的重心,我们由此可以计算出临界点,从而根据判别函数计算出判别Z得分,对各个观测进行归类。 2018/11/30 27 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.2 2018/11/30 28 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.2 输出结果4-9的第1张表是对观测分类的总体概括,有一个观测至少有1个自变量缺失。第2张表是各组的先验概率,由于我们选择先验概率按各组大小计算,所以各组的先验概率是与各组大小成比例的。第3张表说明分类函数,也就是费歇线性判别函数,我们可以根据这三组的函数计算每个观测在各组的分类得分,然后将该观测归到得分最高的组中。 第4张图是根据典型判别函数作的所有组的散点图,比较直观地反映了各组观测的分类情况和各组的重心。 2018/11/30 29 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.2 第5张表是分类结果的矩阵,这里我们也使用了“留一个在外”的原则进行交叉验证,验证的结果还是可以接受的,表明模型拟合还是不错的。由分类矩阵可以看出,OECD国家和非洲国家的个体误判概率很小,而亚太国家误判概率很大。这说明了OECD国家经济比较发达,城市化水平较高,而且各成员国发展水平相差不大;非洲国家经济水平较低,城市化水平也较低,其成员国发展水平相差也不大;因此这两类国家比较容易判别,而亚太国家和地区发展水平不均衡,没有太多的共同点,导致其成员国不易判别。(根据输出结果4.8第2张表的均值和协差阵可以说明)我们还可以在对话框中选择Classify→Display→Casewise results,对每个观测进行诊断分析。 2018/11/30 30 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.5 Fisher判别 例4.5 2005年全国城镇居民月平均消费状况可划分为两类,分类后的数据见表4-8。试建立费歇尔线性判别函数,并将广东、西藏两个待判省区归类。 2018/11/30 31 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.5 2018/11/30 32 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.5 2018/11/30 33 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.5 2018/11/30 34 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.5 6.回判及待判样品的归类。 2018/11/30 35 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.5 2018/11/30 36 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.5 2018/11/30 37 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.5
(注意,不是Fisher’s项!),要求显示费歇尔判别法建立的非标准化系数。
例4.5 在输出结果中可以看到各组均值、标准差、协方差阵等描述统计结果以及判别函数,返回数据表中,可以看到判别结果已经作为一个新的变量被保存,广东和西藏均被划分到第二大类,篇幅所限,各输出结果在此不再列示。 2018/11/30 40 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.6 例4.6 2005年全国各地区农村居民家庭人均消费情况可划分为三种类型,分类后的数据见表4-2。试用SPSS软件建立Bayes判别函数,并将待判样品归类。 2018/11/30 41 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.6 2018/11/30 42 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.6 2018/11/30 43 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.6 根据判别函数,就可以对原各组样品以及待判样品进行回判和判别,此时在SPSS中返回原数据表,可以看到一个新的变量名为Dis_1,其对应的各值就是对各地区的回判和判别结果,可知广东被划分到第二类消费水平地区,西藏被划分到第三类消费水平地区,并且原各组样品的回报误判率为零。以上判别结果综合整理列于表4-10。 2018/11/30 44 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.6 2018/11/30 45 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.6 在例4.5和4.6中,我们是将事先确定的所有八个指标变量都选入来进行判别分析,在实际应用中,我们也大多是设计尽可能多的相关指标来进行聚类和判别分析,然而事实是,指标太多不仅增大了计算量,而且那些对判别无用的指标也会干扰我们的视线。因此对众多指标进行筛选,找出对判别函数贡献比较突出,具有较强判别能力的指标成为一个很重要的事情。凡是具有筛选变量能力的判别方法统称为逐步判别法,有关这些方法的具体论述可见参考文献[2]。 2018/11/30 46 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.6 在此我们以例4.6为例介绍逐步判别法在SPSS中的实现。操作步骤仍与例4.5类似,不同之处在于点击“Analyze”→“Classify” →“Discriminant”,打开Discriminant Analysis对话框后,将Independents栏下的“Enter independents together”项改选为“Use stepwise method”,此时窗口最下面一行的“Method”按钮被激活,点击后进入Discriminant Analysis:stepwise method对话框,在method栏中选中Mahalanobis distance项,即采用马氏距离,其他选项保持不变,返回主对话框后,其他操作仍按例4.5进行,点击“OK”得到输出结果,部分列举如下: 2018/11/30 47 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.6 2018/11/30 48 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.6 2018/11/30 49 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.6 2018/11/30 50 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.3 距离判别 例4.3 为了研究2005年全国各地区农村居民家庭人均消费支出情况,按标准化欧氏平方距离、离差平方和聚类方法将29个省、市、自治区(除广东和西藏以外)分为三种类型,设置group变量取值分别为1、2、3。试建立判别函数,判定广东、西藏分别属于哪个消费水平类型。判别指标及原始数据见表4-2。 2018/11/30 51 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.3 距离判别 2018/11/30 52 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.3 距离判别 2018/11/30 53 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.3 距离判别 将原29个样品的回报结果列于表4-3,两个待判样品的判别结果列于表4-4。广东省应判归第二类消费水平,西藏自治区归入第三类消费水平为宜。本例的回报准确率高,说明各地区农村居民的消费水平划分为三种类型是合适的。由于SPSS中的判别分析没有距离判别这一方法,因此距离判别法无法在SPSS中直接实现,但可以通过SAS等软件来进行计算。 2018/11/30 54 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
SAS程序 proc iml; sigma={9.59 15.7 -1.8 12 -8.6 -7.1 8.42 -49, ………. -48.7 10.2 14.2 -159 -99 75.3 -40 978.5}; mu1={1789.42, 143.50, 530.30, 152.12, 411.64, 360.73, 203.85, 116.17}; mu2={1185.23, 182.45, 84.24, 81.24, 79.26, 28.20, 44.44, 38.70}; mu=(mu1+mu2)/2; arfa=inv(sigma)*(mu1-mu2); c=t(arfa)*mu; print arfa c;
例4.3 距离判别 这里顺便指出,回报的误判率并不是“误判概率”,而且前者通常要小些,回判情况仅供使用时参考。 例4.3 距离判别 这里顺便指出,回报的误判率并不是“误判概率”,而且前者通常要小些,回判情况仅供使用时参考。 2018/11/30 56 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.4 距离判别 例4.4 为了研究2005年全国各地区国有及国有控股工业企业的经营状况,按标准化欧氏平方距离、离差平方和聚类方法将29个省、市、自治区(除广东和西藏以外)分为三种类型,设置group变量取值分别为1、2、3。试建立判别函数,判定广东、西藏分别属于哪个发展类型。判别指标及原始数据见表4-5。 2018/11/30 57 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.4 距离判别 2018/11/30 58 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.4 距离判别 2018/11/30 59 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
例4.4 距离判别 将原29个样品的回报结果列于表4-6,两个待判样品的判别结果列于表4-7。广东省应判归第一类,西藏自治区归入第三类为宜。本例的回报准确率高,说明各地区国有及控股工业企业经济效益划分为三种类型是合适的。这也可看成聚类分析与判别分析的结合应用。 鸢尾花数据 2018/11/30 60 中国人民大学六西格玛质量管理研究中心 目录 上页 下页 返回 结束
The end! Thanks! 2018/11/30 61 中国人民大学六西格玛质量管理研究中心