多元统计分析 何晓群 中国人民大学出版社 2017/3/4 中国人民大学六西格玛质量管理研究中心
第二章 均值向量和协方差阵的检验 §2.1 均值向量的检验 §2.2 协方差阵的检验 §2.3 形象分析 §2.4 有关检验的上机实现 §2.1 均值向量的检验 §2.2 协方差阵的检验 §2.3 形象分析 §2.4 有关检验的上机实现 2017/3/4 中国人民大学六西格玛质量管理研究中心 2 目录 上页 下页 返回 结束
第二章 均值向量和协方差阵的检验 以 做检验。 2017/3/4 中国人民大学六西格玛质量管理研究中心 3 目录 上页 下页 返回 结束
第二章 均值向量和协方差阵的检验 2017/3/4 中国人民大学六西格玛质量管理研究中心 4 目录 上页 下页 返回 结束
§2.1 均值向量的检验 §2.1.1 一个指标检验的回顾 §2.1.2 多元均值检验 §2.1.3 两总体均值的比较 §2.1 均值向量的检验 §2.1.1 一个指标检验的回顾 §2.1.2 多元均值检验 §2.1.3 两总体均值的比较 §2.1.4 多总体均值的检验 2017/3/4 中国人民大学六西格玛质量管理研究中心 5 目录 上页 下页 返回 结束
§2.1.1 一个指标检验的回顾 2017/3/4 中国人民大学六西格玛质量管理研究中心 6 目录 上页 下页 返回 结束
§2.1.1 一个指标检验的回顾 2017/3/4 中国人民大学六西格玛质量管理研究中心 7 目录 上页 下页 返回 结束
§2.1.1 一个指标检验的回顾 2017/3/4 中国人民大学六西格玛质量管理研究中心 8 目录 上页 下页 返回 结束
§2.1.2 多元均值检验 2017/3/4 中国人民大学六西格玛质量管理研究中心 9 目录 上页 下页 返回 结束
§2.1.2 多元均值检验 2017/3/4 中国人民大学六西格玛质量管理研究中心 10 目录 上页 下页 返回 结束
§2.1.2 多元均值检验 2017/3/4 中国人民大学六西格玛质量管理研究中心 11 目录 上页 下页 返回 结束
§2.1.2 多元均值检验 (ⅰ)协方差阵Σ已知 类似于(2.3)的统计量(注意(2.3)的形式)是 §2.1.2 多元均值检验 (ⅰ)协方差阵Σ已知 类似于(2.3)的统计量(注意(2.3)的形式)是 可以证明,在假设 为真时,统计量 遵从自由度为p的 分布;事实上由§1.5 2017/3/4 中国人民大学六西格玛质量管理研究中心 12 目录 上页 下页 返回 结束
§2.1.2 多元均值检验 统计量 实质上是样本均值 与已知平均水平 之间的马氏距离的 倍,这个值越大,μ与 相等的可能性就越小,因而,在备择假设 成立时, 有变大的趋势,所以拒绝域应取为 值较大的右侧部分。式中 是样本均值, 是样本容量。 当给定显著性水平 后,由样本值可以算出 的值,当 时,便拒绝零假设 ,说明均值μ不等于 ,其中 是自由度为P的 分布的分为点。即 2017/3/4 中国人民大学六西格玛质量管理研究中心 13 目录 上页 下页 返回 结束
§2.1.2 多元均值检验 (ⅱ)协方差阵Σ未知 此时Σ的无偏估计是 ,类似于式(2.3)的统计量是: §2.1.2 多元均值检验 (ⅱ)协方差阵Σ未知 此时Σ的无偏估计是 ,类似于式(2.3)的统计量是: 可以证明,统计量遵从参数为p,n-1,,的 分布,即 。统计量 实际上也是样本均值 与已知均值向量 之间的马氏距离再乘以n(n-1),这个值越大,μ与 相等的可能性就越小。 2017/3/4 中国人民大学六西格玛质量管理研究中心 14 目录 上页 下页 返回 结束
§2.1.2 多元均值检验 因而,在备择假设成立时, 的值有变大的趋势,所以拒绝域可取为 值较大的右侧部分。因此,当给定显著性水平 后,由样本的数值可立即算出 值,当 时,便拒绝零假设 。 分布的5%及1%的分位点已列成专表,由网上下载, 为 的上 分位点。 2017/3/4 中国人民大学六西格玛质量管理研究中心 15 目录 上页 下页 返回 结束
§2.1.2 多元均值检验 由§1.5,将 统计量乘上一个适当的常数后,便成为F 统计量,也可用F分布表获得零假设的拒绝域。即 §2.1.2 多元均值检验 由§1.5,将 统计量乘上一个适当的常数后,便成为F 统计量,也可用F分布表获得零假设的拒绝域。即 关于 、 的合理性及推证见参考文献[3] 在实际工作中,一元检验与多元检验可以联合使用,多元的检验具有概括和全面考察的特点,而一元的检验容易发现各指标之间的关系和差异,能帮助我们找出存在差异的侧重面,提供了更多的统计分析信息。 2017/3/4 中国人民大学六西格玛质量管理研究中心 16 目录 上页 下页 返回 结束
§2.1.3 两总体均值的比较 在许多实际问题中,往往要比较两个总体之间的平均水平有无差异。例如,两所大学新生录取成绩是否有明显差异;研究职工工资总额的构成情况,若按国民经济行业分组,就是例如要研究工业与建筑业这两个行业之间,是否有明显的不同之处;同理,可按工业领导关系(中央、省、市、县属工业)分组;也可按工业行业分组。组与组之间的工资总额构成有无显著差异,本质上就是两个总体的均值向量是否相等,这类问题,通常也称为两样本问题。两总体均值比较的问题,又可分为两总体协方差阵相等与两总体协方差阵不等两种情形。 2017/3/4 中国人民大学六西格玛质量管理研究中心 17 目录 上页 下页 返回 结束
§2.1.3 两总体均值的比较 1.协方差阵相等的情形 设 为来自p元正态总体 的容量为 的样本, §2.1.3 两总体均值的比较 1.协方差阵相等的情形 设 为来自p元正态总体 的容量为 的样本, 是来自p元正态总体 容量为 的样本,且两样本之间相互独立, 假定两总体协方差阵相等,但未知,现对假设 进行检验。与前面类似的统计量的形式是: 2017/3/4 中国人民大学六西格玛质量管理研究中心 18 目录 上页 下页 返回 结束
§2.1.3 两总体均值的比较 2017/3/4 中国人民大学六西格玛质量管理研究中心 19 目录 上页 下页 返回 结束
§2.1.3 两总体均值的比较 因为 的值与总体均值的马氏距离 成正比例,此值愈大,说明两总体的均值很接近的可能性就愈小,因而拒绝域可以取为 值较大的右侧区域,即当给定显著性水平 的值时,若 时,拒绝 ,否则没有足够理由拒绝 。 2017/3/4 中国人民大学六西格玛质量管理研究中心 20 目录 上页 下页 返回 结束
§2.1.3 两总体均值的比较 2.协方差阵不相等情形 设从两个总体 和 ,分别抽取容量为 和 的两个样本, , §2.1.3 两总体均值的比较 2.协方差阵不相等情形 设从两个总体 和 ,分别抽取容量为 和 的两个样本, , 假定两总体协方差阵不相等,我们考虑对假设(2.9)作检验。这是著名Behrens—Fisher问题。长期以来,统计学家用许多方法试图解决这个问题。当 与 相差较大时, 统计量的形式是: 2017/3/4 中国人民大学六西格玛质量管理研究中心 21 目录 上页 下页 返回 结束
§2.1.3 两总体均值的比较 式中, 的统计含义与前相同,再令 中国人民大学六西格玛质量管理研究中心 2017/3/4 22 §2.1.3 两总体均值的比较 式中, 的统计含义与前相同,再令 2017/3/4 中国人民大学六西格玛质量管理研究中心 22 目录 上页 下页 返回 结束
§2.1.3 两总体均值的比较 当假设(2.9)的 成立时,可以证明(见文献[3]) 近似遵从第一自由度为 、第二自由度为 的F分布,即 §2.1.3 两总体均值的比较 当假设(2.9)的 成立时,可以证明(见文献[3]) 近似遵从第一自由度为 、第二自由度为 的F分布,即 2017/3/4 中国人民大学六西格玛质量管理研究中心 23 目录 上页 下页 返回 结束
§2.1.4 多总体均值的检验 在许多实际问题中,我们要研究的总体往往不止两个。例如,要对全国的工业行业的生产经营状况做一比较时,一个行业可以看成一个总体,此时要研究的总体就达几十甚至几百个之多。这类问题的研究就需要多元方差分析的知识。多元方差分析是一元方差分析的直接推广,为了易于理解多元方差分析的方法,我们先回顾一元的方差分析。 2017/3/4 中国人民大学六西格玛质量管理研究中心 24 目录 上页 下页 返回 结束
§2.1.4 多总体均值的检验 假设r个总体的方差相等,要检验的假设就是 中国人民大学六西格玛质量管理研究中心 2017/3/4 25 §2.1.4 多总体均值的检验 假设r个总体的方差相等,要检验的假设就是 2017/3/4 中国人民大学六西格玛质量管理研究中心 25 目录 上页 下页 返回 结束
§2.1.4 多总体均值的检验 这个检验的统计量与下列平方和密切相关 中国人民大学六西格玛质量管理研究中心 2017/3/4 26 §2.1.4 多总体均值的检验 这个检验的统计量与下列平方和密切相关 2017/3/4 中国人民大学六西格玛质量管理研究中心 26 目录 上页 下页 返回 结束
§2.1.4 多总体均值的检验 2017/3/4 中国人民大学六西格玛质量管理研究中心 27 目录 上页 下页 返回 结束
§2.1.4 多总体均值的检验 用类似于一元方差分析的办法,前面所述的三个平方和变成了矩阵,形式如下: 很显然W=B+E §2.1.4 多总体均值的检验 用类似于一元方差分析的办法,前面所述的三个平方和变成了矩阵,形式如下: 很显然W=B+E 关于的检验可用Wilks Λ分布,再化为F分布,详细参考1.5节 2017/3/4 中国人民大学六西格玛质量管理研究中心 28 目录 上页 下页 返回 结束
§2.2 协方差阵的检验 §2.2.1 检验 §2.2.2 检验 中国人民大学六西格玛质量管理研究中心 2017/3/4 29 §2.2 协方差阵的检验 §2.2.1 检验 §2.2.2 检验 2017/3/4 中国人民大学六西格玛质量管理研究中心 29 目录 上页 下页 返回 结束
§2.2 协方差阵的检验 上面讨论了多元正态分布均值的检验。但这仅仅研究了问题的一个方面,倘若要进一步深究不同总体的平均水平(均值)波动的幅度,前面介绍的方法就无能为力了。本节所介绍的协方差阵的检验可以解决该类问题 2017/3/4 中国人民大学六西格玛质量管理研究中心 30 目录 上页 下页 返回 结束
§2.2.1 检验 是样本协方差阵,关于统计量M的推证过程见参考文献[1]。 中国人民大学六西格玛质量管理研究中心 2017/3/4 31 §2.2.1 检验 是样本协方差阵,关于统计量M的推证过程见参考文献[1]。 2017/3/4 中国人民大学六西格玛质量管理研究中心 31 目录 上页 下页 返回 结束
§2.2.1 检验 其中 2017/3/4 中国人民大学六西格玛质量管理研究中心 32 目录 上页 下页 返回 结束
§2.2.2 检验 上面讨论的检验 ,是帮助我们分析当前的波动幅度与过去的波动情形有无显著差异。但在实际问题中,我们往往面临多个总体,需要了解这多个总体之间的波动幅度有无明显的差异。例如在研究职工工资构成时,若按工业行业分组,就有采掘业、制造业、文化教育、金融保险等,不同行业间工资总额的构成存在波动,研究波动是否存在显著的差异,就是做行业间协方差阵相等性的检验。用统计理论来描述就是: 设有r个总体,从各个总体中抽取样品如下: 2017/3/4 中国人民大学六西格玛质量管理研究中心 33 目录 上页 下页 返回 结束
§2.2.2 检验 2017/3/4 中国人民大学六西格玛质量管理研究中心 34 目录 上页 下页 返回 结束
§2.2.2 检验 当 不大且 时,本书附表4中列出了M 的上 分位点;若 较大且 互不相当时,附表4中未列出它们对应的临界值,此时可用F分布去近似,M 近似遵从 ,记作 M≈ (2.22) 2017/3/4 中国人民大学六西格玛质量管理研究中心 35 目录 上页 下页 返回 结束
§2.2.2 检验 其中 2017/3/4 中国人民大学六西格玛质量管理研究中心 36 目录 上页 下页 返回 结束
§2.3 形象分析 §2.3.1 形象分析的基本思想 §2.3.2 形象分析的基本理论 §2.3.3 多个总体的形象分析 §2.3 形象分析 §2.3.1 形象分析的基本思想 §2.3.2 形象分析的基本理论 §2.3.3 多个总体的形象分析 §2.3.4 需要注意的问题 2017/3/4 中国人民大学六西格玛质量管理研究中心 37 目录 上页 下页 返回 结束
§2.3 形象分析 上面我们论述了多个遵从多元正态分布的总体的均值比较问题,在实际研究中,人们常常需要对来自两正态总体的样本做更细致的分析。比如,比较两总体各个指标之间变动的幅度是否相等,进一步,如果两总体各指标之间的变量幅度相等,比较两总体的均值是否相等,更进一步,当通过了两总体均值相等的假设之后,检验两总体各个指标的取值是否相等。统计学家将对这类问题的解决方法归结为本节所讲的形象分析(Profile Analysis)。形象分析广泛地用于实验设计数据的检验,同时,也可应用于其他领域对多个指标的比较研究。本节主要讲述形象分析的基本思想,分析过程及用SPSS软件进行形象分析的方法。 2017/3/4 中国人民大学六西格玛质量管理研究中心 38 目录 上页 下页 返回 结束
§2.3.1 形象分析的基本思想 形象(profile)又称轮廓图,是将总体样本的均值绘制到同一坐标轴里所得的折线图,每一个指标都表示为折线图上的一点,若总体有 个指标,则其形象即由坐标轴里 个点连接而成。注意这里的 个指标必须是同类可比指标,否则不能画到一个坐标里面。 形象分析即是将两(多)总体的形象绘制到同一坐标下,根据形象(轮廓图)的形状对总体的均值进行比较分析。 设我们要对 A、B 两个多元正态总体(方差相等)的 个同类指标作比较,分别从两总体随机抽取 、 个样本,将样本均值作图得到如 图2-1所示的形象: 2017/3/4 中国人民大学六西格玛质量管理研究中心 39 目录 上页 下页 返回 结束
§2.3.1 形象分析的基本思想 图2-1两总体的形象图 由上面的轮廓图可以清楚地看到,两总体的形象大体平行,也就是说, 个指标的变动幅度大致相等,是否如此还须得到统计检验才能下结论。 2017/3/4 中国人民大学六西格玛质量管理研究中心 40 目录 上页 下页 返回 结束
§2.3.1 形象分析的基本思想 进一步,若两总体形象平行的假设被接受,我们还想知道两总体的形象是否重合,即两总体均值是否相等。更进一步,若两总体均值相等,那么两总体的形象是否水平,即这 个指标之间是否有显著差异呢?形象分析就是针对这些问题,借助于方差分析的思想,依次提出两总体形象平行、重合、水平的假设,然后选择合适的统计量对这三个假设进行检验的分析。 2017/3/4 中国人民大学六西格玛质量管理研究中心 41 目录 上页 下页 返回 结束
§2.3.2 形象分析的基本理论 (2.23) 设 均值向量 , ,均值向量 ,则针对上面的问题,相应的假设的形式与检验统计量如下所述: §2.3.2 形象分析的基本理论 设 均值向量 , ,均值向量 ,则针对上面的问题,相应的假设的形式与检验统计量如下所述: 1.两总体形象平行的假设与检验统计量: (2.23) 2017/3/4 中国人民大学六西格玛质量管理研究中心 42 目录 上页 下页 返回 结束
§2.3.2 形象分析的基本理论 令C为如下 阶对照阵 则上面的假设可写为: (2.24) §2.3.2 形象分析的基本理论 令C为如下 阶对照阵 则上面的假设可写为: (2.24) 或者写为 ,这里 为各分量全为1的 维列向量。 可以看作是两总体之间的平均差异。 2017/3/4 中国人民大学六西格玛质量管理研究中心 43 目录 上页 下页 返回 结束
§2.3.2 形象分析的基本理论 设从总体 中取得 个样本,从总体 中取得 个样本,令 、 、 及 分别代表两总体的样本均值向量及协方差阵,总体方差 的估计形式为: (2.25) 则若: 拒绝 ,否则没有足够理由拒绝,认为两总体的形象平行,若假设 被接受,则我们可以继续对下面两个假设给予检验. 2017/3/4 中国人民大学六西格玛质量管理研究中心 44 目录 上页 下页 返回 结束
§2.3.2 形象分析的基本理论 2.两总体的形象重合的假设与检验统计量 (2.26) §2.3.2 形象分析的基本理论 2.两总体的形象重合的假设与检验统计量 (2.26) 由前所述, 反映了两总体之间的平均差异程度,因此可以求出 的置信区间,若所求置信区间显著不包括0,则说明两总体均值有明显差异,即拒绝两总体形象重合的假设,反之,没有足够理由拒绝 ,认为两总体形象是重合的。 的极大似然估计为: (2.27) 2017/3/4 中国人民大学六西格玛质量管理研究中心 45 目录 上页 下页 返回 结束
§2.3.2 形象分析的基本理论 的 置信区间: (2.28) 其中: 若0在上述置信区间内,则可以考虑接受 ,否则,拒绝。 §2.3.2 形象分析的基本理论 的 置信区间: (2.28) 其中: 若0在上述置信区间内,则可以考虑接受 ,否则,拒绝。 2017/3/4 中国人民大学六西格玛质量管理研究中心 46 目录 上页 下页 返回 结束
§2.3.2 形象分析的基本理论 实际上,在通过了两总体形象平行的前提下,对两总体形象重合的假设检验有更简单的形式。设假设 已经通过,则对于任意的 ( ), 与 必居其一,于是,两总体形象重合,当且仅当 = 。因此,检验两总体形象重合,等价于检验如下假设: (2.29) 于是,将从总体 中取得每一个样品各指标值相加,得到各指标和的 个数据 ( ),对从总体 中取得的 个样品作同样的加工,得到 个数据 ( )。 2017/3/4 中国人民大学六西格玛质量管理研究中心 47 目录 上页 下页 返回 结束
§2.3.2 形象分析的基本理论 (2.30) 利用两个一元正态总体均值检验中方差相等但未知的情况的检验方法,构造如下统计量: §2.3.2 形象分析的基本理论 利用两个一元正态总体均值检验中方差相等但未知的情况的检验方法,构造如下统计量: (2.30) 式中, 的定义如上,若 ,或者 则拒绝 ,否则没有足够理由拒绝,认为两总体形象重合。 两总体形象重合的检验通过之后,可以进行如下两总体形象 水平的检验。 2017/3/4 中国人民大学六西格玛质量管理研究中心 48 目录 上页 下页 返回 结束
§2.3.2 形象分析的基本理论 3.两总体形象水平的假设及检验统计量 §2.3.2 形象分析的基本理论 3.两总体形象水平的假设及检验统计量 在两总体形象重合的假设通过检验时,这两个正态总体实际上是来自同一总体。将所得到的 个数据合并, 令 ,则 为所有观测的总平均向量,总体形象水平的假设如下: (2.31) 若: (2.32) 则拒绝 ;否则,可以考虑接受,认为总体的形象是水平的,即 个指标的取值是相等的。 2017/3/4 中国人民大学六西格玛质量管理研究中心 49 目录 上页 下页 返回 结束
§2.3.3 多个总体的形象分析 设有 个总体,从每个总体中取得 个样品,对每个样品观测 个指标,所得观测数据如下表示: 其中, 假定 令: §2.3.3 多个总体的形象分析 设有 个总体,从每个总体中取得 个样品,对每个样品观测 个指标,所得观测数据如下表示: 其中, 假定 令: 则关于 这个总体形象平行、重合、水平的假设提法及检验统计量如下。 2017/3/4 中国人民大学六西格玛质量管理研究中心 50 目录 上页 下页 返回 结束
§2.3.3 多个总体的形象分析 1.各总体形象平行 (2.33) 检验统计量为: (2.34) §2.3.3 多个总体的形象分析 1.各总体形象平行 (2.33) 检验统计量为: (2.34) 其中,矩阵 的定义同前。当 成立时, 遵从Wilks分布 ,在显著性水平 下,若 ,则拒绝 ;否则可以考虑接受,认为 个总体的形象是平行的。 2017/3/4 中国人民大学六西格玛质量管理研究中心 51 目录 上页 下页 返回 结束
§2.3.3 多个总体的形象分析 2. 各总体的形象重合: 则在显著性水平 下,若 则拒绝 ;否则可以考虑接受,认为 个总体的形象是重合的。 §2.3.3 多个总体的形象分析 2. 各总体的形象重合: (2.35) 则在显著性水平 下,若 则拒绝 ;否则可以考虑接受,认为 个总体的形象是重合的。 2017/3/4 中国人民大学六西格玛质量管理研究中心 52 目录 上页 下页 返回 结束
§2.3.4 需要注意的问题 进行形象分析的首要条件就是各指标的均值能在一张图上画出来,也就是说,各指标必须是同类的,否则总体“形象”的概念就没有意义,更谈不上“水平”了,这同时也要求各指标的取值应该在同一量级,形象分析的结果受到变量量纲的影响。另外,要求不同总体的协方差矩阵至少是相等的,这一点在上面检验的过程中可以看出来。 2017/3/4 中国人民大学六西格玛质量管理研究中心 53 目录 上页 下页 返回 结束
§2.4 有关检验的上机实现 §2.4.1 均值及协方差阵的检验 §2.4.2 形象分析的上机实现 中国人民大学六西格玛质量管理研究中心 §2.4 有关检验的上机实现 §2.4.1 均值及协方差阵的检验 §2.4.2 形象分析的上机实现 2017/3/4 中国人民大学六西格玛质量管理研究中心 54 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 【例2.1】 1999年财政部、国家经贸委、人事部和国家计委联合发布了《国有资本金效绩评价规则》。其中,对竞争性工商企业的评价指标体系包括下面八大基本指标:净资产收益率、总资产报酬率、总资产周转率、流动资产周转率、资产负债率、已获利息倍数、销售增长率和资本积累率。下面我们借助于这一指标体系对我国上市公司的运营情况进行分析,表2-1所列的是35家上市公司2000年年报数据,这35家上市公司分别来自于电力、煤气及水的生产和供应业,房地行业,信息技术业,在后面各章中也经常以该数据为例进行分析。 2017/3/4 中国人民大学六西格玛质量管理研究中心 55 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 表2-1 行业 公司简称 净资产收益率% 总资产报酬率% 资产负债率% 总资产周转率 流动资产周转率 已获利息倍数 销售增长率% 资本积累率% 电力、煤气及水的生产和供应业 深能源A 16.85 12.35 42.32 0.37 1.78 7.18 45.73 54.54 深南电A 22 15.30 46.51 0.76 1.77 15.67 48.11 19.41 富龙热力 8.97 7.98 30.56 0.17 0.58 10.43 17.80 9.44 穗恒运A 10.25 8.99 40.44 0.46 2.46 5.06 11.06 1.09 粤电力A 20.81 20.00 35.87 0.43 1.25 34.89 24.77 12.67 韶能股份 8.86 7.52 27.59 0.24 0.84 20.59 -3.50 54.02 惠天热电 10.98 7.94 49.30 0.36 0.69 12.43 16.88 3.52 原水股份 8.85 8.88 36.20 0.13 0.41 8.53 -11.49 2.44 大连热电 9.03 7.41 46.89 0.28 0.79 6.86 16.23 -1.52 龙电股份 12.07 8.70 16.81 0.68 29.75 4.11 63.06 华银电力 6.85 6.12 41.93 0.65 4.38 11.20 3.80 2017/3/4 中国人民大学六西格玛质量管理研究中心 56 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 续前表 中国人民大学六西格玛质量管理研究中心 房地产 行业 长春经开 9.85 10.50 31.23 0.34 0.40 17.13 18.05 7.18 兴业房产 1.07 1.52 66.91 0.21 0.24 1.53 -31.93 1.08 金丰投资 19.44 7.01 73.34 0.26 0.30 7.02 71.22 12.73 新 黄 浦 7.61 5.92 39.64 0.16 0.17 4.20 14.77 7.91 浦东金桥 4.24 3.99 37.30 0.20 0.25 3.98 -9.24 4.69 外 高 桥 1.673 1.92 49.05 0.03 0.05 1.06 -21.74 中华企业 8.78 6.28 57.42 0.19 3.58 75.29 2.93 渝开发A 0.2 2.24 63.40 0.09 0.15 -12.56 0.29 辽 房 天 8.12 69.10 0.10 0.72 2.65 -35.83 3.16 粤宏远A 0.42 1.16 37.42 1.59 19.18 0.43 ST中福 5.17 6.62 65.48 1.33 -19.91 23.74 倍特高新 2.76 65.39 1.24 8.40 0.70 三木集团 5.99 4.53 65.17 0.74 0.88 4.14 75.36 0.87 寰岛实业 24.03 0.02 -8.18 -71.33 中 关 村 9.32 4.48 67.76 0.32 0.37 16.42 -29.42 4.09 2017/3/4 中国人民大学六西格玛质量管理研究中心 57 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 续前表 中国人民大学六西格玛质量管理研究中心 信息技术业 中兴通讯 18.78 11.09 69.15 0.93 1.08 4.79 80.80 23.27 长城电脑 14.94 9.48 45.53 1.14 1.85 9.51 34.47 35.93 青鸟华光 9.788 8.70 36.67 0.28 0.39 13.11 28.36 7.87 清华同方 15.91 9.08 34.19 0.85 1.19 15.61 98.92 95.66 永鼎光缆 9.4 8.67 32.75 0.79 1.25 13.49 41.75 6.33 宏图高科 14.57 7.96 65.86 0.76 0.94 3.95 54.45 15.71 海星科技 4.06 3.35 36.49 0.48 0.60 4.64 -16.28 1.69 方正科技 27.48 16.69 57.13 2.51 2.87 7.40 63.27 32.02 复华实业 5.58 4.10 44.24 0.41 3.77 12.92 2.30 2017/3/4 中国人民大学六西格玛质量管理研究中心 58 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 注:1. 该表中,除大连热电的数据为母公司数据外,其他数据均来自于合并会计报表; 2. 除辽房天及中兴通讯外,其他公司的净资产收益率均为加权后的数值; 3.除净资产收益率指标为直接取自会计年报外,其他各指标均是经过各企业年报提供数字计算而得,各指标的计算公司如下: 2017/3/4 中国人民大学六西格玛质量管理研究中心 59 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 d. e. f. g. 中国人民大学六西格玛质量管理研究中心 2017/3/4 60 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 本书上机实现主要以SPSS10.07版本为例,在SPSS软件的数据窗口依次定义变量,并输入以上数据。在上面的数据中,不同的行业可以看作是不同的总体,因此,35个数据分别来自于3个总体,下面尝试对3个不同行业的上市公司的经营能力水平进行比较。 在进行比较分析之前,首先要对各数据是否遵从多元正态分布进行检验。然而遗憾的是,多元正态性检验在常见的统计软件中并不容易实现。在实际工作中,人们往往借助于考察每一个变量的结果来对向量的分布做出判断;并且,当数据量较大,且没有明显的证据表明所得数据不遵从多元正态时,通常认为数据来自于多元正态总体。SPSS软件提供了对单变量进行正态性检验的功能。 2017/3/4 中国人民大学六西格玛质量管理研究中心 61 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 对上面的数据,依次点选Analyze→Descriptive Statistics→Explore…进入Explore对话框,可以看到上市公司数据的所有变量名及变量标签均出现在左边的列表框中,选中净资产收益率、总资产报酬率、资产负债率、总资产周转率、流动资产周转率、已获利息倍数、销售增长率及资本积累率八个变量选入Dependent List框中,点击下方的Plots…按钮进入Plots对话框,选中Normality plots with tests复选项以输出有关正态性检验的图表,Continue继续,OK运行,则可以得到如下结果(其他输出结果略),见输出结果2-1: 2017/3/4 中国人民大学六西格玛质量管理研究中心 62 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 输出结果2-1: 中国人民大学六西格玛质量管理研究中心 2017/3/4 63 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 此表给出了对每一个变量进行正态性检验的结果,因为该例中样本数,所以此处选用Shapiro—Wilk统计量。由Sig.值可以看到,总资产周转率、流动资产周转率、已获利息倍数及资本积累率均明显不遵从正态分布,因此,在下面的分析中,我们只对净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标进行比较并认为这四个变量组成的向量遵从正态分布(尽管事实上也许并非如此)。这四个指标涉及到了公司的获利能力,资本结构及成长能力,我们认为这四个指标近似可以对公司运营能力做出近似的度量。 2017/3/4 中国人民大学六西格玛质量管理研究中心 64 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 SPSS的GLM模块可以完成多元正态分布有关均值与方差的检验。依次点选Analyze→General Linear Model→Multivariate…进入Multivariate对话框,将净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标选入Dependent Variables列表框,将行业选入Fixed Factor(s),点击OK运行则可以得到如下结果,见输出结果2-2。 输出结果2.2: (1) 2017/3/4 中国人民大学六西格玛质量管理研究中心 65 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 输出结果2.2: (2) 中国人民大学六西格玛质量管理研究中心 2017/3/4 66 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 上面第一张表是样本数据分别来自三个行业的个数。第二张表是多变量检验表,该表给出了几个统计量,由Sig.值可以看到,无论从哪个统计量来看,三个行业的运营能力(从净资产收益率、总资产报酬率、资产负债率及销售增长率这四个指标的整体来看)是有显著差别的。实际上,GLM模型是拟合了下面的模型: (净资产收益率 总资产报酬率 资产负债率 销售增长率 其中, 行业 上面Multivariate Tests表实际上就是对该线性模型显著性的检验,此处有常数项 是因为不能肯定模型过原点。而模型通过了显著性检验,也就意味着行业的不同取值对 的取值有显著影响,也就是说不同行业的运营能力是不同的。见输出结果2-3 2017/3/4 中国人民大学六西格玛质量管理研究中心 67 目录 上页 下页 返回 结束
2017/3/4 中国人民大学六西格玛质量管理研究中心 68 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 该表给出了每个财务指标的分析结果,同时给出了每个财务指标的方差来源,包括校正模型,截距,主效应(行业),误差及总的方差来源.还给出了自由度,均方,F统计量及Sig.值. 其中,第二列给出了用Type Ⅲ方法计算的偏差平方和,SPSS软件给出了四种计算偏差平方和的方法,可以根据方差分析中是否存在交互效应及设计是否平衡等不同情况选用不同的计算方法,此处只有一个因素即行业,使用默认方法即可.由该表可以看到,四个指标的Sig.值分别为0.003,0.000,0.019及0.033,说明三个行业在四个财务指标上均有显著差别. 由GLM默认选项的输出结果可以得知三个行业的运营能力有着明显的差别,且分别考察净资产收益率、总资产报酬率、资产负债率及销售增长率,这四个指标在三个行业也均有着明显的差别。 2017/3/4 中国人民大学六西格玛质量管理研究中心 69 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 在实际工作中,我们往往更希望知道差别主要来自于哪些行业,或者不同行业运营能力的比较。对此,对GLM模块的选项做如下设置: 在GLM主对话框中点击Contrasts…按钮进入Contrasts对话框,在Change Contrasts框架中,打开Contrast右侧的下拉框并选择Simple,此时下侧的Reference Category被激活,默认是Last被选中,表明第一、二行业均与第三行业做比较,若选中First,则将作第二、三行业数据与第一行业的比较。点击Change按钮,Continue继续,OK运行,则除上面的结果外,还可得到如下结果,见输出结果2-4。 2017/3/4 中国人民大学六西格玛质量管理研究中心 70 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 输出结果2-4: 中国人民大学六西格玛质量管理研究中心 2017/3/4 71 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 输出结果2-4表示,在0.05水平下,第一行业(电力、煤气及水的生产和供应业)与第三行业(信息技术业)各财务指标均无明显差别,说明电力、煤气及水的生产和供应业与信息技术业运营能力在统计意义上无显著差别,但由上表第一栏可以看到, 电力、煤气及水的生产和供应业的净资产收益率,资产负债率及销售增长率均低于信息技术业,总资产报酬率高于信息技术业,似乎说明信息技术业作为新生行业,其成长能力要更高一些。第二行业(房地行业)与第三行业的净资产收益率、总资产报酬率及销售增长率三个指标有明显的差别,且在这三个指标上第三行业均大于第二行业。说明信息技术业在获利能力及成长能力上高于房地行业,而同时信息技术业的负债率较低,因此整体看来信息技术业的运营能力要高于房地行业。见输出结果2-5。 2017/3/4 中国人民大学六西格玛质量管理研究中心 72 目录 上页 下页 返回 结束
该表是上面多重比较可信性的度量,由Sig.值可以看到,比较检验是可信的。 输出结果2.6: 输出结果2.5: 该表是上面多重比较可信性的度量,由Sig.值可以看到,比较检验是可信的。 输出结果2.6: 2017/3/4 中国人民大学六西格玛质量管理研究中心 73 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 该表是对每一个指标在三个行业比较的结果,与上面Tests of Between-Subjects Effects表中有关结果一致。 在Multivariate主对话框中点击Options…按钮,进入Options对话框,在上面Estimated Marginal Means框架中,把行业(chany)选入右面Display Means for:列表框中以输出各行业各财务指标的均值,选中下方的Compare Main Effects复选框,则输出不同行业各财务指标比较的结果,在下方的Display框架中,提供了很多可选的统计量或中间结果,选中Homogeneity tests复选项进行各行业(总体)数据协方差阵相等的检验。Continue继续,OK运行,则还可以得到如下结果,见输出结果2-7。 2017/3/4 中国人民大学六西格玛质量管理研究中心 74 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 输出结果2-7: (1) (2) 中国人民大学六西格玛质量管理研究中心 2017/3/4 75 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 上面第一张表是协方差阵相等的检验,检验统计量是Box’s M,由Sig.值可以看到,可以认为三个行业(总体)的协方差阵是相等的. 第二张表给出了各行业同一指标误差的方差相等的检验,在0.05水平下,净资产收益率及总资产报酬率的误差平方在三个行业间没有显著差别,而资产负债率与销售增长率的误差平方在三个行业中有显著差别.这似乎说明,除了行业因素外,对资产负债率与销售增长率变动有显著影响的,尚有其他因素.这与此处均值比较没有太大的关系.见输出结果2-8,2-9,2-10。 2017/3/4 中国人民大学六西格玛质量管理研究中心 76 目录 上页 下页 返回 结束
该表给出了每一行业各财务指标描述统计量的估计,不再具体说明. 输出结果2-8: 该表给出了每一行业各财务指标描述统计量的估计,不再具体说明. 2017/3/4 中国人民大学六西格玛质量管理研究中心 77 目录 上页 下页 返回 结束
输出结果2-9(1): 2017/3/4 中国人民大学六西格玛质量管理研究中心 78
§2.4.1 均值及协方差阵的检验 输出结果2-9(2): 上面两张表分别给出了不同行业各财务指标的比较及检验与检验的可信性统计量,其中,(1)的结果与输出结果2-4相同,只不过比较输出结果2-4更为具体,表中各项也很容易理解,不再说明.(2)与输出结果2-5有着相同的作用,且结果完全相同. 2017/3/4 中国人民大学六西格玛质量管理研究中心 79 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 输出结果2-10: 输出结果2-10与输出结果2-3中的有关检验部分及输出结果2-6是相同的,也是对三个行业中各财务指标相等的假设的检验.可以看到在0.05的显著性水平下,各财务指标在三个行业中均有明显的差别. 2017/3/4 中国人民大学六西格玛质量管理研究中心 80 目录 上页 下页 返回 结束
§2.4.1 均值及协方差阵的检验 综上所述,我们对三个行业的运营能力进行了具体的比较分析,所得数据表明,从总体来看,信息技术业要稍好于电力、煤气及水的生产和供应业,而这两个行业均明显好于房地行业.原因可能是因为房地行业在前几年的快速发展后,由于进入企业过多,盲目上马项目过多,造成了不良局面,以致整个行业不景气,运营能力有所下降。而信息技术业作为新兴行业,发展较快,利润空间较大,从获利能力,成长能力上来看发展良好,整体运营能力较强. 电力、煤气及水的生产和供应业属于基础行业,该行业发展成熟且稳定,运营能力介于信息技术业及房地行业之间.对于每一财务指标的分析上面已有说明,此处不再赘述。 2017/3/4 中国人民大学六西格玛质量管理研究中心 81 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 利用SPSS的GLM模块可以完成形象分析关于总体形象平行、重合及水平的检验,下面举例说明之。 §2.4.2 形象分析的上机实现 利用SPSS的GLM模块可以完成形象分析关于总体形象平行、重合及水平的检验,下面举例说明之。 【例2.2】 选用SPSS软件自带的New drug.sav数据,在SPSS的安装目录下可以找到该数据集。该数据集包括7个变量12个观测。各变量的意义为drug(药),取值1表示对病人施以新药,取值2表示对病人施以安慰剂,resp1~resp3是治疗后病人三个时点的呼吸状况,pulse1~pulse3是病人三个时点的脉搏。取drug,resp1~resp3进行两总体的形象分析。 2017/3/4 中国人民大学六西格玛质量管理研究中心 82 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 将三个时点测量的呼吸状况的值作为三个指标,新药和安慰剂作为两个总体。首先画出两个总体的形象以在图上直观的反映两总体均值,遗憾的是,SPSS软件对这种结构的数据集无法直接得到形象图,但对数据进行如下转换后就可以直接生成形象图了:即把测量值反映到一个变量中,新加一个变量time区分各个时点的测量值,这样,数据变为如表2-2所示的下结构: 2017/3/4 中国人民大学六西格玛质量管理研究中心 83 目录 上页 下页 返回 结束
表2-2 2017/3/4 中国人民大学六西格玛质量管理研究中心 84 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 读入上述数据后,依次点选Analyze→General Linear Model→Univariate…进入Univariate对话框,把Measure变量选作Dependent Variable,Drug与Time变量选作Fixed Factors,点击右边的Plots…按钮进入Profile Plots对话框,可以看到Drug与Time出现在Factors下的窗口中,把Time选入Horizontal Axis下的窗口中,把Drug选入Separate Lines下的窗口中,点击Add按钮,可见在下侧的窗口中出现Time*Drug,Continue继续,OK运行,可以得到如下形象图,见输出结果2-11。 2017/3/4 中国人民大学六西格玛质量管理研究中心 85 目录 上页 下页 返回 结束
同时程序还输出其他一些结果,这里不用去管它,实际上,上面的设置是作了一次单因变量多因素的方差分析。 输出结果2-11: 同时程序还输出其他一些结果,这里不用去管它,实际上,上面的设置是作了一次单因变量多因素的方差分析。 按此方法画总体的形象实际上是很麻烦的,因为总体的形象其实就是各总体样本均值向量的折线图,实际工作中完全可以先求出样本均值,再作图,这里只是说明SPSS软件可以生成形象图。 2017/3/4 中国人民大学六西格玛质量管理研究中心 86 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 下面对两总体形象平行、重合、水平的假设进行检验,此处,需要从New Drug.sav数据本来的格式出发进行分析。打开New Drug.sav,依次点选Transform→compute…进入Compute Variable对话框,此对话框可以用来生成新变量。在Target Variable处输入u1,右侧Numeric Expression下的窗口用来输入u1的表达式,此时数据集中原有的变量名均出现在左侧下部的窗口中,双击resp1,则该变量进入Numeric Expression下的窗口中,该窗口下方提供了运算符号,数字及常用的函数,可以利用它们来完成新变量的运算,输入减号,然后双击resp2,此时u1=resp1-resp2,点击OK,此时新变量u1便出现在数据窗口中。用该方法再生成两个变量u2、z,使得u2=resp2-resp3,z=(resp1+resp2+resp3)/3。 2017/3/4 中国人民大学六西格玛质量管理研究中心 87 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 因为形象分析以两总体的协方差阵相等为前提条件,因此首先进行两总体的协方差阵检验,依次点选Analyze→General Linear Model→Multivariate…进入Multivariate对话框,数据集中所有的变量都出现在左侧的窗口中,选择resp1,resp2,resp3作为Dependent Variables,选择drug作为Fixed factor,点击Options按钮进入Options对话框,选中Homogeneity tests,Continue继续,OK运行,可以得到如下输出结果2-12: 2017/3/4 中国人民大学六西格玛质量管理研究中心 88 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 输出结果2-12: F=0.732,Sig.=0.624,可以认为两总体的协方差阵是相等的,可以继续形象分析。除了这张表外,还生成一些其他的表,与本次形象分析无关,不作说明。在Multivariate对话框,选择u1,u2作为Dependent Variables,选择drug作为Fixed factor,OK运行,可以得到如下输出结果2-13: 2017/3/4 中国人民大学六西格玛质量管理研究中心 89 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 输出结果2-13(1): 该表给出了两总体观测数的信息,对新药和安慰剂都进行了六次试验。 §2.4.2 形象分析的上机实现 输出结果2-13(1): 该表给出了两总体观测数的信息,对新药和安慰剂都进行了六次试验。 2017/3/4 中国人民大学六西格玛质量管理研究中心 90 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 输出结果2-13(2): 这张表对形象分析来讲比较重要,它给出了检验统计量的F值及显著性水平。此处F=0.497,Sig.=0.624,在 的水平下,不能拒绝两总体形象平行的原假设,因此可以认为两总体的形象是平行的。 2017/3/4 中国人民大学六西格玛质量管理研究中心 91 目录 上页 下页 返回 结束
输出结果2-13(3): 这张表给出了Drug分别对u1,u2作用的显著性,Sig.值分别为1.000和0.341,可以看到Drug对u1,u2的作用均不显著,这张表与本次形象分析关系也不大,不做过多说明。 2017/3/4 中国人民大学六西格玛质量管理研究中心 92 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 下面进行两总体形象重合的检验,依次点选Analyze→General Linear Model→Univariate…进入Univariate对话框,选择z为Dependent Variable,Drug为Fixed Factor,OK运行,可得输出结果2-14(与本次形象分析无关的输出不再列出): 输出结果2.14: 2017/3/4 中国人民大学六西格玛质量管理研究中心 93 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 F值=17.87,Sig.=0.002,因此在显著性水平 时,拒绝原假设,认为两总体的形象不重合,即新药的作用与安慰剂有显著差别。此时通常已经没有必要做两总体形象水平的检验,但为了说明方法,我们假定两总体形象重合的假设已经通过,进行形象水平的检验。然而本例仍得到有意义的检验结果。遗憾的是,SPSS软件不能直接生成检验形象水平的统计量,不过,仍然有很多方法可以完成此检验。 2017/3/4 中国人民大学六西格玛质量管理研究中心 94 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 在数据窗口中新建变量a,并使a的取值全为1,当总体形象重合的检验通过后,两总体实际上是一个总体,对此例,即新药与安慰剂的作用没有显著差别。设置新变量a的目的就是将两总体合并,同时对12个观测进行分析。依次点选Analyze→General Linear Model→Multivariate…进入Multivariate对话框,将u1,u2选为Dependent Variables,a选作Fixed Factor,因为模型默认为有常数项,而若总体形象水平,u1,u2的取值应当为零(过原点),因此,点击Model…按钮进入Model对话框,把复选项Include intercept in model前的对勾去掉,Continue继续,点击Options…按钮进入Options对话框,在Factor(s) and factor interactions下的窗口中出现(OVERALL)和a,双击(OVERALL)或a(此处,因为只有一个影响元素a,选择(OVERALL)和a是等价的),使其进入Display Means for下的窗口中,此操作可以输出u1,u2的置信区间,Continue继续,OK运行,则可以得到如下输出结果2-15: 2017/3/4 中国人民大学六西格玛质量管理研究中心 95 目录 上页 下页 返回 结束
输出结果2-15(1) 输出结果2-15(2) 2017/3/4 中国人民大学六西格玛质量管理研究中心 96 目录 上页 下页 返回 结束
§2.4.2 形象分析的上机实现 输出结果2-15(3) 由此可以看到,因素a对u1,u2整体作用的F值为1.053,Sig.=0.385,说明a对u1,u2的整体影响是不显著的,由第二张表可以看到,a对u1,u2单独的影响也是不显著的,结合第三张表,u1,u2的95%置信区间都包括零,因此,接受总体形象水平的假设。对本例,解释为在三个时点的测量值之间没有明显的差异。 关于多个总体的形象分析,在用SPSS软件实现时操作完全一致,此处不再说明。 2017/3/4 中国人民大学六西格玛质量管理研究中心 97 目录 上页 下页 返回 结束
The end! Thanks! 2017/3/4 98 中国人民大学六西格玛质量管理研究中心