社会科学统计软件及应用 马秀麟 2016年5月
第5讲 均值的差异性检验 之二(方差分析) 2014年10月
五、方差分析 1、方差分析的概念 什么是方差分析? 方差分析主要解决什么问题 方差分析也是一种均值的差异性检验,它研究某一因素的不 同水平是否会对结果的均值产生显著性差异。 方差分析研究的是多组样本之间的均值显著性差异,样本的 分组由某一因素的不同水平组成。 方差分析主要解决什么问题 它研究在某一因素不同水平上的样本,其结果值是否会存在 显著性差异。 例如,研究成绩差、成绩合格、成绩良好与成绩优秀的学生 在学习态度和自主学习能力方面是否存在显著性差异。 拓展用途: 研究某一因素是否会对结果变量产生影响(归因) 其本质为均值差异性检验,但可用作归因分析。
五、方差分析 方差分析中的相关概念 方差分析的要求 结果变量——因变量 因素变量——自变量 具有多个因素水平 可控因素与不可控因素 协变量 对因变量有影响, 但在方差分析过程中需要剔除其影响的变量 方差分析的要求 结果变量(因变量)基本满足正态分布,应该是定距变量,至少 为测度较高的定序变量 因素变量可以是定序变量或者数值型的定类变量,较少使用连续 的定距变量。 注意:如果以接近定类变量的数据作为因素变量(比如性别、 班级),应注意统一编码,使之尽可能满足一定的顺序,变成 定序变量。
五、方差分析 方差分析的类型 单结果单因素方差分析 (单因素有不同的因素等级) (系统可根据因素等级进行分组) 单结果多因素方差分析 (多个因素变量,每个因素变量都分为不同的等级) (系统可根据因素等级分组) 协方差分析 设置协变量,设置因变量和因素变量 多结果多因素方差分析 (多结果变量、多因素变量的分析) (考察了变量之间的交叉作用)
五、方差分析 2、单因素方差分析 例题: 分析 某小学在一年级新生入学时测量了其智力水平,并调查了学 生参加学前教育并获取知识的情况。 现在需要了解学前教育情况是否对学生的智力水平产生了影 响? 分析 本例是要分析学前教育水平不同的小学生的智力水平是否存 在显著性的差异。 本例中的原始数据符合正态分布。 本例是一个典型的单因素方差分析:智力水平为因变量(结 果变量)、学前教育水平为自变量(因素变量)。
五、方差分析 实现过程——SPSS技术 菜单 分析——比较均值——单因素ANOVA 细则 选择“因变量”(结果变量) 选择“因素变量” 设置其他统计参数 “对比”选项——多项式对照分析方式: 线性、二次式、三次式…. “两两比较”选项——不同水平的多重对照分析 方差齐性时: 方差非齐性时:
五、方差分析 执行“确定”命令 阅读分析结果 观察sig值(即检验概率P值)。 若P>0.05,则无显著性差异 即此因素对结果无显著性影响。 若P<0.05,则有显著性差异 即此因素对结果有显著性影响。
五、方差分析 实现过程——Excel技术 数据整理 把单因素每个水平的结果值存储为一列 各列按照因素的水平高低依次排列 菜单 数据——数据分析——方差分析:单因素方差分析 细则 选择“因变量”(整个数据区域) 选择分组方式:“列” 设置:标志位于第一行 设置显著性参数:0.05。 最后,“确定”之后阅读统计结果,观察检验概率P值。
五、方差分析 3、单结果多因素方差分析 例题: 分析 某小学在一年级新生入学时测量了其智力水平,并调查了学 生参加学前教育并获取知识的情况。 现在需要了解学前教育情况和学生的来源(农村、乡镇、大 城市)是否对学生的智力水平产生了影响? 分析 本例是要分析学前教育水平和来源不同的小学生的智力水平 是否存在显著性的差异。 本例中的原始数据符合正态分布。 本例是一个典型的多因素方差分析:智力水平为因变量(结 果变量)、学前教育水平为自变量(因素变量)、生源也是 自变量。
五、方差分析 实现过程——SPSS技术 菜单 分析——一般线性模型——单变量(单结果量) 细则 选择“因变量”(即结果变量,只取一个) 选择“固定因子”变量 记录在每个水平上均有分布 具有可明确区分水平的变量, 选择“随机因子”变量 记录在每个水平上未必有分布 变量不具备明确的区分条件,无法区分为明确的几个等级, 可为连续变量 选用分析模型(可选) 选择对比方式(可选) 选择绘图方式(可选) 执行“确定”命令。
五、方差分析 阅读分析结果 观察sig值(即检验概率P值)。 若P>0.05,则无显著性差异 即此因素对结果无显著性影响。 即此因素对结果有显著性影响。 注意: 多个因素交叉作用的效果,观察其p值。
五、方差分析 补充说明: 选择分析模型 全因子 用户“设定”模型 首先,选择进入模型的“主效应”项 其次,选择交互效应类型(中部的选项)。 若选定了2阶或3阶交互项后,还可同时从左侧选中2个或 3个因素项,以便观察她们联合起来对最终结果的影响。 第三,选择离差平方和的类型 TYPE I:分层处理平方和 TYPE II:对其他所有效应分析 TYPE III:系统缺省的模式 TYPE IV:对于任何没有缺失单元格的情况。
五、方差分析 选择对比方式——即多项式对照分析的方法 无:不进行比较(不同因素的每个水平之间) 偏差:各因素的每个水平之间都进行比较 简单:各因素的每个水平都与参考水平进行比较 差值:每一水平的均值都与前面各水平的均值比较 重复:只对相邻水平的均值进行比较 多项式:比较各因素水平的均值的线性、二次、三次多 项式。 选择分布图形 选择一个因素变量作为“水平轴” 选择另外某个因素变量作为“单图”或者“多图” 两两比较方式 假定方差齐性、假定方差非齐性
五、方差分析 实现过程——Excel技术 数据整理 以第一因素作为行,以第二因素作为列 以因变量值填写表格区域 例如: 生源作为各列、学前教育情况作为行构造关于智力情况的 二维表。 此处可通过数据透视表完成 菜单 数据——数据分析——方差分析:无重复双因素方差分析 细则 选择待分析数据的区域(整个数据区域) 设置显著性参数:0.05。 最后,“确定”之后阅读统计结果,观察检验概率P值。
五、方差分析 4、协方差分析 概念 在数据的均值差异性分析中,影响结果的因素可能非常多。 在这些因素中: 有的因素是我们关注的、是区分度较高的可控因素; 有的因素是我们不关注的; 有的因素是一些随机变量,区分度低,对结果的影响不可 控。 为了及时发现被关注因素的作用 需要在方差分析过程中,屏蔽掉这些不受关注的、区分度 低的因素对结果变量的影响。——协变量 这种方差分析被称为“协方差”分析。
五、方差分析 例题: 某小学在一年级新生入学时测量了其智力水平,并调查了学 生参加学前教育并获取知识的情况、学生的生源情况、父母 的文化程度。 现在需要了解学前教育情况是否对学生的智力水平产生了影 响?在此过程中,需要屏蔽生源情况和父母文化程度对学生 智力因素产生的影响。 分析 本例是要分析学前教育水平的小学生的智力水平是否存在显 著性的差异。 本例中的原始数据符合正态分布。 本例是一个典型的多因素方差分析:智力水平为因变量(结 果变量)、学前教育水平为自变量(因素变量),而生源和 父母的文化程度为需要屏蔽影响的自变量(即协变量)。
五、方差分析 实现过程——SPSS技术 菜单 分析——一般线性模型——单变量(单结果量) 细则 选择“因变量”(即结果变量,只取一个) 选择“固定因素”变量 具有明确区分条件的变量,比如此处的学前教育等级、 生源等。 选择“协变量” 此因素的贡献不受关注或不好区分。 选用分析模型(可选) 选择对比方式(可选) 选择绘图方式(可选) 执行“确定”命令。
五、方差分析 阅读分析结果 观察sig值(即检验概率P值)。 若P>0.05,则无显著性差异 即此因素对结果无显著性影响。 即此因素对结果有显著性影响。 注意: 多个因素交叉作用的效果,观察其p值。
五、方差分析 5、多因变量多因素方差分析 概念 在数据分析过程中,如果系统中涉及到多个因变量,而且因 变量之间还存在着相互影响的关系,而且还可能存在多因素 需要一并分析。 各个因变量之间无法独立 若能独立处理,则可分别按单因变量方式处理 在这种情况下,分析算法需要考虑因变量之间的内在关系, 需要实施自动正交变换操作,从而解除各个因变量之间的相 关关系。
五、方差分析 例题: 某小学在一年级新生入学时测量了其IQ、入学综合测试成绩,并 调查了学生参加学前教育并获取知识的情况、生源情况、父母文 化程度。 现在需要了解学前教育情况、学生的来源(农村、乡镇、大城 市)、父母文化程度是否对学生的IQ和测试成绩产生了影响? 分析 本例是要分析不同学前教育水平、来源不同、父母文化程度不同 的小学生的IQ和测试成绩是否存在显著性的差异(影响)。 本例中的原始数据符合正态分布。 本例是一个典型的多变量多因素方差分析:IQ和测试成绩为因变 量(结果变量)、学前教育水平、生源和父母文化程度为自变量 (因素变量)。
五、方差分析 实现过程——SPSS技术 菜单 分析——一般线性模型——多变量(多结果变量) 细则 选择“因变量”(即结果变量,可取多个) 例如:选择IQ值、测试成绩 选择“固定因素”变量 具有明确区分条件的变量,比如此处的学前教育时数、 生源、父母文化程度等。 选择“随机因素”变量 变量不具备明确的区分条件,无法区分为明确的几个等 级,多为连续变量 选用分析模型(可选) 选择对比方式(可选) 选择绘图方式(可选) 执行“确定”命令。
五、方差分析 阅读分析结果 观察sig值(即检验概率P值)。 若P>0.05,则无显著性差异 即此因素对结果无显著性影响。 即此因素对结果有显著性影响。 注意: 多个因素交叉作用的效果,观察其p值。