第九章 方差分析和回归分析 单因素方差分析 一元线性回归 回归诊断
方差分析(Analysis of variance, 简称: ANOVA),是由英国统计学家费歇尔(Fisher)在20世纪20年代提出的,可用于推断两个或两个以上总体均值是否有差异的显著性检验.
9.1 单因素方差分析 例1.1 为了比较三种不同类型日光灯管的寿命(小时), 现将从每种类型日光灯管中抽取 8个, 总共 24 个日光灯管进行老化试验,根据下面经老化试验后测算得出的各个日光灯管的寿命(小时),试判断三种不同类型日光灯管的寿命是不是有存在差异.
日光灯管的寿命(小时) 引起日光灯管寿命不同的原因有二个方面: 其一, 由于日光灯类型不同,而引起寿命不同. 类型I 5290 6210 5740 5000 5930 6120 6080 5310 类型II 5840 5500 5980 6250 6470 5990 5470 5840 类型.III 7130 6660 6340 6470 7580 6560 7290 6730 引起日光灯管寿命不同的原因有二个方面: 其一, 由于日光灯类型不同,而引起寿命不同. 其二,同一种类型日光灯管,由于其它随机因素的影响, 也使其寿命不同.
在方差分析中, 通常把研究对象的特征值, 即所考察的试验结果( 例如日光灯管的寿命)称为 试验指标. 对试验指标产生影响的原因称为 因素, “日光灯管类型” 即为因素. 因素中各个不同状态称为 水平, 如日光灯管三个不同的类型, 即为三个水平.
单因素方差分析 仅考虑有一个因素A对试验指标的影响 单因素方差分析 仅考虑有一个因素A对试验指标的影响. 假如因素 A有r 个水平, 分别在第 i 水平下进行了 多次独立观测, 所得到的试验指标的数据
各个总体相互独立. 因此, 可写成如下的 数学模型:
方差分析的目的就是要比较因素A 的r 个水平下试验指标理论均值的差异, 问题可归结为比较这r个总体的均值差异.
检验假设 不全相等.
不全为零. 假设等价于
为给出上面的检验,主要采用的方法是平方和分解。即 假设数据总的差异用总离差平方和 分解为二个部分: 一部分是由于因素 A引起的差异, 即效应平方和 ; 另一部分则由随机误差所引起的差异, 即误差平方和 .
证明:
定理9.1.1
单因素试验方差分析表 方差来源 平方和 自由度 均方 F 因素A r-1 误差 n-r 总和 n-1
例1.2 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:(=0.05)
1 5,8,7,7,10,8 2 4,6,6,3,5,6 3 6,4,4,5,4,3 4 7,4,6,6,3,5 5 9,3,5,7,7,6 药物类型 治愈所需天数x 1 5,8,7,7,10,8 2 4,6,6,3,5,6 3 6,4,4,5,4,3 4 7,4,6,6,3,5 5 9,3,5,7,7,6
这里药物是因子,共有5个水平,这是一个单因素方差分析问题,要检验的假设是“所有药物的效果都没有差别”。
方差来源 平方和 自由度 均方 F 因素A 36.467 4 9.117 3.90 误差 58.500 25 2.334 总和 94.967 29
未知参数的估计
置信区间
假设检验
例1.4(续1.2)(1)判断第一种、第二种药物的差异; (2)判断第一种、第三种药物的差异; (3)判断第三种、第五种药物的差异; 解:仅检验(1),(2)和(3)留作思考题.
在Excel上实现方差分析 先加载''数据分析" 这个模块,方法如下: 在 “分析工具库” 前的框内打勾点击“确定”. 这时候再点击下拉式菜单会新出现 “数据分析”. 然后就可以进行统计分析了.
以下面的例子来说明用Excel进行方差分析的方法: 保险公司某一险种在四个不同地区一年的索赔额情况记录如表所示. 试判断在四个不同地区索赔额有无显著的差异?
保险索赔记录 地区 索赔额(万元) A1 1.60 1.61 1.65 1.68 1.70 1.78 A2 1.50 1.64 1.40 1.75 A3 1.55 1.62 1.74 1.80 A4 1.51 1.52 1.53 1.57
在Excel工作表中输入上面的数据点击主菜单中 “工具”点击下拉式菜单中“数据分析” 就会出现一个“数据分析” 的框. 点击菜单中“方差分析:单因素方差分析”点击“确定”, 出现“方差分析:单因素方差分析” 框.
在“输入区域”中标定你已经输入的数据的位置(本例为$B$3:$I$6),根据你输入数据分组情况(是按行分或按列分,本例点击“行”)确定分组. 选定方差分析中F检验的显著水平选定输出结果的位置点击“确定”. 在你指定的区域中出现如下两张表:
表一:摘要 组 观测数 求和 平均 方差 行1 行2 行3 行4 7 5 8 6 11.72 7.99 13.19 9.37 1.674 1.598 1.649 1.562 0.0038 0.0210 0.0067 0.0026
表二:方差分析表 方差来源 平方和 自由度 均方 F P-value F crit 组间 0.0492 3 0.0164 2.1659 0.1208 3.0491 组内 0.1666 22 0.0076 总计 0.2158 25
根据Excel给出的方差分析表,假设H0的判别有二种方法:
方差分析的前提 进行方差分析必须具备三个基本的条件: (1)独立性.数据是来自r个独立总体的简单 随机样本; 如何判断这些条件是否成立?这些条件 对于方差分析的结论影响又是如何?
方差分析和其它统计推断一样, 样本的独立性对方差分析是非常重要的, 在实际应用中会经常遇到非随机样本的情况, 这时使用方差分析得出的结论不可靠. 因此, 在安排试验或采集数据的过程中, 一定要注意样本的独立性问题.
在实际中, 没有一个总体真正服从正态分布的, 而方差分析却依赖于正态性的假设. 不过由经验可知, 方差分析F检验对正态性的假设并不是非常敏感, 即, 实际所得到的数据, 若没有异常值和偏性, 或者说, 数据显示的分布比较对称的话, 即使样本容量比较小(如每个水平下的样本容量仅为5左右), 方差分析的结果仍是值得信赖的.
方差齐性对于方差分析是非常重要的, 因此在方差分析之前往往要进行方差齐性的诊断, 检验方差齐性假设通常采用Barlett检验. 不过,也可采用如下的经验准则:当最大样本标准差不超过最小样本标准差的两倍时, 方差分析F检验结果近似正确.
9.4 一元线性回归 变量与变量之间的关系 一、确定性关系: 当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系:
二、相关性关系: 变量之间的关系并不确定,而是表现为具有随机性的一种“趋势”。即对自变量x的同一值,在不同的观测中,因变量Y可以取不同的值,而且取值是随机的,但对应x在一定范围的不同值,对Y进行观测时,可以观察到Y随x的变化而呈现有一定趋势的变化。 为统一记号,后面一律用y表示因变量.
如:身高与体重,不存在这样的函数可以由身高计算出体重,但从统计意义上来说,身高者,体也重。 如:父亲的身高与儿子的身高之间也有一定联系, 通常父亲高,儿子也高。
我们以一个例子来建立回归模型 某户人家打算安装太阳能热水器. 为了了解加热温度与燃气消耗的关系, 记录了16个月燃气的消耗量, 数据见下表.
月份 平均加热温度 燃气用量 Nov. 24 6.3 Jul. 1.2 Dec. 51 10.9 Aug. 1 Jan. 43 8.9 Sep. 6 2.1 Feb. 33 7.5 Oct. 12 3.1 Mar. 26 5.3 30 6.4 Apr. 13 4 32 7.2 May. 1.7 52 11 Jun. 6.9
如果以加热温度作为横轴, 以消耗燃气量作为纵轴,得到散点图的形状大致呈线性. 如果假设中间有一条直线,这些点均匀地散布在直线的两侧. 表示除了温度外还有其它的因素影响燃气消耗量.
在回归分析时, 我们称“燃气消耗量”为响应变量记为y,“加热温度”为解释变量记为x, 由所得数据计算相关系数得r=0
加热温度x的变化是引起燃气消耗量y 变化的主要因素,还有其他一些因素对燃气消耗量y 也起着影响, 但这些因素是次要的. 另一部分是由其他随机因素引起的记为ε, 即y= β0 +β1x +ε.
对从总体(x, y)中抽取的一个样本 (x1, y1), (x2, y2), … , (xn, yn) 一元线性回归模型:
在模型假定下yi(i=1,2,…,n)也是相互独立, 服从正态分布N(β0 +β1xi, σ2) . 由所得样本可 给出未知参数β0 ,β1的点估计, 分别记为 称为y关于x的一元线性回归方程.
一元线性回归要解决的问题:
参数估计
整理得正规方程系数行列式
在误差为正态分布假定下, 的最小二乘估计等价于极大似然估计。
采用最大似然估计给出参数 的估计与最小二乘法给出的估计完全一致。 采用最大似然估计给出误差 的估计如下: 此估计不是 的无偏估计。
例3.1 K.Pearson收集了大量父亲身高与儿子身高的资料。其中十对如下: 父亲身高x(吋) 60 62 64 65 66 67 68 70 72 74 儿子身高y(吋) 63.6 65.2 65.5 66.9 67.1 67.4 68.3 70.1 求y关于x的线性回归方程。
参数性质
证明(1) 即为正态随机变量的线性组合,所以服从正态分布。
(2)类似可得。
(3)回归方程显著性检验 采用最小二乘法估计参数 ,并不需要事先知道y与x之间一定具有相关关系。 因此μ(x)是否为x的线性函数: 一要根据专业知识和实践来判断, 二要根据实际观察得到的数据用假设检验方法来判断。
若原假设被拒绝,说明回归效果是显著的,否则,若接受原假设,说明y与x不是线性关系,回归方程无意义。回归效果不显著的原因可能有以下几种: (2)E(y)与x的关系不是线性关系,而是其他关系; (3)y与x不存在关系。
回归方程的检验 采用方差分析方法: 令 描述 之间的总的差异大小,称SST为总平方和。
将总平方和分解为两部分: 称为残差平方和 称为回归平方和 可以证明:SST=SSR+SSE
回归系数的检验 采用t检验
例3.2 检验例3.1中回归效果是否显著,取α=0.05。
(4)回归系数 的置信区间 由
回归参数估计和显著性检验的Excel实现
在Excel的A1:C17输入下标: 平均加热温度 燃气用量 接前行 1 24 6.3 9 1.2 2 51 10.9 10 3 43 8.9 11 6 2.1 4 33 7.5 12 3.1 5 26 5.3 13 30 6.4 14 32 7.2 7 1.7 15 52 8 16 6.9
在Excel工作表中输入上面的数据 点击主菜单中“工具” 点击下拉式菜单中“数据分析” 就会出现一个“数据分析” 的框,点击菜单中“回归” ,点击“确定”, 出现“回归” 框.
在“Y值输入区域”中标定你已经输入的响应变量数据的位置(本例为$C$2:$C$17), 在“X值输入区域”中标定你已经输入的解释变量数据的位置 (注意: 数据按“列”输入) (本例为$B$2:$B$17),“置信度”中输入你已经确定置信度的值选定输出结果的位置点击“确定”. 在指定位置输出相应的方差分析表和回归系数输出结果, 例3.3的输出结果如下所示,
方差分析表 自由度 平方和 均方 F值 P_值 回归 1 168.581 1467.551 1.415E-15 显著! 误差 14 1.608 0.115 总的 15 170.189
Coef. 标准误差 t Stat P value Lower 95% Upper 95% Intercept 1.089 0.139 7.841 1.729E- 06 0.791 1.387 X 0.189 0.005 38.309 1.415E-15 0.178 0.200
预测 预测一般有两种意义.
(5)E(y0)的点估计及置信区间 故 作为E(y0)的点估计,是无偏估计. E(y0)的置信水平为1-α的置信区间为
(6) y0的点预测及区间预测 因此,根据观测结果,点预测为
Excel只能输出预测值,无法输出预测区间. 预测区间计算如下: 上例中x值置于B2:B17,y值置于C2:C17, 在Excel第18行,B18,C18,D18,E18,F18,G18分别为 5 2.0342 22.313 299.723 4719.438 2.145
5 2.0342 22.313 299.723 4719.438 2.145
例3.5 合金钢的强度y与钢材中碳的含量x有密切关系。为了冶炼出符合要求强度的钢常常通过控制钢水中的碳含量来达到目的,为此需要了解y与x之间的关系。其中x:碳含量(%) y:钢的强度(kg/mm2)数据见右表: y x x2 40.5 0.03 0.0009 39.5 0.04 0.0016 41 0.05 0.0025 41.5 0.07 0.0049 43 0.09 0.0081 42 0.1 0.01 45 0.12 0.0144 47.5 0.15 0.0225 53 0.17 0.0289 56 0.2
(1)画出散点图; (2)设μ(x)=β0+β1x,求β0,β1的估计; (3)求误差方差的估计,画出残差图; (4)检验回归系数β1是否为零(取α=0.05); (5)求回归系数β1的95%置信区间; (6)求在x=0.06点,回归函数的点估计和95%置信区间; (7)求在x=0.06点,y的点预测和95%区间预测。 (8) 模型还可以改进吗?
(1)合金钢的强度y与钢材中碳的含量x的散点图
方差分析 df SS MS F Significance F 回归 1 255.4116 74.33289 2.54E-05 残差 8 27.48841 3.436051 显著 总计 9 282.9 Coefficients 标准误差 t Stat P-value Lower 95% Upper 95% Intercept 35.4506 1.24292 28.5222 2.47E-09 显著 32.5844 38.3168 X Var. 1 92.6411 10.7452 8.62165 2.54E-05 67.8627 117.420
显著水平为0.05
方差分析 df SS MS F Significance F 回归分析 2 276.3151 138.1576 146.8669 残差 7 6.584894 0.940699 显著 总计 9 282.9 不显著 Coefficients 标准误差 t Stat P-value Lower 95% Upper 95% Intercept 40.644 1.27932 31.7699 7.91E-09 37.6188 43.6691 X Var. 1 -30.483 26.7175 -1.14095 0.29142 -93.66 32.6935 X Var. 2 550.475 116.776 4.71394 0.00217 274.344 826.606
方差分析 df SS MS F Significance F 回归分析 1 275.0905 281.8022 1.61E-07 残差 8 7.809465 0.976183 总计 9 282.9 Coefficients 标准误差 t Stat P-value Lower 95% Upper 95% Intercept 39.2774 0.45804 85.7509 3.82E-13 38.2212 40.3337 X Var. 1 420.223 25.0327 16.7870 1.61E-07 362.497 477.948
9.6 回归诊断 回归函数线性的诊断 误差方差齐性诊断 误差的独立性诊断 误差的正态性诊断
一、回归函数线性的诊断
(2)模型修正
模型修改后的预测值及残差
模型修改后的残差图
二、误差方差齐性诊断
(2)模型修正 如果发现线性假设是不适合, 那么就需要修改模型. 在目前的回归分析的知识水平下, 不一定能很好地修改误差方差不相等这类模型, 但可以尝试响应变量的数据变换。
用变换后的数据, 求出线性回归方程, 求出残差, 并画出以拟合值为横座标的残差图, 如果这里残差图已经没有任何规律, 那么说明这种变换是适合的.
三、误差的独立性诊断 在不少有关时间问题中,观测值往往呈相关的趋势。如河流的水位总有一个变化过程,当一场暴雨使河流水位上涨后往往需要几天才能使水位降低,因而当我们逐日测定河流最高水位时,相邻两天的观测间就不一定独立。
(1)模型诊断 常用的残差图是以“时间”或“序号”为横座标的残差图. 相关性大约有二类.
一类是正相关, 随机误差之间具有正相关的话,那么残差图中残差“符号”会出现“集团性”的趋势,即连续有一段时间内残差均为 “正号”, 然后又一段时间内残差均为“负号” 另一类是负相关, 此时,残差的符号改变非常频繁,大致有正负相间的趋势.
残差图
残差图
(2)模型修改
四、误差的正态性诊断 我们可采用卡方拟合检验对残差进行正态性的检验, 也可以用残差画一下直方图, 直观地判断残差量是不是具有正态性. 如果模型的误差不满足正态性时, 一般可以作Box-Cox变换, 这部分的内容这里不详细介绍, 有兴趣的同学可以参考有关的回归分析的参考文献.