§8.1 方差分析 Analysis of Variance-ANOVA

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第八章 第四节 机动 目录 上页 下页 返回 结束 一个方程所确定的隐函数 及其导数 隐函数的微分法.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第二章 导数与微分. 二、 微分的几何意义 三、微分在近似计算中的应用 一、 微分的定义 2.3 微 分.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
§3.4 空间直线的方程.
3.4 空间直线的方程.
第六章 回归分析.
第十章 相关与回归分析 PowerPoint 统计学.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第三章 函数逼近 — 最佳平方逼近.
10.2 立方根.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
第一章 行列式 第五节 Cramer定理 设含有n 个未知量的n个方程构成的线性方程组为 (Ⅰ) 由未知数的系数组成的n阶行列式
工程数学 第22讲 本文件可从网址 上下载 (单击ppt讲义后选择'工程数学'子目录)
恰当方程(全微分方程) 一、概念 二、全微分方程的解法.
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
不确定度的传递与合成 间接测量结果不确定度的评估
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
探索三角形相似的条件(2).
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
1.设A和B是集合,证明:A=B当且仅当A∩B=A∪B
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
第4课时 绝对值.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
数学模型实验课(二) 最小二乘法与直线拟合.
一元一次方程的解法(-).
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

§8.1 方差分析 Analysis of Variance-ANOVA 方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 在对均值进行假设检验时,一般有两种参数检验方法,即t检验与方差分析。t检验仅用在单因素两水平设计(包括配对设计和成组设计)和单组设计(给出一组数据和一个标准值的资料)的定量资料的均值检验场合;而方差分析用在单因素k水平设计(k≥3)和多因素设计的定量资料的均值检验场合。

方差分析的统计测试能够说明几组数据的平均值是否相等,因此得到两组的t测试。在做多组双变量t测试的时候,错误的几率会越来越大。因此,方差分析只在二到四组平均值的时候比较有效。 8.1.1 问题的提出 实际工作中我们经常碰到多个正态总体均 值的比较问题,处理这类问题通常采用所 谓的方差分析方法。

例8.1.1 在饲料养鸡增肥的研究中,某研究所 提出三种饲料配方:A1是以鱼粉为主的饲料 ,A2是以槐树粉为主的饲料,A3是以苜蓿粉 为主的饲料。为比较三种饲料的效果,特选 24 只相似的雏鸡随机均分为三组,每组各 喂一种饲料,60天后观察它们的重量。试验 结果如下表所示:

表8.1.1 鸡饲料试验数据 饲料A 鸡 重(克) A1 1073 1009 1060 1001 1002 1012 1028 A2 1107 1092 990 1109 1090 1074 1122 A3 1093 1029 1080 1021 1022 1032 1048

本例中,我们要比较的是三种饲料对鸡的增肥作 用是否相同。为此,把饲料称为因子(factor) ,记 为A,三种不同的配方称为因子A的三个水平,记 为A1, A2, A3,使用配方Ai下第 j 只鸡60天后的重量 用yij表示,i=1, 2, 3, j=1, 2,, 8。我们的目的是比 较三种饲料配方下鸡的平均重量是否相等,为此 ,需要做一些基本假定,把所研究的问题归结为 一个统计问题,然后用方差分析的方法进行解决 。

8.1.2 单因子方差分析的统计模型 在例8.1.1中我们只考察了一个因子,称其为 单因子试验。 8.1.2 单因子方差分析的统计模型 在例8.1.1中我们只考察了一个因子,称其为 单因子试验。 通常,在单因子试验中,记因子为 A, 设其 有r个水平,记为A1, A2,…, Ar,在每一水平下 考察的指标可以看成一个总体 ,现有 r 个水 平,故有 r 个总体, 假定:

每一总体均为正态总体,记为 N(i , i 2), i= 1, 2,…, r ; 从每一总体中抽取的样本是相互独立的, 即所有的试验结果 yij 都相互独立。

我们要比较各水平下的均值是否相同, 即要对如下的一个假设进行检验: H0 :1 =2 =…=r (8.1.1) 备择假设为 H1 :1, 2, …, r 不全相等 在不会引起误解的情况下, H1 通常可省略不写。 如果H0成立,因子A的r个水平均值相同,称因子A的r个水平间没有显著差异,简称因子A不显著;反之,当H0不成立时,因子A的r个水平均值不全相同,这时称因子A的不同水平间有显著差异,简称因子A显著。

为对假设(8.1.1)进行检验,需要从每一水 平下的总体抽取样本,设从第i个水平下的总 体获得m个试验结果,记 yij 表示第i个总体的第 j次重复试验结果。共得如下n=rm个试验结果 : yij, i=1, 2,…, r , j=1, 2, …, m, 其中r为水平数,m为重复数,i为水平编号, j 为重复编号。

在水平Ai下的试验结果yij与该水平下的指标均值 i 一般总是有差距的,记 ij = yiji,

单因子方差分析的统计模型: (8.1.3) 总均值与效应: 称诸 i 的平均 为总均值. 称第 i 水平下的均值 i 与总均值  的差: ai=i - 为 Ai 的水平效应。

模型(8.1.3)可以改写为 (8.1.8) 假设(8.1.1)可改写为 H0 :a1 =a2 =…=ar =0 (8.1.9) why?

8.1.3 平方和分解 一、试验数据 表8.1.2中的最后二列的和与平均的含义如下: 8.1.3 平方和分解 一、试验数据 通常在单因子方差分析中可将试验数据列成 如下页表格形式。 表8.1.2中的最后二列的和与平均的含义如下:

表8.1.2 单因子方差分析试验数据 因子水平 试 验 数 据 和 平均 A1 y11 y12 … y1m T1 A2 表8.1.2 单因子方差分析试验数据 因子水平 试 验 数 据 和 平均 A1 y11 y12 … y1m T1 A2 y21 y22 … y2m T2 ┆ Ar yr1 yr2 … yrm Tr T

二、组内偏差与组间偏差 数据间是有差异的。数据yij与总平均 间的 偏差可用yij  表示,它可分解为二个偏差 之和 (8.1.10) 记

由于 (8.1.11) 所以yij - 仅反映组内数据与组内平均的随机误 差,称为组内偏差;而 (8.1.12) 除了反映随机误差外,还反映了第i个水 平的效应,称为组间偏差。

三、偏差平方和及其自由度 在统计学中,把k个数据y1 , y2 , …, yk分别对其均值 =(y1+ …+ yk )/k 的偏差平方和

在构成偏差平方和Q的k个偏差y1 , …, yk 间 有一个恒等式 ,这说明在Q中独立的 偏差只有k1个。 在统计学中把平方和中独立偏差个数称为该平方和的自由度,常记为f,如Q的自由度为fQ=k1。自由度是偏差平方和的一个重要参数。

四、总平方和分解公式 仅由随机误差引起的数据间的差异可以用 组内偏差平方和 表示, 也称为误差偏差平方和,其自由度为 fe=nr ; 各yij间总的差异大小可用总偏差平方和 表示,其自由度为 fT=n1; 仅由随机误差引起的数据间的差异可以用 组内偏差平方和 表示, 也称为误差偏差平方和,其自由度为 fe=nr ;

由于组间差异除了随机误差外,还反映了 效应间的差异,故由效应不同引起的数据差 异可用组间偏差平方和 表示 ,也称为因子A的偏差平方和,其自由度为 fA=r1;

定理8.1.1 在上述符号下,总平方和ST可以分 解为因子平方和SA与误差平方和Se之和,其自 由度也有相应分解公式,具体为: ST =SA +Se , fT =fA +fe (8.1.16) (8.1.16)式通常称为总平方和分解式。

8.1.4 检验方法 偏差平方和Q的大小与自由度有关,为了便于在 偏差平方和间进行比较,统计上引入了均方和的 概念,它定义为MS=Q/fQ ,其意为平均每个自由 度上有多少平方和,它比较好地度量了一组数据 的离散程度。 如今要对因子平方和 SA 与误差平方和 Se 之间进行 比较,用其均方和 MSA= SA /fA , MSe= Se /fe 进行 比较更为合理,故可用 作为检验 H0的统计量。

定理8.1.2 在单因子方差分析模型 (8.1.8) 及前 述符号下,有 (1) Se / 2 ~  2(nr) ,从而E(Se ) =(nr)  2 ,进一步,若H0成 立,则有SA/ 2 ~ 2(r1) (2) SA与Se独立。

由定理8.1.2,若H0成立,则检验统计量F服从自由度为fA和fe的F分布,因此拒绝域为W={FF1 (fA ,fe)},通常将上述计算过程列成一张表格,称为方差分析表。 表8.1.3 单因子方差分析表 来源 平方和 自由度 均方和 F比 因子 SA fA=r1 MSA= SA/fA F= MSA/ MSe 误差 Se fe=nr MSe= Se/fe 总和 ST fT=n1

如果 F ≥ F1 (fA ,fe),则认为因子A显著; 对给定的,可作如下判断: 如果 F ≥ F1 (fA ,fe),则认为因子A显著; 若F F1 (fA ,fe) ,则说明因子A不显著。 该检验的p值也可利用统计软件求出,若 以Y记服从F(fA ,fe)的随机变量,则检验的 p 值为 p=P(YF)。

常用的各偏差平方和的计算公式如下: (8.1.19) 一般可将计算过程列表进行。

例8.1.2 采用例8.1.1的数据,将原始数据减去1000, 列表给出计算过程: 表8.1.4 例8.1.2的计算表 水平 例8.1.2 采用例8.1.1的数据,将原始数据减去1000, 列表给出计算过程: 表8.1.4 例8.1.2的计算表 水平 数据(原始数据-1000) Ti Ti2 A1 73 9 60 1 2 12 28 194 37636 10024 A2 107 92 -10 109 90 74 122 585 342225 60355 A3 93 29 80 21 22 32 48 354 125316 20984 1133 505177 91363

利用(8.1.19),可算得各偏差平方和为: 把上述诸平方和及其自由度填入方差分析表

表8.1.5 例8.1.2的方差分析表 来源 平方和 自由度 均方和 F比 因子 9660.0833 2 4830.0417 3.5948 误差 28215.9584 21 1343.6171 总和 37876.0417 23 若取=0.05,则F0.95 (2 ,21)=3.47 ,由于F=3.5948>3.47,故认为因子A(饲料)是显著的,即三种饲料对鸡的增肥作用有明显的差别。

8.1.5 参数估计 在检验结果为显著时,我们可进一步求出总 均值 、各主效应ai和误差方差 2的估计。

一、点估计 由模型(8.1.8)知诸yij相互独立,且yij ~N(+ ai , 2) ,因此, 差 2的估计: 由极大似然估计的不变性,各水平均值i的极大似然估计 为 ,由于 不是 2的无偏估计,可修偏:

二、置信区间 由于 ,可给出Ai的水平均值i的 1- 的置信区间为 其中 。

例8.1.3 继续例8.1.2,此处我们给出诸水平均 值的估计。因子A的三个水平均值的估计分别 为 从点估计来看,水平2(以槐树粉为主的饲 料)是最优的。

误差方差的无偏估计为 利用(8.1.23)可以给出诸水平均值的置信区间。 此处, ,若取=0.05 ,则t1-  /2( fe )= t0.95( 21 )=2.0796, ,于 是三个水平均值的0.95置信区间分别为

在因子A显著时,通常只需对较优的水平均值作参数估计,在因子A不显著场合,参数估计无需进行。 在单因子试验的数据分析中可得到如下三个 结果: 因子是否显著; 试验的误差方差 2的估计; 诸水平均值i的点估计与区间估计。 在因子A显著时,通常只需对较优的水平均值作参数估计,在因子A不显著场合,参数估计无需进行。

8.1.6 重复数不等情形 单因子方差分析并不要求每个水平下重复试验 次数全相等,在重复数不等场合的方差分析与重 复数相等情况下的方差分析极为相似,只在几处 略有差别。 数据:设从第i个水平下的总体获得mi个试验结果,记为yi1 , yi2 …, yim ,i=1,2, …r,统计模型为: (8.1.24)

效应约束条件: 各平方和的计算: SA的计算公式略有不同 总均值:诸i的加权平均(所有试验结果的均值的平均) (8.1.25) 称为总均值或一般平均。 效应约束条件: 各平方和的计算: SA的计算公式略有不同

例8.1.4 某食品公司对一种食品设计了四种新包装。为考察哪种包装最受顾客欢迎,选了10个地段繁华程度相似、规模相近的商店做试验,其中二种包装各指定两个商店销售,另二个包装各指定三个商店销售。在试验期内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,记录其销售量数据,列于表8.1.6左半边,其相应的计算结果列于右侧。

表8.1.6 销售量数据及计算表 包装类型 销售量 mi Ti Ti2 / mi A1 12 18 2 30 450 468 A2 14 表8.1.6 销售量数据及计算表 包装类型 销售量 mi Ti Ti2 / mi A1 12 18 2 30 450 468 A2 14 13 3 39 507 509 A3 19 17 21 57 1083 1091 A4 24 54 1458 1476 和 n=10 T=180

若取=0.01,查表得F0.01(3,6)=9.78,由于 F=11.22>9.78,故我们可认为各水平间有显著差异。 由此可求得各类偏差平方和如下 方差分析表如表8.1.8所示 . 若取=0.01,查表得F0.01(3,6)=9.78,由于 F=11.22>9.78,故我们可认为各水平间有显著差异。

表8.1.7 例8.1.4的方差分析表 来源 平方和 自由度 均方和 F比 因子A 258 3 86 11.22 误差e 46 6 7.67 表8.1.7 例8.1.4的方差分析表 来源 平方和 自由度 均方和 F比 因子A 258 3 86 11.22 误差e 46 6 7.67 总和T 304 9

由于因子显著,我们还可以给出诸水平均值 的估计。因子A的四个水平均值的估计分别为 由此可见,第四种包装方式效果最好。误差 方差的无偏估计为

进一步,利用(8. 1. 23)也可以给出诸水平均值的置信区间,只是在这里要用不同的mi代替那里相同的m。此处, ,若取=0 进一步,利用(8.1.23)也可以给出诸水平均值的置信区间,只是在这里要用不同的mi代替那里相同的m。此处, ,若取=0.05,则t1-/2( fe )=t0.95(6)=2.4469, ,于是效果较好的第三和第四个水平均值的0.95置信区间分别为

§8.2 多重比较 8.2.1 效应差的置信区间 如果方差分析的结果因子A显著,则等于说有 充分理由认为因子A各水平的效应不全相同,但 这并不是说它们中一定没有相同的。就指定的 一对水平Ai与Aj,我们可通过求i - j的区间估 计来进行比较。

这里的置信区间与第六章中的两样本的t区间基本一致,区别在于这里 2的估计使用了全部样本而不仅仅是两个水平Ai, Aj下的观测值。 由于 ,故 由此给出i - j的置信水平为1-的置信区间为 (8.2.1) 其中 是 2的无偏估计。 这里的置信区间与第六章中的两样本的t区间基本一致,区别在于这里 2的估计使用了全部样本而不仅仅是两个水平Ai, Aj下的观测值。

例8.2.1 继续例8.1.2, ,fe=21,取 =0.05 ,则t1-/2( fe )= t0.975(21)=2.0796, 于是可算出各个置信区间为 可见第一个区间在0的左边,所以我们可以概率95% 断言认为1 小于2,其它二个区间包含0点,虽然从 点估计角度看水平均值估计有差别,但这种差异在 0.05水平上是不显著的。

8.2.2 多重比较问题 对每一组(i, j), (8.2.1) 给出的区间的置信水 平都是1 ,但对多个这样的区间,要求其 同时成立,其联合置信水平就不再是1 了 。

譬如,设E1 , …, Ek是k个随机事件,且有 P(Ei)=1,i=1 ,…,k ,则其同时发生的概率 这说明它们同时发生的概率可能比1 小很多 。 为了使它们同时发生的概率不低于1,一个办 法是把每个事件发生的概率提高到1 /k. 这将 导致每个置信区间过长,联合置信区间的精度很 差,一般人们不采用这种方法。

在方差分析中,如果经过F检验拒绝原假设, 表明因子A是显著的,即r个水平对应的水平均 值不全相等,此时,我们还需要进一步确认哪 些水平均值间是确有差异的,哪些水平均值间 无显著差异。 同时比较任意两个水平均值间有无明显差异的 问题称为多重比较,多重比较即要以显著性水 平同时检验如下r(r1)/2个假设: (8.2.2)

直观地看,当H0ij成立时, 不应过大, 因此,关于假设(8.2.2)的拒绝域应有如下形式 诸临界值应在(8.2.2)成立时由P(W)=  确定。下面分重复数相等和不等分别介绍临界值的确定。

8.2.3 重复数相等场合的T法 在重复数相等时,由对称性自然可以要求诸cij相等,记为c. 记 ,则由给定条件不难有

于是当 (8.2.2) 成立时,1== r = ,可推出 其中 ,称为t化极差统计量, 其分布可由随机模拟方法得到。 于是 , 其中q1(r, fe)表示q(r, fe)的 1 分位数,其值在附表8中给出。

重复数相同时多重比较可总结如下:对给定的 的显著性水平 ,查多重比较的分位数q(r,fe)表 ,计算 ,比较诸 与c的大 小,若 则认为水平Ai与水平Aj间有显著差异,反之,则 认为水平Ai与水平Aj间无明显差别。这一方法最 早由Turkey提出,因此称为T法。

例8.2.2 继续例8.1.2,若取 =0.05,则查表知q1-0.05(3, 21)=3.57,而 。所以 ,认为1与2有显著差别 ,认为1与3无显著差别 ,认为2与3有显著差别 这说明: 1与3之间无显著差别,而它们与2之间都有显著差异。

8.2.4 重复数不等场合的S法 在重复数不等时,若假设 (8.2.2) 成立,则 或 从而可以要求 ,在此要求下可推出

可以证明 , 从而 亦即

例8. 2. 3 在例8. 1. 4中,我们指出包装方式对食品销 量有明显的影响,此处r=4, fe =6, ,若取  =0 例8.2.3 在例8.1.4中,我们指出包装方式对食品销 量有明显的影响,此处r=4, fe =6, ,若取  =0.05 ,则F0.95(3,6)=4.76。注意到m1= m4=2, m2= m3=3,故

由于 这说明A1 , A2 , A3间无显著差异,A1 , A2与A4有 显著差异,但 A4与A3 的差异却尚未达到显著 水平。综合上述,包装A4销售量最佳。

§8.3 方差齐性检验 在进行方差分析时要求r个方差相等,这称为方差 齐性。理论研究表明,当正态性假定不满足时对F 检验影响较小,即F检验对正态性的偏离具有一定的 稳健性,而F检验对方差齐性的偏离较为敏感。所 以r个方差的齐性检验就显得十分必要。 所谓方差齐性检验是对如下一对假设作出检验: (8.3.1)

Hartley检验,仅适用于样本量相等的场合; 很多统计学家提出了一些很好的检验方法, 这里介绍几个最常用的检验,它们是: Hartley检验,仅适用于样本量相等的场合; Bartlett检验,可用于样本量相等或不等 的场合,但是每个样本量不得低于5; 修正的Bartlett检验,在样本量较小或较 大、相等或不等场合均可使用。

8.3.1 Hartley检验 当各水平下试验重复次数相等时,即 m1=m2==mr=m,Hartley提出检验方差相等的检验 统计量: (8.3.2) 这个统计量的分布无明显的表达式,但在诸方差 相等条件下,可通过随机模拟方法获得H分布的分 位数,该分布依赖于水平数r 和样本方差的自由度 f=m1,因此该分布可记为H (r,f),其分位数表 列于附表10上。

直观上看,当H0成立,即诸方差相等(12 =22==r2)时,H的值应接近于1,当H的值较大时,诸方差间的差异就大,H愈大,诸方差间的差异就愈大,这时应拒绝 (8.3.1)中的H0。由此可知,对给定的显著性水平 ,检验H0的拒绝域为 W={H > H1(r, f )} (8.3.3) 其中H1(r, f )为H分布的1 分位数。

例8.3.1 有四种不同牌号的铁锈防护剂(简称防 锈剂),现要比较其防锈能力。数据见表8.3.1 。 例8.3.1 有四种不同牌号的铁锈防护剂(简称防 锈剂),现要比较其防锈能力。数据见表8.3.1 。 这是一个重复次数相等的单因子试验。我们考虑用方差分析方法对之进行比较分析,为此,首先要进行方差齐性检验。

本例中,四个样本方差可由表8.3.1中诸Qi求出 ,即 由此可得统计量H的值 在 =0.05时,由附表10查得H0.95(4,9) =6.31,由于H<6.31,所以应该保留原假设H0,即认为四个总体方差间无显著差异。

8.3.2 Bartlett检验 在单因子方差分析中有r个样本,设第i个样本 方差为: 由于几何平均数总不会超过算术平均数,故有GMSe≤MSe , 其中 等号成立当且仅当诸si2彼此相等,若诸si2间的 差异愈大,则此两个平均值相差也愈大。

由此可见,在比值GMSe/MSe较大时,就意味着诸 样本方差差异较大,从而检验(8.3.1)表示的一 对假设的拒绝域应是 W={ln GMSe/MSe> >d} (8.3.4) Bartlett证明了,检验的拒绝域为 W={B> 1- 2 (r-1) } (8.3.8) 考虑到这里2分布是近似分布,在诸样本量mi均 不小于5时使用上述检验是适当的。

例8.3.2 为研究各产地的绿茶的叶酸含量是否 有显著差异,特选四个产地绿茶,其中A1制 作了7个样品, A2制作了5个样品, A3与A4各 制作了6个样品,共有24个样品,按随机次序 测试其叶酸含量,测试结果如表8.3.3所示。

为能进行方差分析,首先要进行方差齐性检验,从表8. 3. 3中数据可求得s12=2. 14, s22=2. 83, s32=2 为能进行方差分析,首先要进行方差齐性检验,从表8.3.3中数据可求得s12=2.14, s22=2.83, s32=2.41, s42=1.12,再从表8.3.4上查得MSe =2.09,由(8.3.6),可求得 再由(8.3.7),还可求得Bartlett检验统计量的值 对给定的显著性水平 =0.05,查表知0.952 (41) =7.815。由于B<7.815,故应保留原假设H0,即可认为诸水平下的方差间无显著差异。

8.3.3 修正的Bartlett检验 针对样本量低于5时不能使用Bartlett检验的缺点,Box提出修正的Bartlett检验统计量 (8.3.9) 其中B与C如(8.3.7)与(8.3.6)所示,且

在原假设H0:12 =22==r2成立下,Box还证 明了统计量 的近似分布是F分布F(f1, f2),对 给定的显著性水平 ,该检验的拒绝域为 (8.3.10) 其中f2的值可能不是整数,这时可通过对F分布 的分位数表施行内插法得到分位数。

例8.3.3 对例8.3.2中的绿茶叶酸含量的数据,我们用修正的Bartlett检验再一次对等方差性作出检验。 在例8.3.2中已求得:C=1.0856,B=0.970,还可求得: 对给定的显著性水平 =0.05,在F分布的分位数表上可查得 F0.95(3,682.4)= F0.95(3,)=2.60 由于 < 2.60,故保留原假设H0,即认为四个水平下的方差间无显著差异。

§8.4 一元线性回归 8.4.1 变量间的两类关系 十九世纪,英国生物学家兼统计学家高尔顿研究发现: §8.4 一元线性回归 8.4.1 变量间的两类关系 十九世纪,英国生物学家兼统计学家高尔顿研究发现: 其中x表示父亲身高, y 表示成年儿子的身高(单位:英寸,1英寸=2.54厘米)。这表明子代的平均高度有向中心回归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。

回归分析处理的是变量与变量间的关系。变量间常见的关系有两类:确定性关系与相关关系。 变量间的相关关系不能用完全确切的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务。 回归分析便是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据,去寻找隐藏在数据背后的相关关系,给出它们的表达形式——回归函数的估计。

8.4.2 一元线性回归模型 设y与x间有相关关系,称x为自变量(预报变量),y为因变量(响应变量),在知道x取值后,y有一个分布p(yx),我们关心的是y的均值E(Yx): (8.4.1) 这便是y关于x的理论回归函数——条件期望,也就是我们要寻找的相关关系的表达式。 通常,相关关系可用下式表示 y =f (x)+  其中是随机误差,一般假设 ~N(0,  2)。

进行回归分析首先是回归函数形式的选择。 当只有一个自变量时,通常可采用画散点图 的方法进行选择。 例8.4.1 合金的强度y (×107Pa) 与合金中碳的含量x (%) 有关。为研究两个变量间的关系。首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,,n。本例中,我们收集到12组数据,列于表8.4.1中

表8.4.1 合金钢强度y与碳含量x的数据 序号 x(%) y (×107Pa) 1 0.10 42.0 7 0.16 49.0 2 0.11 43.0 8 0.17 53.0 3 0.12 45.0 9 0.18 50.0 4 0.13 10 0.20 55.0 5 0.14 11 0.21 6 0.15 47.5 12 0.23 60.0

为找出两个量 间存在的回归 函数的形式, 可以画一张图 :把每一对数 (xi,yi)看成直角 坐标系中的一 个点,在图上 画出n个点, 称这张图为散 点图,见图 8.4.1

从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为 y =0+ 1x+  (8.4.2) 这便是y关于x的一元线性回归的数据结构式。通常假定 E() =0, Var() =  2 (8.4.3) 在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即 y ~N(0+ 1x,  2 ) (8.4.4) 显然,假定(8.4.4) 比 (8.4.3) 要强。

由于 0, 1均未知,需要我们从收集到的数据(xi,yi),i=1,2,…,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行, 即假定y1, y2,, yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型: (8.4.5)

由数据(xi,yi),i=1,2,…,n,可以获得0, 1的估 计 ,称 (8.4.6) 为y关于x的经验回归函数,简称为回归方程, 其图形称为回归直线。给定x=x0后, 称 为回归值(在不同场合也称其 为拟合值、预测值)。

8.4.3 回归系数的最小二乘估计 一般采用最小二乘方法估计模型(8.4.5)中的0, 1 :令: 应该满足 8.4.3 回归系数的最小二乘估计 一般采用最小二乘方法估计模型(8.4.5)中的0, 1 :令: 应该满足 称这样得到的 称为0, 1的最小二乘估计,记为LSE。

最小二乘估计可以通过求偏导数并命其为0而得到: (8.4.7) 这组方程称为正规方程组,经过整理,可得 (8.4.8)

解(8.4.8)可得 (8.4.9) 这就是参数的最小二乘估计,其中

例8.4.2 使用例8.4.1种合金钢强度和碳含量 数据,我们可求得回归方程,见下表. 表8.4.2 例8.4.2的计算表 例8.4.2 使用例8.4.1种合金钢强度和碳含量 数据,我们可求得回归方程,见下表. 表8.4.2 例8.4.2的计算表 xi=1.90 n=12 yi=590.5 xi2=0.3194 xi yi =95.9250 yi2=29392.75 lxx=0.0186 lxy=2.4292 lyy=335.2292 由此给出回归方程为:

关于最小二乘估计的一些性质罗列在如下定理之中 定理8.4.1 在模型(8.4.5)下,有 (1) (2) (3)对给定的x0,

差)就要求n大,lxx大(即要求x1, x2,, xn较 分散)。 定理8.4.1 说明 分别是0, 1的无偏估计; 是E(y0)=0+ 1 x0的无偏估计; 除 外, 与 是相关的; 要提高 的估计精度(即降低它们的方 差)就要求n大,lxx大(即要求x1, x2,, xn较 分散)。

8.4.4 回归方程的显著性检验 在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。 8.4.4 回归方程的显著性检验 在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。 如果1=0,那么不管x如何变化,E(y)不随x的变化作线性变化,那么这时求得的一元线性回归方程就没有意义,称回归方程不显著。如果10,E(y)随x的变化作线性变化,称回归方程是显著的。 综上,对回归方程是否有意义作判断就是要作如下的显著性检验:H0:1=0 vs H1: 10 拒绝H0表示回归方程是显著的。

在一元线性回归中有三种等价的检验方法,下面分别加以介绍。 一、F 检验 采用方差分析的思想,我们从数据出发研究各yi不同的原因。 数据总的波动用总偏差平方和 表示。引起各yi不同的原因主要有两个因素:其一是H0可能不真,E(y)随x的变化而变化,从而在每一个x的观测值处的回归值不同,其波动用回归平方和 表示;其二是其它一切因素,包括随机误差、x对E(y)的非线性影响等,这可用残差平方和 表示。 且有如下平方和分解式: ST= SR + Se (8.4.13)

关于SR 和 Se所含有的成分可由如下定理说明。 定理8.4.2 设yi=i+ 1 xi + i,其中i n相互独立, 且Ei=0,Var(yi)= 2,i=1,,n,沿用上面的记号,有 (8.4.14) (8.4.15) 这说明 是 2的无偏估计。

进一步,有关SR 和 Se的分布,有如下定理。 定理8.4.3 设 y1, y2,, yn 相互独立,且 yi~N(i + 1 xi ,  2), i=1, , n, 则在上述记号下,有 (1)Se / 2 ~ 2(n2), (2)若H0成立,则有SR / 2 ~ 2(1) (3) SR与Se , 独立(或 与Se , 独立)。

如同方差分析那样,我们可以考虑采用F比作为检验统计量: 在1 =0时,F~F(1, n2),其中fR =1, fe =n2. 对于给定的显著性水平,拒绝域为 F  F1-(1, n2) 整个检验也可列成一张方差分析表。

例8.4.3 在合金钢强度的例8.4.2中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有 例8.4.3 在合金钢强度的例8.4.2中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有 来源 平方和 自由度 均方和 F比 回归 SR =317.2589 fA=1 MSA=317.2589 176.55 残差 Se =17.9703 fe=10 MSe= 1.79703 总和 ST =335.2292 fT=11 若取=0.01,则F0.99(1,10) =10<F,因此在显著性水平0.01下回归方程是显著的。

二、t 检验 对H0 : 1 =0的检验也可基于t分布进行。 由于 , 因此在H0为真时,有 ,其中 ,它可用来检验假设H0。对给定的显著性水平 ,拒绝域为 . 由于 ,称 为 的标准误,即 的标准差的估计。

注意到t2=F,因此,t检验与F检验是等同的。 以例8.4.2中数据为例,可以计算得到 若取 =0.01,则由于13.2872>3.1698,因此, 在显著性水平0.01下回归方程是显著的。

三、相关系数检验 一元线性回归方程是反映两个随机变量x与y间的线性相关关系,它的显著性检验还可通过对二维总体相关系数的检验进行。它的一对假设是 H0:=0 vs H1: 0 (8.4.18) 所用的检验统计量为样本相关系数 (8.4.19) 拒绝域为W={rc},其中临界值c应是H0: =0成 立下r的分布的1 分位数,故记为c=r1- (n2).

由样本相关系数的定义可以得到 r与F统计量之 间的关系 这表明, r是F的严格单调增函数,故可以从F 分布的1 分位数 F1-(1, n2) 得到 r 的1 分 位数为

譬如,对 =0.01,n=12, F0.99(1,10)=10.04 , 于是 。 为实际使用方便,人们已对r1- (n-2)编制了专门 的表,见附表9。 以例8.4.2中数据为例,可以计算得到 若取 =0.01,查附表9知 r0.99(10)=0.708, 由于 0.9728>0.708,因此,在显著性水平0.01下回归 方程是显著的。

在一元线性回归场合,三种检验方法是等价 的:在相同的显著性水平下,要么都拒绝原假设, 要么都接受原假设,不会产生矛盾。 F 检验可以很容易推广到多元回归分析场合,而其他二个则否,所以,F检验是最常用的关于回归方程显著性检验的检验方法。

当回归方程经过检验是显著的后,可用来做估计和预测。这是二个不同的问题: 8.4.5 估计与预测 当回归方程经过检验是显著的后,可用来做估计和预测。这是二个不同的问题: (1)当x=x0时,寻求均值E(y0)=0+ 1 x0的点估计与区间 估计(注意这里E(y0)是常量)是估计问题; (2)当x=x0时,y0的观察值在什么范围内?由于y0是随机 变量,为此只能求一个区间,使y0落在这一区间的概率为1- ,即要求,使 称区间 为y0的概率为1- 的预测区间, 这是预测问题。

一、 E(y0)的估计 在x=x0时,其对应的因变量y0是一个随机变量,有一个分布,我们经常需要对该分布的均值给出估计。由于E(y0)=0+ 1 x0,一个直观的估计应为 我们习惯上将上述估计记为 (注意这里 表 示的是E(y0)的估计,而不表示y0的估计,因为 y0是随机变量,它是没有估计的)。由于 分别是0, 1的无偏估计,因此, 也是E(y0) 的无偏估计。

为得到E(y0)的区间估计,我们需要知道 的分 布。由定理8.4.1, 又由定理8.4.3知, Se / 2 ~ 2(n-2),且与 相互独立,故

于是E(y0)的1 的置信区间(CI)是 (8.4.20) 其中 (8.4.21)

二、 y0的预测区间 实用中往往更关心x=x0时对应的因变量y0的取 值范围。 y0的最可能取值为 ,于是,我们可 以使用以 为中心的一个区间 作 为y0的取值范围。经推导, 的表达式为 (8.4.23) 上述预测区间(PI)与E(y0)的置信区间的差别就在于根号里多个1。

预测区间的长度2与样本量n、x的偏差平方和lxx、 x0 到 的距离 有关。 当 时,预测精度可能变得很差,在这种情况下的预测称作外推,需要特别小心。另外,若x1, x2,, xn较为集中时,那么lxx就较小,也会导致预测精度的降低。因此,在收集数据时要使x1, x2,, xn尽量分散,这对提高精度有利。 当n较大时(如n >30), t分布可以用正态分布近似,进一步,若x0与 相差不大时,  可以近似取为 。

例8.4.4 在例8.4.2中,如果x0=0.16,则得预测值为 若取 =0.05,则t0.975(10)=2.2281, 又 ,应用(8.4.21), 故x0=0.16对应因变量y0的均值E(y0)的0.95置信区间为(49.4328-1.0480, 49.4328+1.0480) =(48.3488, 50.5168)

应用(8.4.23), 从而y0的概率为0.95的预测区间为 E(y0)的0.95置信区间比y0的概率为0.95的预测区间窄很多,这是因为随机变量的均值相对于随机变量本身而言要更容易估计出来。

§8.5 一元非线性回归 例 8.5.1 炼钢厂出钢水时用的钢包,在使用过 程中由于钢水及炉渣对耐火材料的浸蚀,其容 积不断增大。现在钢包的容积用盛满钢水时的 重量y (kg)表示,相应的试验次数用x表示。数 据见表8.5.1,要找出y 与x的定量关系表达式。

表8.5.1 钢包的重量y与试验次数x数据 下面我们分三步进行。 序号 x y 1 2 106.42 8 11 110.59 3 108.20 9 14 110.60 4 109.58 10 15 110.90 5 109.50 16 110.76 7 110.00 12 18 111.00 6 109.93 13 19 111.20 110.49   下面我们分三步进行。

8.5.1 确定可能的函数形式 为对数据进行分析,首先描出数据的散点图,判断两个变量之间可能的函数关系,图8.5.1是本例的散点图。 8.5.1 确定可能的函数形式 为对数据进行分析,首先描出数据的散点图,判断两个变量之间可能的函数关系,图8.5.1是本例的散点图。 观测这13个点构成的散点图,我们可以看到它们并不接近一条直线,用曲线拟合这些点应该是更恰当的,这里就涉及如何选择曲线函数形式的问题。

首先,如果可由专业知识确定回归函数形式 ,则应尽可能利用专业知识。当若不能有专 业知识加以确定函数形式,则可将散点图与 一些常见的函数关系的图形进行比较,选择 几个可能的函数形式,然后使用统计方法在 这些函数形式之间进行比较,最后确定合适 的曲线回归方程。为此,必须了解常见的曲 线函数的图形,见图8.5.2 。

本例中,散点图呈现呈现一个明显的向上且上凸 的趋势,可能选择的函数关系有很多,比如,参 照图8.5.2,我们可以给出如下四个曲线函数: 1) 1/y=a+b/x 2) y=a+blnx 3) 4) 在初步选出可能的函数关系(即方程)后,我们必须解决两个问题:如何估计所选方程中的参数?如何评价所选不同方程的优劣?

8.5.2 参数估计 对上述非线性函数,参数估计最常用的方法是“ 线性化”方法。 8.5.2 参数估计 对上述非线性函数,参数估计最常用的方法是“ 线性化”方法。 以1/y=a+b/x为例,为了能采用一元线性回归分析方法,我们作如下变换u=1/x,v=1/y 则曲线函数就化为如下的直线v=bu 这是理论回归函数。对数据而言,回归方程为 vi=a+ bui + i 于是可用一元线性回归的方法估计出a,b。

表8.5.3 参数估计计算表

用类似的方法可以得出其它三个曲线回归方程, 它们分别是:

8.5.3 曲线回归方程的比较 我们上面得到了四个曲线回归方程,通常可采 用如下二个指标进行选择。 8.5.3 曲线回归方程的比较 我们上面得到了四个曲线回归方程,通常可采 用如下二个指标进行选择。 (1)决定系数R2:类似于一元线性回归方程中 相关系数,决定系数定义为: (8.5.5) R2越大,说明残差越小,回归曲线拟合越好, R2从总体上给出一个拟合好坏程度的度量。

(2)剩余标准差s:类似于一元线性回归中标准差 的估计公式,此剩余标准差可用残差平方和来获 得,即 (8.5.6) s为诸观测点yi与由曲线给出的拟合值 间的平均 偏离程度的度量,s越小,方程越好。

在观测数据给定后,不同的曲线选择不会影 响 的取值,但会影响到残差平方和 的取值。因此,对选择的曲线而言,决定系数 和剩余标准差都取决于残差平方和 , 从而,两种选择准则是一致的,只是从两个不 同侧面作出评价。

表8.5.4给出第一个曲线回归方程的残差平方和的计算过程, 由于n=13, , 故其决定系数及剩余标准差分别为: 其它三个方程的决定系数及剩余标准差可同样计算,我们将它们列在表8.5.5中。

表8.5.5 四种曲线回归的决定系数及剩余标准差 模型编号 1) 2) 3) 4) R2 0.9729 0.8773 0.7851 0.9623 s 0.2285 0.4864 0.6437 0.2696 从表8.5.5中可以看出,第一个曲线方程的决定系数最大,剩余标准差最小,在这四个曲线回归方程中,不论用哪个标准,都是第一个方程拟合得最好。因此,近似得比较好的定量关系式就是