§8.1 方差分析 Analysis of Variance-ANOVA 方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。 在对均值进行假设检验时,一般有两种参数检验方法,即t检验与方差分析。t检验仅用在单因素两水平设计(包括配对设计和成组设计)和单组设计(给出一组数据和一个标准值的资料)的定量资料的均值检验场合;而方差分析用在单因素k水平设计(k≥3)和多因素设计的定量资料的均值检验场合。
方差分析的统计测试能够说明几组数据的平均值是否相等,因此得到两组的t测试。在做多组双变量t测试的时候,错误的几率会越来越大。因此,方差分析只在二到四组平均值的时候比较有效。 8.1.1 问题的提出 实际工作中我们经常碰到多个正态总体均 值的比较问题,处理这类问题通常采用所 谓的方差分析方法。
例8.1.1 在饲料养鸡增肥的研究中,某研究所 提出三种饲料配方:A1是以鱼粉为主的饲料 ,A2是以槐树粉为主的饲料,A3是以苜蓿粉 为主的饲料。为比较三种饲料的效果,特选 24 只相似的雏鸡随机均分为三组,每组各 喂一种饲料,60天后观察它们的重量。试验 结果如下表所示:
表8.1.1 鸡饲料试验数据 饲料A 鸡 重(克) A1 1073 1009 1060 1001 1002 1012 1028 A2 1107 1092 990 1109 1090 1074 1122 A3 1093 1029 1080 1021 1022 1032 1048
本例中,我们要比较的是三种饲料对鸡的增肥作 用是否相同。为此,把饲料称为因子(factor) ,记 为A,三种不同的配方称为因子A的三个水平,记 为A1, A2, A3,使用配方Ai下第 j 只鸡60天后的重量 用yij表示,i=1, 2, 3, j=1, 2,, 8。我们的目的是比 较三种饲料配方下鸡的平均重量是否相等,为此 ,需要做一些基本假定,把所研究的问题归结为 一个统计问题,然后用方差分析的方法进行解决 。
8.1.2 单因子方差分析的统计模型 在例8.1.1中我们只考察了一个因子,称其为 单因子试验。 8.1.2 单因子方差分析的统计模型 在例8.1.1中我们只考察了一个因子,称其为 单因子试验。 通常,在单因子试验中,记因子为 A, 设其 有r个水平,记为A1, A2,…, Ar,在每一水平下 考察的指标可以看成一个总体 ,现有 r 个水 平,故有 r 个总体, 假定:
每一总体均为正态总体,记为 N(i , i 2), i= 1, 2,…, r ; 从每一总体中抽取的样本是相互独立的, 即所有的试验结果 yij 都相互独立。
我们要比较各水平下的均值是否相同, 即要对如下的一个假设进行检验: H0 :1 =2 =…=r (8.1.1) 备择假设为 H1 :1, 2, …, r 不全相等 在不会引起误解的情况下, H1 通常可省略不写。 如果H0成立,因子A的r个水平均值相同,称因子A的r个水平间没有显著差异,简称因子A不显著;反之,当H0不成立时,因子A的r个水平均值不全相同,这时称因子A的不同水平间有显著差异,简称因子A显著。
为对假设(8.1.1)进行检验,需要从每一水 平下的总体抽取样本,设从第i个水平下的总 体获得m个试验结果,记 yij 表示第i个总体的第 j次重复试验结果。共得如下n=rm个试验结果 : yij, i=1, 2,…, r , j=1, 2, …, m, 其中r为水平数,m为重复数,i为水平编号, j 为重复编号。
在水平Ai下的试验结果yij与该水平下的指标均值 i 一般总是有差距的,记 ij = yiji,
单因子方差分析的统计模型: (8.1.3) 总均值与效应: 称诸 i 的平均 为总均值. 称第 i 水平下的均值 i 与总均值 的差: ai=i - 为 Ai 的水平效应。
模型(8.1.3)可以改写为 (8.1.8) 假设(8.1.1)可改写为 H0 :a1 =a2 =…=ar =0 (8.1.9) why?
8.1.3 平方和分解 一、试验数据 表8.1.2中的最后二列的和与平均的含义如下: 8.1.3 平方和分解 一、试验数据 通常在单因子方差分析中可将试验数据列成 如下页表格形式。 表8.1.2中的最后二列的和与平均的含义如下:
表8.1.2 单因子方差分析试验数据 因子水平 试 验 数 据 和 平均 A1 y11 y12 … y1m T1 A2 表8.1.2 单因子方差分析试验数据 因子水平 试 验 数 据 和 平均 A1 y11 y12 … y1m T1 A2 y21 y22 … y2m T2 ┆ Ar yr1 yr2 … yrm Tr T
二、组内偏差与组间偏差 数据间是有差异的。数据yij与总平均 间的 偏差可用yij 表示,它可分解为二个偏差 之和 (8.1.10) 记
由于 (8.1.11) 所以yij - 仅反映组内数据与组内平均的随机误 差,称为组内偏差;而 (8.1.12) 除了反映随机误差外,还反映了第i个水 平的效应,称为组间偏差。
三、偏差平方和及其自由度 在统计学中,把k个数据y1 , y2 , …, yk分别对其均值 =(y1+ …+ yk )/k 的偏差平方和
在构成偏差平方和Q的k个偏差y1 , …, yk 间 有一个恒等式 ,这说明在Q中独立的 偏差只有k1个。 在统计学中把平方和中独立偏差个数称为该平方和的自由度,常记为f,如Q的自由度为fQ=k1。自由度是偏差平方和的一个重要参数。
四、总平方和分解公式 仅由随机误差引起的数据间的差异可以用 组内偏差平方和 表示, 也称为误差偏差平方和,其自由度为 fe=nr ; 各yij间总的差异大小可用总偏差平方和 表示,其自由度为 fT=n1; 仅由随机误差引起的数据间的差异可以用 组内偏差平方和 表示, 也称为误差偏差平方和,其自由度为 fe=nr ;
由于组间差异除了随机误差外,还反映了 效应间的差异,故由效应不同引起的数据差 异可用组间偏差平方和 表示 ,也称为因子A的偏差平方和,其自由度为 fA=r1;
定理8.1.1 在上述符号下,总平方和ST可以分 解为因子平方和SA与误差平方和Se之和,其自 由度也有相应分解公式,具体为: ST =SA +Se , fT =fA +fe (8.1.16) (8.1.16)式通常称为总平方和分解式。
8.1.4 检验方法 偏差平方和Q的大小与自由度有关,为了便于在 偏差平方和间进行比较,统计上引入了均方和的 概念,它定义为MS=Q/fQ ,其意为平均每个自由 度上有多少平方和,它比较好地度量了一组数据 的离散程度。 如今要对因子平方和 SA 与误差平方和 Se 之间进行 比较,用其均方和 MSA= SA /fA , MSe= Se /fe 进行 比较更为合理,故可用 作为检验 H0的统计量。
定理8.1.2 在单因子方差分析模型 (8.1.8) 及前 述符号下,有 (1) Se / 2 ~ 2(nr) ,从而E(Se ) =(nr) 2 ,进一步,若H0成 立,则有SA/ 2 ~ 2(r1) (2) SA与Se独立。
由定理8.1.2,若H0成立,则检验统计量F服从自由度为fA和fe的F分布,因此拒绝域为W={FF1 (fA ,fe)},通常将上述计算过程列成一张表格,称为方差分析表。 表8.1.3 单因子方差分析表 来源 平方和 自由度 均方和 F比 因子 SA fA=r1 MSA= SA/fA F= MSA/ MSe 误差 Se fe=nr MSe= Se/fe 总和 ST fT=n1
如果 F ≥ F1 (fA ,fe),则认为因子A显著; 对给定的,可作如下判断: 如果 F ≥ F1 (fA ,fe),则认为因子A显著; 若F F1 (fA ,fe) ,则说明因子A不显著。 该检验的p值也可利用统计软件求出,若 以Y记服从F(fA ,fe)的随机变量,则检验的 p 值为 p=P(YF)。
常用的各偏差平方和的计算公式如下: (8.1.19) 一般可将计算过程列表进行。
例8.1.2 采用例8.1.1的数据,将原始数据减去1000, 列表给出计算过程: 表8.1.4 例8.1.2的计算表 水平 例8.1.2 采用例8.1.1的数据,将原始数据减去1000, 列表给出计算过程: 表8.1.4 例8.1.2的计算表 水平 数据(原始数据-1000) Ti Ti2 A1 73 9 60 1 2 12 28 194 37636 10024 A2 107 92 -10 109 90 74 122 585 342225 60355 A3 93 29 80 21 22 32 48 354 125316 20984 1133 505177 91363
利用(8.1.19),可算得各偏差平方和为: 把上述诸平方和及其自由度填入方差分析表
表8.1.5 例8.1.2的方差分析表 来源 平方和 自由度 均方和 F比 因子 9660.0833 2 4830.0417 3.5948 误差 28215.9584 21 1343.6171 总和 37876.0417 23 若取=0.05,则F0.95 (2 ,21)=3.47 ,由于F=3.5948>3.47,故认为因子A(饲料)是显著的,即三种饲料对鸡的增肥作用有明显的差别。
8.1.5 参数估计 在检验结果为显著时,我们可进一步求出总 均值 、各主效应ai和误差方差 2的估计。
一、点估计 由模型(8.1.8)知诸yij相互独立,且yij ~N(+ ai , 2) ,因此, 差 2的估计: 由极大似然估计的不变性,各水平均值i的极大似然估计 为 ,由于 不是 2的无偏估计,可修偏:
二、置信区间 由于 ,可给出Ai的水平均值i的 1- 的置信区间为 其中 。
例8.1.3 继续例8.1.2,此处我们给出诸水平均 值的估计。因子A的三个水平均值的估计分别 为 从点估计来看,水平2(以槐树粉为主的饲 料)是最优的。
误差方差的无偏估计为 利用(8.1.23)可以给出诸水平均值的置信区间。 此处, ,若取=0.05 ,则t1- /2( fe )= t0.95( 21 )=2.0796, ,于 是三个水平均值的0.95置信区间分别为
在因子A显著时,通常只需对较优的水平均值作参数估计,在因子A不显著场合,参数估计无需进行。 在单因子试验的数据分析中可得到如下三个 结果: 因子是否显著; 试验的误差方差 2的估计; 诸水平均值i的点估计与区间估计。 在因子A显著时,通常只需对较优的水平均值作参数估计,在因子A不显著场合,参数估计无需进行。
8.1.6 重复数不等情形 单因子方差分析并不要求每个水平下重复试验 次数全相等,在重复数不等场合的方差分析与重 复数相等情况下的方差分析极为相似,只在几处 略有差别。 数据:设从第i个水平下的总体获得mi个试验结果,记为yi1 , yi2 …, yim ,i=1,2, …r,统计模型为: (8.1.24)
效应约束条件: 各平方和的计算: SA的计算公式略有不同 总均值:诸i的加权平均(所有试验结果的均值的平均) (8.1.25) 称为总均值或一般平均。 效应约束条件: 各平方和的计算: SA的计算公式略有不同
例8.1.4 某食品公司对一种食品设计了四种新包装。为考察哪种包装最受顾客欢迎,选了10个地段繁华程度相似、规模相近的商店做试验,其中二种包装各指定两个商店销售,另二个包装各指定三个商店销售。在试验期内各店货架排放的位置、空间都相同,营业员的促销方法也基本相同,经过一段时间,记录其销售量数据,列于表8.1.6左半边,其相应的计算结果列于右侧。
表8.1.6 销售量数据及计算表 包装类型 销售量 mi Ti Ti2 / mi A1 12 18 2 30 450 468 A2 14 表8.1.6 销售量数据及计算表 包装类型 销售量 mi Ti Ti2 / mi A1 12 18 2 30 450 468 A2 14 13 3 39 507 509 A3 19 17 21 57 1083 1091 A4 24 54 1458 1476 和 n=10 T=180
若取=0.01,查表得F0.01(3,6)=9.78,由于 F=11.22>9.78,故我们可认为各水平间有显著差异。 由此可求得各类偏差平方和如下 方差分析表如表8.1.8所示 . 若取=0.01,查表得F0.01(3,6)=9.78,由于 F=11.22>9.78,故我们可认为各水平间有显著差异。
表8.1.7 例8.1.4的方差分析表 来源 平方和 自由度 均方和 F比 因子A 258 3 86 11.22 误差e 46 6 7.67 表8.1.7 例8.1.4的方差分析表 来源 平方和 自由度 均方和 F比 因子A 258 3 86 11.22 误差e 46 6 7.67 总和T 304 9
由于因子显著,我们还可以给出诸水平均值 的估计。因子A的四个水平均值的估计分别为 由此可见,第四种包装方式效果最好。误差 方差的无偏估计为
进一步,利用(8. 1. 23)也可以给出诸水平均值的置信区间,只是在这里要用不同的mi代替那里相同的m。此处, ,若取=0 进一步,利用(8.1.23)也可以给出诸水平均值的置信区间,只是在这里要用不同的mi代替那里相同的m。此处, ,若取=0.05,则t1-/2( fe )=t0.95(6)=2.4469, ,于是效果较好的第三和第四个水平均值的0.95置信区间分别为
§8.2 多重比较 8.2.1 效应差的置信区间 如果方差分析的结果因子A显著,则等于说有 充分理由认为因子A各水平的效应不全相同,但 这并不是说它们中一定没有相同的。就指定的 一对水平Ai与Aj,我们可通过求i - j的区间估 计来进行比较。
这里的置信区间与第六章中的两样本的t区间基本一致,区别在于这里 2的估计使用了全部样本而不仅仅是两个水平Ai, Aj下的观测值。 由于 ,故 由此给出i - j的置信水平为1-的置信区间为 (8.2.1) 其中 是 2的无偏估计。 这里的置信区间与第六章中的两样本的t区间基本一致,区别在于这里 2的估计使用了全部样本而不仅仅是两个水平Ai, Aj下的观测值。
例8.2.1 继续例8.1.2, ,fe=21,取 =0.05 ,则t1-/2( fe )= t0.975(21)=2.0796, 于是可算出各个置信区间为 可见第一个区间在0的左边,所以我们可以概率95% 断言认为1 小于2,其它二个区间包含0点,虽然从 点估计角度看水平均值估计有差别,但这种差异在 0.05水平上是不显著的。
8.2.2 多重比较问题 对每一组(i, j), (8.2.1) 给出的区间的置信水 平都是1 ,但对多个这样的区间,要求其 同时成立,其联合置信水平就不再是1 了 。
譬如,设E1 , …, Ek是k个随机事件,且有 P(Ei)=1,i=1 ,…,k ,则其同时发生的概率 这说明它们同时发生的概率可能比1 小很多 。 为了使它们同时发生的概率不低于1,一个办 法是把每个事件发生的概率提高到1 /k. 这将 导致每个置信区间过长,联合置信区间的精度很 差,一般人们不采用这种方法。
在方差分析中,如果经过F检验拒绝原假设, 表明因子A是显著的,即r个水平对应的水平均 值不全相等,此时,我们还需要进一步确认哪 些水平均值间是确有差异的,哪些水平均值间 无显著差异。 同时比较任意两个水平均值间有无明显差异的 问题称为多重比较,多重比较即要以显著性水 平同时检验如下r(r1)/2个假设: (8.2.2)
直观地看,当H0ij成立时, 不应过大, 因此,关于假设(8.2.2)的拒绝域应有如下形式 诸临界值应在(8.2.2)成立时由P(W)= 确定。下面分重复数相等和不等分别介绍临界值的确定。
8.2.3 重复数相等场合的T法 在重复数相等时,由对称性自然可以要求诸cij相等,记为c. 记 ,则由给定条件不难有
于是当 (8.2.2) 成立时,1== r = ,可推出 其中 ,称为t化极差统计量, 其分布可由随机模拟方法得到。 于是 , 其中q1(r, fe)表示q(r, fe)的 1 分位数,其值在附表8中给出。
重复数相同时多重比较可总结如下:对给定的 的显著性水平 ,查多重比较的分位数q(r,fe)表 ,计算 ,比较诸 与c的大 小,若 则认为水平Ai与水平Aj间有显著差异,反之,则 认为水平Ai与水平Aj间无明显差别。这一方法最 早由Turkey提出,因此称为T法。
例8.2.2 继续例8.1.2,若取 =0.05,则查表知q1-0.05(3, 21)=3.57,而 。所以 ,认为1与2有显著差别 ,认为1与3无显著差别 ,认为2与3有显著差别 这说明: 1与3之间无显著差别,而它们与2之间都有显著差异。
8.2.4 重复数不等场合的S法 在重复数不等时,若假设 (8.2.2) 成立,则 或 从而可以要求 ,在此要求下可推出
可以证明 , 从而 亦即
例8. 2. 3 在例8. 1. 4中,我们指出包装方式对食品销 量有明显的影响,此处r=4, fe =6, ,若取 =0 例8.2.3 在例8.1.4中,我们指出包装方式对食品销 量有明显的影响,此处r=4, fe =6, ,若取 =0.05 ,则F0.95(3,6)=4.76。注意到m1= m4=2, m2= m3=3,故
由于 这说明A1 , A2 , A3间无显著差异,A1 , A2与A4有 显著差异,但 A4与A3 的差异却尚未达到显著 水平。综合上述,包装A4销售量最佳。
§8.3 方差齐性检验 在进行方差分析时要求r个方差相等,这称为方差 齐性。理论研究表明,当正态性假定不满足时对F 检验影响较小,即F检验对正态性的偏离具有一定的 稳健性,而F检验对方差齐性的偏离较为敏感。所 以r个方差的齐性检验就显得十分必要。 所谓方差齐性检验是对如下一对假设作出检验: (8.3.1)
Hartley检验,仅适用于样本量相等的场合; 很多统计学家提出了一些很好的检验方法, 这里介绍几个最常用的检验,它们是: Hartley检验,仅适用于样本量相等的场合; Bartlett检验,可用于样本量相等或不等 的场合,但是每个样本量不得低于5; 修正的Bartlett检验,在样本量较小或较 大、相等或不等场合均可使用。
8.3.1 Hartley检验 当各水平下试验重复次数相等时,即 m1=m2==mr=m,Hartley提出检验方差相等的检验 统计量: (8.3.2) 这个统计量的分布无明显的表达式,但在诸方差 相等条件下,可通过随机模拟方法获得H分布的分 位数,该分布依赖于水平数r 和样本方差的自由度 f=m1,因此该分布可记为H (r,f),其分位数表 列于附表10上。
直观上看,当H0成立,即诸方差相等(12 =22==r2)时,H的值应接近于1,当H的值较大时,诸方差间的差异就大,H愈大,诸方差间的差异就愈大,这时应拒绝 (8.3.1)中的H0。由此可知,对给定的显著性水平 ,检验H0的拒绝域为 W={H > H1(r, f )} (8.3.3) 其中H1(r, f )为H分布的1 分位数。
例8.3.1 有四种不同牌号的铁锈防护剂(简称防 锈剂),现要比较其防锈能力。数据见表8.3.1 。 例8.3.1 有四种不同牌号的铁锈防护剂(简称防 锈剂),现要比较其防锈能力。数据见表8.3.1 。 这是一个重复次数相等的单因子试验。我们考虑用方差分析方法对之进行比较分析,为此,首先要进行方差齐性检验。
本例中,四个样本方差可由表8.3.1中诸Qi求出 ,即 由此可得统计量H的值 在 =0.05时,由附表10查得H0.95(4,9) =6.31,由于H<6.31,所以应该保留原假设H0,即认为四个总体方差间无显著差异。
8.3.2 Bartlett检验 在单因子方差分析中有r个样本,设第i个样本 方差为: 由于几何平均数总不会超过算术平均数,故有GMSe≤MSe , 其中 等号成立当且仅当诸si2彼此相等,若诸si2间的 差异愈大,则此两个平均值相差也愈大。
由此可见,在比值GMSe/MSe较大时,就意味着诸 样本方差差异较大,从而检验(8.3.1)表示的一 对假设的拒绝域应是 W={ln GMSe/MSe> >d} (8.3.4) Bartlett证明了,检验的拒绝域为 W={B> 1- 2 (r-1) } (8.3.8) 考虑到这里2分布是近似分布,在诸样本量mi均 不小于5时使用上述检验是适当的。
例8.3.2 为研究各产地的绿茶的叶酸含量是否 有显著差异,特选四个产地绿茶,其中A1制 作了7个样品, A2制作了5个样品, A3与A4各 制作了6个样品,共有24个样品,按随机次序 测试其叶酸含量,测试结果如表8.3.3所示。
为能进行方差分析,首先要进行方差齐性检验,从表8. 3. 3中数据可求得s12=2. 14, s22=2. 83, s32=2 为能进行方差分析,首先要进行方差齐性检验,从表8.3.3中数据可求得s12=2.14, s22=2.83, s32=2.41, s42=1.12,再从表8.3.4上查得MSe =2.09,由(8.3.6),可求得 再由(8.3.7),还可求得Bartlett检验统计量的值 对给定的显著性水平 =0.05,查表知0.952 (41) =7.815。由于B<7.815,故应保留原假设H0,即可认为诸水平下的方差间无显著差异。
8.3.3 修正的Bartlett检验 针对样本量低于5时不能使用Bartlett检验的缺点,Box提出修正的Bartlett检验统计量 (8.3.9) 其中B与C如(8.3.7)与(8.3.6)所示,且
在原假设H0:12 =22==r2成立下,Box还证 明了统计量 的近似分布是F分布F(f1, f2),对 给定的显著性水平 ,该检验的拒绝域为 (8.3.10) 其中f2的值可能不是整数,这时可通过对F分布 的分位数表施行内插法得到分位数。
例8.3.3 对例8.3.2中的绿茶叶酸含量的数据,我们用修正的Bartlett检验再一次对等方差性作出检验。 在例8.3.2中已求得:C=1.0856,B=0.970,还可求得: 对给定的显著性水平 =0.05,在F分布的分位数表上可查得 F0.95(3,682.4)= F0.95(3,)=2.60 由于 < 2.60,故保留原假设H0,即认为四个水平下的方差间无显著差异。
§8.4 一元线性回归 8.4.1 变量间的两类关系 十九世纪,英国生物学家兼统计学家高尔顿研究发现: §8.4 一元线性回归 8.4.1 变量间的两类关系 十九世纪,英国生物学家兼统计学家高尔顿研究发现: 其中x表示父亲身高, y 表示成年儿子的身高(单位:英寸,1英寸=2.54厘米)。这表明子代的平均高度有向中心回归的意思,使得一段时间内人的身高相对稳定。之后回归分析的思想渗透到了数理统计的其它分支中。
回归分析处理的是变量与变量间的关系。变量间常见的关系有两类:确定性关系与相关关系。 变量间的相关关系不能用完全确切的函数形式表示,但在平均意义下有一定的定量关系表达式,寻找这种定量关系表达式就是回归分析的主要任务。 回归分析便是研究变量间相关关系的一门学科。它通过对客观事物中变量的大量观察或试验获得的数据,去寻找隐藏在数据背后的相关关系,给出它们的表达形式——回归函数的估计。
8.4.2 一元线性回归模型 设y与x间有相关关系,称x为自变量(预报变量),y为因变量(响应变量),在知道x取值后,y有一个分布p(yx),我们关心的是y的均值E(Yx): (8.4.1) 这便是y关于x的理论回归函数——条件期望,也就是我们要寻找的相关关系的表达式。 通常,相关关系可用下式表示 y =f (x)+ 其中是随机误差,一般假设 ~N(0, 2)。
进行回归分析首先是回归函数形式的选择。 当只有一个自变量时,通常可采用画散点图 的方法进行选择。 例8.4.1 合金的强度y (×107Pa) 与合金中碳的含量x (%) 有关。为研究两个变量间的关系。首先是收集数据,我们把收集到的数据记为(xi,yi),i=1,2,,n。本例中,我们收集到12组数据,列于表8.4.1中
表8.4.1 合金钢强度y与碳含量x的数据 序号 x(%) y (×107Pa) 1 0.10 42.0 7 0.16 49.0 2 0.11 43.0 8 0.17 53.0 3 0.12 45.0 9 0.18 50.0 4 0.13 10 0.20 55.0 5 0.14 11 0.21 6 0.15 47.5 12 0.23 60.0
为找出两个量 间存在的回归 函数的形式, 可以画一张图 :把每一对数 (xi,yi)看成直角 坐标系中的一 个点,在图上 画出n个点, 称这张图为散 点图,见图 8.4.1
从散点图我们发现12个点基本在一条直线附近,这说明两个变量之间有一个线性相关关系,这个相关关系可以表示为 y =0+ 1x+ (8.4.2) 这便是y关于x的一元线性回归的数据结构式。通常假定 E() =0, Var() = 2 (8.4.3) 在对未知参数作区间估计或假设检验时,还需要假定误差服从正态分布,即 y ~N(0+ 1x, 2 ) (8.4.4) 显然,假定(8.4.4) 比 (8.4.3) 要强。
由于 0, 1均未知,需要我们从收集到的数据(xi,yi),i=1,2,…,n,出发进行估计。在收集数据时,我们一般要求观察独立地进行, 即假定y1, y2,, yn,相互独立。综合上述诸项假定,我们可以给出最简单、常用的一元线性回归的数学模型: (8.4.5)
由数据(xi,yi),i=1,2,…,n,可以获得0, 1的估 计 ,称 (8.4.6) 为y关于x的经验回归函数,简称为回归方程, 其图形称为回归直线。给定x=x0后, 称 为回归值(在不同场合也称其 为拟合值、预测值)。
8.4.3 回归系数的最小二乘估计 一般采用最小二乘方法估计模型(8.4.5)中的0, 1 :令: 应该满足 8.4.3 回归系数的最小二乘估计 一般采用最小二乘方法估计模型(8.4.5)中的0, 1 :令: 应该满足 称这样得到的 称为0, 1的最小二乘估计,记为LSE。
最小二乘估计可以通过求偏导数并命其为0而得到: (8.4.7) 这组方程称为正规方程组,经过整理,可得 (8.4.8)
解(8.4.8)可得 (8.4.9) 这就是参数的最小二乘估计,其中
例8.4.2 使用例8.4.1种合金钢强度和碳含量 数据,我们可求得回归方程,见下表. 表8.4.2 例8.4.2的计算表 例8.4.2 使用例8.4.1种合金钢强度和碳含量 数据,我们可求得回归方程,见下表. 表8.4.2 例8.4.2的计算表 xi=1.90 n=12 yi=590.5 xi2=0.3194 xi yi =95.9250 yi2=29392.75 lxx=0.0186 lxy=2.4292 lyy=335.2292 由此给出回归方程为:
关于最小二乘估计的一些性质罗列在如下定理之中 定理8.4.1 在模型(8.4.5)下,有 (1) (2) (3)对给定的x0,
差)就要求n大,lxx大(即要求x1, x2,, xn较 分散)。 定理8.4.1 说明 分别是0, 1的无偏估计; 是E(y0)=0+ 1 x0的无偏估计; 除 外, 与 是相关的; 要提高 的估计精度(即降低它们的方 差)就要求n大,lxx大(即要求x1, x2,, xn较 分散)。
8.4.4 回归方程的显著性检验 在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。 8.4.4 回归方程的显著性检验 在使用回归方程作进一步的分析以前,首先应对回归方程是否有意义进行判断。 如果1=0,那么不管x如何变化,E(y)不随x的变化作线性变化,那么这时求得的一元线性回归方程就没有意义,称回归方程不显著。如果10,E(y)随x的变化作线性变化,称回归方程是显著的。 综上,对回归方程是否有意义作判断就是要作如下的显著性检验:H0:1=0 vs H1: 10 拒绝H0表示回归方程是显著的。
在一元线性回归中有三种等价的检验方法,下面分别加以介绍。 一、F 检验 采用方差分析的思想,我们从数据出发研究各yi不同的原因。 数据总的波动用总偏差平方和 表示。引起各yi不同的原因主要有两个因素:其一是H0可能不真,E(y)随x的变化而变化,从而在每一个x的观测值处的回归值不同,其波动用回归平方和 表示;其二是其它一切因素,包括随机误差、x对E(y)的非线性影响等,这可用残差平方和 表示。 且有如下平方和分解式: ST= SR + Se (8.4.13)
关于SR 和 Se所含有的成分可由如下定理说明。 定理8.4.2 设yi=i+ 1 xi + i,其中i n相互独立, 且Ei=0,Var(yi)= 2,i=1,,n,沿用上面的记号,有 (8.4.14) (8.4.15) 这说明 是 2的无偏估计。
进一步,有关SR 和 Se的分布,有如下定理。 定理8.4.3 设 y1, y2,, yn 相互独立,且 yi~N(i + 1 xi , 2), i=1, , n, 则在上述记号下,有 (1)Se / 2 ~ 2(n2), (2)若H0成立,则有SR / 2 ~ 2(1) (3) SR与Se , 独立(或 与Se , 独立)。
如同方差分析那样,我们可以考虑采用F比作为检验统计量: 在1 =0时,F~F(1, n2),其中fR =1, fe =n2. 对于给定的显著性水平,拒绝域为 F F1-(1, n2) 整个检验也可列成一张方差分析表。
例8.4.3 在合金钢强度的例8.4.2中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有 例8.4.3 在合金钢强度的例8.4.2中,我们已求出了回归方程,这里我们考虑关于回归方程的显著性检验。经计算有 来源 平方和 自由度 均方和 F比 回归 SR =317.2589 fA=1 MSA=317.2589 176.55 残差 Se =17.9703 fe=10 MSe= 1.79703 总和 ST =335.2292 fT=11 若取=0.01,则F0.99(1,10) =10<F,因此在显著性水平0.01下回归方程是显著的。
二、t 检验 对H0 : 1 =0的检验也可基于t分布进行。 由于 , 因此在H0为真时,有 ,其中 ,它可用来检验假设H0。对给定的显著性水平 ,拒绝域为 . 由于 ,称 为 的标准误,即 的标准差的估计。
注意到t2=F,因此,t检验与F检验是等同的。 以例8.4.2中数据为例,可以计算得到 若取 =0.01,则由于13.2872>3.1698,因此, 在显著性水平0.01下回归方程是显著的。
三、相关系数检验 一元线性回归方程是反映两个随机变量x与y间的线性相关关系,它的显著性检验还可通过对二维总体相关系数的检验进行。它的一对假设是 H0:=0 vs H1: 0 (8.4.18) 所用的检验统计量为样本相关系数 (8.4.19) 拒绝域为W={rc},其中临界值c应是H0: =0成 立下r的分布的1 分位数,故记为c=r1- (n2).
由样本相关系数的定义可以得到 r与F统计量之 间的关系 这表明, r是F的严格单调增函数,故可以从F 分布的1 分位数 F1-(1, n2) 得到 r 的1 分 位数为
譬如,对 =0.01,n=12, F0.99(1,10)=10.04 , 于是 。 为实际使用方便,人们已对r1- (n-2)编制了专门 的表,见附表9。 以例8.4.2中数据为例,可以计算得到 若取 =0.01,查附表9知 r0.99(10)=0.708, 由于 0.9728>0.708,因此,在显著性水平0.01下回归 方程是显著的。
在一元线性回归场合,三种检验方法是等价 的:在相同的显著性水平下,要么都拒绝原假设, 要么都接受原假设,不会产生矛盾。 F 检验可以很容易推广到多元回归分析场合,而其他二个则否,所以,F检验是最常用的关于回归方程显著性检验的检验方法。
当回归方程经过检验是显著的后,可用来做估计和预测。这是二个不同的问题: 8.4.5 估计与预测 当回归方程经过检验是显著的后,可用来做估计和预测。这是二个不同的问题: (1)当x=x0时,寻求均值E(y0)=0+ 1 x0的点估计与区间 估计(注意这里E(y0)是常量)是估计问题; (2)当x=x0时,y0的观察值在什么范围内?由于y0是随机 变量,为此只能求一个区间,使y0落在这一区间的概率为1- ,即要求,使 称区间 为y0的概率为1- 的预测区间, 这是预测问题。
一、 E(y0)的估计 在x=x0时,其对应的因变量y0是一个随机变量,有一个分布,我们经常需要对该分布的均值给出估计。由于E(y0)=0+ 1 x0,一个直观的估计应为 我们习惯上将上述估计记为 (注意这里 表 示的是E(y0)的估计,而不表示y0的估计,因为 y0是随机变量,它是没有估计的)。由于 分别是0, 1的无偏估计,因此, 也是E(y0) 的无偏估计。
为得到E(y0)的区间估计,我们需要知道 的分 布。由定理8.4.1, 又由定理8.4.3知, Se / 2 ~ 2(n-2),且与 相互独立,故
于是E(y0)的1 的置信区间(CI)是 (8.4.20) 其中 (8.4.21)
二、 y0的预测区间 实用中往往更关心x=x0时对应的因变量y0的取 值范围。 y0的最可能取值为 ,于是,我们可 以使用以 为中心的一个区间 作 为y0的取值范围。经推导, 的表达式为 (8.4.23) 上述预测区间(PI)与E(y0)的置信区间的差别就在于根号里多个1。
预测区间的长度2与样本量n、x的偏差平方和lxx、 x0 到 的距离 有关。 当 时,预测精度可能变得很差,在这种情况下的预测称作外推,需要特别小心。另外,若x1, x2,, xn较为集中时,那么lxx就较小,也会导致预测精度的降低。因此,在收集数据时要使x1, x2,, xn尽量分散,这对提高精度有利。 当n较大时(如n >30), t分布可以用正态分布近似,进一步,若x0与 相差不大时, 可以近似取为 。
例8.4.4 在例8.4.2中,如果x0=0.16,则得预测值为 若取 =0.05,则t0.975(10)=2.2281, 又 ,应用(8.4.21), 故x0=0.16对应因变量y0的均值E(y0)的0.95置信区间为(49.4328-1.0480, 49.4328+1.0480) =(48.3488, 50.5168)
应用(8.4.23), 从而y0的概率为0.95的预测区间为 E(y0)的0.95置信区间比y0的概率为0.95的预测区间窄很多,这是因为随机变量的均值相对于随机变量本身而言要更容易估计出来。
§8.5 一元非线性回归 例 8.5.1 炼钢厂出钢水时用的钢包,在使用过 程中由于钢水及炉渣对耐火材料的浸蚀,其容 积不断增大。现在钢包的容积用盛满钢水时的 重量y (kg)表示,相应的试验次数用x表示。数 据见表8.5.1,要找出y 与x的定量关系表达式。
表8.5.1 钢包的重量y与试验次数x数据 下面我们分三步进行。 序号 x y 1 2 106.42 8 11 110.59 3 108.20 9 14 110.60 4 109.58 10 15 110.90 5 109.50 16 110.76 7 110.00 12 18 111.00 6 109.93 13 19 111.20 110.49 下面我们分三步进行。
8.5.1 确定可能的函数形式 为对数据进行分析,首先描出数据的散点图,判断两个变量之间可能的函数关系,图8.5.1是本例的散点图。 8.5.1 确定可能的函数形式 为对数据进行分析,首先描出数据的散点图,判断两个变量之间可能的函数关系,图8.5.1是本例的散点图。 观测这13个点构成的散点图,我们可以看到它们并不接近一条直线,用曲线拟合这些点应该是更恰当的,这里就涉及如何选择曲线函数形式的问题。
首先,如果可由专业知识确定回归函数形式 ,则应尽可能利用专业知识。当若不能有专 业知识加以确定函数形式,则可将散点图与 一些常见的函数关系的图形进行比较,选择 几个可能的函数形式,然后使用统计方法在 这些函数形式之间进行比较,最后确定合适 的曲线回归方程。为此,必须了解常见的曲 线函数的图形,见图8.5.2 。
本例中,散点图呈现呈现一个明显的向上且上凸 的趋势,可能选择的函数关系有很多,比如,参 照图8.5.2,我们可以给出如下四个曲线函数: 1) 1/y=a+b/x 2) y=a+blnx 3) 4) 在初步选出可能的函数关系(即方程)后,我们必须解决两个问题:如何估计所选方程中的参数?如何评价所选不同方程的优劣?
8.5.2 参数估计 对上述非线性函数,参数估计最常用的方法是“ 线性化”方法。 8.5.2 参数估计 对上述非线性函数,参数估计最常用的方法是“ 线性化”方法。 以1/y=a+b/x为例,为了能采用一元线性回归分析方法,我们作如下变换u=1/x,v=1/y 则曲线函数就化为如下的直线v=bu 这是理论回归函数。对数据而言,回归方程为 vi=a+ bui + i 于是可用一元线性回归的方法估计出a,b。
表8.5.3 参数估计计算表
用类似的方法可以得出其它三个曲线回归方程, 它们分别是:
8.5.3 曲线回归方程的比较 我们上面得到了四个曲线回归方程,通常可采 用如下二个指标进行选择。 8.5.3 曲线回归方程的比较 我们上面得到了四个曲线回归方程,通常可采 用如下二个指标进行选择。 (1)决定系数R2:类似于一元线性回归方程中 相关系数,决定系数定义为: (8.5.5) R2越大,说明残差越小,回归曲线拟合越好, R2从总体上给出一个拟合好坏程度的度量。
(2)剩余标准差s:类似于一元线性回归中标准差 的估计公式,此剩余标准差可用残差平方和来获 得,即 (8.5.6) s为诸观测点yi与由曲线给出的拟合值 间的平均 偏离程度的度量,s越小,方程越好。
在观测数据给定后,不同的曲线选择不会影 响 的取值,但会影响到残差平方和 的取值。因此,对选择的曲线而言,决定系数 和剩余标准差都取决于残差平方和 , 从而,两种选择准则是一致的,只是从两个不 同侧面作出评价。
表8.5.4给出第一个曲线回归方程的残差平方和的计算过程, 由于n=13, , 故其决定系数及剩余标准差分别为: 其它三个方程的决定系数及剩余标准差可同样计算,我们将它们列在表8.5.5中。
表8.5.5 四种曲线回归的决定系数及剩余标准差 模型编号 1) 2) 3) 4) R2 0.9729 0.8773 0.7851 0.9623 s 0.2285 0.4864 0.6437 0.2696 从表8.5.5中可以看出,第一个曲线方程的决定系数最大,剩余标准差最小,在这四个曲线回归方程中,不论用哪个标准,都是第一个方程拟合得最好。因此,近似得比较好的定量关系式就是