Download presentation
Presentation is loading. Please wait.
1
从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从自然到社会,无一事物不处在与其他事物的联系之中
从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从自然到社会,无一事物不处在与其他事物的联系之中.事物之间不仅存在着相互联系,而且还具有一定的内部规律.
2
让我们来看一下有联系的变量之间的关系: 例如, 矩形的面积S和矩形的两条边长a和b有关系: S=a.b a b S 又如著名的欧姆定律指出, 电压V、电阻R与电流I之间有关系: V=I. R
3
以上两例的共同点在于,三个量中任意两个已知,其余一个就可以完全确定. 也就是说,变量之间存在着确定性的关系,并且可以用数学表达式来表示这种关系.
然而,在大量的实际问题中,变量之间虽有某种关系,但这种关系很难找到一种精确的表示方法来描述.
4
例如,人的身高与体重之间有一定的关系,知道一个人的身高可以大致估计出他的体重,但并不能算出体重的精确值.
其原因在于人有较大的个体差异, 因而身高和体重的关系, 是既密切但又不能完全确定的函数关系.
5
类似的变量间的关系在大自然和社会中屡见不鲜.
例如,小麦的穗长与穗重的关系;某班学生最后一次考试分数与第一次考试分数的关系;温度、降雨量与农作物产量间的关系;人的年龄与血压的关系;最大积雪深度与灌溉面积间的关系;家庭收入与支出的关系等等.
6
这种大量存在的变量间既互相联系但又不是完全确定的关系,称为相关关系.
从数量的角度去研究这种关系,是数理统计的一个任务. 这包括通过观察和试验数据去判断变量之间有无关系,对其关系大小作出数量上的估计,对互有关系的变量通过其一去推断和预测其它,等等. 回归分析就是研究相关关系的一种重要的数理统计方法.
7
他发现: 虽然高个子的先代会有高个子的后代, 但后代的增高并不与先代的增高等量. 他称这一现象为“向平常高度的回归”.
回归这一术语是1886年英国生物学家高尔顿在研究遗传现象时引进的. 他发现: 虽然高个子的先代会有高个子的后代, 但后代的增高并不与先代的增高等量. 他称这一现象为“向平常高度的回归”.
8
尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据:
分析出儿子的身高y和父亲的身高x大致为如下关系: y=0.516x (英寸)
9
这意味着, 若父亲身高超过父亲平均身高6英寸, 那么其儿子的身高大约只超过儿子平均身高3英寸, 可见有向平均值返回的趋势.
诚然, 如今对回归这一概念的理解并不是高尔顿的原意, 但这一名词却一直沿用下来, 成为统计学中最常用的概念之一.
10
在回归分析中, 当变量只有两个时, 称为一元回归分析; 当变量在两个以上时, 称为多元回归分析
在回归分析中, 当变量只有两个时, 称为一元回归分析; 当变量在两个以上时, 称为多元回归分析. 变量间成线性关系, 称线性回归,变量间不具有线性关系, 称非线性回归. 一元回归 多元回归 线性 非线性
11
在这一讲里, 我们主要讨论的是一元线性回归. 它是处理两个变量之间关系的最简单的模型
在这一讲里, 我们主要讨论的是一元线性回归. 它是处理两个变量之间关系的最简单的模型. 它虽然比较简单, 但我们从中可以了解到回归分析的基本思想、方法和应用. 一元线性回归 一元线性回归 一元线性回归
12
设随机变量y与变量x之间存在着某种相关关系, 其中x是能够控制或可以精确测量的变量.
灌溉面积 产量 血压 体重 … 年龄 身高 施肥量 积雪深度 x … 为了今后研究方便, 我们把x当作普通变量, 而不把它看作随机变量.
13
对于x的一组不完全相同的值x1, x2,…,xn作独立观察, 得到随机变量y相应的观察值y1,y2, …,yn, 构成n对数据
对于x的一组不完全相同的值x1, x2,…,xn作独立观察, 得到随机变量y相应的观察值y1,y2, …,yn, 构成n对数据. 用这n对数据可作出一个散点图, 直观地描述一下两变量之间的关系. y x o ··
14
这里有三幅散点图. y x o ·· (1) o y x (2) y x o (3)
15
根据散点图, 考虑以下几个问题: (1)两变量之间的关系是否密切, 或者说我 们能否由x来估计y. (2)两变量之间的关系是呈一条直线还是呈某种曲线. (3)是否存在某个点偏离过大. (4)是否存在其它规律.
16
考虑采用线性方程拟合 以下重点讨论前者 采用非线性方程拟合
y x o ·· (1) o y x (2) y x o (3) 以下重点讨论前者 采用非线性方程拟合
17
一元线性回归 让我们用一个例子来说明如何建立一元线性回归方程. 为了估计山上积雪融化后对下游灌溉的影响, 在山上建立了一个观测站, 测量了最大积雪深度x与当年灌溉面积 y, 得到连续10年的数据如下表:
18
年序 最大积雪深度x(米) 灌溉面积y(公顷)
19
为了研究这些数据中所蕴含的规律性, 我们由10对数据作出散点图.
为了研究这些数据中所蕴含的规律性, 我们由10对数据作出散点图. y x o 4000 3000 2000 1000 从图看到, 数据点大致落在一条直线附近, 这告诉我们变量x和y之间大致可看作线性关系. 从图中还看到, 这些点又不完全在一条直线上, 这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.
20
事实上, 还有许多其它因素对y产生影响,如当年的平均气温、当年的降雨量等等, 都是影响y取什么值的随机因素.
21
如果我们只研究x和y的关系, 可以假定有如下结构式:
y =a+bx+ε 其中a和b是未知常数, 称回归系数, ε表示其它随机因素对灌溉面积的影响. 实际中常假定ε服从正态分布N(0,σ2), 即 未知
22
该式表示当x已知时,可以精确地算出E(y).
通常称 y=a+bx+ε, ε ~N(0, ) (1) 为一元线性回归模型. 由(1)式, 我们不难算得y的数学期望: E(y)=a+bx 该式表示当x已知时,可以精确地算出E(y). 由于ε是不可控制的随机因素,通常就用E(y)作为y的估计, 记作 这样我们得到 (2) 称此方程为y关于x的回归方程 .
23
现对模型(1)中的变量x , y进行了n次独立观察, 得样本
y=a+bx+ε, ε ~N(0, ) (1) 现对模型(1)中的变量x , y进行了n次独立观察, 得样本 (x1,y1),…,(xn,yn) (3) 据(1)式, 此样本的构造可由方程 , i=1,2, …,n (4) 这里 是第i次观察时随机误差所取的值,它是不能观察的. 来描述.
24
, i=1,2, …,n (4) 由于各次观察独立,有 i=1,2, …,n (5) (4)式和(5)式结合,给出了样本(x1,y1),…,(xn,yn) 的概率性质. 它是对理论模型进行统计分析推断的依据. 也常称(4)+(5)为一元线性回归模型.
25
由于此方程的建立有赖于通过观察或试验积累的数据, 所以有时又称其为经验回归方程或经验公式.
回归分析的任务是利用n组独立观察数据(x1,y1),…,(xn,yn)来估计a和b, 以估计值 和 分别代替(2)式中的a和b, 得回归方程 (6) 由于此方程的建立有赖于通过观察或试验积累的数据, 所以有时又称其为经验回归方程或经验公式. 那么要问,如何利用n组独立观察数据来估计a和b?
26
1.用最小二乘法估计a,b 首先举例说明最小二乘法的思想: 假设为估计某物体的重量, 对它进行了n次称量, 因称量有误差, 故n次称量结果x1, x2,…,xn有差异, 现在用数 去估计物重, 则它与上述n次称量结果的偏差的平方和是:
27
最小二乘法认为, 一个好的估计 , 应使这个平方和尽可能地小.
于是就提出了下面的估计原则: 寻找 ,使上述平方和达到最小,以这个 作为物重的估计值, 这就是最小二乘法. 用这种方法作出的估计叫最小二乘估计.
28
现在的情况是, 对(x,y)作了n次观察或试验, 得到n对数据, 我们想找一条直线 ,尽可能好地拟合这些数据.
由回归方程, 当x取值xi时, 应取值a+bxi , 而实际观察到的为 yi , 这样就形成了偏差 y x
29
依照最小二乘法的思想,提出目标量Q (7) y x 它是所有实测值yi与回归值 的偏差平方和.
30
我们可设法求出a , b的估计值 , ,使偏差平方和Q达到最小.
(7) 我们可设法求出a , b的估计值 , ,使偏差平方和Q达到最小. y x
31
我们可设法求出a , b的估计值 , ,使偏差平方和Q达到最小.
(7) 我们可设法求出a , b的估计值 , ,使偏差平方和Q达到最小. y x 由此得到的回归直线 是在所有直线中偏差平方和Q最小的一条.
32
通常可采用微积分中求极值的办法, 求出使Q达到最小的 , .
(7) 通常可采用微积分中求极值的办法, 求出使Q达到最小的 , . 即解方程: (8) 得 其中
33
从而得到回归方程 按照上述准则,我们可求出前面例子中灌溉面积y对最大积雪深度x的回归方程是: 可以看出, 最大积雪深度每增加一个单位, 灌溉面积平均增加364个单位.
34
可以证明,我们用最小二乘法求出的估计 分别是 a, b 的无偏估计, 它们都是 y1,y2, …,yn的线性函数,而且在所有y1, y2 , …,yn的线性函数中, 最小二乘估计的方差最小.
35
因此在获得这样的回归方程后,通常要问这样的问题:
求出回归方程,问题尚未结束, 由于 是从观察得到的回归方程,它会随观察结果的不同改变,并且它只反映了由x的变化引起的y的变化,而没有包含误差项 . 因此在获得这样的回归方程后,通常要问这样的问题: (1)回归方程是否有意义? 即自变量x的变化是否真的对因变量y有影响? 因此,有必要对回归效果作出检验.
36
(1)回归方程是否有意义? 即自变量x的变化是否真的对因变量y有影响? 因此,有必要对回归效果作出检验.
下面我们来讨论这两个问题.
37
都可以用最小二乘法形式上求得 y 对 x的回归方程, 如果y 与x 没有线性相关关系, 这种形式的回归方程就没有意义 .
2.回归方程的显著性检验 对任意两个变量的一组观察 (xi, yi), i=1, 2, …, n 都可以用最小二乘法形式上求得 y 对 x的回归方程, 如果y 与x 没有线性相关关系, 这种形式的回归方程就没有意义 . 因此需要考察 y 与 x 间是否确有线性相关关系, 这就是回归效果的检验问题.
38
我们注意到 只反映了x对y的影响,所以回归值 就是yi中只受xi影响的那一部分, 而 则是除去 xi的影响后, 受其它种种因素影响的部分, 故将 称为残差.
39
于是观测值yi可以分解为两部分 和 , 并且 也可分解为两部分. 因此, y1, y2, …, yn 的总变差为 : (9)
40
可以证明 (10) 即 可以分解为两部分: 回归平方和 与残差平方和
41
(10) 反映了由于自变量x的变化引起的因变量 y 的差异,体现了x对y的影响; 而 反映了种种其它因素对y的影响, 这些因素没有反映在自变量中, 它们可作为随机因素看待.
42
可见, / 为x 的影响部分与随机因素影响部分的相对比值.
它的作用和随机因素的作用相当, 于是由数据得到的回归方程就没有什么意义.
43
可见, / 为x 的影响部分与随机因素影响部分的相对比值.
通常我们可假设y和x没有线性相关关系,对回归方程是否有意义进行显著性检验.
44
可以证明: 的关系式中b=0时, 有 当 (11) ~F(1,n-2) (12) 因此用 来检验b的绝对值是否显著大于0 (或者说检验回归方程 是否有意义).
45
给定显著性水平, 通过查F分布分位数表, 求出否定域, 便可判断回归方程是否有意义.
由上面的讨论可知, 要问回归方程是否有意义, 就是要检验假设 H0: b=0; H1: b≠0 使用的检验统计量为: ~F(1,n-2) 拒绝域为:
46
我们可以用更简单的公式计算回归平方和 与残差平方和 :
(13) (14)
47
现在对例中建立的回归方程进行检验,可计算得:
= =355.5 对α=0.01, 由F表查得 =11.26, 由于F> , 故回归方程有意义.
48
当检验认为回归方程确有意义. 则可用来进行予测或控制, 这也是建立回归方程的重要目的.
49
3.预测 对给定的x值,由回归方程 就可得 的值. 例如, 由灌溉面积y对最大积雪深度x的回归方程 当已知最大积雪深度为9.2米时, 就可以预测灌溉面积: = ×9.2=3489(公顷).
50
实际的y与预测的 不一定相等,重要的是它们的偏差有多大.
通常可假定 通过对σ的估计, 就知道 的取值范围. 已知有 即 所以
51
根据建立回归方程时算得的 ,可以算得 . 于是可以用 去估计标准差,记它为 , 即 (15) 用3倍标准差准则, 就有 (16) (17) 这样估计y的值落在区间[ ]内或[ ]内, 相应的概率分别为0.99和0.95.
52
可见, 利用回归方程 预测y, 可归结为,对给定的x,以一定的置信水平预测对应的y的观察值的取值范围,即所谓预测区间.
比如, 某一年测得最大积雪深度为9.2米, 根据 以99%的置信水平预测灌溉面积在3199公顷与3779公顷之间.
53
上面的方法中,由于 是估计值,上面两式只是近似式,在一些要求不高的问题中,这是可行的.
如要求出更为精确的值,可进一步查阅回归分析的书.
54
这一讲,我们介绍了一元线性回归. 通过一个例子说明如何建立一元线性回归方程. 介绍了有广泛应用的最小二乘法.
在建立回归方程后,需要对回归方程是否确有意义进行检验. 当检验认为回归方程确有意义. 则可用来进行予测或控制.
55
在有些情况下,可以进行适当的变量代换,把它线性化,这样就把一个非线性回归问题化为线性回归问题而得以解决.
在许多实际问题中,两个变量之间并不一定是线性关系,而是某种曲线关系,应该用曲线来拟合. 在有些情况下,可以进行适当的变量代换,把它线性化,这样就把一个非线性回归问题化为线性回归问题而得以解决. 请看演示 非线性回归问题
Similar presentations