概率统计主讲教师叶宏山东大学数学院.

概率统计主讲教师叶宏山东大学数学院

回归分析是描述数据处理方法的一门应用学科，是统计学者常用的工具，本章对回归分析的基础知识和应用作简单介绍。
第7章回归分析和方差分析回归分析是描述数据处理方法的一门应用学科，是统计学者常用的工具，本章对回归分析的基础知识和应用作简单介绍。

7.1 一元线性回归变量之间的关系大致可分为两大类: 1.确定性的关系:可以用精确的函数关系来表达。例如矩形面积S与边长a,b的关系。
7.1 一元线性回归变量之间的关系大致可分为两大类: 1.确定性的关系:可以用精确的函数关系来表达。例如矩形面积S与边长a,b的关系。 2.非确定性的关系:变量之间既互相联系但又不是完全确定的关系，称为相关关系。例如人的身高与体重、农作物产量与降雨量等的关系。

从数量的角度去研究这种非确定性的关系，是数理统计的一个任务
从数量的角度去研究这种非确定性的关系，是数理统计的一个任务. 包括通过观察和试验数据去判断变量之间有无关系，对其关系大小作数量上的估计、推断和预测,等等. 回归分析就是研究相关关系的一种重要的数理统计方法.

一、一元正态线性回归模型只有两个变量的回归分析, 称为一元回归分析; 超过两个变量时称为多元回归分析. 变量之间成线性关系时, 称为线性回归, 变量间不具有线性关系时, 称为非线性回归.

设随机变量Y，对于x的每一个值, Y 均有自己的分布
设随机变量Y，对于x的每一个值, Y 均有自己的分布 .若EY 存在，则它一定是x的函数，记为 u(x)，其值可通过样本进行估计，对于x的一组值xi (i=1,…,n)，作独立试验，对Y 得出n个观测结果yi (i=1,…,n) ，即有n次独立观察, 得样本观测值： (x1,y1) , (x2,y2) ,… , (xn,yn) 我们要解决的问题是:如何利用这些样本观测值来估计u(x).当然，首先要推测其形式，一般可以作出散点图，从中可粗略看出 y与x的关系.

y = a + b x +ε 若y和x之间大体上呈现线性关系, 可假定其中a 和 b是未知常数, ε表示其它随机因素的影响.
通常假定ε服从正态分布N(0,σ2), 即其中为未知参数.

称（2）为 y 关于 x 的一元线性回归方程 . 称 y = a + b x +ε, ε ～N(0,σ2 ) (1) 为一元线性回归模型.
由(1)得 E(y)=a+bx 用E(y)作为y 的估计得称（2）为 y 关于 x 的一元线性回归方程 .

(x1,y1) ,… , (xn,yn) （3）模型(1)中的变量x , y进行n次独立观察, 得样本观测值：由此样本得方程组：
这里εi 是第 i 次观察时的随机误差，它是不可观察的随机变量.

由于各次观察独立，故有 (4)式和(5)式结合，给出了样本(x1,y1),…,(xn,yn) 的概率性质. 它是对理论模型进行统计分析推断的依据. 也常称(4)+(5)为一元线性回归模型.即

由于方程(6)的建立依赖于通过观察或试验取得的数据, 故又称其为经验回归方程或经验公式.
回归分析的任务是利用n组独立观察数据(x1,y1),…,(xn,yn)来估计a和b, 以估计值和分别代替(2)式中的a和b, 得回归方程由于方程(6)的建立依赖于通过观察或试验取得的数据, 故又称其为经验回归方程或经验公式. 称为未知参数 a,b 的回归系数. 问题：如何利用n组独立观察数据来估计a和b？

二、最小二乘法估计首先举例说明最小二乘法的思想：假设为了估计某物体的重量, 对它进行了n次称量, 因称量有误差, 故n次称量结果x1, x2,…,xn有差异, 现在用数去估计该物体的重量, 则它与上述n次称量结果的偏差的平方和为:

寻找一个使上述平方和达到最小的，作为这个物体重量的估计值, 这种方法称为最小二乘法.
最小二乘法认为, 一个好的估计 , 应使这个平方和尽可能地小. 估计原则: 寻找一个使上述平方和达到最小的，作为这个物体重量的估计值, 这种方法称为最小二乘法. 用这种方法作出的估计叫最小二乘估计.

对(x,y)作n次观察(试验),得到n对数据,要求找一条直线 ,尽可能好地拟合这些数据.
由回归方程,当x取值xi时, 应取值a+bxi , 而实际观察到的为yi ,这样就形成了偏差

依照最小二乘法的思想，提出目标量Q(a,b)
(7) 它是所有实测值yi与回归值的偏差平方和.

设法求出a , b的估计值 , ,使偏差平方和 Q(a,b)达到最小. y x

由此得到的回归直线是在所有直线中偏差平方和Q(a,b)最小的一条直线.
y x

通常可采用微积分中求极值的办法, 求出使Q(a,b)达到最小的 , .
令：

得称上式为正规方程组.

由于改写正规方程组得

因为xi 不全相同，故系数行列式不为0，即由此解得方程组有唯一解

(8) 其中

也可用下面的等价式子: 其中

可以证明,用最小二乘法求出的估计分别是 a, b 的无偏估计, 即它们都是 y1,y2, …,yn的线性函数,而且在所有y1, y2 , …,yn的线性函数中, 最小二乘估计的方差最小.

由于是从观察值得到的回归方程，它会随观察结果的不同而改变，并且它只反映了由 x 的变化引起的 y 的变化，并没有包含误差项
(1) 的点估计是什么? (2) 回归方程是否有意义? 即自变量 x 的变化是否真的对因变量 y 有影响? 因此有必要对回归效果作出检验. (3) 如果方程真有意义，用它预测 y 时，预测值与真值的偏差能否估计？下面讨论这这些问题。

三、的点估计称为 xi 处的残差称为残差平方和.

反映了除 x 外其它因素对 y 的影响, 这些因素没有反映在自变量x中, 它们可作为随机因素看待.
可以证明因此

是的无偏估计.

四.线性假设的显著性检验(T 检验法) 检验问题

成立时取检验统计量

给定显著性水平的拒绝域为

这里第三项为0，第二项为残差平方和，第一项为回归平方和.
五.线性回归的方差分析(F 检验法) 平方和分解公式这里第三项为0，第二项为残差平方和，第一项为回归平方和.

对检验问题设显著性水平取检验统计量则拒绝域

六.利用回归方程进行预报(预测) 1.点预报对给定的 x = x0 ,利用回归方程可以作出Y的点预报值

2.区间预报设 x = x0 时,Y 的观测值 y0 点预报值易证

概率统计主讲教师叶宏山东大学数学院.

Similar presentations

Presentation on theme: "概率统计主讲教师叶宏山东大学数学院."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

概 率 统 计 主讲教师 叶宏 山东大学数学院.

Similar presentations

Presentation on theme: "概 率 统 计 主讲教师 叶宏 山东大学数学院."— Presentation transcript:

Similar presentations

About project

反馈

概率统计主讲教师叶宏山东大学数学院.

Presentation on theme: "概率统计主讲教师叶宏山东大学数学院."— Presentation transcript: