第二章 一元线性回归模型.

Slides:



Advertisements
Similar presentations
第一章 、随机事件与概率 1.1 、随机事件 1.2 、随机事件的概率 1.3 、随机事件概率的计算 1.4 、伯努利概型.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
第六章 回归分析.
生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月.
第十章 相关与回归分析 PowerPoint 统计学.
回归分析法预测 (Regression Analysis)
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第三章 函数逼近 — 最佳平方逼近.
Introductory Econometrics for Finance 回归分析的基本概念
预测与决策分析 Forecasting and Decision Analysis
第二章 经典单方程计量经济学模型: 一元线性回归模型
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
田间试验和统计方法 第九章 直线回归与相关.
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
计量经济学 第三章 多元线性回归模型.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第15章 相关分析与回归分析 (续).
Applied Regression Analysis
Y = b0 + b1x + u ch2 简单二元回归 y = b0 + b1x + u 1.
简单回归模型 过原点回归 简单回归模型的定义 普通最小二乘法的推导 OLS的操作技巧 度量单位和函数形式 OLS估计量的期望值和方差
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
计量经济学 第三章 多元线性回归模型.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
第一章.
计量经济学 第三章 多元线性回归模型.
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
数学实验之 回归分析(1).
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第4章 多元线性回归分析.
第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断
回归分析.
多元回归分析:估计 y = b0 + b1x1 + b2x bkxk + u 计量经济学导论 刘愿.
第十章 方差分析.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
多元回归分析:异方差性 y = b0 + b1x1 + b2x bkxk + u 计量经济学导论 刘愿.
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从自然到社会,无一事物不处在与其他事物的联系之中
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第五章 异方差.
第二章 经典线性回归模型: 双变量线性回归模型
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第三章 两变量线性回归.
第四章 多元线性回归分析.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§2 方阵的特征值与特征向量.
第二节 简单线性回归模型的最小二乘估计 用样本去估计总体回归函数,总要使用特定的方法,而任何估 计参数的方法都需要有一定的前提条件——假定条件 一、简单线性回归的基本假定 为什么要作基本假定? ●只有具备一定的假定条件,所作出的估计才具有良好的统计性质。 ●模型中有随机扰动项,估计的参数是随机变量,显然参数估计值的分布与扰动项的分布有关,只有对随机扰动的分布作出假定,才能比较方便地确定所估计参数的分布性质,也才可能进行假设检验和区间估计等统计推断。
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
多元线性回归分析.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
3.1回归分析的基本思想及其初步应用(四) 高二数学 选修2-3 第三章 统计案例.
数学模型实验课(二) 最小二乘法与直线拟合.
3.3.2 两点间的距离 山东省临沂第一中学.
Presentation transcript:

第二章 一元线性回归模型

最小二乘法产生的历史 最小二乘法最早称为回归分析法。由著名的英国生物学家、统计学家道尔顿(F.Gallton)——达尔文的表弟所创。 早年,道尔顿致力于化学和遗传学领域的研究。 他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。

最小二乘法的地位与作用 现在回归分析法已远非道尔顿的本意 已经成为探索变量之间关系最重要的方法,用以找出变量之间关系的具体表现形式。 后来,回归分析法从其方法的数学原理——残差平方和最小(平方乃二乘也)出发,改称为最小二乘法。

父亲们的身高与儿子们的身高之间 关系的研究 1889年F.Gallton和他的朋友K.Pearson收集了上千个家庭的身高、臂长和腿长的记录 企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式 下图是根据1078个家庭的调查所作的散点图(略图)

儿子们身高向着平均身高“回归”,以保持种族的稳定 160 165 170 175 180 185 140 150 190 200 Y X 儿子们身高向着平均身高“回归”,以保持种族的稳定

“回归”一词的由来 从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下: 如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归”——见1889年F.Gallton的论文《普用回归定律》。 后人将此种方法普遍用于寻找变量之间的规律

主要内容 一元线性回归模型 模型参数估计(最小二乘法) 样本判定系数与拟合优度检验 回归参数估计值的显著性检验 模型整体的显著性检验 一元线性回归模型预测 参数估计 假设检验

一. 一元线性回归模型的概念 确定关系 (函数关系) Y=f(X) 相关关系 相关模型 (随机关系) 因果关系 回归模型 1.回归模型 (X的变化是Y的变化的原因)

随机项μ的构成 模型中省略的变量 随机因素 测量误差 确定数学模型形式的误差

Y = β0+β1X1+β2X2+β3X3+………+βiXi+μi 2.线性回归模型 模型的基本形式 Y = β0+β1X1+β2X2+β3X3+………+βiXi+μi 基本假设 解释变量 Xi 是确定性变量,不是随机变量;解释变量之间互不相关; 随机误差项具有0均值和同方差; 随机误差项不存在序列相关关系; 随机误差项与解释变量之间不相关; 随机误差项服从0均值、同方差的正态分布。

3.一元线形回归模型 3 Cov (μi,μJ)= 0 2 Var (μi) = σ2μ 4 Cov (Xi,μi)= 0 只含有一个解释变量的线形回归模型 满足基本假设: 1 E(μi)= 0 2 Var (μi) = σ2μ 3 Cov (μi,μJ)= 0 4 Cov (Xi,μi)= 0 i = 1,2,3,……,n ; j= 1,2,3,……,n i≠j 同方差 高斯-马尔柯夫假定 无序列自相关

异方差 Y Y X X

序列自相关 Y Y X X 负相关 正相关

协方差 Y Y pij是X和Y的联合概率 X X 协方差为正 协方差为负

二. 一元线性回归模型的参数估计 1.基本概念 总体回归模型 样本回归模型 样本回归线(函数)

总体回归线(函数)

(1)散点图 变量Y与变量X的散点图 Y X *

(2)回归线 Y X *

(3)估计量(Estimator) 一个估计量又称统计量,是指一个规则、公式或方法,是用已知的样本所提供的信息去估计总体参数。 统计量是样本的函数,因为抽样是随机的,估计量具有随机性 对一次已经实现的抽样,估计量又是确定的。 在应用中,由具体样本算出的估计量的数值称为估计值。

2.最小二乘法的思路(1) 为了精确地描述Y与X之间的关系,必须使用这两个变量的每一对观察值(n组观察值),才不至于以点概面(做到全面)。 最好指的是找一条直线使得所有这些点到该直线的纵向距离的和(平方和)最小。

最小二乘法的思路(2) y x 纵向距离 横向距离 距离 A为实际点,B为拟合直线上与之对应的点

最小二乘法的思路(3) 纵向距离是度量实际值与拟合值是否相符的有效手段 点到直线的距离——点到直线的垂直线的长度。 横向距离——点沿(平行)X轴方向到直线的距离。 纵向距离——点沿(平行)Y轴方向到直线的距离。也就是实际观察点的Y坐标减去根据直线方程计算出来的Y的拟合值。 实际值-拟合值=残差(剩余)

最小二乘法的思路(4) 纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以称为残差、拟合误差或剩余。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。拟合直线在总体上最接近实际观测点。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小的问题。

数学形式 Y X * △ Y7 Y9 Min

最小二乘法的数学原理 纵向距离是Y的实际值与拟合值之差,差异大拟合不好,差异小拟合好,所以又称为拟合误差或残差。 将所有纵向距离平方后相加,即得误差平方和,“最好”直线就是使误差平方和最小的直线。 于是可以运用求极值的原理,将求最好拟合直线问题转换为求误差平方和最小。

数学推证过程

最小二乘估计量

最小二乘估计量的简化形式 中心矩形式、离差形式

统计学补充知识 总体矩 (1)总体k阶原点矩为 (2)总体k阶中心矩为

统计学补充知识 样本矩 (1)样本k阶原点矩为 (2)样本k阶中心矩为

统计学补充知识 矩估计法 (1)要点就是用样本矩代替总体矩来估计总体的参数! (2)在求各阶矩时,求原点矩或求中心矩都可以,当然,对每一阶而言,二者只能选其一。

注意几个概念的区别 误差:即随机项 残差:观测值减去拟合值,是误差的估计值 离差:样本观测值减去样本平均值 (以后我们都用小写字母表示离差)

3.回归直线的性质(数值性质) 自变量与残差不相关 拟合值与残差不相关 残差和=0 平均值相等 注:此处的小写字母不是表示离差,而就是原值,其后4张幻灯片都是一样的意思,但以后我们常见的还是用小写字母表示离差。

1.估计残差和为零 (Residuals Sum to zero) 由第26张幻灯片的(1)式直接得此结论无须再证明。并推出残差的平均数也等于零。

2.Y的真实值和拟合值有共同的均值 (The actual and fitted values of yi have the same mean)

3.估计残差与自变量不相关(Residuals are unrelated with independent variable)

4.估计残差与拟合值不相关(Residuals are unrelated with fitted value of yi)

数值性质与统计性质 OLS得到的数值性质是指由于运用普通最小二乘法而得以成立的那些性质,而不管数据是怎样产生的。 OLS得到的统计性质是指仅在数据产生的方式满足一定的假设下才得以成立的性质。(课本P99---100共有基本的四个假设)

4.最小二乘估计量的统计性质 线性 无偏性 有效性(最小方差性)

(1)线性 参数估计量 , 是Yi的一个线性函数 参数估计量是一个随机变量,采用不同的参数估计方法,会构造出不同的参数估计量 参数估计值是采用样本数据计算的具体数值,不同样本会得出不同的参数估计值

(2)无偏性 指参数估计量的均值等于总体模型参数值,即

(3)有效性(最小方差性)P105 指在所有线性、无偏估计量中,该参数估计量方差最小

有效性(最小方差) OLS参数估计量的有效性指的是:在一切线性、无偏估计量中,OLS参数估计量的方差最小。 所有参数估计量 最小二乘 线性参数估计量 无偏参数估计量 最小二乘 参数估计量

高斯-马尔柯夫定理 如果满足古典线性回归模型的基本假定,则在所有无偏估计量中,最小二乘估计(OLS)量具有最小方差性,即是最优线性无偏估计量(合称BLUE性质) (Best Linear Unbiased Estimator)

对于高斯-马尔柯夫定理的补充材料 以下9个幻灯片的内容作为补充,有兴趣的同学可以参考,不要求掌握!

1、线性:参数估计量是Yi的线性函数

2、无偏性:参数估计量 的均值(期望)等于模型参数值。即 2、无偏性:参数估计量 的均值(期望)等于模型参数值。即

2、无偏性:

3、有效性:在所有线性、无偏估计量中,最小二乘估计量具有最小方差。

证明最小方差性

4、结论 普通最小二乘估计量具有线性性、无偏性、最小方差性等优良性质。 具有这些优良性质的估计量又称为最佳线性无偏估计量,即BLUE估计量(the Best Linear Unbiased Estimators)。 显然这些优良的性质依赖于对模型的基本假设。

三. 样本判定系数与拟合优度检验 拟合优度评价 由最小二乘法得出的直线能够反映这些点之间的关系吗? 对这些点之间的关系或趋势反映到了何种程度? 于是必须经过某种检验或者找出一个指标,在一定可靠程度下,根据指标值的大小,对拟合的优度进行评价。

总离差平方和的分解 Y X * △ Y9

总离差平方和的分解 由回归方程解释的部分,表示解释变量X对Y的线性影响 残差项,表示回归方程不能解释的部分 总离差平方和(TSS) 回归平方和(ESS) 残差平方和(RSS)

总离差平方和的分解

平方和分解的意义 TSS=ESS+RSS 被解释变量Y总的变动(差异)= 解释变量X引起的变动(差异) + 除X以外的因素引起的变动(差异) 如果X引起的变动在Y的总变动中占很大比例,那么X很好地解释了Y;否则,X不能很好地解释Y。