第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断 第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断 §2.4 :一元线性模型的统计检验 §2.5 :一元线性模型的预测 2018/12/9 朱 晋
§2.1 :回归分析及回归模型 一、变量间的关系及回归分析的基本概念 二、总体回归函数 三、随机扰动项 和总体回归模型的基本假设 四、样本回归函数
“回归” 一词的历史渊源 “回归”一词最早由Francis Galton引入。 Galton发现,虽然父母的身高对子女的身高起到决定性作用,但给定父母的身高后,他们儿女辈的平均身高却趋向于或者“回归”到社会平均水平。Galton的普遍回归定律(law of universal regression)。 Galton的朋友Karl Pearson通过收集一些家庭的1000多名成员的父子身高数据,证明儿子确实“回归到中等(regression to mediocrity)” 2018/12/9 朱 晋
确定性关系或函数关系:研究的是确定现象非随机变量间的关系。 2.1.1、变量间的关系 △ 经济变量之间的关系,大体可分为两类: 确定性关系或函数关系:研究的是确定现象非随机变量间的关系。 统计依赖或相关关系:研究的是非确定现象随机变量间的关系。 2018/12/9 朱 晋
△对变量间统计依赖关系的考察主要是通过相关分析(correlation analysis)或回归分析(regression analysis)来完成的: 2018/12/9 朱 晋
不线性相关并不意味着不相关; △几点注意 有相关关系并不意味着一定有因果关系; 相关分析研究一个变量对另一个(些)变量的统计依赖关系,但它们并不意味着一定有因果关系; 相关分析对称地对待任何(两个)变量,两个变量都被看作是随机的。回归分析对变量的处理方法存在不对称性,即区分应变量(被解释变量)和自变量(解释变量):前者是随机变量,后者不是。 2018/12/9 朱 晋
回归分析是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。 2.1.2、回归分析的基本概念 回归分析是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。 这里前一个变量被称为被解释变量(Explained Variable)或应变量(Dependent Variable),后一个(些)变量被称为解释变量(Explanatory Variable)或自变量(Independent Variable)。 2018/12/9 朱 晋
回归分析通过样本数据讨论解释变量与被解释变量之间因果关系的数学联系式,即有总体回归模型: 利用样本观察值找出参数 和 的估计值,得到样本回归模型: 检验估计值的性质,并利用样本回归模型分析被解释变量的总体平均规律。 2018/12/9 朱 晋
由于变量间关系的随机性,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。 2018/12/9 朱 晋
回归分析构成计量经济学的方法论基础,其主要内容包括: (1)根据样本观察值对计量经济模型参数进行估计,求得回归方程; (2)对回归方程、参数估计值进行检验; (3)利用回归方程进行分析、评价及预测。 2018/12/9 朱 晋
2.1.2 总体回归函数(PRF) ⒈例子 例2.1:一个假想的社区有60户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。 即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。 为达到此目的,将该60户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出(表2.1)。 2018/12/9 朱 晋
2018/12/9 朱 晋
⒉ 分析 由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同; 但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的,如: P(Y=550|X=800)=1/5。 因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional expectation): 该例中:E(Y | X=800)=650 2018/12/9 朱 晋
从散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。 X 2018/12/9 朱 晋
Y 2018/12/9 朱 晋
⒊ 概念 y 总体回归模型的均值概念 总体回归函数 · 样本回归函数 · · · · 2018/12/9 朱 晋
回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。 函数形式可以是线性或非线性的。 2018/12/9 朱 晋
2.1.3 随机扰动(误差)项 ⒈随机扰动项的引入 总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平。 (2.1.2) 2.1.3 随机扰动(误差)项 ⒈随机扰动项的引入 总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平。 但对某一个别的家庭,其消费支出可能与该平均水平有偏差。记 (2.1.2) 称 为观察值 围绕它的期望值 的离差(deviation),它是一不可测度的随机量,所以也称随机扰动项(stochastic disturbance),或随机误差项( stochastic error) 2018/12/9 朱 晋
由(2.1.2)式,个别家庭的消费支出为: (2.1.3) (2.1.3)称为总体回归模型。 2018/12/9 朱 晋
2、随机误差项 产生的原因: 1)理论的含糊性; 2)数据的欠缺; 3)节省原则 随机误差项主要包括下列因素的影响: 2、随机误差项 产生的原因: 1)理论的含糊性; 2)数据的欠缺; 3)节省原则 随机误差项主要包括下列因素的影响: (1)在解释变量中被忽略的因素的影响; (2)变量观测值的观测误差的影响; (3)模型关系的设定误差的影响; (4)其他随机因素的影响。 2018/12/9 朱 晋
3、随机误差项在不同样本点之间是独立的,不存在序列相关。即 4、随机误差项与解释变量之间不相关。即 3、总体线性回归模型(2.1.3)的基本假设有: 1、随机误差项的均值为零 2、随机误差项各分量的方差相等(等方差) 3、随机误差项在不同样本点之间是独立的,不存在序列相关。即 4、随机误差项与解释变量之间不相关。即 5、解释变量x为确定性变量(非随机变量)。 6、随机误差项服从正态分布。 ~ 2018/12/9 朱 晋
yi,ui为随机变量,xi为确定性变量, yi和xi有样本值, 是待估参数。 在总体回归模型: 中 yi,ui为随机变量,xi为确定性变量, yi和xi有样本值, 是待估参数。 ui服从正态分布: yi服从正态分布。 2018/12/9 朱 晋
2.1.4、样本回归函数(SRF) 2018/12/9 朱 晋
⒈问题的提出 由于总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一组样本。 问题是能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息? 例2.2:在例2.1的总体中有如下一个样本,问:能否从该样本估计总体回归函数PRF? 2018/12/9 朱 晋
该样本的散点图(scatter diagram): 样本散点图近似于一条直线,画一条直线以尽可能好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线(sample regression lines),其函数形式记为: 2018/12/9 朱 晋
注意:这里 将(2.1.4)看成(2.1.1)的近似替代。 2018/12/9 朱 晋
⒉ 样本回归函数的随机形式/样本回归模型 由于方程中引入了随机项,成为计量经济模型,因 此也称为样本回归模型。 2018/12/9 朱 晋
⒊ 回归分析的主要目的 根据样本回归函数SRF,估计总体回归函数PRF。 2018/12/9 朱 晋
2018/12/9 朱 晋
§2.2 :一元线性模型的参数估计
2.2普通最小二乘法(OLS) 2018/12/9 朱 晋
OLS回归函数 的特征 1、样本均值 落在回归直线上; 2、y的理论估计值 的均值即为 ; 3、残差一阶和为0: 4、残差与解释变量不相关: 1、样本均值 落在回归直线上; 2、y的理论估计值 的均值即为 ; 3、残差一阶和为0: 4、残差与解释变量不相关: 5、残差与y的理论预测值亦不相关: 2018/12/9 朱 晋
§2.3 参数估计值的性质及统计推断 高斯—马尔可夫定理 OLS下的统计推断 2018/12/9 朱 晋
当模型参数估计完成,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。 一个用于考察总体的统计量,可从三个方面考察其优劣性: (1)线性性(linear):即是否是另一随机变量的线性函数; (2)无偏性(unbiased):即它的均值或期望值是否等于总体的真实值; (3)有效性(efficient):即它是否在所有线性无偏估计量中具有最小方差。 2018/12/9 朱 晋
2.3.1 高斯—马尔可夫定理 若一元线性模型满足计量经济基本假设,则参数的最小二乘估计是最小方差的线性无偏估计。(BLUE) 2.3.1 高斯—马尔可夫定理 若一元线性模型满足计量经济基本假设,则参数的最小二乘估计是最小方差的线性无偏估计。(BLUE) 高斯—马尔可夫定理的初步证明 回顾:点估计的三个性质---无偏性、有效性和一致性。 (注:参数估计有点估计和区间估计两类) 2018/12/9 朱 晋
有效性的图形表示: 2018/12/9 朱 晋
2.3.2 OLS下的统计推断 2018/12/9 朱 晋
2、参数估计值的总体方差 2018/12/9 朱 晋
3、随机误差变量 的方差估计值 4、参数估计量的样本方差 标准差为方差的平方根,Eviews的结果一般用标准差表示。 2018/12/9 3、随机误差变量 的方差估计值 4、参数估计量的样本方差 标准差为方差的平方根,Eviews的结果一般用标准差表示。 2018/12/9 朱 晋
第二周作业: 一、书p61-62:2.1(1)\(3),2.2 二、证明OLS特征: 3、残差一阶和为0: 4、残差与解释变量不相关: 5、残差与y的理论预测值亦不相关: 三、熟悉Eviews软件,利用普通股交易资料作1-3只股票的单指数模型的样本回归模型。 2018/12/9 朱 晋
一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间 §2.4 一元线性回归模型的统计检验 一、拟合优度检验 二、变量的显著性检验 三、参数的置信区间
回归分析是要通过样本所估计的参数来代替总体的真实参数,或者说是用样本回归线代替总体回归线。 尽管从统计性质上已知,如果有足够多的重复 抽样,参数的估计值的期望(均值)就等于其总体的参数真值,但在一次抽样中,估计值不一定就等于该真值。 那么,在一次抽样中,参数的估计值与真值的差异有多大,是否显著,这就需要进一步进行统计检验。 主要包括拟合优度检验、变量的显著性检验及参数的区间估计。 2018/12/9 朱 晋
拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。 度量拟合优度的指标:判定系数(可决系数)R2 2.4.1 拟合优度检验 拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。 度量拟合优度的指标:判定系数(可决系数)R2 问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度? 2018/12/9 朱 晋
此处利用到等式: 拟合度检验的原理: y的理论预测值 和真实的样本值 的距离越小,拟合度越好。所以有绝对指标 和相对指标 。定义: 2018/12/9 朱 晋
1、总离差平方和的分解 已知由一组样本观测值(Xi,Yi),i=1,2…,n得到如下样本回归直线 2018/12/9 朱 晋
如果Yi=Ŷi 即实际观测值落在样本回归“线”上,则拟合最好。 可认为,“离差”全部来自回归线,而与“残差”无关。 2018/12/9 朱 晋
对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明: 记 总体平方和(Total Sum of Squares) 回归平方和(Explained Sum of Squares) 残差平方和(Residual Sum of Squares ) 2018/12/9 朱 晋
Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。 TSS=ESS+RSS Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。 在给定样本中,TSS不变, 如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此 拟合优度:回归平方和ESS/Y的总离差TSS 2018/12/9 朱 晋
2、可决系数R2统计量 称 R2 为(样本)可决系数/判定系数(coefficient of determination)。 可决系数的取值范围:[0,1] R2越接近1,说明实际观测点离样本线越近,拟合优度越高。 2018/12/9 朱 晋
注:可决系数是一个非负的统计量。它也是随着抽样的不同而不同。为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。 在例2.1.1的收入-消费支出例中, 注:可决系数是一个非负的统计量。它也是随着抽样的不同而不同。为此,对可决系数的统计可靠性也应进行检验,这将在第3章中进行。 2018/12/9 朱 晋
2.4.2 一元线性模型的显著性检验 回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。 2.4.2 一元线性模型的显著性检验 回归分析是要判断解释变量X是否是被解释变量Y的一个显著性的影响因素。 在一元线性模型中,就是要判断X是否对Y具有显著的线性性影响。这就需要进行变量的显著性检验。 2018/12/9 朱 晋
1、显著性检验的原理:假设检验 通过对总体回归模型中参数是否为零的统计学检验,推断模型所表示的因果关系能否成立。一般分为单个参数的t-检验和整体参数的F-检验。一般先假设参数为0(原假设),在此基础上建立统计量,再给出显著性水平(如1%,5%),如果原假设成立,概率小于显著性水平的事件应该不成立,但若统计量显示小概率事件亦会发生,只能推翻原假设,选择备选假设。 2018/12/9 朱 晋
回顾:t-分布与F-分布 T-分布为一个标准正态分布与一个 的平方根的商的随机变量,即有 其中 为自由度。 F-分布为两个 分布的商,有: 若随机变量 服从标准正态分布N(0,1),则变量的平方 服从 -分布。K个独立的,服从 分布的随机变量的和 也服从 分布,自由度为k. T-分布为一个标准正态分布与一个 的平方根的商的随机变量,即有 其中 为自由度。 F-分布为两个 分布的商,有: ,其中 为自由度。 2018/12/9 朱 晋
2、方程显著性检验: F-检验及统计量: 统计量为: 在给出显著性水平 后,可查表得到临界值,若统计量的实际值大于临界值,则原假设所有参数为0不能成立。 2018/12/9 朱 晋
3、 变量显著性检验: 单个参数的t-检验 原理:给出原假设H0:β=0,根据t分布构造相应的t-统计量,并根据给出的数据算出统计量的值。再利用t分布的双侧特征,给定显著性水平α,查表找出t α/2的临界值。若统计量值的绝对值大于临界值,则概率小于α的小概率事件发生,原假设不能成立。反之,不能推翻原假设。 统计检验 2018/12/9 朱 晋
2.4.3 参数的置信区间 假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。 要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。 2018/12/9 朱 晋
如果存在这样一个区间,称之为置信区间(confidence interval); 1-称为置信系数(置信度)(confidence coefficient), 称为显著性水平(level of significance);置信区间的端点称为置信限(confidence limit)或临界值(critical values)。 2018/12/9 朱 晋
一元线性模型中,i (i=1,2)的置信区间: 在变量的显著性检验中已经知道: 意味着,如果给定置信度(1-),从分布表中查得自由度为(n-2)的临界值,那么t值处在(-t/2, t/2)的概率是(1- )。表示为: 即 2018/12/9 朱 晋
于是得到:(1-)的置信度下, i的置信区间是 在上述收入-消费支出例中,如果给定 =0.01,查表得: 由于 于是,1、0的置信区间分别为: (0.6345,0.9195) (-433.32,226.98) 2018/12/9 朱 晋
由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。 要缩小置信区间,需 (1)增大样本容量n,因为在同样的置信水平下,n越大,t分布表中的临界值越小;同时,增大样本容量,还可使样本参数估计量的标准差减小; (2)提高模型的拟合优度,因为样本参数估计量的标准差与残差平方和呈正比,模型拟合优度越高,残差平方和应越小。 2018/12/9 朱 晋
§2.5 一元线性模型的预测 对于模型 如果给定样本以外的解释变量的观测值 ,有: §2.5 一元线性模型的预测 对于模型 如果给定样本以外的解释变量的观测值 ,有: 因 不是原来回归方程中的样本,所以 和原模型中的 不相关。如何求出 的合理的值或范围,就是回归分析中预测的内容。具体分为点预测和区间预测二块。 预测与置信区间 2018/12/9 朱 晋
一、Ŷf是条件均值E(Y|X=Xf)或个值Yf的一个无偏估计 二、总体条件均值与个值预测值的置信区间 2018/12/9 朱 晋
给定样本以外的解释变量的观测值Xf,可以得到被解释变量的预测值Ŷf , 可以此作为其条件均值E(Y|X=Xf)或个别值Yf的一个近似估计。 对于一元线性回归模型 给定样本以外的解释变量的观测值Xf,可以得到被解释变量的预测值Ŷf , 可以此作为其条件均值E(Y|X=Xf)或个别值Yf的一个近似估计。 注意: 严格地说,Ŷf只是被解释变量Yf的预测值的点估计值,而不是预测值。 原因:(1)参数估计量不确定; (2)随机项的影响 2018/12/9 朱 晋
一、Ŷf是条件均值E(Y|X=Xf)或个值Yf的一个无偏估计 对总体回归函数E(Y|X=Xi)=0+1Xi,X=Xf时 E(Y|X=Xf)=0+1Xf 于是 可见,Ŷf是条件均值E(Y|X=Xf)的无偏估计。 2018/12/9 朱 晋
对总体回归模型Y=0+1X+,当X=Xf时 于是 而通过样本回归函数 ,求得拟合值 的期望值为 拟合值与样本值的期望值相等,即: 所以, 的无偏估计。 2018/12/9 朱 晋
二、总体条件均值与个值预测值的置信区间 1、总体均值预测值的置信区间 由于 于是 可以证明 2018/12/9 朱 晋
将未知的 用它的无偏估计量 代替,可构造统计量: 因此,有: 故 将未知的 用它的无偏估计量 代替,可构造统计量: 其中 2018/12/9 朱 晋
这样,在1-的置信度下,总体均值E(Y|Xf)的置信区间为 : 展开有: 2018/12/9 朱 晋
2、总体个值预测值的预测区间 如果已经知道实际的预测值,那么预测误差为: 于是 : 有: 2018/12/9 朱 晋
从而在1-的置信度下, Yf的置信区间为 : 2018/12/9 朱 晋
因此,总体均值E(Y|X=1000)的95%的置信区间为: 在上述收入-消费支出例中,得到的样本回归函数为 则在 X0=1000处, Ŷ0 = –103.172+0.777×1000=673.84 而 因此,总体均值E(Y|X=1000)的95%的置信区间为: 673.84-2.30661.05< E(Y|X=1000) <673.84+2.30661.05 或 (533.05, 814.62) 2018/12/9 朱 晋
同样地,对于Y在X=1000的个体值,其95%的置信区间为: 或 (372.03, 975.65) 总体回归函数的置信带(域)(confidence band) 个体的置信带(域) 2018/12/9 朱 晋
对于Y的总体均值E(Y|X)与个体值的预测区间(置信区间): (1)样本容量n越大,预测精度越高,反之预测精度越低; (2)样本容量一定时,置信带的宽度当在X均值处最小,其附近进行预测(插值预测)精度越大;X越远离其均值,置信带越宽,预测可信度下降。 2018/12/9 朱 晋
作业二:课外练习部分 1、书上第二章后面习题5和6。 2、给出国家文教科学卫生事业费支出额ED(亿元)和国家财政收入额FI(亿元),作一元线性模型回归分析,并对所有结果作出分析评估。若2003年预期的国家财政收入为12050亿元,试求文教卫支出2003年的点预测值和区间预测值(部分数据为模拟数据)。 与第一次作业一起交; 年份 ED FI 1991 708 3149 1998 1987 9320 1992 793 3483 1999 2021 9876 1993 958 4349 2000 2213 10356 1994 1278 5218 2001 2536 11589 1995 1467 6242 2002 2960 13010 1996 1704 7408 2003 14268 1997 1904 8651 2018/12/9 朱 晋
Eviews 练习题操作顺序 1、建立工作文件; 2、编辑序列,输入数据或修改数据 3、统计分析,作散点图或其它图形 4、利用LS作回归分析 5、针对结果作统计检验,并讨论效果 6、查看预测值 2018/12/9 朱 晋