第六章 正态条件下回归的推论
问题的提出 在前述各章中我们假定随机扰动项服从均值=0,方差等于(常数),独立同分布。但是,并没有假定随机扰动项服从何种具体的分布。 由于没有假定服从何种具体的分布,因而无法计算随机扰动项取不小于某值的概率,因而也无法计算估计量取某种值的概率,也就无法对统计量进行假设检验和进行区间估计。 点估计给出是某个具体的数值,无法给出相应的可靠性,也就是我们得出的结论的缺乏可靠性,从而降低了结论的有效性与实用性。 如果假定随机扰动项服从正态分布,那么估计量就可立即得到相应的区间估计及其概率,也就是结论具有了可靠性。
同方差=常数,协方差=0 同方差=常数,协方差=0 nxn,x Z自变量与随机扰动项无关,从而自变量之间也无关。 X是确定性变量,Y只有垂直变动
解决问题的思路 首先,复习有关正态分布的一些结论 进而假定随机扰动项服从正态分布 导出估计量也服从正态分布 给出关于估计量的假设检验和区间估计 再给出利用模型进行预测的可靠性,使模型能够运用于实际
有关正态分布的一些结论 1、正态分布的线性组合也服从正态分布 2、标准正态分布的平方和服从卡平方分布 3、标准正态分布除以卡平方分布及其自由度的商,服从t分布 4、两个卡平方分布分别除以各自自由度的商之比服从F分布
第一节 问题的引入 1、假定随机扰动项服从正态分布,导出Yi也服从正态分布 2、一元模型中斜率也服从正态分布 3、一元模型中截距也服从正态分布 4、回归估计系数的分布的总结
1、假定随机扰动项服从正态分布,导出Yi也服从正态分布
2、一元模型中斜率也服从正态分布
3、一元模型中截距也服从正态分布
4、回归估计系数的分布的总结
第二节 问题的解决 1、解决问题的关键是样本带来了总体的信息,所以用样本的信息去估计总体的信息。 2、用残差去估计总体的随机扰动项,进而用残差的方差去估计随机扰动项的方差 3、构造残差的方差为随机扰动项方差的无偏估计量。 4、随机扰动项方差的估计量S2的分布
1、解决问题的关键是用样本残差去估计 总体的随机扰动项 解决问题的关键是用样本残差去估计总体的随机扰动项。 进而用样本残差的方差S2去估计随机扰动项的方差——2 最后,在随机扰动项服从正态分布的假定下,导出样本残差方差S2的性质或分布
2、随机扰动项方差的估计量 为什么是n-k-1?(第三节)
3、随机扰动项方差估计量的性质 (1)无偏性E(S2)=2 (2)随机扰动项方差估计量S2服从卡方分布,自由度 = n-k-1
第三节 派生内容:自由度 1、什么是自由度 2、对应于平方和分解的自由度的分解 3、k元模型中随机扰动项的自由度为什么=n-k-1?
1、什么是自由度 模型中样本值可以自由变动的个数,称为自由度 自由度=样本个数- 样本数据受约束条件(方程)的个数 例如,样本数据个数=n,它们受k+1个方程的约束(这n个数必须满足这k+1个方程) 那么,自由度df = n-k-1
数据个数与约束方程 Y1+Y2+Y3=7 Y1=7 那么Y2、Y3中只有1个是自由的。 又如: Y1+Y2+Y3+Y4=7
2、对应于平方和分解的自由度的分解 自由度=变量个数 - 约束方程个数 TSS=RSS+ESS dfT=dfR+dfE dfT=n-1 dfR=k dfE=dfT-dfR= n-1-k = n - (k+1)
3、k元模型中随机扰动项的自由度为什么 =n-k-1?
第四节 回归系数的假设检验 1、大样本与小样本 2、斜率的分布 3、回归系数假设检验的意义 4、假设检验的原理 5、假设检验的种类 6、F检验的步骤 7、t检验的步骤 8、回归分析进行假设检验的步骤
1、大样本与小样本 中心极限定理告述我们: 随机变量X无论服从什么分布,只要它的方差存在,只要样本个数n充分的大,X的平均数就服从正态分布。 那么,充分大在实际应用中怎样掌握呢? 凡是 n >30,我们就可以认为它具有此种极限性质,称为大样本。 否则,就称为小样本,小样本不具有此种极限性质。
2、斜率的分布 (1)已知2或大样本情形 (2)未知2且为小样本情形
(2)未知2且为小样本情形
3、回归系数假设检验的意义 通过F检验只是对方程作为一个整体进行检验,只要其中一个或几个自变量的系数显著不为零,整个方程就是有意义的。 但是,还必须继续对各个自变量的系数进行检验,否则方程中会包含一些对因变量从统计意义上说没有意义的自变量
3、回归系数假设检验的意义 例如:Y^=1.78+1.56X1+0.036X2 对多元回归除了进行整体检验外,还需要分别对X1和X2的系数进行t检验。 对X1的系数检验,计算出来的t大于临界值,拒绝H0,即X1的系数与0有显著的差异,认为X1对Y有意义; 对X2的系数检验,计算出来的t小于临界值,不拒绝H0,认为X2的系数与0没有本质的差异,虽然它=0.036,于是认为X2对Y没有意义,是方程中的累赘,应剔除,重新估计方程。 因此,要求方程中所有系数都应与0差异显著。
4、假设检验的原理 1、提出二择一的假设H0(往往与试验目的相反)与HA(往往是欲得到的结论) 2、给定显著水平(小概率) 3、在H0成立下,收集数据,寻找检验统计量(如t、F),肯定知道统计量的分布,可计算各种取值的概率 4、找出小概率发生的临界值 5、将样本值和H0代入检验统计量进行计算 6、将计算结果与临界值比较,若大于临界值,小概率事件发生,根据小概率原理,在一次试验中小概率事件是不会发生的。现在,居然发生了。错在哪里? 7、原来是假设H0错了,因为一切都是在H0成立下推证的,于是拒绝H0。否则,不拒绝H0
大海里捞针——反证法 H0:一棵针掉进了大海里(海底只有一棵针) HA:海底不只一棵针 显著水平=0.01(小概率) 进行试验——到海底捞针 通常用大海里捞针比喻不可能发生的事 现在,一次潜水(试验)就捞上一棵针,这掉下的一棵针居然被我们捞上来,不可能发生的事件发生了,于是拒绝H0,认为大海里不只一个针。
两类错误之一——弃真 1、H0:海底只有一棵针。但一次试验捞了上来。因为小概率事件发生,必须拒绝(H0)。然而海底真的只有一棵针,结论说不只一棵针。犯弃真错误了,只有拒绝H0时才会犯弃真错误 2、此时犯了弃真的错误,但是犯弃真错误的可能性,事先已经控制——只有显著水平(小概率)那么大 3、所以拒绝不仅是坚决的,而且犯错误的概率(冒险率是事先控制的)也很小。所得结论的可靠性 = 1- 4、所以,人们提出的H0通常是无效的
犯两类错误之二——纳伪 H0:某某(高考的考生)= 大学生(准予参考就是提出这个假设,即假设他是优秀青年) 进行抽样试验——参加高考 检验统计量——考试总分(包括加分) 众所周知,大学生乃同龄人中的佼佼者,而该某某平时素质和学业平平,距高等学府之路遥遥,被录取(总分超过报考学校的录取线)的概率很小。H0成立下,优秀毕业生考分低于录取线(失常)的概率很小。 在此次抽样中他的总分喜煞人,由于小概率事件(优秀者失常)没有发生,于是不能拒绝H0。某某顺利进入重庆某学院,显然属于纳伪。
不拒绝H0是无可奈何 某某进入高校,招生犯了纳伪的错误 千万不可,以接受H0作为我们研究的结论。欲证明H0成立必须继续抽样、继续检验,并采用功效函数。 所以某某进校后不断地被抽样、被检验
5、假设检验的种类 1、参数检验 已知分布形式,检验分布的参数,例如检验均值或检验方差 2、非参数检验 检验随机变量的分布形式,例如是否服从正态分布 本课程主要讨论参数检验
6、假设检验的步骤——t检验为例 1、提出假设H0和HA 2、收集数据估计出b^ 3、计算出2的估计量s2 6、作出统计推断:如果t>t ,拒绝H0;否则不拒绝H0。t的绝对值越大,自变量对因变量的作用越显著。
t检验的步骤 t f(t) 不拒绝H0区域 拒绝域
t f(t) 不拒绝H0区域 拒绝域
t f(t) 不拒绝H0区域 拒绝域
b^ f(b^) 置信区间 上限 下限 假设检验与区间估计是一个问题的两个方面
b^ f(b^) 置信区间 上限 下限
t f(t)
F检验的步骤 假定随机扰动项u服从正态分布。检验目标是联合检验, (1)提出假设H0: b1 = b2 =b3 =……=bk=0 (2)适合的检验统计量 (3)根据冒险率,确定临界值F (4)将计算出的F与临界值F比较 (5)下结论:若F>临界值F,则拒绝H0;若F<=临界值F,则不拒绝H0 (6)结合经济学理论与经验,下经济学的结论或进行经济学分析
1- F F f(F)
7、回归分析进行假设检验的步骤 (1)查看拟合优度,进行F检验,从整体上判断回归方程是否成立,如果F检验通不过,无须进行下一步;否则进行下一步 (2)查看各个变量的t值及其相应的概率,进行t检验,如果相应的概率小于给定的显著水平,该自变量的系数显著地不为0,该自变量对因变量作用显著;否则系数与0无显著差异(本质上=0),该自变量对因变量无显著的作用,应从方程中删去,重新估计方程。 (3)但是,一次只能将最不显著(相应概率最大)的删除。
第五节 预测 1、预测的定义 2、利用模型进行预测的种类 3、一般水平的预测 4、个体水平的预测 5、预测的精度 6、滞后模型进行预测 7、案例分析——假日旅馆房间收入的预测 8、指数平滑预测
1、预测的定义 预测是对于未来或未知的预计与推测 预测不是臆测,这里的预测是科学的预测,它是建立在对预测对象认识、分析和科学的推理基础之上的。 由于客观世界的复杂性和不确定性与人类认识的矛盾,以及预测科学(又称未来学)仍然处于成长阶段,还有预测手段的不完善,尤其是与进行预测人员的素质、知识、经验、魄力、胆略、价值取向密切相关,所以预测既是一门科学又是一门艺术。
2、利用模型进行预测的种类 (1)定性预测与定量预测 (2)模型预测与非模型预测 (3)超长期预测、长期预测、中期预测、短期预测 即利用回归直线或其它模型进行预测,由于回归直线本身有一个变动幅度(随抽样不同而不同),也一定存在误差。 一般水平预测与个别值的预测 点预测与区间预测 (3)超长期预测、长期预测、中期预测、短期预测 (4)情景预测
3、一般水平的预测 关于平均水平的预测——关于E(y^)=a^+b^x均值的预测 因为随机扰动项的平均数=0,所以随机扰动项对预测值没有影响 随机扰动项有一个变动幅度,由于没有考虑随机扰动项的变动幅度 因此,预测的方差会相应的小些 为什么一般水平的预测也会存在预测误差呢?因为a^和b^随着样本的不同而不同,有一个变动幅度,所以E(y^)也有一个变动幅度。
X Y =平均数时,预测误差最小
影响预测误差的因素 1、 (1-)t预测误差(只有这么多信息,可靠性预测误差 ,可靠性 预测误差 ) 2、x 均值预测误差 3、x方差 预测误差 4、n 预测误差
4、个体水平的预测 是关于个别值(Yi)的预测, 因为一个Xi会对应多个Yi,由于考虑了随机扰动项的变动(一般水平预测,随机扰动项=0,不于考虑) 个别值总是在均值附近振动外再加一个随机扰动项的变动,所以个体预测值的变动幅度大些。 个体水平的预测是关于Yi=a+bXi+ui的预测
个别值的预测误差自然比一般水平的预测误差增大
5、滞后模型进行预测
7、案例分析——假日旅馆房间收入的预测 已知(美国1970-1980年间): 房间总收入= 房间租用率 X 房间总数 X 平均租金 要求: 根据美国假日旅馆近年来的年报和美国政府公布的资料,预测假日旅馆明年房间总收入?
资料(LX4\SHM31)
预测步骤 1、预测房间租用率FJZYL 2、预测平均房租FZ 3、预测房间数目FJSHM 4、预测房间总收入 =FJZYL X FZ X FJSHM
分析房间租用率 假日旅馆的房间租用率与美国经济形势有关,而失业率是一个反映经济形势的很好的指标 而且,经验表明短期利率是反映和预测今后一般经济活动很好的指标 当然,不能仅用失业率的下降趋势来解释租用率的上升,它们还受发展趋势的影响,所以生成一个增长趋势指标QSH
租用率关于失业率和趋势回归
考虑不知道当期值不能预测
当含有被解释变量滞后值滞后就不使用趋势变量
引入商业证券利率
预测房租
预测房间数目
租用率关于失业率 和趋势回归 Variable Coefficient Std. Error T-Statistic Prob. SHYL -1.854182 0.385229 -4.813194 0.0013 QSH 0.784188 0.134062 5.849461 0.0004 C 69.87705 2.329669 29.99441 0.0000 R-squared 0.831986 Mean dependent var 70.00909 Adjusted R-squared 0.789983 S.D. dependent var 2.703499 S.E. of regression 1.238950 Akaike info criterion 0.655529 Sum squared resid 12.27998 Schwartz criterion 0.764046 Log likelihood -16.21373 F-statistic 19.80757 Durbin-Watson stat 1.556777 Prob(F-statistic) 0.000797
由于不能事先得到1981年的失业率,所以不能利用上述方程进行预测, 但是方程反映出变量之间的关系,进一步证实租用率与失业率有非常相似的周期 不过,假日旅馆的租用率呈上升趋势,大约每年递增0.7%
8、指数平滑预测
指数平滑法的使用
指数平滑报告表
第六节 复习与提高 1、随机扰动项的分布 2、因变量Yi的分布 3、回归分析估计量的分布 4、影响预测的精度因素
1、随机扰动项的分布
2、因变量Yi的分布
3、回归分析估计量的分布
4、影响预测的精度因素 1、 (1-)t预测误差(只有这么多信息,可靠性预测误差 ,可靠性 预测误差 ) 2、x 均值预测误差 3、x方差 预测误差 4、n 预测误差