4 http://international.cengage.com
Introductory Econometrics 多元回归分析:推断(1) y = b0 + b1x1 + b2x2 + . . . bkxk + u Introductory Econometrics
Introductory Econometrics 本章提纲 估计量的样本分布 单个总体参数的假设检验:t检验 置信区间 参数线性组合的假设检验(一维情形) 多个线性约束的假设检验:F检验 报告回归结果 Introductory Econometrics
Introductory Econometrics 本课提纲 样本分布:复习 经典假设与OLS估计量的样本分布 假设检验的背景知识 单边与双边t检验 计算p值 Introductory Econometrics
Introductory Econometrics 样本分布:复习 简单随机抽样是指从总体中随机取样n次,使得总体中的每个元素在样本中的出现的可能性相同。 如果y1, y2,…, yn 来自于同一分布且相互独立,则称这一组随机变量独立同分布(i.i.d.) Introductory Econometrics
Introductory Econometrics 样本分布:复习 样本分布在统计学和计量经济学发展中具有核心地位 它是指一个估计量在其所有可能取值上的概率分布 刻画样本分布的两种方式:“准确”方式和“近似”方式 Introductory Econometrics
Introductory Econometrics 样本分布:复习 “准确”方式需要对任何n的取值都得到样本分布的精确表达式。 这样的分布被称为小样本(有限样本)的准确 分布 例如,如果y服从正态分布,且y1, y2, …, yn 独立同分布,则其均值恰好服从正态分布 Introductory Econometrics
Introductory Econometrics 样本分布:复习 “近似”方式对样本分布进行大样本下的近似。 对样本分布的大样本近似常称为渐近分布。 Introductory Econometrics
Introductory Econometrics 样本分布:复习 只要样本量足够大,渐近分布就是对准确分布的很好的近似。 两个重要工具:大数定律,中心极限定理 Introductory Econometrics
Introductory Econometrics 大数定律 大数定律:在一般情形下,当样本量充分大时,样本均值将以很高的概率逼近总体均值。 本课中,为了应用大数定律,我们假设y为独立同分布具有有限方差的随机取样。 Introductory Econometrics
Introductory Econometrics 中心极限定理 Introductory Econometrics
Introductory Econometrics 中心极限定理 这个定理说明,在一般条件下,如果样本足够大,标准化的样本均值的样本分布可以由标准正态分布近似 Introductory Econometrics
Introductory Econometrics OLS估计量的样本分布 我们已经讨论了OLS估计量的期望和方差,但是为了进行统计推断,我们仍希望知道样本分布。 OLS估计量的样本分布依赖于对误差项分布的假设。 Introductory Econometrics
Introductory Econometrics 假设MLR.6 (正态性) 我们已经知道当Gauss-Markov假设成立时,OLS是最优线性无偏估计。 为了进行经典的假设检验,我们要在Gauss-Markov假设之外增加另一假设。 假设MLR.6 (正态性):假设u与x1, x2,…, xk独立,且u服从均值为0,方差为s2的正态分布。 Introductory Econometrics
Introductory Econometrics 经典线性模型假设 假设MLR.1-MLR.被称为经典线性模型假设 我们将满足这六个假设的模型称为经典线性模型 在经典线性模型假设下,OLS不仅是BLUE,而且是最小方差无偏估计量,即在所有线性和非线性的估计量中,OLS估计量具有最小的方差。 Introductory Econometrics
Introductory Econometrics 经典线性模型假设 我们对总体的经典线性模型假设做个总结 y|x ~ Normal(b0 + b1x1 +…+ bkxk, s2) 尽管现在我们假设了正态,但有时候并不是这种情况 Introductory Econometrics
Introductory Econometrics 经典线性模型假设 如果正态假设不成立怎么办? 通过变换,特别是通过取自然对数,往往可以得到接近于正态的分布。 大样本允许我们放弃正态假设(近似方式) Introductory Econometrics
Introductory Econometrics 同方差正态分布——单解释变量情形 y f(y|x) . E(y|x) = b0 + b1x . Normal distributions x1 x2 Introductory Econometrics
Introductory Econometrics 定理4.1 正态样本分布 Introductory Econometrics
Introductory Econometrics 定理4.1 正态样本分布 可以扩展定理4.1。 的任意线性组合服从正态分布, 任意子集服从联合正态。 我们将利用这些事实来进行假设检验 Introductory Econometrics
Introductory Econometrics 考虑总体中满足CLM的模型 我们现在研究如何对一个特定的 进行假设检验 Introductory Econometrics
Introductory Econometrics 背景知识回顾 被检验的假设称为零假设 假设检验利用数据将零假设和另一个假设(替代假设)进行比较 Introductory Econometrics
Introductory Econometrics 背景知识回顾 替代假设给出在零假设不成立时的真实情况。 我们的目的:利用一个随机选取的样本提供给我们的证据来决定是否应当接受零假设。 Introductory Econometrics
Introductory Econometrics 背景知识回顾 在假设检验中存在两种可能的错误。 第一类错误:当零假设为真时拒绝零假设(弃真) 第二类错误:当零假设为假时未拒绝零假设(取伪) Introductory Econometrics
Introductory Econometrics 背景知识回顾 我们建立一些假设检验的规则使发生第一类错误的概率非常小。 一个检验的显著性水平是发生第一类错误的概率。 通常设定的限制性水平为:0.1,0.05,0.01。如果为0.05意味着研究者愿意在5%的检验中错误地拒绝零假设。 Introductory Econometrics
Introductory Econometrics 背景知识回顾 检验统计量的临界值是使得零假设刚好在给定显著性水平上被拒绝的统计量的值。 假设检验中,使得零假设被拒绝的检验统计量的取值范围称为拒绝域,使得零假设不能被拒绝的检验统计量的取值范围成为接受域。 Introductory Econometrics
Introductory Econometrics 背景知识回顾 个检验统计量(T)是关于随机样本的一个函数。当我们用某一特定样本计算此统计量时,我们得到这个检验统计量的一个实现(t)。 Introductory Econometrics
Introductory Econometrics
Introductory Econometrics 知道标准化估计量的样本分布后,便可以进行假设检验 由零假设出发 例如, H0: bj=0 如果接受零假设,则认为控制x其它分量后, xj对y没有边际影响。 Introductory Econometrics
Introductory Econometrics The t Test (cont) Introductory Econometrics
Introductory Econometrics The t Test (cont) t统计量 度量了估计值 相对0偏离了多少个估计的标准离差。 它的符号与 相同 注意我们检验的是关于总体参数的假设,而不是关于来自某一特定样本的估计值的假设。 Introductory Econometrics
Introductory Econometrics 除了零假设外,我们需要替代假设H1,并设定显著性水平 H1可以是单边或双边的 H1: bj > 0 和 H1: bj < 0 是单边的 H1: bj 0是双边替代假设 Introductory Econometrics
Introductory Econometrics 单边替代假设 如果我们愿意在5%的概率上错误地拒绝实际上为真的零假设,则说我们的显著水平为5% 取定显著性水平a后,找到自由度为n – k – 1的t分布的(1 – a)分位数c,即临界值 Introductory Econometrics
One-Sided Alternatives (cont) 如果H0: bj = 0对H1: bj > 0,当 时我们拒绝H0,当 ,则不能拒绝H0 由于t分布是对称的,如果H0: bj = 0对H1: bj < 0,当 时我们拒绝H0,当 ,则不能拒绝H0 Introductory Econometrics
Introductory Econometrics 单边替代假设 yi = b0 + b1xi1 + … + bkxik + ui H0: bj = 0 H1: bj > 0 Fail to reject reject (1 - a) a c Introductory Econometrics
Introductory Econometrics 注意:当t分布的自由度增大时,t分布趋近于标准正态分布。 Introductory Econometrics
例子:学生表现与学校规模(meap93.raw) 问题:是不是较大的班级意味着较差的学生表现? 应用1993年408个密歇根州中学的数据,进行如下回归 Reg math10 totcomp staff enroll Introductory Econometrics
Introductory Econometrics 例子:学生表现与学校规模 ^math10=2.274+0.00046totcomp+0.048staff –0.0002enroll (6.113) (0.0001) (0.04) (0.00022) 通过MEAP标准化10年级数学测验的学生百分比 平均教师年度补偿 每千个学生对应的工作人员数目 学生录取 Introductory Econometrics
Introductory Econometrics 例子:学生表现与学校规模 确定被检验的假设 H0 :βenroll=0 versus H1 :βenroll<0 计算t统计量 t=-0.0002/0.00022=-0.91 由于n-k-1=404,我们使用标准正态的临界值。在5%显著水平下,临界值位-1.65 由于-0.91>-1.65,我们不能拒绝零假设 Introductory Econometrics
Introductory Econometrics 例子:学生表现与学校规模 如果我们同样感兴趣是否高收入的教师会使学生表现更好,我们可以检验: H0 :βtotcomp=0 versus H1 :βtotcomp>0 计算得到的t统计量为4.6。由于4.6 >2.326,故在1%显著水平下拒绝零假设。 Introductory Econometrics
Introductory Econometrics 双边替代假设 H1: bj 0为双边替代假设。在此替代假设下,我们并未规定xj 对y影响的符号。 对于双边检验,我们根据a/2计算临界值。当t的绝对值大于临界值c时,拒绝零假设。当a=0.05时, c是n-k-1自由度的t分布的97.5分位数。 Introductory Econometrics
Introductory Econometrics 双边替代假设 yi = b0 + b1Xi1 + … + bkXik + ui H0: bj = 0 H1: bj ≠0 fail to reject reject reject (1 - a) a/2 a/2 -c c Introductory Econometrics
Introductory Econometrics 例子:学生表现与学校规模 我们已经得到 ^math10=2.274+0.00046totcomp+0.048staff –0.0002enroll (6.113) (0.0001) (0.04) (0.00022) 如果问题是:教师数目是否对学生表现有影响,我们可以检验如下假设: H0: bstaff = 0 , H1: bstaff ≠0. Introductory Econometrics
Introductory Econometrics 例子:学生表现与学校规模 计算得到的t值为1.2。标准正态分布的在5%的显著水平对应的临界值为1.96。由于1.2<1.96,我们不能拒绝零假设。 Introductory Econometrics
Introductory Econometrics 总结 除非特别指出,我们总认为替代假设是双边的 如果不能拒绝零假设,我们通常说“xj 在a % 水平下不显著” Introductory Econometrics
Introductory Econometrics 其他假设检验 如果我们想对形如H0: bj = aj 的假设进行检验,需要更一般的t统计量 此时,恰当的 t 统计量是 Introductory Econometrics
例子:校园犯罪与录取(campus.raw) 问题:录取量提高1%是否会导致校园犯罪增加超过1%? 假设犯罪总数由下式决定 . 可以估计 log(crime)=b0 + b1 log(enroll)+u Introductory Econometrics
Introductory Econometrics 例子:校园犯罪与录取 And test H0: b1 = 1 H1: b1 > 1. 利用FBI犯罪报告(97个观察值)的数据,估计得到方程 ^log(crime)=-6.63+1.27log(enroll) (1.03) (0.11) t值=(1.27-1)/0.11=2.45。对于95自由度的t分布, 1%显著水平下单边检验的临界值为2.37<2.45,拒绝零假设。 Introductory Econometrics
Introductory Econometrics Stata操作 reg lcrime lenroll scalar tvalue=(_b[lenrol]-1)/_se[lenrol] display "T-value: " tvalue Introductory Econometrics
Introductory Econometrics 计算t检验的p值 经典假设检验的步骤 表述零假设和替代假设 决定显著水平,找到临界值 根据样本数据计算 t 统计量 比较 t 值与临界值,决定是否拒绝零假设。 Introductory Econometrics
Introductory Econometrics 计算t检验的p值 假设自由度为40,算得 t 值为2.423,对应5%和1%的临界值分别为2.021 和 2.704。我们是否应当拒绝零假设? 提前确定显著水平可能会隐藏关于假设检验的一些有用信息。 Introductory Econometrics
Introductory Econometrics 计算t检验的p值 另一种想法:如果将算得的t 统计量作为临界值,那么使得零假设被拒绝的最小显著水平是多少? 这个水平称为p 值。对于双边检验 p-value=P(|T|>|t|). Introductory Econometrics
Introductory Econometrics 计算t检验的p值 In the above example, it must be true that 1%<p<5%. p-value=P(|T|>2.423) =2P(T>2.423) =0.02. pα/2 pα/2 C0.005 C0.01 C0.025 C0.025 C0.01 C0.005 Introductory Econometrics
Introductory Econometrics 一些关于p值的信息 由于这是一个概率,其取值范围在0,1之间 小p值提供了拒绝零假设的证据,大p值不能提供证据拒绝零假设。 Introductory Econometrics
Introductory Econometrics 经济重要性与统计显著性 统计显著性完全由t 统计量的大小决定。 经济上的重要性强调估计系数的大小。 权衡两者来判断解释变量对被解释变量的边际影响 Introductory Econometrics
Introductory Econometrics 多元回归分析:推断 (2) y = b0 + b1x1 + b2x2 + . . . bkxk + u Introductory Econometrics
Introductory Econometrics 本章提纲 OLS估计量的样本分布 单总体参数的假设检验:t检验 置信区间 参数线性组合的假设检验(一维情形) 多个线性约束的假设检验:F检验 报告回归结果 Introductory Econometrics
Introductory Econometrics Lecture Outline 置信区间:复习 如何构造置信区间 检验线性组合 Introductory Econometrics
Introductory Econometrics 置信区间 由于随机取样误差的存在,我们不可能通过样本知道b 的准确值。 但是利用来自随机样本的数据构造一个取值的集合,使得真值在给定概率下属于这个集合是可能的。 Introductory Econometrics
Introductory Econometrics 置信区间 这样的集合称为置信集,预先设定的真值属于此集合的概率称为置信水平(置信度)。 置信集是下限和上限之间所有可能的取值,故置信集为一个区间,称为置信区间 Introductory Econometrics
Introductory Econometrics b 的置信区间 通过对上述分析进行扩展,我们可以利用双边检验的临界值来构造 b 的置信区间。 如果 服从n-k-1自由度 的 t 分布,简单的运算可以得到关于未知的 bj 的置信区间 Introductory Econometrics
Introductory Econometrics b 的置信区间 Introductory Econometrics
Introductory Econometrics b 的置信区间 如果自由度为25,那么对任意bj ,95%的置信区间为 当n-k-1>120, t(n-k-1) 分布与正态分布充分接近,可以用标准正态分布的97.5分位数来构造95%置信区间 Introductory Econometrics
Introductory Econometrics b 的置信区间 构造了置信区间之后,可以进行双尾假设检验 零假设为H0: bj = aj,当且仅当aj不在95%的置信区间内时,零假设相对于H1: bj ≠aj在5%的显著水平上被拒绝。 Introductory Econometrics
例子:住房的效用价格模型(not available) Log(price)=7.46+0.634log(sqrft)-0.066bdrms+0.158bthrms (1.15) (0.184) (0.059) (0.075) n=19 R-square=0.806 df=19-4=15, c=2.131 at 95% 对应系数的95%置信区间 [0.634-2.131*0.184, 0.634+2.131*0.184]=[0.242, 1.026] Introductory Econometrics
Introductory Econometrics Stata,p值,t检验 大部分软件包可以在假定计算双边检验的基础上计算p值 单边检验p值是双边检验的p值的一半 Stata提供了关于零假设H0: bj = 0 的t 值,p值和95%置信区间,分别标记为“t”, “P > |t|” , “[95% Conf. Interval]” Introductory Econometrics
Introductory Econometrics 检验线性组合 假设我们要检验是否一个参数等于另一个参数H0 : b1 = b2,而不是检验b1是否等于一个常数。 应用与构造t统计量相同的程序 Introductory Econometrics
Introductory Econometrics 检验线性组合 Introductory Econometrics
Introductory Econometrics 检验线性组合 需要s12带入上式,标准的程序并不报告此值。 许多软件有计算此值的选项,或是可以直接进行检验 Stata中,在reg y x1 x2 … xk后,可以输入test x1 =x2得到检验的p值 通常可以重新阐述问题来得到检验的结果 Introductory Econometrics
Introductory Econometrics 例子(vote1.raw) 假设你感兴趣的是竞选支出对选举结果的影响 voteA = b0 + b1log(expendA) + b2log(expendB) + b3prtystrA + u H0: b1 = - b2, or H0: q1 = b1 + b2 = 0 b1 = q1 – b2, so substitute in and rearrange 令b1 = q1 – b2, 带入并移项可得 voteA = b0 + q1log(expendA) + b2[log(expendB)- log(expendA) ]+ b3prtystrA + u Introductory Econometrics
Introductory Econometrics Example (cont): 这个模型与原模型相同,但是此时可以直接从回归中得到b1+b2=q1的标准误 Reg voteA lexpendA lexpendB prtystry Test lexpendA=-lexpendB 或者gen x=lexpendB-lexpendA reg lexpendA x prtystry Introductory Econometrics
Introductory Econometrics Example (cont): 参数的任何线性组合都可以用类似的手段进行检验。 关于检验参数的单个线性组合的其它例子 b1 = 1 + b2 ; b1 = 5b2 ; b1 = -1/2b2 ; etc Introductory Econometrics
Introductory Econometrics 多元回归分析:推断 (3) y = b0 + b1x1 + b2x2 + . . . bkxk + u Introductory Econometrics
Introductory Econometrics 本章提纲 OLS估计量的样本分布 单总体参数的假设检验:t检验 置信区间 参数线性组合的假设检验(一维情形) 多个线性约束的假设检验:F检验 报告回归结果 Introductory Econometrics
Introductory Econometrics Lecture Outline F检验 Introductory Econometrics
Introductory Econometrics 多线性约束 目前为止,我们讨论了对单个线性约束的假设检验(例如, b1 = 0 或 b1 = b2 ) 然而,我们也想对我们的参数作多个检验 一个典型的例子是检验“排除约束”——我们想知道是不是一组参数都等于0 Introductory Econometrics
Introductory Econometrics 检验排除约束 此时,零假设形如H0: bk-q+1 = 0, ... , bk = 0 替代假设H1: H0 为假 不能分别进行 t 检验,因为存在这样的可能性:在给定显著水平下,所有的参数都不显著,但是联合检验显著。 Introductory Econometrics
Introductory Econometrics Example(mlb1.raw) 考虑一个解释棒球联赛主力球员工资的模型 log(salary)= b0+ b1years+ b2gamesyr+ b3 bavg+b4 hrunsyr+ b5rbisyr+u, salary: 1993年棒球联赛主力球员的总工资 Years: 在联赛中的年数 Gamesyr: 每年平均比赛数 Bavg: 职业生涯击球率 Hrunsyr: 每年本垒打次数 Rbisyr: 每年击球上垒率 Introductory Econometrics
Introductory Econometrics Example H0: b3 =0, b4 = 0, b5 = 0; H1 : H0 is not true 估计方程 单独的t 检验不能拒绝H0 Introductory Econometrics
Introductory Econometrics Example 然而,如果H0是b3 =b4 =b5 = 0 ,那么对多个约束的联合检验是否可以提供不同的答案? 为什么?解释变量很可能高度相关,即使变量实际上显著,结果中的较大的标准误也可能表明参数不显著。 Introductory Econometrics
Introductory Econometrics 排除约束 对多个约束的检验成为联合假设检验 为进行检验,我们需要排除xk-q+1,, …, xk进行“约束回归”,也要包括所有的x进行“无约束”回归。 Introductory Econometrics
Introductory Econometrics 排除约束 直觉上,我们想知道加入xk-q+1,, …, xk来降低SSR是否值得 r 表示约束,ur表示无约束,q是约束个数 Introductory Econometrics
Introductory Econometrics Example 考虑一个回归,无约束情况下有5个自变量,然后估计带约束的模型,得到 Introductory Econometrics
Introductory Econometrics F 统计量 F统计量总是正的,因为约束模型的SSR不会小于无约束模型的SSR 本质上,F统计量度量的是从无约束模型变为约束模型导致的SSR的相对增量 q = number of restrictions(约束个数), or dfr – dfur n – k – 1 = dfur Introductory Econometrics
Introductory Econometrics F统计量 使用约束模型导致SSR增加是否足够大使我们可以拒绝排除假设?为了决定这一点,我们需要知道F统计量的样本分布。 自然, F ~ Fq,n-k-1其中q 代表分子的自由度, n – k – 1代表分母的自由度。 Introductory Econometrics
Introductory Econometrics The F statistic (cont) f(F) Reject H0 at a significance level if F > c 如果F > c则在a显著水平上拒绝H0 fail to reject reject (1 - a) a c F Introductory Econometrics
Introductory Econometrics Example 本例中, n-k-1=347, q=3,故F统计量 F={(198.311-183.186)/3}/(183.186/347) =9.55>3.78, the 1% level critical value 其中3.78为1%水平的临界值 拒绝联合假设 Introductory Econometrics
Introductory Econometrics 计算F统计量的步骤 估计无约束模型,得到此模型的SSR和自由度 计算约束模型中排除的变量数目q 估计约束模型,得到对应的SSR 利用F统计量公式进行计算 Introductory Econometrics
Introductory Econometrics 用R2构造 F 统计量 由于SSR可能很大而不易处理,我们有另一个有用的公式 因为SSR = SST(1 – R2) 对任何回归成立,替换SSRu和SSRur可得 Introductory Econometrics
Introductory Econometrics The Example Continued 如果我们用拟合优度来计算F 统计量,我们可以得到非常接近的值 Introductory Econometrics
Introductory Econometrics 总体显著性 排除约束的一个特殊情况是检验H0: b1 = b2 =…= bk = 0 由于只带常数项的回归得到的R2为0,此时的F 统计量应为 Introductory Econometrics
Introductory Econometrics 总结F 统计量 和t 统计量一样,p值可以通过计算适当的F分布的分位数得到。 Introductory Econometrics
Introductory Econometrics 报告回归结果 在实证研究中如何报告结果? OLS估计系数必不可少 应当解释估计得到的系数 估计系数的标准差应当与系数同时报告 应当报告回归的拟合优度 Introductory Econometrics
Introductory Econometrics 报告回归结果 Introductory Econometrics