多元线性回归分析
古典线性回归模型的假定 为了得到OLS估计量的良好性质,“古典线性回归模型”(Classical Linear Regression Model) 作了如下假定。
假设1:给定X1i, X2i,… Xki时,εi的条件分布均值为零。 即:随机误差项具有零均值。
假设2 随机误差项彼此之间不相关 假定3 球型扰动项(spherical disturbance), 即对于解释变量的所有观测值,随机误差项有相同的方差。扰动项满足“同方差”、“无自相关”的性质
假定4: 不存在“严格多重共线性”(strict multicolinearity),即数据矩阵满列秩(full column rank)。 这意味着,数据矩阵的各列向量为线性无关,即不存在某个解释变量为另一解释变量的倍数,或可由其他解释变量线性表出的情形。 解释变量Xi之间不存在精确的线形关系,即解释变量的样本观测值矩阵X是满秩矩阵,应满足关系式: rank(X)=k+1<n 可以理解为各X之间互不相关(无多重共线性)
假设5 随机误差项服从正态分布,Y也服从正态分布。
多元回归中OLS估计量的分布 每抽取一组样本就会有一组相应的回归系数 ,因此, 一定不是常数,而是随机变量,并且具有一定的概率分布。 每抽取一组样本就会有一组相应的回归系数 ,因此, 一定不是常数,而是随机变量,并且具有一定的概率分布。 同样,在多元线性回归方程中, 也是随机变量。
最小二乘估计量的性质 在满足基本假设的情况下,最小二乘估计量具有:线性性、无偏性、有效性(最小方差性)(BLUE特性)。 高斯—马尔可夫定理(Gauss-Markov theorem) 在满足基本经典线性回归的假定下,最小二乘估计量是具有最小方差的最优线性无偏估计量。
最小二乘估计量的性质 在满足基本假设的情况下,最小二乘估计量具有:线性性、无偏性、有效性(最小方差性)。 1、线性性 其中,A=(X’X)-1 X’ 为一仅与固定的X有关的常数矩阵。
2、无偏性 3、有效性(最小方差性)
部分F检验 有时我们会考虑知道部分回归方程系数是否整体显著,即除常数项以外,部分解释变量的回归系数是否都为零。例如:
还有其他各种灵活的检验 这些就需要部分F检验。
s为回归方程的标准误差
部分约束的F统计量 当检验被解释变量yt与一组解释变量x1, x2 , ... , x q是否存在回归关系时,给出的零假设与备择假设分别是 H0:1 = 2 = ... = q = 0 ; H1:i , i = 1, ..., q不全为零。
检验思路:(部分参数联合检验) 无约束模型为:方程(a) yt = 0 +1x1t + 2x2t +…+ kx k t + ut 假设约束为:有q个回归系数同时为0,方程 包含k-q个变量 受约束模型为:方程(b): yt = 0 +1x1t + 2x2t +…+ k-qx k-q t + vt
关于上述原假设的检验很简单。若从模型中去掉这q个变量,对受约束模型方程进行估计的话,得到的误差平方和RSSR肯定会比相应的无约束模型的误差平方和RSSU 大,这一点和给回归模型添加解释变量总会引起R2的增加一样。如果原假设正确,去掉这q个变量将对方程的解释能力影响不大,RSSR将比RSSU 略有增加。当然,原假设的检验依赖于限制条件的数目,即被设定为零的系数个数,以及无条件回归模型的自由度。
如果原假设成立,那么模型(b)中的q个变量的系数均不显著,模型(a)与模型(b)的残差平方和近似相等。如果备择假设成立,那么q个变量中至少有一个变量是显著的,而模型(b)中的随机扰动项vt包含了这些显著性的变量,因此模型(b)的残差平方和会明显高于模型(a)的残差平方和。
模型(a)的残差平方和表示为RSSU(其中U表示没有约束(Unrestricted))。 模型(b)的残差平方和表示为RSSR(其中R表示带有约束(Restricted))。
因此,可以根据残差项方差的变化来检验假设是否是正确的。如果(RSSR - RSSU)比较大(小),则倾向于拒绝(接受)原假设。正式的统计检验是通过构建如下F 统计量来完成的。
在H0成立条件下,有 F F (q, n – k – 1) 由检验思路可以看出,F统计量越大(小),我们越倾向于拒绝(接受)原假设。因此,这是右单端检验。检验可以临界值方法和构建p值的方法来完成。设检验水平为,检验规则如下。 临界值法:若F F (q, n – k – 1),则接受H0;若F > F (q, n – k – 1),则拒绝H0。 P值法:若P(x > F ) > α,接受H0;若P(x > F ) < α,拒绝H0。
拒绝H0意味着q个约束中肯定有解释变量与yt存在回归关系。若F检验的结论是接受H0,则说明q个解释变量都不与yt存在回归关系。此时,假设检验应该到此为止。当F检验的结论是拒绝H0时,应该进一步做t检验,从而确定模型中哪些是重要解释变量,哪些是非重要解释变量。
两个回归方程具有相同的因变量,因此TSSU=TSSR
F检验的例子 test命令 例一 sysuse auto, clear reg price mpg weight length 1。检验参数的联合显著性 2。分别检验各参数的显著性
例二: use wage2, clear reg lnwage educ tenure exper exper2 1。教育(educ)和工作时间(tenure)对工资的影响相同。 2。工龄(exper)对工资没有影响 3。检验 educ和 tenure的联合显著性
例三:打开数据production,完成道格拉斯生产函数的估计。 use production,clear reg lny lnl lnk
1. 检验lnL(a)和lnL(b)的联合显著性 2. 劳动占比a为0.8,资本占比b为0.2。 3. 生产过程规模报酬不变。
总体回归模型: 总体回归函数: 样本回归模型: 样本回归函数: