多元线性回归分析
在研究某个经济现象时,如果设定一个变量,该变量受其他因素的影响,该变量称为被解释变量。影响它的因素被称为解释变量。上一章我们讨论了仅有一个解释变量对被解释变量影响的例子。实际上,影响一个经济变量的因素可能会很多,因此,本章我们考虑具有多个解释变量的回归模型,即多元回归模型。
例一:研究某种进口商品的数量(或金额) 解释变量有哪些? 解释变量:进口商品价格(到岸价、国内市场价)、国产替代品价格、收入水平、汇率水平等。
例二:研究某城市房地产需求 解释变量有哪些? 解释变量:收入;资产;住房价格或指数;住房价格指数变化率;物价指数、通货膨胀和相关预期;利率等。
例三:研究劳动者收入差异 解释变量有哪些? 解释变量:性别,教育年限,工龄,行业,年龄,种族,职位,地区。
如果选取的解释变量太少,或者很多重要的解释变量没有考虑到,就会产生遗漏变量偏差问题。
多元线性回归模型 多元线性回归模型:表现在线性回归模型中的解释变量有多个。 总体回归模型
如何理解“控制住”某个变量 当我们分析某个解释变量对被解释变量的影响时,往往假定其他解释变量不发生变化。有时又称解释变量对被解释变量的“偏效应”。
二式减一式,得:
Price=14542+4.36*weight-104.8*length-86.7*mpg+ε 对于汽车数据,例如我们有如下方程: Price=14542+4.36*weight-104.8*length-86.7*mpg+ε 如何理解4.36?
或者说i给出了Xi的单位变化对Y值的“直接”或“净”(不含其他变量)影响。
假设(X1i,X2i,…Xki;Yi)i=1…n是总体的n次独立样本观测值。 其中:k为解释变量的数目,j称为回归参数(regression coefficient)。
习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样: 模型中解释变量的数目为(k+1)
我们先考虑最简单的多元线性回归模型:二元线性回归
OLS估计量的最优化问题仍为残差平方和最小化: 此处先不进行具体推导
几何解释
例 (Cobb-Douglas生产函数) Cobb and Douglas (1928)使用美国1899-1922年制造业产出(y)、资本(k)与劳动力(l)的数据,估计如下生产函数: 为乘积形式的扰动项,而下标t表示时间(年)。
上式似乎非线性,但只要两边取对数,即可转换为线性模型: 数据集cobb_douglas.dta提供了Cobb and Douglas (1928)的原始数据。 由于样本容量较小,首先看一下数据集中的观测值。 use cobb_douglas.dta, clear list
其中,变量k,l与y均将1899年的取值标准化为100(以1899年为指数的基期),而lnk,lnl与lny分别为其对数值。 Stata中进行二元回归的命令为 regress y x1 x2 其中,“y”为被解释变量,而“x1 x2”为解释变量。
对方程进行二元回归估计,可输入如下命令: reg lny lnk lnl lnk (资本对数)与lnl (劳动力对数)的系数分别为0.233与0.807,且拟合优度R2高达0.957。 这种形式的生产函数后来被称为“柯布-道格拉斯生产函数”(Cobb-Douglas production function)。
根据上表的回归结果,可得拟合方程: 做完OLS回归后,计算拟合值与残差。 predict lny1,xb predict e1,res list lny lny1 e1 line lny lny1 year
假设共有n个样本,则方程展开之后的形式是 i=1,2…,n 注意:X的第一个下标k表示第k个解释变量,第二个下标n表示第n个样本。
将n个样本的方程全部展开,得到n个方程,k+1个变量的方程组。 Y1=β0+β1x11+β2x21+…+βkxk1+ε1 Y2=β0+β1x12+β2x22+…+βkxk2+ ε 2 … … … … … … … Yn=β0+β1x1n+β2x2n+…+βkxkn+ ε n
总体回归模型n个随机方程的矩阵表达式为 令 原方程可以简写为
样本回归函数:用OLS方法估计总体回归函数 其随机表示式: ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项εi的近似替代。 样本回归函数的矩阵表达: 或 其中:
普通最小二乘估计 对于随机抽取的n组观测值 如果样本函数的参数估计值已经得到,则有: i=1,2…n
几个重要的计算结果
X’X=
根据最小二乘原理,参数估计值应该是下列方程组的解 其中
此最小化问题的一阶条件为: 将上式展开,并移项,得:
于是得到关于待估参数估计值的正规方程组:
正规方程组的矩阵形式
即 由于X’X为非奇异矩阵,故有
将上述过程用矩阵表示如下:定义残差:
即求解方程组: 得到: 于是:
此处用到了矩阵的微商的概念: 假设A为n阶方阵 特别的,当A’=A,即A为对称矩阵
例题一 打开auto.dta数据,建立价格price对weight、length、mpg、foreign的多元线性回归方程。 1. 利用矩阵手动计算 2. 使用regress命令
Stata的矩阵操作 将一个或者多个变量转换成为矩阵 mkmat 变量名表,mat(矩阵名) 例如: 1. 将price转换为矩阵,并命名为w1 mkmat price, mat(w1) mat list w1 2. 将weight和length转换为矩阵,并命名为w2 mkmat weight length, mat(w2) mat list w2
gen cons = 1 mkmat price, mat(y) mkmat cons weight length mpg foreign, mat(X) mat b = inv(X'*X)*X'*y mat list b
例题二 打开wage1.dat。其中包含wage (工资)、educ(受教育年限)、exper(工作经验)、tenure(任现职年限)。建立多元线性回归方程描述educ、exper、tenure对wage的影响。 (回去练习)
几个重要结论 以矩阵形式表示可得正规方程组
因此,正规方程组可简洁地写为
回归标准误差 对于误差项εi,我们更关心它在回归线附近的离散程度,即标准差。希望标准差越小越好。 由于εi本身是不可知的,因此,实际上s εi是无法获得的,为了模拟其数值大小,我们用ei的标准差作为εi的标准差的估计值,称为回归的标准误差。
在一元回归方程中,我们有:
在多元回归方程中,只要将公式改为:
多元回归的拟合优度 总离差平方和的分解 总体平方和(Total Sum of Squares) 回归平方和(Explained Sum of Squares) 残差平方和(Residual Sum of Squares )
可以推导: TSS=ESS+RSS
称 R2 为(样本)的可决系数/判定系数/拟合优度(coefficient of determination)。 拟合优度的取值范围:[0,1] R2越接近1,说明实际观测点离样本线越近,拟合优度越高。
但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。 问题: 在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大。 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。
由于每次向回归方程中增加解释变量,R2必然只增不减。为此,可以通过调整自由度对解释变量过多进行“惩罚”,因此,可以定义 “调整的拟合优度”
1。如果K>=1,则 adj R2<=R2( ( n一1)/(n-k-1)总是大于1) 4。大样本下(n很大),adj R2<=R2近似相等。
t检验的步骤 计算检验统计量,标准化的检验统计量的公式为: 给定显著性水平,查表得出相应的临界值z或z/2, t或t/2
3。作出决策 双侧检验:|统计量| > 临界值,拒绝H0 左侧检验:统计量 < -临界值,拒绝H0
我们需要构造一个t统计量: t=(估计量-假设值)/估计量的标准误差
t检验的步骤 H0: i=0, H1:i0 (2)以原假设H0构造t统计量,并由样本计算其值 (4) 比较,判断 (1)对总体参数提出假设 H0: i=0, H1:i0 (2)以原假设H0构造t统计量,并由样本计算其值 (3)给定显著性水平,查t分布表,得临界值t /2(n-k-1) (4) 比较,判断 若 |t|> t /2(n-k-1),则拒绝H0 ,接受H1 ; 若 |t| t /2(n-k-1),则拒绝H1 ,接受H0 ;
而 是它的标准误差。
t检验结果判断 1. 若 |t|> t /2(n-k-1),则拒绝H0 ,接受H1 ; 这需要不断的查表,带来了很大麻烦。在大样本理论中,当n很大时,t分布趋近于正态分布,因此,往往将t的查表值锁定为1.96。 2. 更简单的方法是利用p值,p值得临界值为0.05,大于则接受原假设,小于等于拒绝原假设。 利用t检验对以往回归系数的显著性进行重新判定。
用P 值决策 (P-value) P值告诉我们:如果原假设是正确的话,我们得到目前这个样本数据结论的可能性有多大,如果这个可能性很小,就应该拒绝原假设。 被称为观察到的(或实测的)显著性水平 决策规则:若p值<, 拒绝 H0
双侧检验的P 值 / 2 Z 拒绝H0 临界值 计算出的样本统计量 1/2 P 值
如果你认为这个概率太小了,就可以拒绝原假设,因为如果原假设正确的话,几乎不可能抓到这样的一个样本,既然抓到了,就表明这样的样本不在少数,所以原假设是不对的。 因此,p值越小,你拒绝原假设的理由就越充分。
相比传统方法,P值提供了更多的信息,它让我们可以选择任意水平来评估结果是否具有统计上的显著性,从而可根据我们的需要来决定是否要拒绝原假设。P值提供了拒绝原假设的实际的显著性水平。
传统的显著性水平,如1%、5%、10%等等,已经被人们普遍接受为“拒绝原假设足够证据”的标准,我们大概可以说:10%代表有“一些证据”不利于原假设;5%代表有“适度证据”不利于原假设;1%代表有“很强证据”不利于原假设 一般在计量经济学中,只要p<=0.05,即可认为落入拒绝域,拒绝原假设。
置信区间 统计方法中除了点估计意外,还有区间估计。 假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。 要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。
置信区间定义: 设θ是 一个待估参数,给定α>0 若由样本 X1, X2, …, Xn 确定的两个统计量 满足: 则称区间 是 的置信水平(置信度、置信概率)为 的置信区间. 分别称为置信下限和置信上限.
置信区间的计算方法 在变量的显著性检验中已经知道: 意味着,如果给定置信度(1-),从分布表中查得自由度为(n-k-1)的临界值,那么t值处在(-t/2, t/2)的概率是(1- )。表示为: 即
于是得到:(1-)的置信度下, i的置信区间是 当n较大时,一般将查表值固定为1.96。
1. 要求 以很大的可能被包含在区间 2. 估计的精度要尽可能的高. 如要求区间 内,就是说,概率 要尽可能大. 即要求估计尽量可靠. 1. 要求 以很大的可能被包含在区间 内,就是说,概率 要尽可能大. 即要求估计尽量可靠. 2. 估计的精度要尽可能的高. 如要求区间 长度 尽可能短,或能体现该要求的其它准则. 置信度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高精度.
由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。 置信区间的缩小,会使得出错概率增大。 同样,如果保证较大的正确的概率,只能扩大置信区间。
方程显著性的F检验 方程显著性的F检验
F检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS 由于回归平方和ESS是解释变量X联合体对被解释变量Y的线性作用的结果,所以,如果ESS/ESS的比值较大,则X的联合体对Y的解释程度高,方程中的总体系数是显著的。 因此,可通过该比值的大小对总体方程显著性进行推断。
χ2 分布和F分布 分布是由正态分布派生出来的一种分布. 定义: 设 相互独立, 都服从正态 分布N(0,1), 则称随机变量: 定义: 设 相互独立, 都服从正态 分布N(0,1), 则称随机变量: 所服从的分布为自由度为 n 的 分布. 记为
F 分布 定义: 设 X与Y相互独立, 则称统计量 服从自由度为n1及 n2 的 F 分布. n1 称为第一自由度,n2 称为第二自由度,记作: F~F(n1, n2) .
进一步根据数理统计学中的定义,如果构造一个统计量 初始定义 则该统计量服从自由度为(k,n-k-1)的F分布。
我们可以证明,在一元回归模型中,F统计量与t统计量存在关系:F≈t2 在经济计量学中,具有大分母自由度的F分布是很普遍的。当n2变为无限时,F的分母完全收敛为1,所以我们可以将分布Fn1,n2变为Fn1,∞