一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验 § 4 一元线性回归模型的预测
例:一个假想的社区有70户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。 即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。 为达到此目的,将该70户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。
分析: 由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同
描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的取值大致落在一根正斜率的直线上下。这条直线称为总体回归线。
问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息? 总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。 问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息?
例2:在例1的总体中有如下一个样本, 问:能否从该样本分析收入与支出的关系? 回答:能
样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线。 该样本的散点图: 样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线。
2.1 最小二乘估计法的经典假定 2.2 参数的普通最小二乘估计 2.3 普通最小二乘估计的性质 2.4 参数估计的最大似然法(ML) §2 一元线性回归模型的参数估计 2.1 最小二乘估计法的经典假定 2.2 参数的普通最小二乘估计 2.3 普通最小二乘估计的性质 2.4 参数估计的最大似然法(ML)
考虑如下的模型: y = b0 + b1 x + u (2.1) E(u) = 0, D(u) = s2. 其中 x: 自变量 (regressor),解释变量 y: 因变量 (response),响应变量 u : 随机误差 b0, b1, s2: 未知参数 b0, b1: 回归系数 s2: 误差方差
e1, , en i.i.d., E(ui) = 0, D(ui) = s2 A.估计方法 观测数据: (x1, y1), , (xn, yn) yi = b0 + b1 xi + ui , i = 1, , n (2.2) e1, , en i.i.d., E(ui) = 0, D(ui) = s2 我们要估计 b0, b1 和 s2. 若 e 的分布已知, 可用 极大似然估计 (MLE). 否则, 可考虑 最小二乘估计 (LSE) 和其他估计方法.
假设1、解释变量X是确定性变量,不是随机变量; 2.1 最小二乘估计法的经典假定 假设1、解释变量X是确定性变量,不是随机变量; 假设2、随机误差项u具有零均值、同方差和不序列相关性: E(ui)=0 i =1,2, …,n Var (ui)=u2 i =1,2, …,n Cov(ui, uj)=0 i≠j i,j = 1,2, …,n 假设3、u服从零均值、同方差的正态分布 ui~N(0, u2 ) i=1,2, …,n
(3)对模型的解释变量、响应变量以及随机误差项做了正确的假定。 回归模型的正确设定有三个方面的要求: (1)选择了正确的变量进入模型; (2)对模型的形式进行正确的假定; (3)对模型的解释变量、响应变量以及随机误差项做了正确的假定。 以上假设也称为线性回归模型的经典假设或高斯(Gauss)假设,满足该假设的线性回归模型,也称为经典线性回归模型(CLRM)。
给定一组样本观测值(Xi, Yi)(i=1,2,…n)要求样本尽可能好地拟合这组值. 2.2、参数的普通最小二乘估计(OLS) 给定一组样本观测值(Xi, Yi)(i=1,2,…n)要求样本尽可能好地拟合这组值. 普通最小二乘法(OLS)给出的判断标准是:二者之差的平方和 最小。
方程组(*)称为正规方程组(normal equations)。
记 上述参数估计量可以写成: 称为OLS估计量的离差形式。 在计量经济学中,往往以小写字母表示对均值的离差。
由于参数的估计结果是通过最小二乘法得到的,故称为普通最小二乘估计量。
2.3、普通最小二乘估计的性质 当模型参数估计出后,需考虑参数估计值的精度,即是否能代表总体参数的真值,或者说需考察参数估计量的统计性质。
一个用于考察总体的估计量,可从如下几个方面考察其优劣性: (1)线性性 即它是否是另一随机变量的线性函数; (2)无偏性 即它的均值或期望值是否等于总体的真实值; (3)有效性 即它是否在所有线性无偏估计量中具有最小方差。 这三个准则也称作估计量的小样本性质。 拥有这类性质的估计量称为最佳线性无偏估计量(BLUE)。
高斯—马尔可夫定理(Gauss-Markov theorem) 在给定经典线性回归的假定下,最小二乘估计量是具有最小方差的线性无偏估计量。
证: 易知 故 同样地,容易得出
(2)证明最小方差性 其中,ci=ki+di,di为不全为零的常数 则容易证明 普通最小二乘估计量称为最佳线性无偏估计量(BLUE)。
代表随机干扰项 的方差,即 。但是 是一个未知的参数,故 的真实方差是无法算出来的,所以必须找一个 的估计值 进行替代。 已知在经典假定下,随机干扰项 服从正态分布,所以响应变量 服从正态分布,则OLS估计量 服从正态分布,且: 代表随机干扰项 的方差,即 。但是 是一个未知的参数,故 的真实方差是无法算出来的,所以必须找一个 的估计值 进行替代。
可以证明 的最小二乘估计量为: 它是关于 的一个无偏估计量,其中n是样本容量。因此 的方差估计分别为:
3.1 对模型的经济意义的检验 3.2 拟合优度检验 3.3 回归系数的假设检验 3 一元线性回归模型的统计检验 3.1 对模型的经济意义的检验 3.2 拟合优度检验 3.3 回归系数的假设检验
3.1 对模型的经济意义的检验 对模型的经济意义检验主要检验模型参数估计量在经济意义上的合理性。主要方法是将模型参数的估计量与预先拟定的理论期望值进行比较,包括参数估计量的符号、大小、相互之间的关系以判断其合理性。
3.2 拟合优度检验 拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验。 度量拟合优度的指标:确定性系数(可决系数)R2 问题:采用普通最小二乘估计方法,已经保证了模型最好地拟合了样本观测值,为什么还要检验拟合程度?
1、总离差平方和的分解 已知由一组样本观测值(Xi,Yi),i=1,2…,n得到如下样本回归直线
如果Yi=Ŷi 即实际观测值落在样本回归“线”上,则拟合最好。 可认为,“离差”全部来自回归线,而与“残差”无关。
对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明: 记 总体平方和 回归平方和 残差平方和
Y的观测值围绕其均值的总离差可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。 TSS=ESS+RSS Y的观测值围绕其均值的总离差可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。 在给定样本中,TSS不变, 如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此 拟合优度:回归平方和ESS/Y的总离差TSS
2、确定性系数 R2 统计量 确定性系数的取值范围:[0,1] R2越接近1,说明实际观测点离样本线越近,拟合优度越高。
3.3 回归系数的假设检验 考察了拟合程度之后,还需要对回归模型中解释变量与被解释变量之间的线性关系是否显著成立做检验,即检验所选择解释变量与截距项是否对响应变量有显著的线性影响。 变量的显著性检验所应用的方法是数理统计学中的假设检验。 在假设检验的基础上,有两个互为补充的方法,分别是变量的显著性检验和置信区间。
1、显著性检验法(t 检验) 显著性检验指的是利用样本结果,来证实一个原假设真伪的一种检验程序。回归方程的参数估计量 服从正态分布:
检验步骤: H0: 1=0, H1:10 (2)以原假设H0构造t统计量,并由样本计算其值 (4) 比较,判断 (1)对总体参数提出假设 H0: 1=0, H1:10 (2)以原假设H0构造t统计量,并由样本计算其值 (3)给定显著性水平,查t分布表,得临界值t /2(n-2) (4) 比较,判断 若 |t|> t /2(n-2),则拒绝H0 ,接受H1 ; 若 |t| t /2(n-2),则拒绝H1 ,接受H0 ;
对于一元线性回归方程中的0,可构造如下t统计量进行显著性检验: 在上述例3.1中,首先计算2的估计值
|t1|>2.12,这说明了解释变量货币供应量在95%的置信程度下对商品房销售价格的影响是显著的,即通过了变量的显著性检验。 15.587 0455 709 ˆ 1 = b S t . 83.775 ˆ =12.129 1016.14 = b S t 给定显著性水平=0.05,查t分布表得临界值 t 0.025(16)=2.12 |t1|>2.12,这说明了解释变量货币供应量在95%的置信程度下对商品房销售价格的影响是显著的,即通过了变量的显著性检验。 |t0|>2.12,说明了截距项在95%的置信程度下对商品房销售平均价格的影响是显著的。
2、回归系数 的置信区间 如果存在这样一个区间,称之为置信区间; 1-称为置信系数(置信度), 称为显著性水平;置信区间的端点称为置信限或临界值。
一元线性模型中,i (i=1,2)的置信区间: 在变量的显著性检验中已经知道: 意味着,如果给定置信度1-,从分布表中查得自由度为n-2的临界值,那么t值处在(-t/2, t/2)的概率是1- 。表示为: 即
于是得到1-的置信度下, i的置信区间是
1-的置信度下, i的置信区间: 在例3-1中 由于 于是,1、0的置信区间分别为: (0.613,0.806) (838.533,1193.739)
4 一元线性回归模型的预测 4.1 均值预测 4.2 个值预测
(1)均值预测(mean prediction)是指对于给定的值来预测均值,也就是预测总体回归线本身的点。 (2)个值预测(individual prediction)是指对一个特定的值来预测的一个个别值。
3.5.1 均值预测 对总体回归函数Y=0+1X,X=X0时 可以证明
其中 于是,在1-的置信度下,总体均值E(Y|X0)的置信区间为
3.5.2 个值预测 对总体回归模型Y=0+1X+u,当X=X0时 由 Y0=0+1X0+u0 知: 于是
式中 : 从而在1-的置信度下, Y0的置信区间为