Download presentation
Presentation is loading. Please wait.
Published by峥 邴 Modified 8年之前
1
第 3 章 多元线性回归 3.1 多元线性回归模型 3.2 回归参数的估计 3.3 参数估计量的性质 3.4 回归方程的显著性检验 3.5 中心化和标准化 3.6 相关阵与偏相关系数 3.7 本章小结与评注
2
3.1 多元线性回归模型 一、多元线性回归模型的一般形式 y=β 0 +β 1 x 1 +β 2 x 2 +…+β p x p +ε
3
3.1 多元线性回归模型 一、多元线性回归模型的一般形式 对 n 组观测数据 (x i1, x i2,…,x ip ; y i ), i=1,2,…,n, 线性回归模型表示为 :
4
3.1 多元线性回归模型 一、多元线性回归模型的一般形式 写成矩阵形式为 : y=Xβ+ε, 其中,
5
3.1 多元线性回归模型 二、多元线性回归模型的基本假定 1. 解释变量 x 1,x 2,…,x p 是确定性变量, 不是随机变量, 且要求 rk(X)=p+1 < n 。表明设计矩阵 X 中的自变量列之间不相关, X 是一满秩矩阵。 2. 随机误差项具有 0 均值和等方差, 即 这个假定称为 Gauss-Markov 条件
6
3.1 多元线性回归模型 二、多元线性回归模型的基本假定 3. 正态分布的假定条件为 : 用矩阵形式 (3.5) 式表示为 : ε ~ N(0, 2 I n ) y ~ N(Xβ, 2 I n ) E(y)=Xβ var(y)= 2 I n
7
3.1 多元线性回归模型 三、多元线性回归方程的解释 y 表示空调机的销售量, x 1 表示空调机的价格, x 2 表示消费者可用于支配的收入。 y=β 0 +β 1 x 1 +β 2 x 2 +ε E(y)=β 0 +β 1 x 1 +β 2 x 2 在 x 2 保持不变时, 有 在 x 1 保持不变时, 有
8
3.1 多元线性回归模型 三、多元线性回归方程的解释 考虑国内生产总值 GDP 和三次产业增加值的关系, GDP=x 1 + x 2 + x 3 现在做 GDP 对第二产业增加值 x 2 的一元线性回归, 得回归方程
9
3.1 多元线性回归模型 年份 GDP 第一产业 增加值 x1 第二产业 增加值 x2 第三产业 增加值 x3 199018 547.95 017.07 717.45 813.5 199121 617.85 288.69 102.27 227.0 199226 638.15 800.011 699.59 138.6 199334 634.46 882.116 428.511 323.8 199446 759.49 457.222 372.214 930.0 199558 478.111 993.028 537.917 947.2 199667 884.613 844.233 612.920 427.5 199774 462.614 211.237 222.723 028.7 199878 345.214 552.438 619.325 173.5 199982 067.514 472.040 557.827 037.7 200089 468.114 628.244 935.329 904.6 200197 314.815 411.848 750.033 153.0 2002105 172.316 117.352 980.236 074.8 2003117 390.216 928.161 274.139 188.0 2004136 875.920 768.172 387.243 720.6
10
3.1 多元线性回归模型 三、多元线性回归方程的解释 建立 GDP 对 x 1 和 x 2 的回归,得二元回归方程 =2 914.6+0.607 x 1 +1.709 x 2 你能够合理地 解释两个回归 系数吗 ?
11
3.2 回归参数的估计 一、回归参数的普通最小二乘估计 最小二乘估计要寻找
12
3.2 回归参数的估计 一、回归参数的普通最小二乘估计
13
3.2 回归参数的估计 一、回归参数的普通最小二乘估计 经整理后得用矩阵形式表示的正规方程组 移项得 存在时,即得回归参数的最小二乘估计为:
14
3.2 回归参数的估计 二、回归值与残差 为回归值 称为帽子矩阵,其主对角线元素记为 h ii , 则
15
3.2 回归参数的估计 二、回归值与残差 此式的证明只需根据迹的性质 tr(AB)=tr(BA), 因而
16
3.2 回归参数的估计 二、回归值与残差 cov(e,e)=cov( ( I-H ) Y, ( I-H ) Y) = ( I-H ) cov(Y,Y) ( I-H ) ′ =σ 2 ( I-H ) I n ( I-H ) ′=σ 2 ( I-H ) 得 D(e i )=(1-h ii )σ 2 , i=1,2,…,n
17
3.2 回归参数的估计 二、回归值与残差 是 σ 2 的无偏估计
18
3.2 回归参数的估计 三 、回归参数的最大似然估计 y ~ N(Xβ,σ 2 I n ) 似然函数为 等价于使 (y-Xβ)′(y-Xβ) 达到最小, 这又完全与 OLSE 一样
19
3.2 回归参数的估计 例 3.1 国际旅游外汇收入是国民经济发展的重要组成部分, 影响一个国家或地区旅游收入的因素包括自然、文化、社会、 经济、交通等多方面的因素,本例研究第三产业对旅游外汇 收入的影响。《中国统计年鉴》把第三产业划分为 12 个组 成部分,分别为 x 1 农林牧渔服务业,x 2 地质勘查水利管理 业,x 3 交通运输仓储和邮电通信业,x 4 批发零售贸易和餐饮 业,x 5 金融保险业,x 6 房地产业,x 7 社会服务业,x 8 卫生体育和社 会福利业, x 9 教育文化艺术和广播,x 10 科学研究和综合艺 术,x 11 党政机关, x 12 其他行业。采用 1998 年我国 31 个省、 市、自治区的数据,以国际旅游外汇收入(百万美元)为因 变量 y ,以如上 12 个行业为自变量做多元线性回归,数据见 表 3.1 ,其中自变量单位为亿元人民币。
20
3.2 回归参数的估计
21
3.3 参数估计量的性质 性质 1 是随机向量 y 的一个线性变换。 性质 2 是 β 的无偏估计。
22
3.3 参数估计量的性质
23
当 p =1 时
24
3.3 参数估计量的性质 性质 4 Gauss-Markov 定理 预测函数 是 的线性函数 Gauss-Markov 定理 在假定 E(y)=Xβ, D(y)=σ 2 I n 时,β 的任一线性函 数 的最小方差线性无偏估计 (Best Lnear Unbiased Estimator 简记为 BLUE) 为 c′, 其中 c 是任一 p+1 维向量, 是 β 的最小二乘估计。
25
3.3 参数估计量的性质 第一,取常数向量 c 的第 j ( j=0,1,…,n )个分量为 1 ,其余 分量为 0 ,这时 G-M 定理表明最小二乘估计是 β j 的最小方差 线性无偏估计。 第二,可能存在 y 1, y 2, …, y n 的非线性函数,作为 的 无偏估计,比最小二乘估计 的方差更小。 第三,可能存在 的有偏估计量,在某种意义(例如 均方误差最小)下比最小二乘估计 更好。 第四,在正态假定下, 是 的最小方差无偏估计。 也就是说,既不可能存在 y 1, y 2, …, y n 的非线性函数,也不 可能存在 y 1, y 2, …, y n 的其它线性函数,作为 的无偏估 计,比最小二乘估计 方差更小。
26
3.3 参数估计量的性质 性质 5 cov (,e)=0,e)=0 此性质说明 与 e 不相关, 在正态假定下等价于与 e 独立, 从而与 独立。 性质 6 在正态假设 (1) (2)
27
3.4 回归方程的显著性检验 一、 F 检验 H 0 :β 1 =β 2 =…=β p =0 SST = SSR + SSE 当 H 0 成立时服从
28
3.4 回归方程的显著性检验 一、 F 检验 方差来源自由度平方和均方 F值F值 P值P值 回归 残差 总和 p n-p-1 n-1 SSR SSE SST SSR/p SSE/(n-p-1) P(F>F 值 ) =P 值
29
3.4 回归方程的显著性检验 二、回归系数的显著性检验 H 0j :β j =0, j=1,2,…,p ~N( β,σ 2 (X' X ) -1 ) 记 ( X' X) -1 = ( c ij ) i,j=0,1,2,…,p 构造 t 统计量 其中
30
3.4 回归方程的显著性检验 二、回归系数的显著性检验 (剔除 x 1 )
31
3.4 回归方程的显著性检验 二、回归系数的显著性检验
32
3.4 回归方程的显著性检验 二、回归系数的显著性检验 从另外一个角度考虑自变量 x j 的显著性。 y 对自变量 x 1,x 2,…,x p 线性回归的残差平方和为 SSE ,回归 平方和为 SSR ,在剔除掉 x j 后,用 y 对其余的 p-1 个自变量 做回归,记所得的残差平方和为 SSE ( j ) ,回归平方和为 SSR ( j ) ,则 自变量 x j 对回归的贡献为 ΔSSR ( j ) =SSR-SSR ( j ) , 称为 x j 的偏回归平方和。由此构造偏 F 统计量
33
3.4 回归方程的显著性检验 二、回归系数的显著性检验 当原假设 H 0j : β j =0 成立时,( 3.42 )式的偏 F 统计量 F j 服从自由度为 (1,n-p-1) 的 F 分布,此 F 检验与( 3.40 )式的 t 检验是一致的,可以证明 F j =t j 2
34
3.4 回归方程的显著性检验 三、回归系数的置信区间 可得 β j 的置信度为 1-α 的置信区间为:
35
3.4 回归方程的显著性检验 四、拟合优度 决定系数为: y 关于 x 1,x 2,…,x p 的样本复相关系数
36
3.5 中心化和标准化 一、中心化 经验回归方程 经过样本中心 将坐标原点移至样本中心,即做坐标变换: 回归方程转变为: 回归常数项为
37
3.5 中心化和标准化 二、标准化回归系数 当自变量的单位不同时普通最小二乘估计的回归系 数不具有可比性,例如有一回归方程为 : 其中 x 1 的单位是吨, x 2 的单位是公斤
38
3.5 中心化和标准化 二、标准化回归系数 样本数据的标准化公式为: 得标准化的回归方程
39
3.5 中心化和标准化 二、标准化回归系数 标准化 回归系数
40
3.6 相关阵与偏相关系数 一、样本相关阵 自变量样本相关阵增广的样本相关阵为:
41
3.6 相关阵与偏相关系数 一、样本相关阵 YX1X2X3X4X5X6X7X8X9X10X11X12 Y 1.0000.2600.3420.5800.4790.5180.5300.7410.3790.5750.6730.2570.038 X1 0.2601.0000.6400.6910.7380.5820.5190.6630.6910.7190.1500.7580.301 X2 0.3420.6401.0000.7730.6580.5020.4640.6020.6600.6860.1180.7600.337 X3 0.5800.6910.7731.0000.9340.7420.7100.8850.8670.8890.3140.8550.457 X4 0.4790.7380.6580.9341.0000.7800.7430.8870.9260.8920.3480.8490.437 X5 0.5180.5820.5020.7420.7801.0000.9890.7400.7900.8500.6300.7050.515 X6 0.5300.5190.4640.7100.7430.9891.0000.7030.7530.8210.6460.6660.493 X7 0.7410.6630.6020.8850.8870.7400.7031.0000.7810.8340.5410.6490.190 X8 0.3790.6910.6600.8670.9260.7900.7530.7811.0000.9310.4040.9060.548 X9 0.5750.7190.6860.8890.8920.8500.8210.8340.9311.0000.5690.8950.533 X10 0.6730.1500.1180.3140.3480.6300.6460.5410.4040.5691.0000.2410.155 X11 0.2570.7580.7600.8550.8490.7050.6660.6490.9060.8950.2411.0000.613 X12 0.0380.3010.3370.4570.4370.5150.4930.1900.5480.5330.1550.6131.000
42
3.6 相关阵与偏相关系数 二、偏判定系数 当其他变量被固定后, 给定的任两个变量之间的 相关系数, 叫偏相关系数。 偏相关系数可以度量 p +1 个变量 y, x 1, x 2, x p 之中 任意两个变量的线性相关程度, 而这种相关程度是在 固定其余 p -1 个变量的影响下的线性相关。
43
3.6 相关阵与偏相关系数 二、偏判定系数 偏判定系数测量在回归方程中已包含若干个自 变量时,再引入某一个新的自变量后 y 的剩余变差的 相对减少量,它衡量 y 的变差减少的边际贡献。
44
3.6 相关阵与偏相关系数 二、偏判定系数 以 x 1 表示某种商品的销售量, x 2 表示消费者人均可支配收入, x 3 表示商品价格。 从经验上看,销售量 x 1 与消费者人均可支配收入 x 2 之 间应该有正相关,简单相关系数 r 12 应该是正的。但 是如果你计算出的 r 12 是个负数也不要感到惊讶,这 是因为还有其它没有被固定的变量在发挥影响,例 如商品价格 x 3 在这期间大幅提高了。反映固定 x 3 后 x 1 与 x 2 相关程度的偏相关系数 r 12 ; 3 会是个正数。
45
3.6 相关阵与偏相关系数 1 .两个自变量的偏判定系数 二元线性回归模型为: y i =β 0 +β 1 x i1 +β 2 x i2 +ε i 记 SSE ( x 2 )是模型中只含有自变量 x 2 时 y 的残差平方和, SSE( x 1 , x 2 ) 是模型中同时含有自变量 x 1 和 x 2 时 y 的残差平方和。 因此模型中已含有 x 2 时再加入 x 1 使 y 的剩余变差的相对减小量为: 此即模型中已含有 x 2 时, y 与 x 1 的偏判定系数。
46
3.6 相关阵与偏相关系数 1 .两个自变量的偏判定系数 同样地,模型中已含有 x 1 时, y 与 x 2 的偏判定系数为:
47
3.6 相关阵与偏相关系数 2. 一般情况 在模型中已含有 x 2, …, x p 时, y 与 x 1 的偏判定系数为:
48
3.6 相关阵与偏相关系数 三、偏相关系数 偏判定系数的平方根称为偏相关系数, 其符号与相应的回归系数的符号相同 。 例 3.2 研究北京市各经济开发区经济发展与招商投资的 关系,因变量 y 为各开发区的销售收入(百万元),选取两个 自变量, x 1 为截至 1998 年底各开发区累计招商数目, x 2 为招商企业注册资本(百万元)。 表中列出了至 1998 年底招商企业注册资本 x 2 在 5 亿至 50 亿元的 15 个开发区的数据。
49
3.6 相关阵与偏相关系数 三、偏相关系数 北京开发区数据 x1x2yx1x2y 253547.79553.967671.13122.24 20896.34208.555322863.321400 6750.323.1751160464 10012087.052815.440862.757.5 5251639.311052.12187672.99224.18 8253357.73427122901.76538.94 120808.47442.82743546.182442.79 28520.2770.12
50
3.6 相关阵与偏相关系数 三、偏相关系数 偏相关系数表
51
3.6 相关阵与偏相关系数 三、偏相关系数 用 y 与 x 1 做一元线性回归时, x 1 能消除 y 的变差 SST 的比例为 再引入 x 2 时, x 2 能消除剩余变差 SSE ( X 1 )的比例为 因而自变量 x 1 和 x 2 消除 y 变差的总比例为 =1-(1-0.651)(1-0.546)=0.842=84.2% 。 这个值 84.2% 恰好是 y 对 x 1 和 x 2 二元线性回归的判定系数 R 2
52
3.6 相关阵与偏相关系数 三、偏相关系数 对任意 p 个变量 x 1,x 2,…,x p 定义它们之间的偏相关系数 其中符号 Δ ij 表示相关阵第 i 行第 j 列元素的代数余子式 验证
53
3.7 本章小结与评注 例 3.3 中国民航客运量的回归模型。 y— 民航客运量 ( 万人 ), x 1 — 国民收入 ( 亿元 ), x 2 — 消费额 ( 亿元 ), x 3 — 铁路客运量 ( 万人 ), x 4 — 民航航线里程 ( 万公里 ), x 5 — 来华旅游入境人数 ( 万人 ) 。 根据《 1994 年统计摘要》获得 1978-1993 年统计数据
54
3.7 本章小结与评注 年份 yx1x2x3x4x5 1978231301018888149114.89180.92 1979298335021958638916.00420.39 1980343368825319220419.53570.25 1981401394127999530021.82776.71 1982445425830549992223.27792.43 19833914736335810604422.91947.70 19845545652390511035326.021285.22 19857447020487911211027.721783.30 19869977859555210857932.432281.95 198713109313638611242938.912690.23 1988144211738803812264537.383169.48 1989128313176900511380747.192450.14 199016601438496639571250.682746.20 1991217816557109699508155.913335.65 1992288620223129859969383.663311.50 19933383248821594910545896.084152.70
55
3.7 本章小结与评注
Similar presentations