第 3 章 多元线性回归 3.1 多元线性回归模型 3.2 回归参数的估计 3.3 参数估计量的性质 3.4 回归方程的显著性检验 3.5 中心化和标准化 3.6 相关阵与偏相关系数 3.7 本章小结与评注
3.1 多元线性回归模型 一、多元线性回归模型的一般形式 y=β 0 +β 1 x 1 +β 2 x 2 +…+β p x p +ε
3.1 多元线性回归模型 一、多元线性回归模型的一般形式 对 n 组观测数据 (x i1, x i2,…,x ip ; y i ), i=1,2,…,n, 线性回归模型表示为 :
3.1 多元线性回归模型 一、多元线性回归模型的一般形式 写成矩阵形式为 : y=Xβ+ε, 其中,
3.1 多元线性回归模型 二、多元线性回归模型的基本假定 1. 解释变量 x 1,x 2,…,x p 是确定性变量, 不是随机变量, 且要求 rk(X)=p+1 < n 。表明设计矩阵 X 中的自变量列之间不相关, X 是一满秩矩阵。 2. 随机误差项具有 0 均值和等方差, 即 这个假定称为 Gauss-Markov 条件
3.1 多元线性回归模型 二、多元线性回归模型的基本假定 3. 正态分布的假定条件为 : 用矩阵形式 (3.5) 式表示为 : ε ~ N(0, 2 I n ) y ~ N(Xβ, 2 I n ) E(y)=Xβ var(y)= 2 I n
3.1 多元线性回归模型 三、多元线性回归方程的解释 y 表示空调机的销售量, x 1 表示空调机的价格, x 2 表示消费者可用于支配的收入。 y=β 0 +β 1 x 1 +β 2 x 2 +ε E(y)=β 0 +β 1 x 1 +β 2 x 2 在 x 2 保持不变时, 有 在 x 1 保持不变时, 有
3.1 多元线性回归模型 三、多元线性回归方程的解释 考虑国内生产总值 GDP 和三次产业增加值的关系, GDP=x 1 + x 2 + x 3 现在做 GDP 对第二产业增加值 x 2 的一元线性回归, 得回归方程
3.1 多元线性回归模型 年份 GDP 第一产业 增加值 x1 第二产业 增加值 x2 第三产业 增加值 x
3.1 多元线性回归模型 三、多元线性回归方程的解释 建立 GDP 对 x 1 和 x 2 的回归,得二元回归方程 = x x 2 你能够合理地 解释两个回归 系数吗 ?
3.2 回归参数的估计 一、回归参数的普通最小二乘估计 最小二乘估计要寻找
3.2 回归参数的估计 一、回归参数的普通最小二乘估计
3.2 回归参数的估计 一、回归参数的普通最小二乘估计 经整理后得用矩阵形式表示的正规方程组 移项得 存在时,即得回归参数的最小二乘估计为:
3.2 回归参数的估计 二、回归值与残差 为回归值 称为帽子矩阵,其主对角线元素记为 h ii , 则
3.2 回归参数的估计 二、回归值与残差 此式的证明只需根据迹的性质 tr(AB)=tr(BA), 因而
3.2 回归参数的估计 二、回归值与残差 cov(e,e)=cov( ( I-H ) Y, ( I-H ) Y) = ( I-H ) cov(Y,Y) ( I-H ) ′ =σ 2 ( I-H ) I n ( I-H ) ′=σ 2 ( I-H ) 得 D(e i )=(1-h ii )σ 2 , i=1,2,…,n
3.2 回归参数的估计 二、回归值与残差 是 σ 2 的无偏估计
3.2 回归参数的估计 三 、回归参数的最大似然估计 y ~ N(Xβ,σ 2 I n ) 似然函数为 等价于使 (y-Xβ)′(y-Xβ) 达到最小, 这又完全与 OLSE 一样
3.2 回归参数的估计 例 3.1 国际旅游外汇收入是国民经济发展的重要组成部分, 影响一个国家或地区旅游收入的因素包括自然、文化、社会、 经济、交通等多方面的因素,本例研究第三产业对旅游外汇 收入的影响。《中国统计年鉴》把第三产业划分为 12 个组 成部分,分别为 x 1 农林牧渔服务业,x 2 地质勘查水利管理 业,x 3 交通运输仓储和邮电通信业,x 4 批发零售贸易和餐饮 业,x 5 金融保险业,x 6 房地产业,x 7 社会服务业,x 8 卫生体育和社 会福利业, x 9 教育文化艺术和广播,x 10 科学研究和综合艺 术,x 11 党政机关, x 12 其他行业。采用 1998 年我国 31 个省、 市、自治区的数据,以国际旅游外汇收入(百万美元)为因 变量 y ,以如上 12 个行业为自变量做多元线性回归,数据见 表 3.1 ,其中自变量单位为亿元人民币。
3.2 回归参数的估计
3.3 参数估计量的性质 性质 1 是随机向量 y 的一个线性变换。 性质 2 是 β 的无偏估计。
3.3 参数估计量的性质
当 p =1 时
3.3 参数估计量的性质 性质 4 Gauss-Markov 定理 预测函数 是 的线性函数 Gauss-Markov 定理 在假定 E(y)=Xβ, D(y)=σ 2 I n 时,β 的任一线性函 数 的最小方差线性无偏估计 (Best Lnear Unbiased Estimator 简记为 BLUE) 为 c′, 其中 c 是任一 p+1 维向量, 是 β 的最小二乘估计。
3.3 参数估计量的性质 第一,取常数向量 c 的第 j ( j=0,1,…,n )个分量为 1 ,其余 分量为 0 ,这时 G-M 定理表明最小二乘估计是 β j 的最小方差 线性无偏估计。 第二,可能存在 y 1, y 2, …, y n 的非线性函数,作为 的 无偏估计,比最小二乘估计 的方差更小。 第三,可能存在 的有偏估计量,在某种意义(例如 均方误差最小)下比最小二乘估计 更好。 第四,在正态假定下, 是 的最小方差无偏估计。 也就是说,既不可能存在 y 1, y 2, …, y n 的非线性函数,也不 可能存在 y 1, y 2, …, y n 的其它线性函数,作为 的无偏估 计,比最小二乘估计 方差更小。
3.3 参数估计量的性质 性质 5 cov (,e)=0,e)=0 此性质说明 与 e 不相关, 在正态假定下等价于与 e 独立, 从而与 独立。 性质 6 在正态假设 (1) (2)
3.4 回归方程的显著性检验 一、 F 检验 H 0 :β 1 =β 2 =…=β p =0 SST = SSR + SSE 当 H 0 成立时服从
3.4 回归方程的显著性检验 一、 F 检验 方差来源自由度平方和均方 F值F值 P值P值 回归 残差 总和 p n-p-1 n-1 SSR SSE SST SSR/p SSE/(n-p-1) P(F>F 值 ) =P 值
3.4 回归方程的显著性检验 二、回归系数的显著性检验 H 0j :β j =0, j=1,2,…,p ~N( β,σ 2 (X' X ) -1 ) 记 ( X' X) -1 = ( c ij ) i,j=0,1,2,…,p 构造 t 统计量 其中
3.4 回归方程的显著性检验 二、回归系数的显著性检验 (剔除 x 1 )
3.4 回归方程的显著性检验 二、回归系数的显著性检验
3.4 回归方程的显著性检验 二、回归系数的显著性检验 从另外一个角度考虑自变量 x j 的显著性。 y 对自变量 x 1,x 2,…,x p 线性回归的残差平方和为 SSE ,回归 平方和为 SSR ,在剔除掉 x j 后,用 y 对其余的 p-1 个自变量 做回归,记所得的残差平方和为 SSE ( j ) ,回归平方和为 SSR ( j ) ,则 自变量 x j 对回归的贡献为 ΔSSR ( j ) =SSR-SSR ( j ) , 称为 x j 的偏回归平方和。由此构造偏 F 统计量
3.4 回归方程的显著性检验 二、回归系数的显著性检验 当原假设 H 0j : β j =0 成立时,( 3.42 )式的偏 F 统计量 F j 服从自由度为 (1,n-p-1) 的 F 分布,此 F 检验与( 3.40 )式的 t 检验是一致的,可以证明 F j =t j 2
3.4 回归方程的显著性检验 三、回归系数的置信区间 可得 β j 的置信度为 1-α 的置信区间为:
3.4 回归方程的显著性检验 四、拟合优度 决定系数为: y 关于 x 1,x 2,…,x p 的样本复相关系数
3.5 中心化和标准化 一、中心化 经验回归方程 经过样本中心 将坐标原点移至样本中心,即做坐标变换: 回归方程转变为: 回归常数项为
3.5 中心化和标准化 二、标准化回归系数 当自变量的单位不同时普通最小二乘估计的回归系 数不具有可比性,例如有一回归方程为 : 其中 x 1 的单位是吨, x 2 的单位是公斤
3.5 中心化和标准化 二、标准化回归系数 样本数据的标准化公式为: 得标准化的回归方程
3.5 中心化和标准化 二、标准化回归系数 标准化 回归系数
3.6 相关阵与偏相关系数 一、样本相关阵 自变量样本相关阵增广的样本相关阵为:
3.6 相关阵与偏相关系数 一、样本相关阵 YX1X2X3X4X5X6X7X8X9X10X11X12 Y X X X X X X X X X X X X
3.6 相关阵与偏相关系数 二、偏判定系数 当其他变量被固定后, 给定的任两个变量之间的 相关系数, 叫偏相关系数。 偏相关系数可以度量 p +1 个变量 y, x 1, x 2, x p 之中 任意两个变量的线性相关程度, 而这种相关程度是在 固定其余 p -1 个变量的影响下的线性相关。
3.6 相关阵与偏相关系数 二、偏判定系数 偏判定系数测量在回归方程中已包含若干个自 变量时,再引入某一个新的自变量后 y 的剩余变差的 相对减少量,它衡量 y 的变差减少的边际贡献。
3.6 相关阵与偏相关系数 二、偏判定系数 以 x 1 表示某种商品的销售量, x 2 表示消费者人均可支配收入, x 3 表示商品价格。 从经验上看,销售量 x 1 与消费者人均可支配收入 x 2 之 间应该有正相关,简单相关系数 r 12 应该是正的。但 是如果你计算出的 r 12 是个负数也不要感到惊讶,这 是因为还有其它没有被固定的变量在发挥影响,例 如商品价格 x 3 在这期间大幅提高了。反映固定 x 3 后 x 1 与 x 2 相关程度的偏相关系数 r 12 ; 3 会是个正数。
3.6 相关阵与偏相关系数 1 .两个自变量的偏判定系数 二元线性回归模型为: y i =β 0 +β 1 x i1 +β 2 x i2 +ε i 记 SSE ( x 2 )是模型中只含有自变量 x 2 时 y 的残差平方和, SSE( x 1 , x 2 ) 是模型中同时含有自变量 x 1 和 x 2 时 y 的残差平方和。 因此模型中已含有 x 2 时再加入 x 1 使 y 的剩余变差的相对减小量为: 此即模型中已含有 x 2 时, y 与 x 1 的偏判定系数。
3.6 相关阵与偏相关系数 1 .两个自变量的偏判定系数 同样地,模型中已含有 x 1 时, y 与 x 2 的偏判定系数为:
3.6 相关阵与偏相关系数 2. 一般情况 在模型中已含有 x 2, …, x p 时, y 与 x 1 的偏判定系数为:
3.6 相关阵与偏相关系数 三、偏相关系数 偏判定系数的平方根称为偏相关系数, 其符号与相应的回归系数的符号相同 。 例 3.2 研究北京市各经济开发区经济发展与招商投资的 关系,因变量 y 为各开发区的销售收入(百万元),选取两个 自变量, x 1 为截至 1998 年底各开发区累计招商数目, x 2 为招商企业注册资本(百万元)。 表中列出了至 1998 年底招商企业注册资本 x 2 在 5 亿至 50 亿元的 15 个开发区的数据。
3.6 相关阵与偏相关系数 三、偏相关系数 北京开发区数据 x1x2yx1x2y
3.6 相关阵与偏相关系数 三、偏相关系数 偏相关系数表
3.6 相关阵与偏相关系数 三、偏相关系数 用 y 与 x 1 做一元线性回归时, x 1 能消除 y 的变差 SST 的比例为 再引入 x 2 时, x 2 能消除剩余变差 SSE ( X 1 )的比例为 因而自变量 x 1 和 x 2 消除 y 变差的总比例为 =1-( )( )=0.842=84.2% 。 这个值 84.2% 恰好是 y 对 x 1 和 x 2 二元线性回归的判定系数 R 2
3.6 相关阵与偏相关系数 三、偏相关系数 对任意 p 个变量 x 1,x 2,…,x p 定义它们之间的偏相关系数 其中符号 Δ ij 表示相关阵第 i 行第 j 列元素的代数余子式 验证
3.7 本章小结与评注 例 3.3 中国民航客运量的回归模型。 y— 民航客运量 ( 万人 ), x 1 — 国民收入 ( 亿元 ), x 2 — 消费额 ( 亿元 ), x 3 — 铁路客运量 ( 万人 ), x 4 — 民航航线里程 ( 万公里 ), x 5 — 来华旅游入境人数 ( 万人 ) 。 根据《 1994 年统计摘要》获得 年统计数据
3.7 本章小结与评注 年份 yx1x2x3x4x
3.7 本章小结与评注