第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验 第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验 2 .5 残差分析 2 .6 回归系数的区间估计 2 .7 预测和控制 2 .8 本章小结与评注
例2 .1 表2.1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。 2 .1 一元线性回归模型 例2 .1 表2.1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。 表2.1 火灾损失表
例2.2 全国人均消费金额记作y(元); 人均国民收入记为x(元) 2 .1 一元线性回归模型 例2.2 全国人均消费金额记作y(元); 人均国民收入记为x(元) 表2.2 人均国民收入表
2 .1 一元线性回归模型
2 .1 一元线性回归模型 一元线性回归模型 此时回归方程为
2 .1 一元线性回归模型 样本观测值(x1,y1),(x2,y2),…,(xn,yn) 样本模型 回归方程 经验回归方程
一、普通最小二乘估计 (Ordinary Least Square Estimation,简记为OLSE) 2 .2 参数β0、β1的估计 一、普通最小二乘估计 (Ordinary Least Square Estimation,简记为OLSE) 最小二乘法就是寻找参数β0、β1的估计值使离差平方和达极小 称为yi的回归拟合值,简称回归值或拟合值 称为yi的残差
2 .2 参数β0、β1的估计
2 .2 参数β0、β1的估计 经整理后,得正规方程组
2 .2 参数β0、β1的估计 得OLSE 为 记
2 .2 参数 的估计 续例2.1 回归方程
2 .2 参数 的估计 似然函数 二、最大似然估计 连续型:是样本的联合密度函数: 离散型:是样本的联合概率函数。 2 .2 参数 的估计 二、最大似然估计 连续型:是样本的联合密度函数: 离散型:是样本的联合概率函数。 似然函数并不局限于独立同分布的样本。 似然函数 在假设εi~N(0,σ2)时,由(2.10)式知yi服从如下正态分布:
2 .2 参数β0、β1的估计 二、最大似然估计 y1,y2,…,yn 的似然函数为: 对数似然 函数为: 与最小二乘原理完全相同
2 .3 最小二乘估计的性质 一、线性 是y1,y2,…,yn 的线性函数 :
2 .3 最小二乘估计的性质 二、无偏性 其中用到
2 .3 最小二乘估计的性质 三、 的方差
2 .3 最小二乘估计的性质 三、 的方差 在正态假设下 GaussMarkov条件
2.4 回归方程的显著性检验 一、t 检验 原假设: H0 :β1=0 对立假设: H1 :β1≠0 由 当原假设H0 :β1=0成立时有:
2.4 回归方程的显著性检验 一、t 检验 构造t 统计量 其中
2.4 回归方程的显著性检验 二、用统计软件计算 1.例2.1 用Excel软件计算
什么是P 值? (P-value) P 值即显著性概率值 Significence Probability Value 是当原假设为真时得到比目前的 样本更极端的样本的 概率,所谓极端就是与原假设相背离 它是用此样本拒绝原假设所犯弃真错误的 真实概率,被称为观察到的(或实测的)显著性水平
双侧检验的P 值 t / 2 / 2 拒绝 拒绝 H0值 临界值 临界值 计算出的样本统计量 计算出的样本统计量 1/2 P 值
左侧检验的P 值 抽样分布 a 置信水平 拒绝域 1 - 样本统计量 H0值 临界值 计算出的样本统计量 P 值 Rejection region does NOT include critical value. a 1 - P 值 H0值 样本统计量 临界值 计算出的样本统计量
右侧检验的P 值 抽样分布 a 置信水平 拒绝域 1 - H0值 临界值 计算出的样本统计量 P 值 Rejection region does NOT include critical value. a 1 - P 值 H0值 临界值 计算出的样本统计量
利用 P 值进行检验的决策准则 若p-值 ≥ ,不能拒绝 H0 若p-值 < , 拒绝 H0 双侧检验p-值 =2×单侧检验p-值
2.4 回归方程的显著性检验 二、用统计软件计算 2. 例2.1用SPSS软件计算
2.4 回归方程的显著性检验 二、用统计软件计算 2.用SPSS软件计算
2.4 回归方程的显著性检验 三、F检验 平方和分解式 SST = SSR + SSE 构造F检验统计量
2.4 回归方程的显著性检验 方差来源 自由度 平方和 均方 F值 P值 回归 残差 总和 1 n-2 n-1 SSR SSE SST 一元线性回归方差分析表 方差来源 自由度 平方和 均方 F值 P值 回归 残差 总和 1 n-2 n-1 SSR SSE SST SSR/1 SSE/(n-2) P(F>F值) =P值
2.4 回归方程的显著性检验 四、相关系数的显著性检验
2.4 回归方程的显著性检验 四、相关系数的显著性检验
2.4 回归方程的显著性检验 四、相关系数的显著性检验 附表1 相关系数ρ=0的临界值表 n-2 5% 1% 1 0.997 1.000 附表1 相关系数ρ=0的临界值表 n-2 5% 1% 1 0.997 1.000 16 0.468 0.590 35 0.325 0.418 2 0.950 0.990 17 0.456 0.575 40 0.304 0.393 3 0.878 0.959 18 0.444 0.561 45 0.288 0.372 4 0.811 0.947 19 0.433 0.549 50 0.273 0.354 5 0.754 0.874 20 0.423 0.537 60 0.250 6 0.707 0.834 21 0.413 0.526 70 0.232 0.302 7 0.666 0.798 22 0.404 0.515 80 0.217 0.283 8 0.632 0.765 23 0.396 0.505 90 0.205 0.267 9 0.602 0.735 24 0.388 0.496 100 0.195 0.254 10 0.576 0.708 25 0.381 0.487 125 0.174 0.228 11 0.553 0.684 26 0.374 0.478 150 0.159 0.208 12 0.532 0.661 27 0.367 0.470 200 0.138 0.181 13 0.514 0.641 28 0.361 0.463 300 0.113 0.148 14 0.497 0.623 29 0.355 400 0.098 0.128 15 0.482 0.606 30 0.349 0.449 1000 0.062 0.081
2.4 回归方程的显著性检验 四、相关系数的显著性检验 用SPSS软件做相关系数的显著性检验
2.4 回归方程的显著性检验 两变量间相关程度的强弱分为以下几个等级: 当|r|≥0.8时,视为高度相关; 四、相关系数的显著性检验 两变量间相关程度的强弱分为以下几个等级: 当|r|≥0.8时,视为高度相关; 当0.5≤|r|< 0.8时,视为中度相关; 当0.3≤|r|< 0.5时,视为低度相关; 当|r|< 0.3时,表明两个变量之间的相关程度极弱, 在实际应用中可视为不相关。
2.4 回归方程的显著性检验 五、三种检验的关系 H0: b=0 H0: r=0 H0: 回归无效
2.4 回归方程的显著性检验 六、样本决定系数 可以证明
2.5 残差分析 一、残差概念与残差图 残差 误差项 残差ei是误差项ei的估计值。
2.5 残差分析 一、残差概念与残差图
2.5 残差分析 一、残差概念与残差图 图 2.6 火灾损失数据残差图
2.5 残差分析 二、残差的性质 性质1 E (ei)=0 证明:
2.5 残差分析 二、残差的性质 性质2 其中 称为杠杆值
2.5 残差分析 二、残差的性质
2.5 残差分析 二、残差的性质 性质3. 残差满足约束条件:
2.5 残差分析 三、改进的残差 标准化残差 学生化残差
2.6 回归系数的区间估计 等价于 β1的1-α 置信区间
2.7 预测和控制 一、单值预测
2.7 预测和控制 二、区间预测 1.因变量新值的区间预测 找一个区间(T1,T2),使得 需要首先求出其估计值 的分布
二、区间预测 1. 因变量新值的区间预测 以下计算 的方差 从而得
二、区间预测 1. 因变量新值的区间预测 记 则 于是有
二、区间预测 1. 因变量新值的区间预测 y0的置信概率为1-α的置信区间为 y0的置信度为95%的置信区间近似为
二、区间预测 1. 因变量新值的区间预测 E(y0)=β0+β1x0是常数 得E(y0)的1-α的置信区间为
二、区间预测 计算 对例2.1的火灾损失数据,假设保险公司希望预测一个距最近的消防队x0=3.5公里的居民住宅失火的损失 点估计值 95%区间估计 单个新值: (22.32,32.67) 平均值E(y0):(26.19,28.80) 的95%的近似置信区间为 =(27.50-2×2.316,27.50+2×2.316) =(22.87,32.13)
二、控制问题 给定y的预期范围(T1, T2),如何控制自变量x的值 才能以1-α的概率保证 把 带入
一、一元线性回归模型从建模到应用的全过程 例2.2 全国人均消费金额记作y(元); 人均国民收入记为x(元) 2.8 本章小结与评注 一、一元线性回归模型从建模到应用的全过程 例2.2 全国人均消费金额记作y(元); 人均国民收入记为x(元) 表2.2 人均国民收入表
2.8 本章小结与评注 二、有关回归假设检验问题 1973年Anscombe构造了四组数据, 这四组数据所建的回归方程是相同的,决定系数,F统计量也都相同,且均通过显著性检验。
2.8 本章小结与评注