第六章 回归分析
教学目标 回归分析是处理变量之间相关关系的一种数理统计方法,也是广泛用于获得数学表达式的较好方法。本章介绍测量中常用的一元与多元线性回归以及一元非线性回归的基本方法。
回归分析的基本概念 一元线性回归分析 多元线性回归分析 教学重点和难点 回归分析的基本概念 一元线性回归分析 多元线性回归分析
第一节 回归分析的基本概念 变量间的关系可分为函数关系和相关关系。本节介绍这两种关系,并对回归分析的一些基本概念作一个简要的介绍。
变量间的函数关系 1、是一一对应的确定关系 2、设有两个变量 和 ,变量 随变量 一起变化,并完全依赖于 ,当变量 取某个数值时, 依确定的关系取相应的值,则称 是 的函数,记为 ,其中 称为自变量,称 为因变量 如以速度 作匀速运动的物体,走过的距离 与时间 之间,有如下的函数关系
变量间的相关关系 1、变量间关系不能用函数关系精确表达 2、一个变量的取值不能由另一个变量惟一确定 3、当变量 取某个数值时,变量 的值可能有几个 如人的身高( )与体重( )之间的关系
什么是回归分析? 一种处理变量间相关关系的数理统计方法。 他主要解决以下几个问题 1、从一组样本数据出发,确定变量之间的数学关系式 2、对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著 3、利用所求的关系式,根据一个或几个变量的值,预测或控制另一个变量的值,并要知道这种预测或控制可达到的精密度。
回归模型的类型 两个及两个以上自变量 回归模型 一个自变量 一元回归 多元回归 线性 回归 非线性 回归 线性 回归 非线性 回归
回归模型 1、回答“变量之间是什么样的关系?” 2、方程中运用 1个数字的因变量 1个或多个数字的或分类的因变量 3、主要用于预测或估计
第二节 一元线性回归分析
一、一元线性回归方程
一元线性回归模型概念 1、当只涉及一个自变量时称为一元回归,若因变量 与自变量 之间为线性关系时称为一元线性回归 1、当只涉及一个自变量时称为一元回归,若因变量 与自变量 之间为线性关系时称为一元线性回归 2、对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系 3、描述因变量 如何依赖于自变量 和误差项 的方程称为回归模型。
一元线性回归模型概念 由实验获得两个变量 和 的一组样本数据 , ,…, ,构造如下一元线性回归模型 模型中, 是 的线性函数部分加上误差项 由实验获得两个变量 和 的一组样本数据 , ,…, ,构造如下一元线性回归模型 模型中, 是 的线性函数部分加上误差项 线性部分反映了由于 的变化而引起 的变化 误差项 是随机变量 反映了除 和 之间的线性关系之外的随机因素对 的影响 是不能由 和 之间的线性关系所解释的变异性 和 称为模型的参数
一元线性回归模型基本假定 1、误差项 是一个期望值为0的随机变量,即 。对于一个给定的 值, 的期望值为 2、对所有的 值, 的方差 都相同 1、误差项 是一个期望值为0的随机变量,即 。对于一个给定的 值, 的期望值为 2、对所有的 值, 的方差 都相同 3、误差项 是一个服从正态分布的随机变量,且相互独立。即 独立性意味着对于一个特定的 值,它所对应的与其它 值所对应 的不相关 对于一个特定的 值,它所对应的 值与其它 值所对应 的不相关
回归方程概念要点 1、描述 的平均值或期望值如何依赖于 的方程称为回归方程 2、简单线性回归方程的形式如下 1、描述 的平均值或期望值如何依赖于 的方程称为回归方程 2、简单线性回归方程的形式如下 方程的图示是一条直线,因此也称为直线回归方程 是回归直线在 轴上的截距,是当 时的期望值 是直线的斜率,表示当 每变动一个单位时, 的平均变动值
经验的回归方程 1、总体回归参数 和 是未知的,必须利用样本数据去估计他们 1、总体回归参数 和 是未知的,必须利用样本数据去估计他们 2、用样本统计量 和 代替回归方程中的未知参数 和 ,这时就得到了经验的回归方程 3、一元线性回归的经验的回归方程 是回归直线在 轴上的截距 是直线的斜率,它表示对于给定的 的值, 是 的估计值,也表示当 每变动一个单位时, 的平均变动值
和 的计算公式 根据最小二乘法的要求,可得 式中
回归方程的稳定性 1、回归值 的波动大小,波动愈小,回归方程的稳定性愈好。 2、回归值 的波动大小的计算公式 用 的标准差 来表示。 1、回归值 的波动大小,波动愈小,回归方程的稳定性愈好。 2、回归值 的波动大小的计算公式 用 的标准差 来表示。 回归值的波动大小不仅与残余标准差s有关,而且还取决于试验次数n及自变量取值范围。
二、回归方程的方差分析及显著性检验
偏差平方和的分解 测量值 之间的差异来源于两个方面 对一个具体的观测值来说,变异的大小可以通过该实际观测值与其均值之差来表示 测量值 之间的差异来源于两个方面 由于自变量 取值的不同造成的 除 以外的其它因素(如 对 的非线性影响、测量误差等)的影响 对一个具体的观测值来说,变异的大小可以通过该实际观测值与其均值之差来表示
偏差平方和的分解图示
三个平方和的关系 两端平方后求和得到 总偏差平方和 残余平方和 回归平方和
三个平方和的意义 总偏差平方和 回归平方和 残余平方和 反映因变量的n个观测值与其均值的总偏差 意 义 反映因变量的n个观测值与其均值的总偏差 在总的偏差中因 和 的线性关系而引起 变化的大小 在总的偏离中除了 对 线性影响之外的其它因素而引起 变化的大小 计算公式 自由度 (对应于自变量个数,一元线性回归为1)
回归方程的显著性检验 1、检验自变量和因变量之间的线性关系是否显著 2、具体方法是将回归平方和和残余平方和加以比较,应用F检验来分析二者之间的差别是否显著 如果是显著的,两个变量之间存在线性关系 如果不显著,两个变量之间不存在线性关系
检验步骤 1、提出假设 线性关系不显著 2、计算检验统计量 即 3、在给定显著性水平 下,由分布表查得临界值 。 线性关系不显著 2、计算检验统计量 即 3、在给定显著性水平 下,由分布表查得临界值 。 4、作出决策。若 ,拒绝 ,则认为该回归效果显著。反之,则不显著。
估计残余标准误差 1、表征除了 与 线性关系之外其它因素影响 值偏离的大小 2、反映实际观测值在回归直线周围的分散状况 1、表征除了 与 线性关系之外其它因素影响 值偏离的大小 2、反映实际观测值在回归直线周围的分散状况 3、从另一个角度说明了回归直线的拟合程度 4、残余标准差的计算公式
方差分析表 置信限 偏离 标准差 统计量 平方和 自由度 0.1 0.05 0.01 回归 1 残余 总和 显著否 显著否 显著否
三、回归系数的不确定度
回归系数的不确定度 1、回归系数的不确定度是描述回归系数的分散性 2、回归系数 和 的标准不确定度的计算公式 2、回归系数 和 的标准不确定度的计算公式 3、回归系数 和 的协方差的计算公式 式中, 是残余标准差
提高回归方程中各估计量稳定性的方法 (1) 提高观察数据本身的准确度 (2) 尽可能增大观测数据中自变量的取值范围 (3) 增加观测次数 (4) 减小残余误差,即拟定合适回归方程使其尽可能合乎实际数据的变化规律
四、回归预测值及其不确定度
回归预测值及其不确定度 1、利用估计的回归方程,对于自变量 的一个给定值 ,求出因变量 的一个估计值 ,就是回归的预测值 1、利用估计的回归方程,对于自变量 的一个给定值 ,求出因变量 的一个估计值 ,就是回归的预测值 2、预测值 与实际值 之间存在偏差,因此给出预测值时,还必须给出其不确定度。有以下两种表示方式 的标准不确定度来表述 的扩展不确定度来表述
【例6-1】 试对下表所列实验数据做直线拟合,并作方差分析和预测。 180 200 145 165 123 110 191 205 104 100 141 135 151 180 190 220 134 135 144 160 110 130 153 145 141 125 190 190 108 110 155 160 204 235 190 210 158 130 177 185 150 170 161 145 107 115 177 205 121 125 165 195 180 240 143 160 151 135 154 150 127 135 147 155 116 100 115 120
直线拟合 【解】 直线拟合计算 故有
方差分析 置信限 偏离 平方和 自由度 标准差 统计量 0.01 回归 41037 1 残余 9057 7.50 32 16.8 145.0 总和 50094 33 高度显著
预测 对于 ,查分布表得 故有
回归直线及预测区间
第四节 一元非线性回归分析
非线性回归分析 1、因变量 与自变量 之间不是线性关系 1、因变量 与自变量 之间不是线性关系 2、选择回归模型。根据实验数据散点图分布的特点以及所掌握的物理规律,选择可线化函数的模型。 3、作线性化变量变换后,按一元线性回归问题计算待定的系数、原的剩余平方和。 4、如果对拟合结果不满意,再选择其它模型,重复以上步骤 。 5、 比较不同模型拟合所得的原剩余平方和,选最小者即为所求。
几种常见的非线性模型 指数函数 1、基本形式: 2、线性化方法 两端取对数得 令 3、图像
几种常见的非线性模型 指数函数 1、基本形式: 2、线性化方法 两端取对数得 令 3、图像
几种常见的非线性模型 幂函数 1、基本形式: 2、线性化方法 两端取对数得 令 3、图像
几种常见的非线性模型 双曲线函数 1、基本形式: 2、线性化方法 令 3、图像
几种常见的非线性模型 S型曲线 1、基本形式: 2、线性化方法 令 3、图像
几种常见的非线性模型 对数函数 1、基本形式: 2、线性化方法 令 3、图像
思考与练习题 习题六 第 2题