第十章 相关与回归分析 PowerPoint 统计学.

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
3.4 空间直线的方程.
第六章 回归分析.
生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月.
回归分析法预测 (Regression Analysis)
第六章 相关与回归分析 本章主要内容 1.相关分析的基本问题 2.相关关系的测度 3.回归分析的基本问题 4.回归分析模型的建立
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
预测与决策分析 Forecasting and Decision Analysis
相关与回归分析 目 录 一 相关分析概述 二 一元线性回归分析 小 结 三.
第二章 经典单方程计量经济学模型: 一元线性回归模型
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
工程数学 第22讲 本文件可从网址 上下载 (单击ppt讲义后选择'工程数学'子目录)
田间试验和统计方法 第九章 直线回归与相关.
不确定度的传递与合成 间接测量结果不确定度的评估
第四节 一阶线性微分方程 线性微分方程 伯努利方程 小结、作业 1/17.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
计量经济学 第三章 多元线性回归模型.
第十章 回归分析预测法 第一节 相关分析 第二节 一元线性回归预测法 第三节 多元线性回归预测法 第四节 非线性回归预测法.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第一节 引言 第二节 一元线性回归模型 第三节 多元线性回归模型 第四节 虚拟变量回归模型 第五节 非线性回归模型 本章小节 主要内容.
统计学期末复习
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第12章 回归直线.
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
计量经济学 第三章 多元线性回归模型.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
数学实验之 回归分析(1).
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断
第十章 方差分析.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第7章 回归分析.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
第4课时 绝对值.
第三章 两变量线性回归.
第四章 多元线性回归分析.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
一元二次不等式解法(1).
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
3.1回归分析的基本思想及其初步应用(四) 高二数学 选修2-3 第三章 统计案例.
数学模型实验课(二) 最小二乘法与直线拟合.
Presentation transcript:

第十章 相关与回归分析 PowerPoint 统计学

第一节 变量间的相关关系 第二节 一元线性回归 第三节 多元线性回归 第四节 可化为线性回归的曲线回归 第十章 相关与回归分析 第一节 变量间的相关关系 第二节 一元线性回归 第三节 多元线性回归 第四节 可化为线性回归的曲线回归

学习目标 1. 掌握相关系数的含义、计算方法和应用 2. 掌握一元线性回归的基本原理和参数的最小二乘估计方法 掌握回归方程的显著性检验 1. 掌握相关系数的含义、计算方法和应用 2. 掌握一元线性回归的基本原理和参数的最小二乘估计方法 掌握回归方程的显著性检验 利用回归方程进行预测 掌握多元线性回归分析的基本方法 了解可化为线性回归的曲线回归 用 Excel 进行回归分析

第一节 变量间的相关关系 一. 变量相关的概念 二. 相关系数及其计算

变量相关的概念

变量间的关系 (函数关系) 是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 各观测点落在一条线上  x y

变量间的关系 (函数关系)  函数关系的例子 某种商品的销售额(y)与销售量(x)之间的关系可表示为 y = p x (p 为单价) 圆的面积(S)与半径之间的关系可表示为S =  R2 企业的原材料消耗额(y)与产量(x1) 、单位产量消耗(x2) 、原材料价格(x3)之间的关系可表示为y = x1 x2 x3

变量间的关系 (相关关系) 变量间关系不能用函数关系精确表达 一个变量的取值不能由另一个变量唯一确定 当变量 x 取某个值时,变量 y 的取值可能有几个 各观测点分布在直线周围  x y

变量间的关系 (相关关系)  相关关系的例子 商品的消费量(y)与居民收入(x)之间的关系 商品销售额(y)与广告费支出(x)之间的关系 粮食亩产量(y)与施肥量(x1) 、降雨量(x2) 、温度(x3)之间的关系 收入水平(y)与受教育程度(x)之间的关系 父亲身高(y)与子女身高(x)之间的关系

相关关系的类型 相关关系 非线性相关 线性相关 正相关 负相关 完全相关 不相关

相关关系的图示 完全正线性相关   完全负线性相关  非线性相关  正线性相关  负线性相关  不相关

相关系数及其计算

相关关系的测度 (相关系数) 对变量之间关系密切程度的度量 对两个变量之间线性相关程度的度量称为简单相关系数 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关系数,记为 r

相关关系的测度 (相关系数)  样本相关系数的计算公式 或化简为

相关关系的测度 (相关系数取值及其意义) r 的取值范围是 [-1,1] |r|=1,为完全相关 r = 0,不存在线性相关关系相关

r 相关关系的测度 (相关系数取值及其意义) -1.0 +1.0 -0.5 +0.5 完全正相关 完全负相关 无线性相关 负相关程度增加 -0.5 +0.5 r 负相关程度增加 正相关程度增加 139

相关关系的测度 (相关系数计算例) 表10-1 我国人均国民收入与人均消费金额数据 单位:元 【例10.1】在研究我国人均消费水平的问题中,把全国人均消费额记为y,把人均国民收入记为x。我们收集到1981~1993年的样本数据(xi ,yi),i =1,2,…,13,数据见表10-1,计算相关系数。 表10-1 我国人均国民收入与人均消费金额数据 单位:元 年份 人均 国民收入 消费金额 1981 1982 1983 1984 1985 1986 1987 393.8 419.14 460.86 544.11 668.29 737.73 859.97 249 267 289 329 406 451 513 1988 1989 1990 1991 1992 1993 1068.8 1169.2 1250.7 1429.5 1725.9 2099.5 643 690 713 803 947 1148

相关关系的测度 (计算结果) 解:根据样本相关系数的计算公式有 人均国民收入与人均消费金额之间的相关系 数为 0.9987

相关系数的显著性检验 (概念要点) 1. 检验两个变量之间是否存在线性相关关系 等价于对回归系数 b1的检验 采用 t 检验 检验的步骤为 1. 检验两个变量之间是否存在线性相关关系 等价于对回归系数 b1的检验 采用 t 检验 检验的步骤为 提出假设:H0:   ;H1:   0 计算检验的统计量: 确定显著性水平,并作出决策 若t>t,拒绝H0 若t<t,接受H0

相关系数的显著性检验 (实例)  对前例计算的相关系数进行显著性检(0.05) 提出假设:H0:   ;H1:   0 计算检验的统计量 3. 根据显著性水平=0.05,查t分布表得t(n-2)=2.201 由于t=64.9809>t(13-2)=2.201,拒绝H0,人均消费金额与人均国民收入之间的相关关系显著

相关系数的显著性检验 (相关系数检验表的使用) 若IrI大于表上的=5%相应的值,小于表上=1%相应的值,称变量x与y之间有显著的线性关系 若IrI大于表上=1%相应的值,称变量x与y之间有十分显著的线性关系 若IrI小于表上=5%相应的值,称变量x与y之间没有明显的线性关系 根据前例的r=0.9987>=5%(n-2)=0.553,表明人均消费金额与人均国民收入之间有十分显著的线性相关关系

第二节 一元线性回归 一. 一元线性回归模型 参数的最小二乘估计 回归方程的显著性检验 预测及应用

什么是回归分析? (内容) 从一组样本数据出发,确定变量之间的数学关系式 对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响显著,哪些不显著 利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度 回归方程一词是怎么来的

回归分析与相关分析的区别 相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化 相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量 相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制

回归模型的类型 回归模型 多元回归 一元回归 线性回归 非线性回归 一个自变量 两个及两个以上自变量 This teleology is based on the number of explanatory variables & nature of relationship between X & Y. 24

回归模型与回归方程

回归模型 回答“变量之间是什么样的关系?” 方程中运用 3. 主要用于预测和估计 1 个数字的因变量(响应变量) 被预测的变量 1 个或多个数字的或分类的自变量 (解释变量) 用于预测的变量 3. 主要用于预测和估计

一元线性回归模型 (概念要点) 当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归 一元线性回归模型 (概念要点) 当只涉及一个自变量时称为一元回归,若因变量 y 与自变量 x 之间为线性关系时称为一元线性回归 对于具有线性关系的两个变量,可以用一条线性方程来表示它们之间的关系 描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型

一元线性回归模型 (概念要点)  对于只涉及一个自变量的简单线性回归模型可表示为 y = b0 + b1 x + e 一元线性回归模型 (概念要点)  对于只涉及一个自变量的简单线性回归模型可表示为 y = b0 + b1 x + e 模型中,y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项  是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数

一元线性回归模型 (基本假定) 误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的 x 值,y 的期望值为E ( y ) = 0+  1 x 对于所有的 x 值,ε的方差σ2 都相同 误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N( 0 ,σ2 ) 独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关 对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关

回归方程 (概念要点) 描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程 简单线性回归方程的形式如下 回归方程 (概念要点) 描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程 简单线性回归方程的形式如下 E( y ) = 0+ 1 x 方程的图示是一条直线,因此也称为直线回归方程 0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值 1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值

估计(经验)的回归方程 总体回归参数 和 是未知的,必需利用样本数据去估计 总体回归参数 和 是未知的,必需利用样本数据去估计 用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程 简单线性回归中估计的回归方程为 其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值,是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值

参数 0 和 1 的最小二乘估计

最小二乘法 (概念要点) 使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即 最小二乘法 (概念要点) 使因变量的观察值与估计值之间的离差平方和达到最小来求得 和 的方法。即 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小

} 最小二乘法 (图示) y x (xn , yn) (x1 , y1)  (x2 , y2) (xi , yi) ei = yi-yi ^

最小二乘法 ( 和 的计算公式)  根据最小二乘法的要求,可得求解 和 的标准方程如下

估计方程的求法 (实例) 【例】根据例10.1中的数据,配合人均消费金额对人均国民收入的回归方程 根据 和 的求解公式得

估计(经验)方程 人均消费金额对人均国民收入的回归方程为 ^ y = 54.22286 + 0.52638 x

估计方程的求法 (Excel的输出结果)

回归方程的显著性检验

离差平方和的分解 因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示

离差平方和的分解 (图示) x y { }  离差分解图

{ { { 离差平方和的分解 (三个平方和的关系) 从图上看有 2. 两端平方后求和有 SST = SSR + SSE 总变差平方和 离差平方和的分解 (三个平方和的关系) 从图上看有 2. 两端平方后求和有 总变差平方和 (SST) { 回归平方和 (SSR) { 残差平方和 (SSE) { SST = SSR + SSE

离差平方和的分解 (三个平方和的意义) 总平方和(SST) 回归平方和(SSR) 残差平方和(SSE) 离差平方和的分解 (三个平方和的意义) 总平方和(SST) 反映因变量的 n 个观察值与其均值的总离差 回归平方和(SSR) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSE) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和

样本决定系数 (判定系数 r2 ) 回归平方和占总离差平方和的比例 反映回归直线的拟合程度 取值范围在 [ 0 , 1 ] 之间 r2 1,说明回归方程拟合的越好;r20,说明回归方程拟合的越差 判定系数等于相关系数的平方,即r2=(r)2

回归方程的显著性检验 (线性关系的检验 ) 检验自变量和因变量之间的线性关系是否显著 回归方程的显著性检验 (线性关系的检验 ) 检验自变量和因变量之间的线性关系是否显著 具体方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用F检验来分析二者之间的差别是否显著 如果是显著的,两个变量之间存在线性关系 如果不显著,两个变量之间不存在线性关系

回归方程的显著性检验 (检验的步骤) 提出假设 2. 计算检验统计量F 回归方程的显著性检验 (检验的步骤) 提出假设 H0:线性关系不显著 2. 计算检验统计量F 确定显著性水平,并根据分子自由度1和分母自由度n-2找出临界值F  作出决策:若FF ,拒绝H0;若F<F ,接受H0

回归方程的显著性检验 (方差分析表) (续前例)Excel 输出的方差分析表 平方和 均方

估计标准误差 Sy 实际观察值与回归估计值离差平方和的均方根 反映实际观察值在回归直线周围的分散状况 从另一个角度说明了回归直线的拟合程度 计算公式为 注:上例的计算结果为14.949678

回归系数的显著性检验 (要点) 检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著 理论基础是回归系数 的抽样分布 在一元线性回归中,等价于回归方程的显著性检验

回归系数的显著性检验 (样本统计量 的分布) 回归系数的显著性检验 (样本统计量 的分布) 是根据最小二乘法求出的样本统计量,它有自己的分布 的分布具有如下性质 分布形式:正态分布 数学期望: 标准差: 由于无未知,需用其估计量Sy来代替得到 的估计的标准差

回归系数的显著性检验 (样本统计量 的分布) 回归系数的显著性检验 (样本统计量 的分布) 的抽样分布 105

回归系数的显著性检验 (步骤) 提出假设 计算检验的统计量 确定显著性水平,并进行决策 H0: b1 = 0 (没有线性关系) 回归系数的显著性检验 (步骤) 提出假设 H0: b1 = 0 (没有线性关系) H1: b1  0 (有线性关系) 计算检验的统计量 确定显著性水平,并进行决策  t>t,拒绝H0; t<t,接受H0

回归系数的显著性检验 (实例) 对前例的回归系数进行显著性检验(=0.05) 提出假设 计算检验的统计量 回归系数的显著性检验 (实例) 对前例的回归系数进行显著性检验(=0.05) 提出假设 H0:b1 = 0 人均收入与人均消费之间无线性关系 H1:b1  0 人均收入与人均消费之间有线性关系 计算检验的统计量 t=65.0758>t=2.201,拒绝H0,表明人均收入与人均消费之间有线性关系

回归系数的显著性检验 (Excel输出的结果) ‘Standard Error’ is the estimated standard deviation of the sampling distribution, sbP.

预测及应用

利用回归方程进行估计和预测 根据自变量 x 的取值估计或预测因变量 y的取值 估计或预测的类型 点估计 y 的平均值的点估计 区间估计 y 的平均值的置信区间估计 y 的个别值的预测区间估计

利用回归方程进行估计和预测 (点估计) 对于自变量 x 的一个给定值x0 ,根据回归方程得到因变量 y 的一个估计值 2. 点估计值有 3. 在点估计条件下,平均值的点估计和个别值的的点估计是一样的,但在区间估计中则不同

利用回归方程进行估计和预测 (点估计)  y 的平均值的点估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的一个估计值E(y0) ,就是平均值的点估计 在前面的例子中,假如我们要估计人均国民收入为2000元时,所有年份人均消费金额的的平均值,就是平均值的点估计。根据估计的回归方程得

利用回归方程进行估计和预测 (点估计)  y 的个别值的点估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计值 ,就是个别值的点估计 2. 比如,如果我们只是想知道1990年人均国民收入为1250.7元时的人均消费金额是多少,则属于个别值的点估计。根据估计的回归方程得

利用回归方程进行估计和预测 (区间估计) 点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计 利用回归方程进行估计和预测 (区间估计) 点估计不能给出估计的精度,点估计值与实际值之间是有误差的,因此需要进行区间估计 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 区间估计有两种类型 置信区间估计 预测区间估计

利用回归方程进行估计和预测 (置信区间估计)  y 的平均值的置信区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值E(y0)的估计区间 ,这一估计区间称为置信区间 E(y0) 在1-置信水平下的置信区间为 式中:Sy为估计标准误差

利用回归方程进行估计和预测 (置信区间估计:算例) 【例】根据前例,求出人均国民收入为1250.7元时,人均消费金额95%的置信区间 解:根据前面的计算结果 =712.57,Sy=14.95,t(13-2)=2.201,n=13 置信区间为 712.5710.265 人均消费金额95%的置信区间为702.305元~722.835元之间

利用回归方程进行估计和预测 (预测区间估计)  y 的个别值的预测区间估计 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间 y0在1-置信水平下的预测区间为 注意!

利用回归方程进行估计和预测 (置预测区间估计:算例) 【例】根据前例,求出1990年人均国民收入为1250.7元时,人均消费金额的95%的预测区间 解:根据前面的计算结果有 =712.57,Sy=14.95,t(13-2)=2.201,n=13 置信区间为 712.5734.469 人均消费金额95%的预测区间为678.101元~747.039元之间

影响区间宽度的因素 1. 置信水平 (1 - ) 2. 数据的离散程度 (s) 3. 样本容量 4. 用于预测的 xp与x的差异程度 1. 置信水平 (1 - ) 区间宽度随置信水平的增大而增大 2. 数据的离散程度 (s) 区间宽度随离散程度的增大而增大 3. 样本容量 区间宽度随样本容量的增大而减小 4. 用于预测的 xp与x的差异程度 区间宽度随 xp与x 的差异程度的增大而增大

置信区间、预测区间、回归方程 y x xp 预测上限 置信上限 置信下限 预测下限 x Note: 1. As we move farther from the mean, the bands get wider. 2. The prediction interval bands are wider. Why? (extra Syx) 124

第三节 多元线性回归 一. 多元线性回归模型 回归参数的估计 回归方程的显著性检验 回归系数的显著性检验 多元线性回归的预测

多元线性回归模型

多元线性回归模型 (概念要点) 一个因变量与两个及两个以上自变量之间的回归 多元线性回归模型 (概念要点) 一个因变量与两个及两个以上自变量之间的回归 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xp 和误差项  的方程称为多元线性回归模型 涉及 p 个自变量的多元线性回归模型可表示为 b0 ,b1,b2 ,,bp是参数  是被称为误差项的随机变量 y 是x1,,x2 , ,xp 的线性函数加上误差项  说明了包含在y里面但不能被p个自变量的线性关系所解释的变异性

多元线性回归模型 (概念要点)  对于 n 组实际观察数据(yi ; xi1,,xi2 ,  ,xip ),(i=1,2,…,n),多元线性回归模型可表示为 y1 = b0 + b1 x11+ b2 x12 ++ bpx1p + e1 y2= b0 + b1 x21 + b2 x22 ++ bpx2p + e2 yn= b0 + b1 xn1 + b2 xn2 ++ bpxnp + en { ……

多元线性回归模型 (基本假定) 自变量 x1,x2,…,xp是确定性变量,不是随机变量 随机误差项ε的期望值为0,且方差σ2 都相同 误差项ε是一个服从正态分布的随机变量,即ε~N(0,σ2),且相互独立

多元线性回归方程 (概念要点) 描述 y 的平均值或期望值如何依赖于 x1, x1 ,…,xp的方程称为多元线性回归方程 多元线性回归方程 (概念要点) 描述 y 的平均值或期望值如何依赖于 x1, x1 ,…,xp的方程称为多元线性回归方程 多元线性回归方程的形式为 E( y ) = 0+ 1 x1 + 2 x2 +…+ p xp b1,b2,,bp称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均平均变动值

多元线性回归方方程的直观解释 二元线性回归模型 (观察到的y) 回归面 0 i x1 y x2 (x1,x2) } 12

多元线性回归的估计(经验)方程 总体回归参数 是未知的,利用样本数据去估计 用样本统计量 代替回归方程中的 未知参数 即得到估计的回归方程 总体回归参数 是未知的,利用样本数据去估计 用样本统计量 代替回归方程中的 未知参数 即得到估计的回归方程 是 估计值 是 y 的估计值

参数的最小二乘估计

参数的最小二乘法 (要点) 使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即 参数的最小二乘法 (要点) 使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即 根据最小二乘法的要求,可得求解各回归参数 的标准方程如下

回归方程的显著性检验

多重样本决定系数 (多重判定系数 R2 ) 回归平方和占总离差平方和的比例 反映回归直线的拟合程度 取值范围在 [ 0 , 1 ] 之间 R2 1,说明回归方程拟合的越好; R20,说明回归方程拟合的越差 等于多重相关系数的平方,即R2=(R)2

修正的多重样本决定系数 (修正的多重判定系数 R2 ) 用n表示观察值的数目,p表示自变量的数目,修正的多元判定系数的计算公式可表示为

回归方程的显著性检验 (线性关系的检验 ) 检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验 回归方程的显著性检验 (线性关系的检验 ) 检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验 检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在线性关系 如果不显著,因变量与自变量之间不存在线性关系

回归方程的显著性检验 (步骤) 提出假设 2. 计算检验统计量F 3. 确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F  回归方程的显著性检验 (步骤) 提出假设 H0:12p=0 线性关系不显著 H1:1,2,,p至少有一个不等于0 2. 计算检验统计量F 3. 确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F  4. 作出决策:若FF ,拒绝H0;若F<F,接受H0

回归系数的显著性检验 (要点) 如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量 xi 对因变量 y 的影响是否显著 对每一个自变量都要单独进行检验 应用 t 检验 在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验

回归系数的显著性检验 (步骤) 提出假设 计算检验的统计量 t 确定显著性水平,并进行决策 回归系数的显著性检验 (步骤) 提出假设 H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi  0 (自变量 xi 与 因变量 y有线性关系) 计算检验的统计量 t 确定显著性水平,并进行决策  tt,拒绝H0;  t<t,接受H0

一个二元线性回归的例子 【例】一家百货公司在10个地区设有经销分公司。公司认为商品销售额与该地区的人口数和年人均收入有关,并希望建立它们之间的数量关系式,以预测销售额。有关数据如下表。试确定销售额对人口数和年人均收入的线性回归方程,并分析回归方程的拟合程度,对线性关系和回归系数进行显著性检验(=0.05)。 销售额、人口数和年人均收入数据 地区 编号 销售额 (万元)y 人口数 (万人) x1 年人均收入 (元)x2 1 2 3 4 5 6 7 8 9 10 33.3 35.5 27.6 30.4 31.9 53.1 35.6 29.0 35.1 34.5 32.4 29.1 26.3 31.2 29.2 40.7 29.8 23.0 28.2 26.9 1250 1650 1450 1310 1580 1490 1520 1620 1570

一个二元线性回归的例子 (Excel 输出的结果)

一个二元线性回归的例子 (计算机输出结果解释) 销售额与人口数和年人均收入的二元回归方程为 多重判定系数R2= 0.9373;调整后的R2= 0.9194 回归方程的显著性检验 F = 52.3498 F>F0.05(2,7)=4.74,回归方程显著 回归系数的显著性检验 t= 9.3548>t=0.3646,; t2 = 4.7962> t=2.3646;两个回归系数均显著 一个含有四个变量的回归

第三节 可化为线性回归的 曲线回归 基本概念 非线性模型及其线性化方法

非线性回归 1. 因变量 y 与 x 之间不是线性关系 2. 可通过变量代换转换成线性关系 用最小二乘法求出参数的估计值 2. 可通过变量代换转换成线性关系 用最小二乘法求出参数的估计值 并非所有的非线性模型都可以化为线性模型

几种常见的非线性模型  指数函数 基本形式: 线性化方法 图像 两端取对数得:lny = ln +  x 令:y' = lny,则有y' = ln +  x 图像   

几种常见的非线性模型  幂函数 基本形式: 线性化方法 图像 两端取对数得:lg y = lg +  lg x 令:y' = lgy,x'= lg x,则y' = lg +  x' 图像 0< < 1   1  = 1 -1< <0  <-1  =-1

几种常见的非线性模型  双曲线函数 基本形式: 线性化方法 图像 令:y' = 1/y,x'= 1/x, 则有y' =  +  x'  < 0  > 0

几种常见的非线性模型  对数函数 基本形式: 线性化方法 图像 x'= lgx , 则有y' =  +  x'   0  <0

几种常见的非线性模型  S 型曲线 基本形式: 线性化方法 令:y' = 1/y,x'= e-x, 则有y' =  +  x' 图像

非线性回归 (实例) 【例】为研究生产率与废品率之间的关系,记录数据如下表。试拟合适当的模型。 废品率与生产率的关系 生产率(周/单位) x 1000 2000 3000 3500 4000 4500 5000 废品率(%) y 5.2 6.5 6.8 8.1 10.2 10.3 13.0

非线性回归 (实例) 生产率与废品率的散点图

非线性回归 (实例) y = 2.671+0.0018x 用线性模型:y =01x+ ,有 用指数模型:y =  x ,有 比较 直线的残差平方和=5.3371<指数模型的残差平方和=6.11。直线模型略好于指数模型

本章小结 相关系数与相关分析 一元线性回归模型、回归方程与估计的回归方程 多元线性回归模型、回归方程与估计的回归方程 回归方程与回归系数的显著性检验 非线性回归的线性化 5. 用Excel 进行回归分析

结 束