统 计 学 (第三版) 2008 作者 贾俊平 统计学.

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
§3.4 空间直线的方程.
3.4 空间直线的方程.
第六章 回归分析.
生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月.
第十章 相关与回归分析 PowerPoint 统计学.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
10.2 立方根.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
预测与决策分析 Forecasting and Decision Analysis
工程数学 第22讲 本文件可从网址 上下载 (单击ppt讲义后选择'工程数学'子目录)
田间试验和统计方法 第九章 直线回归与相关.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
计量经济学 第三章 多元线性回归模型.
第十章 回归分析预测法 第一节 相关分析 第二节 一元线性回归预测法 第三节 多元线性回归预测法 第四节 非线性回归预测法.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第15章 相关分析与回归分析 (续).
第一节 引言 第二节 一元线性回归模型 第三节 多元线性回归模型 第四节 虚拟变量回归模型 第五节 非线性回归模型 本章小节 主要内容.
统计学期末复习
Chapter 2 簡單迴歸模型.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
数学实验之 回归分析(1).
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
Chapter 14 Simple Linear Regression
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第九章 方差分析和回归分析 单因素方差分析 一元线性回归 回归诊断.
第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断
回归分析.
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
模型分类问题 Presented by 刘婷婷 苏琬琳.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第7章 回归分析.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
第二章 经典线性回归模型: 双变量线性回归模型
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第4课时 绝对值.
第三章 两变量线性回归.
第四章 多元线性回归分析.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
数学模型实验课(二) 最小二乘法与直线拟合.
3.3.2 两点间的距离 山东省临沂第一中学.
Presentation transcript:

统 计 学 (第三版) 2008 作者 贾俊平 统计学

不要过于教条地对待研究的结果, 尤其当数据的质量受到怀疑时。 ——Damodar N.Gujarati 统计名言 不要过于教条地对待研究的结果, 尤其当数据的质量受到怀疑时。 ——Damodar N.Gujarati 2008年8月

8.1 变量间关系的度量 8.2 一元线性回归的估计和检验 8.3 利用回归方程进行预测 8.4 用残差检验模型的假定 第 8 章 一元线性回归 8.1 变量间关系的度量 8.2 一元线性回归的估计和检验 8.3 利用回归方程进行预测 8.4 用残差检验模型的假定

学习目标 相关关系的分析 参数的最小二乘估计 回归直线的拟合优度 回归方程的显著性检验 利用回归方程进行预测 用残差证实模型的假定 用 Excel 和SPSS进行回归 2008年8月

子代与父代一样吗? Galton被誉为现代回归和相关技术的创始人。1875年,Galton利用豌豆实验来确定尺寸的遗传规律。他挑选了7组不同尺寸的豌豆,并说服他在英国不同地区的朋友每一组种植10粒种子,最后把原始的豌豆种子(父代)与新长的豌豆种子(子代)进行尺寸比较 当结果被绘制出来之后,他发现并非每一个子代都与父代一样,不同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代。Galton把这一现象叫做“返祖”(趋向于祖先的某种平均类型),后来又称之为“向平均回归”。一个总体中在某一时期具有某一极端特征(低于或高于总体均值)的个体在未来的某一时期将减弱它的极端性(或者是单个个体或者是整个子代),这一趋势现在被称作“回归效应”。人们发现它的应用很广,而不仅限于从一代到下一代豌豆大小问题 2008年8月

子代与父代一样吗? 正如Galton进一步发现的那样,平均来说,非常矮小的父辈倾向于有偏高的子代;而非常高大的父辈则倾向于有偏矮的子代。在第一次考试中成绩最差的那些学生在第二次考试中倾向于有更好的成绩(比较接近所有学生的平均成绩),而第一次考试中成绩最好的那些学生在第二次考试中则倾向于有较差的成绩(同样比较接近所有学生的平均成绩)。同样,平均来说,第一年利润最低的公司第二年不会最差,而第一年利润最高的公司第二年则不会是最好的 如果把父代和子代看作两个变量,找出这两个变量的关系,并根据这种关系建立适当的数学模型,就可以根据父代的数值预测子代的取值,这就是经典的回归方法要解决的问题。学完本章的内容你会对回归问题有更深入的理解 2008年8月

回归分析研究什么? 研究某些实际问题时往往涉及到多个变量。在这些变量中,有一个变量是研究中特别关注的,称为因变量,而其他变量则看成是影响这一变量的因素,称为自变量 假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,那么,就可以利用这一模型根据给定的自变量来预测因变量,这就是回归要解决的问题 在回归分析中,只涉及一个自变量时称为一元回归,涉及多个自变量时则称为多元回归。如果因变量与自变量之间是线性关系,则称为线性回归(linear regression);如果因变量与自变量之间是非线性关系则称为非线性回归(nonlinear regression) 2008年8月

第 8 章 一元线性回归 8.1 变量间的关系 8.1.1 变量间是什么样的关系? 8.1.2 用散点图描述相关关系 第 8 章 一元线性回归 8.1 变量间的关系 8.1.1 变量间是什么样的关系? 8.1.2 用散点图描述相关关系 8.1.3 用相关系数度量关系强度

怎样分析变量间的关系? 建立回归模型时,首先需要弄清楚变量之间的关系。分析变量之间的关系需要解决下面的问题 变量之间是否存在关系? 如果存在,它们之间是什么样的关系? 变量之间的关系强度如何? 样本所反映的变量之间的关系能否代表总体变量之间的关系? 2008年8月

8.1 变量间的关系 8.1.1 变量间是什么样的关系?

函数关系 是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 各观测点落在一条线上  x y 2008年8月

相关关系 (几个例子) 子女的身高与其父母身高的关系 一个人的收入水平同他受教育程度的关系 农作物的单位面积产量与降雨量之间的关系 从遗传学角度看,父母身高较高时,其子女的身高一般也比较高。但实际情况并不完全是这样,因为子女的身高并不完全是由父母身高一个因素所决定的,还有其他许多因素的影响 一个人的收入水平同他受教育程度的关系 收入水平相同的人,他们受教育的程度也不可能不同,而受教育程度相同的人,他们的收入水平也往往不同。因为收入水平虽然与受教育程度有关系,但它并不是决定收入的惟一因素,还有职业、工作年限等诸多因素的影响 农作物的单位面积产量与降雨量之间的关系 在一定条件下,降雨量越多,单位面积产量就越高。但产量并不是由降雨量一个因素决定的,还有施肥量、温度、管理水平等其他许多因素的影响 2008年8月

相关关系 (correlation) 一个变量的取值不能由另一个变量唯一确定 当变量 x 取某个值时,变量 y 的取值对应着一个分布 各观测点分布在直线周围 y  x 2008年8月

8.1 变量间的关系 8.1.2 用散点图描述相关关系

散点图 (scatter diagram)       完全正线性相关 完全负线性相关 非线性相关 正线性相关 负线性相关 不相关 2008年8月

用散点图描述变量间的关系 (例题分析) 【例】为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下。绘制散点图描述销售收入与广告费用之间的关系 原始数据 2008年8月

散点图 (销售收入和广告费用的散点图) 2008年8月

8.1 变量间的关系 8.1.3 用相关系数度量关系强度

相关系数 (correlation coefficient) 度量变量之间线性关系强度的一个统计量 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r 也称为Pearson相关系数 (Pearson’s correlation coefficient) 样本相关系数的计算公式 用Excel计算相关系数 2008年8月

相关系数的性质 性质1:r 的取值范围是 [-1,1] |r|=1,为完全相关 r = 0,不存在线性相关关系 -1r<0,为负相关 2008年8月

相关系数的性质 性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx 性质3:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小 性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着, r=0只表示两个 变量之间不存在线性相关关系,并不说明变量之 间没有任何关系 性质5:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系 2008年8月

相关系数的经验解释 |r|0.8时,可视为两个变量之间高度相关 0.5|r|<0.8时,可视为中度相关 上述解释必须建立在对相关系数的显著性进行检验的基础之上 2008年8月

相关系数的显著性检验 (检验的步骤) 1. 检验两个变量之间是否存在线性相关关系 采用R.A.Fisher提出的 t 检验 检验的步骤为 1. 检验两个变量之间是否存在线性相关关系 采用R.A.Fisher提出的 t 检验 检验的步骤为 提出假设:H0:   ;H1:  0 计算检验的统计量 用Excel中的【TDIST】函数得双尾计算P值,并于显著性水平比较,并作出决策 若P<,拒绝H0 2008年8月

相关系数的显著性检验 (例题分析) 【例】检验销售收入与广告费用之间的相关系数是否显著 (0.05) 提出假设:H0:   ;H1:  0 计算检验的统计量 3. 用Excel中的【TDIST】函数得双尾P=2.743E-09<0.05,拒绝H0,销售收入与广告费用之间的相关系数显著 2008年8月

第 8 章 一元线性回归 8.2 一元线性回归的估计和检验 8.2.1 一元线性回归模型 8.2.2 参数的最小二乘估计 第 8 章 一元线性回归 8.2 一元线性回归的估计和检验 8.2.1 一元线性回归模型 8.2.2 参数的最小二乘估计 8.2.3 回归直线的拟合优度 8.2.4 显著性检验

8.2 一元线性回归的估计和检验 8.2.1 一元线性回归模型

什么是回归分析? (regression analysis) 重点考察考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来 利用样本数据建立模型的估计方程 对模型进行显著性检验 进而通过一个或几个自变量的取值来估计或预测因变量的取值 2008年8月

回归模型的类型 This teleology is based on the number of explanatory variables & nature of relationship between X & Y. 2008年8月 24

一元线性回归 涉及一个自变量的回归 因变量y与自变量x之间为线性关系 因变量与自变量之间的关系用一个线性方程来表示 被预测或被解释的变量称为因变量(dependent variable),用y表示 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 因变量与自变量之间的关系用一个线性方程来表示 2008年8月

一元线性回归模型 (linear regression model) 描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型 一元线性回归模型可表示为 y = b0 + b1 x + e y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项  是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数 2008年8月

一元线性回归模型 (基本假定) 因变量x与自变量y之间具有线性关系 在重复抽样中,自变量x的取值是固定的,即假定x是非随机的 误差项  满足 正态性。 是一个服从正态分布的随机变量,且期望值为0,即 ~N(0 , 2 ) 。对于一个给定的 x 值,y 的期望值为E(y)=0+ 1x 方差齐性。对于所有的 x 值, 的方差一个特定的值,的方差也都等于 2 都相同。同样,一个特定的x 值, y 的方差也都等于2 独立性。独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关;对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关 2008年8月

估计的回归方程 (estimated regression equation) 总体回归参数 和 是未知的,必须利用样本数据去估计 用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程 一元线性回归中估计的回归方程为 其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值 2008年8月

8.2 一元线性回归的估计和检验 8.2.2 参数的最小二乘估计

参数的最小二乘估计 (method of least squares ) 德国科学家Karl Gauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数 使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小 2008年8月

Karl Gauss的最小化图 y x (xn , yn)     (x2 , y2)   ei = yi-yi ^   (xi , yi)  (x1 , y1) x 2008年8月

参数的最小二乘估计 ( 和 的计算公式)  根据最小二乘法,可得求解 和 的公式如下 2008年8月

参数的最小二乘估计 (例题分析) 用Excel进行回归分析 【例】求销售收入与广告费用的估计回归方程 ,并解释回归系数的含义 第1步:选择【工具】下拉菜单,并选择【数据分析】选项 第2步:在分析工具中选择【回归】 ,选择【确定】 第2步:当对话框出现时 在【Y值输入区域】设置框内键入Y的数据区域 在【X值输入区域】设置框内键入X的数据区域 在【置信度】选项中给出所需的数值 在【输出选项】中选择输出区域 在【残差】分析选项中选择所需的选项 用Excel进行回归分析 2008年8月

参数的最小二乘估计 (例题分析) 【例】求销售收入与广告费用的估计回归方程 ,并解释回归系数的含义 2008年8月

参数的最小二乘估计 (例题分析) 2008年8月

8.2 一元线性回归的估计和检验 8.2.3 回归直线的拟合优度

变差 因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面 由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示 2008年8月

误差分解图 y  y x 2008年8月

{ { { 误差平方和的分解 (误差平方和的关系) SST = SSR + SSE 总平方和 (SST) 回归平方和 (SSR) 残差平方和 误差平方和的分解 (误差平方和的关系) { { { 总平方和 (SST) 回归平方和 (SSR) 残差平方和 (SSE) SST = SSR + SSE 2008年8月

误差平方和的分解 (三个平方和的意义) 总平方和(SST—total sum of squares) 误差平方和的分解 (三个平方和的意义) 总平方和(SST—total sum of squares) 反映因变量的 n 个观察值与其均值的总误差 回归平方和(SSR—sum of squares of regression) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSE—sum of squares of error) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和 2008年8月

判定系数R2 (coefficient of determination) 回归平方和占总误差平方和的比例 反映回归直线的拟合程度 取值范围在 [ 0 , 1 ] 之间 R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差 决定系数平方根等于相关系数 用Excel进行回归 2008年8月

估计标准误差 (standard error of estimate) 实际观察值与回归估计值误差平方和的均方根 反映实际观察值在回归直线周围的分散状况 对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量 反映用估计的回归方程预测y时预测误差的大小 计算公式为 用Excel进行回归 2008年8月

8.2 一元线性回归的估计和检验 8.2.4 显著性检验

线性关系的检验 检验自变量与因变量之间的线性关系是否显著 将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著 回归均方:回归平方和SSR除以相应的自由度(自变量的个数k) 残差均方:残差平方和SSE除以相应的自由度(n-k-1) 2008年8月

线性关系的检验 (检验的步骤) 提出假设 H0:1=0 线性关系不显著 2. 计算检验统计量F 线性关系的检验 (检验的步骤) 提出假设 H0:1=0 线性关系不显著 2. 计算检验统计量F 确定显著性水平,并根据分子自由度1和分母自由度n-2求统计量的P值 作出决策:若P<,拒绝H0。表明两个变量之间的线性关系显著 用Excel进行回归 2008年8月

回归系数的检验和推断 检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著 理论基础是回归系数 的抽样分布 在一元线性回归中,等价于线性关系的显著性检验 采用t检验 2008年8月

回归系数的检验和推断 (样本统计量 的分布) 回归系数的检验和推断 (样本统计量 的分布) 是根据最小二乘法求出的样本统计量,它有自己的分布 的分布具有如下性质 分布形式:正态分布 数学期望: 标准差: 由于 未知,需用其估计量se来代替得到 的估计的标准差 2008年8月

回归系数的检验和推断 (检验步骤) 提出假设 H0: b1 = 0 (没有线性关系) H1: b1  0 (有线性关系) 计算检验的统计量 回归系数的检验和推断 (检验步骤) 提出假设 H0: b1 = 0 (没有线性关系) H1: b1  0 (有线性关系) 计算检验的统计量 确定显著性水平,计算出统计量的P值,并做出决策 P<,拒绝H0,表明自变量是影响因变量的一个显著因素 2008年8月

回归系数的检验和推断 (b1和b0的置信区间) 用Excel进行回归 2008年8月

第 8 章 一元线性回归 8.3 利用回归方程进行预测 8.3.1 平均值的置信区间 8.3.2 个别值的预测区间

区间估计 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 区间估计有两种类型 置信区间估计(confidence interval estimate) 预测区间估计(prediction interval estimate) 2008年8月

8.3 利用回归方程进行预测 8.3.1 平均值的置信区间

平均值的置信区间 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间(confidence interval) E(y0) 在1-置信水平下的置信区间为 式中:se为估计标准误差 2008年8月

个别值的预测区间 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval) y0在1-置信水平下的预测区间为 注意! 2008年8月

置信区间和预测区间 y x xp 预测上限 置信上限 置信下限 预测下限 x 2008年8月 Note: 1. As we move farther from the mean, the bands get wider. 2. The prediction interval bands are wider. Why? (extra Syx) 2008年8月 124

用Excel中的FORECAST函数进行线性回归的点预测 第1步:选择【fx】插入函数,并选择【统计】函数中的 FORECAST(x,known_y's,known_x's)函数 第2步:当对话框出现时 在【X】为需要进行预测的数据点(或数据区域) 在【known_y‘s】中输入y的数据区域 在【known_x‘s】中输入x的数据区域 【注】若要同时返回一组预测值,则需要首先选择输出区域,然后同时按下 【Ctrl+Shift+Enter】键 用FORECAST函数进行点预测 2008年8月

用SPSS进行回归 第1步:选择【Analyze】下拉菜单,并选择【Regression - linear】选项,进入主对话框 第2步:在主对话框中将因变量(本例为销售收入)选入【Dependent】,将自变量(本例为广告费用)选入【Independent(s)】 第3步:点击【Save】 在【Predicted Values】下选中【Unstandardized】(输出点预测值) 在【Prediction interval】下选中【Mean】和【Individual】(输出置信区间和预测区间) 在【Confidence Interval】中选择所要求的置信水平(隐含值95%,一般不用改变) 在【Residuals】下选中【Unstandardized】和【standardized】(输出残差和标准化残差) 点击【Continue】回到主对话框。点击【OK】  用SPSS进行回归 2008年8月

置信区间和预测区间 (例题分析) 预测线 点预测值 置信线 2008年8月

置信区间和预测区间 (例题分析) 2008年8月 Note: 1. As we move farther from the mean, the bands get wider. 2. The prediction interval bands are wider. Why? (extra Syx) 2008年8月 124

预测时需要注意的问题 在利用回归方程进行估计或预测时,不要用样本数据之外的x值去预测相对应的y值 因为在一元线性回归分析中,总是假定因变量y与自变量x之间的关系用线性模型表达是正确的。但实际应用中,它们之间的关系可能是某种曲线 此时我们总是要假定这条曲线只有一小段位于x测量值的范围之内。如果x的取值范围是在xL和xU之间,那么可以用所求出的利用回归方程对处于xL和xU之间的值来估计E(y)和预测y。如果用xL和xU之间以外的值得出的估计值和预测值就会很差 2008年8月

实际数据是曲线而模型为直线 E(y) E(y) x xL xU 2008年8月 Note: 1. As we move farther from the mean, the bands get wider. 2. The prediction interval bands are wider. Why? (extra Syx) x xL xU 2008年8月 124

第 8 章 一元线性回归 8.4 用残差证实模型的假定 8.4.1 检验方差齐性 8.4.2 检验正态性

8.4 用残差证实模型的假定 8.4.1 检验方差齐性

残差 (residual) 因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示 反映了用估计的回归方程去预测而引起的误差 可用于确定有关误差项的假定是否成立 用于检测有影响的观测值 2008年8月

残差图 (residual plot) 表示残差的图形 用于判断误差的假定是否成立 检测有影响的观测值 关于x的残差图 关于y的残差图 标准化残差图 用于判断误差的假定是否成立 检测有影响的观测值 2008年8月

残差图 (形态及判别) x x x (b)非常数方差 (c)模型不合适 (a)满意模式 残差 残差 残差 2008年8月       (c)模型不合适 残差 x                            x (a)满意模式 2008年8月

残差与标准化残差图 (例题分析) 标准残差 点预测值 残差 2008年8月

残差图 (例题分析) 销售收入与广告费用回归的残差图 2008年8月

8.4 用残差证实模型的假定 8.4.2 检验正态性

标准化残差 (standardized residual) 残差除以它的标准差 也称为Pearson残差或半学生化残差(semi-studentized residuals) 计算公式为 注意:Excel给出的标准残差的计算公式为 这实际上是学生化删除残差(studentized deleted residuals) 2008年8月

标准化残差图  用以直观地判断误差项服从正态分布这一假定是否成立 若假定成立,标准化残差的分布也应服从正态分布 在标准化残差图中,大约有95%的标准化残差在-2到+2之间 2008年8月

标准化残差图 (例题分析) 销售收入与广告费用回归的标准化残差图 2008年8月

本章小结 相关关系的分析 参数的最小二乘估计 回归直线的拟合优度 回归方程的显著性检验 利用回归方程进行预测 用残差证实模型的假定 用 Excel 和SPSS进行回归 2008年8月

结 束 THANKS