Download presentation
Presentation is loading. Please wait.
1
统 计 学 (第三版) 2008 作者 贾俊平 统计学
2
不要过于教条地对待研究的结果, 尤其当数据的质量受到怀疑时。 ——Damodar N.Gujarati
统计名言 不要过于教条地对待研究的结果, 尤其当数据的质量受到怀疑时。 ——Damodar N.Gujarati 2008年8月
3
8.1 变量间关系的度量 8.2 一元线性回归的估计和检验 8.3 利用回归方程进行预测 8.4 用残差检验模型的假定
第 8 章 一元线性回归 8.1 变量间关系的度量 8.2 一元线性回归的估计和检验 8.3 利用回归方程进行预测 8.4 用残差检验模型的假定
4
学习目标 相关关系的分析 参数的最小二乘估计 回归直线的拟合优度 回归方程的显著性检验 利用回归方程进行预测 用残差证实模型的假定
用 Excel 和SPSS进行回归 2008年8月
5
子代与父代一样吗? Galton被誉为现代回归和相关技术的创始人。1875年,Galton利用豌豆实验来确定尺寸的遗传规律。他挑选了7组不同尺寸的豌豆,并说服他在英国不同地区的朋友每一组种植10粒种子,最后把原始的豌豆种子(父代)与新长的豌豆种子(子代)进行尺寸比较 当结果被绘制出来之后,他发现并非每一个子代都与父代一样,不同的是,尺寸小的豌豆会得到更大的子代,而尺寸大的豌豆却得到较小的子代。Galton把这一现象叫做“返祖”(趋向于祖先的某种平均类型),后来又称之为“向平均回归”。一个总体中在某一时期具有某一极端特征(低于或高于总体均值)的个体在未来的某一时期将减弱它的极端性(或者是单个个体或者是整个子代),这一趋势现在被称作“回归效应”。人们发现它的应用很广,而不仅限于从一代到下一代豌豆大小问题 2008年8月
6
子代与父代一样吗? 正如Galton进一步发现的那样,平均来说,非常矮小的父辈倾向于有偏高的子代;而非常高大的父辈则倾向于有偏矮的子代。在第一次考试中成绩最差的那些学生在第二次考试中倾向于有更好的成绩(比较接近所有学生的平均成绩),而第一次考试中成绩最好的那些学生在第二次考试中则倾向于有较差的成绩(同样比较接近所有学生的平均成绩)。同样,平均来说,第一年利润最低的公司第二年不会最差,而第一年利润最高的公司第二年则不会是最好的 如果把父代和子代看作两个变量,找出这两个变量的关系,并根据这种关系建立适当的数学模型,就可以根据父代的数值预测子代的取值,这就是经典的回归方法要解决的问题。学完本章的内容你会对回归问题有更深入的理解 2008年8月
7
回归分析研究什么? 研究某些实际问题时往往涉及到多个变量。在这些变量中,有一个变量是研究中特别关注的,称为因变量,而其他变量则看成是影响这一变量的因素,称为自变量 假定因变量与自变量之间有某种关系,并把这种关系用适当的数学模型表达出来,那么,就可以利用这一模型根据给定的自变量来预测因变量,这就是回归要解决的问题 在回归分析中,只涉及一个自变量时称为一元回归,涉及多个自变量时则称为多元回归。如果因变量与自变量之间是线性关系,则称为线性回归(linear regression);如果因变量与自变量之间是非线性关系则称为非线性回归(nonlinear regression) 2008年8月
8
第 8 章 一元线性回归 8.1 变量间的关系 8.1.1 变量间是什么样的关系? 8.1.2 用散点图描述相关关系
第 8 章 一元线性回归 8.1 变量间的关系 变量间是什么样的关系? 用散点图描述相关关系 用相关系数度量关系强度
9
怎样分析变量间的关系? 建立回归模型时,首先需要弄清楚变量之间的关系。分析变量之间的关系需要解决下面的问题 变量之间是否存在关系?
如果存在,它们之间是什么样的关系? 变量之间的关系强度如何? 样本所反映的变量之间的关系能否代表总体变量之间的关系? 2008年8月
10
8.1 变量间的关系 变量间是什么样的关系?
11
函数关系 是一一对应的确定关系 设有两个变量 x 和 y ,变量 y 随变量 x 一起变化,并完全依赖于 x ,当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y 是 x 的函数,记为 y = f (x),其中 x 称为自变量,y 称为因变量 各观测点落在一条线上 x y 2008年8月
12
相关关系 (几个例子) 子女的身高与其父母身高的关系 一个人的收入水平同他受教育程度的关系 农作物的单位面积产量与降雨量之间的关系
从遗传学角度看,父母身高较高时,其子女的身高一般也比较高。但实际情况并不完全是这样,因为子女的身高并不完全是由父母身高一个因素所决定的,还有其他许多因素的影响 一个人的收入水平同他受教育程度的关系 收入水平相同的人,他们受教育的程度也不可能不同,而受教育程度相同的人,他们的收入水平也往往不同。因为收入水平虽然与受教育程度有关系,但它并不是决定收入的惟一因素,还有职业、工作年限等诸多因素的影响 农作物的单位面积产量与降雨量之间的关系 在一定条件下,降雨量越多,单位面积产量就越高。但产量并不是由降雨量一个因素决定的,还有施肥量、温度、管理水平等其他许多因素的影响 2008年8月
13
相关关系 (correlation) 一个变量的取值不能由另一个变量唯一确定 当变量 x 取某个值时,变量 y 的取值对应着一个分布
各观测点分布在直线周围 y x 2008年8月
14
8.1 变量间的关系 用散点图描述相关关系
15
散点图 (scatter diagram) 完全正线性相关 完全负线性相关 非线性相关 正线性相关 负线性相关
不相关 2008年8月
16
用散点图描述变量间的关系 (例题分析) 【例】为研究销售收入与广告费用支出之间的关系,某医药管理部门随机抽取20家药品生产企业,得到它们的年销售收入和广告费用支出(万元)的数据如下。绘制散点图描述销售收入与广告费用之间的关系 原始数据 2008年8月
17
散点图 (销售收入和广告费用的散点图) 2008年8月
18
8.1 变量间的关系 用相关系数度量关系强度
19
相关系数 (correlation coefficient)
度量变量之间线性关系强度的一个统计量 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关系数,简称为相关系数,记为 r 也称为Pearson相关系数 (Pearson’s correlation coefficient) 样本相关系数的计算公式 用Excel计算相关系数 2008年8月
20
相关系数的性质 性质1:r 的取值范围是 [-1,1] |r|=1,为完全相关 r = 0,不存在线性相关关系 -1r<0,为负相关
2008年8月
21
相关系数的性质 性质2:r具有对称性。即x与y之间的相关系数和y与x之间 的相关系数相等,即rxy= ryx
性质3:r数值大小与x和y原点及尺度无关,即改变x和y的 数据原点及计量尺度,并不改变r数值大小 性质4:仅仅是x与y之间线性关系的一个度量,它不能用 于描述非线性关系。这意为着, r=0只表示两个 变量之间不存在线性相关关系,并不说明变量之 间没有任何关系 性质5:r虽然是两个变量之间线性关系的一个度量,却不 一定意味着x与y一定有因果关系 2008年8月
22
相关系数的经验解释 |r|0.8时,可视为两个变量之间高度相关 0.5|r|<0.8时,可视为中度相关
上述解释必须建立在对相关系数的显著性进行检验的基础之上 2008年8月
23
相关系数的显著性检验 (检验的步骤) 1. 检验两个变量之间是否存在线性相关关系 采用R.A.Fisher提出的 t 检验 检验的步骤为
1. 检验两个变量之间是否存在线性相关关系 采用R.A.Fisher提出的 t 检验 检验的步骤为 提出假设:H0: ;H1: 0 计算检验的统计量 用Excel中的【TDIST】函数得双尾计算P值,并于显著性水平比较,并作出决策 若P<,拒绝H0 2008年8月
24
相关系数的显著性检验 (例题分析) 【例】检验销售收入与广告费用之间的相关系数是否显著 (0.05)
提出假设:H0: ;H1: 0 计算检验的统计量 3. 用Excel中的【TDIST】函数得双尾P=2.743E-09<0.05,拒绝H0,销售收入与广告费用之间的相关系数显著 2008年8月
25
第 8 章 一元线性回归 8.2 一元线性回归的估计和检验 8.2.1 一元线性回归模型 8.2.2 参数的最小二乘估计
第 8 章 一元线性回归 8.2 一元线性回归的估计和检验 一元线性回归模型 参数的最小二乘估计 回归直线的拟合优度 显著性检验
26
8.2 一元线性回归的估计和检验 一元线性回归模型
27
什么是回归分析? (regression analysis)
重点考察考察一个特定的变量(因变量),而把其他变量(自变量)看作是影响这一变量的因素,并通过适当的数学模型将变量间的关系表达出来 利用样本数据建立模型的估计方程 对模型进行显著性检验 进而通过一个或几个自变量的取值来估计或预测因变量的取值 2008年8月
28
回归模型的类型 This teleology is based on the number of explanatory variables & nature of relationship between X & Y. 2008年8月 24
29
一元线性回归 涉及一个自变量的回归 因变量y与自变量x之间为线性关系 因变量与自变量之间的关系用一个线性方程来表示
被预测或被解释的变量称为因变量(dependent variable),用y表示 用来预测或用来解释因变量的一个或多个变量称为自变量(independent variable),用x表示 因变量与自变量之间的关系用一个线性方程来表示 2008年8月
30
一元线性回归模型 (linear regression model)
描述因变量 y 如何依赖于自变量 x 和误差项 的方程称为回归模型 一元线性回归模型可表示为 y = b0 + b1 x + e y 是 x 的线性函数(部分)加上误差项 线性部分反映了由于 x 的变化而引起的 y 的变化 误差项 是随机变量 反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响 是不能由 x 和 y 之间的线性关系所解释的变异性 0 和 1 称为模型的参数 2008年8月
31
一元线性回归模型 (基本假定) 因变量x与自变量y之间具有线性关系 在重复抽样中,自变量x的取值是固定的,即假定x是非随机的
误差项 满足 正态性。 是一个服从正态分布的随机变量,且期望值为0,即 ~N(0 , 2 ) 。对于一个给定的 x 值,y 的期望值为E(y)=0+ 1x 方差齐性。对于所有的 x 值, 的方差一个特定的值,的方差也都等于 2 都相同。同样,一个特定的x 值, y 的方差也都等于2 独立性。独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关;对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关 2008年8月
32
估计的回归方程 (estimated regression equation)
总体回归参数 和 是未知的,必须利用样本数据去估计 用样本统计量 和 代替回归方程中的未知参数 和 ,就得到了估计的回归方程 一元线性回归中估计的回归方程为 其中: 是估计的回归直线在 y 轴上的截距, 是直线的斜率,它表示对于一个给定的 x 的值, 是 y 的估计值,也表示 x 每变动一个单位时, y 的平均变动值 2008年8月
33
8.2 一元线性回归的估计和检验 参数的最小二乘估计
34
参数的最小二乘估计 (method of least squares )
德国科学家Karl Gauss(1777—1855)提出用最小化图中垂直方向的误差平方和来估计参数 使因变量的观察值与估计值之间的误差平方和达到最小来求得 和 的方法。即 用最小二乘法拟合的直线来代表x与y之间的关系与实际数据的误差比其他任何直线都小 2008年8月
35
Karl Gauss的最小化图 y x (xn , yn) (x2 , y2) ei = yi-yi ^
(xi , yi) (x1 , y1) x 2008年8月
36
参数的最小二乘估计 ( 和 的计算公式) 根据最小二乘法,可得求解 和 的公式如下 2008年8月
37
参数的最小二乘估计 (例题分析) 用Excel进行回归分析 【例】求销售收入与广告费用的估计回归方程 ,并解释回归系数的含义
第1步:选择【工具】下拉菜单,并选择【数据分析】选项 第2步:在分析工具中选择【回归】 ,选择【确定】 第2步:当对话框出现时 在【Y值输入区域】设置框内键入Y的数据区域 在【X值输入区域】设置框内键入X的数据区域 在【置信度】选项中给出所需的数值 在【输出选项】中选择输出区域 在【残差】分析选项中选择所需的选项 用Excel进行回归分析 2008年8月
38
参数的最小二乘估计 (例题分析) 【例】求销售收入与广告费用的估计回归方程 ,并解释回归系数的含义 2008年8月
39
参数的最小二乘估计 (例题分析) 2008年8月
40
8.2 一元线性回归的估计和检验 回归直线的拟合优度
41
变差 因变量 y 的取值是不同的,y 取值的这种波动称为变差。变差来源于两个方面
由于自变量 x 的取值不同造成的 除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 对一个具体的观测值来说,变差的大小可以通过该实际观测值与其均值之差 来表示 2008年8月
42
误差分解图 y y x 2008年8月
43
{ { { 误差平方和的分解 (误差平方和的关系) SST = SSR + SSE 总平方和 (SST) 回归平方和 (SSR) 残差平方和
误差平方和的分解 (误差平方和的关系) { { { 总平方和 (SST) 回归平方和 (SSR) 残差平方和 (SSE) SST = SSR + SSE 2008年8月
44
误差平方和的分解 (三个平方和的意义) 总平方和(SST—total sum of squares)
误差平方和的分解 (三个平方和的意义) 总平方和(SST—total sum of squares) 反映因变量的 n 个观察值与其均值的总误差 回归平方和(SSR—sum of squares of regression) 反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和 残差平方和(SSE—sum of squares of error) 反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和 2008年8月
45
判定系数R2 (coefficient of determination)
回归平方和占总误差平方和的比例 反映回归直线的拟合程度 取值范围在 [ 0 , 1 ] 之间 R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差 决定系数平方根等于相关系数 用Excel进行回归 2008年8月
46
估计标准误差 (standard error of estimate)
实际观察值与回归估计值误差平方和的均方根 反映实际观察值在回归直线周围的分散状况 对误差项的标准差的估计,是在排除了x对y的线性影响后,y随机波动大小的一个估计量 反映用估计的回归方程预测y时预测误差的大小 计算公式为 用Excel进行回归 2008年8月
47
8.2 一元线性回归的估计和检验 显著性检验
48
线性关系的检验 检验自变量与因变量之间的线性关系是否显著
将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著 回归均方:回归平方和SSR除以相应的自由度(自变量的个数k) 残差均方:残差平方和SSE除以相应的自由度(n-k-1) 2008年8月
49
线性关系的检验 (检验的步骤) 提出假设 H0:1=0 线性关系不显著 2. 计算检验统计量F
线性关系的检验 (检验的步骤) 提出假设 H0:1=0 线性关系不显著 2. 计算检验统计量F 确定显著性水平,并根据分子自由度1和分母自由度n-2求统计量的P值 作出决策:若P<,拒绝H0。表明两个变量之间的线性关系显著 用Excel进行回归 2008年8月
50
回归系数的检验和推断 检验 x 与 y 之间是否具有线性关系,或者说,检验自变量 x 对因变量 y 的影响是否显著
理论基础是回归系数 的抽样分布 在一元线性回归中,等价于线性关系的显著性检验 采用t检验 2008年8月
51
回归系数的检验和推断 (样本统计量 的分布)
回归系数的检验和推断 (样本统计量 的分布) 是根据最小二乘法求出的样本统计量,它有自己的分布 的分布具有如下性质 分布形式:正态分布 数学期望: 标准差: 由于 未知,需用其估计量se来代替得到 的估计的标准差 2008年8月
52
回归系数的检验和推断 (检验步骤) 提出假设 H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 计算检验的统计量
回归系数的检验和推断 (检验步骤) 提出假设 H0: b1 = 0 (没有线性关系) H1: b1 0 (有线性关系) 计算检验的统计量 确定显著性水平,计算出统计量的P值,并做出决策 P<,拒绝H0,表明自变量是影响因变量的一个显著因素 2008年8月
53
回归系数的检验和推断 (b1和b0的置信区间)
用Excel进行回归 2008年8月
54
第 8 章 一元线性回归 8.3 利用回归方程进行预测 平均值的置信区间 个别值的预测区间
55
区间估计 对于自变量 x 的一个给定值 x0,根据回归方程得到因变量 y 的一个估计区间 区间估计有两种类型
置信区间估计(confidence interval estimate) 预测区间估计(prediction interval estimate) 2008年8月
56
8.3 利用回归方程进行预测 平均值的置信区间
57
平均值的置信区间 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 ,这一估计区间称为置信区间(confidence interval) E(y0) 在1-置信水平下的置信区间为 式中:se为估计标准误差 2008年8月
58
个别值的预测区间 利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间,这一区间称为预测区间(prediction interval) y0在1-置信水平下的预测区间为 注意! 2008年8月
59
置信区间和预测区间 y x xp 预测上限 置信上限 置信下限 预测下限 x 2008年8月 Note:
1. As we move farther from the mean, the bands get wider. 2. The prediction interval bands are wider. Why? (extra Syx) 2008年8月 124
60
用Excel中的FORECAST函数进行线性回归的点预测
第1步:选择【fx】插入函数,并选择【统计】函数中的 FORECAST(x,known_y's,known_x's)函数 第2步:当对话框出现时 在【X】为需要进行预测的数据点(或数据区域) 在【known_y‘s】中输入y的数据区域 在【known_x‘s】中输入x的数据区域 【注】若要同时返回一组预测值,则需要首先选择输出区域,然后同时按下 【Ctrl+Shift+Enter】键 用FORECAST函数进行点预测 2008年8月
61
用SPSS进行回归 第1步:选择【Analyze】下拉菜单,并选择【Regression - linear】选项,进入主对话框 第2步:在主对话框中将因变量(本例为销售收入)选入【Dependent】,将自变量(本例为广告费用)选入【Independent(s)】 第3步:点击【Save】 在【Predicted Values】下选中【Unstandardized】(输出点预测值) 在【Prediction interval】下选中【Mean】和【Individual】(输出置信区间和预测区间) 在【Confidence Interval】中选择所要求的置信水平(隐含值95%,一般不用改变) 在【Residuals】下选中【Unstandardized】和【standardized】(输出残差和标准化残差) 点击【Continue】回到主对话框。点击【OK】 用SPSS进行回归 2008年8月
62
置信区间和预测区间 (例题分析) 预测线 点预测值 置信线 2008年8月
63
置信区间和预测区间 (例题分析) 2008年8月 Note:
1. As we move farther from the mean, the bands get wider. 2. The prediction interval bands are wider. Why? (extra Syx) 2008年8月 124
64
预测时需要注意的问题 在利用回归方程进行估计或预测时,不要用样本数据之外的x值去预测相对应的y值
因为在一元线性回归分析中,总是假定因变量y与自变量x之间的关系用线性模型表达是正确的。但实际应用中,它们之间的关系可能是某种曲线 此时我们总是要假定这条曲线只有一小段位于x测量值的范围之内。如果x的取值范围是在xL和xU之间,那么可以用所求出的利用回归方程对处于xL和xU之间的值来估计E(y)和预测y。如果用xL和xU之间以外的值得出的估计值和预测值就会很差 2008年8月
65
实际数据是曲线而模型为直线 E(y) E(y) x xL xU 2008年8月 Note:
1. As we move farther from the mean, the bands get wider. 2. The prediction interval bands are wider. Why? (extra Syx) x xL xU 2008年8月 124
66
第 8 章 一元线性回归 8.4 用残差证实模型的假定 检验方差齐性 检验正态性
67
8.4 用残差证实模型的假定 检验方差齐性
68
残差 (residual) 因变量的观测值与根据估计的回归方程求出的预测值之差,用e表示 反映了用估计的回归方程去预测而引起的误差
可用于确定有关误差项的假定是否成立 用于检测有影响的观测值 2008年8月
69
残差图 (residual plot) 表示残差的图形 用于判断误差的假定是否成立 检测有影响的观测值 关于x的残差图 关于y的残差图
标准化残差图 用于判断误差的假定是否成立 检测有影响的观测值 2008年8月
70
残差图 (形态及判别) x x x (b)非常数方差 (c)模型不合适 (a)满意模式 残差 残差 残差 2008年8月
(c)模型不合适 残差 x x (a)满意模式 2008年8月
71
残差与标准化残差图 (例题分析) 标准残差 点预测值 残差 2008年8月
72
残差图 (例题分析) 销售收入与广告费用回归的残差图 2008年8月
73
8.4 用残差证实模型的假定 检验正态性
74
标准化残差 (standardized residual)
残差除以它的标准差 也称为Pearson残差或半学生化残差(semi-studentized residuals) 计算公式为 注意:Excel给出的标准残差的计算公式为 这实际上是学生化删除残差(studentized deleted residuals) 2008年8月
75
标准化残差图 用以直观地判断误差项服从正态分布这一假定是否成立 若假定成立,标准化残差的分布也应服从正态分布
在标准化残差图中,大约有95%的标准化残差在-2到+2之间 2008年8月
76
标准化残差图 (例题分析) 销售收入与广告费用回归的标准化残差图 2008年8月
77
本章小结 相关关系的分析 参数的最小二乘估计 回归直线的拟合优度 回归方程的显著性检验 利用回归方程进行预测 用残差证实模型的假定
用 Excel 和SPSS进行回归 2008年8月
78
结 束 THANKS
Similar presentations