Presentation is loading. Please wait.

Presentation is loading. Please wait.

STAT 第九章 相关与回归分析 在此,可以发现,账单越多,给的小费也越多,因此,两者之间似乎存在着一种比例关系。我们可计算样本的总的比例,即总小费/总账单,但问题是:总体是否也是如此。

Similar presentations


Presentation on theme: "STAT 第九章 相关与回归分析 在此,可以发现,账单越多,给的小费也越多,因此,两者之间似乎存在着一种比例关系。我们可计算样本的总的比例,即总小费/总账单,但问题是:总体是否也是如此。"— Presentation transcript:

1 STAT 第九章 相关与回归分析 在此,可以发现,账单越多,给的小费也越多,因此,两者之间似乎存在着一种比例关系。我们可计算样本的总的比例,即总小费/总账单,但问题是:总体是否也是如此。

2 统计实例 统计实例 STAT 账单与小费的关系
在西方国家,餐饮等服务行业有一条不成文的规定,即发生餐饮等服务消费时须给侍者一定数额的小费。许多人都听说小费应是账单的16%左右,是否真的如此? 在此,可以发现,账单越多,给的小费也越多,因此,两者之间似乎存在着一种比例关系。我们可计算样本的总的比例,即总小费/总账单,但问题是:总体是否也是如此。

3 统计实例 STAT 我们必须关注的问题是: 1. 账单与小费之间是否确实有关? 2. 若有关,则属于何种关系?
3. 如何根据账单来推算小费的数额? 本章的重点就是根据成对出现的样本数据做出一些推论。并力求描述账单与小费之间的数量关系,这样就能找出人们留小费时所应遵循的规则。 1、账单与小费之间有无关系,小费是根据账单来确定的还是依据其他因素来确定的;2、什么关系,如何由账单确定小费。前两个方面属于相关分析的内容,后者属于回归分析的内容。

4 第九章 相关与回归分析 本章重点 2. 相关关系的测定; 3. 回归方程的拟合; 4. 回归方程的应用(估计与预测)。 本章难点
STAT 第九章 相关与回归分析 本章重点 1. 相关关系与回归方程概述; 2. 相关关系的测定; 3. 回归方程的拟合; 4. 回归方程的应用(估计与预测)。 本章难点 1. 积差法相关系数的计算; 2. 总离差平方和及其分解。 统计分析方法:指数分析、时间序列分析和相关与回归分析。通过总离差平方和的分解了解总离差平方和受哪些因素影响,具体可分解为几个部分。以测定回归方程的优良程度。

5 第九章 相关与回归分析 第一节 相关关系概述 一、问题的提出 STAT 1. 单个变量的研究分布、平均及标准差、推断等;
第九章 相关与回归分析 第一节 相关关系概述 一、问题的提出 1. 单个变量的研究分布、平均及标准差、推断等; 2. 多个变量的研究有无关系、何种关系、如何推算。 (1)计件工资与产量; (2)原材料消耗与产量、单位产量消耗和原材料价格; (3)粮食产量与施肥量; (4)香烟消费与癌症发生率; (5)血压与年龄;    (6)父母身高与子女身高; (7)家庭收入与打屁股次数;(8)工资增加与酒价上涨

6 第九章 相关与回归分析 二、变量间的相互关系 STAT (一)函数关系 1. 定义:完全确定的(数量)关系。 一一对应关系!
第九章 相关与回归分析 二、变量间的相互关系 (一)函数关系 1. 定义:完全确定的(数量)关系。 一一对应关系! (1)某一变量的变动可由另一(组)变量的变动完全解释; 计件工资(y)与产量(x) y=f(x)=10x; x0=1件, y0=10元; x1=2件, y1=20元 原材料消耗总额(y)与产量(x1)、单位产量消耗(x2)和原材料价格(x3)  y=x1·x2 ·x3。 (2)y被解释变量(因变量);x解释变量(自变量)。 (二)相关关系 1. 定义:不完全确定的关系。 统计关系,平均对应关系! 侧重理解:函数关系表示的是被解释变量的变动100%是由解释变量的变动所导致的。因而两者之间的关系是完全确定的。而相关关系则不是。可从两个角度去理解。

7 第九章 相关与回归分析 STAT 身高(y)与体重(x); A:x=60kg、y=1.70m; B: x=60kg、y=1.72m;
第九章 相关与回归分析 身高(y)与体重(x); A:x=60kg、y=1.70m; B: x=60kg、y=1.72m; C:x=60kg、y=1.68m; D: x=60kg、y=1.65m。 表述:y=f(x)+ 2. 相关关系的成因 (1)某些影响因素尚未被认识; (2)虽已认识但无法测量; (3)测量误差。 某种水果2元/斤: 购买额 y=2x 购买量 y=4元、x=2斤  y=2x+=2× =4元 3. 数量关系的表现形式 我们更喜欢函数关系,而不喜欢相关关系。因此,欲将相关关系转化为函数关系,就必须设法解决以上三个方面的问题。

8 第九章 相关与回归分析 三、相关关系的种类 STAT (1)单一因果关系  粮食产量与施肥量; (2)互为因果关系  身高与体重;
第九章 相关与回归分析 (1)单一因果关系  粮食产量与施肥量; (2)互为因果关系  身高与体重; (3)伴随关系  教师的薪金与酒价 。 三、相关关系的种类 (一)按相关的程度分 1. 完全相关:函数关系; 2. 不相关:没有关系;[例]苏格兰 :虱子数与健康状况。 3. 不完全相关。 (二)按相关的方向分 1. 正相关:变量的变动方向一致(同增同减); 2. 负相关:变量的变动方向相反(一增一减)。

9 (三)按相关的形式分 1. 线性相关; 2. 非线性相关。
STAT 第九章 相关与回归分析 (三)按相关的形式分 1. 线性相关; 2. 非线性相关。 相关程度密切 相关程度密切意味着当x变动一个单位,y会较规律地变动b个单位,反之亦反。 相关程度不密切

10 第九章 相关与回归分析 STAT (四)按影响因素的多少分 1. 单(简)相关:只有一个自变量。
第九章 相关与回归分析 (四)按影响因素的多少分 1. 单(简)相关:只有一个自变量。 学习成绩与学习时间;血压与年龄;亩产量与施肥量。 2. 复(多元)相关:两个或两个以上的自变量 ; 经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系; 体重与身高、食欲、睡眠时间之间的关系。 3. 偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。 就y=ax1+bx2+ ,研究y与x1之间的关系,假定x2不变。

11 第九章 相关与回归分析 第二节 线性相关关系的测定 一、相关图表 STAT [目的]测定变量间的相关方向与密切程度。 (一)相关表
第九章 相关与回归分析 第二节 线性相关关系的测定 [目的]测定变量间的相关方向与密切程度。 一、相关图表 (一)相关表 1. 单变量分组相关表:自变量分组且计算次数,因变量只计算平均数。

12 2. 双变量分组相关表:对自变量与因变量均进行分组。 注:自变量X轴;因变量Y轴。
STAT 第九章 相关与回归分析 2. 双变量分组相关表:对自变量与因变量均进行分组。 注:自变量X轴;因变量Y轴。 (二)相关图:散点图。   不足:难以精确反映相关的密切程度。

13 二、(线性)相关系数※ (一)积差法计算公式
STAT 第九章 相关与回归分析 二、(线性)相关系数※ (一)积差法计算公式 变型公式:

14 (二)协方差sxy的作用 1. 显示x与y之间的相关方向。
STAT 第九章 相关与回归分析 (二)协方差sxy的作用 1. 显示x与y之间的相关方向。 (一)  + (三)  –  sxy > 0正相关:r > 0

15 STAT 第九章 相关与回归分析 [负相关] (二)  –  + (四)  +  –  Sxy  0负相关:r  0

16 STAT 第九章 相关与回归分析 2. 显示x与y之间的相关程度。

17 STAT 第九章 相关与回归分析 [负相关]

18 STAT 第九章 相关与回归分析 [判定两变量是否存在相关关系]

19 [归纳] sxy的作用 第一,显示x与y之间的相关方向
STAT 第九章 相关与回归分析 [归纳] sxy的作用 第一,显示x与y之间的相关方向 第二,显示x与y之间的相关密切程度 问题:如果变量x>p,y >q;且sxy >spq 能否认为x与y之间的相关程度一定会高于p与q?

20 (三)sx、sy的作用 1. 使不同变量的协方差标准化直接对比。
STAT 第九章 相关与回归分析 (三)sx、sy的作用 1. 使不同变量的协方差标准化直接对比。

21 [例]甲、乙两人有关食量与体重资料如下(单位:斤)
STAT 第九章 相关与回归分析 [例]甲、乙两人有关食量与体重资料如下(单位:斤)

22 STAT 第九章 相关与回归分析

23 STAT 第九章 相关与回归分析 2. 使

24 STAT 第九章 相关与回归分析 附:r的变型计算公式推导

25 STAT 第九章 相关与回归分析 [r的变型计算公式推导]

26 STAT 第九章 相关与回归分析 [r的变型计算式]

27 第九章 相关与回归分析 STAT (四)线性相关的判断准则
第九章 相关与回归分析 (四)线性相关的判断准则 [例]为了解营业员每人月平均销售额(万元)和利润率(%)之间的关系,特从100家商店中随机抽取10家,得到如下资料,试计算样本相关系数。

28 STAT 第九章 相关与回归分析 计算过程:

29 经计算得:x=50,y=110.8,x2=294,y2=1465, xy=654.9,n=10
STAT 第九章 相关与回归分析 经计算得:x=50,y=110.8,x2=294,y2=1465,      xy=654.9,n=10 答:人均销售额与利润率之间存在着高度的正相关关系。

30 问:若令人均销售额为y,利润率为x,则r的取值是否改变 ?
STAT 第九章 相关与回归分析 问:若令人均销售额为y,利润率为x,则r的取值是否改变 ?

31 第九章 相关与回归分析 STAT (五)样本相关系数的特性 1. 两变量均为随机变量。 2. 两变量的地位是平等的 rxy= ryx。
第九章 相关与回归分析 (五)样本相关系数的特性 1. 两变量均为随机变量。 2. 两变量的地位是平等的 rxy= ryx。 3. 其接近于1的程度与样本容量n有关。 n小,r 1。特例:当n = 2时,r = 1。 [例]样本(x,y)为(6,12.6),(1,3.0), n = 2。

32 第九章 相关与回归分析 看手相: STAT 一些人相信手掌生命线的长 度可以来预测他们的寿命。M.E.
第九章 相关与回归分析 一些人相信手掌生命线的长 度可以来预测他们的寿命。M.E. Wilson和L.E.Mather在《美国 医学协会学报上》发表的一封信 中,通过对尸体的研究对此给 予了驳斥。死亡时的年龄与手掌 生命线的长度被一起记录下来。 作者得出死亡时的年龄与生命线 的长度不存在显著相关的结论。 手相术失 传了,手也就放下了。 看手相:

33 第九章 相关与回归分析 1. t检验(R.A.Fisher检验) STAT (六)线性相关的显著性检验 (不讲)
第九章 相关与回归分析 (六)线性相关的显著性检验 (不讲) 1. t检验(R.A.Fisher检验) (1)提出假设:H0:=0 H1:0 (2)计算检验统计量; 1、假设样本是一个不相关的总体中抽出的。 (3)将检验统计量与临界值比较,如检验统计量的绝对值大 于临界值,则拒绝原假设;反之亦反。 2. r检验法:查《相关系数检验表》, 在给定下,若rr(n-2),则拒绝H0。

34 STAT 第九章 相关与回归分析 [例]为了解营业员每人月平均销售额(万元)和利润率(%)之间的关系,特从100家商店中随机抽取10家,得到如下资料,试计算样本相关系数并进行检验(=0.05)。 解:提出假设:H0:=0 H1:0    已知:r=0.987,n=10 1、假设样本是一个不相关的总体中抽出的。 所以,拒绝原假设而接受备择假设,即检验结果表明,月平均销售额与利润率之间确实存在着线性相关关系。

35 第九章 相关与回归分析 STAT [r检验法] 已知:r=0.987,n=10 相关系数检验表  n-2 0.05 0.01 6 7 8
第九章 相关与回归分析 [r检验法] 已知:r=0.987,n=10 相关系数检验表 n-2 0.05 0.01 6 7 8 0.707 0.666 0.632 0.834 0.798 0.765 1、假设样本是一个不相关的总体中抽出的。

36 第九章 相关与回归分析 第三节 回归分析 一、回归分析概述 STAT (一)概念
第九章 相关与回归分析 第三节 回归分析 一、回归分析概述 (一)概念 1. 相关分析的不足:无法表明两变量之间的数量规律  无法从一个变量(x)的变化来推测另一个变量(y)的变化。

37 第九章 相关与回归分析 STAT 2. 回归分析:通过一个(些)变量的变化解释另一变量的变
第九章 相关与回归分析 2. 回归分析:通过一个(些)变量的变化解释另一变量的变 化  y = a+bx 、 y=ax1+bx2 。 英国生物学家 F · Galton 首次提出。 父辈身高  子辈身高 x y  y = f(x)+  人类平均身高 (二)回归分析的种类 1. 按自变量的多少分 (1)简单(一元)回归:自变量只有一个 。 y = a+bx (2)复(多元)回归:自变量为2个或2个以上。 y=0+ 1x1+ 2x2+…+ nxn

38 2. 按回归方程式的特征分 (1)线性回归:因变量为自变量的线性函数。 y = a+bx (2)非线性回归:因变量为自变量的非线性函数。
STAT 第九章 相关与回归分析 2. 按回归方程式的特征分 (1)线性回归:因变量为自变量的线性函数。 y = a+bx (2)非线性回归:因变量为自变量的非线性函数。

39 第九章 相关与回归分析 STAT (三)回归分析的步骤 1. 确定自变量和因变量。 消费支出(y,果)  国民收入(x,因);
第九章 相关与回归分析 (三)回归分析的步骤 1. 确定自变量和因变量。 消费支出(y,果)  国民收入(x,因);  自变量筛选问题: ■消除无关的变量。 农副产品出口额= 社会商品零售总额+0.22  农副产品收购额 社会商品零售总额与农副产品出口额无直接关系,更不是影响农副产品出口额的原因。 ■消除不重要的变量。 生产资料进口额=0.73 轻工业投资+0.18 生产消费等 轻工业投资对生产资料进口额虽有影响,但不重要,或不

40 第九章 相关与回归分析 STAT 完全,应选择全社会固定资产投资额。 ■消除不独立的变量。
第九章 相关与回归分析 完全,应选择全社会固定资产投资额。 ■消除不独立的变量。 农业总产值= 粮食产量+0.05 农机动力-0.21  受灾面积 粮食产量受农机动力和受灾面积的影响,它们存在相关性。 2. 确定样本回归方程 消费支出y与收入x的回归方程: y= a+bx= x 3.统计检验:   (1)回归模型的显著性检验,即反映回归方程对样本观测值的拟合优度如何;   (2)回归参数的显著性检验,即检验变量y与变量x之间能否用线性关系来描述; 4. 预测或控制。已知 x确定y:估计或预测; 已知y确定x:控制

41 第九章 相关与回归分析 STAT 回归分析与相关分析的关系 (1)联系: ■两者具有互为补充关系;■两者存在计算上的联系。 (2)区别:
第九章 相关与回归分析 回归分析与相关分析的关系  (1)联系:  ■两者具有互为补充关系;■两者存在计算上的联系。  (2)区别:  ■两者在关心变量性质上不同;  ■两者的任务和目的不同; ■两者的使用范围不同。 应用相关与回归分析应注意的问题   ■必须以定性分析为基础。   ■要注意变量间相关关系发生作用的范围。    如施肥量与农作物产量; 由爱生恨   ■应用回归方程时不能一概认为自变量与因变量存在因果     关系。 统计分析方法:指数分析、时间序列分析和相关与回归分析。通过总离差平方和的分解了解总离差平方和受哪些因素影响,具体可分解为几个部分。以测定回归方程的优良程度。

42 二、一元线性回归方程的拟合 (一)总体回归模型 →Y=A+BX+
STAT 第九章 相关与回归分析 二、一元线性回归方程的拟合 (一)总体回归模型 →Y=A+BX+

43 第九章 相关与回归分析 STAT 总体回归方程 →E(Y)=A+BX
第九章 相关与回归分析 总体回归方程 →E(Y)=A+BX 如果影响Y的因素还有别的,并且平均之后无法抵消,则必须再列举出来作为解释变量,最终必须使随机扰动项的均值为0.

44 第九章 相关与回归分析 STAT 总体回归模型建立的假定条件:
第九章 相关与回归分析 总体回归模型建立的假定条件: 1. y是随机变量,y的分布是正态分布,随机误差项的期望值为零,即 ,y的平均值在给定x的值的回归线上。 2.对于任何x值,y分布的方差相等,即具有同方差,即Var( )= 2 。 3.随机误差项 是相互独立的,不存在序列相关。即 cov ( i, j)=0,(i≠j)。 4.对多元线性回归模型,y=a+b1x1+b2x2+…+bkxk+ ,各个变量是相互独立的,不存在多重共线性,即cov(xi,xj)=0,(i≠j)。 统计分析方法:指数分析、时间序列分析和相关与回归分析。通过总离差平方和的分解了解总离差平方和受哪些因素影响,具体可分解为几个部分。以测定回归方程的优良程度。

45 STAT 第九章 相关与回归分析 样本回归方程的拟合思想: 抽样 N  n,

46 (二)样本回归方程的拟合 从总体中随机取样,获取一组样本观察值。
STAT 第九章 相关与回归分析 (二)样本回归方程的拟合 从总体中随机取样,获取一组样本观察值。

47 STAT 第九章 相关与回归分析 图示: 步骤: 1. 拟合样本回归方程; 2. 样本回归方程的拟合优度

48 (三)样本回归方程的拟合方法 1. 绝对值拟合法
STAT 第九章 相关与回归分析 (三)样本回归方程的拟合方法 1. 绝对值拟合法 2. 最小二乘法(OLS法) 基本思路:使残差平方和最小的直线“最优直线”。 正数总可以找到最小值,负数总可以找到最大值。

49 总可以设法找到一对a、b的取值,使Q为最小值。
STAT 第九章 相关与回归分析 总可以设法找到一对a、b的取值,使Q为最小值。

50 STAT 第九章 相关与回归分析 将a代入(2)式得

51 STAT 第九章 相关与回归分析 [整理]

52 第九章 相关与回归分析 STAT 相关系数r与回归系数b之间的关系 (1)两者是同向的; (2)r反映变量的相关方向与密切程度;
第九章 相关与回归分析 相关系数r与回归系数b之间的关系 (1)两者是同向的; (2)r反映变量的相关方向与密切程度; b反映某一变量变动一个单位时另一变量的平均变动量。

53 [例]为研究收入与食品支出的关系,随机抽取了10户家庭的样本(百元),请拟合样本回归方程。
STAT 第九章 相关与回归分析 [例]为研究收入与食品支出的关系,随机抽取了10户家庭的样本(百元),请拟合样本回归方程。

54 解:通过散点图可近似看出收入与食品支出之间呈线性关系,故设两者有关系
STAT 第九章 相关与回归分析 解:通过散点图可近似看出收入与食品支出之间呈线性关系,故设两者有关系 经济意义:当收入为0时,亦须有217.26元的食品支出,收入每增加100元,食品支出平均增加20.23元。

55 第九章 相关与回归分析 STAT a代表直线的起点值,为直线的纵轴截距,它表示x=0时y的 常数项。
第九章 相关与回归分析 参数a、b的经济含义是: a代表直线的起点值,为直线的纵轴截距,它表示x=0时y的 常数项。 b称为回归系数,表示自变量x增加一个单位时因变量y的平 均增加值。回归系数的正负号与相关系数是一致的,因此回归系 数的正负号可用来判断两变量相关的方向,也可利用b求相关系 数r 。

56 STAT 第九章 相关与回归分析 利用b求相关系数r 解:

57 三、回归方程的方差分析(回归方程的拟合优度)
STAT 第九章 相关与回归分析 三、回归方程的方差分析(回归方程的拟合优度) (一)总离差平方和的分解

58 STAT 第九章 相关与回归分析 由: 先不用解释,等到图形出现之后再做解释。

59 [例]住户消费支出(y)与收入(x)的样本回归方程。
STAT 第九章 相关与回归分析 [例]住户消费支出(y)与收入(x)的样本回归方程。

60 (二)判定系数(可决系数)→回归模型拟合程度的测度
STAT 第九章 相关与回归分析 (二)判定系数(可决系数)→回归模型拟合程度的测度

61 ■判定系数的作用 r2越接近与1,说明模型越有效,r2越接近与0,模型越无效。
STAT 第九章 相关与回归分析 ■判定系数的作用 r2越接近与1,说明模型越有效,r2越接近与0,模型越无效。 当判定系数等于1时,说明被解释变量的变动100%是因为解释变量的变动所导致的。

62 STAT 第九章 相关与回归分析 ■判定系数r2与相关系数r的关系

63 第九章 相关与回归分析 STAT ■相关系数也从另一角度说明了回归直线的拟合优度,相关
第九章 相关与回归分析 ■相关系数也从另一角度说明了回归直线的拟合优度,相关 系数越接近± 1,说明回归直线对观测数据的拟合优度越高,但 需谨慎!因为 r的值总是大于r2 的值(0和1除外)。 例: r=0.5 时,r2 =0.25→只能解释总变差的25%

64 第九章 相关与回归分析 STAT (三)估计标准误差 1. 定义:观测值与回归值之间的平均离差。均方残差的平方根
第九章 相关与回归分析 (三)估计标准误差 1. 定义:观测值与回归值之间的平均离差。均方残差的平方根 →说明各观测值在直线周围的分散程度。可看作是排除了x 对y的线性影响后,y随机波动大小的一个估计量。实际意义上, 它反映了用估计的回归方程预测因变量y时预测误差的大小。 2. 公式 。 即残差 注:由于求a、b参数时有两个方程的约束,所以n-2

65 STAT 第九章 相关与回归分析 图示:

66 STAT 第九章 相关与回归分析 (四)方差法相关系数

67 课堂练习 1. 试根据下列资料编制直线回归方程。
STAT 第九章 相关与回归分析 课堂练习 1. 试根据下列资料编制直线回归方程。

68 2. 已知相关系数r=0.6,估计标准误差等于8,样本容量为62,求:(1)剩余变差;(2)剩余变差占总变差的比重;(3)求总变差。
STAT 第九章 相关与回归分析 2. 已知相关系数r=0.6,估计标准误差等于8,样本容量为62,求:(1)剩余变差;(2)剩余变差占总变差的比重;(3)求总变差。

69 STAT 第九章 相关与回归分析 3. 对40家企业的样本数据进行一元回归分析,因变量与其平均数的离差平方和为6400,而回归直线拟合的剩余变差为2000。求:(1)变量间的相关系数;(2)该方程的估计标准误差。

70 第九章 相关与回归分析 课外作业: STAT 葡萄酒能降低心脏病死亡率吗
第九章 相关与回归分析 课外作业:       葡萄酒能降低心脏病死亡率吗   适量饮用葡萄酒可以预防心脏病。我们来看看一些国家的资料。表中是10个发达国家一年的葡萄酒消耗量(平均每人喝葡萄酒摄取酒精的升数X)以及一年中因心脏病死亡的人数(每10万人死亡人数Y)。 (1)根据下表中的数据制作一个散点图来说明:一国的葡萄酒消耗量是否有助于解释心脏病的死亡率。 (2)为何在求相关系数和拟合回归方程时经常要做散点图。 (3)计算从葡萄酒得到的酒精和心脏病死亡率两变量间相关系数,并评价两变量的相关关系的程度和方向。 (4)以心脏病死亡率为因变量,以从葡萄酒得到的酒精为自变量拟合简单线性回归方程,并解释方程中的两系数的含义。

71 第九章 相关与回归分析 STAT (5)请简要分析相关系数的意义。 国家 X Y 澳大利亚 比利时 丹麦 法国 冰岛 2.5 2.9 9.1
第九章 相关与回归分析 (5)请简要分析相关系数的意义。 国家 X Y 澳大利亚 比利时 丹麦 法国 冰岛 2.5 2.9 9.1 0.8 211 131 220 71 奥地利 加拿大 芬兰 爱尔兰 意大利 3.9 2.4 0.7 7.9 167 191 297 300 107


Download ppt "STAT 第九章 相关与回归分析 在此,可以发现,账单越多,给的小费也越多,因此,两者之间似乎存在着一种比例关系。我们可计算样本的总的比例,即总小费/总账单,但问题是:总体是否也是如此。"

Similar presentations


Ads by Google