STAT 第九章 相关与回归分析 在此,可以发现,账单越多,给的小费也越多,因此,两者之间似乎存在着一种比例关系。我们可计算样本的总的比例,即总小费/总账单,但问题是:总体是否也是如此。
统计实例 统计实例 STAT 账单与小费的关系 在西方国家,餐饮等服务行业有一条不成文的规定,即发生餐饮等服务消费时须给侍者一定数额的小费。许多人都听说小费应是账单的16%左右,是否真的如此? 在此,可以发现,账单越多,给的小费也越多,因此,两者之间似乎存在着一种比例关系。我们可计算样本的总的比例,即总小费/总账单,但问题是:总体是否也是如此。
统计实例 STAT 我们必须关注的问题是: 1. 账单与小费之间是否确实有关? 2. 若有关,则属于何种关系? 3. 如何根据账单来推算小费的数额? 本章的重点就是根据成对出现的样本数据做出一些推论。并力求描述账单与小费之间的数量关系,这样就能找出人们留小费时所应遵循的规则。 1、账单与小费之间有无关系,小费是根据账单来确定的还是依据其他因素来确定的;2、什么关系,如何由账单确定小费。前两个方面属于相关分析的内容,后者属于回归分析的内容。
第九章 相关与回归分析 本章重点 2. 相关关系的测定; 3. 回归方程的拟合; 4. 回归方程的应用(估计与预测)。 本章难点 STAT 第九章 相关与回归分析 本章重点 1. 相关关系与回归方程概述; 2. 相关关系的测定; 3. 回归方程的拟合; 4. 回归方程的应用(估计与预测)。 本章难点 1. 积差法相关系数的计算; 2. 总离差平方和及其分解。 统计分析方法:指数分析、时间序列分析和相关与回归分析。通过总离差平方和的分解了解总离差平方和受哪些因素影响,具体可分解为几个部分。以测定回归方程的优良程度。
第九章 相关与回归分析 第一节 相关关系概述 一、问题的提出 STAT 1. 单个变量的研究分布、平均及标准差、推断等; 第九章 相关与回归分析 第一节 相关关系概述 一、问题的提出 1. 单个变量的研究分布、平均及标准差、推断等; 2. 多个变量的研究有无关系、何种关系、如何推算。 (1)计件工资与产量; (2)原材料消耗与产量、单位产量消耗和原材料价格; (3)粮食产量与施肥量; (4)香烟消费与癌症发生率; (5)血压与年龄; (6)父母身高与子女身高; (7)家庭收入与打屁股次数;(8)工资增加与酒价上涨
第九章 相关与回归分析 二、变量间的相互关系 STAT (一)函数关系 1. 定义:完全确定的(数量)关系。 一一对应关系! 第九章 相关与回归分析 二、变量间的相互关系 (一)函数关系 1. 定义:完全确定的(数量)关系。 一一对应关系! (1)某一变量的变动可由另一(组)变量的变动完全解释; 计件工资(y)与产量(x) y=f(x)=10x; x0=1件, y0=10元; x1=2件, y1=20元 原材料消耗总额(y)与产量(x1)、单位产量消耗(x2)和原材料价格(x3) y=x1·x2 ·x3。 (2)y被解释变量(因变量);x解释变量(自变量)。 (二)相关关系 1. 定义:不完全确定的关系。 统计关系,平均对应关系! 侧重理解:函数关系表示的是被解释变量的变动100%是由解释变量的变动所导致的。因而两者之间的关系是完全确定的。而相关关系则不是。可从两个角度去理解。
第九章 相关与回归分析 STAT 身高(y)与体重(x); A:x=60kg、y=1.70m; B: x=60kg、y=1.72m; 第九章 相关与回归分析 身高(y)与体重(x); A:x=60kg、y=1.70m; B: x=60kg、y=1.72m; C:x=60kg、y=1.68m; D: x=60kg、y=1.65m。 表述:y=f(x)+ 2. 相关关系的成因 (1)某些影响因素尚未被认识; (2)虽已认识但无法测量; (3)测量误差。 某种水果2元/斤: 购买额 y=2x 购买量 y=4元、x=2斤 y=2x+=2×1.9+0.2=4元 3. 数量关系的表现形式 我们更喜欢函数关系,而不喜欢相关关系。因此,欲将相关关系转化为函数关系,就必须设法解决以上三个方面的问题。
第九章 相关与回归分析 三、相关关系的种类 STAT (1)单一因果关系 粮食产量与施肥量; (2)互为因果关系 身高与体重; 第九章 相关与回归分析 (1)单一因果关系 粮食产量与施肥量; (2)互为因果关系 身高与体重; (3)伴随关系 教师的薪金与酒价 。 三、相关关系的种类 (一)按相关的程度分 1. 完全相关:函数关系; 2. 不相关:没有关系;[例]苏格兰 :虱子数与健康状况。 3. 不完全相关。 (二)按相关的方向分 1. 正相关:变量的变动方向一致(同增同减); 2. 负相关:变量的变动方向相反(一增一减)。
(三)按相关的形式分 1. 线性相关; 2. 非线性相关。 STAT 第九章 相关与回归分析 (三)按相关的形式分 1. 线性相关; 2. 非线性相关。 相关程度密切 相关程度密切意味着当x变动一个单位,y会较规律地变动b个单位,反之亦反。 相关程度不密切
第九章 相关与回归分析 STAT (四)按影响因素的多少分 1. 单(简)相关:只有一个自变量。 第九章 相关与回归分析 (四)按影响因素的多少分 1. 单(简)相关:只有一个自变量。 学习成绩与学习时间;血压与年龄;亩产量与施肥量。 2. 复(多元)相关:两个或两个以上的自变量 ; 经济增长与人口增长、科技水平、自然资源、管理水平等之间的关系; 体重与身高、食欲、睡眠时间之间的关系。 3. 偏相关:就多个变量测定其中两个变量的相关程度而假定其他变量不变。 就y=ax1+bx2+ ,研究y与x1之间的关系,假定x2不变。
第九章 相关与回归分析 第二节 线性相关关系的测定 一、相关图表 STAT [目的]测定变量间的相关方向与密切程度。 (一)相关表 第九章 相关与回归分析 第二节 线性相关关系的测定 [目的]测定变量间的相关方向与密切程度。 一、相关图表 (一)相关表 1. 单变量分组相关表:自变量分组且计算次数,因变量只计算平均数。
2. 双变量分组相关表:对自变量与因变量均进行分组。 注:自变量X轴;因变量Y轴。 STAT 第九章 相关与回归分析 2. 双变量分组相关表:对自变量与因变量均进行分组。 注:自变量X轴;因变量Y轴。 (二)相关图:散点图。 不足:难以精确反映相关的密切程度。
二、(线性)相关系数※ (一)积差法计算公式 STAT 第九章 相关与回归分析 二、(线性)相关系数※ (一)积差法计算公式 变型公式:
(二)协方差sxy的作用 1. 显示x与y之间的相关方向。 STAT 第九章 相关与回归分析 (二)协方差sxy的作用 1. 显示x与y之间的相关方向。 (一) + (三) – sxy > 0正相关:r > 0
STAT 第九章 相关与回归分析 [负相关] (二) – + (四) + – Sxy 0负相关:r 0
STAT 第九章 相关与回归分析 2. 显示x与y之间的相关程度。
STAT 第九章 相关与回归分析 [负相关]
STAT 第九章 相关与回归分析 [判定两变量是否存在相关关系]
[归纳] sxy的作用 第一,显示x与y之间的相关方向 STAT 第九章 相关与回归分析 [归纳] sxy的作用 第一,显示x与y之间的相关方向 第二,显示x与y之间的相关密切程度 问题:如果变量x>p,y >q;且sxy >spq 能否认为x与y之间的相关程度一定会高于p与q?
(三)sx、sy的作用 1. 使不同变量的协方差标准化直接对比。 STAT 第九章 相关与回归分析 (三)sx、sy的作用 1. 使不同变量的协方差标准化直接对比。
[例]甲、乙两人有关食量与体重资料如下(单位:斤) STAT 第九章 相关与回归分析 [例]甲、乙两人有关食量与体重资料如下(单位:斤)
STAT 第九章 相关与回归分析 150 152 160 -0.76 -0.38 1.13
STAT 第九章 相关与回归分析 2. 使
STAT 第九章 相关与回归分析 附:r的变型计算公式推导
STAT 第九章 相关与回归分析 [r的变型计算公式推导]
STAT 第九章 相关与回归分析 [r的变型计算式]
第九章 相关与回归分析 STAT (四)线性相关的判断准则 第九章 相关与回归分析 (四)线性相关的判断准则 [例]为了解营业员每人月平均销售额(万元)和利润率(%)之间的关系,特从100家商店中随机抽取10家,得到如下资料,试计算样本相关系数。
STAT 第九章 相关与回归分析 计算过程:
经计算得:x=50,y=110.8,x2=294,y2=1465, xy=654.9,n=10 STAT 第九章 相关与回归分析 经计算得:x=50,y=110.8,x2=294,y2=1465, xy=654.9,n=10 答:人均销售额与利润率之间存在着高度的正相关关系。
问:若令人均销售额为y,利润率为x,则r的取值是否改变 ? STAT 第九章 相关与回归分析 问:若令人均销售额为y,利润率为x,则r的取值是否改变 ?
第九章 相关与回归分析 STAT (五)样本相关系数的特性 1. 两变量均为随机变量。 2. 两变量的地位是平等的 rxy= ryx。 第九章 相关与回归分析 (五)样本相关系数的特性 1. 两变量均为随机变量。 2. 两变量的地位是平等的 rxy= ryx。 3. 其接近于1的程度与样本容量n有关。 n小,r 1。特例:当n = 2时,r = 1。 [例]样本(x,y)为(6,12.6),(1,3.0), n = 2。
第九章 相关与回归分析 看手相: STAT 一些人相信手掌生命线的长 度可以来预测他们的寿命。M.E. 第九章 相关与回归分析 一些人相信手掌生命线的长 度可以来预测他们的寿命。M.E. Wilson和L.E.Mather在《美国 医学协会学报上》发表的一封信 中,通过对尸体的研究对此给 予了驳斥。死亡时的年龄与手掌 生命线的长度被一起记录下来。 作者得出死亡时的年龄与生命线 的长度不存在显著相关的结论。 手相术失 传了,手也就放下了。 看手相:
第九章 相关与回归分析 1. t检验(R.A.Fisher检验) STAT (六)线性相关的显著性检验 (不讲) 第九章 相关与回归分析 (六)线性相关的显著性检验 (不讲) 1. t检验(R.A.Fisher检验) (1)提出假设:H0:=0 H1:0 (2)计算检验统计量; 1、假设样本是一个不相关的总体中抽出的。 (3)将检验统计量与临界值比较,如检验统计量的绝对值大 于临界值,则拒绝原假设;反之亦反。 2. r检验法:查《相关系数检验表》, 在给定下,若rr(n-2),则拒绝H0。
STAT 第九章 相关与回归分析 [例]为了解营业员每人月平均销售额(万元)和利润率(%)之间的关系,特从100家商店中随机抽取10家,得到如下资料,试计算样本相关系数并进行检验(=0.05)。 解:提出假设:H0:=0 H1:0 已知:r=0.987,n=10 1、假设样本是一个不相关的总体中抽出的。 所以,拒绝原假设而接受备择假设,即检验结果表明,月平均销售额与利润率之间确实存在着线性相关关系。
第九章 相关与回归分析 STAT [r检验法] 已知:r=0.987,n=10 相关系数检验表 n-2 0.05 0.01 6 7 8 第九章 相关与回归分析 [r检验法] 已知:r=0.987,n=10 相关系数检验表 n-2 0.05 0.01 6 7 8 0.707 0.666 0.632 0.834 0.798 0.765 1、假设样本是一个不相关的总体中抽出的。
第九章 相关与回归分析 第三节 回归分析 一、回归分析概述 STAT (一)概念 第九章 相关与回归分析 第三节 回归分析 一、回归分析概述 (一)概念 1. 相关分析的不足:无法表明两变量之间的数量规律 无法从一个变量(x)的变化来推测另一个变量(y)的变化。
第九章 相关与回归分析 STAT 2. 回归分析:通过一个(些)变量的变化解释另一变量的变 第九章 相关与回归分析 2. 回归分析:通过一个(些)变量的变化解释另一变量的变 化 y = a+bx 、 y=ax1+bx2 。 英国生物学家 F · Galton 首次提出。 父辈身高 子辈身高 x y y = f(x)+ 人类平均身高 (二)回归分析的种类 1. 按自变量的多少分 (1)简单(一元)回归:自变量只有一个 。 y = a+bx (2)复(多元)回归:自变量为2个或2个以上。 y=0+ 1x1+ 2x2+…+ nxn
2. 按回归方程式的特征分 (1)线性回归:因变量为自变量的线性函数。 y = a+bx (2)非线性回归:因变量为自变量的非线性函数。 STAT 第九章 相关与回归分析 2. 按回归方程式的特征分 (1)线性回归:因变量为自变量的线性函数。 y = a+bx (2)非线性回归:因变量为自变量的非线性函数。
第九章 相关与回归分析 STAT (三)回归分析的步骤 1. 确定自变量和因变量。 消费支出(y,果) 国民收入(x,因); 第九章 相关与回归分析 (三)回归分析的步骤 1. 确定自变量和因变量。 消费支出(y,果) 国民收入(x,因); 自变量筛选问题: ■消除无关的变量。 农副产品出口额=-107.66+0.13社会商品零售总额+0.22 农副产品收购额 社会商品零售总额与农副产品出口额无直接关系,更不是影响农副产品出口额的原因。 ■消除不重要的变量。 生产资料进口额=0.73 轻工业投资+0.18 生产消费等 轻工业投资对生产资料进口额虽有影响,但不重要,或不
第九章 相关与回归分析 STAT 完全,应选择全社会固定资产投资额。 ■消除不独立的变量。 第九章 相关与回归分析 完全,应选择全社会固定资产投资额。 ■消除不独立的变量。 农业总产值=0.78 +0.24 粮食产量+0.05 农机动力-0.21 受灾面积 粮食产量受农机动力和受灾面积的影响,它们存在相关性。 2. 确定样本回归方程 消费支出y与收入x的回归方程: y= a+bx= 200+0.70x 3.统计检验: (1)回归模型的显著性检验,即反映回归方程对样本观测值的拟合优度如何; (2)回归参数的显著性检验,即检验变量y与变量x之间能否用线性关系来描述; 4. 预测或控制。已知 x确定y:估计或预测; 已知y确定x:控制
第九章 相关与回归分析 STAT 回归分析与相关分析的关系 (1)联系: ■两者具有互为补充关系;■两者存在计算上的联系。 (2)区别: 第九章 相关与回归分析 回归分析与相关分析的关系 (1)联系: ■两者具有互为补充关系;■两者存在计算上的联系。 (2)区别: ■两者在关心变量性质上不同; ■两者的任务和目的不同; ■两者的使用范围不同。 应用相关与回归分析应注意的问题 ■必须以定性分析为基础。 ■要注意变量间相关关系发生作用的范围。 如施肥量与农作物产量; 由爱生恨 ■应用回归方程时不能一概认为自变量与因变量存在因果 关系。 统计分析方法:指数分析、时间序列分析和相关与回归分析。通过总离差平方和的分解了解总离差平方和受哪些因素影响,具体可分解为几个部分。以测定回归方程的优良程度。
二、一元线性回归方程的拟合 (一)总体回归模型 →Y=A+BX+ STAT 第九章 相关与回归分析 二、一元线性回归方程的拟合 (一)总体回归模型 →Y=A+BX+
第九章 相关与回归分析 STAT 总体回归方程 →E(Y)=A+BX 第九章 相关与回归分析 总体回归方程 →E(Y)=A+BX 如果影响Y的因素还有别的,并且平均之后无法抵消,则必须再列举出来作为解释变量,最终必须使随机扰动项的均值为0.
第九章 相关与回归分析 STAT 总体回归模型建立的假定条件: 第九章 相关与回归分析 总体回归模型建立的假定条件: 1. y是随机变量,y的分布是正态分布,随机误差项的期望值为零,即 ,y的平均值在给定x的值的回归线上。 2.对于任何x值,y分布的方差相等,即具有同方差,即Var( )= 2 。 3.随机误差项 是相互独立的,不存在序列相关。即 cov ( i, j)=0,(i≠j)。 4.对多元线性回归模型,y=a+b1x1+b2x2+…+bkxk+ ,各个变量是相互独立的,不存在多重共线性,即cov(xi,xj)=0,(i≠j)。 统计分析方法:指数分析、时间序列分析和相关与回归分析。通过总离差平方和的分解了解总离差平方和受哪些因素影响,具体可分解为几个部分。以测定回归方程的优良程度。
STAT 第九章 相关与回归分析 样本回归方程的拟合思想: 抽样 N n,
(二)样本回归方程的拟合 从总体中随机取样,获取一组样本观察值。 STAT 第九章 相关与回归分析 (二)样本回归方程的拟合 从总体中随机取样,获取一组样本观察值。
STAT 第九章 相关与回归分析 图示: 步骤: 1. 拟合样本回归方程; 2. 样本回归方程的拟合优度
(三)样本回归方程的拟合方法 1. 绝对值拟合法 STAT 第九章 相关与回归分析 (三)样本回归方程的拟合方法 1. 绝对值拟合法 2. 最小二乘法(OLS法) 基本思路:使残差平方和最小的直线“最优直线”。 正数总可以找到最小值,负数总可以找到最大值。
总可以设法找到一对a、b的取值,使Q为最小值。 STAT 第九章 相关与回归分析 总可以设法找到一对a、b的取值,使Q为最小值。
STAT 第九章 相关与回归分析 将a代入(2)式得
STAT 第九章 相关与回归分析 [整理]
第九章 相关与回归分析 STAT 相关系数r与回归系数b之间的关系 (1)两者是同向的; (2)r反映变量的相关方向与密切程度; 第九章 相关与回归分析 相关系数r与回归系数b之间的关系 (1)两者是同向的; (2)r反映变量的相关方向与密切程度; b反映某一变量变动一个单位时另一变量的平均变动量。
[例]为研究收入与食品支出的关系,随机抽取了10户家庭的样本(百元),请拟合样本回归方程。 STAT 第九章 相关与回归分析 [例]为研究收入与食品支出的关系,随机抽取了10户家庭的样本(百元),请拟合样本回归方程。
解:通过散点图可近似看出收入与食品支出之间呈线性关系,故设两者有关系 STAT 第九章 相关与回归分析 解:通过散点图可近似看出收入与食品支出之间呈线性关系,故设两者有关系 经济意义:当收入为0时,亦须有217.26元的食品支出,收入每增加100元,食品支出平均增加20.23元。
第九章 相关与回归分析 STAT a代表直线的起点值,为直线的纵轴截距,它表示x=0时y的 常数项。 第九章 相关与回归分析 参数a、b的经济含义是: a代表直线的起点值,为直线的纵轴截距,它表示x=0时y的 常数项。 b称为回归系数,表示自变量x增加一个单位时因变量y的平 均增加值。回归系数的正负号与相关系数是一致的,因此回归系 数的正负号可用来判断两变量相关的方向,也可利用b求相关系 数r 。
STAT 第九章 相关与回归分析 利用b求相关系数r 解:
三、回归方程的方差分析(回归方程的拟合优度) STAT 第九章 相关与回归分析 三、回归方程的方差分析(回归方程的拟合优度) (一)总离差平方和的分解
STAT 第九章 相关与回归分析 由: 先不用解释,等到图形出现之后再做解释。
[例]住户消费支出(y)与收入(x)的样本回归方程。 STAT 第九章 相关与回归分析 [例]住户消费支出(y)与收入(x)的样本回归方程。
(二)判定系数(可决系数)→回归模型拟合程度的测度 STAT 第九章 相关与回归分析 (二)判定系数(可决系数)→回归模型拟合程度的测度
■判定系数的作用 r2越接近与1,说明模型越有效,r2越接近与0,模型越无效。 STAT 第九章 相关与回归分析 ■判定系数的作用 r2越接近与1,说明模型越有效,r2越接近与0,模型越无效。 当判定系数等于1时,说明被解释变量的变动100%是因为解释变量的变动所导致的。
STAT 第九章 相关与回归分析 ■判定系数r2与相关系数r的关系
第九章 相关与回归分析 STAT ■相关系数也从另一角度说明了回归直线的拟合优度,相关 第九章 相关与回归分析 ■相关系数也从另一角度说明了回归直线的拟合优度,相关 系数越接近± 1,说明回归直线对观测数据的拟合优度越高,但 需谨慎!因为 r的值总是大于r2 的值(0和1除外)。 例: r=0.5 时,r2 =0.25→只能解释总变差的25%
第九章 相关与回归分析 STAT (三)估计标准误差 1. 定义:观测值与回归值之间的平均离差。均方残差的平方根 第九章 相关与回归分析 (三)估计标准误差 1. 定义:观测值与回归值之间的平均离差。均方残差的平方根 →说明各观测值在直线周围的分散程度。可看作是排除了x 对y的线性影响后,y随机波动大小的一个估计量。实际意义上, 它反映了用估计的回归方程预测因变量y时预测误差的大小。 2. 公式 。 即残差 注:由于求a、b参数时有两个方程的约束,所以n-2
STAT 第九章 相关与回归分析 图示:
STAT 第九章 相关与回归分析 (四)方差法相关系数
课堂练习 1. 试根据下列资料编制直线回归方程。 STAT 第九章 相关与回归分析 课堂练习 1. 试根据下列资料编制直线回归方程。
2. 已知相关系数r=0.6,估计标准误差等于8,样本容量为62,求:(1)剩余变差;(2)剩余变差占总变差的比重;(3)求总变差。 STAT 第九章 相关与回归分析 2. 已知相关系数r=0.6,估计标准误差等于8,样本容量为62,求:(1)剩余变差;(2)剩余变差占总变差的比重;(3)求总变差。
STAT 第九章 相关与回归分析 3. 对40家企业的样本数据进行一元回归分析,因变量与其平均数的离差平方和为6400,而回归直线拟合的剩余变差为2000。求:(1)变量间的相关系数;(2)该方程的估计标准误差。
第九章 相关与回归分析 课外作业: STAT 葡萄酒能降低心脏病死亡率吗 第九章 相关与回归分析 课外作业: 葡萄酒能降低心脏病死亡率吗 适量饮用葡萄酒可以预防心脏病。我们来看看一些国家的资料。表中是10个发达国家一年的葡萄酒消耗量(平均每人喝葡萄酒摄取酒精的升数X)以及一年中因心脏病死亡的人数(每10万人死亡人数Y)。 (1)根据下表中的数据制作一个散点图来说明:一国的葡萄酒消耗量是否有助于解释心脏病的死亡率。 (2)为何在求相关系数和拟合回归方程时经常要做散点图。 (3)计算从葡萄酒得到的酒精和心脏病死亡率两变量间相关系数,并评价两变量的相关关系的程度和方向。 (4)以心脏病死亡率为因变量,以从葡萄酒得到的酒精为自变量拟合简单线性回归方程,并解释方程中的两系数的含义。
第九章 相关与回归分析 STAT (5)请简要分析相关系数的意义。 国家 X Y 澳大利亚 比利时 丹麦 法国 冰岛 2.5 2.9 9.1 第九章 相关与回归分析 (5)请简要分析相关系数的意义。 国家 X Y 澳大利亚 比利时 丹麦 法国 冰岛 2.5 2.9 9.1 0.8 211 131 220 71 奥地利 加拿大 芬兰 爱尔兰 意大利 3.9 2.4 0.7 7.9 167 191 297 300 107