Presentation is loading. Please wait.

Presentation is loading. Please wait.

Linear Regression 一元线性回归分析.

Similar presentations


Presentation on theme: "Linear Regression 一元线性回归分析."— Presentation transcript:

1 Linear Regression 一元线性回归分析

2 函数关系 (几个例子)  函数关系的例子 某种商品的销售额y与销售量x之间的关系可表示为 y = px (p 为单价)
圆的面积S与半径之间的关系可表示为S=R2 企业的原材料消耗额y与产量x1 、单位产量消耗x2 、原材料价格x3之间的关系可表示为 y = x1 x2 x3

3 相关关系(correlation) 变量间关系不能用函数关系精确表达 一个变量的取值不能由另一个变量唯一确定
当变量 x 取某个值时,变量 y 的取值可能有几个 各观测点分布在直线周围 x y

4 相关关系(几个例子)  相关关系的例子 父亲身高y与子女身高x之间的关系 收入水平y与受教育程度x之间的关系
粮食亩产量y与施肥量x1 、降雨量x2 、温度x3之间的关系 商品的消费量y与居民收入x之间的关系 商品销售额y与广告费支出x之间的关系

5 散点图(scatter diagram) 完全正线性相关 完全负线性相关 非线性相关 正线性相关 不相关 负线性相关

6 正相关 负相关

7 当所有的点都分布在一条直线上时,两变量之间的关系为完全相关。
完全负相关 完全正相关

8 两个变量之间是否相关,要有充分的理论依据,并排除共变因素的影响。
散点的分布没有明显集中在某一方向的趋势,形成圆形区域时,两变量之间的关系为零相关。 两个变量之间是否相关,要有充分的理论依据,并排除共变因素的影响。 图7-5 零相关

9 Origin of the Term “Regression”
A paper of Francis Galton, “Regression towards mediocrity in hereditary stature.” Journal of the Anthropological Institute, 1886, 15: 246 – 263 Sir Francis Galton ( )

10 Origin of the Term “Regression”
Data on Heights of Children and Parents

11 Origin of the Term “Regression”

12 Origin of the Term “Regression”
Conclusion: The heights of the children tended to be more moderate than the heights of their parents. If parents were very tall the children tended to be tall but shorter than their parents. If parents were very short the children tended to be short but taller than their parents were. This discovery he called “regression to the mean”.

13 一元线性回归 变量y和变量x之间存在线性相关关系 研究其中一个变量(x)对另一个变量(y)的影响 目的:通过 x 对 y 进行估计或预测
因变量 (随机变量) X Y y 自变量 (数学变量) x

14 线性函数关系 线性方程 截距 斜率 x 每改变一个单位,y 改变 b 个单位 对于x 的每一特定取值,y都有一个确定的值与之对应! y Y

15 线性回归模型(简单回归模型) x 每改变一个单位,可期望 y 改变个单位 截距 回归系数 回归参数

16 线性回归模型(简单回归模型) 对于x 的每一特定取值,y 都有一个服从正态分布的取值范围与之对应 !

17 回归方程的建立 对于给定的样本数据,寻找一条与所有散点都最为接近的直线

18 回归方程 ei x y 预测值 预测误差 观测值 寻找直线 ,使得总的预测误差最小

19 最小二乘法(least square method)
求a和b,使得预测误差平方和达到最小 预测误差平方和: 利用求函数极值的方法求a和b

20 回归系数 正规方程组

21 回归系数 解正规方程组,得: (与样本相关系数相比较!) 回归方程:

22 Excel 应用 斜率:Slope 截距:Intercepte 相关系数: Correl

23 回归的显著性检验 相关系数检验法 (R.A.Fisher) 对回归方程的检验 - 检验 y 对 x 的回归关系是否成立 要检验的假设:
H0: = HA: ≠0 相关系数检验法 (R.A.Fisher)

24 相关系数 correlation coefficient
对变量之间关系密切程度的度量 对两个变量之间线性相关程度的度量称为简单相关系数 若相关系数是根据总体全部数据计算的,称为总体相关系数,记为 若是根据样本数据计算的,则称为样本相关系数,记为 r

25 相关系数 (计算公式)  样本相关系数的计算公式 或化简为

26 相关系数 (取值及其意义) r 的取值范围是 [-1,1] |r|=1,为完全相关 r = 0,不存在线性相关关系

27 r 相关系数 (取值及其意义) -1.0 +1.0 -0.5 +0.5 完全正相关 完全负相关 无线性相关 负相关程度增加 正相关程度增加
-0.5 +0.5 r 负相关程度增加 正相关程度增加 139

28 相关系数的显著性检验

29 相关系数的显著性检验 ( r 的抽样分布) 1. r 的抽样分布随总体相关系数和样本容量的大小而变化
当样本数据来自正态总体时,随着n的增大,r 的抽样分布趋于正态分布,尤其是在总体相关系数很小或接近0时,趋于正态分布的趋势非常明显。而当远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。 当为较大的正值时,r 呈现左偏分布;当为较小的负值时,r 呈现右偏分布。只有当接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量

30 相关系数的显著性检验 (检验的步骤) 1. 检验两个变量之间是否存在线性相关关系 等价于对回归系数 b1的检验
1. 检验两个变量之间是否存在线性相关关系 等价于对回归系数 b1的检验 采用R.A.Fisher提出的 t 检验 检验的步骤为 提出假设:H0:   ;H1:   0 计算检验的统计量: 确定显著性水平,并作出决策 若t>t,拒绝H0 若t<t,不能拒绝H0

31 相关系数的显著性检验 (例题分析)  对不良贷款与贷款余额之间的相关系数进行显著性检(0.05)
提出假设:H0:   ;H1:   0 计算检验的统计量 3. 根据显著性水平=0.05,查t分布表得t(n-2)=2.0687 由于t=7.5344>t(25-2)=2.0687,拒绝H0,不良贷款与贷款余额之间存在着显著的正线性相关关系

32 相关系数的显著性检验 (例题分析) 各相关系数检验的统计量

33 The End

34 简单回归 总体回归系数 (与总体相关系数相比较!) 直线 的性质:

35 简单回归 回归的显著性检验 对回归方程的检验 - F检验 检验Y对X的回归关系是否成立 要检验的假设: H0: = HA: ≠0

36 简单回归 (X,Y) X Y 变异的剖分

37 总平方和SST=误差平方和SSE +回归平方和SSR
简单回归 平方和的剖分: 总平方和SST=误差平方和SSE +回归平方和SSR 自由度的剖分: 回归自由度 误差自由度

38 简单回归 回归平方和的计算:

39 简单回归 F 检验(cont.) 检验统计量 (与对相关系数的F检验相比较!)

40 简单回归 对回归系数检验 - t 检验 检验总体回归系数是否为0 H0: =0 HA: ≠0 检验统计量:
E(b) = ? Sb = ?

41 简单回归 b 是  的无偏估计量 注:a 也是 的无偏估计量

42 简单回归

43 简单回归 t检验 注:对  也可用同样的方法检验

44 简单回归 回归方程的拟合度-决定系数 用于比较不同回归方程的拟和好坏

45 简单回归 X对Y的回归 问题:可以用回归方程 来估计X吗?

46 相关与回归的区别与联系 区别 两个变量的地位 用途 相关系数与回归系数的取值范围 相关系数与回归系数的单位

47 相关与回归的区别与联系 联系 相关系数与回归系数的计算公式 显著性检验 相关平方和等于回归平方和 相关和回归的检验是等价的!

48 进行相关和回归分析应注意的问题 要有生物学意义 必须经过显著性检验 显著性与强弱性是不同的概念 注意非线性关系存在的可能性
不能随意地将由样本得出的结果外延

49 The End 作业:Page


Download ppt "Linear Regression 一元线性回归分析."

Similar presentations


Ads by Google