Presentation is loading. Please wait.

Presentation is loading. Please wait.

(multiple linear regression)

Similar presentations


Presentation on theme: "(multiple linear regression)"— Presentation transcript:

1 (multiple linear regression)
第二章 多元线性回归 (multiple linear regression) 第一节 相关和回归 第二节 一元线性回归模型 第三节 多元线性回归模型 第四节 方程的解释能力 第五节 回归方程的检验和回归系数的推断统计 第六节 虚拟变量的应用 第七节 多重共线性及其解决方案 第八节 计算机应用 第九节 研究实例 参见郭志刚主编,《社会统计分析方法—SPSS软件应用》第二章, 中国人民大学出版社1999

2 第一节 相关和回归 一、相关统计量 用一个数值表示两个变量间的相关程度(无单位度量)(-1~+1)

3 解读 X与y的相关系数为0.6,x与z的相关系数为0.3

4 答案: 只能说明x与y相关程度高于x与z的相关程度,但不能说前者是后者的两倍

5 二、计算相关的思路 定距:数量上的“共变” 定类、定序:“连同发生”——隐含根据一个变量去预测或估计另一个变量的意思
人们正是根据预测的准确程度来界定定类或定序变量之间的关系的——消减误差比例

6 三、相关测量逻辑展示 (一)Lambda相关测量法
基本逻辑:以一个定类变项的值来预测另一个定类变项的值时,如果以众值作为预测准则,可以减少多少误差 公式:

7 练习:根据下表数据计算lambda 志愿 性别 总数 快乐家庭 10 30 40 理想工作 50 增广见闻 60 100

8

9 思考并运算:如果数据有如下变化,lambda值会发生什么变化呢?
志愿 性别 总数 快乐家庭 10 20 理想工作 40 30 70 增广见闻 60 100

10 存在的问题: 1、Lambda系数以众值为预测准则,不理会众值以外的次数分布,对数据利用率低。 2、因为上述计算方式,如果全部众值集中在条件次数表的同一列或同一行中,则Lambda系数会等于0,相关失去意义

11 (二)相关系数r 1、协方差的思想 2、r系数计算 3、PRE计算思路

12 四、回归 回归是相关分析的深入 回归分析的结果是建立一个数学模型以表达变量之间的关系——在分析观测数据的基础上,确定一个能反映变量之间关系的近似函数表达式

13 方法论指导 经验支撑 理论思路 整体研究方案 1(多)个 定距(类)变量 1个 定距变量 线性关联

14 注意 回归模型只是整个研究方案中的一环,它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展开

15 研究变量间的因果关系 求解模型参数 估计 评价模型拟合度 预测 是否吻合预先构想

16 参见:卢叔华《社会统计学》,北京大学出版社1997
第二节 一元线性回归 一、回归方程与线性回归方程 二、回归方程的建立与最小二乘法 三、回归方程的假定与检验 参见:卢叔华《社会统计学》,北京大学出版社1997 第十二章 回归与相关

17 一、回归方程与线性回归方程 两变量x与y 对于确定的xi,yi是随机变量,可计算其均值——回归方程是研究自变量不同取值时,y的均值的变化

18 关于模型 现实数据=模型+误差 没有误差的不是模型,是复制 复制很精确,但是往往太不简洁
设置模型一般而言是希望用简洁的方式表述复杂信息,达到较好的精确度

19 二、回归方程的建立与最小二乘法 回归分析的目的:找出错误最小的方法来预测因变量的数值 拟合思路:各点到待估直线铅直距离之和为最小——最小二乘

20 原理: (1)散点图 (2)每个x值对应的y的均值,构成回归线(曲折) (3)用最小平方法绘制回归直线 (各个样本个案的估计误差和为误差总数。为避免正负抵消,改为将误差的平方值相加。如果回归直线位置能够使此平方和最小,即为最佳拟和直线)

21 线性回归方程式不但有简化资料的作用,而且可以推广应用于预测或估计样本以外之个案的数值

22 回归系数的意义: b值的大小表示每增加一个单位的x值,y值的变化有多大

23 三、回归方程的假定与检验 (一)基本假定 1、自变量x可以是随机变量,也可以是非随机变量,其误差忽略不计
2、对于每一个x值,yi都是随机变量。Y的所有子总体y1,y2…yn,方差相等 3、y的所有子总体,其均值都在一条直线上——线性假定 4、随机变量yi是统计独立的 5、 y的所有子总体都满足正态分布

24 (二)检验 F检验

25 第三节 多元线性回归模型 一、多元的思路 二、回归方程的建立 三、回归方程的解释 四、标准化回归系数

26 一、多元的思路 关联性 Association 和因果性Causality 统计意义上的关联性很容易发现 , 难的是,如何确立因果联系。
然而我们在研究中更加关心的是因果性的解释。

27 因果关系存在的必要条件: 1、变量间的关系是strong and consistent; 2、变量间有适当的时序性; 3、变量间的关系不能够被其他变量所解释。

28 对观察数据的统计控制 我们如何排除其他备选解释? 和实验室的实验不同的是,我们不能控制社会现象发生的环境。
对于观察数据, 因果性问题可以部分地通过统计控制来解决 即, 我们可以把个体根据我们所要控制的特征分成几个小组, 来比较组内的结果变量的差异 对定量变量最常用的统计控制体现在多元回归模型中。

29 二、回归方程的建立 多元回归模型一般表达式 建立的多元回归方程: 其中, 称y对x的回归系数或偏回归系数 可用最小二乘法求解

30 Let Z(a, b1, b2)= Σ(Y-a-b1X1-b2X2)2
多元回归系数的估计 首先看只有两个自变量的模型 : 我们仍可以用最小二乘法,使得观测的Y值和预测的Y值的差距的平方和最小。利用微积分, Let Z(a, b1, b2)= Σ(Y-a-b1X1-b2X2)2

31 对三个未知参数a, b1, and b2 求导:

32 解方程:

33 这种方法可以扩展到任意多的自变量的模型。
计算机可以直接给出估计的系数。

34 三、回归方程的解释 在任何情况下, a 始终为当所有自变量为0时的应变量值 (截距)
斜率系数 b1 到 bk 表示在其他变量不变的情况下,相关的X增加一个单位,Y所对应的变化。

35 对于方程: 如果xi增加一个单位,即xi变为xi+1,而其他自变量均保持不变,相应有 则y的变化幅度为

36 规范解读方式 (在其他变量不变的情况下,)xi平均变化一个单位,y平均相应变化bi个单位

37 x及未包括进方程中的其他与x有关的一切因素对y的总影响
回归系数的意义 一元回归系数 多元回归系数 x及未包括进方程中的其他与x有关的一切因素对y的总影响 偏回归系数:除去方程中其他因素对y的共同影响后,某自变量对y的边际影响

38 四、标准化回归系数 需要判别所考察的因素的重要程度 问题 将回归系数标准化 解决 1、先将变量标准化,再 计算 2、利用回归系数计算 做法

39 变量 每平均变化一个标准分数, y将平均变化 个标准分数

40 第四节 方程的解释能力 一、确定系数 二、调整的确定系数 三、多元相关系数 四、方差分析

41 回归方程解释的差异与用y均值解释的差异之比 模型中所有变量解释y的变化占总变化的比例
一、确定系数 (0~1) 回归方程解释的差异与用y均值解释的差异之比 模型中所有变量解释y的变化占总变化的比例 受奇异值影响 散点图

42 The sum of squared errors
预测与残差 e=(Y ) The sum of squared errors 我们通过对该项(残差)最小化方法求得 a and bi.

43 拟合优度 where and

44 和前面一样, 是衡量 Y的所有变异中由所有自变量的差异共同解释的比例
越高, 模型拟合数据的程度就越好。 当加入新的变量时, 只升不降。 由于常常是随着自变量数目的增加而增加, 所以直接比较 没有太大的意义。

45 二、调整的确定系数 偏高 <(1:10) >(1:5) 自变量个数 样本规模 自变量个数 样本规模

46 三、多元相关系数R 因变量观测值和预测值之间的相关程度

47 四、方差分析 回归平方和 y的总变差平方和 余差平方和

48 第五节 回归方程的检验和回归系数的推断统计
第五节 回归方程的检验和回归系数的推断统计 检验 统计推断 回归系数的置信区间 为什么不显著?

49 一、回归方程的显著性检验 检验样本y与x1,…,xk的线性关系是否显著 判断能否肯定总体回归系数中至少有一个不等于0
实质 H0:B1=B2=…=Bk=0 在总体中,X1,…,Xk的变化都不引起Y的线性变化 假设 =(BSS/k)/ [ESS/(n-k-1)] P与a比较,决定是否拒绝H0 计算 检验在a水平统计性显著,并拒绝H0、接受H1 我们有相当大的把握断定,统计量b1,…,bk不等于0不是由于抽样误差造成的。 表述

50 回归模型希望:保留最重要的变量,删除不显著的变量
二、回归系数的显著性检验 当回归方程检验显著时,可以认为回归方程中至少有一个回归系数是显著的。但并不一定所有回归系数都显著。 回归模型希望:保留最重要的变量,删除不显著的变量 对每个变量的回归系数进行检验

51 具体做法: H0:Bj=0 H1:Bj≠0 T Sig T

52 P(bj- sj<Bj<bj+ sj)=1-a
三、回归系数的置信区间 回归系数的统计检验只能说明Bj与0有显著差别,并不能说明Bj的具体情况。 用样本回归系数b及其标准误,可以推断Bj值的置信区间 P(bj-ta/2sj<Bj 回归系数的统计检验只能说明Bj与0有显著差别,并不能说明Bj的具体情况。 用样本回归系数b及其标准误,可以推断Bj值的置信区间 P(bj sj<Bj<bj+ sj)=1-a

53 四、回归系数不显著的原因 变量数太多 Xj标准差过小 自变量线性相关 非线性关系 确实不相关

54 第六节 虚拟变量的应用 什么变量需要虚拟? 分类变量

55 虚拟变量 一个变量只有两个可能值1 or 0. 对于一个两分的变量: gender: 1. male 2. female
我们可以重新编码 1=male and 0=female. 由此, gender 就变成了一个虚拟变量 , 表示被访者是否男性 .

56 将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以没有进入变量表达的那个类别为参照进行解释,说明不同类别间y取值的变化
如何虚拟? 将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以没有进入变量表达的那个类别为参照进行解释,说明不同类别间y取值的变化 二分变量 (是、否) 均值的意义是编码为1的案例占样本的比例 把二分状态看作连续变化的过程

57 为什么要在回归分析中引入虚拟变量? 有时我们社会研究的样本数据中观察的个体可以分成不同的组别。
组与组、或群体与群体间的在自变量和应变量的平均数会有差异 在这种情况下, 不控制组别特征的回归模型结果会导致 所估计的偏回归系数偏差。 特别是, 系数可能低估或者高估一个自变量对应变量的影响强度。

58 第七节 多重共线性及其解决方案 此即所谓的“多重共线性”
第七节 多重共线性及其解决方案 多元线性回归的解释方式:“在其他变量不变的前提下,xi平均变化一个单位y将平均变化bi个单位” 如果xi与另一自变量存在高度相关,则这种解释不成立,因为“在其他变量不变的前提”不可能实现 此即所谓的“多重共线性”

59 后果: 影响回归方程的有效性 多重共线性的表现之一: 自变量之间存在高度线性相关 回归预测结果将不可靠 xi与y之间的关系不准确
回归方程整体显著, 但各个自变量都不显著 自变量之间存在高度线性相关 后果: 影响回归方程的有效性 回归预测结果将不可靠 xi与y之间的关系不准确

60 鉴别多重共线性的思路: 在自变量之间建立回归方程,以该回归方程的确定系数来判断自变量之间的相关程度
具体做法:假定有k个自变量,先以第一个自变量x1为因变量建立回归方程,计算确定系数——若值较大,说明至少有一个自变量与x1相关,也即存在共线性问题;按此方法依次建立回归方程,根据确定系数的变化来判断共线性问题

61

62 补 救 办 法 去掉与y相关较低,而与其他自变量相关高的变量 去掉可以被其余自变量线性表达的变量 增加样本规模 采用新的样本数据
利用先验信息组合变量 逐步删除(逐步回归方法即可消除此问题) 变量变换

63 选择最优回归方程 向前回归 全部纳入 删除 向后回归 逐步回归

64 如何选择模型? 根据研究目的——主要为了建模还是验证

65 补充:回归前提假定的检查 模型的假设条件: 常用方法: 结果解读:

66 如何利用统计分析结果? 充分而简洁

67 补充:更丰富的回归分析 (略)

68 第八节 计算机操作

69 第九节 研究实例 社会意识的行动逻辑 ――性别不平等的现象学社会学解释框架 《浙江学刊》2006年第5期

70 表3 家务劳动时间多元回归分析(2000年) 做饭 洗衣 B BETA sig 城乡分组(乡、城) -3.052 -0.027 0.000
表3 家务劳动时间多元回归分析(2000年) 做饭 洗衣 B BETA sig 城乡分组(乡、城) -3.052 -0.027 0.000 0.178 0.002 0.832 年龄 0.200 0.030 5.2E-02 0.011 0.137 性别(女、男) -0.496 -0.473 总共上了几年学 -0.820 -0.044 0.109 0.008 0.348 是否在业(不在业、在业) -2.350 -0.011 0.187 -5.147 -0.031 工作时间(小时) -4.172 -0.224 -2.847 -0.203 路途时间(小时) -3.437 -0.037 -0.992 -0.014 0.045 个人年收入(千元) -6.1E-02 -0.013 0.121 -2.0E-02 -0.005 0.529 夫妻收入差(千元) -4.1E-02 -0.012 0.145 -2.5E-02 -0.009 0.274 夫妻教育程度差(级) -0.376 -0.016 0.017 -0.213 0.087 注:做饭时间回归模型 R2=0.387,sig=0.000;洗衣时间回归模型 R2=0.323,sig=0.000

71 研究实例 对加强化学实验教学效果的统计分析

72 研究实例 城市居民最低生活保障线的测定 童 星 刘松涛 社会学研究2000 年第4 期

73 作业 下周三交


Download ppt "(multiple linear regression)"

Similar presentations


Ads by Google