(multiple linear regression) 第二章 多元线性回归 (multiple linear regression) 第一节 相关和回归 第二节 一元线性回归模型 第三节 多元线性回归模型 第四节 方程的解释能力 第五节 回归方程的检验和回归系数的推断统计 第六节 虚拟变量的应用 第七节 多重共线性及其解决方案 第八节 计算机应用 第九节 研究实例 参见郭志刚主编,《社会统计分析方法—SPSS软件应用》第二章, 中国人民大学出版社1999
第一节 相关和回归 一、相关统计量 用一个数值表示两个变量间的相关程度(无单位度量)(-1~+1)
解读 X与y的相关系数为0.6,x与z的相关系数为0.3
答案: 只能说明x与y相关程度高于x与z的相关程度,但不能说前者是后者的两倍
二、计算相关的思路 定距:数量上的“共变” 定类、定序:“连同发生”——隐含根据一个变量去预测或估计另一个变量的意思 人们正是根据预测的准确程度来界定定类或定序变量之间的关系的——消减误差比例
三、相关测量逻辑展示 (一)Lambda相关测量法 基本逻辑:以一个定类变项的值来预测另一个定类变项的值时,如果以众值作为预测准则,可以减少多少误差 公式:
练习:根据下表数据计算lambda 志愿 性别 男 女 总数 快乐家庭 10 30 40 理想工作 50 增广见闻 60 100
思考并运算:如果数据有如下变化,lambda值会发生什么变化呢? 志愿 性别 男 女 总数 快乐家庭 10 20 理想工作 40 30 70 增广见闻 60 100
存在的问题: 1、Lambda系数以众值为预测准则,不理会众值以外的次数分布,对数据利用率低。 2、因为上述计算方式,如果全部众值集中在条件次数表的同一列或同一行中,则Lambda系数会等于0,相关失去意义
(二)相关系数r 1、协方差的思想 2、r系数计算 3、PRE计算思路
四、回归 回归是相关分析的深入 回归分析的结果是建立一个数学模型以表达变量之间的关系——在分析观测数据的基础上,确定一个能反映变量之间关系的近似函数表达式
方法论指导 经验支撑 理论思路 整体研究方案 1(多)个 定距(类)变量 1个 定距变量 线性关联
注意 回归模型只是整个研究方案中的一环,它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展开
研究变量间的因果关系 求解模型参数 估计 评价模型拟合度 预测 是否吻合预先构想
参见:卢叔华《社会统计学》,北京大学出版社1997 第二节 一元线性回归 一、回归方程与线性回归方程 二、回归方程的建立与最小二乘法 三、回归方程的假定与检验 参见:卢叔华《社会统计学》,北京大学出版社1997 第十二章 回归与相关
一、回归方程与线性回归方程 两变量x与y 对于确定的xi,yi是随机变量,可计算其均值——回归方程是研究自变量不同取值时,y的均值的变化
关于模型 现实数据=模型+误差 没有误差的不是模型,是复制 复制很精确,但是往往太不简洁 设置模型一般而言是希望用简洁的方式表述复杂信息,达到较好的精确度
二、回归方程的建立与最小二乘法 回归分析的目的:找出错误最小的方法来预测因变量的数值 拟合思路:各点到待估直线铅直距离之和为最小——最小二乘
原理: (1)散点图 (2)每个x值对应的y的均值,构成回归线(曲折) (3)用最小平方法绘制回归直线 (各个样本个案的估计误差和为误差总数。为避免正负抵消,改为将误差的平方值相加。如果回归直线位置能够使此平方和最小,即为最佳拟和直线)
线性回归方程式不但有简化资料的作用,而且可以推广应用于预测或估计样本以外之个案的数值
回归系数的意义: b值的大小表示每增加一个单位的x值,y值的变化有多大
三、回归方程的假定与检验 (一)基本假定 1、自变量x可以是随机变量,也可以是非随机变量,其误差忽略不计 2、对于每一个x值,yi都是随机变量。Y的所有子总体y1,y2…yn,方差相等 3、y的所有子总体,其均值都在一条直线上——线性假定 4、随机变量yi是统计独立的 5、 y的所有子总体都满足正态分布
(二)检验 F检验
第三节 多元线性回归模型 一、多元的思路 二、回归方程的建立 三、回归方程的解释 四、标准化回归系数
一、多元的思路 关联性 Association 和因果性Causality 统计意义上的关联性很容易发现 , 难的是,如何确立因果联系。 然而我们在研究中更加关心的是因果性的解释。
因果关系存在的必要条件: 1、变量间的关系是strong and consistent; 2、变量间有适当的时序性; 3、变量间的关系不能够被其他变量所解释。
对观察数据的统计控制 我们如何排除其他备选解释? 和实验室的实验不同的是,我们不能控制社会现象发生的环境。 对于观察数据, 因果性问题可以部分地通过统计控制来解决 即, 我们可以把个体根据我们所要控制的特征分成几个小组, 来比较组内的结果变量的差异 对定量变量最常用的统计控制体现在多元回归模型中。
二、回归方程的建立 多元回归模型一般表达式 建立的多元回归方程: 其中, 称y对x的回归系数或偏回归系数 可用最小二乘法求解
Let Z(a, b1, b2)= Σ(Y-a-b1X1-b2X2)2 多元回归系数的估计 首先看只有两个自变量的模型 : 我们仍可以用最小二乘法,使得观测的Y值和预测的Y值的差距的平方和最小。利用微积分, Let Z(a, b1, b2)= Σ(Y-a-b1X1-b2X2)2
对三个未知参数a, b1, and b2 求导:
解方程:
这种方法可以扩展到任意多的自变量的模型。 计算机可以直接给出估计的系数。
三、回归方程的解释 在任何情况下, a 始终为当所有自变量为0时的应变量值 (截距) 斜率系数 b1 到 bk 表示在其他变量不变的情况下,相关的X增加一个单位,Y所对应的变化。
对于方程: 如果xi增加一个单位,即xi变为xi+1,而其他自变量均保持不变,相应有 则y的变化幅度为
规范解读方式 (在其他变量不变的情况下,)xi平均变化一个单位,y平均相应变化bi个单位
x及未包括进方程中的其他与x有关的一切因素对y的总影响 回归系数的意义 一元回归系数 多元回归系数 x及未包括进方程中的其他与x有关的一切因素对y的总影响 偏回归系数:除去方程中其他因素对y的共同影响后,某自变量对y的边际影响
四、标准化回归系数 需要判别所考察的因素的重要程度 问题 将回归系数标准化 解决 1、先将变量标准化,再 计算 2、利用回归系数计算 做法
变量 每平均变化一个标准分数, y将平均变化 个标准分数
第四节 方程的解释能力 一、确定系数 二、调整的确定系数 三、多元相关系数 四、方差分析
回归方程解释的差异与用y均值解释的差异之比 模型中所有变量解释y的变化占总变化的比例 一、确定系数 (0~1) 回归方程解释的差异与用y均值解释的差异之比 模型中所有变量解释y的变化占总变化的比例 受奇异值影响 散点图
The sum of squared errors 预测与残差 e=(Y - ) The sum of squared errors 我们通过对该项(残差)最小化方法求得 a and bi.
拟合优度 where and
和前面一样, 是衡量 Y的所有变异中由所有自变量的差异共同解释的比例 越高, 模型拟合数据的程度就越好。 当加入新的变量时, 只升不降。 由于常常是随着自变量数目的增加而增加, 所以直接比较 没有太大的意义。
二、调整的确定系数 偏高 <(1:10) >(1:5) 自变量个数 样本规模 自变量个数 样本规模
三、多元相关系数R 因变量观测值和预测值之间的相关程度
四、方差分析 回归平方和 y的总变差平方和 余差平方和
第五节 回归方程的检验和回归系数的推断统计 第五节 回归方程的检验和回归系数的推断统计 检验 统计推断 回归系数的置信区间 回 归 方 程 回 归 系 数 为什么不显著?
一、回归方程的显著性检验 检验样本y与x1,…,xk的线性关系是否显著 判断能否肯定总体回归系数中至少有一个不等于0 实质 H0:B1=B2=…=Bk=0 在总体中,X1,…,Xk的变化都不引起Y的线性变化 假设 =(BSS/k)/ [ESS/(n-k-1)] P与a比较,决定是否拒绝H0 计算 检验在a水平统计性显著,并拒绝H0、接受H1 我们有相当大的把握断定,统计量b1,…,bk不等于0不是由于抽样误差造成的。 表述
回归模型希望:保留最重要的变量,删除不显著的变量 二、回归系数的显著性检验 当回归方程检验显著时,可以认为回归方程中至少有一个回归系数是显著的。但并不一定所有回归系数都显著。 回归模型希望:保留最重要的变量,删除不显著的变量 对每个变量的回归系数进行检验
具体做法: H0:Bj=0 H1:Bj≠0 T Sig T
P(bj- sj<Bj<bj+ sj)=1-a 三、回归系数的置信区间 回归系数的统计检验只能说明Bj与0有显著差别,并不能说明Bj的具体情况。 用样本回归系数b及其标准误,可以推断Bj值的置信区间 P(bj-ta/2sj<Bj 回归系数的统计检验只能说明Bj与0有显著差别,并不能说明Bj的具体情况。 用样本回归系数b及其标准误,可以推断Bj值的置信区间 P(bj- sj<Bj<bj+ sj)=1-a
四、回归系数不显著的原因 样 本 量 太 小 变量数太多 Xj标准差过小 自变量线性相关 非线性关系 确实不相关
第六节 虚拟变量的应用 什么变量需要虚拟? 分类变量
虚拟变量 一个变量只有两个可能值1 or 0. 对于一个两分的变量: gender: 1. male 2. female 我们可以重新编码 1=male and 0=female. 由此, gender 就变成了一个虚拟变量 , 表示被访者是否男性 .
将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以没有进入变量表达的那个类别为参照进行解释,说明不同类别间y取值的变化 如何虚拟? 将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以没有进入变量表达的那个类别为参照进行解释,说明不同类别间y取值的变化 二分变量 (是、否) 均值的意义是编码为1的案例占样本的比例 把二分状态看作连续变化的过程
为什么要在回归分析中引入虚拟变量? 有时我们社会研究的样本数据中观察的个体可以分成不同的组别。 组与组、或群体与群体间的在自变量和应变量的平均数会有差异 在这种情况下, 不控制组别特征的回归模型结果会导致 所估计的偏回归系数偏差。 特别是, 系数可能低估或者高估一个自变量对应变量的影响强度。
第七节 多重共线性及其解决方案 此即所谓的“多重共线性” 第七节 多重共线性及其解决方案 多元线性回归的解释方式:“在其他变量不变的前提下,xi平均变化一个单位y将平均变化bi个单位” 如果xi与另一自变量存在高度相关,则这种解释不成立,因为“在其他变量不变的前提”不可能实现 此即所谓的“多重共线性”
后果: 影响回归方程的有效性 多重共线性的表现之一: 自变量之间存在高度线性相关 回归预测结果将不可靠 xi与y之间的关系不准确 回归方程整体显著, 但各个自变量都不显著 自变量之间存在高度线性相关 后果: 影响回归方程的有效性 回归预测结果将不可靠 xi与y之间的关系不准确
鉴别多重共线性的思路: 在自变量之间建立回归方程,以该回归方程的确定系数来判断自变量之间的相关程度 具体做法:假定有k个自变量,先以第一个自变量x1为因变量建立回归方程,计算确定系数——若值较大,说明至少有一个自变量与x1相关,也即存在共线性问题;按此方法依次建立回归方程,根据确定系数的变化来判断共线性问题
补 救 办 法 去掉与y相关较低,而与其他自变量相关高的变量 去掉可以被其余自变量线性表达的变量 增加样本规模 采用新的样本数据 利用先验信息组合变量 逐步删除(逐步回归方法即可消除此问题) 变量变换
选择最优回归方程 向前回归 全部纳入 删除 向后回归 逐步回归
如何选择模型? 根据研究目的——主要为了建模还是验证
补充:回归前提假定的检查 模型的假设条件: 常用方法: 结果解读:
如何利用统计分析结果? 充分而简洁
补充:更丰富的回归分析 (略)
第八节 计算机操作
第九节 研究实例 社会意识的行动逻辑 ――性别不平等的现象学社会学解释框架 《浙江学刊》2006年第5期
表3 家务劳动时间多元回归分析(2000年) 做饭 洗衣 B BETA sig 城乡分组(乡、城) -3.052 -0.027 0.000 表3 家务劳动时间多元回归分析(2000年) 做饭 洗衣 B BETA sig 城乡分组(乡、城) -3.052 -0.027 0.000 0.178 0.002 0.832 年龄 0.200 0.030 5.2E-02 0.011 0.137 性别(女、男) -65.050 -0.496 -46.641 -0.473 总共上了几年学 -0.820 -0.044 0.109 0.008 0.348 是否在业(不在业、在业) -2.350 -0.011 0.187 -5.147 -0.031 工作时间(小时) -4.172 -0.224 -2.847 -0.203 路途时间(小时) -3.437 -0.037 -0.992 -0.014 0.045 个人年收入(千元) -6.1E-02 -0.013 0.121 -2.0E-02 -0.005 0.529 夫妻收入差(千元) -4.1E-02 -0.012 0.145 -2.5E-02 -0.009 0.274 夫妻教育程度差(级) -0.376 -0.016 0.017 -0.213 0.087 注:做饭时间回归模型 R2=0.387,sig=0.000;洗衣时间回归模型 R2=0.323,sig=0.000
研究实例 对加强化学实验教学效果的统计分析
研究实例 城市居民最低生活保障线的测定 童 星 刘松涛 社会学研究2000 年第4 期
作业 下周三交