(multiple linear regression)

Slides:



Advertisements
Similar presentations
小说三要素 人物 情节 环境 凹 ( ) 凼 ( ) 硌 ( ) 涎 ( ) 水 揩 ( ) 嘎 ( ) 筹 ( ) 划 黏 ( ) 撬 ( ) 尴尬 ( ) 过瘾 ( ) 唿 ( ) 嗒 熬 ( ) 住 憋 ( ) 住 门槛 ( ) 微不足道 : 大庭广众 : āo dàng gè xián.
Advertisements

年輕駕駛交通工具 考上駕照的 18 歲, 正好是高中畢業, 離家工作、上大學 的時候。 年輕人對新環境的 好奇及生疏,以及 尚未養成良好駕駛 習慣,造成意外的 產生。
第8章 非线性回归 8.1 可化为线性回归的曲线回归 8.2 多项式回归 8.3 非线性模型 8.4 本章小结与评注.
中国旅游研究院武汉分院成果展示 ——2011年武汉市旅游市场调研成果简报 华中师范大学 中国旅游研究院武汉分院 二〇一一年十二月.
当代大学生的性别烦恼 沈奕斐.
窦娥冤 关汉卿 感天动地 元·关汉卿.
第五章 主张超尘绝俗的 佛家.
二元羅吉斯迴歸 9.1 前言 9.2 二元羅吉斯迴歸之原理 9.3 參數校估原理 9.4 SPSS之操作 9.5 多元自變數與虛擬變數
上海体育职业学院 祁社生 一、重视体育科研在提高竞技运动训练水平中的意义和作用
齐桓晋文之事 孟子.
台 阶 李森祥.
谢 旋.
视觉文化与社会性别   沈奕斐 社会学系 讲师 2010年3月.
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
知其不可而为之.
中国画家协会理事、安徽省美术家协会会员、 工艺美术师、黄山市邮协常务理事余承平主讲
第二课 扬起自信的风帆 我能“行”.
“正心诚意,修身齐家”==>“治国平天下”
规模(限额)以下法人单位普查表(BJ611表)能源部分
第二章 语音 第六节 音变 轻 声1.
声调.
第三次全国经济普查 ——611表 西城区统计局牛街统计所 2013年12月.
安恩和奶牛 约翰尼斯·延森.
汉字的构造.
诵读欣赏 古代诗词三首.
述 职 报 告 单 位:机械学院 实践教学部 述职人:钮平章.
论语(侍坐章).
推行使用散装预拌砂浆 全面贯彻落实禁现政策
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
第一章 语文基础知识 ——正确使用熟语(包括成语).
赵德成 北京师范大学教育管理学院 让教师成为研究者 赵德成 北京师范大学教育管理学院
第五章 营销调研和预测.
第四节 统计初步和数据整理 在这一节中我们将介绍统计学的基本知识。统计学是一门古老而又年轻的学科,例如为了征兵和收税的早期的人口统计,甚至在公元前就出现了。但是近代数理统计学,却主要是从20世纪初开始发展的。其主要特征是运用概率论的知识进行统计推断。即从所研究的全部对象中抽取部分个体,并通过对这部分个体的观察和分析,对全部对象的有关问题作出推断。数理统计学已经建立了一套系统的理论,有着广泛的应用。下面先介绍统计学中最基本的概念。
贴近教学 服务师生 方便老师.
六年级 语文 下册 第四单元 指尖的世界.
说一说 现在的你和小时候的你 相比有什么变化?.
(浙教版)四年级品德与社会下册 共同生活的世界 第四单元 世界之窗 第二课时.
【敗犬的遠吠】讀書會 99/05/12 & 99/05/19 楊佳穎 諮商心理師.
Chapter 2 簡單迴歸模型.
传媒学院2013年度团委工作 总结分析报告
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
單元一: 變數定義、資料輸入、資料存檔與表格建立
关于虚拟变量回归模型 教学目的:了解虚拟变量的含义及使用,能够应用软件进行实例模拟。 教学内容: 虚拟变量的基本含义及使用
課程九 迴歸與相關1.
第六章 正态条件下回归的推论.
一元线性回归(二).
Stochastic Relationships and Scatter Diagrams
概 率 统 计 主讲教师 叶宏 山东大学数学院.
Chapter 14 Simple Linear Regression
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
灵敏度分析 (what-if分析) 在实际问题中,我们首先收集有关数据,建立线性规划模型,用Excel求解.
说说看 比较现在的你和四年前的你有什么变化?.
猜一猜 身穿五彩衣, 头上一双大眼睛, 要问我从哪里来, 江河湖海是我家。.
庄文忠 副教授 世新大学行政管理学系 相关分析与简单回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/4/7.
MyLibrary ——数字图书馆的个性化服务
Liner regression analysis
一、迴歸分析的基本概念 二、SPSS的線性迴歸分析 三、迴歸模型的檢驗與意義
課程十 迴歸3.
导入新课 在《数学3》中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为: 画散点图 求回归直线方程
花 脸.
第 四 章 迴歸分析應注意之事項.
社会科学统计软件及应用 马秀麟 2016年5月.
第五章 比率估计与回归估计 (ratio estimator and regression estimator)
登上地球之巅 郭超人.
两个变量的线性相关 琼海市嘉积中学 梅小青.
Xián 伯 牙 绝 弦 安徽淮南市八公山区第二小学 陈燕朵.
线性回归.
一棵小树十个杈, 不长叶子不开花, 能学会算还会画, 天天干活不说话。 猜一猜.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
Presentation transcript:

(multiple linear regression) 第二章 多元线性回归 (multiple linear regression) 第一节 相关和回归 第二节 一元线性回归模型 第三节 多元线性回归模型 第四节 方程的解释能力 第五节 回归方程的检验和回归系数的推断统计 第六节 虚拟变量的应用 第七节 多重共线性及其解决方案 第八节 计算机应用 第九节 研究实例 参见郭志刚主编,《社会统计分析方法—SPSS软件应用》第二章, 中国人民大学出版社1999

第一节 相关和回归 一、相关统计量 用一个数值表示两个变量间的相关程度(无单位度量)(-1~+1)

解读 X与y的相关系数为0.6,x与z的相关系数为0.3

答案: 只能说明x与y相关程度高于x与z的相关程度,但不能说前者是后者的两倍

二、计算相关的思路 定距:数量上的“共变” 定类、定序:“连同发生”——隐含根据一个变量去预测或估计另一个变量的意思 人们正是根据预测的准确程度来界定定类或定序变量之间的关系的——消减误差比例

三、相关测量逻辑展示 (一)Lambda相关测量法 基本逻辑:以一个定类变项的值来预测另一个定类变项的值时,如果以众值作为预测准则,可以减少多少误差 公式:

练习:根据下表数据计算lambda 志愿 性别 男 女 总数 快乐家庭 10 30 40 理想工作 50 增广见闻 60 100

思考并运算:如果数据有如下变化,lambda值会发生什么变化呢? 志愿 性别 男 女 总数 快乐家庭 10 20 理想工作 40 30 70 增广见闻 60 100

存在的问题: 1、Lambda系数以众值为预测准则,不理会众值以外的次数分布,对数据利用率低。 2、因为上述计算方式,如果全部众值集中在条件次数表的同一列或同一行中,则Lambda系数会等于0,相关失去意义

(二)相关系数r 1、协方差的思想 2、r系数计算 3、PRE计算思路

四、回归 回归是相关分析的深入 回归分析的结果是建立一个数学模型以表达变量之间的关系——在分析观测数据的基础上,确定一个能反映变量之间关系的近似函数表达式

方法论指导 经验支撑 理论思路 整体研究方案 1(多)个 定距(类)变量 1个 定距变量 线性关联

注意 回归模型只是整个研究方案中的一环,它必须依赖理论和经验的支撑,服从研究设计的需要,在研究方法论的指导下展开

研究变量间的因果关系 求解模型参数 估计 评价模型拟合度 预测 是否吻合预先构想

参见:卢叔华《社会统计学》,北京大学出版社1997 第二节 一元线性回归 一、回归方程与线性回归方程 二、回归方程的建立与最小二乘法 三、回归方程的假定与检验 参见:卢叔华《社会统计学》,北京大学出版社1997 第十二章 回归与相关

一、回归方程与线性回归方程 两变量x与y 对于确定的xi,yi是随机变量,可计算其均值——回归方程是研究自变量不同取值时,y的均值的变化

关于模型 现实数据=模型+误差 没有误差的不是模型,是复制 复制很精确,但是往往太不简洁 设置模型一般而言是希望用简洁的方式表述复杂信息,达到较好的精确度

二、回归方程的建立与最小二乘法 回归分析的目的:找出错误最小的方法来预测因变量的数值 拟合思路:各点到待估直线铅直距离之和为最小——最小二乘

原理: (1)散点图 (2)每个x值对应的y的均值,构成回归线(曲折) (3)用最小平方法绘制回归直线 (各个样本个案的估计误差和为误差总数。为避免正负抵消,改为将误差的平方值相加。如果回归直线位置能够使此平方和最小,即为最佳拟和直线)

线性回归方程式不但有简化资料的作用,而且可以推广应用于预测或估计样本以外之个案的数值

回归系数的意义: b值的大小表示每增加一个单位的x值,y值的变化有多大

三、回归方程的假定与检验 (一)基本假定 1、自变量x可以是随机变量,也可以是非随机变量,其误差忽略不计 2、对于每一个x值,yi都是随机变量。Y的所有子总体y1,y2…yn,方差相等 3、y的所有子总体,其均值都在一条直线上——线性假定 4、随机变量yi是统计独立的 5、 y的所有子总体都满足正态分布

(二)检验 F检验

第三节 多元线性回归模型 一、多元的思路 二、回归方程的建立 三、回归方程的解释 四、标准化回归系数

一、多元的思路 关联性 Association 和因果性Causality 统计意义上的关联性很容易发现 , 难的是,如何确立因果联系。 然而我们在研究中更加关心的是因果性的解释。

因果关系存在的必要条件: 1、变量间的关系是strong and consistent; 2、变量间有适当的时序性; 3、变量间的关系不能够被其他变量所解释。

对观察数据的统计控制 我们如何排除其他备选解释? 和实验室的实验不同的是,我们不能控制社会现象发生的环境。 对于观察数据, 因果性问题可以部分地通过统计控制来解决 即, 我们可以把个体根据我们所要控制的特征分成几个小组, 来比较组内的结果变量的差异 对定量变量最常用的统计控制体现在多元回归模型中。

二、回归方程的建立 多元回归模型一般表达式 建立的多元回归方程: 其中, 称y对x的回归系数或偏回归系数 可用最小二乘法求解

Let Z(a, b1, b2)= Σ(Y-a-b1X1-b2X2)2 多元回归系数的估计 首先看只有两个自变量的模型 : 我们仍可以用最小二乘法,使得观测的Y值和预测的Y值的差距的平方和最小。利用微积分, Let Z(a, b1, b2)= Σ(Y-a-b1X1-b2X2)2

对三个未知参数a, b1, and b2 求导:

解方程:

这种方法可以扩展到任意多的自变量的模型。 计算机可以直接给出估计的系数。

三、回归方程的解释 在任何情况下, a 始终为当所有自变量为0时的应变量值 (截距) 斜率系数 b1 到 bk 表示在其他变量不变的情况下,相关的X增加一个单位,Y所对应的变化。

对于方程: 如果xi增加一个单位,即xi变为xi+1,而其他自变量均保持不变,相应有 则y的变化幅度为

规范解读方式 (在其他变量不变的情况下,)xi平均变化一个单位,y平均相应变化bi个单位

x及未包括进方程中的其他与x有关的一切因素对y的总影响 回归系数的意义 一元回归系数 多元回归系数 x及未包括进方程中的其他与x有关的一切因素对y的总影响 偏回归系数:除去方程中其他因素对y的共同影响后,某自变量对y的边际影响

四、标准化回归系数 需要判别所考察的因素的重要程度 问题 将回归系数标准化 解决 1、先将变量标准化,再 计算 2、利用回归系数计算 做法

变量 每平均变化一个标准分数, y将平均变化 个标准分数

第四节 方程的解释能力 一、确定系数 二、调整的确定系数 三、多元相关系数 四、方差分析

回归方程解释的差异与用y均值解释的差异之比 模型中所有变量解释y的变化占总变化的比例 一、确定系数 (0~1) 回归方程解释的差异与用y均值解释的差异之比 模型中所有变量解释y的变化占总变化的比例 受奇异值影响 散点图

The sum of squared errors 预测与残差 e=(Y - ) The sum of squared errors 我们通过对该项(残差)最小化方法求得 a and bi.

拟合优度 where and

和前面一样, 是衡量 Y的所有变异中由所有自变量的差异共同解释的比例 越高, 模型拟合数据的程度就越好。 当加入新的变量时, 只升不降。 由于常常是随着自变量数目的增加而增加, 所以直接比较 没有太大的意义。

二、调整的确定系数 偏高 <(1:10) >(1:5) 自变量个数 样本规模 自变量个数 样本规模

三、多元相关系数R 因变量观测值和预测值之间的相关程度

四、方差分析 回归平方和 y的总变差平方和 余差平方和

第五节 回归方程的检验和回归系数的推断统计 第五节 回归方程的检验和回归系数的推断统计 检验 统计推断 回归系数的置信区间 回 归 方 程 回 归 系 数 为什么不显著?

一、回归方程的显著性检验 检验样本y与x1,…,xk的线性关系是否显著 判断能否肯定总体回归系数中至少有一个不等于0 实质 H0:B1=B2=…=Bk=0 在总体中,X1,…,Xk的变化都不引起Y的线性变化 假设 =(BSS/k)/ [ESS/(n-k-1)] P与a比较,决定是否拒绝H0 计算 检验在a水平统计性显著,并拒绝H0、接受H1 我们有相当大的把握断定,统计量b1,…,bk不等于0不是由于抽样误差造成的。 表述

回归模型希望:保留最重要的变量,删除不显著的变量 二、回归系数的显著性检验 当回归方程检验显著时,可以认为回归方程中至少有一个回归系数是显著的。但并不一定所有回归系数都显著。 回归模型希望:保留最重要的变量,删除不显著的变量 对每个变量的回归系数进行检验

具体做法: H0:Bj=0 H1:Bj≠0 T Sig T

P(bj- sj<Bj<bj+ sj)=1-a 三、回归系数的置信区间 回归系数的统计检验只能说明Bj与0有显著差别,并不能说明Bj的具体情况。 用样本回归系数b及其标准误,可以推断Bj值的置信区间 P(bj-ta/2sj<Bj 回归系数的统计检验只能说明Bj与0有显著差别,并不能说明Bj的具体情况。 用样本回归系数b及其标准误,可以推断Bj值的置信区间 P(bj- sj<Bj<bj+ sj)=1-a

四、回归系数不显著的原因 样 本 量 太 小 变量数太多 Xj标准差过小 自变量线性相关 非线性关系 确实不相关

第六节 虚拟变量的应用 什么变量需要虚拟? 分类变量

虚拟变量 一个变量只有两个可能值1 or 0. 对于一个两分的变量: gender: 1. male 2. female 我们可以重新编码 1=male and 0=female. 由此, gender 就变成了一个虚拟变量 , 表示被访者是否男性 .

将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以没有进入变量表达的那个类别为参照进行解释,说明不同类别间y取值的变化 如何虚拟? 将某一个分类变量(有n个选项)转换成(n-1)个二分变量,以没有进入变量表达的那个类别为参照进行解释,说明不同类别间y取值的变化 二分变量 (是、否) 均值的意义是编码为1的案例占样本的比例 把二分状态看作连续变化的过程

为什么要在回归分析中引入虚拟变量? 有时我们社会研究的样本数据中观察的个体可以分成不同的组别。 组与组、或群体与群体间的在自变量和应变量的平均数会有差异 在这种情况下, 不控制组别特征的回归模型结果会导致 所估计的偏回归系数偏差。 特别是, 系数可能低估或者高估一个自变量对应变量的影响强度。

第七节 多重共线性及其解决方案 此即所谓的“多重共线性” 第七节 多重共线性及其解决方案 多元线性回归的解释方式:“在其他变量不变的前提下,xi平均变化一个单位y将平均变化bi个单位” 如果xi与另一自变量存在高度相关,则这种解释不成立,因为“在其他变量不变的前提”不可能实现 此即所谓的“多重共线性”

后果: 影响回归方程的有效性 多重共线性的表现之一: 自变量之间存在高度线性相关 回归预测结果将不可靠 xi与y之间的关系不准确 回归方程整体显著, 但各个自变量都不显著 自变量之间存在高度线性相关 后果: 影响回归方程的有效性 回归预测结果将不可靠 xi与y之间的关系不准确

鉴别多重共线性的思路: 在自变量之间建立回归方程,以该回归方程的确定系数来判断自变量之间的相关程度 具体做法:假定有k个自变量,先以第一个自变量x1为因变量建立回归方程,计算确定系数——若值较大,说明至少有一个自变量与x1相关,也即存在共线性问题;按此方法依次建立回归方程,根据确定系数的变化来判断共线性问题

补 救 办 法 去掉与y相关较低,而与其他自变量相关高的变量 去掉可以被其余自变量线性表达的变量 增加样本规模 采用新的样本数据 利用先验信息组合变量 逐步删除(逐步回归方法即可消除此问题) 变量变换

选择最优回归方程 向前回归 全部纳入 删除 向后回归 逐步回归

如何选择模型? 根据研究目的——主要为了建模还是验证

补充:回归前提假定的检查 模型的假设条件: 常用方法: 结果解读:

如何利用统计分析结果? 充分而简洁

补充:更丰富的回归分析 (略)

第八节 计算机操作

第九节 研究实例 社会意识的行动逻辑 ――性别不平等的现象学社会学解释框架 《浙江学刊》2006年第5期

表3 家务劳动时间多元回归分析(2000年) 做饭 洗衣 B BETA sig 城乡分组(乡、城) -3.052 -0.027 0.000 表3 家务劳动时间多元回归分析(2000年) 做饭 洗衣 B BETA sig 城乡分组(乡、城) -3.052 -0.027 0.000 0.178 0.002 0.832 年龄 0.200 0.030 5.2E-02 0.011 0.137 性别(女、男) -65.050 -0.496 -46.641 -0.473 总共上了几年学 -0.820 -0.044 0.109 0.008 0.348 是否在业(不在业、在业) -2.350 -0.011 0.187 -5.147 -0.031 工作时间(小时) -4.172 -0.224 -2.847 -0.203 路途时间(小时) -3.437 -0.037 -0.992 -0.014 0.045 个人年收入(千元) -6.1E-02 -0.013 0.121 -2.0E-02 -0.005 0.529 夫妻收入差(千元) -4.1E-02 -0.012 0.145 -2.5E-02 -0.009 0.274 夫妻教育程度差(级) -0.376 -0.016 0.017 -0.213 0.087 注:做饭时间回归模型 R2=0.387,sig=0.000;洗衣时间回归模型 R2=0.323,sig=0.000

研究实例 对加强化学实验教学效果的统计分析

研究实例 城市居民最低生活保障线的测定 童 星 刘松涛 社会学研究2000 年第4 期

作业 下周三交