统 计 学 (第三版) 2008 作者 贾俊平 统计学.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
2 、 5 的倍数特征 集合 2 的倍数(要求) 在百数表上依次将 2 的倍数找出 并用红色的彩笔涂上颜色。
第六章 回归分析.
5 多元线性回归分析 §1 一元线性回归分析 §2 多元线性回归分析 §3 最优回归方程的选取 §4 可线性化的非线性回归.
第十章 相关与回归分析 PowerPoint 统计学.
回归分析法预测 (Regression Analysis)
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
10.2 立方根.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
第13章 多重线性回归与相关 (multiple linear regression & multiple correlation)
§4.3 多重共线性 Multi-Collinearity.
第5章 自变量的选择与逐步回归 5.1 自变量选择对估计和预测的影响 5.2 所有子集回归 5.3 逐步回归 5.4 本章小结与评注.
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
预测与决策分析 Forecasting and Decision Analysis
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
计量经济学 第三章 多元线性回归模型.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第15章 相关分析与回归分析 (续).
第一节 引言 第二节 一元线性回归模型 第三节 多元线性回归模型 第四节 虚拟变量回归模型 第五节 非线性回归模型 本章小节 主要内容.
Applied Regression Analysis
第 14 章 複迴歸與相關分析.
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
引子: 国内生产总值增加会减少财政收入吗?
多元逐步回归 多元线性回归中自变量的确定: 根据理论知识与经验决定自变量,由于对部分自变量的作用不确认,借助统计分析来实现,剔除:
Multiple linear regression
计量经济学 第三章 多元线性回归模型.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
数学实验之 回归分析(1).
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第九章 方差分析和回归分析 单因素方差分析 一元线性回归 回归诊断.
第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断
回归分析.
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
多元回归分析:估计 y = b0 + b1x1 + b2x bkxk + u 计量经济学导论 刘愿.
第十章 方差分析.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 参数估计 7.3 参数的区间估计.
第4章 非线性规划 4.5 约束最优化方法 2019/4/6 山东大学 软件学院.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
模型分类问题 Presented by 刘婷婷 苏琬琳.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第4课时 绝对值.
第三章 两变量线性回归.
第四章 多元线性回归分析.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
多元线性回归分析.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
数学模型实验课(二) 最小二乘法与直线拟合.
庄文忠 副教授 世新大学行政管理学系 复回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/8/26.
Presentation transcript:

统 计 学 (第三版) 2008 作者 贾俊平 统计学

上好的模型选择可遵循一个称为奥克姆剃刀(Occam’s Razor)的基本原理:最好的科学模型往往最简单,且能解释所观察到的事实。 统计名言 上好的模型选择可遵循一个称为奥克姆剃刀(Occam’s Razor)的基本原理:最好的科学模型往往最简单,且能解释所观察到的事实。 ——William Navidi 2008年8月

9.1 多元线性回归模型 9.2 拟合优度和显著性检验 9.3 多重共线性及其处理 9.4 利用回归方程进行预测 9.5 虚拟自变量的回归 第 9 章 多元线性回归 9.1 多元线性回归模型 9.2 拟合优度和显著性检验 9.3 多重共线性及其处理 9.4 利用回归方程进行预测 9.5 虚拟自变量的回归

学习目标 多元线性回归模型、回归方程与估计的回归方程 回归方程的拟合优度与显著性检验 多重共线性问题及其处理 利用回归方程进行预测 虚拟自变量的回归 用Excel和SPSS进行回归分析 2008年8月

身高受那些因素影响? 决定身高的因素是什么?父母遗传、生活环境、体育锻炼,还是以上各因素的共同作用 2004年12月,中国人民大学国民经济管理系02级的两位学生,对人大在校生进行了问卷调查。问卷采取随机发放、当面提问当场收回 调查的样本量为98人,男性55人,女性43人。调查内容包括被调查者的身高(单位:cm)、性别、其父母身高、是否经常参加体育锻炼、家庭所在地是在南方还是在北方等等。部分数据如教材中的表所示(1代表男性,0代表女性) 父亲身高、母亲身高、性别是不是影响子女身高的主要因素呢?如果是,子女身高与这些因素之间能否建立一个线性关系方程,并根据这一方程对身高做出预测? 这就是本章将要讨论的多元线性回归问题 2008年8月

第 9 章 多元线性回归 9.1 多元线性回归模型 9.1.1 回归模型与回归方程 9.1.2 参数的最小二乘估计

9.1 多元线性回归模型 9.1.1 回归模型与回归方程

多元回归模型 (multiple linear regression model) 一个因变量与两个及两个以上自变量的回归 描述因变量 y 如何依赖于自变量 x1 , x2 ,…, xk 和误差项  的方程,称为多元回归模型 涉及 k 个自变量的多元线性回归模型可表示为 b0 ,b1,b2 ,,bk是参数  是被称为误差项的随机变量 y 是x1,,x2 , ,xk 的线性函数加上误差项  包含在y里面但不能被k个自变量的线性关系所解释的变异性 2008年8月

多元回归模型 (基本假定) 正态性。误差项ε是一个服从正态分布的随机变量,且期望值为0,即ε~N(0,2) 方差齐性。对于自变量x1,x2,…,xk的所有值, 的方差 2都相同 独立性。对于自变量x1,x2,…,xk的一组特定值,它所对应的与任意一组其他值所对应的不相关 2008年8月

多元线性回归方程 (multiple linear regression equation) 描述因变量 y 的平均值或期望值如何依赖于自变量 x1, x2 ,…,xk的方程 多元线性回归方程的形式为 E( y ) = 0+ 1 x1 + 2 x2 +…+ k xk b1,b2,,bk称为偏回归系数 bi 表示假定其他变量不变,当 xi 每变动一个单位时,y 的平均变动值 2008年8月

估计的多元线性回归的方程 (estimated multiple linear regression equation) 用样本统计量 估计回归方程中的 参数 时得到的方程 由最小二乘法求得 一般形式为 是 估计值 是 y 的估计值 2008年8月

9.1 多元线性回归模型 9.1.2 参数的最小二乘估计

参数的最小二乘估计 使因变量的观察值与估计值之间的离差平方和达到最小来求得 。即 求解各回归参数的标准方程如下 2008年8月

参数的最小二乘法 (例题分析) 【例】一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据。试建立不良贷款y与贷款余额x1、累计应收贷款x2、贷款项目个数x3和固定资产投资额x4的线性回归方程,并解释各回归系数的含义  用Excel进行回归 2008年8月

参数的最小二乘估计 (例题分析) 偏回归系数 F检验 t 检验 2008年8月

第 9 章 多元线性回归 9.2 拟合优度和显著性检验 9.2.1 回归方程的拟合优度 9.2.2 显著性检验

9.2 拟合优度和显著性检验 9.2.1 回归方程的拟合优度

多重判定系数 (multiple coefficient of determination) 回归平方和占总平方和的比例 计算公式为 因变量取值的变差中,能被估计的多元回归方程所解释的比例 2008年8月

修正多重判定系数 (adjusted multiple coefficient of determination) 用样本量n和自变量的个数k去修正R2得到 计算公式为 避免增加自变量而高估 R2 意义与 R2类似 数值小于R2 用Excel进行回归 2008年8月

多重相关系数 (multiple correlation coefficient) 反映因变量y与k个自变量之间的相关程度 实际上R度量的是因变量的观测值 与由多元回归方程得到的预测值 之间的关系强度,即多重相关系数R等于因变量的观测值 与估计值 之间的简单相关系数即 (一元相关系数r也是如此,即 。读者自己去验证) 2008年8月

估计标准误差 Se 对误差项的标准差 的一个估计值 衡量多元回归方程的拟合优度 计算公式为 用Excel进行回归 2008年8月

9.2 拟合优度和显著性检验 9.2.2 显著性检验

线性关系检验 检验因变量与所有自变量之间的线性关系是否显著 也被称为总体的显著性检验 检验方法是将回归均方(MSR)同残差均方(MSE)加以比较,应用 F 检验来分析二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在线性关系 如果不显著,因变量与自变量之间不存在线性关系 2008年8月

线性关系检验 用Excel进行回归 提出假设 2. 计算检验统计量F 确定显著性水平和分子自由度k、分母自由度n-k-1找出临界值F  H0:12k=0 线性关系不显著 H1:1,2, k至少有一个不等于0 2. 计算检验统计量F 确定显著性水平和分子自由度k、分母自由度n-k-1找出临界值F  4. 作出决策:若F>F ,拒绝H0 用Excel进行回归 2008年8月

回归系数的检验 线性关系检验通过后,对各个回归系数有选择地进行一次或多次检验 究竟要对哪几个回归系数进行检验,通常需要在建立模型之前作出决定 对回归系数检验的个数进行限制,以避免犯过多的第Ⅰ类错误(弃真错误) 对每一个自变量都要单独进行检验 应用 t 检验统计量 2008年8月

回归系数的检验 (步骤) 提出假设 计算检验的统计量 t 确定显著性水平,并进行决策 H0: bi = 0 (自变量 xi 与 因变量 y 没有线性关系) H1: bi  0 (自变量 xi 与 因变量 y有线性关系) 计算检验的统计量 t 确定显著性水平,并进行决策  t>t,拒绝H0; t<t,不拒绝H0 用Excel 进行回归 2008年8月

回归系数的推断 (置信区间) 回归系数在(1-)%置信水平下的置信区间为 回归系数的抽样标准差 用Excel进行回归 2008年8月

第 9 章 多元线性回归 9.3 多重共线性及其处理 9.3.1 多重共线性及其识别 9.3.2 变量选择与逐步回归

9.3 多重共线性及其处理 9.3.1 多重共线性及其识别

多重共线性 (multicollinearity) 回归模型中两个或两个以上的自变量彼此相关 多重共线性带来的问题有 可能会使回归的结果造成混乱,甚至会把分析引入歧途 可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同预期的正负号相反 用Excel进行回归 2008年8月

多重共线性的识别 用Excel进行回归 检测多重共线性的最简单的一种办法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验 若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性 如果出现下列情况,暗示存在多重共线性 模型中各对自变量之间显著相关 当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著 回归系数的正负号与预期的相反 用Excel进行回归 2008年8月

多重共线性的处理 将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关 如果要在模型中保留所有的自变量,则应 避免根据 t 统计量对单个参数进行检验 对因变量值的推断(估计或预测)的限定在自变量样本值的范围内 用Excel进行回归 2008年8月

提 示 在建立多元线性回归模型时,不要试图引入更多的自变量,除非确实有必要 提 示 在建立多元线性回归模型时,不要试图引入更多的自变量,除非确实有必要 在社会科学的研究中,由于所使用的大多数数据都是非试验性质的,因此,在某些情况下,得到的结果往往并不令人满意,但这不一定是选择的模型不合适,而是数据的质量不好,或者是由于引入的自变量不合适 2008年8月

奥克姆剃刀 (Occam’s Razor) 模型选择可遵循奥克姆剃刀的基本原理 对于线性模型来说,奥克姆剃刀可表示成简约原则 最好的科学模型往往最简单,且能解释所观察到的实事 对于线性模型来说,奥克姆剃刀可表示成简约原则 一个模型应包括拟合数据所必需的最少变量 如果一个模型只包含数据拟合所必需的变量,这个模型就称为简约模型(parsimonious model) 实际中的许多多元回归模型都是对简约模型的扩展 2008年8月

9.3 多重共线性及其处理 9.3.2 变量选择与逐步回归

变量选择过程 在建立回归模型时,对自变量进行筛选 选择自变量的原则是对统计量进行显著性检验 将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著地减少。如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型 确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量 变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等 2008年8月

向前选择 (forward selection) 从模型中没有自变量开始 对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量(P值最小的),并将其首先引入模型 分别拟合引入模型外的k-1个自变量的线性回归模型 如此反复进行,直至模型外的自变量均无统计显著性为止 2008年8月

向后剔除 (backward elimination) 先对因变量拟合包括所有k个自变量的回归模型。然后考察p(p<k)个去掉一个自变量的模型(这些模型中在每一个都有的k-1个自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除 考察p-1个再去掉一个自变量的模型(这些模型中每一个都有k-2个的自变量),使模型的SSE值减小最少的自变量被挑选出来并从模型中剔除 如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减小为止 2008年8月

逐步回归 (stepwise regression) 将向前选择和向后剔除两种方法结合起来筛选自变量 在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除 按照方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少 在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中 2008年8月

参数的最小二乘法 (逐步回归) 【例】根据例9.1的数据,用逐步回归方法建立不良贷款y与贷款余额x1、累计应收贷款x2、贷款项目个数x3和固定资产投资额x4的线性回归方程,并求出不良贷款的置信区间和预测区间 2008年8月

用SPSS进行逐步回归 (stepwise regression) 第1步:选择【Analyze】下拉菜单,并选择 【Regression - linear】选项进入主对话框 第2步:在主对话框中将因变量选入【Dependent】,将 所有自变量选入【Independent(s)】,并在 【Method】下选择【Stepwise】 第3步:点击【Options】,并在【Stepping Method Criteria】下选中【Use Probability of F】,并在 【Entry】框中输入增加变量所要求的显著性水平 (隐含值为0.05,一般不用改变);在 【Removal】输入剔除变量所要求的显著性水平 (隐含值为0.10,一般不用改变)。点击 【Continue】回到主对话框 2008年8月

用SPSS进行逐步回归 (stepwise regression) 第4步:(需要预测时)点击【Save】: 在【Predicted Values】下选中 【Unstandardized】(输出点预测值) 在【Prediction interval】下选中【Mean】和 【Individual】(输出置信区间 和预测区间) 在【Confidence Interval】中选择所要求的置 信水平(隐含值为95%,一般不用改变) (需要残差分析时)在【Residuals】下选中所 需的残差,点击【Continue】回到主对话 框。点击【OK】  用SPSS进行回归 2008年8月

逐步回归 (例题分析—SPSS输出结果) 变量的进入和移出标准 2008年8月

逐步回归 (例题分析—SPSS输出结果) 两个模型的主要统计量 2008年8月

逐步回归 (例题分析—SPSS输出结果) 两个模型的方差分析表 2008年8月

逐步回归 (例题分析—SPSS输出结果) 两个模型的参数估计和检验 2008年8月

第 9 章 多元线性回归 9.4 利用回归方程进行预测

置信区间和预测区间 (例题分析) 2008年8月

置信区间和预测区间 (例题分析) 不良贷款的置信面和预测面 二元回归面 置信面 预测面 2008年8月

第 9 章 多元线性回归 9.5 虚拟自变量的回归

9.5 虚拟自变量的回归 9.5.1 在模型中引进虚拟变量

虚拟自变量 (dummy variable) 也称哑变量。用数字代码表示的定性自变量 虚拟自变量可有不同的水平 只有两个水平的虚拟自变量 比如,性别(男,女) 有两个以上水平的虚拟自变量 贷款企业的类型(家电,医药,其他) 虚拟变量的取值为0,1 2008年8月

在回归中引进虚拟变量 回归模型中使用虚拟自变量时,称为虚拟自变量的回归 当虚拟自变量只有两个水平时,可在回归中引入一个虚拟变量 比如,性别(男,女) 一般而言,如果定性自变量有k个水平,需要在回归中模型中引进k-1个虚拟变量 2008年8月

在回归中引进虚拟变量 (例题分析) 【例】为研究考试成绩与性别之间的关系,从某大学商学院随机抽取男女学生各8名,得到他们的市场营销学课程的考试成绩如右表 2008年8月

9.5 虚拟自变量的回归 9.5.2 含有一个虚拟自变量的回归

在回归中引进虚拟变量 (例题分析) 【例】建立考试分数与性别之间的线性回归方程,并解释回归系数的含义 用Excel进行回归 2008年8月

虚拟自变量的回归 (例题分析) 引进虚拟变量时,回归方程表示为E(y) =0+ 1x 注意:当指定虚拟变量0,1时 虚拟自变量的回归 (例题分析) 引进虚拟变量时,回归方程表示为E(y) =0+ 1x 男( x=0):E(y) =0—男学生考试成绩的期望值 女(x=1):E(y) =0+ 1—女学生考试成绩的期望值 注意:当指定虚拟变量0,1时 0总是代表与虚拟变量值0所对应的那个分类变量水平的平均值 1总是代表与虚拟变量值1所对应的那个分类变量水平的平均响应与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即 平均值的差值 =(0+ 1) - 0= 1 2008年8月

虚拟自变量的回归 (例题分析) 考试成绩与性别的回归 男学生考试分数的平均值 女学生与男学生平均考试分数的差值 2008年8月

虚拟自变量的回归 (考试成绩与性别的散点图) 男 女 2008年8月

虚拟自变量的回归 (例题分析) 用Excel进行回归 【例】为研究工资水平与工作年限和性别之间的关系,在某行业中随机抽取10名职工,所得数据如右表 用Excel进行回归 2008年8月

虚拟自变量的回归 (例题分析) 引进虚拟变量时,回归方程写为 E(y) =0+ 1x1+ 2x2 虚拟自变量的回归 (例题分析) 引进虚拟变量时,回归方程写为 E(y) =0+ 1x1+ 2x2 女( x2=0):E(y|女性) =0 +1x1 男(x2=1):E(y|男性) =(0 + 2 ) +1x1 0的含义表示:女性职工的期望月工资收入 (0+ 2)的含义表示:男性职工的期望月工资收入 1含义表示:工作年限每增加1年,男性或女性工资的平均增加值 2含义表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值 (0+ 2) - 0= 2 2008年8月

本章小结 多元线性回归模型、回归方程与估计的回归方程 回归方程的拟合优度与显著性检验 多重共线性问题及其处理 利用回归方程进行预测 虚拟自变量的回归 用Excel和SPSS进行回归分析 2008年8月

结 束 THANKS