多元线性回归分析.

Slides:



Advertisements
Similar presentations
中医内科 陈良金. 目的要求: 熟悉虚劳的证候特征。 了解虚劳的发病与气血阴阳及五脏的关系。 掌握虚劳和肺痨及一般虚证的区别与联系。 掌握虚劳的治疗要点。 熟悉虚劳各个证型的辨证论治。 了解虚劳的预后及调摄护理。
Advertisements

写作中的几点小技巧 金乡县羊山中学 张秀玲. 一、写外貌不用 “ 有 ” 作文如何来写外貌?同学们的作文里总会出现类 似这样的句子: “ XX 可漂亮了,她有一头卷卷的黄头 发,有一双乌黑的葡萄般的大眼睛,有高高的鼻子, 还有一张樱桃小嘴。 ” 如果试着去掉文中的 “ 有 ” ,把文字重新修改一遍,
十大写作技巧. 一、写外貌不用 “ 有 ” 作文如何写外貌?孩子的作文里总会看到类似这样的名 子: “XX 可漂亮了,她有一头卷卷的黄头发,有一双乌黑的 葡萄般的大眼睛,有一个高高的鼻子,还有一张樱桃小嘴。 ” 如果你试着让他们去掉文中的 “ 有 ” ,把文字重新串联一遍, 会发现作文顺了很多。 写上段文字的同学经蒋老师指导后修改如下:
招商谈判技巧 芝麻官营销. 技巧原则 孙子兵法云: “ 兵无常势,水无常形,能 因敌之变化而取胜者,谓之神。 ” “ 内功心法 ” 只有在真正实践中才能体会、 掌握。 谈判有没有具体的套路?有没有 “ 一招制 敌 ” 的擒拿手?
“ 十二五 ” 广东省科技计划项目 经费监管培训 广东省科技厅 一、专项经费管理法规 一、专项经费管理法规 二、经费监督检查 二、经费监督检查 三、项目预算调整管理 三、项目预算调整管理 四、课题经费预算执行管理 四、课题经费预算执行管理 五、项目(课题)财务验收 五、项目(课题)财务验收 2.
教育研究课题的实施 北京教育科学研究院 陶文中 第一节 如何制定课题研究计划 (开题论证报告) 一般结构(框架) 1 、课题名称 2 、研究目的和意义 3 、研究的基本内容 ( 1 )理论研究(细分为若干子项目) ( 2 )实践研究( 细分为若干子项目)
第七章 求职方法和技巧 (二) 主讲人:谭琳. 第一节 自荐 一、目前常见的自荐种类 1 .口头自荐 1 .口头自荐 2 .书面自荐 2 .书面自荐 3 .广告自荐 3 .广告自荐 4 .学校推荐 4 .学校推荐 5 .他人推荐 5 .他人推荐.
第8章 非线性回归 8.1 可化为线性回归的曲线回归 8.2 多项式回归 8.3 非线性模型 8.4 本章小结与评注.
专题培训 企业所得税汇算清缴 (2015年度).
目录 如何职位分析调查表 职位分析的目的与意义 职位调查表内容与要点说明 职位分析注意事项 职位分析调查工作计划.
第四章:长期股权投资 长期股权投资效果 1、控制:50%以上 有权决定对方财务和经营.
1 修辞手法 2 表现手法 3 表达方式 4 结构技巧 表达技巧.
个人简历 制作 天津民族中专 刘冬.
做 荷 包 的 主 人 第 一 桶 金 督導 張宏仁 財團法人「張老師」基金會 桃園分事務所 督導 張宏仁
2015年衢州开化 事业单位备考讲座 浙江研究院 刘洁.
第一冊第二課 師 說 韓愈.
事业单位法人年度报告制度改革 业 务 培 训.
描写家乡的一处景物.
小一中文科 家長工作坊
二次函数图象特点的应用 结题报告 K-11 班研究性学习小组 李浚滨制作.
南京市国税局国际税务管理处 二00九年二月二十四日
第三章 饮食民俗.
认识消防安全标志 授课人:全斌婵 单 位:广西桂平市幼儿园.
说课课件 感悟工业革命力量,闪耀科技创新光辉 ----《走向整体的世界》教学设计及反思 爱迪生 西门子 卡尔·本茨 诺贝尔 学军中学 颜先辉.
第七章 多變數微積分 課程目標 多變數函數 偏微分 多變數函數的極值 受制型極值與拉氏乘子法 最小平方法 全微分 二重積分.
公文及公文处理 学校办公室 姚利民.
(某同学作文选段) 这就是我 大家好,我的名字叫XX,我家在XX,但是小学的时候我在XX学校读书,我现在读书在永固中学,我现在说学校变化,但是我回校读书坐单车,还有学校很大,初中学习练几课,老师有很多,学校学生有很多,但是现在很重要学习,但是我家有很多工叫做,没有那么多时间学习。
性理釋疑(1—30題) 後學 阮章輝 學講.
《老年人权益保障》 --以婚姻法.继承法为视角
热烈祝贺第一届大连国际规模化猪场 养殖新技术研讨会胜利召开!
请说出牛顿第一定律的内容。.
志向篇 中职生职业理想 ——专题讲座.
美国史 美利坚合众国创造了一个人类建国史的奇迹,在短短230年的时间从一个被英帝国奴役的殖民地到成为驾驭全世界的“超级大国”、“世界警察”,美国的探索为人类的发展提供了很宝贵的经验。
第 五 課 愛蓮說 1.課文導讀 2.作者介紹 3.課文 4.注釋 5.應用練習 6.習作.
台灣廢物物處理機構 邱騰煥 8 號.
大地醫療團隊- 微生物製劑環保與農業應用.
信号处理与系统课程教学案例 FFT的应用—— 声音信号合成与处理 国防科技大学电子科学与工程学院.
親子伴讀 2013年11月12日 (星期二) 圖書館梁愷恩老師.
梅 花 魂.
XX信托 ·天鑫 9号集合资金信托计划 扬州广陵
Chapter 2 簡單迴歸模型.
一元线性回归(二).
中西部高校提升综合实力资金规划( 年)项目申请汇报
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
一元线性回归(二).
第一章.
计量经济学 第三章 多元线性回归模型.
Stochastic Relationships and Scatter Diagrams
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
Chapter 14 Simple Linear Regression
计量经济学 第二章 简单线性回归模型.
时间序列回归.
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
工具变量回归.
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
拟合优度(或称判定系数、决定系数) 目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣的指标。 拟合优度的定义:
建国初期的严峻局势 第2课 新中国政权的巩固 巩固政权 得民心 抗美援朝战争 土地改革运动 镇压反革命运动.
导数的应用 ——函数的单调性与极值.
迴歸分析 行銷、財務、人資研究.
吉林师范大学博达学院思想政治课 多媒体教学软件
自相关.
Correlation using EXCEL
社会研究方法 第7讲:社会统计2.
Factor Analysis 因素分析 陳思先.
第二章 经典线性回归模型: 双变量线性回归模型
两个变量的线性相关 琼海市嘉积中学 梅小青.
Multiple Regression: Estimation and Hypothesis Testing
第 1 章 單一預測變數線性迴歸.
数据挖掘 DATA MINING 刘 鹏 张 燕 总主编 王朝霞 主编 施建强 杨慧娟 陈建彪 副主编
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
Presentation transcript:

多元线性回归分析

在研究某个经济现象时,如果设定一个变量,该变量受其他因素的影响,该变量称为被解释变量。影响它的因素被称为解释变量。上一章我们讨论了仅有一个解释变量对被解释变量影响的例子。实际上,影响一个经济变量的因素可能会很多,因此,本章我们考虑具有多个解释变量的回归模型,即多元回归模型。

例一:研究某种进口商品的数量(或金额) 解释变量有哪些? 解释变量:进口商品价格(到岸价、国内市场价)、国产替代品价格、收入水平、汇率水平等。

例二:研究某城市房地产需求 解释变量有哪些? 解释变量:收入;资产;住房价格或指数;住房价格指数变化率;物价指数、通货膨胀和相关预期;利率等。

例三:研究劳动者收入差异 解释变量有哪些? 解释变量:性别,教育年限,工龄,行业,年龄,种族,职位,地区。

如果选取的解释变量太少,或者很多重要的解释变量没有考虑到,就会产生遗漏变量偏差问题。

多元线性回归模型 多元线性回归模型:表现在线性回归模型中的解释变量有多个。 总体回归模型

如何理解“控制住”某个变量 当我们分析某个解释变量对被解释变量的影响时,往往假定其他解释变量不发生变化。有时又称解释变量对被解释变量的“偏效应”。

二式减一式,得:

Price=14542+4.36*weight-104.8*length-86.7*mpg+ε 对于汽车数据,例如我们有如下方程: Price=14542+4.36*weight-104.8*length-86.7*mpg+ε 如何理解4.36?

或者说i给出了Xi的单位变化对Y值的“直接”或“净”(不含其他变量)影响。

假设(X1i,X2i,…Xki;Yi)i=1…n是总体的n次独立样本观测值。 其中:k为解释变量的数目,j称为回归参数(regression coefficient)。

习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样: 模型中解释变量的数目为(k+1)

我们先考虑最简单的多元线性回归模型:二元线性回归

OLS估计量的最优化问题仍为残差平方和最小化: 此处先不进行具体推导

几何解释

例 (Cobb-Douglas生产函数) Cobb and Douglas (1928)使用美国1899-1922年制造业产出(y)、资本(k)与劳动力(l)的数据,估计如下生产函数: 为乘积形式的扰动项,而下标t表示时间(年)。

上式似乎非线性,但只要两边取对数,即可转换为线性模型: 数据集cobb_douglas.dta提供了Cobb and Douglas (1928)的原始数据。 由于样本容量较小,首先看一下数据集中的观测值。 use cobb_douglas.dta, clear list

其中,变量k,l与y均将1899年的取值标准化为100(以1899年为指数的基期),而lnk,lnl与lny分别为其对数值。 Stata中进行二元回归的命令为 regress y x1 x2 其中,“y”为被解释变量,而“x1 x2”为解释变量。

对方程进行二元回归估计,可输入如下命令: reg lny lnk lnl lnk (资本对数)与lnl (劳动力对数)的系数分别为0.233与0.807,且拟合优度R2高达0.957。 这种形式的生产函数后来被称为“柯布-道格拉斯生产函数”(Cobb-Douglas production function)。

根据上表的回归结果,可得拟合方程: 做完OLS回归后,计算拟合值与残差。 predict lny1,xb predict e1,res list lny lny1 e1 line lny lny1 year

假设共有n个样本,则方程展开之后的形式是 i=1,2…,n 注意:X的第一个下标k表示第k个解释变量,第二个下标n表示第n个样本。

将n个样本的方程全部展开,得到n个方程,k+1个变量的方程组。 Y1=β0+β1x11+β2x21+…+βkxk1+ε1 Y2=β0+β1x12+β2x22+…+βkxk2+ ε 2 … … … … … … … Yn=β0+β1x1n+β2x2n+…+βkxkn+ ε n

总体回归模型n个随机方程的矩阵表达式为 令 原方程可以简写为

样本回归函数:用OLS方法估计总体回归函数 其随机表示式: ei称为残差或剩余项(residuals),可看成是总体回归函数中随机扰动项εi的近似替代。 样本回归函数的矩阵表达: 或 其中:

普通最小二乘估计 对于随机抽取的n组观测值 如果样本函数的参数估计值已经得到,则有: i=1,2…n

几个重要的计算结果

X’X=

根据最小二乘原理,参数估计值应该是下列方程组的解 其中

此最小化问题的一阶条件为: 将上式展开,并移项,得:

于是得到关于待估参数估计值的正规方程组:

正规方程组的矩阵形式

即 由于X’X为非奇异矩阵,故有

将上述过程用矩阵表示如下:定义残差:

即求解方程组: 得到: 于是:

此处用到了矩阵的微商的概念: 假设A为n阶方阵 特别的,当A’=A,即A为对称矩阵

例题一 打开auto.dta数据,建立价格price对weight、length、mpg、foreign的多元线性回归方程。 1. 利用矩阵手动计算 2. 使用regress命令

Stata的矩阵操作 将一个或者多个变量转换成为矩阵 mkmat 变量名表,mat(矩阵名) 例如: 1. 将price转换为矩阵,并命名为w1 mkmat price, mat(w1) mat list w1 2. 将weight和length转换为矩阵,并命名为w2 mkmat weight length, mat(w2) mat list w2

gen cons = 1 mkmat price, mat(y) mkmat cons weight length mpg foreign, mat(X) mat b = inv(X'*X)*X'*y mat list b

例题二 打开wage1.dat。其中包含wage (工资)、educ(受教育年限)、exper(工作经验)、tenure(任现职年限)。建立多元线性回归方程描述educ、exper、tenure对wage的影响。 (回去练习)

几个重要结论 以矩阵形式表示可得正规方程组

因此,正规方程组可简洁地写为

回归标准误差 对于误差项εi,我们更关心它在回归线附近的离散程度,即标准差。希望标准差越小越好。 由于εi本身是不可知的,因此,实际上s εi是无法获得的,为了模拟其数值大小,我们用ei的标准差作为εi的标准差的估计值,称为回归的标准误差。

在一元回归方程中,我们有:

在多元回归方程中,只要将公式改为:

多元回归的拟合优度 总离差平方和的分解 总体平方和(Total Sum of Squares) 回归平方和(Explained Sum of Squares) 残差平方和(Residual Sum of Squares )

可以推导: TSS=ESS+RSS

称 R2 为(样本)的可决系数/判定系数/拟合优度(coefficient of determination)。 拟合优度的取值范围:[0,1] R2越接近1,说明实际观测点离样本线越近,拟合优度越高。

但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。 问题: 在应用过程中发现,如果在模型中增加一个解释变量, R2往往增大。 这就给人一个错觉:要使得模型拟合得好,只要增加解释变量即可。 但是,现实情况往往是,由增加解释变量个数引起的R2的增大与拟合好坏无关,R2需调整。

由于每次向回归方程中增加解释变量,R2必然只增不减。为此,可以通过调整自由度对解释变量过多进行“惩罚”,因此,可以定义 “调整的拟合优度”

1。如果K>=1,则 adj R2<=R2( ( n一1)/(n-k-1)总是大于1) 4。大样本下(n很大),adj R2<=R2近似相等。

t检验的步骤 计算检验统计量,标准化的检验统计量的公式为: 给定显著性水平,查表得出相应的临界值z或z/2, t或t/2

3。作出决策 双侧检验:|统计量| > 临界值,拒绝H0 左侧检验:统计量 < -临界值,拒绝H0

我们需要构造一个t统计量: t=(估计量-假设值)/估计量的标准误差

t检验的步骤 H0: i=0, H1:i0 (2)以原假设H0构造t统计量,并由样本计算其值 (4) 比较,判断 (1)对总体参数提出假设 H0: i=0, H1:i0 (2)以原假设H0构造t统计量,并由样本计算其值 (3)给定显著性水平,查t分布表,得临界值t /2(n-k-1) (4) 比较,判断 若 |t|> t /2(n-k-1),则拒绝H0 ,接受H1 ; 若 |t| t /2(n-k-1),则拒绝H1 ,接受H0 ;

而 是它的标准误差。

t检验结果判断 1. 若 |t|> t /2(n-k-1),则拒绝H0 ,接受H1 ; 这需要不断的查表,带来了很大麻烦。在大样本理论中,当n很大时,t分布趋近于正态分布,因此,往往将t的查表值锁定为1.96。 2. 更简单的方法是利用p值,p值得临界值为0.05,大于则接受原假设,小于等于拒绝原假设。 利用t检验对以往回归系数的显著性进行重新判定。

用P 值决策 (P-value) P值告诉我们:如果原假设是正确的话,我们得到目前这个样本数据结论的可能性有多大,如果这个可能性很小,就应该拒绝原假设。 被称为观察到的(或实测的)显著性水平 决策规则:若p值<, 拒绝 H0

双侧检验的P 值  / 2 Z 拒绝H0 临界值 计算出的样本统计量 1/2 P 值

如果你认为这个概率太小了,就可以拒绝原假设,因为如果原假设正确的话,几乎不可能抓到这样的一个样本,既然抓到了,就表明这样的样本不在少数,所以原假设是不对的。 因此,p值越小,你拒绝原假设的理由就越充分。

相比传统方法,P值提供了更多的信息,它让我们可以选择任意水平来评估结果是否具有统计上的显著性,从而可根据我们的需要来决定是否要拒绝原假设。P值提供了拒绝原假设的实际的显著性水平。

传统的显著性水平,如1%、5%、10%等等,已经被人们普遍接受为“拒绝原假设足够证据”的标准,我们大概可以说:10%代表有“一些证据”不利于原假设;5%代表有“适度证据”不利于原假设;1%代表有“很强证据”不利于原假设 一般在计量经济学中,只要p<=0.05,即可认为落入拒绝域,拒绝原假设。

置信区间 统计方法中除了点估计意外,还有区间估计。 假设检验可以通过一次抽样的结果检验总体参数可能的假设值的范围(如是否为零),但它并没有指出在一次抽样中样本参数值到底离总体参数的真值有多“近”。 要判断样本参数的估计值在多大程度上可以“近似”地替代总体参数的真值,往往需要通过构造一个以样本参数的估计值为中心的“区间”,来考察它以多大的可能性(概率)包含着真实的参数值。这种方法就是参数检验的置信区间估计。

置信区间定义: 设θ是 一个待估参数,给定α>0 若由样本 X1, X2, …, Xn 确定的两个统计量 满足: 则称区间 是 的置信水平(置信度、置信概率)为 的置信区间. 分别称为置信下限和置信上限.

置信区间的计算方法 在变量的显著性检验中已经知道: 意味着,如果给定置信度(1-),从分布表中查得自由度为(n-k-1)的临界值,那么t值处在(-t/2, t/2)的概率是(1- )。表示为: 即

于是得到:(1-)的置信度下, i的置信区间是 当n较大时,一般将查表值固定为1.96。

1. 要求 以很大的可能被包含在区间 2. 估计的精度要尽可能的高. 如要求区间 内,就是说,概率 要尽可能大. 即要求估计尽量可靠. 1. 要求 以很大的可能被包含在区间 内,就是说,概率 要尽可能大. 即要求估计尽量可靠. 2. 估计的精度要尽可能的高. 如要求区间 长度 尽可能短,或能体现该要求的其它准则. 置信度与精度是一对矛盾,一般是在保证可靠度的条件下尽可能提高精度.

由于置信区间一定程度地给出了样本参数估计值与总体参数真值的“接近”程度,因此置信区间越小越好。 置信区间的缩小,会使得出错概率增大。 同样,如果保证较大的正确的概率,只能扩大置信区间。

方程显著性的F检验 方程显著性的F检验

F检验的思想来自于总离差平方和的分解式: TSS=ESS+RSS 由于回归平方和ESS是解释变量X联合体对被解释变量Y的线性作用的结果,所以,如果ESS/ESS的比值较大,则X的联合体对Y的解释程度高,方程中的总体系数是显著的。 因此,可通过该比值的大小对总体方程显著性进行推断。

χ2 分布和F分布 分布是由正态分布派生出来的一种分布. 定义: 设 相互独立, 都服从正态 分布N(0,1), 则称随机变量: 定义: 设 相互独立, 都服从正态 分布N(0,1), 则称随机变量: 所服从的分布为自由度为 n 的 分布. 记为

F 分布 定义: 设 X与Y相互独立, 则称统计量 服从自由度为n1及 n2 的 F 分布. n1 称为第一自由度,n2 称为第二自由度,记作: F~F(n1, n2) .

进一步根据数理统计学中的定义,如果构造一个统计量 初始定义 则该统计量服从自由度为(k,n-k-1)的F分布。

我们可以证明,在一元回归模型中,F统计量与t统计量存在关系:F≈t2 在经济计量学中,具有大分母自由度的F分布是很普遍的。当n2变为无限时,F的分母完全收敛为1,所以我们可以将分布Fn1,n2变为Fn1,∞