一元线性回归(二).

Slides:



Advertisements
Similar presentations
第一章 餐饮服务程序 学习目的: 掌握餐饮服务四个基本环节的内容 正确表述和运用各种餐饮形式的服务程序 熟悉并利用所学知识灵活机动地为不同需求的 客人提供服务.
Advertisements

第七章 求职方法和技巧 (二) 主讲人:谭琳. 第一节 自荐 一、目前常见的自荐种类 1 .口头自荐 1 .口头自荐 2 .书面自荐 2 .书面自荐 3 .广告自荐 3 .广告自荐 4 .学校推荐 4 .学校推荐 5 .他人推荐 5 .他人推荐.
制作:张大远 逯遥 指导教师:司书红 学校:兰州交通大学
窦娥冤 关汉卿 感天动地 元·关汉卿.
第五章 主张超尘绝俗的 佛家.
计量经济学 第五章 异 方 差 性.
四川省省级精品课程 《实变函数论 》 绪 论 主讲人:魏勇.
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
知其不可而为之.
中国画家协会理事、安徽省美术家协会会员、 工艺美术师、黄山市邮协常务理事余承平主讲
第二课 扬起自信的风帆 我能“行”.
第1章第3节 量化研究与质化研究 案例1:关于中学思想政治教师专业发展现状和需求的调查研究
第二章 语音 第六节 音变 轻 声1.
保良局方王錦全小學 學校健康促進經驗分享    盧淑宜校長.
石家庄迅步网络科技有限公司 联系人:张会耀 电话:
声调.
汉字的构造.
诵读欣赏 古代诗词三首.
什么是计量经济学? 计量经济学(Econometrics),又译成经济计量学,是1926年挪威经济学家R. Frish仿照生物计量学(Biometrics)一词首先提出来的,它的提出标志着计量经济学的诞生。 但是,人们一般认为,1930年12月29日世界计量经济学会成立和由它创办的学术刊物Econometrica于1933年正式出版,才标志着计量经济学作为一个独立的学科正式诞生了。
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
第1,2课时 教学要求 教学内容 教学难点 教学重点 课后作业.
贴近教学 服务师生 方便老师.
六年级 语文 下册 第四单元 指尖的世界.
(浙教版)四年级品德与社会下册 共同生活的世界 第四单元 世界之窗 第二课时.
單因子實驗 設計 (Single­factor experiments)
Chapter 2 簡單迴歸模型.
一元线性回归(二).
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
課程九 迴歸與相關1.
第六章 正态条件下回归的推论.
第一章.
计量经济学 第三章 多元线性回归模型.
多元线性回归分析.
Stochastic Relationships and Scatter Diagrams
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第14章 迴歸分析與複迴歸分析  本章的學習主題 
Chapter 14 Simple Linear Regression
计量经济学 第二章 简单线性回归模型.
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
一 去 二 三 里.
拟合优度(或称判定系数、决定系数) 目的:企图构造一个不含单位,可以相互进行比较,而且能直观判断拟合优劣的指标。 拟合优度的定义:
庄文忠 副教授 世新大学行政管理学系 相关分析与简单回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/4/7.
MyLibrary ——数字图书馆的个性化服务
第四章 多重共线性.
Liner regression analysis
迴歸分析 行銷、財務、人資研究.
一、迴歸分析的基本概念 二、SPSS的線性迴歸分析 三、迴歸模型的檢驗與意義
自相关.
課程十 迴歸3.
(multiple linear regression)
Simple Regression (簡單迴歸分析)
高中 E 形象 數位果子科技有限公司 程建嘉.
社会研究方法 第7讲:社会统计2.
Factor Analysis 因素分析 陳思先.
导入新课 在《数学3》中,我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究,其步骤为: 画散点图 求回归直线方程
第二章 经典线性回归模型: 双变量线性回归模型
红利、年金、满期金自动转入聚宝盆,收益有保底,升值空间更大
第 四 章 迴歸分析應注意之事項.
Xián 伯 牙 绝 弦 安徽淮南市八公山区第二小学 陈燕朵.
Multiple Regression: Estimation and Hypothesis Testing
第 1 章 單一預測變數線性迴歸.
数据挖掘 DATA MINING 刘 鹏 张 燕 总主编 王朝霞 主编 施建强 杨慧娟 陈建彪 副主编
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
Presentation transcript:

一元线性回归(二)

另外一个例子 打开数据集wage,建立wage和educ的关系 wage=-0.95+0.54educ+ε

我们把利用OLS方法估计出的参数α和β称为OLS估计量,用 表示。同时,以后每次做完回归后,我们将使用 作为回归拟合直线的纵坐标,以区分样本点纵坐标Y。

残差和拟合线的概念 残差是每个样本的拟合值和实际值之间的差。用ei或者 表示。 样本拟合线: 残差值:

如何得到残差和拟合值 在stata中做完回归后使用如下命令: predict y_hat,xb predict e,res list y y_hat e 可以发现 e=y-y_hat 因此, 是Y的估计值或拟合值,而残差的大小决定了模型的优劣。

直线上的点的坐标是 ,样本点的坐标是Yi (或者ei)是从样本点到直线的距离。

思考:ei 与ui是否是一回事? 有什么区别和联系?

重写求解步骤,得到重要结论

对上式各项分别求和,并移项可得

第一个方程两边同除以n,可得 将其带入到第二个方程 合并同类项,并移项可得:

使用关系式 将其写成离差的形式:

一些重要结论 1. 从方程可知 样本回归线一定经过 2. 下列方程成立:

写成内积的形式: 分别定义常数向量、残差向量、解释向量以及拟合值向量为:

可得: 故残差向量e与常数向量I正交,而且也与解释向量x正交。

3. 残差向量e也与拟合值 向量正交

4. 可以得到以下结论

OLS方法得到的拟合线一定是所有直线中拟合效果最好的,但由于样本自身的原因,拟合效果有好有坏。 最典型的例子是错误的函数形式

这是一个典型的对数函数的例子,用线性方程,模拟效果较差。

拟合优度 拟合优度R2:描述OLS回归线对样本数据的拟合效果;描述观测值在回归线附近的离散程度;同时描述了样本数据有多大程度可以被回归方程所解释。 R2是指可由Xi解释(或预测)的Yi样本方差的比例。

一个重要的公式:

证明: 其中:

拟合优度

对于所有样本点的平方和,均有下列结论: 总体平方和(Total Sum of Squares) 记 回归平方和(Explained Sum of Squares) 残差平方和(Residual Sum of Squares )

根据平方和分解公式,可将被解释变量的离差平方和分解为模型可以解释与不可解释的部分。 如果模型可以解释的部分所占比重越大,则样本回归线的拟合程度越好。 定义 拟合优度(goodness of fit)为:

Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。 TSS=ESS+RSS Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。 在给定样本中,TSS不变, 如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此 拟合优度:回归平方和ESS/Y的总离差TSS

2、拟合优度R2统计量 称 R2 为(样本)拟合优度/可决系数/判定系数(coefficient of determination)。 拟合优度的取值范围:[0,1] R2越接近1,说明实际观测点离样本线越近,拟合优度越高。

由于每次向回归方程中增加解释变量,R2必然只增不减。为此,可以通过调整自由度对解释变量过多进行“惩罚”,因此,可以定义 “校正的拟合优度”

察看上述例题的拟合优度 注意: 1。拟合优度一定程度上反映了选取变量的对被解释变量的“解释能力”。 2。拟合优度低一般说明方程忽略了某些重要的解释因素。

回归标准误差(SER) 回归标准误差(standard error of the regression. SER)是回归误差u的标准差估计量,是用因变量单位度量的观测值在回归线附近的离散程度。 对于误差项ui,我们更关心它在回归线附近的离散程度,即标准差。希望标准差越小越好。 由于ui本身是不可知的,因此,实际上sui是无法获得的,为了模拟其数值大小,我们用 的标准差作为ui的标准差的估计值,称为回归的标准误差。

为什么要除以n-2?n-2是自由度。

模型中样本值可以自由变动的个数,称为自由度。 自由度 = 样本个数 — 样本数据受约束条件(方程)的个数。 例如,样本数据个数为n,它们受k个方程的约束(系数矩阵秩为k),那么,自由度df = n-k。

其中n-2为自由度。由于随机变量 必须满足k+1个正规方程(一元线形回归模型中有2个方程),故只有n-k-1个是相互独立的。经过这样校正后,才是无偏估计。

如果 无任何特征和规律可言,整个计量模型的建立将无法开展,因此,我们需要人为地为它设定一些假定条件。 如果下列假定条件满足,我们就可以用最小二乘法对模型进行回归估计。 这些假定条件被称为古典线性模型的经典假设

假设1:线性假定(linearity) 线性假设的含义是解释变量对yi的边际效应为常数。

假设2:严格外生性(strict exogeneity) 给定Xi时ui的条件分布均值为零 E(ui|Xi) = 0。 同时: E(Yi|Xi)=E( )=E( )=

理论上,随机误差项被假定为没有被纳入到模型中的微小影响,因此,没有理由相信这样一些影响会以一种系统的方式使被解释变量变大或者变小,可以假定其均值为0。

例如对某一给定的班级规模Xi,如每班20个学生,其他因素ui有时使成绩高于预测值(ui>0),有时使成绩低于预测值(ui<0) ,但就总体平均而言,ui的分布的均值为零。 同时,给定班级规模Xi,由于ui的干扰,某些Y’i的值大于Yi,某些Y’i的值小于Yi,但就总体平均而言,Y’i的分布的均值为E(Yi|Xi)=B0+B1Xi,即总体均值在回归线上。

推论 E(ui|Xi) = 0意味着ui和Xi不相关,即: Corr(ui , Xi)=0 这是最小二乘法最基本的假设,如果