第 3 章 多元线性回归 3.1 多元线性回归模型 3.2 回归参数的估计 3.3 参数估计量的性质 3.4 回归方程的显著性检验 3.5 中心化和标准化 3.6 相关阵与偏相关系数 3.7 本章小结与评注.

Slides:



Advertisements
Similar presentations
当前形势和 国际静安建设 静安党校 王小林. 国际 —— 问题很大、霸权犹在。 1 、国际产业分工的后果 经济全球化的双刃剑: 新兴产业尚未形成 -- 高失业率 老龄化 -- 高福利 -- 高负债 权威缺失 -- 民主治理的危机 再平衡战略 -- 保护主义抬头。
Advertisements

版 画 制 作版 画 制 作 版 画 种 类版 画 种 类 版 画 作 品版 画 作 品 刘承川.
一、北京水务情况简介 二、北京水资源现状 三、北京水资源管理措施 主要内容 北京市行政区 域面积 1.6 4万平 方公里,西北部 为山区,约占总 面积的三分之二, 东南部为平原区, 约占总面积的三 分之一。 一、北京水务情况简介.
中国银行河北省分行 河北省金融票据协会 2014 年二季度河北省金融票据市场 运行情况分析会. 目录 全国货币信贷及金融票据市场情况 河北省货币信贷及票据市场运行情况 2014 年二季度宏观经济运行概况 中国银行河北省分行票据业务发展概况 票据市场走势分析及票据业务发展建议.
做好就业和自主创业的准备. 我国目前就业形势 根据全国人口普查数据, 2007 年有 1100 万新增劳 动力有就业要求。据不久前教育部公布的数据显 示, 2008 年全国普通高校毕业生人数预计将达到 420 万人,比 2007 年增加 58 万人,增幅 20.71% 。 2007 年年底 830.
2 你会唱这首歌吗 ? 这首歌反映出我们什么样的情怀? 我的中国心 河山只在我梦里,祖国已多年未亲近,可是 不管怎样也改变不了,我的中国心! 洋装虽然穿在身,我心依然是中国心,我的 祖先早已把我的一切烙上中国印! 长江,长城,黄山,黄河,在我心中重千斤! 无论何时无论何地,心中一样亲! 流在心里的血,澎湃着中华的声音,就算生.
道德讲堂 第一讲 放眼改革开放 上海市泾南中学 杨丽萍 第一章:放眼 -- 《邓小平时代》
學習目標 指指出中國地理區的劃分方式 了了解中國七大地理區的區域特色 了了解中國三大經濟地帶的發展特徵 分分析中國區域政策對三大經濟地帶 的影響.
长沙经济发展情况介绍与分析 长沙市委党校经济学部 长沙经济发展研究中心 李 跃 教授. 一、长沙市的基本情况 二、 2000 年来长沙经济发展的主要特点 三、长沙发展的长板和短板.
解读 十八届五中全会 精神 解读 十八届五中全会 精神. 党的会议 全国代表大会 1 全国代表大会每 5 年召开一次 中国共产党第十八次全国代表大会,简称 “ 党的十八大 ” 中央委员会全体会议 2 简称中央全会 中国共产党第十八届中央委员会第五次全体会议 简称 “ 党的十八届五中全会 ”
公共管理 0701 班.  3 月 1 日,在酝酿了一年之后,《神木县全民免费医 疗实施办法 ( 试行 ) 》如期推行。这项被媒体称为 “ 开 国内先河 ” 的医疗保障制度推行两个多月以来,让全 体神木人民真正体会到了 “ 看得起病 ” 的前所未有的 实惠,同时,公众道德风险却又把政府推到了一个.
《关注经济发展》 知识复习 1、我国的根本政治制度是 ? 2、党领导人民治理国家的基本方略是 ?它的基本要求是 ?
坚持党的群众路线 2013年10月.
我国青少年题材邮票欣赏 一、各个历史时期的重大题材 二、青少年德、智、体题材 三、童话题材 四、少儿绘画创作题材 五、儿童附捐邮票
“积极老龄化”理论视角下的 老龄旅游产业发展战略 中国旅游研究院 黄璜
人口再生产.
学科:思想品德 九年级 教科版 第十六课 可持续发展 :控制人口,提高素质 单位:覃塘区东龙初中 周志宾.

C ①以人为本 ②全面发展 ③协调发展 ④可持续发展 A.①②③ B.①②④ C.①③④ D.②③④ 高考真题回放
煤铁之城 枫叶之都 山城本溪.
第三节 学前教育与社会经济、政治、 文化等方面的关系.
——高考政治选择题命题思路分析及备考启示
城投及园区类企业评级方法.
学习十一届全国人大一次会议精神.
2014年 “两会”学习解读 2017/2/28.
常识判断解题技巧 主讲:付丁丁.
初中历史 中考复习策略.
申论时政.
沈阳职业技术学院.
第一節 多樣的自然環境 第二節 中國的區域劃分 第三節 三大經濟地帶 中國基本資料簡介
2014年高考政治 二轮系统复习.
明确党员先进性要求 自觉发挥先锋模范作用 商贸管理系党总支 张志华 党课教案.
黑龙江省金融发展现状与趋势分析 哈尔滨商业大学金融学院 李国义.
2014届高三九月调考 质量分析 武汉市第19中学 雷 逸.
对加快转变我国经济发展方式的几点认识 乌苏市委党校 沈海龙.
严格水资源管理 推进节水型社会建设 王亚红 二○一二年十一月.
深化文化体制改革 推动文化大发展大繁荣 ——学习贯彻党的十七届六中全会精神.
义务教育课程标准实验教科书 初中毕业年级中考专题复习
齐鲁大地 人杰地灵 2011能力备考 2011年基本能力备考.
第七课 收入与分配.
走向共同富裕的道路.
我国文化产业保险发展对策 辽宁大学经济学院保险系 李薇 赵家仪.
弘扬宣南文化 促进创意产业 —对发展宣南文化创意产业的思考 宣武少年宫 马尧.
2015年镇模试卷评讲 盛英明
改革开放以来我国经济发展的成就   第一,创造经济增长速度的世界之最。八十年代以来,中国成为世界上经济增长速度最快的国家。中国经济在过去长达20多年的时间里,保持了年均9.4%的高速度,创造了世界经济增长史上的新奇迹,刷新了世界纪录。 2007年中国GDP总量上升到世界第四,根据美联社2008年4月10日报道,中国2007年GDP(国内生产总值)现价总量为3.61万亿美元,经济增长率达到11.9%。
复习: 意识 意识是物质世界长期发展的产物 意识是人脑的机能 意识是客观存在的主观映象 客观存在在人脑中的反映
第三章 发展是党执政兴国的第一要务.
以五中全会精神为指引 加快推进伊春转型发展
学习宣传党的十八届 三中全会精神 此处添加单位名称.
如何打造学习型团队 主讲:詹琼然 选送单位:重庆市长寿区妇幼保健院 0903NX《中国医院内训师高级研修班》学员.
星级擂台.
第 5 课 坚持科学发展观 全面建设小康社会.
第六章 社会主义初级阶段理论 讲授内容 第一节 社会主义初级阶段是我国最大的实际 第二节 社会主义初级阶段的基本路线 和基本纲领
第六章 社会主义建设的发展战略.
和谐社会与文化建设 中共上海市委党校研究生 郭红保
第七次全國科學技術會議第二次副首長會議 第一議題籌備情形報告
第十章 宏观经济学概论 宏观经济学概论.
第八章 建设中国特色社会主义经济.
第八章 建设中国特色社会主义经济.
弘ㄧ大師-李叔同.
社会主义核心价值体系的 若干重要问题 双击添加署名/公司名/日期.
叶德磊 编著 高等教育出版社 (此课件仅供教学之用,其中内容不得用于其它出版物)
广东省教育厅教研室 吴惟粤 广州 广东教研 让每一个学生都得到充分发展 广东省普通高中 新课程实验工作介绍 广东省教育厅教研室 吴惟粤
形势与政策教学专题 新时期我国科技发展      战略与对策.
学习党史 牢记宗旨 创造辉煌 梁道刚 广东省委党校党史党建部.
朝阳兴隆大家庭 家电百货商场 小家电部 孟杰.
第六章 相关与回归分析 学习目的和要求 学习重点 学习难点 教学方法 授课时数 基本内容.
最速就業職種養成! 護理、軍人、職人 花蓮縣學生輔導諮商中心 適性輔導組 游賀凱
101年度經費結報說明 會計室 黃玉露.
國民年金 np97006.
Presentation transcript:

第 3 章 多元线性回归 3.1 多元线性回归模型 3.2 回归参数的估计 3.3 参数估计量的性质 3.4 回归方程的显著性检验 3.5 中心化和标准化 3.6 相关阵与偏相关系数 3.7 本章小结与评注

3.1 多元线性回归模型 一、多元线性回归模型的一般形式 y=β 0 +β 1 x 1 +β 2 x 2 +…+β p x p +ε

3.1 多元线性回归模型 一、多元线性回归模型的一般形式 对 n 组观测数据 (x i1, x i2,…,x ip ; y i ), i=1,2,…,n, 线性回归模型表示为 :

3.1 多元线性回归模型 一、多元线性回归模型的一般形式 写成矩阵形式为 : y=Xβ+ε, 其中,

3.1 多元线性回归模型 二、多元线性回归模型的基本假定 1. 解释变量 x 1,x 2,…,x p 是确定性变量, 不是随机变量, 且要求 rk(X)=p+1 < n 。表明设计矩阵 X 中的自变量列之间不相关, X 是一满秩矩阵。 2. 随机误差项具有 0 均值和等方差, 即 这个假定称为 Gauss-Markov 条件

3.1 多元线性回归模型 二、多元线性回归模型的基本假定 3. 正态分布的假定条件为 : 用矩阵形式 (3.5) 式表示为 : ε ~ N(0,  2 I n ) y ~ N(Xβ,  2 I n ) E(y)=Xβ var(y)=  2 I n

3.1 多元线性回归模型 三、多元线性回归方程的解释 y 表示空调机的销售量, x 1 表示空调机的价格, x 2 表示消费者可用于支配的收入。 y=β 0 +β 1 x 1 +β 2 x 2 +ε E(y)=β 0 +β 1 x 1 +β 2 x 2 在 x 2 保持不变时, 有 在 x 1 保持不变时, 有

3.1 多元线性回归模型 三、多元线性回归方程的解释 考虑国内生产总值 GDP 和三次产业增加值的关系, GDP=x 1 + x 2 + x 3 现在做 GDP 对第二产业增加值 x 2 的一元线性回归, 得回归方程

3.1 多元线性回归模型 年份 GDP 第一产业 增加值 x1 第二产业 增加值 x2 第三产业 增加值 x

3.1 多元线性回归模型 三、多元线性回归方程的解释 建立 GDP 对 x 1 和 x 2 的回归,得二元回归方程 = x x 2 你能够合理地 解释两个回归 系数吗 ?

3.2 回归参数的估计 一、回归参数的普通最小二乘估计 最小二乘估计要寻找

3.2 回归参数的估计 一、回归参数的普通最小二乘估计

3.2 回归参数的估计 一、回归参数的普通最小二乘估计 经整理后得用矩阵形式表示的正规方程组 移项得 存在时,即得回归参数的最小二乘估计为:

3.2 回归参数的估计 二、回归值与残差 为回归值 称为帽子矩阵,其主对角线元素记为 h ii , 则

3.2 回归参数的估计 二、回归值与残差 此式的证明只需根据迹的性质 tr(AB)=tr(BA), 因而

3.2 回归参数的估计 二、回归值与残差 cov(e,e)=cov( ( I-H ) Y, ( I-H ) Y) = ( I-H ) cov(Y,Y) ( I-H ) ′ =σ 2 ( I-H ) I n ( I-H ) ′=σ 2 ( I-H ) 得 D(e i )=(1-h ii )σ 2 , i=1,2,…,n

3.2 回归参数的估计 二、回归值与残差 是 σ 2 的无偏估计

3.2 回归参数的估计 三 、回归参数的最大似然估计 y ~ N(Xβ,σ 2 I n ) 似然函数为 等价于使 (y-Xβ)′(y-Xβ) 达到最小, 这又完全与 OLSE 一样

3.2 回归参数的估计 例 3.1 国际旅游外汇收入是国民经济发展的重要组成部分, 影响一个国家或地区旅游收入的因素包括自然、文化、社会、 经济、交通等多方面的因素,本例研究第三产业对旅游外汇 收入的影响。《中国统计年鉴》把第三产业划分为 12 个组 成部分,分别为 x 1 农林牧渔服务业,x 2 地质勘查水利管理 业,x 3 交通运输仓储和邮电通信业,x 4 批发零售贸易和餐饮 业,x 5 金融保险业,x 6 房地产业,x 7 社会服务业,x 8 卫生体育和社 会福利业, x 9 教育文化艺术和广播,x 10 科学研究和综合艺 术,x 11 党政机关, x 12 其他行业。采用 1998 年我国 31 个省、 市、自治区的数据,以国际旅游外汇收入(百万美元)为因 变量 y ,以如上 12 个行业为自变量做多元线性回归,数据见 表 3.1 ,其中自变量单位为亿元人民币。

3.2 回归参数的估计

3.3 参数估计量的性质 性质 1 是随机向量 y 的一个线性变换。 性质 2 是 β 的无偏估计。

3.3 参数估计量的性质

当 p =1 时

3.3 参数估计量的性质 性质 4 Gauss-Markov 定理 预测函数 是 的线性函数 Gauss-Markov 定理 在假定 E(y)=Xβ, D(y)=σ 2 I n 时,β 的任一线性函 数 的最小方差线性无偏估计 (Best Lnear Unbiased Estimator 简记为 BLUE) 为 c′, 其中 c 是任一 p+1 维向量, 是 β 的最小二乘估计。

3.3 参数估计量的性质 第一,取常数向量 c 的第 j ( j=0,1,…,n )个分量为 1 ,其余 分量为 0 ,这时 G-M 定理表明最小二乘估计是 β j 的最小方差 线性无偏估计。 第二,可能存在 y 1, y 2, …, y n 的非线性函数,作为 的 无偏估计,比最小二乘估计 的方差更小。 第三,可能存在 的有偏估计量,在某种意义(例如 均方误差最小)下比最小二乘估计 更好。 第四,在正态假定下, 是 的最小方差无偏估计。 也就是说,既不可能存在 y 1, y 2, …, y n 的非线性函数,也不 可能存在 y 1, y 2, …, y n 的其它线性函数,作为 的无偏估 计,比最小二乘估计 方差更小。

3.3 参数估计量的性质 性质 5 cov (,e)=0,e)=0 此性质说明 与 e 不相关, 在正态假定下等价于与 e 独立, 从而与 独立。 性质 6 在正态假设 (1) (2)

3.4 回归方程的显著性检验 一、 F 检验 H 0 :β 1 =β 2 =…=β p =0 SST = SSR + SSE 当 H 0 成立时服从

3.4 回归方程的显著性检验 一、 F 检验 方差来源自由度平方和均方 F值F值 P值P值 回归 残差 总和 p n-p-1 n-1 SSR SSE SST SSR/p SSE/(n-p-1) P(F>F 值 ) =P 值

3.4 回归方程的显著性检验 二、回归系数的显著性检验 H 0j :β j =0, j=1,2,…,p ~N( β,σ 2 (X' X ) -1 ) 记 ( X' X) -1 = ( c ij ) i,j=0,1,2,…,p 构造 t 统计量 其中

3.4 回归方程的显著性检验 二、回归系数的显著性检验 (剔除 x 1 )

3.4 回归方程的显著性检验 二、回归系数的显著性检验

3.4 回归方程的显著性检验 二、回归系数的显著性检验 从另外一个角度考虑自变量 x j 的显著性。 y 对自变量 x 1,x 2,…,x p 线性回归的残差平方和为 SSE ,回归 平方和为 SSR ,在剔除掉 x j 后,用 y 对其余的 p-1 个自变量 做回归,记所得的残差平方和为 SSE ( j ) ,回归平方和为 SSR ( j ) ,则 自变量 x j 对回归的贡献为 ΔSSR ( j ) =SSR-SSR ( j ) , 称为 x j 的偏回归平方和。由此构造偏 F 统计量

3.4 回归方程的显著性检验 二、回归系数的显著性检验 当原假设 H 0j : β j =0 成立时,( 3.42 )式的偏 F 统计量 F j 服从自由度为 (1,n-p-1) 的 F 分布,此 F 检验与( 3.40 )式的 t 检验是一致的,可以证明 F j =t j 2

3.4 回归方程的显著性检验 三、回归系数的置信区间 可得 β j 的置信度为 1-α 的置信区间为:

3.4 回归方程的显著性检验 四、拟合优度 决定系数为: y 关于 x 1,x 2,…,x p 的样本复相关系数

3.5 中心化和标准化 一、中心化 经验回归方程 经过样本中心 将坐标原点移至样本中心,即做坐标变换: 回归方程转变为: 回归常数项为

3.5 中心化和标准化 二、标准化回归系数 当自变量的单位不同时普通最小二乘估计的回归系 数不具有可比性,例如有一回归方程为 : 其中 x 1 的单位是吨, x 2 的单位是公斤

3.5 中心化和标准化 二、标准化回归系数 样本数据的标准化公式为: 得标准化的回归方程

3.5 中心化和标准化 二、标准化回归系数 标准化 回归系数

3.6 相关阵与偏相关系数 一、样本相关阵 自变量样本相关阵增广的样本相关阵为:

3.6 相关阵与偏相关系数 一、样本相关阵 YX1X2X3X4X5X6X7X8X9X10X11X12 Y X X X X X X X X X X X X

3.6 相关阵与偏相关系数 二、偏判定系数 当其他变量被固定后, 给定的任两个变量之间的 相关系数, 叫偏相关系数。 偏相关系数可以度量 p +1 个变量 y, x 1, x 2, x p 之中 任意两个变量的线性相关程度, 而这种相关程度是在 固定其余 p -1 个变量的影响下的线性相关。

3.6 相关阵与偏相关系数 二、偏判定系数 偏判定系数测量在回归方程中已包含若干个自 变量时,再引入某一个新的自变量后 y 的剩余变差的 相对减少量,它衡量 y 的变差减少的边际贡献。

3.6 相关阵与偏相关系数 二、偏判定系数 以 x 1 表示某种商品的销售量, x 2 表示消费者人均可支配收入, x 3 表示商品价格。 从经验上看,销售量 x 1 与消费者人均可支配收入 x 2 之 间应该有正相关,简单相关系数 r 12 应该是正的。但 是如果你计算出的 r 12 是个负数也不要感到惊讶,这 是因为还有其它没有被固定的变量在发挥影响,例 如商品价格 x 3 在这期间大幅提高了。反映固定 x 3 后 x 1 与 x 2 相关程度的偏相关系数 r 12 ; 3 会是个正数。

3.6 相关阵与偏相关系数 1 .两个自变量的偏判定系数 二元线性回归模型为: y i =β 0 +β 1 x i1 +β 2 x i2 +ε i 记 SSE ( x 2 )是模型中只含有自变量 x 2 时 y 的残差平方和, SSE( x 1 , x 2 ) 是模型中同时含有自变量 x 1 和 x 2 时 y 的残差平方和。 因此模型中已含有 x 2 时再加入 x 1 使 y 的剩余变差的相对减小量为: 此即模型中已含有 x 2 时, y 与 x 1 的偏判定系数。

3.6 相关阵与偏相关系数 1 .两个自变量的偏判定系数 同样地,模型中已含有 x 1 时, y 与 x 2 的偏判定系数为:

3.6 相关阵与偏相关系数 2. 一般情况 在模型中已含有 x 2, …, x p 时, y 与 x 1 的偏判定系数为:

3.6 相关阵与偏相关系数 三、偏相关系数 偏判定系数的平方根称为偏相关系数, 其符号与相应的回归系数的符号相同 。 例 3.2 研究北京市各经济开发区经济发展与招商投资的 关系,因变量 y 为各开发区的销售收入(百万元),选取两个 自变量, x 1 为截至 1998 年底各开发区累计招商数目, x 2 为招商企业注册资本(百万元)。 表中列出了至 1998 年底招商企业注册资本 x 2 在 5 亿至 50 亿元的 15 个开发区的数据。

3.6 相关阵与偏相关系数 三、偏相关系数 北京开发区数据 x1x2yx1x2y

3.6 相关阵与偏相关系数 三、偏相关系数 偏相关系数表

3.6 相关阵与偏相关系数 三、偏相关系数 用 y 与 x 1 做一元线性回归时, x 1 能消除 y 的变差 SST 的比例为 再引入 x 2 时, x 2 能消除剩余变差 SSE ( X 1 )的比例为 因而自变量 x 1 和 x 2 消除 y 变差的总比例为 =1-( )( )=0.842=84.2% 。 这个值 84.2% 恰好是 y 对 x 1 和 x 2 二元线性回归的判定系数 R 2

3.6 相关阵与偏相关系数 三、偏相关系数 对任意 p 个变量 x 1,x 2,…,x p 定义它们之间的偏相关系数 其中符号 Δ ij 表示相关阵第 i 行第 j 列元素的代数余子式 验证

3.7 本章小结与评注 例 3.3 中国民航客运量的回归模型。 y— 民航客运量 ( 万人 ), x 1 — 国民收入 ( 亿元 ), x 2 — 消费额 ( 亿元 ), x 3 — 铁路客运量 ( 万人 ), x 4 — 民航航线里程 ( 万公里 ), x 5 — 来华旅游入境人数 ( 万人 ) 。 根据《 1994 年统计摘要》获得 年统计数据

3.7 本章小结与评注 年份 yx1x2x3x4x

3.7 本章小结与评注