R语言与回归分析 R简介 R语言分析一个简单的线性模型 总结与展望 作业.

Slides:



Advertisements
Similar presentations
简单迭代法的概念与结论 简单迭代法又称逐次迭代法,基本思想是构造不动点 方程,以求得近似根。即由方程 f(x)=0 变换为 x=  (x), 然后建立迭代格式, 返回下一页 则称迭代格式 收敛, 否则称为发散 上一页.
Advertisements

北京市卫生和计划生育委员会. 目录目录 2 1 汇审工作安排 2 年末结账及明年建账关注事项 3 卫生年报口径讲解 4 财政决算口径讲解.
台南市立後甲國中 訓導工作簡報 報告人:訓導主任 傅寶源 歡迎蒞臨指導. 訓導處是一個關懷學生生活問題、處理 學生生活事務的溫馨園地,舉凡生活常 規、安全防護、交通安全之教育,民主 法治、社團活動、訓育活動之訓練,衛 生習慣、飲食健康、預防疾病之培養, 體育活動,運動競賽、身心健康之鍛練, 均有專人專責為同學服務。
项目四 网店推广与营销 4.1 店内推广与营销. 教学目的: 通过本节内容的学习,帮助学生了解消费者保障服务分类,理解店内活动是运 营店铺时不可缺少的一些营销活动。 知识要求: 1. 了解申请加入消费者保障服务项目的条件 2. 了解店内活动如满就送、限时打折、搭配套餐、优惠券的设置 技能目标: 1.
实用农业科技写作 王鹏文. 第一章 导论 第一节 农业科技写作概述 一 、 农业科技写作概念和分类: 科技文献类、科技应用类、 科技普及类、科技新闻类 二、 农业科技写作的意义和重要性: 科技工作的重要组成部分、科学研究的手段、 科技成果的反映和标志、科技交流的工具 三、 农业科技写作的特点 : 功利性与及时性、科学性与先进性、读者的专门性与狭隘性、
广西 2014 年 “ 区培计划 ” 学前教育远程培 训 总结简报 南宁马山县幼教 1 班 莫毅.
中职教师省级网络培训 使用说明 南京中华中等专业学校教研处 平台登陆 登录 (江苏教师教育) 在页面右侧找到登录框,填写用户名、密码进入系统.
新课程引领 实践中前行 —— 蓟县初中信息技术三年课改总结. 自从 2005 年秋季我市进入基础教育新一 轮课程改革实验以来,在市教研室的正 确领导下,我县初中信息技术课改工作 稳步推进。三年来,取得了一些成果, 也有不少体会。现将三年来的信息技术 课改工作总结如下。
河南省基础教育资源网 邓伟鹏 二〇一二年七月 内容大纲 1. 培训平台的目的 2. 培训平台介绍 3. 培训平台功能 4. 培训工作建立流程 5. 培训门户 6. 在线学习 6.1 课程学习 6.2 在线考试 7. 培训考试管理 7.1. 课程管理 7.2 必修学习班建立 7.3 在线考试管理 7.4.
学年 江西省教师全员远程培训指南. 培训学习及考核时间安排 学习时间: 2013 年 10 月 年 1 月 15 日 考核时间: 2014 年 3 月 1 日 年 3 月 30 日.
国信证券投资价值分析报告. 核心观点 公司是深圳市国资委实际控制下的综合券商,业务布局完整。 公司业务结构较为均衡。 H ,经纪业务占比 40% ,投资 21% ,投行 21% 。经纪业务份额 3.76% ,经纪业务份额仅此于广发。 投行业务是公司的强项。 2014 年上半年,收入 43.
桐乡市地方税务局 2013 年度社会保险费汇算清缴有 关政策及事项说明. 一、政策规定 根据《中华人民共和国社会保险法》、《桐乡市社会保险费征缴管 理办法》(市政府令第 42 号)、《 关于完善社会保险费征缴管理有关问 题的通知》(桐政办发 [2012]152 号)及《关于完善社会保险费征缴管理.
Lee, Meng-Yu (李孟育) Department of Finance, National Chiayi University
NO.005 職涯 報 實習 徵才 攻讀 國立嘉義大學 學生事務處學生職涯發展中心.
國中教育會考 十二年國教—免試入學 及 意見整理.
第9章 财务分析 学习目的与要求:通过本章的学习与研究,应当深入理解财务评价的基本指标体系,熟练分析和判断公司的偿债能力、营运能力、盈利能力,现金流量状况,指出企业财务中存在的问题,并作出正确的评价结论。
专利技术交底书的撰写方法 ——公司知识产权讲座
西南科技大学成人、网络教育学院 成人本科学士学位管理信息系统 使用说明 2016年3月 规范是最好的服务.
时间与我们的世界 Pb 段心蕊.
零售企业入网流程说明 中信二十一世纪(中国)科技有限公司.
共通能力科研習計劃書 簡 報 篇.
102學年度上學期 小班 ~ “快樂來上學”回顧與分享.
严格标准 规范程序 认真做好党员发展工作.
薪資申報系統操作說明.
商学院 旅游管理专业介绍.
 历史以人类的活动为特定的对象,它思接万载,视通万里,千恣百态,令人销魂,因此它比其他学科更能激发人们的想像力。    
歷史建築清水國小宿舍群修復工程 施工說明會
第十二章  為企業財源把關:財務管理.
與宋元思書 吳均.
彰显语文教育特性 立意学生能力发展 ——《语文》新教材第三册解析
《数学》(华师大.八年级 下册) 第二十一章数据的整理与初步处理 扇形统计图的制作.
如何調適兩性關係--- 婚前與婚後.
怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 (学院、部门适用)
臺中市南屯區文山國民小學102年度校園正確用藥教育議題教育執行成果報告
全区中小学电子学籍应用视频培训 一、我区中小学生电子学籍信息系统建设使用情况
『臺北市營建剩餘資源管理系統』 教育訓練說明 臺北市政府 報告人 王宏正
資產報酬率 (Return On Assets)
第三章 财务分析 第一节 财务分析基础 第二节 财务能力分析 第三节 财务趋势分析 第四节 财务综合分析.
人力资源市场统计工作介绍 人力资源市场与人员调配处 郭俊霞 2014年12月.
“三项制度+一个平台”构建 省级高校教学质量监控体系
瓯海职专财经专业组简介.
国有资产清查 数据填报操作规范 2016年3月25日.
全省水产技术推广补助项目 信息员培训 河南省农业厅水产局 2013年11月17日.
计算机导论 苏州职业大学计算机工程系 徐卫英 QQ:
如何調適兩性關係--- 婚前與婚後.
2016~2017学年第一学期 化学教研工作计划 广州市教育研究院化学科.
上海文会会计师事务所有限公司 中国注册会计师 童幸义
饲料行业管理新规梳理 饲料生产许可申证指南
四种命题 班级:C274 指导教师:钟志勤 任课教师:颜小娟.
关于成绩的数理统计的探讨 望您多多指教!多谢!!.
仓储企业岗位人员招聘 第一组 组员 :陈娇娇 祝婷婷 丁元莉 袁珮 王慧.
人口与计划生育 统计分析 昌吉市计划生育委员会 二○○六年三月.
2014年深圳市学生人身意外伤害保险投保工作介绍 中国人民财产保险股份有限公司深圳市分公司
第一節 財務報表分析之意義及方法 第二節 動態分析 第三節 靜態分析 第四節 財務分析的限制
R教學 安裝R 羅琪老師.
飲食控制 與 良好的飲食習慣 作者:潘詩涵.
第三章 財務比率分析 財務比率介紹與分析 杜邦比率分析 財務比率應如何比較分析 比率分析的限制條件.
黄土高原的水土流失 标题 水土流失的原因 水土流失的危害 治理措施 参考文献 小组成员.
管理第六章 控制.
办学条件核查 评估秘书组 电力职业技术学院 山西机电职业技术学院 2014年7月9日.
香港傳統的農村生活.
科 展 說 明.
高中 E 形象 數位果子科技有限公司 程建嘉.
怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 怎样报销劳务性费用? ——暨薪酬发放申报系统介绍 (项目经费适用)
成本会计学.
舊生升級編班與新生管理操作說明 全誼資訊股份有限公司 中華民國106年06月05日.
企業籌資更便捷 大眾投資更穩當 新版公開資訊觀測站操作介紹 2013年10月.
新课程理念下如何进行课堂教学 刘志超 2014年2月25日.
注:本案例数据来自于《R语言:从数据思维到数据实战》朱雪宁 等著,中国人民大学出版社。
6 分析資料-以統計測量數呈現.
Presentation transcript:

R语言与回归分析 R简介 R语言分析一个简单的线性模型 总结与展望 作业

R简介 1.S语言与R 2.R的安装与运行 3. R程序包的安装及使用 4. R语言中的几点注意事项

S语言与R R是一个有着强大统计分析及作图功能的软件系统 R语言可以看作是贝尔实验室开发的S语言的一种实现或形式 S语言主要内含在S-PLUS软件中,可将R和S-PLUS视为S语言的两种形式 S/S-PLUS方面的文档都可以直接用于R

R的安装与运行 R的安装:从网址http://www.r-project.org/ 下载R的安装程序和R程序包 http://www.r-project.org/,单击download R单击Windows ,在单击base 单击Download R 2.11.1 for Windows

R程序包的安装 (1)菜单方式:联网条件下,按程序包 安装程序包 选择CRAN镜像服务器 选择程序包 (2)命令方式:install.packages(“PKname”) (3)本地安装:下载需要的程序包及与之关联 的程序包,再用“程序包”菜单中的“用本机的zip文件安装程序包”

R程序包的使用 除R的标准程序包外,新安装的程序包使用前必须载入,两种载入方式: 菜单方式: 通过“程序包”菜单中的“载入程序包”,再从已有程序包中选定需要的一个加载; (2) 命令方式: 在命令提示符后键入 >libiary(“PKname”) # 或 libiary(‘PK name’) ,libiary(PKname)

R语言中的几点注意事项 R语言区分大小写,即A与a不同;正常情况下所有字母和数字都是可用的。 命令由(;)分隔,或另起新行。 基本命令由({和})合并成复合表达式 注释以(#)开始,到行末结束。 命令未结束,R给出提示符(+)。

R语言与线性回归 线性回归模型的简单回顾 如何应用R语言进行回归分析

线性回归模型的简单回顾 Y通常称为因变量或响应变量,X称为自变量或预报变量。Y值由两部分组成,一部分由X决定是X的函数,记为f(X);另一部分由其他为考虑因素所产生的影响被称为随机误差,记为e。模型记为: Y=f(X)+e 要求 E(e)=0,特别的f(X)取为线性函数。

线性回归模型的简单回顾 回归分析的主要目的是探寻因变量与自变量之间的关系。 最常用的函数形式是线性函数,含有p个自变量的一般线性模型: 其中 为常数项, 为第j个解释型变量 的回归系数,它意味着,若 变化一个单位,可以预期 变化多少单位。

线性回归模型的简单回顾 对此普通线性模型做如下假定: (1)独立性:不同观测值之间相互独立的;残差项同解释性变量之间是独立的。 (2)常方差:即残差 的方差不依赖于自变量的取值,为一个常数。 (3)正态性:即残差项 是服从正态分布的。

案例介绍 背景、目标、变量和分析

案例背景 目前中国的资本市场逐渐成熟,投资于股市成为众多企业乃至个人的重要理财方式。因此利用上市公司当年的公开的财务指标对其来年盈利状况予以预测就成为投资人最重要的决策依据。 本案例随机抽取深市和沪市2002年和2003年各500个样本,对上市公司的净资产收益率(return on equity, ROE)进行预测。

案例目标与变量 目标:盈利预测 因变量:下一年的净资产收益率(ROE) 自变量:当年的财务信息 样本容量:2002年500;2003年500

自变量 ROEt: 当年净资产收益率 ATO: 资产周转率(asset turnover ratio) LEV: 债务资本比率(debt to asset ratio) 反映公司基本债务状况 PB: 市倍率(price to book ratio) 反映公司预期未来成长率 ARR: 应收账款/主营业务收入(account receivable over total income) 反映公司的收入质量

对模型的进一步分析 哪个自变量在预测方面最有用? 哪个自变量是最重要的? 如何使用模型进行预测?

描述分析 获得对数据的整体性认识

数据读取 (1)使用函数read.table()创建数据框 >rm(list=ls()) #清理当前工作空间 a<-read.table("D:\\暑期建模\\CH1\\roe.txt",header=T) (2)使用函数scan()比read.table()更灵活,并且可以指定变量的类型

Excel数据读取 (1)利用剪切板:打开Excel电子表格,选中需要数据,复制到剪切板。然后键入命令 >a<-read.delim("clipboard") (2)使用程序包RODBC >library(RODBC) b<-odbcConnectExcel("d:/暑期建模/CH1/roe.xls") a<-sqlFetch(b,"roe")

数据保存 > save(a,file="a.RData") load("d:\\我的文档\\a.RData")#调用以保存数据 write.table(a, "a.txt")#保存为文本文档 write.csv(a, "a.csv") a1=a[a$year==2002,-1] save(a1,file="a1.RData")

显示数据

变量的概括性度量 a1=a[a$year==2002,-1] #从a中选出year为2002的数据,并删除第1列,然后赋值给a1 Mean=sapply(a1,mean) #计算a1中各列的均值 Min=sapply(a1,min)#计算a1中各列的最小值 Median=sapply(a1,median) #计算a1中各列的中位数 Max=sapply(a1,max) #计算a1中各列的最大值 SD=sapply(a1,sd) #计算a1中各列的标准差 cbind(Mean,Min,Median,Max,SD) #将均值、最小值、中位数、最大值、标准差集中在一起展示

试验结果

变量间的相关性 散点图是一种最简单的相关分析工具 通过函数 pairs()观察各个变量间的相关性 命令:> pairs(a,panel=panel.smooth) 随机变量样本的相关系数 >round(cor(a),3) 相关性检验 ,使用函数cor.test()

应用R语言命令:plot(a1$ROEt,a1$ROE) 绘制散点图,可以看出ROEt与ROE的相关性

模型的建立 模型、假设和参数估计

模型形式及假设 线性回归模型 模型假设 (1)独立性假设 (2)同方差假设 (3)正态性假设

参数估计 模型: 最小二乘估计量: 方差估计量: 29

参数估计 用矩阵形式表示线性模型记为 其中 是回归系数变量, 是因变量向量, 是随机扰动向量,而X为设计矩阵。 其中 是回归系数变量, 是因变量向量, 是随机扰动向量,而X为设计矩阵。 当 存在时,回归参数 的最小二乘估计为 。

参数估计的R软件实现 R语句:使用函数lm() >lm1=lm(ROE~ROEt+ATO+PM+LEV+GROWTH+PB+ARR+INV+ASSET,data=a1) summary(lm1) 注:我们采用2002年数据拟合模型

拟合优度 总平方和 残差平方和 计算残差函数residuals() R-Square

显著性检验 F检验、T检验

F检验 假设 检验统计量 拒绝域

T检验 假设 检验统计量 拒绝域

各个结果的含义 第一列:参数的估计值 第二列:各个参数估计的标准差 第三列:通过样本计算得T检验统计量的值 第四列:通过T检验计算的p值 Residual standard error(残差标准误) R-squared(判别系数)

显著性检验的结论 注意,这不说明应该删除其它变量! 从F检验的结果看,模型的线性关系是显著的。 从T检验的结果看,ROEt和LEV两个变量通过了检验,GROWTH变量在显著性水平降至0.1时也可以通过检验,因此这三个变量与因变量的线性关系较为显著。 注意,这不说明应该删除其它变量!

模型的诊断 异方差性、非正态性、异常值

同方差性检验 正常的残差图 将残差和自变量作散点图,观察图形的形状 41

同方差性检验 观测值不独立

同方差性检验 方差齐性不成立(即方差相等假设不成立)

同方差性检验 应改为曲线

正态性检验 若 , 并且 则有 45

正态性检验 进一步,可得到 以及 所以在正态性假设下,残差 与 应该成线性关系。

正态性检验 Q-Q 图 残差: 将残差排序: Y: X:

将上面的方法应用于本案例 目标1:检验模型是否符合三个假设 目标2:找出异常值 R语句: par(mfrow=c(2,2)) #设置画图为2x2的格式 plot(lm1,which=c(1:4)) #画出lm1中对应于模型检验的4张图,包括残差图、QQ图和Cook距离图 检验发现47号数据为异常值,需要将其消除 语句:a1=a1(-47) c(2,2):建立一个向量2,2 par设置图形格式 50

应用上述方法,绘制拟合模型的诊断图

异常点的识别 一般把标准化残差的绝对值大于等于2的观测点认为是可疑点;而标准化残差的绝对值大于等于3的观测点认为是异常点。

剔除异常点 a1=a1[-47,] #删除a1中第47行的观测 lm2=lm(ROE~ROEt+ATO+PM+LEV+GROWTH+PB+ARR+INV+ASSET,data=a1) #用上一行命令得到的新数据a1再次拟合线型回归模型,结果赋值给lm2 plot(lm2,which=c(1:4)) #画出lm2中对应于模型检验的4张图,包括残差图、QQ图和Cook距离图

拟合结果

47为异常点去掉之后,拟合模型诊断图如下

多重共线性 含义及检验

共线性含义 共线性问题是指拟合多元线性回归时,自变量之间存在线性关系或近似线性关系。 自变量间的线性关系将隐蔽变量的显著性,增加参数估计的误差,会产生不稳定的模型

一个例子 假如有两个变量x1和x2,用最小二乘法得到如下参数估计量。

方差膨胀因子 定义下面的回归形式为辅助回归 令 为辅助回归的判定系数 则方差膨胀因子为: 令 为辅助回归的判定系数 则方差膨胀因子为: 它反映了在多大程度上第i个自变量所包含的信息被其他自变量覆盖

方差膨胀因子 R语句:函数vif() 所有的VIF值都小于10且接近1,所以没有多重共线性问题。

变量选择 AIC准则、BIC准则

AIC 和 BIC AIC方法比较保守,其中p为自变量个数,与RSS成反比。 使AIC达到最小的模型是最优的

预测

预测值与置信区间

数据准备 以2003年数据为检验数据,可以用如下方法对数据进行准备 y$a # y中名为a的变量 68

预测

R语言的特点 免费 浮点运算功能强大 不依赖于操作系统 帮助功能完善 作图功能强大

R的特点 统计分析能力尤为突出 可移植性强 强大的拓展与开发能力 灵活而不死板