第1章 数据的描述性分析 1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值

Slides:



Advertisements
Similar presentations
项目四 网店推广与营销 4.1 店内推广与营销. 教学目的: 通过本节内容的学习,帮助学生了解消费者保障服务分类,理解店内活动是运 营店铺时不可缺少的一些营销活动。 知识要求: 1. 了解申请加入消费者保障服务项目的条件 2. 了解店内活动如满就送、限时打折、搭配套餐、优惠券的设置 技能目标: 1.
Advertisements

广西 2014 年 “ 区培计划 ” 学前教育远程培 训 总结简报 南宁马山县幼教 1 班 莫毅.
中职教师省级网络培训 使用说明 南京中华中等专业学校教研处 平台登陆 登录 (江苏教师教育) 在页面右侧找到登录框,填写用户名、密码进入系统.
学年 江西省教师全员远程培训指南. 培训学习及考核时间安排 学习时间: 2013 年 10 月 年 1 月 15 日 考核时间: 2014 年 3 月 1 日 年 3 月 30 日.
-- 八 (19) 班第二学期期中家长会 、关于期中考试 2 、关于班级常规活动 3 、关于会考、体育 4 、关于自主招生 5 、给家长的一些建议.
案例 某日,小强的妈妈带着 7 岁的小强去医院。妈妈说老 师多次反映小强容易发脾气,注意力难以集中、学习 成绩不好。妈妈说他从小就好动,容易分神。她同时 说最近小强经常感到肚子痛和便秘。她曾经买药给他 吃,但没有效果。 小强和姐姐、妈妈住在郊区外公外婆家。他爸爸是公 司司机。妈妈和外公都在一家蓄电池厂工作,小强和.
山东理工大学成人高等教育 新生入学指南. 如何获悉学院的通知公告等? 1. 网站。所有的通知公告等都通过远程与继 续教育学院网站 发布, 同学们应每周登录 “ 学生工作室 ” 或 “ 函授教育 ” 关注是否有新的通知公告。
财务处目前共有 50 人,其中事业编 32 人,非事业编 18 人。分为 6 个科室,分别是会计核算科、资金结算中心、综合管理科、预算管理科、 基建财务科和一卡通中心。 会计核算科主要业务为收入入账、费用报销审核等。 资金结算中心主要业务为资金收付、开具发票、学费管理。 综合管理科主要业务是工资及住房公积金管理、税务管理、收费项目.
房地产法 主讲教师:龙慧峰 QQ: 电话: 法律实质上既是物质的又是意识形态的这一 事实是与以下事实相联系的:法律既是从 整个社会的结构和习惯自上而下发展而来, 又是从社会中的统治阶级们的政策和价值 中自上而下移动。 —— 【美】伯尔曼《法律与革命》
某中学一青少年因迷上网络游戏,视力由1. 2下降到0
加强工作室资源建设 提升网络辐射影响力 林月周工作室
发挥学科优势 打造“互联网+”党建工作模式
坚持群众路线 做到“三严三实” 内蒙古直属机关工委党校 裴聚斌 电话:
新所得税申报表如何填写 注册税务师 注册会计师 高级会计师 注册资产评估师 注册土地估价师 注册房地产估价师 主讲人:林溪发
我的未来,我做主之 坚持不懈,直到成功。 电话: QQ: 时间:2013年5月27日 肖亚平.
自读高晓声的小说 《陈奂生上城》 写一篇800以上的感悟文章.
2012江西(九江吉安)事业单位 公共基础知识 备考指导 主讲:罗红军 qq: 新浪微博:罗红军的微博
幼儿园环境创设 成智客服QQ:
工作中的九型人格 主讲嘉宾:梁旭 ---九型人格应用系列课程 介绍自己 有多少听过九型 课程纪律 课程时间 工作中的九型人格
客 家 仙 草 台北縣中和市秀山國民小學 五 年 十 班 王 靖 婷.
计算机基础知识 陈嘉明 玉溪农业职业技术学院.
凝心聚力 弘扬宣传思想工作正能量 ——2015年工委宣传部上半年工作总结.
教体系统“两学一做”辅导报告.
党员服务站宣传册 党站宗旨: 主导精神: 全心全意为同学服务 踏踏实实树党员形象 以人为本 服务为重
一切为了孩子 为了孩子的一切 港中数学网 收集整理 —八(1)班家长会.
网络研修天地 我与名师同行 ——襄阳高新区小学数学班简报 编辑:王继锋.
第一章 总论(承前) 主要内容: 1.简单介绍了会计的产生的和发展
港澳高校调研学习汇报 心理健康教育专题.
2010年个人岗位 精细化管理方案 鸡西大学继续教育部 刘欣悦.
大学生意外事故处理与应对.
资产评估实务 财经学院 童彦成 电话: QQ:
长沙神来福小吃培训 1.特色小吃培训 2.特色餐饮培训 3.家常菜培训 4.这种馅饼培训 5.特色面条培训 6.长沙臭豆腐培训 7.早餐培训
2011年梅州市高(完)中校长任职资格培训班 领导、校长莅临指导! 热烈欢迎.
我的母亲 老舍. 我的母亲 老舍 关于作者和写作背景 老舍是中国饮誉世界的小说家、戏剧家,是一位文化巨匠,一位语言艺术大师。  关于作者和写作背景   老舍(1899~1966)满族,原名舒庆春,字舍予,生于北京。 老舍是中国饮誉世界的小说家、戏剧家,是一位文化巨匠,一位语言艺术大师。
第十五章 中国特色社会主义事业的领导核心 王晓莹.
教育部—2011 “知行中国”—初中班主任教师培训项目
2010年个人岗位 精细化管理方案 鸡西大学继续教育部 王和鑫.
余国良简介 全国中等职业学校德育教育先进工作者 中国教师发展协会中职师资培训讲师、研究员 北师大教师培训中心特聘讲师
交易早餐-金融品 2017年3月11日 徽商期货研究所.
(讲座幻灯课件请在网上下载,让我们一起思考!)
北京科技政策法规宣讲团介绍 成立背景: 工作愿景——“两个有”
2007年房地产建筑安装企业 税收自查方略 河北省地方税务局稽查局 杨文国.
关于山西省高职高专院校人才培养工作水平评估指标的说明
我们的“高效课堂” 中国教师报李炳亭 2015.
有章有法信心足 一鼓作气备中考 主讲人 刘国良
浅 议 司 法 站 在 法 治 文 化 建 设 中 的 基 础 作 用 方巷镇司法所 季金秋.
校友办、共建办2013年工作汇报 2014年1月.
这就是我最喜欢的游戏 奥比岛.
阜阳市“评好课”专题 走向促进发展的课堂观察
通讯和人物通讯.
高二(4)班家长会 欢迎各位家长光临指导! 双 向 交 流 沟 通 无 限 幻灯片制作:周俐利(080911)
嫁给幸福 有一个未来的目标 总能让我们欢欣鼓舞 就像飞向火光的灰娥 甘愿做烈火的俘虏 摆动着的是你不停的脚步 飞旋着的是你美丽的流苏
创新思维 锤炼作风 努力做好新时期的团、队工作
2014年贵州公务员笔试讲座 资 料 分 析 华图教育集团 陈 伟.
教育需要爱与智慧 班级管理的那些事儿 信丰县第二中学 郭名宾 2016年6月26日.
培 训 总 结 获嘉县教师进修学校 2013 年12 月12 日.
建设工程中的法律问题 主讲:北京大成(南宁)律师事务所 向 哲 法学硕士 律师 电话:
第九章 人力资源管理 强恩芳 QQ: 天津师范大学 政行学院.
日语专业助学二学历   ——为你的梦想添翼.
开放教育迎新班会 ——电大求学,你要知道的那些事.
湖 北 学 分 银 行 ——襄阳市02坊第一期班级简报 主 编:郭慧玲.
广东财经大学 2016年资产清查工作培训会议 资产与实验室管理处
夏的收获 ——幼儿教师全员网络培训 港闸区三班简报 第4期(研修成果专辑) 编辑:凌 云 美编:袁 源 审核:王秀萍
主讲:沈文慧 湘潭诚正有限责任会计师事务所
国标本苏教版小学《科学》教材培训 四年级上册教材分析 苏教版小学《科学》教材编写组成员 曾宝俊.
抓规范与建设 抓服务与应用 全力推进山东开放大学建设
课程改革与教师成长 泰安市岱岳区教研室 程同森.
人类传播的活动 和历史.
车险精算技术在太平洋产险的应用 韩之然 太平洋产险精算部总经理助理,FCAS
猜 谜 说个宝,道个宝,说它宝贵到处有, 看不见,摸不着,不香不臭没味道,   万物生存离不了,在你身边看不见, 越往高处它越少。(打一自然物)
Presentation transcript:

第1章 数据的描述性分析 1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值 第1章 数据的描述性分析 1.1 数据的数字特征 数据分析研究的对象是数据,一元数据是 个观测值 要研究数据的数字特征,分析数据的集中位置、分散程度、数据的分布是正态还是偏态。对于多元数据,要分析数据各个分量的相关性等等 . 1.1.1 均值、方差等数字特征 1.均值 2.方差 标准差 变异系数

阶原点矩 阶中心矩 偏度 偏度是刻画数据对称性的指标,右侧更分散的数据偏度为正,左侧更分散的数据偏度为负,关于均值对称的数据偏度为0. 峰度 当总体分布为正态时,峰度近似为0;当分布较正态分布的尾部更分散,峰度为 正,否则峰度为负.

例1.2 某单位对100名女学生测定血清总蛋白含量(g/L),数据如下: 当数据是某些总体随机取出的样本时,数据数字特征即是样本的数字特征.与样本数字特征对应的是总体的数字特征.样本数字特征是相应的总体数字特征的矩估计. 例1.2 某单位对100名女学生测定血清总蛋白含量(g/L),数据如下: 74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5 79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0 75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0 73.5 75.0 72.0 64.3 75.8 80.3 69.7 74.3 73.5 73.5 75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0 70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3 73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7 67.2 76.5 72.7 70.4 77.2 68.8 67.5 67.5 67.3 72.7 75.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3 73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4

计算均值、方差、标准差、变异系数、偏度、峰度 解 用SAS系统PROC UNIVARRIATE 过程计算,得 偏度、峰度的绝对值皆较小,可以认为数据是来自正态总体的样本. 1.1.2 中位数、分位数、三均值与极差 这些数字特征适合总体分布未知或有偏态的数据.设 是 个观测值,将它们按由小到大排为: 称为次序统计量.最小次序统计量 与最大次序统计量 分别为

中位数与极差 中位数 中位数位于数据中心位置,中位数具有稳健性,受异常值影响较小. 极差 2. 分位数 对 , 分位数 其中 是 的整数部分,当 定义 . 分位数又称第100 百分数.大体上有100 %的观测值不超过 分位数. 即中位数.

上四分位数 下四分位数 下列分位数经常用到: 四分位极差 四分位标准差 总体标准差 的稳健估计 三均值 描述数据集中位置的稳健估计 下截断点 小于下截断点的数据为特小值 上截断点 大于上截断点的数据为特大值 特小值、特大值合称异常值. 用PROC UNIVARIATE过程计算分位数、四分位极差;用 PROC IML过程计算三均值、四分位标准差,下、上截断点.

例1.8(续例1.2) 用PROC UNIVARIATE 过程,PROC IML过程计算得到: 下、上截断点分别为64.3和82.7,故数据84.3是异常值(特大值). 将异常值84.3剔除,在进行计算分析,得 可见, 更为接近, 与 与原数值相等,说明有稳健性,而 原数据的值为3.940,现为3.810说明 对异常值无稳健性.

1.2 数据的分布 1.2.1 直方图、经验分布函数与QQ图 对数据的总体情况作全面描述要研究数据的分布。 1. 直方图 1.2 数据的分布 对数据的总体情况作全面描述要研究数据的分布。 1.2.1 直方图、经验分布函数与QQ图 1. 直方图 数据取值范围分成若干区间,区间长度称为组距,每个区间上画一矩形,宽度是组距,高度是频率/组距,每一矩形的面积是数据落入区间的频率.SAS系统根据样本容量和样本取值范围自动确定合适的分组方式.PROC CAPABILITY过程可以做出直方图. 直方图可以对总体概率密度 的估计,这就是拟合分布曲线.SAS系统用PROC CAPABILITY 过程做直方图与拟合参数分布密度曲线.

SAS系统中分布类型: 1)正态分布; 2) 对数正态分布; 3)指数分布; 4) 分布(Gamma分布); 5)Weibull分布; 6)Bata分布. 2. 经验分布函数 设来自总体分布 的样本是 ,其次序统计量是 .经验分布函数是 是非降阶梯函数, 处跃度是 (若 重复取值 次,则跃度为 ). 是充分大时, .

3. QQ图 设总体分布为正态分布 ,标准正态分布函数 ,其反函数 .QQ图是由以下的点构成的散点图: 若样本数据近似于正态分布,在QQ图上这些点近似地在直线 附近. 例1.10(续例1.2) 利用例1.2的数据 (1)作直方图,并拟合正态分布曲线; (2)做经验分布函数图,并拟合正态分布函数曲线; (3)作正态QQ图,并在直观上鉴别样本数据来自正态总体. 解 利用PROC CAPABILITY 过程可解决上述问题.

直方图

经验分布函数图

QQ图

1.2.2 茎叶图、箱线图及五数总括 茎叶图 例1.11 某班有31个学生,某门课程考试成绩如下: 10|0 1 1.2.2 茎叶图、箱线图及五数总括 茎叶图 例1.11 某班有31个学生,某门课程考试成绩如下: 25 45 50 54 55 61 64 68 72 75 75 78 79 81 83 84 84 84 85 86 86 86 87 89 89 89 90 91 91 92 100 作出茎叶图. 解 第一个数25十位数为2,个位数为5.以个位数为单位, 将25用“|”分开:25 → 2 | 5. 这样,得茎叶图. 频数 2 |5 1 3 | 4 |5 1 5 |0 4 5 3 6 |1 4 8 3 7 |2 5 5 8 9 5 8 |1 3 4 4 4 5 6 6 6 7 9 9 9 13 9 |0 1 1 2 4 10|0 1

特点: 1)直观看出数据分布情况,绝大部分数据在70~95之间,在80~89之间形成一个高峰,数据没有30余分,数据有间隙. 2)自然显出数据排序.可看出原数据次序统计量. 例1.12 铅压铸件硬度数据如下: 53.0 70.2 84.3 55.3 78.5 63.5 71.4 53.4 82.5 67.3 69.5 73.0 55.7 85.8 95.4 51.1 74.4 54.1 77.8 52.4 69.1 53.5 64.3 82.7 55.7 70.5 87.5 50.7 72.3 59.5 作出茎叶图. 解 利用PROC UNIVARIATE过程,可作茎叶图.为简化,将小数点后数据四舍五入,以十位数为茎,个位数为叶,并把每茎分裂成两行:一行的叶取0,1,2,3,4,另一行取5,6,7,8,9.计算结果数据从大到小排列.

画一个矩形,两个端边分别是 ,中间两道线,处于 位置.两端向外各画一道直线,分别到上截断点 ,下截断点 .异常值用“×”号表示. 频数 9 |5 1 9 | 8 |6 8 2 8 |2 3 4 3 7 |8 8 2 7 |0 0 0 1 2 3 4 7 6 |7 9 2 6 |0 4 4 3 5 |5 6 6 3 5 |1 1 2 3 3 4 4 7 2. 箱线图 画一个矩形,两个端边分别是 ,中间两道线,处于 位置.两端向外各画一道直线,分别到上截断点 ,下截断点 .异常值用“×”号表示.

例1.15 作例1.11的箱线图. 解 下、上截断点:36.5,120.5.异常值25. 3.五数总括

1.2.3 正态性检验与分布拟合检验 检验的 值方法 设检验问题的显著水平为 .检验统计量为 .当假设 成立时,有样本算得的检验统计量的值为 . 设 (双侧检验),则当 , 拒 绝 ;当 ,接受 . 检验法 ——样本容量 ——分组数 ——落入第i组频数, ——落入第 组理论频数 ——待估参数数 充分大

假设检验问题 不是 其中 为指定的总体分布 值方法: 则对给定的显著水平 ,当 ,拒绝 ,当 ,接受 2. Kolmogorov-Smirnov检验法 假设检验问题仍如上, — 经验分布函数 设由样本 算得的 值为 ,又 则对给定显著水平 ,当 , 拒绝 ,当 ,接受 . 用PROC CAPABILITY 过程可进行 检验与Kolmogorov-Smirnov检验.

3.正态性W检验方法 设样本观测值为 ,其次续统计量为 当n偶, 当n奇 , ( 系数) :总体为正态分布 总体非正态分布 总有 , 成立时,W值接近于1. 当 ;拒绝 ;当 ,接受 . 用PROC UNIVARIATE 过程可得W值与p值,从而完成正态性W检验.

例1.19(续例1.2) 对例1.2数据,作 (1) 正态性W检验; (2) 关于正态分布假设的 检验; (3) 关于正态分布假设的Kolmogorov-Smirnov检验 解 (1) 由PROC UNIVARIATE 过程,算得 W=0.9827 p=p{W≤0.9827}=0.6709 取 ,因p=0.5382 > ,接受正态性假设. (2)由PROC UNIVARIATE 过程,算得 =4.0784 p=P{ ≥0.4784}=0.5382 取 ,因 p=0.5328> ,接受正态性假设. (3)由PROC UNIVARIATE 过程,算得 D=0.0655 , p= {D≥0.0655}=0.15 取 ,因 p=0.15> ,接受正态性假设

1.3 多元数据的数字特征与相关分析 1.3.1 二元数据的数字特征及相关系数 ——二元总体,观测数据 观测矩阵 ——均值向量 1.3 多元数据的数字特征与相关分析 1.3.1 二元数据的数字特征及相关系数 ——二元总体,观测数据 观测矩阵 ——均值向量 的协方差 的协方差 的协方差 ——协方差矩阵 相关系数

上述定义的相关系数成为Pearson相关系数 设 ,则其次序统计量 , 若 ,则称是 在样本中的秩,记为 .秩统计量. ① ,正相关 ② , 负相关 ③ ,完全线性相关 ④ ,不相关 二元总体 分布函数 协方差 总体相关系数 当 大, 假设检验 成立时, ~ 值, 设显著水平 当 ,拒绝 ; 接受 上述定义的相关系数成为Pearson相关系数 设 ,则其次序统计量 , 若 ,则称是 在样本中的秩,记为 .秩统计量.

例 -0.8 -3.1 1.1 -5.2 4.2 次序统计量 -5.2 -3.1 -0.8 1.1 4.2 秩统计量 3 2 4 1 5 例 -0.8 -3.1 0.8 秩统计量 2 1 3 或 3 1 2 对相同观测值 取值为秩平均值: 2.5 1 2.5 样本, 秩统计量 Spearman相关系数定义为两组秩统计量的相关系数,记为 ,可证

例1.21 某种矿石成分A,B,A的含量百分数x(%),B的含量百分数y(%): (1)计算Pearson相关系数,作假设检验 (2)计算Spearman 相关系数,作上述检验 解 由 PROC CORR 过程,得 (1) , 值为 ,取 拒绝 ,认为 有实际意义 (2) 取 拒绝 ,认为 有实际意义 x 67 54 72 64 39 22 58 43 46 34 y 24 15 23 19 16 11 20 16 17 13

1.3.2 多元数据数字特征及相关矩阵 是 元总体,样本数据 第i个观测数据 ,称样品 观测矩阵 第i行构成的量 有 1) 第 行 的均值 1.3.2 多元数据数字特征及相关矩阵 是 元总体,样本数据 第i个观测数据 ,称样品 观测矩阵 第i行构成的量 有 1) 第 行 的均值 2) 第 行 的方差

的Spearman相关系数 , Spearman相关矩阵 Spearman相关矩阵具有稳健性 数据观测矩阵 数据的标准化处理 样品 ,变量观测数据 的协方差阵即 的相关阵.

(3) 的协方差 均值向量 协方差矩阵 (4) 的相关系数 相关矩阵 非负定矩阵 刻画变量之间线性联系的密切程度.

1.3.3 总体的数字特征及相关矩阵 元总体. 总体分布函数 总体概率密度 总体均值向量 总体 的协方差矩阵 设 的相关系数为 总体 的相关矩阵

设 1) 特别 2) 分别是 的相合估计,当 充分大时, 简单随机样本 ① 与总体 有相同分布; ② 是相互独立的 元随机向量.

的无偏估计分别是 : 证 记 对于随机向量 , 总有 故, 可证(自证) 故 得 从而 是 的相合估计:

元正态分布 其中 性质: 元常向量 则 2) 划分 作相应划分 3) 相互独立

的最大似然估计 设 是来自正态总体 的简单随机样本,其联合概率密度. 称似然函数,它是 的函数,若 满足 ,则 称 的最大似然估计 定理: 各为 的最大似然估计 (证略). 注: 的最大似然估计为 . 大时, 因 是 的无偏估计,仍以 作为 的估计.

例1.23 对某少数民族的21位同袍测量血液中四种成份,的含量,结果如下: 例1.23 对某少数民族的21位同袍测量血液中四种成份,的含量,结果如下: 求 的无偏估计. 解 由PROC CORR 过程,计算得到 x1 x2 x3 x4 1 18.8 28.1 5.1 35.1 2 17.4 25.6 4.9 33.9 3 16 27.4 5 32.2 4 19.3 29.5 1.7 29.1 4.5 35.6 6 15.3 25.3 3.6 32.3 7 16.7 25.8 4.4 33 8 26.7 9 16.2 25.7 2.3 10 6.4 35 11 18.2 28 3.2 29.7 12 2.1 34.9 13 18.1 4.3 31.5 14 26 32.7 15 30.2 20.2 30.5 4.8 34.4 17 5.5 36.2 18 21.5 5.8 36.5 19 30.6 5.4 35.4 20 21.6 27.8 34.1 21 21.3 35.8

例1.24(续例1.23) 对例1.23数据,计算中位数向量 相关矩阵及Spearman相关矩阵并进行分析 . 解 由PROC CORR过程,算得 及对应p值如下: 若取, 其 值 ,认为 与 , 与 , 与 相关,其相关系数无明显统计意义. 1.000 00 0.0 0.766 06 0.000 1 0.349 88 0.120 0 0.336 49 0.135 8 0.7660 6 0.431 65 0.050 7 0.340 33 0.1312 0.1200 0.614 96 0.003 0 0.131 2

取 , 的元素 对应 值皆小于 ,故认为 具有统计意义. Spearman相关矩阵 及对应 值 取 , 的元素 对应 值皆小于 ,故认为 具有统计意义. 1.000 00 0.0 0.789 70 0.000 1 0.37844 0.090 7 0.430 54 0.051 4 0.789 70 0.000 1 0.508 50 0.018 6 0.488 41 0.024 7 0.378 44 0.691 83 0.0005 0.0514 0.000 5