第 2章 统计数据的描述 2.1 数据的计量尺度 2.2 统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理

Slides:



Advertisements
Similar presentations
因数与倍数 2 、 5 的倍数的特征
Advertisements


第 4 章 调查数据的整理与显示 2 第一节、定类数据的整理与显示 第二节、定序数据的整理与显示 第三节、定量数据的整理与显示.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
§3.4 空间直线的方程.
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
3.4 空间直线的方程.
第三章 统计数据的概括性描述.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
应用统计第1章 以Excel 和SPSS为工具的管理统计 同济大学经济与管理学院 管理科学与工程系 张建同 教授.
第三节 平均指标与标志变异指标 一、集中趋势的代表值 ── 平均指标 常用方法有:算术平均数、调和平均数、中位数和众数等。 (一)算术平均数
第三章 函数逼近 — 最佳平方逼近.
第三章 统计数据的描述 教师:刘小林.
第 3 章 数据的整理与显示 PowerPoint 统计学.
第三章 集中量数.
应用统计第1章 以Excel 和SPSS为工具的管理统计 同济大学经济与管理学院 管理科学与工程系 张建同 教授.
4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状
第三章 平均数、标准差 与变异系数 3.1 平均数: 在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有: 1. 算术平均数 2. 中位数(M) 4. 几何平均数(Mg) 3. 众数(Mo) 5. 调和平均数(H)
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第六章 调查数据的整理 第一节 数据的预处理 第二节 统计分组和次数分布 第二节 统计表和统计图.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第一节 分布的集中趋势 第二节 分布的离散程度
统计学期末复习
复习引入 数据 统计学的核心思想是 根据样本的情况对总体的相应情况作出估计和推断 2.统计学研究问题的步骤
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
绘制圆与多边形 椭圆形 绘制椭圆形的方法是 drawOval(x ,y , width , height), 绘制实心椭圆形的方法是
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
2.1.2 空间中直线与直线 之间的位置关系.
第七章 参数估计 7.3 参数的区间估计.
第一章 函数与极限.
计算.
第2章 统计数据的描述(2) ——统计整理.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
第七章 调查数据的分析 第一节 数据集中趋势的测定 第二节 数据离散程度的测定 第三节 动态数据的分析 第四节 相关与回归分析.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
模型分类问题 Presented by 刘婷婷 苏琬琳.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
用计算器开方.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
统计图表绘制 电子工业出版社.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
第4课时 绝对值.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
分数再认识三 真假带分数的练习课.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二章 计量资料的统计描述.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
用样本估计总体.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
第三节 数量积 向量积 混合积 一、向量的数量积 二、向量的向量积 三、向量的混合积 四、小结 思考题.
三角 三角 三角 函数 余弦函数的图象和性质.
位似.
3.3.2 两点间的距离 山东省临沂第一中学.
Presentation transcript:

第 2章 统计数据的描述 2.1 数据的计量尺度 2.2 统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理 第 2章 统计数据的描述 2.1 数据的计量尺度 2.2 统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理 2.5 分布集中趋势的测度 2.6 分布离散程度的测度 2.7 分布偏态与峰度的测度

2.1 数据的计量尺度 一、列名尺度 二、顺序尺度 三、间隔尺度 四、比率尺度 9

列名尺度 也称名义尺度或分类尺度 计量层次最低 对事物进行平行的分类 各类别可以指定数字代码表示 使用时必须符合类别穷尽和互斥的要求 数据表现为“类别” 具有=或的数学特性

顺序尺度 也称定序尺度 对事物分类的同时给出各类别的顺序 比定类尺度精确 未测量出类别之间的准确差值 数据表现为“类别”,但有序 具有>或<的数学特性

间隔尺度 也称间隔尺度 对事物的准确测度 比定序尺度精确 数据表现为“数值” 没有绝对零点 具有 + 或 - 的数学特性

比率尺度 也称比率尺度 对事物的准确测度 与定距尺度处于同一层次 数据表现为“数值” 有绝对零点 具有  或  的数学特性

四种计量尺度的比较 四种计量尺度的比较 √ “√”表示该尺度所具有的特性 定类尺度 定序尺度 定距尺度 定比尺度 分类( = ,≠ ) 排序( < ,> ) 间距( + ,- ) 比值( × ,÷ ) √ 计量尺度 数学特性 “√”表示该尺度所具有的特性

2.2 统计数据的来源 一、间接获取的数据 二、直接获取的数据 9

间接取得的数据 统计部门和政府部门公布的有关资料,如各类统计年鉴 各类经济信息中心、信息咨询机构、专业调查机构等提供的数据 各类专业期刊、报纸、书籍所提供的资料 各种会议,如博览会、展销会、交易会及专业性、学术性研讨会上交流的有关资料 从互联网或图书馆查阅到的相关资料 Internet http//WWW. 中国统计年鉴2001 中国人口统计年鉴 中国市场统计年鉴 世界发展报告 世界经济年检 工业普查数据 中国统计出版社

提供统计数据的部分政府网站 中国政府及相关机构 网址 数据内容 国家统计局 http://www.stat.gov.cn 统计年鉴、统计月报等 国务院发展研究中心信息网 http://www.drcnet.com.cn 宏观经济、财经、货币金融等 中国经济信息网 http://www.cei.gov.cn 经济信息及各类网站 华通数据中心 http://data.acmr.com.cn 国家统计局授权的数据中心 中国决策信息网 http://www.juece.gov.cn 决策知识及案例 三农数据网 http://www.sannong.gov.cn 三农信息、论坛及相关网站

提供统计数据的部分政府网站 美国政府机构 网址 数据内容 人口普查局 http://www.census.gov 人口和家庭等 联邦储备局 http://www.bog.frb.fed.us 货币供应、信誉、汇率等 预算编制办公室 http://www.whitehouse.gov/omb 财政收入、支出、债券等 商务部 http://www.doc.gov 商业、工业等

直接取得的数据 普查 抽样调查 重点调查 典型调查

普查 1.为特定目的专门组织的非经常性全面调查 2. 通常是一次性或周期性的 3. 一般需要规定统一的标准调查时间 2. 通常是一次性或周期性的 3. 一般需要规定统一的标准调查时间 4. 数据的规范化程度较高 5. 应用范围比较狭窄

抽样调查 1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 1. 从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据收集方法 2. 具有经济性、时 效性强、适应面广、准确性高等特点

重点调查 重点调查:是指在调查对象中,只选择一部分重点单位进行的非全面调查。 重点单位:着眼于现象量的方面而言,尽管这些单位在全部单位中只是一部分,但它们在所研究现象的标志总量中却占有绝大的比重,在总体中具有举足轻重的作用。

典型调查 典型调查是一种专门组织的非全面调查。根据调查的目的,在对所研究的对象进行初步分析的基础上,有意识地选取若干具有代表性的单位进行调查和研究,借以认识事物发展变化的规律。有人也认为它是“目的抽样”,以若干具有代表性的单位为样本。

2.3 统计数据的质量 9

数据的误差

抽样误差 由于抽样的随机性所带来的误差 所有样本可能的结果与总体真值之间的平均性差异 影响抽样误差大小的因素 样本量的大小 总体的变异性

非抽样误差 相对于抽样误差而言 除抽样误差之外的,由于其他原因造成的样本观察结果与总体真值之间的差异 存在于所有的调查之中 概率抽样,非概率抽样,全面性调查 有抽样框误差、回答误差、无回答误差、调查员误差、测量误差

误差的控制 抽样误差可计算和控制 非抽样误差的控制 调查员的挑选 调查员的培训 督导员的调查专业水平 调查过程控制 调查结果进行检验、评估 现场调查人员进行奖惩的制度

2.4 统计数据的整理 一、统计数据的分组 二、次数分配 三、次数分配直方图 9

组距分组 (要点) 将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 组距分组 (要点) 将变量值的一个区间作为一组 适合于连续变量 适合于变量值较多的情况 需要遵循“不重不漏”的原则 可采用等距分组,也可采用不等距分组

组距分组 (步骤) 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的 确定组距:组距是一个组的上限与下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即 组距=( 最大值 - 最小值)÷ 组数 统计出各组的频数并整理成频数分布表

组距分组 (几个概念) 下限 :一个组的最小值 上限 :一个组的最大值 组距 :上限与下限之差 组中值 :下限与上限之间的中点值 下限 :一个组的最小值 上限 :一个组的最大值 组距 :上限与下限之差 组中值 :下限与上限之间的中点值 下限值+上限值 2 组中值 =

次数分配直方图 用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 直方图下的总面积等于1

分组数据的图示 (直方图的绘制) 某车间工人周加工零件直方图

折线图 折线图也称频数多边形图 是在直方图的基础上,把直方图顶部的中点(组中值)用直线连接起来,再把原来的直方图抹掉 折线图的两个终点要与横轴相交,具体的做法是 第一个矩形的顶部中点通过竖边中点(即该组频数一半的位置)连接到横轴,最后一个矩形顶部中点与其竖边中点连接到横轴 折线图下所围成的面积与直方图的面积相等,二者所表示的频数分布是一致的

分组数据的图示 (折线图的绘制) 折线图与直方图 下的面积相等! 某车间工人周加工零件折线图

次数分配的类型 右偏分布 左偏分布 对称分布 反J型分布 U型分布 正J型分布 几种常见的频数分布 Shape Concerned with extent to which values are symmetrically distributed. Kurtosis The extent to which a distribution is peaked (flatter or taller). For example, a distribution could be more peaked than a normal distribution (still may be 慴ell-shaped). If values are negative, then distribution is less peaked than a normal distribution. Skew The extent to which a distribution is symmetric or has a tail. Values are 0 if normal distribution. If the values are negative, then negative or left-skewed. 反J型分布 U型分布 正J型分布 几种常见的频数分布

2.5 分布集中趋势的测度 一、众数 二、中位数 三、均值 四、众数、中位数和均值的比较 9

众数 (mode) 定义:众数是指社会现象总体中最普遍出现的标志值。 一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据

众数的确定 1)单项式分配数列确定众数:出现次数最多的标志值就是众数。 2)组距式分配数列确定众数:由组距数列确定众数,先确定众数组,再通过一定的公式计算众数的近似值。

众数 (不惟一性) 无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 多于一个众数 原始数据: 25 28 28 36 42 42

组距式数列确定众数的公式 下限公式: 上限公式:

众数的几何意义

中位数 定义:中位数是将总体各个单位按其标志值的大小顺序排列,处于数列中点的那个单位的标志值,在总体中,标志值小于中位数的单位占一半;标志值大于中位数的单位也占一半。

中位数 (median) 50% 1. 排序后处于中间位置上的值 不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 1. 排序后处于中间位置上的值 Me 50% 不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即

中位数的确定 (1)未分组资料确定中位数。 将总体各单位的标志值按照大小顺序排列, 当总体单位数n为奇数时: 当总体单位数n为偶数时,:

(2)单项式分组资料确定中位数 当 为奇数时: 当 为偶数时,

3) 组距式分组资料确定中位数 下限公式: 上限公式:

均值 一、算术平均数 二、调和平均数 三、几何平均数 9

均值 (mean) 集中趋势的最常用测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺序数据

算术平均数 算术平均数的基本公式 计算平均数的要求:总体标志总量必须是总体各单位标志值的总和,标志值和单位之间一一对应。

算术平均数的计算方法 (1)简单算术平均数。简单算术平均数主要用于未分组资料,用总体各单位标志值简单加总得到的标志总量除以单位总量而得。计算公式:

算术平均数的计算方法 (2)加权算术平均数。 A. 加权算术平均数主要用于原始资料已经分组,并得出次数分布的条件。计算公式: fi 为各组标志值出现的次数。

B.权数的意义和作用: 权数:各组次数(频数)的大小所对应的标志值对平均数的影响具有权衡轻重的作用。 当各组的次数都相同时,即当f1=f2=f3=…=fn时, 加权算术平均数就等于简单算术平均数。

算术平均数的数学性质 (1)算术平均数与标志值个数的乘积等于各标志值的总和。 简单算术平均数: 加权算术平均数:

(2)各个标志值与其算术平均数的离差之和等于零。 简单算术平均数: 加权算术平均数:

(3)各标志值与算术平均数离差的平方和为最小值。 (4)对被平均的变量实施某种线性变换后,新变量的算术平均数等于对原变量的算术平均数实施同样的线性变换的结果。 (5)对于任意两个变量x和y,它们的代数和的算术平均数等于两个变量的算术平均数的代数和。

调和平均数 1.简单调和平均数:标志值的倒数的算术平均数的倒数。

2.加权调和平均数 计算公式: 在权数选择合适时,加权调和平均数实际上是加权算术平均数的变形:

当各组标志总量相等,m1=m2=…=mn时,加权调和平均数可化简成为简单调和平均数形式。

几何平均数 n 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率 计算公式为 5. 可看作是均值的一种变形

众数、中位数和均值的关系 左偏分布 对称分布 右偏分布 均值 中位数 众数 均值 = 中位数 众数 众数 中位数 均值 Shape Concerned with extent to which values are symmetrically distributed. Kurtosis The extent to which a distribution is peaked (flatter or taller). For example, a distribution could be more peaked than a normal distribution (still may be 慴ell-shaped). If values are negative, then distribution is less peaked than a normal distribution. Skew The extent to which a distribution is symmetric or has a tail. Values are 0 if normal distribution. If the values are negative, then negative or left-skewed.

在对称的正态分布条件下:算术平均数等于众数等于中位数; 在非对称正态分布的情况下,众数、中位数和平均数三者的差别取决于偏斜的程度,偏斜的程度越大,它们之间的差别越大; 当次数分配呈右偏(正偏)时,算术平均数受极大值的影响; 当次数分配呈左偏(负偏)时,算术平均数受极小值的影响; 中位数则总是介于众数和平均数之间。

皮尔生经验法则 分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为:

众数、中位数、均值的特点和应用 众数 中位数 均值 不受极端值影响 具有不惟一性 数据分布偏斜程度较大时应用 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用

2.6 分布离散程度的测度 一、极差 二、方差和标准差 三、离散系数 9

极差 R = max(xi) - min(xi) 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 计算公式为 R = max(xi) - min(xi)

方差和标准差 离散程度的测度值之一 最常用的测度值 反映了数据的分布 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差

总体方差和标准差 方差的计算公式 标准差的计算公式 未分组数据: 未分组数据: 组距分组数据: 组距分组数据:

样本方差和标准差 方差的计算公式 标准差的计算公式 未分组数据: 未分组数据: 组距分组数据: 组距分组数据:

样本方差 自由度 一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量

离散系数 1.标准差与其相应的均值之比 2.对数据相对离散程度的测度 3.消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为

2.7 分布偏态与峰度的测度 一、偏态 二、峰度 9

偏态 1、偏态:衡量频数分配不对称程度,或偏斜程度的指标。 2、计算公式:(用距法测定)

当 =0时,左右完全对称,为正态分布;当 >0时为正偏斜;当 <0时为负偏斜。 当 =0时,左右完全对称,为正态分布;当 >0时为正偏斜;当 <0时为负偏斜。 Ⅰ(α=0) II(α>0) Ⅲ(α< 0)

峰度 1、峰度:用以衡量频数分配的集中程度,即分布曲线的尖峭程度的指标。 2、计算公式:(用距法测定)

峰度指标β=0,分布为正态峰度,当峰度指标β>0时,表示频数分布比正态分布更集中,分布呈尖峰状态,β<0时表示频数分布比正态分布更分散,分布呈平坦峰。如图所示: Ⅱ(β>0) Ⅰ(β=0) Ⅲ (β<0)