统 计 学 (第三版) 2008 作者 贾俊平 统计学.

Slides:



Advertisements
Similar presentations
3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2007 年广州市初中信息技术 结业考试海珠区质量分析 海珠区教育发展中心 范谊 2007 年 9 月 8 日.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
資料分析 ---敘述統計分析.
Measures of location and dispersion
概率论与数理统计 课件制作:应用数学系 概率统计课程组.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第三节 平均指标与标志变异指标 一、集中趋势的代表值 ── 平均指标 常用方法有:算术平均数、调和平均数、中位数和众数等。 (一)算术平均数
人教版五年级数学下册 众 数.
第三章 集中量数.
应用统计第1章 以Excel 和SPSS为工具的管理统计 同济大学经济与管理学院 管理科学与工程系 张建同 教授.
4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状
第三章 平均数、标准差 与变异系数 3.1 平均数: 在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有: 1. 算术平均数 2. 中位数(M) 4. 几何平均数(Mg) 3. 众数(Mo) 5. 调和平均数(H)
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
第 2章 统计数据的描述 2.1 数据的计量尺度 2.2 统计数据的来源 2.3 统计数据的质量 2.4 统计数据的整理
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三章 导数与微分 习 题 课 主要内容 典型例题.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
统计学期末复习
Business Statistics Topic 6
Descriptive statistics
試算表軟體 II 醫務管理暨醫療資訊學系 陳以德 副教授: 濟世CS 轉
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第十四章 数值变量的统计描述.
分析化学教程 第二章 分析数据处理及 分析测试的质量保证 (1) 分析化学教程( 学年)
第 3 章 敘述統計:數值方法.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
第 5 章 樣本資料的數值分布.
第一章 敘述統計學.
第 4 章 分散量數.
第四章 SPSS的基本统计分析.
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
第十章 方差分析.
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
第七章 调查数据的分析 第一节 数据集中趋势的测定 第二节 数据离散程度的测定 第三节 动态数据的分析 第四节 相关与回归分析.
EXCEL+ORIGN+SPSS的描述统计
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
Dr. C. Hsieh College of Informatics Kao yuan University
Descriptive Statistics
Chapter 5 z-Scores.
用计算器开方.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第六章 Excel的应用 一、Excel的单元格与区域 1、单元格:H8, D7, IV26等 2、区域:H2..D8, HS98:IT77
第4章 Excel电子表格制作软件 4.4 函数(一).
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
(四)标准差(standard deviation)
楊志強 博士 統計學 楊志強 博士
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二章 计量资料的统计描述.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
生物统计学 Biostatistics 第一章 统计数据的收集与整理
第七章 计量资料的统计分析.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
§4.5 最大公因式的矩阵求法( Ⅱ ).
Presentation transcript:

统 计 学 (第三版) 2008 作者 贾俊平 统计学

一些人使用统计就像喝醉酒的人使用街灯柱—支撑的功能多于照明。 ——Andrew Lang 统计名言 一些人使用统计就像喝醉酒的人使用街灯柱—支撑的功能多于照明。 ——Andrew Lang 2008年8月

第 3 章 用统计量描述数据 3.1 水平的度量 3.2 差异的度量 3.3 分布形状的度量

学习目标 度量水平的统计量 度量差异的统计量 度量分布形状的统计量 各统计量的的特点及应用场合 用Excel和SPSS计算描述统计量 2008年8月

哪名运动员的发挥更稳定? 在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10抢共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩确定最后的名次 在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表 2008年8月

哪名运动员的发挥更稳定? 最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅·帕杰林娜以总成绩498.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺·萨卢克瓦泽以总成绩487.4环的成绩获得铜牌,而预赛排在第3名的蒙古运动员卓格巴德拉赫·蒙赫珠勒仅以479.6环的成绩名列第8名 由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题 2008年8月

数据分布的特征 数据水平 (位置) 数据差异 (分散程度) 分布形状 (偏态和峰态) 2008年8月 Location (Position) Concerned with where values are concentrated. Variation (Dispersion) Concerned with the extent to which values vary. Shape Concerned with extent to which values are symmetrically distributed. 数据差异 (分散程度) 分布形状 (偏态和峰态) 2008年8月

第 3 章 用统计量描述数据 3.1 水平的度量 3.1.1 平均数 3.1.2 中位数和分位数 3.1.3 用哪个值代表一组数据?

3.1 水平的度量 3.1.1 平均数

平均数 (mean) 也称为均值,常用的统计量之一 消除了观测值的随机波动 易受极端值的影响 根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x x 2008年8月

简单算数平均 (Simple mean) 设一组数据为:x1 ,x2 ,… ,xn (总体数据xN) 样本平均数 总体平均数 2008年8月

加权平均数 (Weighted mean) 设各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk 样本加权平均: 总体加权平均: 2008年8月

 加权平均数 (例题分析) 某电脑公司销售量数据分组表 按销售量分组 组中值(Mi) 频数(fi) Mi fi 140~150 加权平均数 (例题分析) 某电脑公司销售量数据分组表 按销售量分组 组中值(Mi) 频数(fi) Mi fi 140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 5 580 1395 2640 4725 3700 3315 2050 1720 900 1175 合计 — 120 22200  2008年8月

加权平均数 (权数对均值的影响) 统计函数—AVERAGE 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ):1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ):8 1 1 统计函数—AVERAGE 2008年8月

3.1 水平的度量 3.1.2 中位数和分位数

中位数 (median) 排序后处于中间位置上的值。不受极端值影响 Me 50% 2. 位置确定 3. 数值确定 2008年8月

中位数的计算 (数据个数为奇数)  中位数  1080 【例】 9个家庭的人均月收入数据 中位数的计算 (数据个数为奇数) 【例】 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9  中位数  1080 2008年8月

中位数的计算 (数据个数为偶数)  【例】:10个家庭的人均月收入数据 统计函数—MEDIAN 中位数的计算 (数据个数为偶数) 【例】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10  统计函数—MEDIAN 2008年8月

四分位数—用3个点等分数据 (quartile) 排序后处于25%和75%位置上的值 QL QM QU 25% 不受极端值的影响 2008年8月

四分位数的计算 (位置的确定) 定义算法 2008年8月

四分位数的计算 (数据个数为奇数)   【例】:9个家庭的人均月收入数据(4种方法计算) 统计函数—QUARTILE 四分位数的计算 (数据个数为奇数) 【例】:9个家庭的人均月收入数据(4种方法计算) 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9   统计函数—QUARTILE 2008年8月

众数 (mode) mo 统计函数—MODE 一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 mo 统计函数—MODE 2008年8月

3.1 水平的度量 3.1.3 用哪个值代表一组数据?

众数、中位数和平均数的关系 左偏分布 对称分布 右偏分布 均值 中位数 众数 均值 = 中位数 众数 众数 中位数 均值 2008年8月 Shape Concerned with extent to which values are symmetrically distributed. Kurtosis The extent to which a distribution is peaked (flatter or taller). For example, a distribution could be more peaked than a normal distribution (still may be 慴ell-shaped). If values are negative, then distribution is less peaked than a normal distribution. Skew The extent to which a distribution is symmetric or has a tail. Values are 0 if normal distribution. If the values are negative, then negative or left-skewed. 2008年8月

众数、中位数、平均数的特点和应用 平均数 中位数 众数 易受极端值影响 数学性质优良,实际中最常用 数据对称分布或接近对称分布时代表性较好 不受极端值影响 数据分布偏斜程度较大时代表性接好 众数 具有不惟一性 数据分布偏斜程度较大且有明显峰值时代表性较好 2008年8月

第 3 章 用统计量描述数据 3.2 差异的度量 3.2.1 极差和四分位差 3.2.2 方差和标准差 3.2.3 比较几组数据的离散程度: 第 3 章 用统计量描述数据 3.2 差异的度量 3.2.1 极差和四分位差 3.2.2 方差和标准差 3.2.3 比较几组数据的离散程度: 离散系数

怎样评价水平代表值? 假定有两个地区每人的平均收入数据,其中甲地区的平均收入为5000元,乙地区的平均收入为3000元。你如何评价两个地区的收入状况? 如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢? 要回答这些问题,首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。相反,乙地区多数人的收入水平都在3000元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区 2008年8月

怎样评价水平代表值?  仅仅知道数据的水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越 甲 乙 2008年8月

3.2 差异的度量 3.2.1 极差和四分位差

极差 (range) 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 计算公式为:R = max(xi) - min(xi) 2008年8月

四分位差 (quartile deviation) 也称为内距或四分间距 上四分位数与下四分位数之差:Qd = QU – QL 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性 25% 75% 2008年8月

3.2 差异的度量 3.2.2 方差和标准差

方差和标准差 (variance and standard deviation) 数据离散程度的最常用测度值 反映各变量值与均值的平均差异 根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s) 2008年8月

样本方差和标准差 (sample variance and standard deviation) 方差的计算公式 标准差的计算公式 注意: 样本方差用自由度n-1去除! 未分组数据 未分组数据 组距分组数据 组距分组数据 2008年8月

总体方差和标准差 (Population variance and Standard deviation) 方差的计算公式 标准差的计算公式 未分组数据 未分组数据 组距分组数据 组距分组数据 2008年8月

自由度 (degree of freedom) 自由度的概念由统计学家R.A Fisher提出 是指数据个数与附加给独立的观测值的约束或限制的个数之差 从字面涵义来看,自由度是指一组数据中可以自由取值的个数 当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值 按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k 2008年8月

自由度 (degree of freedom) 样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值x ,而x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量 2008年8月

样本标准差 (例题分析) 【例】计算计算9名员工的月工资收入的方差和标准差 统计函数—STDEV 样本标准差 (例题分析) 【例】计算计算9名员工的月工资收入的方差和标准差 1500 750 780 1080 850 960 2000 1250 1630 方差 标准差 统计函数—STDEV 2008年8月

标准分数 (standard score) 1. 也称标准化值 2. 对某一个值在一组数据中相对位置的度量 1. 也称标准化值 2. 对某一个值在一组数据中相对位置的度量 3. 可用于判断一组数据是否有离群点(outlier) 用于对变量的标准化处理 均值等于0,方差等于1 计算公式为 2008年8月

标准分数 (用于数据变换) z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1 2008年8月

用SPSS对数据进行标准化 第1步:选择【Analyze】下拉菜单,并选择 【Descriptive statistics - Descriptive 】 选项进入主对话框 第2步:在主对话框中将变量选入【Variables】, 然后选中【Save standardized values as variables】。点击【OK】(SPSS会将标准化 后的变量以“Z”开头存放在原始变量工作表中) 用SPSS对数据标准化 2008年8月

标准分数 (例题分析) 9个家庭人均月收入标准化值计算表 家庭编号 人均月收入(元) 标准化值 z 1 2 3 4 5 6 7 8 9 标准分数 (例题分析) 9个家庭人均月收入标准化值计算表 家庭编号 人均月收入(元) 标准化值 z 1 2 3 4 5 6 7 8 9 1500 750 780 1080 850 960 2000 1250 1630 0.695 -1.042 -0.973 -0.278 -0.811 -0.556 1.853 0.116 0.996 2008年8月

经验法则 经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内 2008年8月

经验法则 (例题分析)  9名员工月工资收入的经验法则 2008年8月

切比雪夫不等式 (Chebyshev’s inequality) 如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用 切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少” 对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数 2008年8月

切比雪夫不等式 (Chebyshev’s inequality) 对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有94%的数据落在平均数加减4个标准差的范围之内 2008年8月

3.2 差异的度量 3.2.3 比较几组数据的离散程度 离散系数

离散系数 (coefficient of variation) 1. 标准差与其相应的均值之比 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为 2008年8月

离散系数 (例题分析) 【 例 】评价哪名运动员的发挥更稳定 离散系数 (例题分析) 【 例 】评价哪名运动员的发挥更稳定 发挥比较稳定的运动员是塞尔维亚的亚斯娜·舍卡里奇和中国的郭文珺,发挥不稳定的运动员蒙古的卓格巴德拉赫·蒙赫珠勒和波兰的莱万多夫斯卡·萨贡 2008年8月

第 3 章 用统计量描述数据 3.3 分布形状的度量 偏态与峰态

数据分布的形状—偏态与峰态 偏态 峰态 左偏分布 扁平分布 右偏分布 尖峰分布 与标准正态分布比较! 2008年8月 Location (Position) Concerned with where values are concentrated. Variation (Dispersion) Concerned with the extent to which values vary. Shape Concerned with extent to which values are symmetrically distributed. 尖峰分布 右偏分布 2008年8月

偏态 (skewness)  统计函数—SKEW 统计学家Pearson于1895年首次提出。是指数据分布的不对称性 测度统计量是偏态系数(coefficient of skewness) 2. 偏态系数=0为对称分布;>0为右偏分布;<0为左偏分布 偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低 计算公式  统计函数—SKEW 2008年8月

峰态 (kurtosis)  统计函数—SKEW 统计学家Pearson于1905年首次提出。数据分布峰值的高低 测度统计量是峰态系数(coefficient of kurtosis) 峰态系数=0扁平峰度适中 峰态系数<0为扁平分布 峰态系数>0为尖峰分布 计算公式  统计函数—SKEW 2008年8月

Excel中的统计函数 MODE—计算众数 MEDIAN—计算中位数 QUARTILE—计算四分位数 AVERAGE—计算平均数 HARMEAN—计算简单调和平均数 GEOMEAN—计算几何平均数 AVEDEV—计算平均差 STDEV—计算样本标准差 STDEVP—计算总体标准差 SKEW—计算偏态系数 KURT—计算峰态系数 TRIMMEAN—计算切尾均值 2008年8月

用Excel和SPSS计算描述统计量 Excel SPSS Excel 【工具】【数据分析】 【描述统计】  【确定】【输入区域】【输出选项】  【汇总统计】【确定】 Excel SPSS【Analyze】【Descriptive statistics】【Descriptives】【variables】(选入变量)【Options】(选择需要的描述统计量)【Continue】【OK】 SPSS 2008年8月

数据的描述统计量 2008年8月

本章小节 度量水平的统计量 度量差异的统计量 度量分布形状的统计量 各统计量的的特点及应用场合 用Excel和SPSS计算描述统计量 2008年8月

结 束 THANKS