统 计 学 (第三版) 2008 作者 贾俊平 统计学
一些人使用统计就像喝醉酒的人使用街灯柱—支撑的功能多于照明。 ——Andrew Lang 统计名言 一些人使用统计就像喝醉酒的人使用街灯柱—支撑的功能多于照明。 ——Andrew Lang 2008年8月
第 3 章 用统计量描述数据 3.1 水平的度量 3.2 差异的度量 3.3 分布形状的度量
学习目标 度量水平的统计量 度量差异的统计量 度量分布形状的统计量 各统计量的的特点及应用场合 用Excel和SPSS计算描述统计量 2008年8月
哪名运动员的发挥更稳定? 在奥运会女子10米气手枪比赛中,每个运动员首先进行每组10抢共4组的预赛,然后根据预赛总成绩确定进入决赛的8名运动员。决赛时8名运动员再进行10枪射击,再将预赛成绩加上决赛成绩确定最后的名次 在2008年8月10日举行的第29届北京奥运会女子10米气手枪决赛中,进入决赛的8名运动员的预赛成绩和最后10枪的决赛成绩如下表 2008年8月
哪名运动员的发挥更稳定? 最会的比赛结果是,中国运动员郭文珺凭借决赛的稳定发挥,以总成绩492.3环夺得金牌,预赛排在第1名的俄罗斯运动员纳塔利娅·帕杰林娜以总成绩498.1环获得银牌,预赛排在第4名的格鲁吉亚运动员妮诺·萨卢克瓦泽以总成绩487.4环的成绩获得铜牌,而预赛排在第3名的蒙古运动员卓格巴德拉赫·蒙赫珠勒仅以479.6环的成绩名列第8名 由此可见,在射击比赛中,运动员能否取得好的成绩,发挥的稳定性至关重要。那么,怎样评价一名运动员的发挥是否稳定呢?通过本章内容的学习就能很容易回答这样的问题 2008年8月
数据分布的特征 数据水平 (位置) 数据差异 (分散程度) 分布形状 (偏态和峰态) 2008年8月 Location (Position) Concerned with where values are concentrated. Variation (Dispersion) Concerned with the extent to which values vary. Shape Concerned with extent to which values are symmetrically distributed. 数据差异 (分散程度) 分布形状 (偏态和峰态) 2008年8月
第 3 章 用统计量描述数据 3.1 水平的度量 3.1.1 平均数 3.1.2 中位数和分位数 3.1.3 用哪个值代表一组数据?
3.1 水平的度量 3.1.1 平均数
平均数 (mean) 也称为均值,常用的统计量之一 消除了观测值的随机波动 易受极端值的影响 根据总体数据计算的,称为平均数,记为;根据样本数据计算的,称为样本平均数,记为x x 2008年8月
简单算数平均 (Simple mean) 设一组数据为:x1 ,x2 ,… ,xn (总体数据xN) 样本平均数 总体平均数 2008年8月
加权平均数 (Weighted mean) 设各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk 样本加权平均: 总体加权平均: 2008年8月
加权平均数 (例题分析) 某电脑公司销售量数据分组表 按销售量分组 组中值(Mi) 频数(fi) Mi fi 140~150 加权平均数 (例题分析) 某电脑公司销售量数据分组表 按销售量分组 组中值(Mi) 频数(fi) Mi fi 140~150 150~160 160~170 170~180 180~190 190~200 200~210 210~220 220~230 230~240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 5 580 1395 2640 4725 3700 3315 2050 1720 900 1175 合计 — 120 22200 2008年8月
加权平均数 (权数对均值的影响) 统计函数—AVERAGE 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ):1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ):8 1 1 统计函数—AVERAGE 2008年8月
3.1 水平的度量 3.1.2 中位数和分位数
中位数 (median) 排序后处于中间位置上的值。不受极端值影响 Me 50% 2. 位置确定 3. 数值确定 2008年8月
中位数的计算 (数据个数为奇数) 中位数 1080 【例】 9个家庭的人均月收入数据 中位数的计算 (数据个数为奇数) 【例】 9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 中位数 1080 2008年8月
中位数的计算 (数据个数为偶数) 【例】:10个家庭的人均月收入数据 统计函数—MEDIAN 中位数的计算 (数据个数为偶数) 【例】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10 统计函数—MEDIAN 2008年8月
四分位数—用3个点等分数据 (quartile) 排序后处于25%和75%位置上的值 QL QM QU 25% 不受极端值的影响 2008年8月
四分位数的计算 (位置的确定) 定义算法 2008年8月
四分位数的计算 (数据个数为奇数) 【例】:9个家庭的人均月收入数据(4种方法计算) 统计函数—QUARTILE 四分位数的计算 (数据个数为奇数) 【例】:9个家庭的人均月收入数据(4种方法计算) 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 统计函数—QUARTILE 2008年8月
众数 (mode) mo 统计函数—MODE 一组数据中出现次数最多的变量值 适合于数据量较多时使用 不受极端值的影响 一组数据可能没有众数或有几个众数 mo 统计函数—MODE 2008年8月
3.1 水平的度量 3.1.3 用哪个值代表一组数据?
众数、中位数和平均数的关系 左偏分布 对称分布 右偏分布 均值 中位数 众数 均值 = 中位数 众数 众数 中位数 均值 2008年8月 Shape Concerned with extent to which values are symmetrically distributed. Kurtosis The extent to which a distribution is peaked (flatter or taller). For example, a distribution could be more peaked than a normal distribution (still may be 慴ell-shaped). If values are negative, then distribution is less peaked than a normal distribution. Skew The extent to which a distribution is symmetric or has a tail. Values are 0 if normal distribution. If the values are negative, then negative or left-skewed. 2008年8月
众数、中位数、平均数的特点和应用 平均数 中位数 众数 易受极端值影响 数学性质优良,实际中最常用 数据对称分布或接近对称分布时代表性较好 不受极端值影响 数据分布偏斜程度较大时代表性接好 众数 具有不惟一性 数据分布偏斜程度较大且有明显峰值时代表性较好 2008年8月
第 3 章 用统计量描述数据 3.2 差异的度量 3.2.1 极差和四分位差 3.2.2 方差和标准差 3.2.3 比较几组数据的离散程度: 第 3 章 用统计量描述数据 3.2 差异的度量 3.2.1 极差和四分位差 3.2.2 方差和标准差 3.2.3 比较几组数据的离散程度: 离散系数
怎样评价水平代表值? 假定有两个地区每人的平均收入数据,其中甲地区的平均收入为5000元,乙地区的平均收入为3000元。你如何评价两个地区的收入状况? 如果平均收入的多少代表了该地区的生活水平,你能否认为甲地区的平均生活水平就高于乙地区呢? 要回答这些问题,首先需要搞清楚这里的平均收入是否能代表大多数人的收入水平。如果甲地区有少数几个富翁,而大多数人的收入都很低,虽然平均收入很高,但多数人生活水平仍然很低。相反,乙地区多数人的收入水平都在3000元左右,虽然平均收入看上去不如甲地区,但多数人的生活水平却比甲地区高,原因是甲地区的收入差距大于乙地区 2008年8月
怎样评价水平代表值? 仅仅知道数据的水平是远远不够的,还必须考虑数据之间的差距有多大。数据之间的差距用统计语言来说就是数据的离散程度。数据的离散程度越大,各描述统计量对该组数据的代表性就越差,离散程度越小,其代表性就越 甲 乙 2008年8月
3.2 差异的度量 3.2.1 极差和四分位差
极差 (range) 一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 计算公式为:R = max(xi) - min(xi) 2008年8月
四分位差 (quartile deviation) 也称为内距或四分间距 上四分位数与下四分位数之差:Qd = QU – QL 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性 25% 75% 2008年8月
3.2 差异的度量 3.2.2 方差和标准差
方差和标准差 (variance and standard deviation) 数据离散程度的最常用测度值 反映各变量值与均值的平均差异 根据总体数据计算的,称为总体方差(标准差),记为2();根据样本数据计算的,称为样本方差(标准差),记为s2(s) 2008年8月
样本方差和标准差 (sample variance and standard deviation) 方差的计算公式 标准差的计算公式 注意: 样本方差用自由度n-1去除! 未分组数据 未分组数据 组距分组数据 组距分组数据 2008年8月
总体方差和标准差 (Population variance and Standard deviation) 方差的计算公式 标准差的计算公式 未分组数据 未分组数据 组距分组数据 组距分组数据 2008年8月
自由度 (degree of freedom) 自由度的概念由统计学家R.A Fisher提出 是指数据个数与附加给独立的观测值的约束或限制的个数之差 从字面涵义来看,自由度是指一组数据中可以自由取值的个数 当样本数据的个数为n时,若样本平均数确定后,则附加给n个观测值的约束个数就是1个,因此只有n-1个数据可以自由取值,其中必有一个数据不能自由取值 按着这一逻辑,如果对n个观测值附加的约束个数为k个,自由度则为n-k 2008年8月
自由度 (degree of freedom) 样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 为什么样本方差的自由度为什么是n-1呢?因为在计算离差平方和时,必须先求出样本均值x ,而x则是附件给离差平方和的一个约束,因此,计算离差平方和时只有n-1个独立的观测值,而不是n个 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差s2去估计总体方差σ2时,它是σ2的无偏估计量 2008年8月
样本标准差 (例题分析) 【例】计算计算9名员工的月工资收入的方差和标准差 统计函数—STDEV 样本标准差 (例题分析) 【例】计算计算9名员工的月工资收入的方差和标准差 1500 750 780 1080 850 960 2000 1250 1630 方差 标准差 统计函数—STDEV 2008年8月
标准分数 (standard score) 1. 也称标准化值 2. 对某一个值在一组数据中相对位置的度量 1. 也称标准化值 2. 对某一个值在一组数据中相对位置的度量 3. 可用于判断一组数据是否有离群点(outlier) 用于对变量的标准化处理 均值等于0,方差等于1 计算公式为 2008年8月
标准分数 (用于数据变换) z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数分布的形状,而只是使该组数据均值为0,标准差为1 2008年8月
用SPSS对数据进行标准化 第1步:选择【Analyze】下拉菜单,并选择 【Descriptive statistics - Descriptive 】 选项进入主对话框 第2步:在主对话框中将变量选入【Variables】, 然后选中【Save standardized values as variables】。点击【OK】(SPSS会将标准化 后的变量以“Z”开头存放在原始变量工作表中) 用SPSS对数据标准化 2008年8月
标准分数 (例题分析) 9个家庭人均月收入标准化值计算表 家庭编号 人均月收入(元) 标准化值 z 1 2 3 4 5 6 7 8 9 标准分数 (例题分析) 9个家庭人均月收入标准化值计算表 家庭编号 人均月收入(元) 标准化值 z 1 2 3 4 5 6 7 8 9 1500 750 780 1080 850 960 2000 1250 1630 0.695 -1.042 -0.973 -0.278 -0.811 -0.556 1.853 0.116 0.996 2008年8月
经验法则 经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内 2008年8月
经验法则 (例题分析) 9名员工月工资收入的经验法则 2008年8月
切比雪夫不等式 (Chebyshev’s inequality) 如果一组数据不是对称分布,经验法则就不再适用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用 切比雪夫不等式提供的是“下界”,也就是“所占比例至少是多少” 对于任意分布形态的数据,根据切比雪夫不等式,至少有1-1/k2的数据落在平均数加减k个标准差之内。其中k是大于1的任意值,但不一定是整数 2008年8月
切比雪夫不等式 (Chebyshev’s inequality) 对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有94%的数据落在平均数加减4个标准差的范围之内 2008年8月
3.2 差异的度量 3.2.3 比较几组数据的离散程度 离散系数
离散系数 (coefficient of variation) 1. 标准差与其相应的均值之比 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为 2008年8月
离散系数 (例题分析) 【 例 】评价哪名运动员的发挥更稳定 离散系数 (例题分析) 【 例 】评价哪名运动员的发挥更稳定 发挥比较稳定的运动员是塞尔维亚的亚斯娜·舍卡里奇和中国的郭文珺,发挥不稳定的运动员蒙古的卓格巴德拉赫·蒙赫珠勒和波兰的莱万多夫斯卡·萨贡 2008年8月
第 3 章 用统计量描述数据 3.3 分布形状的度量 偏态与峰态
数据分布的形状—偏态与峰态 偏态 峰态 左偏分布 扁平分布 右偏分布 尖峰分布 与标准正态分布比较! 2008年8月 Location (Position) Concerned with where values are concentrated. Variation (Dispersion) Concerned with the extent to which values vary. Shape Concerned with extent to which values are symmetrically distributed. 尖峰分布 右偏分布 2008年8月
偏态 (skewness) 统计函数—SKEW 统计学家Pearson于1895年首次提出。是指数据分布的不对称性 测度统计量是偏态系数(coefficient of skewness) 2. 偏态系数=0为对称分布;>0为右偏分布;<0为左偏分布 偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低 计算公式 统计函数—SKEW 2008年8月
峰态 (kurtosis) 统计函数—SKEW 统计学家Pearson于1905年首次提出。数据分布峰值的高低 测度统计量是峰态系数(coefficient of kurtosis) 峰态系数=0扁平峰度适中 峰态系数<0为扁平分布 峰态系数>0为尖峰分布 计算公式 统计函数—SKEW 2008年8月
Excel中的统计函数 MODE—计算众数 MEDIAN—计算中位数 QUARTILE—计算四分位数 AVERAGE—计算平均数 HARMEAN—计算简单调和平均数 GEOMEAN—计算几何平均数 AVEDEV—计算平均差 STDEV—计算样本标准差 STDEVP—计算总体标准差 SKEW—计算偏态系数 KURT—计算峰态系数 TRIMMEAN—计算切尾均值 2008年8月
用Excel和SPSS计算描述统计量 Excel SPSS Excel 【工具】【数据分析】 【描述统计】 【确定】【输入区域】【输出选项】 【汇总统计】【确定】 Excel SPSS【Analyze】【Descriptive statistics】【Descriptives】【variables】(选入变量)【Options】(选择需要的描述统计量)【Continue】【OK】 SPSS 2008年8月
数据的描述统计量 2008年8月
本章小节 度量水平的统计量 度量差异的统计量 度量分布形状的统计量 各统计量的的特点及应用场合 用Excel和SPSS计算描述统计量 2008年8月
结 束 THANKS