3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量 第 3章 数据的概括性度量 3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
学 习 目 标 1.集中趋势各测度值的计算方法 2.集中趋势各测度值的特点及应用场合 3.离散程度各测度值的计算方法 4.离散程度各测度值的特点及应用场合 偏态与峰态的测度方法 用Excel计算描述统计量并进行分析
数据分布的特征 集中趋势 (位置) 离中趋势 (分散程度) 偏态和峰态 (形状) Location (Position) Concerned with where values are concentrated. Variation (Dispersion) Concerned with the extent to which values vary. Shape Concerned with extent to which values are symmetrically distributed. 离中趋势 (分散程度) 偏态和峰态 (形状)
数据分布特征的测度 数据特征的测度 分布的形状 集中趋势 离散程度 众 数 中位数 均 值 离散系数 方差和标准差 峰 态 四分位差 众 数 中位数 均 值 离散系数 方差和标准差 峰 态 四分位差 异众比率 偏 态
集中趋势(central tendency) 3.1 集中趋势的测度 集中趋势(central tendency) 一组数据向其中心值靠拢的倾向和程度 测度集中趋势就是寻找数据水平的代表值或中心值 不同类型的数据用不同的集中趋势测度值 低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据 测度值的选用取决于所掌握的数据的类型
3.1 集中趋势的测度 一. 分类数据:众数 二. 顺序数据:中位数和分位数 三. 数值型数据:均值 四. 众数、中位数和均值的比较
一. 分类数据:众数(mode) 集中趋势的测度值之一 出现次数最多的变量值 不受极端值的影响 可能没有众数或有几个众数 主要用于分类数据,也可用于顺序数据和数值型数据
众数(不唯一性) 无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 多于一个众数 原始数据: 25 28 28 36 42 42
分类数据的众数(例题分析) 解:这里的变量为“广告类型”,这是个分类变量,不同类型的广告就是变量值 某城市居民关注广告类型的频数分布 广告类型 人数 (人) 比例 频率(%) 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 112 51 9 16 10 2 0.560 0.255 0.045 0.080 0.050 0.010 56.0 25.5 4.5 8.0 5.0 1.0 合计 200 1 100 解:这里的变量为“广告类型”,这是个分类变量,不同类型的广告就是变量值 在所调查的200人当中,关注商品广告的人数最多,为112人,占总被调查人数的56%,因此众数为“商品广告”这一类别,即 Mo=商品广告
顺序数据的众数 (例题分析) 解:这里的数据为顺序数据。变量为“回答类别” 顺序数据的众数 (例题分析) 甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 百分比 (%) 非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 8 36 31 15 10 合计 300 100.0 解:这里的数据为顺序数据。变量为“回答类别” 甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo=不满意
顺序数据:中位数和分位数
中位数(median) 50% 集中趋势的测度值之一 排序后处于中间位置上的值 Me 不受极端值的影响 主要用于顺序数据,也可用数值型数据,但不能用于分类数据 各变量值与中位数的离差绝对值之和最小,即
中位数(位置的确定) 未分组数值型数据: 顺序数据:
未分组数据的中位数 (计算公式)
顺序数据的中位数 解:中位数的位置为 300/2=150 从累计频数看,中位数在“一般”这一组别中。因此 Me=一般 甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 累计频数 非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 132 225 270 300 合计 — 解:中位数的位置为 300/2=150 从累计频数看,中位数在“一般”这一组别中。因此 Me=一般
数值型未分组数据的中位数 (9个数据的算例) 数值型未分组数据的中位数 (9个数据的算例) 【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排序: 750 780 850 960 1080 1250 1500 1630 2000 位置: 1 2 3 4 5 6 7 8 9 中位数 1080
数值型未分组数据的中位数 (10个数据的算例) 数值型未分组数据的中位数 (10个数据的算例) 【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 850 960 2000 1250 1630 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10
四分位数(quartile) 25% 1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值 3. 不受极端值的影响 QL 1. 集中趋势的测度值之一 2. 排序后处于25%和75%位置上的值 QL QM QU 25% 3. 不受极端值的影响 4. 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据
四分位数(位置的确定) 未分组数据:
顺序数据的四分位数 (例题分析) 回答类别 甲城市 户数 (户) 累计频数 非常不满意 不满意 一般 满意 非常满意 24 108 93 顺序数据的四分位数 (例题分析) 甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 累计频数 非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 132 225 270 300 合计 — 解:QL位置= (300)/4 =75 QU位置 =(3×300)/4 =225 从累计频数看, QL在“不满意”这一组别中; QU在“一般”这一组别中。因此 QL = 不满意 QU = 一般
数值型未分组数据的四分位数 (9个数据的算例) 数值型未分组数据的四分位数 (9个数据的算例) 【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9
数值型未分组数据的四分位数 (10个数据的算例) 数值型未分组数据的四分位数 (10个数据的算例) 【例】:10个家庭的人均月收入数据 原始数据: 1500 750 780 660 1080 850 960 2000 1250 1630 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10
数值型数据:均值
均值(mean) 1.集中趋势的测度值之一 2.最常用的测度值 一组数据的均衡点所在 体现了数据的必然性特征 易受极端值的影响 用于数值型数据,不能用于分类数据和顺序数据
简单均值(simple mean) 设一组数据为:x1 ,x2 ,… ,xn(xN) 总体均值 样本均值
加权均值 (weighted mean) 设各组的组中值为:M1 ,M2 ,… ,Mk 相应的频数为: f1 , f2 ,… ,fk 总体加权均值 样本加权均值
已改至此!! 加权均值 (例题分析) 某电脑公司销售量数据分组表 按销售量分组 组中值(Mi) 频数(fi) Mi fi 140-150 加权均值 (例题分析) 某电脑公司销售量数据分组表 按销售量分组 组中值(Mi) 频数(fi) Mi fi 140-150 150-160 160-170 170-180 180-190 190-200 200-210 210-220 220-230 230-240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 5 580 1395 2640 4725 3700 3315 2050 1720 900 1175 合计 — 120 22200 已改至此!!
加权均值(权数对均值的影响) 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(x ): 0 20 100 人数分布(f ): 1 1 8 乙组: 考试成绩(x): 0 20 100 人数分布(f ): 8 1 1
均值 (数学性质) 1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小
调和平均数 (harmonic mean) 1.集中趋势的测度值之一 2.均值的另一种表现形式 易受极端值的影响 计算公式为 原来只是计算时使用了不同的数据!
调和平均数 (例题分析) 【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格 某日三种蔬菜的批发成交数据 蔬菜 调和平均数 (例题分析) 【例】某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格 某日三种蔬菜的批发成交数据 蔬菜 名称 批发价格(元) Mi 成交额(元) Mi fi 成交量(公斤) fi 甲 乙 丙 1.20 0.50 0.80 18000 12500 6400 15000 25000 8000 合计 — 36900 48000
几何平均数(geometric mean) 1. 集中趋势的测度值之一 2. n 个变量值乘积的 n 次方根 3. 适用于对比率数据的平均 4. 主要用于计算平均增长率 5. 计算公式为 6. 可看作是均值的一种变形
几何平均数 (例题分析) 【例】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。 平均收益率=103.84%-1=3.84%
众数、中位数和均值的比较
众数、中位数和均值的关系 左偏分布 对称分布 右偏分布 均值 中位数 众数 均值 = 中位数 众数 众数 中位数 均值 Shape Concerned with extent to which values are symmetrically distributed. Kurtosis The extent to which a distribution is peaked (flatter or taller). For example, a distribution could be more peaked than a normal distribution (still may be 慴ell-shaped). If values are negative, then distribution is less peaked than a normal distribution. Skew The extent to which a distribution is symmetric or has a tail. Values are 0 if normal distribution. If the values are negative, then negative or left-skewed.
众数、中位数和均值的特点和应用 众数 不受极端值影响 具有不唯一性 数据分布偏斜程度较大时应用 中位数 平均数 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用
数据类型与集中趋势测度值 数据类型和所适用的集中趋势测度值 数据类型 分类数据 顺序数据 间隔数据 比率数据 适 用 的 测 度 值 ※众数 ※中位数 ※均值 — 四分位数 众数 调和平均数 中位数 几何平均数
3.2 离散程度的测度 分类数据:异众比率 顺序数据:四分位差 数值型数据:方差及标准差 相对位置的测量:标准分数 相对离散程度:离散系数
离中趋势 数据分布的另一个重要特征 反映各变量值远离其中心值的程度(离散程度) 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测度值
分类数据:异众比率
异众比率(variation ratio) 1. 离散程度的测度值之一 2. 非众数组的频数占总频数的比率 3. 计算公式为 4. 用于衡量众数的代表性
异众比率 (例题分析) 某城市居民关注广告类型的频数分布 广告类型 人数(人) 频率(%) 商品广告 服务广告 金融广告 房地产广告 异众比率 (例题分析) 某城市居民关注广告类型的频数分布 广告类型 人数(人) 频率(%) 商品广告 服务广告 金融广告 房地产广告 招生招聘广告 其他广告 112 51 9 16 10 2 56.0 25.5 4.5 8.0 5.0 1.0 合计 200 100 解: 在所调查的200人当中,关注非商品广告的人数占44%,异众比率还是比较大。因此,用“商品广告”来反映城市居民对广告关注的一般趋势,其代表性不是很好
顺序数据:四分位差
四分位差(quartile deviation) 1. 离散程度的测度值之一 2. 也称为内距或四分间距 3. 上四分位数与下四分位数之差 QD = QU - QL 4. 反映了中间50%数据的离散程度 不受极端值的影响 用于衡量中位数的代表性
四分位差(顺序数据的算例) 甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 累计频数 非常不满意 不满意 一般 满意 户数 (户) 累计频数 非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 132 225 270 300 合计 — 解:设非常不满意为1,不满意为2, 一般为3, 满意为 4, 非常满意为5 已知 QL = 不满意 = 2 QU = 一般 = 3 四分位差: QD = QU = QL = 3 – 2 = 1
数值型数据:方差和标准差
极差(range) R = max(xi) - min(xi) 1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 1. 一组数据的最大值与最小值之差 2. 离散程度的最简单测度值 3. 易受极端值影响 未考虑数据的分布 计算公式为 R = max(xi) - min(xi)
平均差(mean deviation) 1. 离散程度的测度值之一 2. 各变量值与其均值离差绝对值的平均数 1. 离散程度的测度值之一 2. 各变量值与其均值离差绝对值的平均数 3. 能全面反映一组数据的离散程度 4. 数学性质较差,实际中应用较少 5. 计算公式为 未分组数据 组距分组数据
平均差 (例题分析) 某电脑公司销售量数据平均差计算表 按销售量分组 组中值(Mi) 频数(fi) 140—150 150—160 160—170 170—180 180—190 190—200 200—210 210—220 220—230 230—240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 5 40 30 50 160 270 320 170 200 240 250 合计 — 2040
平均差 (例题分析) 含义:每一天的销售量平均数相比, 平均相差17台
方差和标准差 (variance and standard deviation) 1.离散程度的测度值之一 2.最常用的测度值 3.反映了数据的分布 反映了各变量值与均值的平均差异 根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差
总体方差和标准差 (population variance and standard deviation) 方差的计算公式 标准差的计算公式 未分组数据: 未分组数据: 组距分组数据: 组距分组数据:
总体标准差 (例题分析) 某电脑公司销售量数据平均差计算表 按销售量分组 组中值(Mi) 频数(fi) 140—150 150—160 总体标准差 (例题分析) 某电脑公司销售量数据平均差计算表 按销售量分组 组中值(Mi) 频数(fi) 140—150 150—160 160—170 170—180 180—190 190—200 200—210 210—220 220—230 230—240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 5 40 30 50 160 270 320 170 200 240 250 合计 — 120 55400
总体标准差 (例题分析) 含义:每一天的销售量与平均数相比, 平均相差21.49台
样本方差和标准差 (simple variance and standard deviation) 方差的计算公式 标准差的计算公式 未分组数据: 未分组数据: 注意: 样本方差用自由度n-1去除! 组距分组数据: 组距分组数据:
样本方差自由度(degree of freedom) 一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差σ2时,它是σ2的无偏估计量
样本方差与标准差 (例题分析) 原始数据: 10 5 9 13 6 8 方差 标准差
相对位置的测量:标准分数
标准分数 (standard score) 1. 也称标准化值 2. 对某一个值在一组数据中相对位置的度量 2. 对某一个值在一组数据中相对位置的度量 3. 可用于判断一组数据是否有离群点 4. 用于对变量的标准化处理 5. 计算公式为
标准分数 (性质) 均值等于0 2. 方差等于1
标准分数 (性质) z 分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0,标准差为1。
标准化值 (例题分析) 9个家庭人均月收入标准化值计算表 家庭编号 人均月收入(元) 标准化值 z 1 2 3 4 5 6 7 8 9 标准化值 (例题分析) 9个家庭人均月收入标准化值计算表 家庭编号 人均月收入(元) 标准化值 z 1 2 3 4 5 6 7 8 9 1500 750 780 1080 850 960 2000 1250 1630 0.695 -1.042 -0.973 -0.278 -0.811 -0.556 1.853 0.116 0.996
经验法则 经验法则表明:当一组数据对称分布时 约有68%的数据在平均数加减1个标准差的范围之内 约有95%的数据在平均数加减2个标准差的范围之内 约有99%的数据在平均数加减3个标准差的范围之内
切比雪夫不等式 (Chebyshev’s inequality ) 如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用 切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少” 对于任意分布形态的数据,根据切比雪夫不等式,至少有 的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数
切比雪夫不等式 (Chebyshev’s inequality ) 对于k=2,3,4,该不等式的含义是 至少有75%的数据落在平均数加减2个标准差的范围之内 至少有89%的数据落在平均数加减3个标准差的范围之内 至少有94%的数据落在平均数加减4个标准差的范围之内
相对离散程度:离散系数
离散系数 (coefficient of variation) 1. 标准差与其相应的均值之比 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 4. 用于对不同组别数据离散程度的比较 5. 计算公式为
离散系数 (例题分析) 【 例 】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度 离散系数 (例题分析) 【 例 】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度 某管理局所属8家企业的产品销售数据 企业编号 产品销售额(万元) x1 销售利润(万元) x2 1 2 3 4 5 6 7 8 170 220 390 430 480 650 950 1000 8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0
离散系数 (例题分析) v1= 536.25 309.19 =0.577 v2= 32.5215 23.09 =0.710 结论: 计算结果表明,v1<v2,说明产品销售额的离散程度小于销售利润的离散程度
数据类型与离散程度测度值 数据类型和所适用的离散程度测度值 数据类型 分类数据 顺序数据 数值型数据 适 用 的 测 度 值 ※异众比率 ※四分位差 ※方差或标准差 — 异众比率 ※离散系数(比较时用) 平均差 极差 四分位差
4.3 偏态与峰态的测度 一. 偏态及其测度 二. 峰态及其测度
偏态与峰态分布的形状 偏态 峰态 左偏分布 扁平分布 尖峰分布 右偏分布 与标准正态分布比较! Location (Position) Concerned with where values are concentrated. Variation (Dispersion) Concerned with the extent to which values vary. Shape Concerned with extent to which values are symmetrically distributed. 尖峰分布 右偏分布
偏 态
偏态 (skewness) 统计学家Pearson于1895年首次提出 数据分布偏斜程度的测度 2. 偏态系数=0为对称分布 2. 偏态系数=0为对称分布 3. 偏态系数> 0为右偏分布 4. 偏态系数< 0为左偏分布
偏态系数 (skewness coefficient) 根据原始数据计算 根据分组数据计算
偏态系数 (例题分析) 某电脑公司销售量偏态及峰度计算表 按销售量份组(台) 组中值(Mi) 频数 fi 140—150 150—160 偏态系数 (例题分析) 某电脑公司销售量偏态及峰度计算表 按销售量份组(台) 组中值(Mi) 频数 fi 140—150 150—160 160—170 170—180 180—190 190—200 200—210 210—220 220—230 230—240 145 155 165 175 185 195 205 215 225 235 4 9 16 27 20 17 10 8 5 -256000 -243000 -128000 -27000 17000 80000 216000 256000 625000 10240000 7290000 2560000 270000 170000 1600000 6480000 31250000 合计 — 120 540000 70100000
偏态系数 (例题分析) 结论:偏态系数为正值,但与0的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数
偏态与峰态 (从直方图上观察) 结论:1. 为右偏分布 2. 峰态适中 频 数 (天) 25 20 15 10 5 30 180 190 200 170 210 160 220 140 150 240 230 某电脑公司销售量分布的直方图 按销售量分组(台)
峰 态
峰态 (kurtosis) 统计学家Pearson于1905年首次提出 数据分布扁平程度的测度 峰态系数=0扁平峰度适中 峰态系数<0为扁平分布 峰态系数>0为尖峰分布
峰态系数 (kurtosis coefficient) 根据原始数据计算 根据分组数据计算
峰态系数 (例题分析) 结论:偏态系数为负值,但与0的差异不大,说明电脑销售量为轻微扁平分布
用Excel计算描述统计量
将120的销售量的数据输入到Excel工作表中,然后按下列步骤操作: 第1步:选择“工具”下拉菜单 第2步:选择“数据分析”选项 第3步:在分析工具中选择“描述统计”,然后选择“确定” 第4步:当对话框出现时 在“输入区域”方框内键入数据区域 在“输出选项”中选择输出区域 选择“汇总统计” 选择“确定”
本章小节 1. 数据水平的概括性度量 2. 数据离散程度的概括性度量 数据分布形状的测度 用Excel计算描述统计量
结 束 THANKS