第四章 数据分布的集中趋势和离中趋势 第一节 集中趋势指标 第二节 离中趋势指标
第七讲 第一节 集中趋势指标 目的:掌握集中趋势指标的概念、特点、计算 重点:算术平均数、调和平均数、几何平均数、中位数、众数 第七讲 第一节 集中趋势指标 目的:掌握集中趋势指标的概念、特点、计算 重点:算术平均数、调和平均数、几何平均数、中位数、众数 难点:调和平均数、中位数、众数
第一节 集中趋势指标 一、 集中趋势指标概述 (一)、 集中趋势指标的概念 指一组数据向某一中心值靠拢的倾向,通常用平均指标来反映。 集中趋势 算术平均数调和平均数几何平均数 集中趋势指标就是用来反映数据分布一般水平的代表值或中心值 数值平均数 平均数 中位数 众数 位置平均数
(二)集中趋势指标的特点 (三)集中趋势指标的作用 1、统计平均数是一个代表值,它反映一般水平 2、统计平均数是一个抽象化了的数值,表明数据分布集中趋势的一般特征 (三)集中趋势指标的作用 1、统计平均数可以反映数据分布的一般水平 2、统计平均数可以对比不同总体的一般水平 3、统计平均数可以说明事物的发展动态和变化趋势 4、作为某些科学预测、决策、管理和推算依据
二、集中趋势指标的计算与应用 (一)算术平均数 直接承担者 含义 例:
STAT 83名女生的身高 算术平均数 分布的集中趋势、中心数值 变量一般水平、代表性数值 算术平均数
算术平均数的计算 数据集 算术平均数= 总体标志总量 总体单位总数 数据个数 N 简单算术平均数
式中: 为算术平均数; 为总体单位总数; 为第i 个单位的标志值。 算术平均数的计算方法 (1). 简单算术平均数 ——适用于总体资料未经分组整理、尚为原始资料的情况 式中: 为算术平均数; 为总体单位总数; 为第i 个单位的标志值。
某售货小组5个人,某天的销售额分别为520元、600元、480元、750元、440元,则 【例】 算术平均数的计算方法 某售货小组5个人,某天的销售额分别为520元、600元、480元、750元、440元,则 【例】 平均每人日销售额为:
式中: 为算术平均数; 为第 组的频数; 为组数; 为第 组的标志值或组中值。 算术平均数的计算方法 (2). 加权算术平均数 ——适用于总体资料经过分组整理形成变量数列的情况 式中: 为算术平均数; 为第 组的频数; 为组数; 为第 组的标志值或组中值。
【例4-2】某企业电子产品加工车间的50名工人的日加工零件数如表4-1: 日产量(件) 工人人数(人) 20 21 22 23 24 5 10 合计 50 计算该车间工人的平均加工零件数。
A、根据单项分组的数据资料计算 解: 若上述资料为组距数列,则应取各组的组中值作为该组的代表值用于计算;此时求得的算术平均数只是其真值的近似值。 说 明
【例4.3】某电脑公司销售量的数据资料如下表第一、三栏所示,计算计算该公司日平均销售量。 B、根据组距分组的数据资料计算 【例4.3】某电脑公司销售量的数据资料如下表第一、三栏所示,计算计算该公司日平均销售量。 表4-2 某公司日平均销售量计算表 按日销售量分组 组中值(Xi) 天数(Fi) XiFi 150~160 160~170 170~180 180~190 190~200 155 165 175 185 195 10 25 35 5 1550 4125 6125 4625 975 合计 — 100 17400
加权均值 (权数对均值的影响) X甲 0×1+20×1+100×8 n 10 Xi 82(分) X乙 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下 甲组: 考试成绩(X ): 0 20 100 人数分布(F ):1 1 8 乙组: 考试成绩(X ): 0 20 100 人数分布(F ):8 1 1 X甲 0×1+20×1+100×8 n 10 i=1 Xi 82(分) X乙 0×8+20×1+100×1 12(分)
指变量数列中各组标志值出现的次数,是变量值的承担者,反映了各组的标志值对平均数的影响程度 权数 表现为次数、频数、单位数;即 公式 中的 绝对权数 相对权数 表现为频率、比重;即公式 中的
权数与加权 1 2 3 4 5 6 7 8 9 1 2 3 4 5 6 7 8 9
权数与加权 2 3 4 5 6 7 8 1 9
权数与加权 2 3 4 5 6 7 8 1 9
权数与加权 1 2 3 4 5 6 7 8 9
算术平均数的计算取决于变量值和权数的共同作用: 变量值决定平均数的范围; 权数则决定平均数的位置 权数与加权 2 3 4 5 6 7 8 1 9 算术平均数的计算取决于变量值和权数的共同作用: 变量值决定平均数的范围; 权数则决定平均数的位置
【例4.4】以例4.3的数据资料为例,用频率作为权数计算计算该公司日平均销售量。 C、频率为权数的加权算术平均数 【例4.4】以例4.3的数据资料为例,用频率作为权数计算计算该公司日平均销售量。 表4-3 某公司日平均销售量计算表 按日销售量分组 组中值(Xi) 天数(Fi) Fi/ΣFi 150~160 160~170 170~180 180~190 190~200 155 165 175 185 195 10 25 35 5 0.10 0.25 0.35 0.05 合计 — 100 1.00
特别地,当各组频率相等时,加权平均数就 变为简单算术平均数 3、算术平均数优点和局限性 (1)、确定严密,有确切定义和严密计算 公式,每组数据只有一个平均数 优点 (2)反应灵敏。每个数据的变化都能反映 出来
(3)简明易解。概念简单明白,计算简单 (1)易受极端数据影响 局限性 (2)有模糊不清数据时无法计算
⒈变量值与其算术平均数的离差之和衡等于零,即: 算术平均数的主要数学性质 ⒈变量值与其算术平均数的离差之和衡等于零,即: ⒉变量值与其算术平均数的离差平方和为最小,即:
离差的概念 1 2 3 4 5 6 7 8 3 1 -1 -1 -2
(二)调和平均数 是总体各单位标志值倒数的算术平均数的倒数,又叫倒数平均数 1、调和平均数的含义 【例】 设X=(2,4,6,8),则其调和平均数可由定义计算如下: ⒈求各标志值的倒数 : , , , ⒉再求算术平均数: ⒊再求倒数:
2、调和平均数的计算与应用 A. 简单调和平均数 ——适用于总体资料未经分组整理、尚为原始资料的情况 式中: 为调和平均数; 为变量值 的个数; 为总体单位标志值。
例4-5 某市场黄瓜的价格早、午、晚分别为每千克2. 40、1. 60、1 例4-5 某市场黄瓜的价格早、午、晚分别为每千克2.40、1.60、1.20元,如果某顾客早、午、晚各买一元钱的黄瓜,那么黄瓜平均每千克的价格是多少元?
如果某顾客早、午、晚各买一千克的黄瓜,那么黄瓜平均每千克的价格是 原来只是计算时使用了不同的数据!
式中: 为第 组标志值(或组中值); 为第 组的标志值总和(权数)。 ——适用于总体资料经过分组整理形成变量数列的情况,通常是已知各组的标志值总数,不知各组数据个数 B. 加权调和平均数 式中: 为第 组标志值(或组中值); 为第 组的标志值总和(权数)。
例4-6 某市场黄瓜的价格早、午、晚分别为每千克2. 40、1. 60、1 例4-6 某市场黄瓜的价格早、午、晚分别为每千克2.40、1.60、1.20元,如果该市场早、午、晚各卖出120元、160元、180元,,那么这一天黄瓜平均每千克的价格是多少元?
——当己知各组变量值和标志总量时,作为算术平均数的变形使用。 调和平均数的应用 ——当己知各组变量值和标志总量时,作为算术平均数的变形使用。 因为:
x、f 为已知 若只知 x 和xf ,而f 未知,则不能使用加权算术平均方式,只能使用其变形即加权调和平均方式。 苹果 单价 购买量 总金额 苹果 单价 购买量 总金额 品种 (元)(公斤) (元) 红富士 2 3 6 青香蕉 1.8 5 9 若只知 x 和xf ,而f 未知,则不能使用加权算术平均方式,只能使用其变形即加权调和平均方式。
调和平均数的应用 【例】 某企业某日工人的日产量资料如下: 计算该企业该日全部工人的平均日产量。 日产量(件) 各组工人日总产量(件) 合计 10 11 12 13 14 700 1100 4560 1950 1400 合计 9710 计算该企业该日全部工人的平均日产量。
调和平均数的应用 解 即该企业该日全部工人的平均日产量为12.1375件。
平均数的计算方法 比值 己知 ,采用基本平均数公式 己知 ,采用加权算术平均数公式 己知 ,采用加权调和平均数公式
【例4-7】某公司购进四批同种产品,每批的单位价格及购买金额如下表所示,求这四批商品的平均价格。 商品批次 价格(元/件) x 购买金额 m 购买量 m/x 第一批 第二批 第三批 第四批 146 152 160 170 730 2280 2880 1700 5 15 18 10 合计 — 7590 48
如果【例4-7】已知每批的单位价格及购买量如下表所示,求四批商品的平均价格,则用加权算术平均值
商品批次 价格(元/件) x 购买量 f 购买金额 m=xf 第一批 第二批 第三批 第四批 146 152 160 170 5 15 18 10 730 2280 2880 1700 合计 — 48 7590
分析: 【例4-8】某公司15家企业年产值计划完成情况如下(按计划完成程度分组): 年产值计划完成程度(%) 应采用平均数的基本公式计算 年产值计划完成程度(%) 组中值(%) xi 企业数(个) 实际产值 (万元) 计划产值 90-100 100-110 110-120 95 105 115 5 8 2 840 100 800 合计 --- 15 1050 1000 计算该公司年产值平均计划完成程度。
3、调和平均数的优点和局限性 具有与算术平均数相同的优点。 局限: 1、如果数据分布中有一个标志值为0,则无法计算; 2、易受极端值尤其是极小值的影响,但比算术平均要小。
(三)几何平均数 1、含义 1. 集中趋势的测度值之一 2. N 个变量值乘积的 N 次方根 3. 适用于特殊的数据 1. 集中趋势的测度值之一 2. N 个变量值乘积的 N 次方根 3. 适用于特殊的数据 4.用于计算现象的平均比率或平均速度 5. 计算公式为 6. 可看作是均值的一种变形
——适用于总体资料未经分组整理尚为原始资料且已知每个比率或每个速度的情况 2、几何平均数的计算与应用 A. 简单几何平均数 ——适用于总体资料未经分组整理尚为原始资料且已知每个比率或每个速度的情况 式中: 为几何平均数; 为变量值的个数; 为各个标志值。
【例4-9】某流水生产线有前后衔接的五道工序。某日各工序产品的合格率分别为95﹪、92﹪、90﹪、85﹪、80﹪,求整个流水生产线产品的平均合格率。 分析: 设最初投产100A个单位 ,则 第一道工序的合格品为100A×0.95; 第二道工序的合格品为(100A×0.95)×0.92; …… 第五道工序的合格品为 (100A×0.95×0.92×0.90×0.85)×0.80;
因该流水线的最终合格品即为第五道工序的合格品, 故该流水线总的合格品应为 100A×0.95×0.92×0.90×0.85×0.80; 则该流水线产品总的合格率为: 即该流水线总的合格率等于各工序合格率的连乘积,符合几何平均数的适用条件,故需采用几何平均法计算。
几何平均数的计算方法 思考 若上题中不是由五道连续作业的工序组成的流水生产线,而是五个独立作业的车间,且各车间的合格率同前,又假定各车间的产量相等均为100件,求该企业的平均合格率。
几何平均数的计算方法 分析: 因各车间彼此独立作业,所以有 第一车间的合格品为:100×0.95; 第二车间的合格品为:100×0.92; …… 第五车间的合格品为:100×0.80。 则该企业全部合格品应为各车间合格品的总和,即 总合格品=100×0.95+……+100×0.80
不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。又因为 应采用加权算术平均数公式计算,即
——适用于总体资料经过分组整理形成变量数列的情况 B. 加权几何平均数 ——适用于总体资料经过分组整理形成变量数列的情况 式中: 为几何平均数; 为第 组的次数; 为组数; 为第 组的标志值或组中值。
【例4-10】某金融机构以复利计息。近12年来的年利率有4年为3﹪,2年为5﹪,2年为8﹪,3年为10﹪,1年为15﹪。求平均年利率。 分析: 设本金为V,则至各年末的本利和应为: 第2年的计息基础 第1年末的本利和为: 第2年末的本利和为: 第12年的计息基础 ……… ……… 第12年末的本利和为:
则该笔本金12年总的本利率为: 即12年总本利率等于各年本利率的连乘积,符合几何平均数的适用条件,故计算平均年本利率应采用几何平均法。 解:
思 考 若上题中不是按复利而是按单利计息,且各年的利率与上相同,求平均年利率。 分析 几何平均数的计算方法 设本金为V,则各年末应得利息为: 第1年末的应得利息为: 第2年末的应得利息为: …… …… 第12年末的应得利息为:
则该笔本金12年应得的利息总和为: =V(0.03×4+0.05×2+……+0.15×1) 这里的利息率或本利率不再符合几何平均数的适用条件,需按照求解比值的平均数的方法计算。因为 假定本金为V
所以,应采用加权算术平均数公式计算平均年利息率,即: 解: (比较:按复利计息时的平均年利率为6.85﹪)
3、几何平均数的优点和局限性 凡是标志值的连乘积等于总比率或总速度的现象都可以用几何平均数计算平均比率和速度。 局限: 1、如果数据分布中有一个标志值为0或负数,则无法计算; 2、受极端值影响,但比算术平均和调和平均要小。
四种数值平均数的联系 四种数值平均数均源于一个通式:
四种数值平均数均源于一个通式:
四种数值平均数均源于一个通式:
四种数值平均数均源于一个通式:
k=-1 k=0 k=1 k=2 就同一资料计算时,有: 即:k 值越大,平均数值越大。
设 x 取值为: 4、4、5、5、5、10 算术平均与几何平均更为常用一些,其中几何平均数对小的极端值敏感,算术平均数对大的极端值敏感。 4、4、5、5、5、10 < 算术平均与几何平均更为常用一些,其中几何平均数对小的极端值敏感,算术平均数对大的极端值敏感。
(四)中位数 次序统计量的概念 将变量值按顺序排列起来,当反映分布集中趋势的度量值仅仅由数列中某个位置的值来确定时,这个值就称为次序统计量,也可以称为位置平均数。 位置平均数与数值平均数的基本区别在于其不需要依据每一个变量值来计算。 某系83名女生身高资料(按序排列) 152 154 154 155 155 156 156 156 156 157 158 158 159 159 160 160 160 160 160 160 160 160 160 160 160 160 161 161 161 161 161 161 161 162 162 162 162 162 162 162 162 163 163 163 163 164 164 164 165 165 165 165 165 165 165 165 166 166 166 166 166 167 167 167 168 168 168 168 168 168 168 169 170 170 170 170 170 171 171 172 172 172 174 身高 人数 (CM) (人) 152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高 人数 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1 总计 83
次序统计量的概念 将变量值按顺序排列起来,当反映分布集中趋势的度量值仅仅由数列中某个位置的值来确定时,这个值就称为次序统计量,也可以称为位置平均数。 位置平均数与数值平均数的基本区别在于其不需要依据每一个变量值来计算。 某系83名女生身高资料(按序排列) 152 154 154 155 155 156 156 156 156 157 158 158 159 159 160 160 160 160 160 160 160 160 160 160 160 160 161 161 161 161 161 161 161 162 162 162 162 162 162 162 162 163 163 163 163 164 164 164 165 165 165 165 165 165 165 165 166 166 166 166 166 167 167 167 168 168 168 168 168 168 168 169 170 170 170 170 170 171 171 172 172 172 174 身高 人数 (CM) (人) 152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高 人数 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1 总计 83 数列中点的值 即第42个值
位置平均数 将总体各单位标志值按大小顺序排列后,指处于数列中间位置的标志值,用 表示 中位数 中位数把标志值数列分为两个部分,一部分标志值小于或等于它,另一部分标志值大于或等于它. 中位数的作用: 不受极端数值的影响,在总体标志值差异很大时,具有较强的代表性。
2、中位数的计算与应用 (1 )未分组资料 【例4-11A】某售货小组5个人,某天的销售额按从小到大的顺序排列为440元、480元、520元、600元、750元,则 中位数的位次为: 即第3个单位的标志值就是中位数
【例4-11B】若上述售货小组为6个人,某天的销售额按从小到大的顺序排列为440元、480元、520元、600元、750元、760元,则 中位数的位次为 中位数应为第3和第4个单位标志值的算术平均数,即
(2 )已分组资料 中位数的位次: (A)单项分组数据 【例4-12A 】某企业某日工人的日产量资料如下: 日产量(件) 工人人数(人) 向上累计次数 (人) 10 11 12 13 14 70 100 380 150 170 550 700 800 合计 — 计算该企业该日全部工人日产量的中位数。
方法:先计算累计次数,再按(∑f+1 )/2 确定中位数位次,再按照此位次将按向上 或向下累计的方法计算的累计次数刚好 超过中位数位次的组确定为中位数组,该 组标志即为中位数 【例4-12B 】某大型商场衬衫部两组营业员月 销售衬衫件数资料如下,求每组营业员月销售 衬衫件数的中位数
按件数分组 (件/月) 营业员人数(人) 人数累计(人) 甲组 乙组 180 186 187 189 193 195 3 5 8 7 4 1 6 16 23 27 28 9 15 26 30 合计 —
甲组(∑f+1 )/2=14. 5,位于14和15之间,187件, 乙组(∑f+1 )/2=15 (B) (组距数列) 先计算(∑f+1 )/2,确定中位数所在组,该组上下限规定中位数的取值范围,然后,假定中位数所在组内各数值是均匀分布的前提下,按照下面公式计算中位数近似值。
下限公式 上限公式
注:下限公式适用向上累计的情况,上限公式适用向下累计,一般用下限公式
中位数的确定 【例4-13】某车间50名工人月产量的资料如下: 计算该车间工人月产量的中位数。 月产量(件) 工人人数(人) 向上累计次数 200以下 200~400 400~600 600以上 3 7 32 8 10 42 50 合计 — 计算该车间工人月产量的中位数。
中位数的确定 (组距数列) 中位数下限公式为 该段长度应为 共有单位数 共 个单位 共 个单位 L 组距为i U 中位数组 共 个单位 共 个单位 共 个单位 L 组距为i U 中位数组 共 个单位 共 个单位 共 个单位 假定该组内的单位呈均匀分布
中位数一定存在; 中位数与算术平均数相近; 中位数不受极端值影响; 变量值与中位数离差绝对值之和最小。 缺陷是比较粗略,分组数据计算太麻烦 3、中位数的优点和缺陷 中位数一定存在; 中位数与算术平均数相近; 中位数不受极端值影响; 变量值与中位数离差绝对值之和最小。 缺陷是比较粗略,分组数据计算太麻烦
例: 变量值 3 4 5 5 6 9 10 中位数 5 平均值 6 与中位数离差 -2 -1 0 0 1 4 5 与平均数离差 -3 -2 -1 -1 0 3 4 绝对数值之和 13 14
众数(mode):出现次数最多即出现频率最高的变量值。 (五)位置平均数-众数 指总体中出现次数最多的数据值,用 表示,它不受极端数值的影响,用来说明总体中大多数单位所达到的一般水平。 1、众数含义 众数(mode):出现次数最多即出现频率最高的变量值。
[例4-14]某班学生的身高如下左所示,求众数 2、众数的计算与应用 [例4-14]某班学生的身高如下左所示,求众数 身高 人数 (CM) (人) 152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高 人数 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1 总计 83 152 154 154 155 155 156 156 156 156 157 158 158 159 159 160 160 160 160 160 160 160 160 160 160 160 160 161 161 161 161 161 161 161 162 162 162 162 162 162 162 162 163 163 163 163 164 164 164 165 165 165 165 165 165 165 165 166 166 166 166 166 167 167 167 168 168 168 168 168 168 168 169 170 170 170 170 170 171 171 172 172 172 174
众数的确定方法 [例4-15]某年级83名女生身高资料 总计 83 身高 人数 身高 人数 (CM) (人) (CM) (人) 152 1 身高 人数 (CM) (人) 152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高 人数 (CM) (人) 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1 总计 83
概约众数:众数所在组的组中值,在本例为162.5cm 众数的确定方法 某年级83名女生身高资料 概约众数:众数所在组的组中值,在本例为162.5cm 身高 人数 比重 (CM) (人) (%) 150-155 3 3.61 155-160 11 13.25 160-165 34 40.96 165-170 24 28.92 170以上 11 13.25 总计 83 100
众数的确定 1、单值数列 【例4-16】已知某企业某日工人的日产量资料如下: 日产量(件) 工人人数(人) 10 11 12 13 14 70 100 380 150 合计 800 计算该企业该日全部工人日产量的众数。
概约众数:众数所在组的组中值,在本例为500件 众数的确定 2、组距数列 【例B】某车间50名工人月产量的资料如下: 月产量(件) 工人人数(人) 向上累计次数 (人) 200以下 200~400 400~600 600以上 3 7 32 8 10 42 50 合计 — 计算该车间工人月产量的众数。
众数的原理及应用 83名女生身高原始数据 83名女生身高组距数列
当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数) 众数的原理及应用 当数据分布的集中趋势不明显或存在两个以上分布中心时,不适合使用众数(前者无众数,后者为双众数或多众数,也等于没有众数) 当数据分布存在明显的集中趋势,且有显著的极端值时,适合使用众数;
(无众数) 众数的原理及应用 没有突出地集中在某个年份 413名学生出生时间分布直方图 出生 1981.0 1980.0 1979.0 1978.0 1977.0 1976.0 1975.0 160 140 120 100 80 60 40 20 没有突出地集中在某个年份 413名学生出生时间分布直方图
(双众数) 出现了两个明显的分布中心 413名学生的身高分布直方图 当数据分布呈现出双众数或多众数时,可以断定这些数据来源于不同的总体。 192.5 190.5 188.5 186.5 184.5 182.5 180.5 178.5 176.5 174.5 172.5 170.5 168.5 166.5 164.5 162.5 160.5 158.5 156.5 154.5 152.5 150.5 148.5 60 50 40 30 20 10 413名学生的身高分布直方图 (双众数) 当数据分布呈现出双众数或多众数时,可以断定这些数据来源于不同的总体。
集中趋势弱、离散趋势强 集中趋势强、离散趋势弱
3、众数的优点和局限性 1、不受极端值的影响。 2、对品质标志指标可以用众数 3、可用于开口组的分组数据资料 局限性 1、只适合于总体单位多,集中趋势明显的数据 2、当数据重复时,会存在多个众数。 3、对分组数据资料,只使用了众数组信息,缺乏敏感性
三、众数、中位数和算术平均数的比较 (一)众数、中位数和算术平均数的关系 左偏分布 对称分布 右偏分布 均值 中位数 众数 均值 = 中位数 Shape Concerned with extent to which values are symmetrically distributed. Kurtosis The extent to which a distribution is peaked (flatter or taller). For example, a distribution could be more peaked than a normal distribution (still may be 慴ell-shaped). If values are negative, then distribution is less peaked than a normal distribution. Skew The extent to which a distribution is symmetric or has a tail. Values are 0 if normal distribution. If the values are negative, then negative or left-skewed.
(二)众数、中位数和算术平均值的 特点和应用 1、中位数 不受极端值影响 数据分布偏斜程度较大时应用 2、均值 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用 3、众数 具有不唯一性
数据类型与集中趋势测度值 数据类型和所适用的集中趋势测度值 数据类型 分类数据 顺序数据 间隔数据 比率数据 适 用 的 测 度 值 ※众数 ※中位数 ※均值 — 众数 调和平均数 中位数 几何平均数
四、正确运用集中趋势指标的原则 1、统计平均数只能用于同质的总体 2、使用统计平均数应和次数分布结合 3、使用统计平均数应和分组法结合,用组平均数或组中值补充说明总平均数,如P67
小结和作业 小结 1、算术平均数、调和平均数、几何平均数、中位数、众数的概念和计算 2、算术平均数、中位数、众数的比较 作业:P76:1、2、3
第八讲 第二节 离中趋势指标 目的:掌握离中趋势指标的概念、特点、计算 重点:极差、平均差、标准差、方差 难点:标准差系数
第二节 离中趋势指标 一、离中趋势指标概述 (一)离中趋势指标概念 第二节 离中趋势指标 平均指标是一个代表性数值,它反映总体各单位某一数量标志的一般水平,而把总体各单位之间的差异抽象化了。但总体各单位之间的差异是客观存在的,这种差异也是统计总体的重要特征之一。因此,要全面反映一个总体的特征,还必须测定总体各单位之间差异程度。 一、离中趋势指标概述 统计上用来反映总体各单位标志值之间差异程度大小的综合指标,也称做标志变异指标。 (一)离中趋势指标概念
(二)、离中趋势指标作用 1、说明数据分布的离散程度 2、衡量平均数代表性的大小 3、反映社会经济活动过程的均衡性和稳定性 4、确定统计推断的准确程度
测定标志变异度的绝对量指标(与原变量值名数相同) 测定标志变异度的相对量指标(表现为无名数) 离中趋势指标的种类 测定标志变异度的绝对量指标(与原变量值名数相同) 测定标志变异度的相对量指标(表现为无名数) 极差 平均差 标准差 全距 系数 平均差 标准差
指所研究的数据中,最大值与最小值之差,又称全距。 (一)极差 二、离中趋势指标的的计算与应用 指所研究的数据中,最大值与最小值之差,又称全距。 (一)极差 最大变量值或最高组上限或开口组假定上限 最小变量值或最低组下限或开口组假定下限 【例A】某售货小组5人某天的销售额分别为440元、480元、520元、600元、750元,则
【例B】某季度某工业公司18个工业企业产值计划完成情况如下: 计划完成程度 (﹪) 组中值 企业数 (个) 计划产值 (万元) 90以下 90~100 100~110 110以上 85 95 105 115 2 3 10 800 2500 17200 4400 合计 — 18 24900 计算该公司该季度计划完成程度的全距。
极差的特点 优点:计算方法简单、易懂; 缺点:易受极端数值的影响,不能全面反映所有标志值差异大小及分布状况,准确程度差 往往应用于生产过程的质量控制中
是各个数据与其算术平均数的离差绝对值的算术平均数,用M.D 表示 平均差 (二)平均差 是各个数据与其算术平均数的离差绝对值的算术平均数,用M.D 表示 平均差 计算公式: ⑴ 简单平均差——适用于未分组资料 总体算术平均数 第 个单位的变量值 总体单位总数
【例A】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的平均差。 解: 即该售货小组5个人销售额的平均差为93.6元
平均差的计算公式 ⑵ 加权平均差——适用于分组资料 总体算术平均数 第 组的变量值或组中值 第 组变量值出现的次数
【例4-18】计算表中某公司职工月工资的平均差 月工资(元) 组中值(元) 职工人数(人) 300以下 300~400 400~500 500~600 600~700 700~800 800~900 900以上 250 350 450 550 650 750 850 950 208 314 382 456 305 237 78 20 合计 — 2000
解: 即该公司职工月工资的平均差为138.95元
一般情况下都是通过计算另一种标志 变异指标——标准差,来反映总体内 部各单位标志值的差异状况 3、平均差的特点 优点:不易受极端数值的影响,能综合反映全部单位标志值的实际差异程度; 缺点:用绝对值的形式消除各标志值与算术平均数离差的正负值问题,不便于作数学处理和参与统计分析运算。 一般情况下都是通过计算另一种标志 变异指标——标准差,来反映总体内 部各单位标志值的差异状况
是各个数据与其算术平均数的离差平方的算术平均数的开平方根,用 来表示;标准差的平方又叫作方差,用 来表示。 标准差 (三)标准差和方差 是各个数据与其算术平均数的离差平方的算术平均数的开平方根,用 来表示;标准差的平方又叫作方差,用 来表示。 标准差 计算公式: ⑴ 简单标准差——适用于未分组资料 第 个单位的变量值 总体单位总数 总体算术平均数
【例4-19】某售货小组5个人,某天的销售额分别为440元、480元、520元、600元、750元,求该售货小组销售额的标准差。 解: 即该售货小组销售额的标准差为109.62元。 (比较:其销售额的平均差为93.6元)
标准差的计算公式 ⑵ 加权标准差——适用于分组资料 第 组的变量值或组中值 总体算术平均数 第 组变量值出现的次数
【例4-20】计算下表中某公司职工月工资的标准差。 月工资(元) 组中值(元) 职工人数(人) 300以下 300~400 400~500 500~600 600~700 700~800 800~900 900以上 250 350 450 550 650 750 850 950 208 314 382 456 305 237 78 20 合计 — 2000
解: 即该公司职工月工资的标准差为167.9元。 (比较:其工资的平均差为138.95元)
由同一资料计算的标准差的结果一般要略大于平均差。 标准差的特点 能综合反映全部单位标志值的实际差异程度; 用平方的方法消除各标志值与算术平均数离差的正负值问题,可方便地用于数学处理和统计分析运算. 由同一资料计算的标准差的结果一般要略大于平均差。 证明:当a,b,c≥0时,有
标准差的简捷计算 避免离差平方和计算过程的出现 目的: 变量值平方的平均数 变量值平均数的平方 简单标准差 加权标准差
测定标志变异度的绝对量指标(与原变量值名数相同) 测定标志变异度的相对量指标(表现为无名数) 标志变异指标的种类 测定标志变异度的绝对量指标(与原变量值名数相同) 全距 平均差 标准差 测定标志变异度的相对量指标(表现为无名数) 全距 系数 平均差 系数 标准差 系数
可比 标准差系数指标
(四)标准差系数 身高的差异水平:cm 用离散系数可以相互比较 可比 体重的差异水平:kg
用来对比不同水平的同类现象,特别是不同类现象总体平均数代表性的大小: ——标准差系数小的总体,其平均数的代表性大;反之,亦然。 各种变异指标与其算术平均数之比。一般用V表示。 离散系数 平均差系数 标准差系数 用来对比不同水平的同类现象,特别是不同类现象总体平均数代表性的大小: ——标准差系数小的总体,其平均数的代表性大;反之,亦然。 应用:
【例4-21】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15. 6分和14 【例4-21】某年级一、二两班某门课的平均成绩分别为82分和76分,其成绩的标准差分别为15.6分和14.8分,比较两班平均成绩代表性的大小。 解: 一班成绩的标准差系数为: 二班成绩的标准差系数为: 因为 ,所以一班平均成绩的代表性比二班大。
为研究是非标志总体的数量特征,令 是非标志总体 指总体中全部单位只具有“是”或“否”、“有”或“无”两种表现形式的标志,又叫交替标志 性别:男、女(非男)产品质量:合格、不合格 1 0 1 0 为研究是非标志总体的数量特征,令 分组 单位数 变量值 具有某一属性 不具有某一属性 1 合计 —
指是非标志总体中具有某种表现或不具有某种表现的单位数占全部总体单位总数的比重 成数 是非标志总体的指标 指是非标志总体中具有某种表现或不具有某种表现的单位数占全部总体单位总数的比重 成数 具有某种标志表现的 单位数所占的成数 不具有某种标志表现 的单位数所占的成数
是非标志总体的指标 平均数 标 准 差
是非标志总体的指标 方差 标准差系数
是非标志总体的指标 【例】某厂某月份生产了400件产品,其中合格品380件,不合格品20件。求产品质量分布的集中趋势与离中趋势。 解:
对称的、高度适中的分布 非对称的,偏斜的分布 既偏斜又低平的分布
第三节 偏态与峰度 偏态 指分布数列的不对称性。 对称的、高度适中的分布 非对称的,偏斜的分布 既偏斜又低平的分布
SK 偏度(skewness):度量数据分布非对称方向及程度的指标。
动差法偏度的计算: 一阶中心矩衡为零,偶数阶中心矩为正数,奇数阶中心矩可以反映分布偏度。 《统计学》第二章 统计数据 动差法偏度的计算: 三阶中心矩有计量单位,不便于比较,故用具有相同单位的3相除,去掉单位
K 在正态分布情况下: 因此有: 高峰态 低峰态 峰度(qurtosis):描述数据分布峰态的指标,也是度量数据分布集中程度的指标。
统计动差(矩):利用力的动差来反映数据分布特征的指标。它以次数 f 为作用力,以变量x 为力臂,并以总次数为单位计算平均动差。 称为随机变量 x 对a 的 k 阶矩(动差)。 作用力 2kg 4kg -4 -3 -2 -1 0 1 2 3 4 令a=0,则称为 k 阶原点矩 k 力臂 统计动差(矩):利用力的动差来反映数据分布特征的指标。它以次数 f 为作用力,以变量x 为力臂,并以总次数为单位计算平均动差。 令a= ,则称为 k 阶中心矩 k
常用的矩:
小结和作业 小结 1、极差、平均差、标准差、方差的概念和计算 作业:P76:5