Download presentation
Presentation is loading. Please wait.
Published by耶顾 暴 Modified 7年之前
1
第三节 平均指标与标志变异指标 一、集中趋势的代表值 ── 平均指标 常用方法有:算术平均数、调和平均数、中位数和众数等。 (一)算术平均数
第三节 平均指标与标志变异指标 一、集中趋势的代表值 ── 平均指标 常用方法有:算术平均数、调和平均数、中位数和众数等。 (一)算术平均数 它是同质总体内各单位某类变量分布集中趋势的代表值,它是同质总体内某类变量所有变量值的平均数。 例如, 甲数列:68、69、70、71、72, = 70 乙数列:50、60、70、80、90, = 70 绘制成线段如图3-1所示。 甲 乙 图3-1
2
因此,统计平均数是对变量数列围绕中心值分布状况的一种统计描述。
图3-1显示:甲数列集中程度大,乙数列离散程度大。 算术平均数是测定集中趋势最常用的代表值,它的实质是把同质总体中各单位变量值的差异(离差)正负相互抵消后反映变量集中趋势中心点的代表值。如甲、乙两数列: 甲数列:68、 69、 70、 71、 72, = 70 离差: 乙数列:50、 60、 70、 80、 90, = 70 离差: 因此,统计平均数是对变量数列围绕中心值分布状况的一种统计描述。
3
1.简单算术平均数 用字母表示为: 式中: —— 算术平均数; xi —— 表示第i个变量值; n —— 总频数; Σ —— 加总符号。 代入数值为: 甲: = = 70 乙: = = 70 =
4
2.加权算术平均数 (1)根据单项变量分布数列计算算术平均数 用字母表示: = 式中:fi——第i组的变量值出现的次数,即频数。 利用分组数据计算算术平均数的过程是: ①表内,根据x 栏与f 栏内数值计算出xf栏内数值。Xf 栏为各组变量总值, Xf 栏的合计数为总体变量总值。 ②表外,将Σ Xf (变量总值)和Σf(总频数)代入公式,计算出算术平均数 。 例:某生产组10名工人生产甲产品,日产量分组资料 如表3-5所示。试计算工人平均日产量。
5
计算表明,平均日产量26件趋近工人数最多即频数最大的那个变量值30件。若本例各变量值x不变,各组工人数f 的分布变化,可得表3-6。
表 加权算术平均数计算表 = = = 26 (件) 计算表明,平均日产量26件趋近工人数最多即频数最大的那个变量值30件。若本例各变量值x不变,各组工人数f 的分布变化,可得表3-6。 日产量(件)xi 工人数(人)fi Xi · fi 10 1 20 2 40 30 7 210 合 计 260
6
计算表明,平均日产量14件趋近于工人数最多即频数最大的变量值10件。 日产量(件)xi 工人数(人)fi Xi · fi 10 7 70
表3-6 加权算术平均数计算表 根据表3-6资料计算平均日产量为: = = 14(件) 计算表明,平均日产量14件趋近于工人数最多即频数最大的变量值10件。 日产量(件)xi 工人数(人)fi Xi · fi 10 7 70 20 2 40 30 1 合 计 140
7
权数不仅可以用绝对数f 表示,也可用相对数即频率f/Σf表示。即:
由上例可以看出,用分组数据计算平均数,平均值的大小受两个因素影响:一个是各组变量值x,另一个是各组次数即频数f的影响。当各组变量值x 不变时,各组次数即频数f 对平均值 的大小起着权衡轻重的作用。因此,次数f 称为权数,这种方法称为加权算术平均法。 权数不仅可以用绝对数f 表示,也可用相对数即频率f/Σf表示。即: = =
8
例 如表3-7所示。 = = 26(件) 日产量(件)xi 工人数(人)fi fi/Σfi xi·( fi/Σfi) 10 1 0.1 20
例 如表3-7所示。 表 加权算术平均数计算表 = = 26(件) 日产量(件)xi 工人数(人)fi fi/Σfi xi·( fi/Σfi) 10 1 0.1 20 2 0.2 4 30 7 0.7 21 合 计 1.0 26
9
若掌握组距数列资料,计算方法是:先计算组中值xi ,然后再按上述方法计算加权算术平均数。如表3-8所示。
(2)根据组距式变量分布数列计算加权算术平均数 若掌握组距数列资料,计算方法是:先计算组中值xi ,然后再按上述方法计算加权算术平均数。如表3-8所示。 表3-8 组距数列加权算术平均数计算表 日产量 (件) 组中值(件)x 工人数(人) xf x·f/ Σf f f/Σf 400以下 350 5 0.083 1750 29.05 400~500 450 13 0.217 5850 97.65 500~600 550 18 0.300 9900 165.00 600~700 650 15 0.250 9750 162.50 700~800 750 7 0.117 5250 87.75 800以上 850 2 0.033 1700 28.05 合 计 — 60 1.000 34200 570.00
10
缺下限组组中值 = 上限–邻组组距/2 = 400–100/2 = 350(件)
①计算组中值: 缺下限组组中值 = 上限–邻组组距/2 = 400–100/2 = 350(件) 缺上限组组中值 = 下限–邻组组距/2 = 800–100/2 = 850(件) 上下限齐全组组中值 =(上限+下限)/2 = ( )/2 = 450(件) … … ②计算平均数: = = 34200/60 = 570(件) = = 570(件)
11
算术平均数 = 变量值总量 / 单位总量 (二)算术平均数的变形 ─ 调和平均数
综上,简单算术平均数与加权算术平均数之间没有根本区别,因为一个变量值乘上一个频数(权数)与多次加总同一个变量值是意义相同的。它们的基本公式都是相同的: 算术平均数 = 变量值总量 / 单位总量 (二)算术平均数的变形 ─ 调和平均数 在实际工作中有时由于资料的原因不能直接计算算术平均数,可采用调和平均数的形式间接算出算术平均数,其计算结果与算术平均数相同。因此,在这种情况下调和平均数的应用是算术平均数的变形形式。如表3-9所示。 表3-9 同种商品价格及销售额资料 商场名称 价格(元)x 销售额(元)m 甲 0.80 16000 乙 1.00 21000 丙 1.20 21600 合 计 — 58600
12
Σm 是变量总值,因为m =xf ,所以m/x =f 是各组频数,Σm/x是总次数。由此可见,调和平均数是算术平均数的变形形式。
调和平均数的计算方法如表3-10所示。 表 调和平均数计算表 Σm 是变量总值,因为m =xf ,所以m/x =f 是各组频数,Σm/x是总次数。由此可见,调和平均数是算术平均数的变形形式。 加权调和平均数的计算方法为: 平均价格 = = 58600/59000 = 0.99(元/件) 商场名称 价格(元)x 销售额(元)m 销售量(件)m/x 甲 0.80 16000 20000 乙 1.00 21000 丙 1.20 21600 18000 合 计 — 58600 59000
13
调和平均数有以下特点: 1.调和平均数易受极端值影响,当变量呈明显偏态时它的代表性会受影响。 2.当变量中有0值时,调和平均数无法计算。 (三)几何平均数:在第六章中介绍。 (四)中位数和众数(略) 本小节小结 算 术 由于在计算时所有变量值均参加了计算, 集 平均数 因此,算术平均数能够代表所有的变量 中 平均值 值。算术平均数对极端值反应很灵敏。 趋 调和均值: 调和平均数是算术平均数的变形。 势 中位数是各变量值中央位置的代表值, 测 位置值 中位数 不受极端值影响。众数是出现次数最多 度 众 数 的变量值,不受极端值影响。
14
极差也称全距,是变量值中最大值与最小值之差。用公式表示为:全距(R)= 最大变量值 - 最小变量值。如:
二、离中趋势的代表值——标志变异指标 均值是描述变量分布集中趋势,标准差是描述变量分布离中趋势,两者相辅相成共同反映变量分布特征的一对对立统一的代表值。描述离中趋势的代表值常用的有:极差、标准差和离散系数等。 (一)极差 极差也称全距,是变量值中最大值与最小值之差。用公式表示为:全距(R)= 最大变量值 - 最小变量值。如: 甲数列: 50 、60 、70 、80 、90 , R = = 40 乙数列: 68 、69 、70 、71 、72 , R = = 4 组距数列计算全距: 全距(R)= 最高值组上限值 - 最低值组下限值。如表3-11: 表 名工人日产量资料 产量(件) 50~60 60~70 70~80 80~90 90~100 合计 人数(人) 2 8 16 10 4 40
15
R = = 50(件) 用离差评价变量的离散状况:极差值越小表明变量值离散范围小,离散程度小,变量值集中,平均数代表性大;极差值越大,表明变量值离散范围大,离散程度大,变量值分散,平均数代表性小。极差值对极端值反应灵敏。 (二)方差和标准差 方差和标准差是最重要、最常用的离中程度的度量方法,多用于以算数平均数为集中趋势度量的场合。 1.方差 它是各变量值相对于平均数的离差的平方的平均数,方差习惯上用字母“σ2 ”表示。它的计算过程是:先用各个变量值xi减去其平均数 ,得出离差xi- 。而离差有正、负之分,为了防止正、负离差相互抵消,可取离差的平方值(xi- )2,最后用离差平方之和除以项数n 或总次数Σf 可得方差。
16
(1)简单式方差: σ2 = (2)加权式方差: 2.标准差 标准差是方差的平方根,其计算公式为: (1)简单式方差: σ= (2)加权式方差: 3.标准差的计算方法 (1)简单式标准差: 计算过程如表3-12、3-13所示。
17
σ= = 14.14(件) = 350/5=70(件) 日产量(件)xi 离差(xi- ) 离差平方(xi- )2 50 -20 400
表 甲组简单式标准差计算表 = 350/5=70(件) σ= = 14.14(件) 日产量(件)xi 离差(xi- ) 离差平方(xi- )2 50 -20 400 60 -10 100 70 80 10 90 20 合 计 Σ — 1000
18
计算表明,乙组比甲组标准差小,则乙组比甲组离中程度小,即乙组变量值分布范围比甲组集中,乙组平均数代表性大。 日产量(件)xi
表3-13 乙组简单式标准差计算表 = 350/5=70(件) σ= = 1.414(件) 计算表明,乙组比甲组标准差小,则乙组比甲组离中程度小,即乙组变量值分布范围比甲组集中,乙组平均数代表性大。 日产量(件)xi 离差(xi- ) 离差平方(xi- )2 68 -2 4 69 -1 1 70 71 72 2 合 计 Σ — 10
19
产量(件) xi 人数(人) fi 总产量(件) xi fi 离差(件)xi- 离差平方(xi- )2 离差平方加权(xi- )2fi 12
(2)加权式标准差(计算过程如表3-14)。 表 单项数列标准差计算表 产量(件) xi 人数(人) fi 总产量(件) xi fi 离差(件)xi- 离差平方(xi- )2 离差平方加权(xi- )2fi 12 1 -4 16 13 2 26 -3 9 18 14 3 42 -2 4 15 60 -1 5 80 17 68 54 19 38 20 合计 25 400 ─ 100
20
= 400/25 = 16(件) σ= = = 2(件) 计算公式如下: 由组距式变量数列计算标准差,见表3-15。
σ= = = 2(件) 由组距式变量数列计算标准差,见表3-15。 表 组距变量数列标准差计算表 = 3100/100 = 31(千克) 日产量(千克) 人数(人)fi 组中 值xi xi fi xi- (xi- )2 (xi- )2fi 15~25 20 400 -11 121 2420 25~35 50 30 1500 -1 1 35~45 40 1200 9 81 2430 合 计 100 ─ 3100 4900
21
σ= = 7(千克) (三)离散系数 若研究的总体不同,或计量单位不同,或平均数相差悬殊,它们离中趋势的绝对数是不可以比较的。为此,要计算离中趋势的相对数,即离散系数。 离散系数有几种,常用的是标准差系数,它是标准差除以平均数表明每单位平均数的离散程度,用百分数表示,是变量分散性的相对程度度量。标准差系数常用字母“Vσ”表示,计算公式为: Vσ = ×100% 1.比较总体相同,计量单位不同两组变量数列的离散程度 例如,某市6岁男童体重与身高资料如下: 平均数 标准差 体重: 千克 千克 身高: 厘米 厘米
22
表3-16 成人组身高标准差计算表(单位:厘米)
标准差系数为: 体重: Vσ = 2.16/19.39×100% = 11.14% 身高: Vσ = 4.86/115.87×100% = 4.19% 计算表明体重变异大于身高变异。 2.比较计量单位相同平均数差异大的两组变量的离散程度 例如,表3-16和表3-17两组资料。 表 成人组身高标准差计算表(单位:厘米) 身高xi xi- (xi - )2 164 -4 16 166 -2 4 168 170 2 172 合 计 ─ 40
23
= 73(厘米) σ= 1.414(厘米) 标准差系数为: 成人组 Vσ = 1.68% 幼儿组 Vσ = 1.94%
= 168(厘米) σ= 2.828(厘米) 表 幼儿组身高标准差计算表 = 73(厘米) σ= 1.414(厘米) 标准差系数为: 成人组 Vσ = 1.68% 幼儿组 Vσ = 1.94% 计算表明成人组身高离散程度小于幼儿组。 身高xi xi- (xi - )2 71 -2 4 72 -1 1 73 74 75 2 合 计 ─ 10
24
计算表明,甲国企业员工月平均收入离散程度小。 本小节小结: (一)离散程度的实质
3.比较总体不同、计量单位也不同的两组变量的离散程度 例如,甲国某企业员工月平均收入3000美元,标准差180美元;乙国某企业员工月平均收入7500欧元,标准差600欧元,问哪国员工月平均收入离散程度小? 甲国 Vσ = 6% 乙国 Vσ = 8% 计算表明,甲国企业员工月平均收入离散程度小。 本小节小结: (一)离散程度的实质 标准差可以概括地、直接地、平均地描述变量发布的离散程度,是各变量值xi距离它们的平均数 远近的一种尺度。概率论指出,在正态分布中68%的变量值分布在距离平均数一个σ值的范围内,95%的变量值分布在距离平均数两个σ值的范围内,其余的5%远离平均数。
25
平均数通常可用来寻找变量分布的中心值;标准差则度量了各变量值对于平均数的分布程度。两者关系用正态分布图展示:
(二)平均数与标准差 平均数通常可用来寻找变量分布的中心值;标准差则度量了各变量值对于平均数的分布程度。两者关系用正态分布图展示: 68% 95% 99%
26
本章小结: (一)总体变量分布特征的统计描述 将采集到的资料整理成变量数列后,呈现给我们的只是一个总体变量分布形态,进一步研究总体变量分布的规律性,就会发现总体变量分布具有集中趋势和离中趋势两个方面的特征。因此 就需要对总体变量分布特征进行集中趋势和离中趋势的描述—— 平均指标和变异指标。 平均值——算术、调和、几何平均 集中趋势测度 位置值——中位数、重数 总体变量 分布特征 绝对数——全距 离中趋势测度 平均数——标准差 相对数——标准差系数
27
加权调和平均: = 用 对变量值倒数 加权平均;
(二)权数的意义 加权算术平均: = 用 对变量值x加权平均; 加权调和平均: = 用 对变量值倒数 加权平均; 加权标准差:σ= 用 对离差 加权平均。
Similar presentations