第一节 分布的集中趋势 第二节 分布的离散程度 第三章 统计分布的数值特征 第一节 分布的集中趋势 第二节 分布的离散程度
本章主要内容 本章包括平均指标和变异指标两部分内容,阐述了平均指标的概念和作用;各种平均数的计算原则、方法与应用条件;主要的平均指标(算术平均数、调和平均数、几何平均数、众数和中位数);变异指标的作用、计算方法和运用条件;主要的变异指标(极差、平均差、标准差及其系数)。
第一节 分布的集中趋势 一、统计平均数的概述 二、数值平均数 三、位置平均数 四、各种平均数比较
一、统计平均数的概述 (一)平均数的概念 同类社会经济现象总体内,各单位某一数 量标志的差异抽象化,用以反映总体在具 体条件下的一般水平。 它是度量总体某一数量标志在一定条件下的一 般水平或分布集中趋势的综合指标。
统计学家与数学家 一名统计学家遇到一位数学家,统计学家调侃数学家说道:“你们不是说若X=Y且Y=Z,则X=Z吗!那么想必你若是喜欢一个女孩,那么那个女孩喜欢的男孩你也会喜欢喽!?” 数学家想了一下反问道:“那么你把左手放到一锅一百度的开水中,右手放到一锅零度的冰水里想来也没事吧!因为它们平均的温度不过是五十度而已!”
调侃统计学家 如果你的腳已經踩在爐子上,而頭卻在冰箱裡,統計學家會告訴你,平均而言,你相當舒服。
(二)平均数的种类 根据各种平均数的具体代表意义和计算方 式的不同,统计平均数分为两大类: 算术平均数 调和平均数 数值平均数 几何平均数 调和平均数 数值平均数 几何平均数 众数 中位数 位置平均数 分位数
(三)平均数的特点 1.将数量差异抽象化 2.只能就同类现象计算 3.能反映总体变量值的集中趋势
二、数值平均数 (一)概述 1.定义 数值平均数是由统计数据集合中的所有数据参与 计算所得的平均数。 2.常用的数值平均数有: 算术平均数、调和平均数和几何平均数
(二)算术平均数 1.概念 算术平均数是全部数据的算术平均。 基本公式: e.g.
2.算术平均数的计算方法 (1)简单算术平均数 如果掌握的资料没有经过分组,则先将各单位的标志值相加得出标志总量,然后再除以总体单位数,得到的平均数称为简单算术平均数。
简单算术平均数的计算公式:
[例3—1]某机械厂某生产班组有10名工人,生产某种零件,每个工人的日产量分别为45件,48件,52件,62件,69件,44件,52件,58件,38件,64件。试用简单算术平均数法计算工人平均日产量。
(2)加权算术平均数 如果掌握的资料是经过分组整理编成了分布数列,并且每组频数不同时,用频数(率)进行加权计算的算术平均数称为加权算术平均数。
a.加权算术平均数计算 公式1:
①单项式数列的算术平均数 例:某机械厂工人日产零件数的分配数列。 —公式: 权数 加权
②组距式加权算术平均数 例:某年我国80个产棉 大县的分配数列如表。 假定各组标志值在组内分布 术平均数只是其真值的 近似值。 以组中值作为各组的代表值, 假定各组标志值在组内分布 是均匀的。此时求得的算 术平均数只是其真值的 近似值。
公式2
[例 3-3]某企业工人操作机床的情况见下表,计算平均每位工人操作机床数。 注意比重转化为小数再计算
b.权数及作用 权数:加权算术平均数中的权数,是标志值出现的频数(次数) f 或各组次数占总次数的比重(频率) 。 权数的作用:权衡平均数大小。 某一组的次数或频率越大,则该组的标志值对平均数的影响就越大,反之越小。
c.影响加权算术平均数大小的因素 加权算术平均数的大小受两个因素影响 ① 受单位标志值大小的影响。 ② 受各标志值频数的影响,更准确的讲是受各组频数占总频数比重即频率的影响。
d.加权算术平均数适用 分组的统计资料,如果已知各组的代表变量值和频数(频率),则可采用加权算术平均数计算。 已知频数用公式1。 已知频率用公式2。
e.简单与加权算术平均数相等的条件 在分组的条件下,当各组频数所占比重均相等时,权数就失去了权衡轻重的作用,这时用加权算术平均数计算的结果与用简单算术平均数计算的结果相同。 当分布数列完全对称时,加权算术平均数的计算结果与简单算术平均数计算结果相同。
3.算术平均数的数学性质 各个变量值与算术平均数的离差总和等于零。 各个变量值与算术平均数的离差平方总和为最小值。 两个独立的同性质变量代数和的平均数等于各变量平均数的代数和。 两个独立的同性质变量乘积的平均数等于各变量平均数的乘积。
(二)调和平均数 1.概念 调和平均数是变量值倒数的算术平均数的倒数,故又称倒数平均数。 调和平均数是算术平均数的一种,它是根据变量值的倒数计算的。 原来只是计算时使用了不同的数据!
2.调和平均数的计算 (1)简单调和平均数
(2)加权调和平均数
3.应用场合 例:某工厂工人日产零件数资料 作为算术平均数的变形使用。 已知分配数列各组标志值及 其标志总量时,计算平均数 可用加权调和平均法,权数 m为各组的标志总量。 即:
4.调和平均数的特点 如果数列中有一个标志值等于零,则无法计算调和平均数。 它作为一种数值平均数受所有标志值的影 响,且受极小值的影响大于受极大值的影响,但较之算术平均数,调和平均数受极端值的影响较小。
说明: 算术平均数和调和平均数不仅可以用于计 算严格意义上的单位标志平均数,而且还 可以用于计算平均指标和相对指标的平均 数,算的时候并不要求符合平均数的基本 公式。 下面仅举例子说明!
1.由平均数计算平均数 e.g.已知某商品在三个 集贸市场上的平均价 格及销售量资料如 右表: 求三个市场的平均价 格。 x f m 甲 平均价格 x 销售量 f 销售额 m 甲 2.00 30000 60000 乙 2.50 20000 50000 丙 2.40 25000 合计 - 75000 170000 e.g.已知某商品在三个 集贸市场上的平均价 格及销售量资料如 右表: 求三个市场的平均价 格。
2.由相对数计算平均数 工厂 计划完成程度(%) x 计划产值 f 实际产值 m 甲 95 1200 1140 乙 105 12800 13440 丙 115 2000 2300 合计 - 16000 16880 e.g.某工业公司有三个 工厂,已知其计划完 成程度(%)以及计 划产值资料如 右表: 求该公司平均计划完 成程度。
小 结 计算相对指标(或平均指标)的平均数的 一般方法可以概括如下: 小 结 计算相对指标(或平均指标)的平均数的 一般方法可以概括如下: (1)若已知的是相对指标(或平均指标)的分母资料时,可将其作为权数,采用加权算术平均法计算; (2)若已知的是相对指标(或平均指标)的分子资料时,可将其作为权数,采用加权调和平均数法计算。
1.某蔬菜市场三种蔬菜的日销售数据如表,计算三种蔬菜该日的平均价格。 例题 1.某蔬菜市场三种蔬菜的日销售数据如表,计算三种蔬菜该日的平均价格。 某日三种蔬菜的销售数据 蔬菜 名称 平均价格(元/kg) xi 销售额(元) mi 销售量(公斤) xi /mi 甲 乙 丙 1.20 0.50 0.80 18000 12500 6400 15000 25000 8000 合计 — 36900 48000
2.设某公司下属三个部门的销售资料如下表,求公司的平均销售利润率。 某公司下属三个部门销售情况 部 门 销售利润率(%) 销售额(万元) x f A B C 12 10 7 1000 2000 1500 合 计 - 4500
三个部门的平均利润率即是公司的销售利润率。所以可用各部门的利润率乘以销售额得到各部门的利润额,然后用各部门利润总额除以总销售额便可得到平均利润率。其计算公式为:
如果上例若缺少销售额资料而有利润额资料, 如下表 某公司下属三个部门销售情况 部 门 销售利润率(%) 利润额(万元) x m A B C 12 10 7 120 200 105 合 计 - 425
则三个部门的平均利润率可以用各部门利润额除以销售利润率得到销售额,然后用各部门利润之和除以总销售额,便可得到平均利润率。其计算公式:
3.某管理局所属15个企业销售计划完成情况资料如下表: 权数的正确选择很重要
调和平均数 (例题分析) (1)若各买1公斤,平均每元可买多少公斤? (2)各买6.5公斤,平均每元可买多少公斤? 【例3-4】水果甲级每元1公斤,乙级每元1.5公斤,丙级每元2公斤。问: (1)若各买1公斤,平均每元可买多少公斤? (2)各买6.5公斤,平均每元可买多少公斤? (3)甲级3公斤,乙级2公斤,丙级1公斤,平均每元可买多少公斤? (4)甲乙丙三级各买1元,每元可买几公斤? 【例3-5】自行车赛时速:甲30公里/小时,乙28公里/小时,丙20公里/小时,全程200公里,问三人平均时速是多少?若甲乙丙三人各骑车2小时,平均时速是多少?
【例3-4】解 (1) (2) (3) (4)
【例3-5】解
(三)几何平均数 1.概念 几何平均数又称为对数平均数,它是n个变量值连乘积的n次算术根。 2.适用范围 它是计算平均比率和平均速度时比较适用的一种方法。
3.几何平均数的计算方法 (1)简单几何平均数
【例3-6】谋生产车间生产某产品合格率分别为:97%、93%、91%和87%,则该车间制品平均合格率为:
(2)加权几何平均数
【例3-7】投资银行某笔投资是按复利计算的,25年间 年利率的分配情况是:有1年为3%,有4年为5%,有 8年为8%,有10年为10%,有2年为15%。求平均年 利率。 计算平均年利率,必须先将各年的利率加上100%,换 算为各年的本利率;然后按加权几何平均数的方法, 计算平均年本利率;再减去100%,得出平均年利率。 计算如下: 这就是说,25年间年平均本利率为108.6%。因而,年 平均利率为8.6%。
(四)几何平均数、算术平均数 和调和平均数的关系 几何平均数、算术平均数和调和平均数之间存在着一定的数量关系。这种数量关系表现在:根据同一资料所计算的三种平均数,几何平均数大于调和平均数而小于算术平均数,只有当所有变量值都相同时,三种平均数才相等。用数学公式表示,它们之间的关系为:
三、位置平均数 (一)概述 1.概念 位置平均数是根据总体中处于特殊位置上的个 别单位或部分单位的标志值来确定的代表值。 2.常用的位置平均数 众数、中位数
(二)众数 1.概念 2.特点 总体中出现次数最多的变量值称为众数。 适于数据较多时使用,主要用于定类数据; 不受极端值和开口组数列的影响; 众数是一个不容易确定的平均指标,当数列 没有明显的集中趋势而趋向集中均匀分布时,则 无众数可言;当变量数列是异距分组时,众数的 位置也不好确定。
众数(不惟一性) 无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 无众数 原始数据: 10 5 9 12 6 8 一个众数 原始数据: 6 5 9 8 5 5 多于一个众数 原始数据: 25 28 28 36 42 42
3.计算 (1)定类数据的众数 不同品牌饮料的频数分布 饮料品牌 频数 比例 百分比(%) 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 15 11 9 6 0.30 0.22 0.18 0.12 30 22 18 12 合计 50 1 100 解:这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值 所调查的50人中,购买可口可乐的人数最多,为15人,占总被调查人数的30%,因此众数为“可口可乐”这一品牌,即 Mo=可口可乐
(2)定序数据的众数 解:这里的数据为顺序数据。变量为“回答类别” 甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 百分比 (%) 非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 8 36 31 15 10 合计 300 100.0 解:这里的数据为顺序数据。变量为“回答类别” 甲城市中对住房表示不满意的户数最多,为108户,因此众数为“不满意”这一类别,即 Mo=不满意
(3)数值型数据的众数 下限公式: 上限公式:
某年级83名女生身高资料 总计 83 身高 人数 身高 人数 (CM) (人) (CM) (人) 164 3 152 1 165 8 身高 人数 (CM) (人) 164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1 总计 83 身高 人数 (CM) (人) 152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4
某年级83名女生身高资料 身高 人数 比重 (CM) (人) (%) 150-155 3 3.61 155-160 11 13.25 身高 人数 比重 (CM) (人) (%) 150-155 3 3.61 155-160 11 13.25 160-165 34 40.96 165-170 24 28.92 170以上 11 13.25 总计 83 100
(三)中位数 1.概念 2.意义 中位数是将总体各单位标志值按大小顺序排列 后,处于中间位置的那个数值。 中位数是处于统计数列中间位置的数值。由于 其位置居中,不受极端数值大小的影响,因而 有时直接利用它来代表现象的一般水平。
3.中位数的特点 (1)与众数一样,也是一种位置平均数,不受极端值及开口组的影响,具有稳健性; (2)各单位标志值与中位数离差的绝对值之和为最小。即 (3)对某些不具有数学特点或不能用数字测定的现象,可用中位数求其一般水平。
4.计算 (1)由未分组资料确定中位数 由未分组资料确定中位数,中位数的位置是: 在资料未经分组时,确定中位数的方法是:首先将各总体单位的标志值或变量值,按照大小顺序排列;然后确定中位数的位置,处于中位数位置的标志值或变量值就是中位数。 由未分组资料确定中位数,中位数的位置是: 如果总体单位的项数(n)是奇数,则处于中间位置的标志值就是中位数。如果总体单位的项数是偶数,则处于中间位置的两个标志值的算术平均数就是中位数。
e.g1,某年我国饮料制造业按利税总额排序,前10名企业的利税总额资料如下,
根据上列资料,如果确定这10名企业利税总额的中位数,则: 就是说,中位数处于第5个企业和第6个企业的中间位置。第5个企业的利税总额为66百万元,第6个企业的利税总额为65百万元,故10名企业利税总额的中位数为:
e.g2,9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 中位数 1080
10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10
(2)单项式数列确定中位数 对于单项式数列资料,由于变量值已经序列化,故 中位数的确定也很简单。 步骤: 第一,求中位数位置= ( 为总体单位数之 和); 第二,计算各组的累计次数(向上或向下累计皆 可); 第三,根据中位数的位置找出中位数。
(3)由组距分组数列确定中位数 a.步骤 由组距数列确定中位数,应先计算累计次数,然 后确定中位数所在组的位置,最后再按比例推算 中位数的具体数值。 b.由分组资料确定中位数,中位数的位置是:
c.由组距数列计算中位数 下限公式:(向上累计时用):
(向下累计时用)
e.g,某年级83名 女生身高资料 身高 人数 累计 (CM) (人) 人数 150-155 3 3 155-160 11 14 身高 人数 累计 (CM) (人) 人数 150-155 3 3 155-160 11 14 160-165 34 48 165-170 24 72 170以上 11 83 总计 83
e.g,某年某市80个中型工业企业按照工业总产值(按1980年不变价格计算)的分组资料如下:
由上表中的资料计算中位数: 首先,应确定中位数的位置。 ∑f=80, ∑f /2=40,即中位数的位置是第40个 企业。 其次,应确定中位数的所在组。 第二组的累计次数为35,距离中位数的位置还差 5个企业;第三组的累计次数已达55,显然中位 数在第三组内。 第三,按比例推算中位数在组内的具体位置。
因而,某市80个中型工业企业工业总产值的中位数,按下限公式计算为:
(四)分位数(简介) 1.概念 2.常用的分位数 能够将全部总体单位按标志值大小等分为k个 部分的数值称为“k分位数”。 四分位数、十分位数和百分位数。 中位数实际上是一个两分位数
四、各种平均数的比较 (一)算术平均数、几何平均数和调和平均数三者的关系。(证明略) (二)数值平均数和位置平均数的比较 (1)数值平均数对于数据的概括能力比位置平均数强。 (2)数值平均数和位置平均数对数据变化的“灵敏度”“耐抗性”不同。 (3)数值平均数和位置平均数使用的数据类型不同。
众数、中位数、平均数的特点和应用 众数 中位数 平均数 不受极端值影响 具有不惟一性 数据分布偏斜程度较大时应用 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用
(三)算术平均数与众数、中位数在钟形分布时三种集中趋势的关系 (1)当总体分布呈对称状态时,三者合而为一,即三者相等。 (2)当总体分布呈右偏,则中位数大于众数,小于算术平均数。 (3)当总体分布呈左偏,则中位数大于算术平均数,小于众数。 以上第2、3种情况均为总体分布呈非对称状态,这时 三者之间就存在着一定的差别,愈不对称,差别越 大。
英国统计学家卡尔.皮尔逊认为,当分布只是适 当偏态时,三者之间的数量关系是: 中位数一般介于众数和均值之间,中位数与算 术平均数的距离是众数与算术平均数距离的三 分之一,即关系式为: 或
第二节 分布的离散程度 一、变异指标概述 二、极差 三、平均差 四、方差和标准差 五、变异系数
一、变异指标概述 (一)概念 标志变异指标是反映统计数列中以平均数为中心,总体 各单位标志值的差异大小范围或离差程度的指标。 变异指标是评价平均数代表性的依据。变异越大,平均 数的代表性越差;反之,越好。 Eg.某车间有两个生产小组,都是7名工人,各人日产件数: 甲组:20,40,60,70,80,100,120; 乙组:67,68,69,70,71,72, 73; 甲、乙两组的平均每人日产量都为70件。 虽然两组平均日产量相等,但甲组各工人日产件数相差很大 ,分布很散;而乙组各工人日产件数相差不大,分布相对集 中。平均数70件对甲组来说代表性不如对乙组的代表性大。
(二)标志变异指标的作用 1.标志变异指标可以衡量平均数代表性的大小。 2.标志变异指标可以反映社会经济活动过程的节奏性和均衡性。 3.标志变异指标可以反映总体单位标志值的均匀性和稳定性。 4.标志变异指标是科学地确定必要的抽样单位数应考虑的重要因素。
(三)常见的变异指标 极差(全距) 分位差 平均差 标准差 离散系数(变异系数)
二、极差 极差=最大标志值-最小标志值 极差=最高组上限-最低组下限 1.概念 极差又称“变异全距”,它是总体各单位标志的 最大值与最小值之差,通常用“R”表示。 2.计算 极差=最大标志值-最小标志值 极差=最高组上限-最低组下限 如前例,甲组日产件数的极差,R=120-20=10(件) 乙组日产件数的极差,R=73-67=6(件)
3.意义 极差用以说明标志值变动范围的大小,极差越 小,说明变量值越集中,变异程度越小;反 之,R数值越大,说明变量值越分散,变异程 度越大。 极差说明分布的离散程度有两点不足之处: ①它取决于两个极端值的大小,不能反映中间数据的分布情况; ②受极端值的影响过于显著,对数据的变化反映不敏感。
三、分位差 分位差是对极差的改进,也就是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标。 自己看书(p77)
四、平均差 1.概念 2.意义 总体中各单位对其平均数的离差绝对值的算术平 均数,通常用“A.D.”表示。 平均差能够综合反映总体中各单位标志值变动的影 响。平均差越大,表示标志变异程度越大,则平均数的 代表性就越小;反之,平均差越小,表示标志变异称度 越小,则平均数的代表性就越大。
3.特点 4.计算 平均差是根据全部变量计算出来的,所以对整个变量 值的离散程度有较充分的代表性。但平均差计算由于 采用取离差绝对值的方法来消除正负离差,因而不适 合于代数方法的演算,使其应用受到限制。 4.计算 (1)未分组资料: (2)分组资料:
五、方差和标准差 1.概念 标准差的平方就是方差。 2.意义 标准差又称“均方差”,是总体各单位标志值与其算术 平均数的离差平方的算术平均数的算术平方根,通常 用“ ”表示。 标准差的平方就是方差。 2.意义 其意义与平均差基本相同,也是根据各个标志值对其 算术平均数求其平均离差后再来计算的,但是由于用 离差平方的方法来消除正负离差,因此在数学处理长 比平均差更为合理和优越。
3.计算 (1)未分组资料: (2)分组资料: 简便计算方法: 其中
4.方差和标准差的性质 (1)方差和标准差具有平移不变性。即y=a+x的方差与x的方差相同,a为任意常数。 (2)将原变量乘以一个任意常数b,则新变量y=bx的方差和标准差分别变为原来的 倍和 倍。 (3)如果两个变量x和y相互独立,它们的代数和的方差就等于原来两个变量的方差之和,它们的代数和的标准差则等于两个变量方差之和的正平方根。 (4)在总体分组的条件下,变量的总方差可以分解为组内方差平均数和组间方差两部分。
5.“0-1”分布的数值特征 有些事物或现象的特征只表现为两种性质上的差异。例如,产品的质量表现为合格和不合格;人的性别表现为男或女;对某一电视节目表现为收看或不收看;学生成绩可以分为及格或不及格,等等。 这些只表现为是或否、有或无的标志,称为是非标志或交替标志 是非标志是一种品质标志,其表现为文字,因此,在计算其数量特征时需要将其文字表现进行数量化。
(1)当总体单位具有某种属性时,变量取值为1;不具有该属性时,变量取值为0,这样的变量称为“0-1”变量,形成的分布为“0-1”分布。 (2)其数学特征为: 平均数: 方差:
(3)成数 总体的n个单位中,具有某种属性的单位数为 n1个,不具有该属性的单位数为n-n1=n0个, 则比率p=n1/n;q=n0/n=1-p,称为总体的成 数。
(六)变异系数 (coefficient of variation) 以上计算的各种变异指标,包括全距、分位 差、平均差、标准差都是绝对指标,都有与平 均指标相同的计量单位。因此,各种变异指标 数值的大小,不仅受离散程度的影响,而且受 计量单位、数列平均水平高低的影响。所以, 在对比分析中,不宜直接用上述各变异指标来 比较不同水平数列之间的标志值离散程度。所 以提出了相对指标——变异系数。
1.定义 变异系数又称离散系数,是绝对数或平均数形式 的变异指标与其对应的平均指标对比的结果。 2.变异系数的特点 变异系数表现为相对数的形式,是一个无名数,不 受计量单位的影响,而且能够反映数据集合中各变 量值之间的差异水平,相当于平均指标的比率,对 于不同计量单位或不同平均水平的现象,必须通过 这个比率来判断数据分布离散程度的大小。 离散系数较大的,说明数据的离散程度较大,平均 指标对总体一般水平的代表性较差,反之,亦然。
3.变异系数的种类 (1)极差系数: (2)平均差系数: (3)标准差系数: (4)分位差系数: e.g.有两个不同水平的工人日产量资料:甲组:60,65,70, 75,80;乙组:2,5,7,9,12;由此计算得: X甲=70, 甲=7.07件;X乙=7件, 乙=3.14件
根据标准差判断,甲组离散程度大于乙组,或 乙组平均数的代表性高于甲组,这都不对。 因为这两组的水平相差悬殊,应计算离散系数 来比较: 计算结果表明,并非甲组离散程度大于乙组,而是 乙组大于甲组。