第三章 统计数据的描述 教师:刘小林
第三章 统计数据的描述 本章重点提示: 本章难点: 1.总量指标和相对指标的概念; 2.总体分布集中趋势(平均指标)的概念及测定; 第三章 统计数据的描述 本章重点提示: 1.总量指标和相对指标的概念; 2.总体分布集中趋势(平均指标)的概念及测定; 3.总体分布离散程度(离散趋势指标)的概念及测定。 本章难点: 1.计划完成程度相对数的计算; 2.组距数列的中位数、众数计算; 3.标准差的计算及应用。 4.方差的加法定理。
第一节 总量指标(绝对水平) 一、总量指标的概念与作用 1.概念:反映客观现象总规模、总水平的指标。 2.表现形式:绝对数、有名数。 第一节 总量指标(绝对水平) 一、总量指标的概念与作用 1.概念:反映客观现象总规模、总水平的指标。 2.表现形式:绝对数、有名数。 3.特点:总量指标的数值大小与总体范围有关 总体范围越大,总量指标数值越大,反之亦反。 4.作用 (1)认识社会经济现象总体的起点 (2)制定政策、编制计划、实行经营管理的主要依据。 (3)计算相对指标与平均指标的基础。
二、总量指标的种类 (一)按反映现象总体内容的不同,可分为: 1.总体单位总量:反映总体所有单位总数的指标。 2.总体标志总量:反映总体中各单位标志值总和的指标。
(二)按指标反映的时间状况不同,可分为: 1.时期指标:反映现象在一段时期发展变化的总量指标。 2.时点指标:反映现象在某个时点(瞬间)所达总量的指标。 3.时期指标与时点指标的区别 (1)统计的连续性 A.时期指标具有连续统计的特点 B.时点指标不需要进行连续统计 (2)统计的可加性 A.时期指标不同时期的数值可以累计 B.时点指标不同时期的数值不能累计 (3)指标数值与时间长短有无直接关系
1.实物量指标:其计量单位根据事物的属性和特点来确定。如汽车以“辆”为单位。能直接反映现象的实物内容,但缺少综合性。 A.时期指标数值与时间长短有直接关系; B.时点指标数值与时间长短无直接关系。 (三)按计 量单位的不同,可分为: 1.实物量指标:其计量单位根据事物的属性和特点来确定。如汽车以“辆”为单位。能直接反映现象的实物内容,但缺少综合性。 2.价值指标:采用货币单位度量社会财富和劳动成果。如产值以“万元”为单位。综合性能强,但不能直接反映现象的实物内容。 实物量指标应与价值量指标结合运用。 3.劳动量单位:用劳动时间来表明劳动资源及其利用情况。如工时、工日等。
第二节 相对指标(相对水平) 一、相对指标的意义及表现形式 (一)相对指标的概念 1.定义:两个相互联系的指标数值对比的比值(相对水平) 第二节 相对指标(相对水平) 一、相对指标的意义及表现形式 (一)相对指标的概念 1.定义:两个相互联系的指标数值对比的比值(相对水平) 2.基本公式:比数/基数 A/B 3.数值表现形式:无名数或复名数。 无名数包括 (1)系数:B=1且A、B相差不大时; (2)倍数:B=1且A大于B很多; (3)成数:B=10; (4)百分数:B=100; (5)千分数:B=1000且A小于B很多。 4.作用:用一个抽象化了的数值来反映两个有联系的事物之间的数量关系
5.类型 包括:计划完成程度相对数、结构相对数、比例相对数、比较相对数、强度相对数、动态相对数六种。 二、几种常用的相对指标 (一)计划完成程度相对指标 1. 基本计算 (1)计划任务数以绝对数、平均数形式出现; [例]某年某企业工业增加值计划指标为200万元,实际该年该企业完成产值220万元,则
逆指标:数值越小越好的指标。所以小于100%为超额完成计划。 (2)计划任务数以相对数形式出现 [例]某厂计划今年的消耗比上年降5%,产值增8%。实际完成情况是:消耗降6%,产值升7%,试分别计算其计划完成程度。 解:消耗计划完成程度= 经济类指标可区分为 逆指标:数值越小越好的指标。所以小于100%为超额完成计划。 解:产值计划完成程度=
第三章 统计数据的描述 正指标:数值越大越好的指标,所以大于100%为超额完成计划。 (3)计划执行进度=累计完成数/计划任务数 *** 第三章 统计数据的描述 正指标:数值越大越好的指标,所以大于100%为超额完成计划。 (3)计划执行进度=累计完成数/计划任务数 *** 主管部门所属单位 总的计划完成情况
第三章 统计数据的描述 2.长期计划完成情况的检查 水平法:适用呈递增趋势现象。 计划完成相对数= 提前完成任务时间:连续12个月的实际完成数达到计划规定的最后一年应达到的水平后的剩余时间。 累计法:适用年度间变化不稳定现象。 提前完成任务时间:自计划执行之日起至累计实际完成计划规定的任务数之日止后的剩余时间。 第三章 统计数据的描述
第三章 统计数据的描述 (二)结构相对指标 2.注意的问题 (1)分子分母属于同一总体; (2)分子分母不可逆(位置不可互换); 第三章 统计数据的描述 (二)结构相对指标 2.注意的问题 (1)分子分母属于同一总体; (2)分子分母不可逆(位置不可互换); (3)各部分所占比重之和必须等于100%。 3.作用 (1)可以揭示总体结构特征; (2)可以从总体结构的变动中观察现象的变化过程及发展趋势。
第三章 统计数据的描述 (三)比例相对数 2.注意的问题 (1)分子分母属于同一总体; (2)分子分母可逆。 第三章 统计数据的描述 (三)比例相对数 2.注意的问题 (1)分子分母属于同一总体; (2)分子分母可逆。 3.作用:研究现象的比例是否协调及其规律。如新生儿性别比 (恒定值是102-107:100)、积累率与消费率等。 (四) 比较相对数
2.注意的问题 (1)分子分母属于不同总体; (2)分子分母可逆; 3.作用:反映现象发展的不平衡程度。 (五)强度相对数 1.公式 第三章 统计数据的描述 2.注意的问题 (1)分子分母属于不同总体; (2)分子分母可逆; 3.作用:反映现象发展的不平衡程度。 (五)强度相对数 1.公式
第三章 统计数据的描述 2.作用 (1)反映现象发展的强度; 例:人均钢产量 (2)反映现象分布的密度; 例:人口密度 第三章 统计数据的描述 2.作用 (1)反映现象发展的强度; 例:人均钢产量 (2)反映现象分布的密度; 例:人口密度 (3)反映公共设施服务的普遍程度。 例:每万人拥有的医院床位数=医院床位数/人口数(万人)
第三章 统计数据的描述 3.注意的问题 (1)可以是复名数也可以是无名数; (2)有些强度相对数可逆(正指标与逆指标)。 第三章 统计数据的描述 3.注意的问题 (1)可以是复名数也可以是无名数; (2)有些强度相对数可逆(正指标与逆指标)。 例如:零售商业网密度=零售商业机构数/人口数 (正指标) 零售商业网密度=人口数/零售商业机构数 (逆指标) 人均钢产量=钢产量/人口数。(不可逆) 4.强度相对数与平均数的异同 相同点:均有平均的含义,一般均为复名数。
第三章 统计数据的描述 不同点: (1)平均数分子分母属同一总体且一一对应; (2)强度相对数分子分母属不同总体且不一一对应。 第三章 统计数据的描述 不同点: (1)平均数分子分母属同一总体且一一对应; (2)强度相对数分子分母属不同总体且不一一对应。 (六)动态相对数 1.动态相对数=报告期水平/基期水平 [例]某厂2013年产值为2500万元,2012年为2000万元,则其动态相对数为2500/2000=125%。 2.前述相对数均为静态相对数。
第三章 统计数据的描述 三、计算和运用相对指标的原则 (一)可比性原则 1.内容的可比:分子分母的经济内容应有联系,对比有意义; 第三章 统计数据的描述 三、计算和运用相对指标的原则 (一)可比性原则 1.内容的可比:分子分母的经济内容应有联系,对比有意义; 2.计量单位、价格与计算方法的可比: 3.范围的可比。 (二)相对数与绝对数结合运用的原则 例: 粮食产量 比上年增长% 比上年增长的绝对数 甲地 1000万斤 10% 100万斤 乙地 100万斤 10% 10万斤
第三节 集中趋势(平均水平)的测度 一、平均指标的概念与类型 次数分布数列的两个重要特征:集中趋势与离中趋势。 第三节 集中趋势(平均水平)的测度 一、平均指标的概念与类型 次数分布数列的两个重要特征:集中趋势与离中趋势。 集中趋势:中中间水平或 平均水平(重心)。集中趋 势即多数单位都靠近中间水 平的两侧,越靠近中间水平, 出现的次数越多,反之亦反。 离中趋势:离开中间水平的 趋势,即出现次数分散在中 间水平的两侧,形成分散, 即离中趋势。
测定集中趋势的指标主要有平均指标 1.平均指标的定义:反映同类现象一般水平的统计指标。 第三章 统计数据的描述 测定集中趋势的指标主要有平均指标 1.平均指标的定义:反映同类现象一般水平的统计指标。 2.特点 (1)将各单位的数量差异抽象化,即消除离差; (2)反映次数分布的集中趋势,即找出中心; (3)是总体各单位某一数量标志值的代表水平。
第三章 统计数据的描述 3.平均指标的种类
二、计算平均数 (一)算术平均数 1. 基本公式=总体标志总量/总体单位总量 2.算术平均数的计算 第三章 统计数据的描述 二、计算平均数 (一)算术平均数 1. 基本公式=总体标志总量/总体单位总量 2.算术平均数的计算 未分组资料 已分组资料 注意: 加权算术平均数不仅受各组变量值大小的影响,还受各组次数多少的影响。次数因其对平均的结果有权衡轻重的作用,因此,也叫权数。
权数的种类 A.绝对权数(次数) f B.相对权数(频率或比重) f/f 只有当各组的次数不相等时, 次数才具有权数的作用。 第三章 统计数据的描述 权数的种类 A.绝对权数(次数) f B.相对权数(频率或比重) f/f 只有当各组的次数不相等时, 次数才具有权数的作用。 由此可见,简单算术平均数是加权算术平均数的一个特例。
组距数列算术平均数的计算 [例]11人年龄:15,17,19,20,22,22,23,23,25,26,30。求平均年龄。 第三章 统计数据的描述 组距数列算术平均数的计算 [例]11人年龄:15,17,19,20,22,22,23,23,25,26,30。求平均年龄。 组距数列算术平均数的计算:以组中值代替组平均数后计算。 (近似值)
是非标志平均数的计算: A:是非标志——将总体全部单位划分为“是”或“否”两类的标志 第三章 统计数据的描述 是非标志平均数的计算: A:是非标志——将总体全部单位划分为“是”或“否”两类的标志 B:哑变量(0—1变量)
3.算术平均数的数学性质 (1)各变量值与其算术平均数的离差之和为零。即 第三章 统计数据的描述 3.算术平均数的数学性质 (1)各变量值与其算术平均数的离差之和为零。即
(2)各变量值与其算术平均数的离差平方和为最小值。 第三章 统计数据的描述 (2)各变量值与其算术平均数的离差平方和为最小值。
(二)调和平均数 调和平均数:变量值倒数的算术平均数的倒数。 1.简单调和平均数:(各变量值均为一个单位时使用) [例]某种蔬菜早上0.4元/斤,中午0.25元/斤,晚上0.20元/斤,某人各买1斤,求平均价格。(算术平均法) [例]类似地某人早、中、晚各买1元,求平均价格。 解: 式中:x代表各个变量值,n代表变量值项数
2.加权调和平均数:(各变量值为不等单位时使用) 第三章 统计数据的描述 2.加权调和平均数:(各变量值为不等单位时使用)
思考题:某工业局所属四个企业有关资料如下,试计算该工业局的产值平均计划完成程度。 第三章 统计数据的描述 思考题:某工业局所属四个企业有关资料如下,试计算该工业局的产值平均计划完成程度。
第三章 统计数据的描述 基本公式:算术平均数=总体标志总量/总体单位总量 算术平均数与调和平均数的适用前提 第三章 统计数据的描述 基本公式:算术平均数=总体标志总量/总体单位总量 算术平均数与调和平均数的适用前提 A.已知基本公式母项资料用算术平均数计算;(子项资料未知) B.已知基本公式子项资料用调和平均数计算。(母项资料未知) 调和平均数是算术平均数的变形
第三章 统计数据的描述 (三)几何平均数 1.定义:n个变量值连乘积的n次方根。 第三章 统计数据的描述 (三)几何平均数 1.定义:n个变量值连乘积的n次方根。 2.适用前提:总体标志总量=总体各单位标志值,宜计算比率或速度的平均数。 3.公式: 4.注意:当观察值有一项为零或负值时,不宜用几何平均数计算。 5.如用同一数据分别计算算术平均数、调和平均数和几何平均数时,则有如下关系:
第三章 统计数据的描述 三、位置平均数 (一)中位数 1.定义:将变量值按大小次序排列,处于中间位置的变量值即为中位数 Me 第三章 统计数据的描述 三、位置平均数 (一)中位数 1.定义:将变量值按大小次序排列,处于中间位置的变量值即为中位数 Me [例]某科室由9人组成,其年龄分别为:24,25,25,26,26,27,28,29,55 2.计算 (1)当资料未分组时,中点位置=(n+1)/2; 当n为奇数时, Me =中间位置的那个变量值; 当n为偶数时,如24,25,25,26,26,27,28,29 Me =中间位置两侧的两个变量值的简单平均。 (2)当资料已分组且形成单项式变量数列时, 中点位置=f/2
[例]中位=180/2=第90个人,所以 Me 应是第90个人的年龄。所以 Me =18岁。 第三章 统计数据的描述 [例]中位=180/2=第90个人,所以 Me 应是第90个人的年龄。所以 Me =18岁。
第三章 统计数据的描述 (3)资料已分组且形成组距式变量数列 (A)L为中位数所在组的下限,U为上限; (B)i为中位数所在组的组距; 第三章 统计数据的描述 (3)资料已分组且形成组距式变量数列 (A)L为中位数所在组的下限,U为上限; (B)i为中位数所在组的组距; (C)Sm-1 为小于中位数的各组次数之和; (D)Sm+1为大于中位数的各组次数之和; (E)fm为中位数所在组的次数。
第三章 统计数据的描述 [例] 下限公式: 上限公式: 并且:
推导: 假定中位数组的变量值呈均匀分布,则采用比例插值法得 第三章 统计数据的描述 推导: 假定中位数组的变量值呈均匀分布,则采用比例插值法得 50 60 70 (L) 80(U) 90 100 x y 10 30 60 110 150 180 (Sm-1) Me= L+x=U-y 第90个人
第三章 统计数据的描述 3.注意的问题 (1)不受极端值的影响,比较稳健。 第三章 统计数据的描述 3.注意的问题 (1)不受极端值的影响,比较稳健。 (2)中位数的取值只与中间位置的一或两个数值有关,利用信息不充分,忽略了其它数据的大小,并且不适合于代数运算。
☆位置测度的一种常用方法: 百分位数(Percentile) 概念:第p个百分位数是这样的数值:至少有p%个数值跟它一样大或比它小;至少有(100-p)%个数值跟它一样小或比它大。 例如,一个考生入学考试的口语成绩是54分,对应第70个百分位数,我们就可以知道大约有70%的考生成绩比他低,或者说大约有30%的考生成绩比他高。
百分位数的计算 其中Pm——第m百分位数; L——Pm所在组的组实下限; U——Pm所在组的组实上限; f——Pm所在组的次数; 其中Pm——第m百分位数; L——Pm所在组的组实下限; U——Pm所在组的组实上限; f——Pm所在组的次数; Fb——小于L的累积次数; Fa——大于U的累积次数。
计算举例 【例】某省某年公务员考试考生分数分布如下表所示,预定取考分居前15%的考生进行面试选拔,请划定面试分数线。
分数分组 次数 向上累积次数 向下累积次数 向上累积相对次数 95~99 7 1640 100% 90~94 16 1633 23 99.57% 85~89 53 1617 76 98.60% 80~84 78 1564 154 95.37% 75~79 90 1486 244 90.61% 70~74 119 l396 363 85.12% 65~69 159 1277 522 77.87% 60~64 156 1118 678 68.17% 55~59 140 962 818 58.66% 50~54 145 822 963 50.12% 45~49 677 1103 41.28% 40~44 135 537 1238 32.74% 35~39 130 402 1368 24.51% 30~34 126 272 1494 16.59% 25~29 146 1572 8.90% 20~24 25 68 1597 4.15% 15~19 20 43 2.62% 10~14 1.40% 5~9 0.43%
解:由于预定取考分居前15%的考生进行面试, 即有85%的考生分数低于划定的分数线,由此可知, 分数线在70~74这一组中。
通常将数据分成四个部分是合乎需要的,每一部分大约包括1/4或25%的数据,分位点称为四分位数。 ☆位置测度的另一种常用方法: 四分位数 (Quartile) 通常将数据分成四个部分是合乎需要的,每一部分大约包括1/4或25%的数据,分位点称为四分位数。
四分位数 (quartile) 25% 排序后处于25%和75%位置上的值 不受极端值的影响 QL QM QU 25% 不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据
四分位数 (位置的确定) 原始数据: 顺序数据:
顺序数据的四分位数 (例题分析) 回答类别 甲城市 户数 (户) 累计频数 非常不满意 不满意 一般 满意 非常满意 24 108 93 顺序数据的四分位数 (例题分析) 甲城市家庭对住房状况评价的频数分布 回答类别 甲城市 户数 (户) 累计频数 非常不满意 不满意 一般 满意 非常满意 24 108 93 45 30 132 225 270 300 合计 — 解:QL位置= (300)/4 =75 QU位置 =(3×300)/4 =225 从累计频数看, QL在“不满意”这一组别中; QU在“一般”这一组别中。因此 QL = 不满意 QU = 一般
数值型数据的四分位数 (9个数据的算例) 【例】:9个家庭的人均月收入数据 数值型数据的四分位数 (9个数据的算例) 【例】:9个家庭的人均月收入数据 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9
数值型数据的四分位数 (10个数据的算例) 【例】:10个家庭的人均月收入数据 数值型数据的四分位数 (10个数据的算例) 【例】:10个家庭的人均月收入数据 排 序: 660 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 10
第三章 统计数据的描述 (二)众数 1.定义:出现次数最多的变量值。用Mo表示。 A. 20,15,18,20,20,22,20,23; 第三章 统计数据的描述 (二)众数 1.定义:出现次数最多的变量值。用Mo表示。 A. 20,15,18,20,20,22,20,23; n=8 Mo=20 B. 20,20,15,19,19,20,19,25; n=8 Mo=20 Mo=19 C. 10,11,13,16,15,25,8,12; n=8,但没有众数 2.计算 (1)当资料为单项式数列时。 先确定众数组 再确定众数:Mo=18
第三章 统计数据的描述 (2)当资料为组距式数列时。 先确定众数组; 再用下述公式计算: 符号含义: (A)L为众数组的下限,U为上限; 第三章 统计数据的描述 (2)当资料为组距式数列时。 先确定众数组; 再用下述公式计算: 符号含义: (A)L为众数组的下限,U为上限; (B)i为众数组的组距; (C)1=fm-fm-1,即众数组的次数与前一组次数之差; 2=fm -fm+1,即众数组的次数与后一组次数之差。
第三章 统计数据的描述 Mo=L+x=U-y 人数 50 40 30 20 10 40 50 60 70 80 90 100 产值 第三章 统计数据的描述 人数 A G F 50 40 30 20 10 O E D B C x y 40 50 60 70 80 90 100 (L) (U) 产值 Mo=L+x=U-y
第三章 统计数据的描述 Mo=L+x=U-y 人数 50 40 30 20 10 40 50 60 70 80 90 100 产值 第三章 统计数据的描述 人数 A G F 50 40 30 20 10 O E D B C x y 40 50 60 70 80 90 100 (L) (U) 产值 Mo=L+x=U-y
第三章 统计数据的描述 众数取值的特点: 众数的数值始终偏向相邻组中 次数较大的组,当相邻两组的次 数相等时,众数则是众数组的组 中值。 第三章 统计数据的描述 众数取值的特点: 众数的数值始终偏向相邻组中 次数较大的组,当相邻两组的次 数相等时,众数则是众数组的组 中值。 3.注意问题 (1)优点:不受极端值的影响。 (2)缺点:未利用所有信息, 缺乏敏感性和不适合代数运算
四、算术平均数、中位数、众数的比较 (一)三者间的关系 1.数量关系 (1)对称分布: 此处三者均等于35。 第三章 统计数据的描述 四、算术平均数、中位数、众数的比较 (一)三者间的关系 1.数量关系 (1)对称分布: 此处三者均等于35。
第三章 统计数据的描述 (2)偏态分布 A.右(正)偏:
第三章 统计数据的描述 B.左(负)偏:
2.卡尔•皮尔逊经验公式:适度偏斜情况下,众数与中位数之间的距离,大约为中位数到算术平均数之间距离的两倍。 第三章 统计数据的描述 2.卡尔•皮尔逊经验公式:适度偏斜情况下,众数与中位数之间的距离,大约为中位数到算术平均数之间距离的两倍。
第三章 统计数据的描述 (二)众数、中位数和均值(如:算术平均数)的应用场合 第三章 统计数据的描述 (二)众数、中位数和均值(如:算术平均数)的应用场合 众数一般用来描述分类变量(定性数据),特别是那些有许多个值的分类变量,例如学历、对事物的态度等。例如,在某一地区学历的众数是硕士生,对事物的态度的众数是中立。 当一组数据的直方图显示出非对称或非正态分布时,常常使用中位数是,例如房价和收入数据。 由于均值容易受到极大值或极小值的影响,因此,当数据集有极端值时,最好不使用均值。如果数据的分布是不对称的,最好使用中位数(或众数)而不是均值,因为中位数对极端值不敏感。 总之,如果分布的偏斜程度很高,均值将不能作为一个很好的度量。相对而言,中位数和众数的代表性更强。
五、计算和应用平均数的原则 1.注意观察总体的同质性; 2.应用组平均数补充说明总体平均数; 3.注意极端值的影响。 第三章 统计数据的描述 五、计算和应用平均数的原则 1.注意观察总体的同质性; 2.应用组平均数补充说明总体平均数; 3.注意极端值的影响。
案例: 人们在对数据进行统计分析时发现一种“反常”现象:在分组比较中都占优势的一方,有时在总评中反而是劣势的一方。由于这是E●H●辛普森1951在他发表的论文中首先对此进行描述,故称“辛普森悖论”。 请看下面的事例: 甲单位 乙单位 总计 男性 女性 应聘人数 40 100 30 140 130 录用人数 2 10 48 15 50 25 录用率 5% 10% 48% 50% 35.71% 19.23%
请根据该表数据分析:在甲、乙两单位录用率都占优的女性,为什么在总计时录用率低于男性? 甲单位 乙单位 总计 男性 女性 应聘人数 40 100 30 140 130 录用人数 2 10 48 15 50 25 录用率 5% 10% 48% 50% 35.71% 19.23% 请根据该表数据分析:在甲、乙两单位录用率都占优的女性,为什么在总计时录用率低于男性?
解答: 总计男性录用率: 5%×(40/140)+48%×(100/140)=35 解答: 总计男性录用率: 5%×(40/140)+48%×(100/140)=35.71%≈36% 总计女性录用率: 10%×(100/130)+50%×(30/130)=19.23%≈19% 不难发现,虽然在每个单位,女性录用率都高于男性,但录用率低的甲单位女性的应聘率(即权数:100/130)高,录用率高的乙单位,女性应聘率(即权数:30/130)低,而男性的情况正相反,造成加权后的总录用率女性反而比男性低。 可见,该现象(悖论)的产生是由于“权重”的倾斜造成的。
第四节 离散趋势的测度 平均指标只能反映现象的集中趋势而不能反映总体各单位标志值的差异程度。例 第四节 离散趋势的测度 平均指标只能反映现象的集中趋势而不能反映总体各单位标志值的差异程度。例 集中趋势和离散程度是总体分布的两个重要特征。 一、离散趋势指标的概念与作用 1.概念: 离散趋势指标是反映总体各单位标志值差异(离散)程度的指标。又称标志变动指标、离散程度指标等。 平均指标与离散趋势指标的区别: 平均指标考虑的是如何消除离差,显示集中趋势。而离散趋势指标考虑的是如何计算离差,反映离散的程度及离差的大小。
第三章 统计数据的描述 2.作用 (1)衡量平均数代表性的大小。 (2)反映变量值分布的离中趋势和离散程度。
第三章 统计数据的描述 (3)反映社会经济现象的均衡性和稳定性。 如甲、乙两工厂某年四个季度的产量资料如下(单位:万件): 第三章 统计数据的描述 (3)反映社会经济现象的均衡性和稳定性。 如甲、乙两工厂某年四个季度的产量资料如下(单位:万件): 甲:65、68、72、75,平均每季产量为70万件; 乙:34,51,95,100,平均每季产量为70万件。 二、离散趋势指标的种类 (一)全距(极差) 特点1.优点:意义明确,简单方便。 2.缺点:比较粗略,未考虑中间变量值的离散情况。
(二)平均差(A.D) 1.概念:平均差是总体各单位标志值与其算术平均数离差绝对值的算术平均数。 2.计算: 简单平均差:A.D= 第三章 统计数据的描述 (二)平均差(A.D) 1.概念:平均差是总体各单位标志值与其算术平均数离差绝对值的算术平均数。 2.计算: 简单平均差:A.D= (适用未分组资料) 加权平均差: A.D= (适用已分组资料)
第三章 统计数据的描述 简单平均差计算举例:
第三章 统计数据的描述 加权平均差计算举例:
第三章 统计数据的描述 判定准则: 3.特点 (1)充分考虑了每一数值的离中情况,在反映离中趋势方面比较 灵敏,计算方法亦比较简单。 第三章 统计数据的描述 判定准则: 3.特点 (1)充分考虑了每一数值的离中情况,在反映离中趋势方面比较 灵敏,计算方法亦比较简单。 (2)绝对值运算给数学处理带来很多不便。
第三章 统计数据的描述 (三)方差与标准差 1.概念: 方差( ):总体各单位标志值与其算术平均数离差平方的算术平均数; 第三章 统计数据的描述 (三)方差与标准差 1.概念: 方差( ):总体各单位标志值与其算术平均数离差平方的算术平均数; 标准差( ):总体各单位标志值与其算术平均数离差平方的算术平均数的平方根。 2.基本计算: (简单标准差) (加权标准差)
第三章 统计数据的描述 简单方差与简单标准差计算举例:
第三章 统计数据的描述 加权式方差与加权标准差计算举例:
第三章 统计数据的描述 3.是非标志标准差的计算: 根据同一资料计算: 4.判定原则和特点:
特点:充分考虑了每一数值的离中情况,且避免了取绝对值不方便数学处理的缺点,故运用广泛。 5.方差、标准差的简捷计算法 第三章 统计数据的描述 特点:充分考虑了每一数值的离中情况,且避免了取绝对值不方便数学处理的缺点,故运用广泛。 5.方差、标准差的简捷计算法 同理,则有 =
第三章 统计数据的描述 [例]
6.方差的数学性质: 总体各单位标志值与其算术平均数的方差最小。 第三章 统计数据的描述 6.方差的数学性质: 总体各单位标志值与其算术平均数的方差最小。
[例]已知各变量值与任意数的方差为500,而这个任意数与变量值平均数之差为12,试确定变量值的方差。 第三章 统计数据的描述 [例]已知各变量值与任意数的方差为500,而这个任意数与变量值平均数之差为12,试确定变量值的方差。
第三章 统计数据的描述 7.方差加法定理及计算 [例]11人日产量(件)如下:15,17,19,20,22,22,23,23,25,26,30。试求其总方差。
第三章 统计数据的描述 [例]11人日产量(件):15,17,19,20,22,22,23,23,25,26,30。
(4)平均组内方差:各组内方差的平均数。(分组条件下)
第三章 统计数据的描述 [例]11人日产量(件)如下15,17,19,20,22,22,23,23,25,26,30。 第三章 统计数据的描述 [例]11人日产量(件)如下15,17,19,20,22,22,23,23,25,26,30。 结论:原始资料是计算总方差;分组资料情况下,组内方差无法计算,因此,根据分组资料计算的方差实际上是组间方差。
第三章 统计数据的描述 (四)离散系数(相对离中趋势) 1.前述离散趋势指标的特点: 第三章 统计数据的描述 (四)离散系数(相对离中趋势) 1.前述离散趋势指标的特点: A.均带有与原资料相同的计量单位,属绝对数和平均数离散指标; B.只有当两总体性质相同、平均数相同时才可用来比较平均数的 代表性。 不同性质的绝对量不可直接对比 例: 体重 举重 相对水平 某人 120斤 50斤 50/120=42% 某只蚂蚁 1克 6克 6/1=600% 2.离散系数的特点: A.可用于两个总体平均水平不同时; B.可用于两个总体性质不同或计量单位不同时。
第三章 统计数据的描述 3.计算公式
第三章 统计数据的描述 判定原则: 越大,说明数据越分散, 的代表性越小; 越小,说明数据越集中, 的代表性越大。 同理: 第三章 统计数据的描述 判定原则: 越大,说明数据越分散, 的代表性越小; 越小,说明数据越集中, 的代表性越大。 同理: 越大,说明数据越分散, 的代表性越小; 越小,说明数据越集中, 的代表性越大。
第三章 统计数据的描述 第五节 分布偏态与峰度的测度 一、偏态及其测定 偏态:又称偏度,是对偏斜方向及其程度的测度。 第三章 统计数据的描述 第五节 分布偏态与峰度的测度 一、偏态及其测定 偏态:又称偏度,是对偏斜方向及其程度的测度。 偏态系数是对分布偏斜程度的测度。其计算公式为: 其中 是三阶中心距(距:描述统计变量分布的变异状况) 当 =0时,为对称分布; 当 >0时,为右偏分布; 越大,右偏程度越高; 当 <0时,为左偏分布; 越小,左偏程度越高;
第三章 统计数据的描述 二、峰度及其测定 峰度是用于衡量变量分布的集中程度或变量分布曲线的尖平程度的指标。 第三章 统计数据的描述 二、峰度及其测定 峰度是用于衡量变量分布的集中程度或变量分布曲线的尖平程度的指标。 峰度有三种:正态峰度、尖顶峰度(其分布的形状比正态分布峰度更高更瘦,总体各单位比较集中在众数的位置)、平顶峰度(其分布的形状比正态分布峰度更矮更胖,总体各单位相对于众数来说分布比较离散)。 峰度系数的计算公式为: 其中 是四阶中心距 当 =0时,为正态峰度; 当 >0时,为尖顶峰度; 当 <0时,为平顶峰度。
第六节 相对位置的测度及异常值的检测 一、z分数 1.概念: z分数通常被称为标准化数值。 Z表示观察值偏离平均数的标准差个数。 式中, 为第i个观察值的z分数; 为平均数; 为标准差。
第三章 统计数据的描述 2.对数据进行标准化处理。 其处理方法为
第三章 统计数据的描述 3.作用:了解变量值在整个分布中的地位并可直接进行对比。 第三章 统计数据的描述 3.作用:了解变量值在整个分布中的地位并可直接进行对比。 [例]A、B两位学生六门课程高考成绩及全部考生相应的平均分数和标准差如下(单位:分)
第三章 统计数据的描述 二、切贝谢夫定理与经验法则 第三章 统计数据的描述 二、切贝谢夫定理与经验法则 1.切贝谢夫定理:在任意一组数据中,至少有(1-1/k2)个数据落在k倍标准差范围内,k是大于1的任意数值。 切贝谢夫定理可以确定在偏离平均数某一指定倍数标准差范围内的数据所占的百分比。 当k取值2,3,4时,切贝谢夫定理分别得出如下一些推论: 至少75%的数据落在平均数加减2倍标准差范围内。 至少89%的数据落在平均数加减3倍标准差范围内。 至少94%的数据落在平均数加减4倍标准差范围内。 特点:适用于任何一组数据,而不论其数据分布的形状如何。
第三章 统计数据的描述 2.经验法则 对于呈对称分布的数据来说,大约68%的数据落在平均数加减1倍标准差的范围内;大约95%的数据落在平均数加减2倍标准差的范围内;大约99%的数据落在平均数加减3倍标准差的范围内。 一般来说,一组数据中落在平均数加减3倍标准差的范围之外的数据是很少见的。 -3 -2 -1 1 2 3
第三章 统计数据的描述 3.异常值检测 异常值是指一组数据中出现的一个或几个非正常大或正常小的极端值。 第三章 统计数据的描述 3.异常值检测 异常值是指一组数据中出现的一个或几个非正常大或正常小的极端值。 一般把Z分数小于-3或大于+3的数据都作为异常值。 异常值如果是被错误记录,在进一步分析之前能改则改,否则删除;如果是正常记录,则应保留。
课堂练习: 1.某公司10个企业产值计划完成情况分组的资料如下: 要求计算该公司产值计划平均完成程度。 解:分析:产值计划平均完成程度= 实际平均产值= 计划平均产值= =1580 平均计划完成程度= 答:该公司的产值平均计划完成程度为105.82%。 按产值计划完成程度分组(%) 企业数 实际产值(万元) 90~100 100~110 110~120 2 5 3 950 2205 1265 合计 10 4420
2.有两个生产作业班各有20名工人,对其日产量(件)进行调查登记。 甲班分组资料如下: 日产量(件)(x) 5 7 9 11 12 工人人数(f) 3 5 7 3 2 乙班工人日产量资料经过整理计算得 要求分别计算两个班工人平均日产量,并计算说明哪个班的平均数代表性大?
解:甲班: 产量(x) 工人数(f) xf 5 3 15 -3 27 7 35 -1 9 63 1 11 33 12 2 24 4 32 合计 20 160 94 乙班: 答:甲班平均日产量为8件,乙班为10件;乙班平均数代表性更大。
3.某地“十五”计划造林面积600万亩,其实际造林面积的具体情况如下: 试计算该地“九五”期间造林面积完成情况及提前完成的时间。 4.某厂2006年全员劳动生产率计划比上年提高6%,产品单位成本比上年降低5%,而实际情况是:全员劳动生产率比上年提高5%,产品单位成本比上年降低6%,求该厂全员劳动生产率和产品单位成本的计划完成情况。 时间 2001 2002 2003 2004 2005 一季 二季 三季 四季 面积(万亩) 100 120 130 150 50 60 70 答:提前半年完成计划。 解:(1)劳动生产率计划完成= (2)单位产品成本计划完成= 答:劳动生产率计划差0.94%未能完成,单位产品成本计划超额1.05%完成。 5.某车间有两个小组,每组7人,每人日产量件数如下: 第一组:20、40、60、70、80、100、120 第二组:67、68、69、70、71、72、73 这两组工人每人平均日产量件数均为70件,分别计算各组日产量的差异指标: (1)全距。(2)平均差.(3)标准差,并比较哪个组的平均数的代表性大?
解: 第一组:R=100; A.D=180/7=25.71; 第二组:R=6; A.D=12/7=1.71; 答:第二组平均数代表性更大。 产量 (x) 二 20 -50 50 2500 67 -3 3 9 40 -30 30 900 68 -2 2 4 60 -10 10 100 69 -1 1 70 80 71 72 120 73 180 7000 12 28
一、单项选择题 1.平均指标是说明( )。 A. 各类总体某一数量标志在一定历史条件下的一般水平 1.平均指标是说明( )。 A. 各类总体某一数量标志在一定历史条件下的一般水平 B. 社会经济现象在一定历史条件下的一般水平 C. 同质总体内某一数量标志在一定历史条件下的一般水平 D. 大量社会经济现象在一定历史条件下的一般水平 2.计算平均指标最常用的方法和最基本的形式:( ) A.中位数 B. 众数 C. 调和平均数 D. 算术平均数 3.权数对算术平均数的影响作用决定于( )。 A. 权数的标志值 B. 权数的绝对值 C. 权数的相对值 D. 权数的平均值
4.在变量数列中,若标志值较小的组权数较大时,计算出来的平均数( )。 A. 接近于标志值小的一方 B. 接近于标志值大的一方 C. 接近于平均水平的标志值 D.不受权数的影响 5.假如各个标志值都增加5个单位,那么算术平均数会:( )。 A. 增加到5倍 B. 增加5个单位 C. 不变 D. 不能预期平均数的变化 6.各标志值与平均数离差之和( )。 A. 为最小值 B. 等于各变量离差之和的平均数 C. 等于零 D. 为最大值 7.当计算一个时期到另一个时期的销售额的年平均增长速度时,应采用哪种平均数?( ) A. 众数 B. 中位数 C. 算术平均数 D. 几何平均数
A. 钟型分布 B. 对称的钟型分布 C. 对称的U形分布 D. U形分布 9.标志变异指标与平均数代表性之间存在( )。 8.当 时,其总体分布的状况为( )。 A. 钟型分布 B. 对称的钟型分布 C. 对称的U形分布 D. U形分布 9.标志变异指标与平均数代表性之间存在( )。 A. 正比关系 B. 反比关系 C. 恒等关系 D. 倒数关系 10.用标准差比较分析两个同类总体平均指标的代表性,其基本的前提条件是( )。 A. 两个总体的标准差应相等 B. 两个总体的平均数应相等 C. 两个总体的单位数应相等 D. 两个总体的离差之和应相等 11.为了比较两个不同总体标志的变异程度,必须利用( ) A.全距 B. 标准差 C. 平均差 D. 标准差系数 12.两个总体的平均数不等,但标准差相等,则( )。 A. 平均数小,代表性大 B. 平均数大,代表性大 C. 两个平均数的代表性相同 D. 无法判断
三、判断题 1.利用组中值计算算术平均数是假定各组内的标志值是均匀分布的,计算结果是准确的。( ) 1.利用组中值计算算术平均数是假定各组内的标志值是均匀分布的,计算结果是准确的。( ) 2.几何平均数是计算平均比率和平均速度最适用的一种方法。( ) 3.当中位数组相邻两组的次数相等时,中位数就是中位数组的组中值。( ) 4.平均差所平均的是离差本身,而标准差所平均的是离差的平方。( ) 5.对于同一数列,同时计算平均差和标准差,二者一定相等。( ) 6.标志变异指标既反映了总体各单位标志值的共性,又反映了它们之间的差异性。( )
7.全距不受中间标志值的影响。( ) 8.变量值越大,标准差越大;反之,变量值越小,标准差越小。( ) 9.对任何两个性质相同的变量数列,比较其平均数的代表性,都可以采用标准差指标。( ) 10.对于同一数列,同时计算平均差和标准差,二者一定相等。( ) 11.如果两个数列的变异系数相同,则说明两个平均数对各自数列的代表性相同。( )