4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状 第四章 集中趋势和离中趋势 4.1 集中趋势的计量 4.2 离中趋势的计量 4.3 数据的分布形状
4.1 集中趋势的计算 一、算术平均(也叫均值 ) 集中趋势反映一组数据中各数据所具有的共同趋势,即资料中各数据聚集的位置。 4.1 集中趋势的计算 集中趋势反映一组数据中各数据所具有的共同趋势,即资料中各数据聚集的位置。 一、算术平均(也叫均值 ) 1.简单算术平均数 计算公式: 它是反映数据集中的主要测度。
算术平均的统计含义:算术平均数是同质总体各数据偶然性、随机性特征互相抵消后的稳定数值。反映数据集中的特征。 例 某生产班组11个工人的日产零件数分别为:15,17,19,20,22,…26,30。求该生产班组工人的平均日产零件数。 解: * … * 22 * * * * *
算术平均值的性质一:数据观察值与均值的离差值之和为零. 此性质表明均值是各数值的重心 算术平均值的性质二:观察值与均值的离差平方和最小。 为任意数 故用算术平均值来预测作为估计值,误差平方和最小。
均值的缺点:均值易受极端值的影响,某个极端大值或极端小值都会影响均值的代表性。同时还影响其对集中趋势测度的准确性。 数列:1,2,2,3 平均数为2 数列:1,2,2,5 平均数为2.5 数列:1,2,2,7 平均数为3
2.加权算术平均数 如果数据是分组资料,经过整理形成了次数分配,由于各组次数不同,要用次数作权数计算加权算术平均数。 则均值的计算公式为: 其中Xi 表示第i 组的组中值,fi表示第i组的次数。
例:某单位80工人一周生产零件数的分组统计资料如下表: 工人数fi 组中值xi xifi 60以下 7 55 385 60-70 21 65 1365 70-80 25 75 1875 80-90 19 85 1615 90以上 8 95 760 合计 80 --- 6000
二、中位数 将数据观察值x1,x2,…,xn按其变量值由小到大的顺序排列,处于数列中点位置的数值就是中位数(Me)。 中位数的确定方法: ②如果数据个数为偶数,则处于n/2、n/2+1的两个标志值的平均数为中位数。
③如果是组距分组资料,公式为: 向上累积 向下累积 中位数是n/2位置上的数值,设落在第i组, Li是中位数所在组的下限, fi是中位数所在组的次数。 Fi-1是中位数所在组的前一组的累积次数 Ui-Li是中位数所在组的组距 =上限-下限
某单位80工人一周生产零件数分组统计资料如下: 60以下 7 55 385 80 60-70 21 65 1365 28 73 70-80 工人数fi 组中值xi xifi 向上累计频数 向下累计频数 60以下 7 55 385 80 60-70 21 65 1365 28 73 70-80 25 75 1875 53 52 80-90 19 85 1615 72 27 90以上 8 95 760 合计 --- 6000
中位数是位置平均数,不受极端值的影响。各个数值相对其中位数的绝对离差之和为最小。 不足:中位数确定时只与中间位置的相关数据有关,而不考虑其它数值的大小,缺乏敏感性;计算复杂。
三、众 数 众数是一组资料中出现次数最多的那个数值,也反映数据集中的程度( M0 )。 ①未分组资料,M0就是出现次数最多的变量值。 三、众 数 众数是一组资料中出现次数最多的那个数值,也反映数据集中的程度( M0 )。 ①未分组资料,M0就是出现次数最多的变量值。 20,15, 18,20,20,22,20,23 20,20,15,19, 19, 20,19,25 10,11,13,16,15,25 ,8,12
②分组资料:在等距分组的情况下,频数最多的组是众数组,在该组内确定众数。 设众数在第i组,则 Li是众数所在组的下限, Ui是众数所在组的上限; fi是众数所在组的次数。 di= Ui-Li是中位数所在组的组距 =上限-下限
某单位80工人一周生产零件数分组统计资料如下: 60以下 7 55 385 80 60-70 21 65 1365 28 73 70-80 工人数fi 组中值xi xifi 向上累计频数 向下累计频数 60以下 7 55 385 80 60-70 21 65 1365 28 73 70-80 25 75 1875 53 52 80-90 19 85 1615 72 27 90以上 8 95 760 合计 --- 6000
在Excel中 AVERAGE()—计算算术平均数 利用SUM()函数和SUMPRODUCT()函数求加权算术平均。 MEDIAN()—计算中位数 MODE()—计算众数
四、均值、中位数、众数三者之间的关系 f f f X X X (对称分布) 正偏态分布(右) 负偏态分布(左) 均值是数据分布的平衡点或重心,中位数把这个分布划分为两半,众数正好是分布的顶端。
在偏斜不大时,中位数大约位于均值与众数的1/3处。 算术平均数适用于定距变量(或数值变量、定量变量),中位数适用于定序变量,众数则适用于定类变量(或定性变量)
五、集中趋势的其它测度量 1.分位数:四分位数、十分位数、百分位数。 分位数的计算: (1)将资料按大小顺序排列; (2)求出分位数所在位置i; (3)若i为整数,则所求分位数为该位置上的数值;若i为非整数,则取第i与第i+1位置的两个数值的平均数为所求分位数。 (4)若资料为分组数据,则各分位数可按下式计算: Ki表示第i个K分位数; Li表示第i个K分位数所在组的下限;N表示数据总个数;Fi-1表示第i个K分位数所在组的前一组的累积次数;fi是第i个K分位数所在组的次数。di= Ui-Li是第i个K分位数所在组的组距。
四分位数的位置确定方法: 方法1:定义算法 方法2:以中位数为中心,从两端再计算中位数,公式: 其中[ ]表示中位数的位置取整。这样计算出的四分位数的位置,要么是整数,要么在两个数之间0.5的位置上
方法3 Excel给出的四分位数位置的确定方法 无论哪种算法,如果位置是整数,四分位数就是该位置对应的值;如果是在0.5的位置上,则取该位置两侧值的平均数;如果在0.25或0.75位置上,则四分位数等于该位置的下侧值加上按比例分摊位置两侧数值的差值。
【例】:9个家庭的人均月收入数据(3种方法计算) 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 方法1: 方法2: 所以QL为从最小值数第3个数值,即850元; Qu为从最大值数第3个数值,即1500元;
所以QL为第3个数值,即850元; Qu为7个数值,即1500元; 方法3 Excel方法 原始数据: 1500 750 780 1080 850 960 2000 1250 1630 排 序: 750 780 850 960 1080 1250 1500 1630 2000 位 置: 1 2 3 4 5 6 7 8 9 所以QL为第3个数值,即850元; Qu为7个数值,即1500元; 可见三种方法计算的四分位数不完全相同。但对他们的解释是一样的,即排序数据中,至少25%的数据小于等于QL,至少75%的数据小于等于Qu。
2.几何平均数 公式为: 用于计算平均比率或平均速度。包括 (1)对比率进行平均; (2)测定生产或经济变量的时间序列的平均增长率。 举例:将一笔钱存入银行,存期10年,以复利计息,10年的利率分配是:第1年至第2年为5%、第3年至5年为8%、第6年至第8年为10%、第9年至第10年12%,计算平均年利率。
注意:当观测值有一项为0或负值时,不易计算几何平均数。
3.调和平均值 调和平均值是观察值倒数之平均数的倒数,也称倒数平均数。用 表示: (1)具有倒数性质 例如某人前10公里以时速50公里行驶,后10公里以30公里时速行驶。这20公里花了0.533小时,所以平均时速
(2)总体单位数未知时,例4.11(71) 加权调和平均数 应用条件:资料经过分组,各组次数不同。
算术平均、几何平均、调和平均三者关系 三者均属于均值体系 算术平均值是直接对观测值进行平均;几何平均值是对观察值对数后的平均;调和平均值是对观察值取倒数后平均;一般情况下,有如下关系:
在Excel中 QUARTILE()—计算四分位数 PERCENTILE()—计算百分位数 GEOMEAN()—计算几何平均数 HARMEAN()—计算简单调和平均数
4.2 离中趋势的计算 离中趋势是数据分布的又一特征,它表明变量值的差异或离散程度。 离中趋势测度经常用到的指标有:极差、方差和标准差、四分位差等,它们也被称为变异指标。 一、 极差 极差也称为全距,是一组数据的最大值和最小值的差: 缺点:易受极端值的影响。 全距值越小,数据变动范围越小,平均数的代表性越高;全距值越大,数据数据变动范围越大,平均数的代表性越低。
1、平均差是指数据值与其均值之差的绝对值的算术平均值,用符号A·D表示。计算公式: 二、平均差 1、平均差是指数据值与其均值之差的绝对值的算术平均值,用符号A·D表示。计算公式: 2、优点:完整地反映了全部数据的分散程度,计算方法简单; 缺点:易受极值影响,绝对值计算不方便。 未分组数据: 分组数据: 平均差越大,平均数代表性越低; 平均差愈小,平均数代表性越高
三、 方差与标准差 总体方差是观察值与其均值离差平方和的均值; 总体标准差是总体方差的正平方根;
如果计算总体方差的资料是次数分配数据,在计算总体方差时要将各组权数考虑进去,有如下公式: 总体方差的另一种表达方式: 总体方差愈大,数据的变动程度愈大,总体方差愈小,数据的变动程度愈小。
样本方差与样本标准差 当样本数据个数足够大时,样本方差与总体方差很接近 在Excel中 Max()-min() —计算极差 AVEDEV()—计算平均差 VARP()—计算总体方差 VAR()—计算样本方差 STDEVP()—计算总体标准差 STDEV()—计算样本标准差
四、Chebishev定理与经验法则 1.Chebishev定理: 对任何一组资料,观测值落于均值左右k个标准差的区间内的比例,至少为(1-1/k2)。 Chebishev定理适用于任何形状的次数分布资料,但此区间是一个比较保守的估计值。 2.经验法则: 当资料分布呈对称形状时,有: (1)约有68%的观测值落于 的区间内; (2)约有95%的观测值落于 的区间内; (3)约有97%的观测值落于 的区间内;
五、相对离中趋势——变异系数 定义:变异系数又称离散系数,是标准差与均值的比值。 公式: 对数据相对离散程度的测度 消除了数据水平高低和计量单位的影响 用于对不同组别数据离散程度的比较
从σ上看,甲的 更具代表性,通过C.V. ,乙不但 高,而且各地块产量比甲农场稳定,因此乙的 最具有代表性。 例: σ C.V. 甲 300 7.5 2.5% 乙 400 9 2.25% 从σ上看,甲的 更具代表性,通过C.V. ,乙不但 高,而且各地块产量比甲农场稳定,因此乙的 最具有代表性。
【 例 】评价哪名运动员的发挥更稳定 发挥比较稳定的运动员是塞尔维亚的亚斯娜·舍卡里奇和中国的郭文珺,发挥不稳定的运动员是蒙古的卓格巴德拉赫·蒙赫珠勒和波兰的莱万多夫斯卡·萨贡
六、离中趋势的其它测度量 1.四分位差 四分位差是第三个四分位值与第一个四分位值之差的二分之一。用Q.D.表示。 意义: ——剔除了极端值,说明50%数据分布的范围; ——与中位数配合说明数据分布是否对称。 若分布对称,则Q2-Q1=Q3-Q2=(Q3-Q1)/2 若不相等,则是非对称的。
2.异众比率 异众比率指非众数值的次数之和占总次数的比重,用VM0表示。 fM0 为众数值次数,n为总次数 含义: 异众比率数值越大,说明众数的代表性越低,即观测值差异较大;异众比率数值越小,说明众数的代表性越高,即观测值差异较小。
3.平均差系数
4.3 数据的分布形状 一、偏斜度 偏斜度是对数据分布在平均数两侧的偏移方向和偏移程度所作的描述。 1.Pearson偏态系数 偏态系数以平均数与众数之差除以标准差来衡量偏斜程度,用SK表示。其计算公式为: 当SK=0时, 呈对称分布; 当SK>0时, 分布是右偏(正偏)的;当SK<0时, 分布是左偏(负偏)的。
SK=0 SK>0 SK<0 (对称分布) 正偏态分布(右) 负偏态分布(左)
(k-1)!!表示从1到k-1点的一切奇数的连乘积。 2.动差法(矩法)求偏态系数 统计学中,矩包括原点矩和中心矩。原点矩的定义是: k为整数,称为k阶原点矩 中心矩的定义是: 中心矩的两个重要性质: ——分布对称时,奇数阶中心矩恒为零; ——当分布为正态分布时,偶数阶中心矩有 (k-1)!!表示从1到k-1点的一切奇数的连乘积。
EXCEL中,用函数skew()求偏斜度 矩法估计就是利用中心矩来衡量分布的偏度。 用公式表示为: 偏态系数大于1或小于-1,为高度偏态分布;偏态系数在0.5~1或-1~-0.5之间,为是中等偏态分布;偏态系数越接近0,偏斜程度就越低 EXCEL中,用函数skew()求偏斜度
EXCEL中,用函数kurt()求偏斜度 二、峰度 峰度是变量分布的又一性质,它指的是分布曲线的高峰形态,即分布曲线的尖峭程度。 1.峰度系数 峰度指标K=3,分布为正态峰度,当峰度指标K>0时,表示频数分布比正态分布更集中,分布呈尖峰状态,K<0时表示频数分布比正态分布更分散,分布呈平坦峰。如图: Ⅱ(K>3) Ⅰ(K=3) Ⅲ (K<3) EXCEL中,用函数kurt()求偏斜度
数据的描述统计量