第三章 平均数、标准差 与变异系数 3.1 平均数: 在数理统计中,平均数是用来反映一组变数的集中趋势,即变数分布的中心位置。常用的度量指标有: 1. 算术平均数 2. 中位数(M) 4. 几何平均数(Mg) 3. 众数(Mo) 5. 调和平均数(H)
例如:不同国家、地区、种族之间身高、体重等 集中趋势的度量 平均数的意义 作为一个资料的代表,指资料中各变数集中 较多的中心位置,用来与另一资料相比较。 不同的平均数适合于不同的数据资料。 例如:不同国家、地区、种族之间身高、体重等 的比较;不同品种的家畜、家禽之间生产 性能的比较
集中趋势的度量 3.1.1 算术平均数 一、定义 样本的平均数记为 是最常用的一种集中趋势度量指标。 总体平均数记为 一组资料中,所有观测值的总和除以其个数所得到的商,称为算术平均数,简称平均数或均数。 是最常用的一种集中趋势度量指标。 样本的平均数记为 总体平均数记为
集中趋势的度量 二、计算公式: :第i个观察值或变数 n:观察值或变数的个数 ∑:求和符号(sigma)
集中趋势的度量 三、算术平均数的性质 ∑(xi- ) =(x1- )+(x2- )+……+(xn- ) = x1+x2+……+xn+n• (一)离均差之和为零: 一个样本观察值与平均数之差简称离均差。 ∑(xi- ) =(x1- )+(x2- )+……+(xn- ) = x1+x2+……+xn+n• = ∑xi- n‧∑xi/n = 0
集中趋势的度量 三、算术平均数的性质 (二)离均差平方和最小: 一个样本的各个观察值与平均数之差的平方和比各个观察值与任意其他数之差的平方和小。 所以:平均数是与各个观察值最接近的数值。 平均数代表这个样本的集中趋势。
样本平均数常作为检验对象的原因 1、离均差的平方和∑( - )2最小。说明样本平均数与样本各个观测值最接近,平均数是资料的代表数。 1、离均差的平方和∑( - )2最小。说明样本平均数与样本各个观测值最接近,平均数是资料的代表数。 2、样本平均数是总体平均数的无偏估计值,即E( )=μ。 3、根据统计学中心极限定理,样本平均数服从或逼近正态分布。
集中趋势的度量 3.1.2 中位数(Md) 定义:将n个观察值从小到大依次排队,位于中间的那个观察值称为中位数。
集中趋势的度量 3.1.2 中位数(Md) 对于频数分布的资料,公式如下: Lmd:中位数所在组的组下限; fm:中位数所在组的频数; C:从第一组到中位数所在组前一组的累计频数 n:样本含量; i:组距;
集中趋势的度量 3.1.3 几何平均数 定义:n个非负数的乘积开n次方的根称为几何平均 数,用 G 表示。
集中趋势的度量 3.1.3 几何平均数 为了计算方便,各变数先取对数,再相加除以n,即为logG,再求其反对数,即为G值。 几何平均数用于以百分率、比例表示的数据资料,如:增长率、利率、药物效价、抗体滴度等。 能够消弱数据中个别过分偏大值的影响。
!!有的资料可出现多个众数,即多个数具有相同的最高频数;有的资料没有众数,即所有数出现的频数都相同。 集中趋势的度量 3.1.4 众数 定义:在资料中某一个变数出现次数最多,就称 之为众数。 1. 离散性资料:出现频数最多的数。 2. 连续性资料:频数分布表中,频数出现最多的 一组的组中值。 !!有的资料可出现多个众数,即多个数具有相同的最高频数;有的资料没有众数,即所有数出现的频数都相同。
集中趋势的度量 3.1.5 调和平均数 定义:各观察值倒数的算术平均数的倒数 适用于极端右偏态
集中趋势的度量 3.1.5 调和平均数 例:用某药物救治12只中毒的小鼠,它们的存活天数记录如下:8、8、8、10、10、7、13、10、9、14,另有两只一直未死亡,求平均存活天数。 由于数据极端右偏态,用调和平均数较为合理。
2.2.3 百分位数(百分位点) 指将一组 n 个数据由小到大排列,如果小于 某数值的数据个数为全体数据个数的x%,则称该数为第 x 百分位数或 x% 分位数。 25%分位数或下四分位数:0.25n个数的后一个数。 50%分位数或中位数:0. 5n个数的后一个数。 75%分位数或上四分位数:0.75n个数的后一个数。 1
集中趋势的度量 3、中位数 适用于非参数检验,如卡方检验。 4、几何平均数和调和平均数 适用于右偏态分布。
3.2标准差 离散趋势的度量 平均数的代表程度与样本的变异程度有关 一个样本内有很多的变数,用平均数作为样本的代表,其代表程度决定于样本内各个变数的变异程度。
离散趋势的度量 3.2标准差 即使两个样本的平均数相同,但是样本内变数的变异程度不一定相同。 产仔数 总和 甲 8,4,16,12,22,17,6,14,6,5 110 11 乙 14,8,11,9,11,12,10,14,13,8
离散趋势的度量 3.2标准差 1.如果各个变数相同或者变异程度比较小,则平 均数能够代表整个样本。 2.如果各个变数的变异程度比较大,则平均数的代 表性就小。 因此,单靠平均数不能全面、正确地了解样 本。也不能了解平均数作为样本的变异程度。
离散趋势的度量 3.2 范围(全距) 定义:全部变数的最大值与最小值之差 R= Max(x) -Min(x) 范围或全距可以反映变异程度的一部分,但是不能代表样本内各变数之间的变异程度。 目前,被广泛使用的是以标准差来度量变异程度。
离散趋势的度量 3.2.1 标准差的定义 如果一个样本有n个观察值 x1,x2 …… xn,设其算术平均数为 ,则该样本的标准差为: 标准差考虑了每个变数与平均数的离差。 每个变数与平均数相差愈小,样本变异程度愈小,反之,愈大。 因此,标准差是离散程度的度量
离散趋势的度量 3.2.2 标准差公式的来源 1.离均差=(x- ) 2.离均差之和= ∑(x- )=0 虽然离均差可以衡量变异程度,但是离均差之和为0,所以不是理想的指标 1.离均差=(x- ) 2.离均差之和= ∑(x- )=0 3.离均差平方和 SS= ∑(x- )2 为了合理地计算平均差异,用平方和的办法来消除离均差的正负号,离均差平方相加,得到平方和(SS),但是由于不同样本的观察值个数不同,所以离均差平方和也不是理想指标
离散趋势的度量 3.2.3 样本方差和样本标准差 将离均差平方和求平均数,称为样本方差,目的是消除观察值个数的影响 样本方差开方,目的是使变异还原,即标准差。
离散趋势的度量 3.2.4 总体方差和样本标准差 总体是未知的,用样本标准差估计和推断总体标准差
3.2.5 自由度: df,n-1 如果一个样本含有n个变数,从理论上讲,n个变数都同样用以计算标准差,n个变数与平均数相减有n个离均差。
离散趋势的度量 3.2.5 自由度: 例如:有3个变数,平均数等于5。 问着三个变数可能是多少? (4、5、6)(2、4、9)(3、5、7)…… 他们的共同特点:前两个数可以自由选择,为了使平均数等于5,第三个数不用选就确定了。这时(3-1)=2就是所谓自由度。 自由度: 消除限制性因数后,所剩余的独立变数的个数,用df表示。
离散趋势的度量 三、方差和标准差的计算公式 1. 直接法 2. 加权法
3.2.6 标准差的性质 标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。 在计算标准差时,在各观测值加上或减去一个常数,其数值不变。 当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。
3.2.6 标准差的性质 在资料服从正态分布的条件下: 平均数左右一倍标准差( ±S)范围: 约有68.26%的观测值; 也就是说全距近似地等于6倍标准差,可用( )来粗略估计标准差。
离散趋势的度量 3.3 变异系数(C.V) 标准差与平均数的比值称为变异系数 ⁂ 用于比较度量单位不同以及不同时期 的资料。