第三章 资料的统计描述 上一张 下一张 主 页 退 出
第一节 平均数 ★平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。 第一节 平均数 ★平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。 ★在畜牧、水产业生产实践和科学研究中,平均数被广泛用来描述或比较各种技术措施的效果、畜禽某些数量性状的指标等。 上一张 下一张 主 页 退 出
算术平均数(arithmetic mean) 中位数(median) 众数(mode) 几何平均数(geometric mean) ★平均数主要包括: 算术平均数(arithmetic mean) 中位数(median) 众数(mode) 几何平均数(geometric mean) 调和平均数(harmonic mean) 上一张 下一张 主 页 退 出
★算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数,记为 。 一、算术平均数 ★算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数,记为 。 ★算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。 上一张 下一张 主 页 退 出
(一)直接法 ★用于样本含量n≤30、未经分组资料平均数的 计算。设某一资料包含n个观测值: x1、x2、…、xn, 则样本平均数可通过下式计算: ★其中,Σ为总和符号,读作sigma,表示累加、总和。 表示从第一个观测值x1累加到第n个观测值xn。 上一张 下一张 主 页 退 出
【例3.1】 某种公牛站测得10头成年公牛的体重 分别为500、520、535、560、585、 600、480、510、505、490(kg), 求其平均数。 =500+520+535+560+585+600+480+510+505+490 =5285 n=10 上一张 下一张 主 页 退 出
(二)加权法 ★对于样本含量 n≥30 且已分组的资料,可以在 次数分布表的基础上采用加权法计算平均数,计算公式为: 其中: 为第i组的组中值; 为第i组的次数; 为分组数 ★由于第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量,因此将fi 称为是xi的“权”,加权法也由此而得名。 上一张 下一张 主 页 退 出
【例3.2】100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权数平均数。 表3—1 100头长白母猪仔猪一月窝重次数分布表 上一张 下一张 主 页 退 出
★即这100头长白母猪仔猪一月龄平均窝重为45.2kg。 ★ 代入公式得: ★即这100头长白母猪仔猪一月龄平均窝重为45.2kg。 上一张 下一张 主 页 退 出
★计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。 【例3.3】某牛群有黑白花奶牛 1500头,其平均体重为750 kg ,而另一牛群有黑白花奶牛1200头,平均体重为725 kg,如果将这两个牛群混合在一起,其混合后平均体重为多少? ★即两个牛群混合后的平均体重为738.89 kg。 上一张 下一张 主 页 退 出
(三)平均数的基本性质 ★ 1、样本各观测值与平均数之差的和 为零,即离均差之和等于零。 或简写成 上一张 下一张 主 页 退 出
★2、样本各观测值与平均数之差的平方和 为最小,即离均差平方和为最小。 (常数a≠ ) 或简写成 上一张 下一张 主 页 退 出
★当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。 ★对于总体而言,通常用μ表示 总体平均数,有限总体的平均数为: 其中,N表示总体所包含的个体数。 ★当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。 ★统计学中常用样本平均数( )作为总体平均数(μ)的估计量,并已证明样本平均数是总体平均数μ的无偏估计量。 上一张 下一张 主 页 退 出
★将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。 二、中位数 ★将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。 ★当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。 ★当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。 ★中位数的计算方法因资料是否分组而有所不同。 上一张 下一张 主 页 退 出
对于未分组资料,先将各观测值由小到大依次排列。 (一)未分组资料中位数的计算方法 对于未分组资料,先将各观测值由小到大依次排列。 上一张 下一张 主 页 退 出
★当观测值个数n为奇数时,(n+1)/2 位置的观测值,即x(n+1)/2为中位数: 上一张 下一张 主 页 退 出
【例3.4】观察得9只西农莎能奶山羊的妊娠 天数为144、145、147、149、150、 151、153、156、157,求其中位数。 此例 n=9,为奇数,则: 即西农莎能奶山羊妊娠天数的中位数为150天。 上一张 下一张 主 页 退 出
【例3.5】某犬场发生犬瘟热,观察得10只 仔犬从发现症状到死亡分别为7、8、8、 9、11、12、12、13、14、14天,求其中位数。 此例n=10,为偶数,则: 即10只仔犬从发现症状到死亡天数的中位数为11.5天。 上一张 下一张 主 页 退 出
三、几何平均数 ★n 个观测值相乘之积开 n 次方所得的 方根,称为几何平均数,记为G。 ★主要应用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析。如畜禽、水产养殖的增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等,用几何平均数比用算术平均数更能代表其平均水平。 上一张 下一张 主 页 退 出
★为了计算方便,可将各观测值取对数后相加除以n,得lgG,再求lgG的反对数,即得G值,即 ★几何平均数计算公式: ★为了计算方便,可将各观测值取对数后相加除以n,得lgG,再求lgG的反对数,即得G值,即 上一张 下一张 主 页 退 出
例: 4头猪的血清抗体效价为1:10、1:100、1:1000、1:10000,求血清的抗体平均效价。 例: 4头猪的血清抗体效价为1:10、1:100、1:1000、1:10000,求血清的抗体平均效价。 lg10=1 lg100=2 lg1000=3 lg10000=4 lgG=2.5 G=316.23 平均效价为1:316.23
【例3.7】某波尔山羊群1997—2000年各年度 的存栏数见表3—3,试求其年平均增长率。 表3—3 某波尔山羊群各年度存栏数与增长率 表3—3 某波尔山羊群各年度存栏数与增长率 上一张 下一张 主 页 退 出
利用公式求年平均增长率 G= =lg-1[(-0.368-0.398–0.602)/3] =lg-1(-0.456)=0.3501 即年平均增长率为0.3501或35.01%。 上一张 下一张 主 页 退 出
★资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为M0。 四、众 数 ★资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为M0。 ★如表2-3 所列的50枚受精种蛋出雏天数次数分布中,以22出现的次数最多,则该资料的众数为22天。 ★又如【例3.6】所列出的次数分布表中,57—71这一组次数最多,其组中值为64天,则该资料的众数为64天。 上一张 下一张 主 页 退 出
★资料中各观测值倒数的 算术平均数的倒数, 称为调和平均数,记为H,即 五、调和平均数 ★资料中各观测值倒数的 算术平均数的倒数, 称为调和平均数,记为H,即 ★调和平均数主要用于反映畜群不同阶段的平均增长率或畜群不同规模的平均规模。 上一张 下一张 主 页 退 出
【例3.8】某保种牛群不同世代牛群保种的规模 分别为:0世代200头,1世代220头, 2世代210头;3世代190头, 4世代210头,试求其平均规模。 计算方法: 即保种群平均规模为208.33头。 上一张 下一张 主 页 退 出
★对于同一资料: 算术平均数>几何平均数>调和平均数 ★上述五种平均数,最常用的是算术平均数。
如果a,b是正数,那么 ≥ (当且仅当a=b取等号) 即两个正数的算术平均数不小于它们的几何平均数。 ≥ 即n个正数的算术平均数不小于它们的几何平均数。
受极端值影响最大的平均指标是( )。 A、 算术平均数 B、调和平均数 C、 几何平均数 D、中位数Me {1、10、100} 37、 9.009、 10、 10
邻居九个穷光蛋, 混在一起来计算, 家家都是一百万。 张姓一家一千万, 统计方法、方法的适宜范围、…… 社会现象(贫富悬殊、数据忽悠……) {1000、1、1、1、1、1、1……1} 100.9 1.11 1.995 1 1 算术平均数 调和~ 几何~ 中位数 众数 S=315.91 CV=313.09%
第二节 标准差 一、标准差的意义 ★标准差表示数据资料中各变数的变异程度大小,离中性如何。 第二节 标准差 一、标准差的意义 ★标准差表示数据资料中各变数的变异程度大小,离中性如何。 ★用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。 ★仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。 上一张 下一张 主 页 退 出
★但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。 ★全距(极差)是表示资料中各观测值 变异程度大小最简便的统计量。 ★但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。 上一张 下一张 主 页 退 出
★为了准确地表示样本内各个观测值的变异程度 ,人们 首 先会考虑到以平均数为标准,求出各个观测值与平均数的离差( ),称为离均差。 ★为了准确地表示样本内各个观测值的变异程度 ,人们 首 先会考虑到以平均数为标准,求出各个观测值与平均数的离差( ),称为离均差。 ★虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和为零,即 。 ★因而不能用离均差之和 来表示资料中所有观测值的总偏离程度。 上一张 下一张 主 页 退 出
离均差之和为零的问 题,可以先将各个离均差平方,即 ( )2 ,再求离均差平方和,简称平方和,记为SS。 即 ★为了解决离均差有正、有负, 离均差之和为零的问 题,可以先将各个离均差平方,即 ( )2 ,再求离均差平方和,简称平方和,记为SS。 即 上一张 下一张 主 页 退 出
为消除 样本大小的影响,用平方和除以样本大小,求出离均差平方和的平均数,即 ★由于离差平方和常随样本大小而改变, 为消除 样本大小的影响,用平方和除以样本大小,求出离均差平方和的平均数,即 上一张 下一张 主 页 退 出
★为了使所得的统计量是相应总体参数的无偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用自由度n-1。 ★于是,我们得到一个表示资料变异程度的新统计量,称为均方(mean square,缩写为MS),又称样本方差,记为S2,即 上一张 下一张 主 页 退 出
★相应的总体参数叫总体方差,记为σ2。对于有限总体而言,σ2的计算公式为:
★为了便于与平均数配合使用,且单位一致,可以对方差开平方,求出样本方差的平方根。 ★统计学上把样本方差 S2 的平方根叫做样本标准差,记为S,即: 上一张 下一张 主 页 退 出
上一张 下一张 主 页 退 出
★在统计学中,常用样本标准差S估计总体标准差σ。 ★相应的总体参数叫总体标准差,记为σ。 ★对于有限总体,σ的计算公式为: ★在统计学中,常用样本标准差S估计总体标准差σ。 上一张 下一张 主 页 退 出
★加权法(适用于已制成次数分布表的大样本资料) 二、标准差的计算方法 ★直接法(适用于未分组或小样本资料) ★加权法(适用于已制成次数分布表的大样本资料)
★直接法
★直接法
(一)直接法 【例3.9】计算10只辽宁绒山羊产绒量:450,450,500,500,550, 550,550,600,600,650(g)的标准差。 此例 n=10, 经计算得:Σx=5400 Σx2=2955000 代入公式得: 即10只辽宁绒山羊产绒量的 标准差 为65.828g。 上一张 下一张 主 页 退 出
例:5头黑白花奶牛某一天的产奶量是: 17,18, 20,22,23(kg), 计算其平均数、标准差。 上一张 下一张 主 页 退 出
例:5头黑白花奶牛某一天的产奶量是: 17,18, 20,22,23(kg), 计算其平均数、标准差。 解: n=5, 经计算得:Σx=100 Σx2=2026 代入公式得: 即5 头黑白花奶牛产奶量 标准差 为2.54kg。 上一张 下一张 主 页 退 出
例:5头黑白花奶牛某一天的产奶量是: 17,18, 20,22,23(kg), 计算其平均数、标准差。 15,18, 20,22,25(kg),
例:5头黑白花奶牛某一天的产奶量是: 15,18, 20,22,25(kg), 计算其平均数、标准差。 解: n=5, 经计算得:Σx=100 Σx2=2058 代入公式得: 即5 头黑白花奶牛产奶量 标准差 为3.808kg。 上一张 下一张 主 页 退 出
三、标准差的特性 1、标准差的大小,受资料中每个观测值的影响。如观测值间变异大,标准差也大,反之则小。 2、在计算标准差时,在各观测值加上或减去一个常数,其数值不变。 3、当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。 上一张 下一张 主 页 退 出
◆全距近似地等于6倍标准差,可用(全距/6)来粗略估计标准差。 ★在资料服从正态分布的条件下,资料中 ◆约有68.26%的观测值在平均数左右一倍标准差 ( )范围内; ◆约有95.43%的观测值在平均数左右两倍标准差 ( )范围内; ◆约有99.73%的观测值在平均数左右三倍标准差 ( )范围内。 ◆全距近似地等于6倍标准差,可用(全距/6)来粗略估计标准差。 上一张 下一张 主 页 退 出
思考题:什么是标准差?其特性有哪些? 答:标准差表示样本内各个变数的变异程度和离中情况。 思考题:什么是标准差?其特性有哪些? 答:标准差表示样本内各个变数的变异程度和离中情况。 特性:① 标准差的大小,受每个变数值的影响。 ②在各变数上加或减一个常数,标准差不变。 ③当每个变数乘或除以一个常数a,则所得的标准差即扩大了a倍或缩小了a倍。 ④在平均数左右一倍标准差范围内—— 的变数个数约为变数总个数的 68.27%。 在平均数左右两倍标准差范围内―― 的变数个数约为变数总个数的95.45%。 在平均数左右三倍标准差范围内―― 的变数个数约为变数总个数的99.73%。
第三节 变异系数 coefficient of variation ★变异系数是衡量资料中各观测值变异程度的另一个统计量。 ★标准差与平均数的比值称为变异系数,用C·V表示。 ★变异系数可以消除单位和(或)平均数不同对两个或多个资料变异程度比较的影响。 ★计算公式为: 上一张 下一张 主 页 退 出
所以,长白成年母猪体重的变异程度大于大约克成年母猪。 【例3.11】已知某良种猪场长白成年母猪平均体重为 190kg,标准差为10.5kg,而大约克成年母猪 平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,哪一个体重变异程度大。 ★长白猪: ★大约克猪: 所以,长白成年母猪体重的变异程度大于大约克成年母猪。 上一张 下一张 主 页 退 出
同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。 ★注意:变异系数的大小, 同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。 上一张 下一张 主 页 退 出
关于一般常用函数f(x) 及统计参数 AVERAGE →样本的平均数 AVEDEV →离均差绝对值的平均数 DEVSQ →离均差的平方和 GEOMEAN →几何平均数 MIN →最小值 MAX →最大值 STDEV →样本的标准差 STDEVP →总体的标准差
关于数据的一般描述统计 〈工具〉→〈数据分析〉→〈描述统计〉 →输入区域“ ” 分组方式:○ 行 ○ 列 →标志位于第一行(列)□ →输入区域“ ” 分组方式:○ 行 ○ 列 →标志位于第一行(列)□ →输出选项(输出区域“ ”、或 新工作表 或新工作簿)→□〈汇总统计〉 □ 〈平均数置信度〉(95%) □〈第K大值〉 □〈第K小值〉 →确定
生物统计学 85 89 87 78 76 83 75 78 81 81 70 57 68 70 91 平均 77.93333333 标准误差 2.334965416 中值(中位数) 78 模式(众数) 78 标准偏差(标准差S) 9.043282169 样本方差 (方差S2) 81.78095238 区域(全距) 34 最小值 57 最大值 91 求和(ΣX) 1169 计数(n) 15 最大(1) 91 最小(1) 57 置信度(95.0%) (置信半径) 5.008007195