第二章 统计资料的整理与分析 上一张 下一张 主 页 退 出
1 数理统计中的常用术语 1.1 总体与样本 总体:根据研究目的确定的研究对象的全体称为总体(population); 1 数理统计中的常用术语 1.1 总体与样本 总体:根据研究目的确定的研究对象的全体称为总体(population); 个体:总体中的每一个研究单位称为个体(individual); 样本: 依据一定方法由总体中抽取部分个体所组成的集合称为样本(sample); 有限总体:含有有限个个体的总体称为有限总体; 无限总体:包含有无限多个个体的总体称为无限总体; 上一张 下一张 主 页 退 出
试验研究的目的:了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。 样本容量:样本中所包含的个体数目叫样本容量或大小(sample size),样本容量常记为n。通常把n≤30的样本叫小样本,n >30的样本叫大样本。 试验研究的目的:了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。 上一张 下一张 主 页 退 出
为了能可靠地从样本来推断总体,要求样本具有一定的含量和代表性。 如何获取有代表性的样本?采用随机抽取。 所谓随机抽取(random sampling) 是指总体中的每一个个体都有同等的机会被抽取到样本中。 样本毕竟只是总体的一部分,尽管样本具有一定的含量也具有代表性,通过样本来推断总体也不可能是百分之百的正确。有很大的可靠性但有一定的错误率这是统计分析的特点。 上一张 下一张 主 页 退 出
1.2 参数与统计量 为了表示总体和样本的数量特征,需要计算特征数。 参数:由总体计算的特征数叫参数(parameter);常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差; 统计量:由样本计算的特征数叫统计量(staistic)。常用拉丁字母表示统计量,例如用 表 示样本平均数,用s表示样本标准差,用R表示极差。 上一张 下一张 主 页 退 出
总体 为了了解总体分布、特征 样本 抽样 构 造 推断、估计 参数 统计量 μ 平均数 σ s 标准差 s2 σ2 方 差 极 差 R
总体参数由相应的样本统计量来估计,例如用 估计μ,用S估计σ等。 1.3 准确性与精确性 准确性(accuracy)也叫准确度,指观测值与其真值的接近程度。设某一试验指标或性状的真值为μ,观测值为 x,若 x与μ相差的绝对值|x-μ|越小, 则观测值x的准确性越高; 反之则低。 上一张 下一张 主 页 退 出
精确性(precision)也叫精确度,指同一试验指标或性状的重复观测值彼此接近的程度。若观测值彼此接近,即任意二个观测值xi 、xj 相差的绝对值|xi -xj |越小,则观测值精确性越高;反之则低。准确性、精确性的意义见图2-1。 图2-1 准确性与精确性的关系示意图 上一张 下一张 主 页 退 出
1.4 随机误差(random error)与系统误差(systematic error) 随机误差 也叫 抽样误差 (sampling error) , 是由于许多无法控制的内在和外在的偶然因素所造成的 。随机误差带有偶然性质,在试验中,即使十分小心的进行试验操作也难以消除。随机误差不可避免,但可减少。 随机误差影响试验的精确性。 上一张 下一张 主 页 退 出
统计上的试验误差是指随机误差。这种误差愈小,试验的精确性愈高。 系统误差 也叫 片面误差 (lopsided error), 这是 由于试验对象相差较大,测量的仪器不准 、 标准试剂未经校正,以及观测、记载、抄录、计算中的错误等等所引起。系统误差可以通过改进方法、正确试验设计来避免、消除。 系统误差影响试验的准确性。 上一张 下一张 主 页 退 出
2 统计资料的分类 正确地进行试验数据资料的分类是统计资料整理的前提。在调查或试验中,由观察、测量所得的数据资料按其性质的不同,一般可以分为数量性状资料、 质量性状资料和半定量(等级)资料三大类。 上一张 下一张 主 页 退 出
2.1 数量性状资料 数量性状资料的获得有测量和计数两种方式 ,因而数量性状资料 又分为计量资料和计数资料两种。 2.1 数量性状资料 数量性状(quantitative character)是指能够以测量、计量或计数的方式表示其特征的性状 。观察测定数量性状而获得的数据就是数量性状资料 数量性状资料的获得有测量和计数两种方式 ,因而数量性状资料 又分为计量资料和计数资料两种。 上一张 下一张 主 页 退 出
2.2 质量性状资料 质量性状(qualitative character)是指能观察到而不能直接测量的,只能用文字来描述其特征的性状,如食品颜色、 风味等等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法? 上一张 下一张 主 页 退 出
2.3 半定量(等级)资料 半定量或等级资料(semi-quantitative or ranked data)是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量的不同。如某种果实的褐变程度是视果实变色面积将其分组,然后统计各级别果数。
三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。 例如,酸奶中的乳杆菌总数得到的资料属于计数资料,根据化验的目的,可按乳杆菌总数正常或不正常分为两组,清点各组的次数,计数资料就转化为质量性状次数资料;如果按乳杆菌总数过高、正常、过低分为三组 ,清点各组次数 ,就转化成了半定量资料 。 上一张 下一张 主 页 退 出
3 数据资料的整理 3.1 数据资料的检查与核对 目的:在于确保原始资料的完整性和正确性。 所谓完整性是指原始资料无遗缺或重复。 3 数据资料的整理 未整理的资料为原始资料,是零星的、孤立的和杂乱无章,无规律可循,通过科学的整理和分析,可发现其规律性,揭示事物内在本质。 3.1 数据资料的检查与核对 目的:在于确保原始资料的完整性和正确性。 所谓完整性是指原始资料无遗缺或重复。 所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料 ,应予以删除或补齐 ;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。 上一张 下一张 主 页 退 出
3.5统计表和统计图 3.5.1统计表 统计表的结构和制作基本原则 1.标题:描述表格内容,包括研究对象和统计分析指标; 2.横标目:指研究对象,一个横标目对应一横行的内容; 3.纵标目:统计分析指标,一个纵标目对应一纵列的内容; 4.数字:数字右对齐,同一指标的小数位数一致; 5.线条:最简单的统计表为“三横线”,不允许有竖线; 6.备注:补充说明表格的内容。 原则:统计表要简单明了,重点突出
统计表
统计图 选择合适的统计图的原则 1.根据资料分析的目的 2.根据资料的性质 数值变量资料:普通线图、直方图、散点 图分类资料:直条图、圆图、百分条图
(一)普通线图line diagram定义:表示某事物在时间上的发展变化或某现象随另一现象变迁的情况。特点:1. 纵横轴为算术尺度。2
绘制方法
散点图scatter diagram 定义:用点的密集程度和趋势表示两种现象的相关关系。
直条图bar graph 定义:用等宽直条的长短来表示相互独立的各指标的数值大小。 特点: 1.纵轴从0开始。 2.等宽直条,直条间距相等。 3.按一定顺序(如高低顺序)排列。
EXCEL统计分析 工具-加载宏-分析数据库 数据分析 方差分析 回归分析 统计假设检验 描述统计
平均数是统计学中最常用的统计量,反映数据资料的相对集中位置。平均数主要包括有: 4 统计资料的特征数 4.1 平均数(mean,average) 平均数是统计学中最常用的统计量,反映数据资料的相对集中位置。平均数主要包括有: 算术平均数(arithmetic mean) 中位数(median) 众数(mode) 几何平均数(geometric mean) 调和平均数(harmonic mean) 上一张 下一张 主 页 退 出
4.1.1 算术平均数(arithmetic mean) 算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数,记为 。 算术平均数采用直接法计算。 1.直接法 上一张 下一张 主 页 退 出
设某一资料包含n个观测值: x1、x2、…、xn, 则样本平均数可通过下式计算: (2-1) 其中,Σ为总和符号; 表示从第一个观测值x1累加到第n个观测值xn。当 在意义上已明确时,可简写为Σx,(3-1)式可改写为: 上一张 下一张 主 页 退 出
例:对食品科学专业2004级1班10位同学的体重进行测定,测定结果分别为50. 0、52. 0、53. 5、56. 0、58. 5、60 例:对食品科学专业2004级1班10位同学的体重进行测定,测定结果分别为50.0、52.0、53.5、56.0、58.5、60.0、48.0、51.0、50.5、49.0(kg),求其平均数。 由于 Σx=50.0+52.0+53.5+56.0+58.5 +60.0+48.0+51.0+50.5+49.0 =528.5, n=10 10位同学的平均体重为52.85 kg。 上一张 下一张 主 页 退 出
(1)样本各观测值与平均数之差的和为零,即离均差之和等于零。 3.平均数的基本性质 (1)样本各观测值与平均数之差的和为零,即离均差之和等于零。 或简写成 上一张 下一张 主 页 退 出
(2-3) (2)样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。 (xi- )2 < (xi- a)2 (常数a≠ ) 或简写为: < 对于总体而言,通常用μ表示总体平均数,有限总体的平均数为: (2-3) 式中,N表示总体所包含的个体数 上一张 下一张 主 页 退 出
统计学中常用样本平均数( )作为总体平均数(μ)的估计量,并已证明样本平均数是总体平均数μ的无偏估计量。 统计学中常用样本平均数( )作为总体平均数(μ)的估计量,并已证明样本平均数是总体平均数μ的无偏估计量。 当一个统计量的数学期望(数学意义上的均值)等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。 上一张 下一张 主 页 退 出
将资料内所有观测值由小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。 4.1.2 中位数 (median) 将资料内所有观测值由小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。 当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。 上一张 下一张 主 页 退 出
(1)当观测值个数n为奇数时,第(n+1)/2位置的观测值,即x(n+1)/2为中位数: Md= (2)当观测值个数为 偶 数 时 , 第n/2和第(n/2+1)位置的两个观测值之和的1/2为中位数,即: (2-4) 上一张 下一张 主 页 退 出
【例】 对9个小麦品种的容重进行测定,测定结果为750 、 760、 767、 769、773、775、778、780、800(已排序),求其中位数。 此例 n=9,为奇数,则: Md= =773(g) 即九个小麦品种的中位数为773 g。 上一张 下一张 主 页 退 出
4.1.3 几何平均数(geometric mean) n 个观测值相乘之积开 n 次方所得的方根,称为几何平均数,记为G。它主要应用于科学研究中的动态分析,如微生物的增长率、人口的增长率等等。当观测值呈几何级数变化时,用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下: (2-6) 上一张 下一张 主 页 退 出
为了计算方便,可将各观测值取对数后相加除以n,得lgG,再求lgG的反对数,即得G值,即 上一张 下一张 主 页 退 出
4.1.4 众 数(mode) 资料中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为M0。 4.1.5 调和平均数(harmonic mean) ,资料中各观测值倒数的 算术平均数 的倒数,称为调和平均数,记为H,即 计算平均速率 (2—8) 上一张 下一张 主 页 退 出
4.2 变异数 变异数的意义 用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的,还需引入度量资料中观测值变异程度大小的统计量。 常用的表示变异程度的统计量有全距、方差、标准差和变异系数。 上一张 下一张 主 页 退 出
4.2.1 全距(Range) 全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。 R=Max-Min 上一张 下一张 主 页 退 出
4.2.2 方差(Variance) 为 了 准 确 地 表示样本内各个观测值的变异程度 ,人们 首 先会考虑到以平均数为标准,求出各个观测值与平均数的离差,( ) ,称为离均差。 虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负 ,离均差之和为零,即Σ = 0 ,因 而 不 能 用离均差之和Σ( )来 表 示 资料中所有观测值的总偏离程度。 上一张 下一张 主 页 退 出
为了解决离均差有正 、有负,离均差之和为零的问 题 , 可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝对 值 之 和 除以 观 测 值 个 数 n 求 得 平 均 绝 对 离差,即Σ| |/n。虽然平均绝对离差可以表示资料中各观测值的变异程度 ,但由于平均绝对离差包含绝对值符号 ,使用很不方便,在统计学中未被采用。
采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。 先将各 个离 均差平方,即 ( )2 ,再求 离均差平方和 , 即 ,简称平方和,记为SS; 由 于 离差平方和 常 随 样 本 大 小 而 改 变 ,为 了 消 除 样 本大小 的 影 响 , 用平方和 除 以 样 本 大 小, 即 ,求出离均差平方和的平均数 ; 上一张 下一张 主 页 退 出
统计量 称 为 均 方 ( mean square缩写为MS),又称样本方差,记为S2,即,VAR 为了使所得的统计量是相应总体参数的无 偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用自由度 n-1, 所以,我们 采 用统计量 表示资料的变异程度。 统计量 称 为 均 方 ( mean square缩写为MS),又称样本方差,记为S2,即,VAR S2= (2—9) 上一张 下一张 主 页 退 出
相应的总体参数叫 总体方差 ,记为σ2。对于有限总体而言,σ2的计算公式为: (2—10)
统计学上把样本方差 S2 的平方根叫做样本标准 差,记为S,即:STDEV 4.2.3 标准差(Stand deviation) 统计学上把样本方差 S2 的平方根叫做样本标准 差,记为S,即:STDEV (2-11) 上一张 下一张 主 页 退 出
由于 所以(2-11)式可改写为: 上一张 下一张 主 页 退 出
在统计学中,常用样本标准差S估计总体标准差σ。 相应的总体参数叫总体标准差,记为σ。对于有限总体而言,σ的计算公式为: (2-12) 在统计学中,常用样本标准差S估计总体标准差σ。 上一张 下一张 主 页 退 出
4.2.4 标准差的计算方法 1. 直接法 可直接利用定义公式来计算标准差。
由已知,计算:Σx=5400,Σx2=2955000,代入公式得: 【例】 10瓶罐头的净重(g)分别为450, 450, 500, 500, 500,550, 550, 550, 600, 600,650,计算标准差。 由已知,计算:Σx=5400,Σx2=2955000,代入公式得: 10瓶罐头净重的标准差为65.828 g。 (g) 上一张 下一张 主 页 退 出
3. 标准差的特性 (1)标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。 (2)计算标准差时,在各观测值加上或减去一个常数,其数值不变。 (3)每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。 上一张 下一张 主 页 退 出
(4)在资料服从正态分布的条件下,资料中约有68. 26%的观测值在平均数左右一倍标准差( ±S)范围内;约有95 (4)在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差( ±S)范围内;约有95.43%的观测值在平均数左右两倍标准差( ±2S)范围内;约有99.73%的观测值在平均数左右三倍标准差( ±3S) 范 围内。也就是说全距近似地等于6倍标准差,可用(全距/6)来粗略估计标准差。 上一张 下一张 主 页 退 出
用SPSS软件实现统计描述
熟 记
4.2.5 变异系数Coefficient of variation) 变异系数是衡量资料中各观测值变异 程度的另一个统计量 。 标 准差与平均数的比值称为 变异系数,记为C·V。 变异系数可以消除单位 和 (或)平 均数的影响,可以比较不同样本资料的相对变异程度。 上一张 下一张 主 页 退 出
变异系数的计算公式为: 性状 x/μm S/μm CV/ % 果皮厚 49.6 4.9 9.9 角质层厚 6.2 0.8 12.9 (2—13) 表2-8 赞皇大枣果皮厚、角质层厚测量结果 性状 x/μm S/μm CV/ % 果皮厚 49.6 4.9 9.9 角质层厚 6.2 0.8 12.9 角质层相对变异程度大 上一张 下一张 主 页 退 出
指 标 平均值 标准差 变幅 变异系数% 物理性状 水分 % 13.00 0.67 11.75-14.50 5.18 容重 g/L 766.0 25.0 694-843 3 百粒重 g 34.48 5.97 14.59-44.86 17.30 百粒体积ml 28.06 4.87 11.0-35.8 17.34 籽粒密度 g/ml 1.23 0.03 1.14-1.33 2.81 营养品质 淀粉 % 69.55 1.35 63.82-72.06 1.95 粗蛋白 % 10.97 0.92 8.63-13.88 8.39 粗脂肪 % 4.51 1.16 2.89-9.69 25.63 灰分 % 1.46 0.11 1.20-1.78 7.38 粗纤维 % 2.19 0.29 1.58-2.85 13.31
注意:变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。 上一张 下一张 主 页 退 出
思考题 总体、样本、参数、统计量的概念及其关系 精确性、准确性、随机误差、系统误差的概念及其关系 如何计算平均数、方差、标准差、变异系数,其意义、性质是什么 软件计算平均数、方差、标准差