Presentation is loading. Please wait.

Presentation is loading. Please wait.

资料整理与特征数计算 统计生物学第二章.

Similar presentations


Presentation on theme: "资料整理与特征数计算 统计生物学第二章."— Presentation transcript:

1 资料整理与特征数计算 统计生物学第二章

2 提纲 提要 资料的搜集 资料的整理 特征数的计算

3 提要 搜集与整理是数据资料处理的首要环节 资料搜集常用方法:调查与试验
整理需要通过对原始资料进行检查、核对、制作次数分布表和次数分布图来完成 试验资料基本特征 集中性与离散性 使用特征数来整理 平均数(算数平均数、中位数、众数、几何平均数等):反应集中性 变异数(极差、方差、标准差及变异系数等):反应离散性

4 资料的搜集 一:资料的类型 资料分类是统计归纳的基础,使之系统化、规范化
分类整理应遵循“同质”的原则,只有“同质”的数据才能根据科学原理分类 资料性质 数量性状(quantitative character)——定量资料 质量性状(qualitative character)——定性资料 数量性状资料(data of quantitative character) 一般由计数和测量或者度量得到 计数资料(enumeration data),或非连续变量资料(data of discontinuous variable) 有测量或者度量得到的资料称为计量资料(measurement data)或连续变量资料 (data of continuous variable)

5 资料的搜集 一:资料的类型 质量性状资料(data of qualitative character) 质量性状资料数量化
属性资料(attribute data) 指对某种现象只能观察而不能测量的资料:水稻花药、籽粒的颜色,小麦芒的有无等 质量性状资料数量化 统计计数法(frequency counting):于一定总体内,根据某一质量性状生物类别统计 其次数或频率,以次数或频数作为该质量性状的数据 评分法:使用数字级别表示某现象在表现程度上的差别

6 资料的搜集 二:资料的搜集 样本资料的搜集(collection)是统计分析的第一步,是统计工作的基础 资料的来源:调查与试验
统计学对原始资料都要求完整和准确 调查(survey) 对已有的事实通过各种方式进行了解,然后用统计方法对所得数据进行分析,从而找 出其中的规律 调查有两种方法:普查与抽样 普查(census):指对研究对象的每一个个体逐一进行调查,也称全面调查 (complete survey)——人口普查,土壤普查等 设计范围广,时间长,工作量大

7 资料的搜集 抽样调查(sampling survey)
非全面调查,根据一定的原则对研究对象抽取一部分个体进行测量或度量,把得到的 数据作为样本进行统计处理,然后利用样本特征数对总体参数进行推断 要获得无偏差的估计总体,除了容量大,还需科学的抽样方法——>可以作出比较准确 的估计和推断 常用的抽样方法:随机抽样、顺序抽样和典型抽样 随机抽样(random sampling) 在试验过程中对试验单位的抽样、分组、实施处理及其试验顺序等都必须遵守随机原则,避 免人为主观因素的影响 随机是指一个重复中的某一处理或处理组合被安排在哪一个试验单位,不能有主观成见。 随机抽样要求在进行抽样过程中,总体内所有个体都具有相同的被抽取的概率,因此也被称 为概率抽样(probability sampling) 两个条件: 总体中每个个体被抽中的机会是均等的 总体中任意一个个体是否被抽中是相互独立的,即个体是否被抽中不受其他个体影响(适用于无限 总体)

8 随机抽样 Random Sampling 简单随机抽样、分层随机抽样、整体抽样、双重抽样
简单随机抽样(simple random sampling) 最简单、最常用的一种抽样方法,要求被抽总体内每一个个体被抽取的机会完全 相等。 适用于个体间变异较小,所需抽样的样本单位数较少的情况 对于那些具有某种趋向或差异明显和点片式差异的总体不宜使用。 复置抽样(sampling with replacement):放回式抽样

9 随机抽样 Random Sampling 分层随机抽样(stratified random sampling) 混合抽样
将总体按变异原因或程度划分为若干层区(strata),然后用简单随机抽 样从各层区按一定的抽样分数(sampling fraction)(即一个样本所包括 抽样单位数与其总体所包括的抽样单位数的比值)抽样 具体方法:1)总体按变异原因与程度划分若干区层,使内部变异尽可能 小或变异原因相同,区之间变异比较大或者变异原因不同;2)每个区层 按一定的抽样分数独立随机抽样。 总体划分区层方法 相等配置(equal allocation) 比例配置(proportional allocation) 最优配置(optimum allocation):根据各区层的抽样单位数,抽样误差和抽样 费用,确定各区层的抽样单位数 优点: 若总体内各抽样单位间的差异比较大,可以提高抽样的准确度 分层随机抽样类似于随机区组设计,既运用了随机原理,也运用了局部控制 原理,可以降低抽样误差,也可以使用统计方法估算抽样误差

10 随机抽样 整体抽样(cluster sampling) 整体抽样与分层抽样 整体抽样优点 缺点
将总体分成若干群,以群为单位进行随机抽样,对抽到的样本做全面调查。 “群”间的差异越小, “群”越多,抽样误差越小 与简单随机抽样比,在相等的抽样分数下,它减少了所抽查单位的数目,却增大了每个 调查单位 整体抽样与分层抽样 若总体内主要变异来源明显来自地段间,且每个地段有较大的面积,则采用分层抽样 若主要变异来源明显来自地段内给单位间,且每个地段面积较小,则采用整体抽样 整体抽样优点 一个群只要一个编号,因而减少了抽样单位编号数,且因调查单位数减少,工作方便 与简单随机抽样相比,整体抽样能提供较为准确的总体估计值,特别是对不均匀分布的 研究对象 只要各群抽选单位相等,整体抽样也可提供总体平均数的无偏估计。 缺点 一定的样本容量下,整体抽样误差一般大于简单抽样误差:样本观察单位并非广泛的散 布在总体中。 为降低误差,可以增加抽取的“群”个数,减少群内观察单位数的方法

11 随机抽样 双重抽样(double sampling) 例子
如果所研究的性状是不容易观察测定的,或必须有较高费用,或要求有精密设 备、复杂计算过程与耗费较多调查时间的,或必须进行破坏性测定才能观察结 果的——直接观察结果困难 找出另一种易于观察测定且节省时间和经费的性状,利用这两种性状之间客观 存在的关系,通过测定后一种性状结果从而推算前一种性状的测定结果。 复杂性状或直接性状 —— 简单性状或间接性状 在抽样的时候,随机抽取两个样本——double sampling 涉及 两个变量,易于观测的变量作为简单性状的变量,不易观测的变量作为复杂性 状的变量 例子 估计生长期的甘蔗产量,甘蔗体积为简单性状,甘蔗重量为复杂性状 木材体积是复杂性状,树干基部横剖面积为简单性状 玉米茎上的蛀孔数是简单性状,玉米螟虫的幼虫数目是复杂性状

12 顺序采样 Ordinal sampling或系统抽样,机械抽样,等距抽样(systematic sampling),是按某种既定顺序从总体(有限总体)中抽取一定数量的个 体构成样本。 将总体的观察单位按某一顺序分成n个部分,再从第一部分随机抽取第k号观 察单位,依次用相等间隔,从每一部分抽取一个观察单位组成样本 优点 可避免抽样时受人们主观偏见的影响,且简单易行 容易得到一个按比例分配的样本 如果样本的观察单位在总体内分布均匀,其取样个体在总体内平均分布,这 时采用顺序抽样,其抽样误差一般小于简单随机抽样 缺点 如果总体内存在周期性变异或单调增(减)趋势时,则可能会得到一个偏差 很大的样本,产生明显的系统误差 顺序抽样得到的样本并不是彼此独立的,因此,对抽样误差的估计是近似的。 通过顺序抽样方法不能计算抽样误差、估计总体平均数的置信区间。 常用的抽样方法:随机抽样、顺序抽样和典型抽样

13 典型抽样 Typical Sampling 根据初步资料或经验判断,有意识、有目的地选取一个典型 群体作为代表(即样本)进行调查记载,以估计整个总体—— 典型抽样(typical sampling)或主观抽样(subjective sampling) 典型样本代表着总体的绝大多数,如果选择合适,能够得到 可靠的结果,尤其从容量很大的总体中选取较小数量的抽样 单位时,往往采取这样方法 缺点 严重依赖调查工作者的经验和技能,结果不稳定,且没有运用随机原 理,因而无法估计抽样误差 多用于大规模社会经济调查,而在总体相对较小或要求估算抽样误差 是一般不采用该方法 常用的抽样方法:随机抽样、顺序抽样和典型抽样

14 试验 Experiment 通过一定数量的有代表性的试验单位,在一定的条件下进行的带有探索 性的研究工作。
生物学研究中,对于一些理论性的无限总体,一般需要通过设置各种类 型的试验来获取样本资料 安排试验时,要设置试验处理,遵循随机、重复和局部控制3项基本原则 试验设计方法 对比设计 随机区组设计 拉丁方设计 裂区设计 正交设计等

15 资料的整理 (一)原始资料的检查与核对 (二)次数(频数)分布表 (三)次数(频数)分布图

16 资料的整理(Data Collection) 原始资料的检查与核对
原始资料(Row data)——>检查与核对——>collection 从三个方面检查与核对 数据本身是否有错误 取样是否有差错 不合理数据的订正 包括:核对原始资料的测量与记载有无差错,raw data有无遗失、重复的归 并是否合理,是否有特大、特小等异常值; 处理 对缺失数据估计 对重复、错误和异常值予以删除或订正,但不能随意改动,必要时复查或重 新试验

17 资料的整理(Data Collection) 次数(频数)分布表
经过检查与核对,根据样本资料的多少确定是否分组,小于 30的不用分组,直接统计分析;样本超过30的,需将数据分 成若干组进行统计分析 数据分类后,可以制成有规则的次数(频次)分布表 (frequency table),作出次数(频次)分布图(frequency chart)。 计数资料的整理 采用单项式分组法(grouping method of monomial)整理:用样本 变量自然值进行分组,每组均用一个或几个变量值来表示 计量资料的整理 采用组距式分组法(grouping method of class interval):分组时需 确定全距,组数、组距、各组上下限,然后按观测值大小分组

18 150尾鲢鱼的体长资料 56 49 62 78 41 47 65 45 58 55 52 60 61 77 35 74 36 63 54 70

19 确定组数(number of classes)与组距 组距= 全距 组数 确定组限(class limit)和组中值
样本容量与分组数的关系 样本容量 分组数 30~60 5~8 60~100 7~10 100~200 9~12 200~500 10~18 >500 15~30 计算全距(range),又称极差 确定组数(number of classes)与组距 组距= 全距 组数 确定组限(class limit)和组中值 组限:每个组有上限与下限 下限小于组中最小值,组限可取10分位或5分位数上 图中最小值37cm,第一组下限可定为35cm,上限 为40cm 确定最大一组的上限是,必须大于资料中的最大值 在写法上,每组只写下限,例子中的资料分组可写成35~, 40~, …,85~等等 组中值 组中值= 下限+上限 𝟐 分组,编制次数分布表 150尾鲢鱼体长的次数分布图 组限/cm 组中值/cm 次数 频率 累积频率 35~ 37.5 3 0.0200 40~ 42.5 4 0.0267 0.0467 45~ 47.5 17 0.1133 0.1600 …. 85~ 87.5 1 0.0067 1.0000

20 次数(频次)分布图 frequency chart
把资料的次数(频次)分布画成统计图形 可以更直观的观察各组变量次数的分布情况,形象的把资料特征表达出来 条形图(bar chart)、饼图(pie chart)、直方图(histogram)、多边形图 (polygon chart)、散点图(scatter chart)等


Download ppt "资料整理与特征数计算 统计生物学第二章."

Similar presentations


Ads by Google