第一章 生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系,其涉及哪些内容 1
第一节 统计与统计学 从什么是统计谈起 2
日常生活中,我们常听到很多关于“统计”的词汇.例如: 国家统计局公布,2004年全国GDP增长9%,CPI指数; 国家气象局预报,明天北京天气阴,降水概率40%; 2003年,北京市人平寿命77.93岁, 婴儿死亡率为5.56‰, 儿童计划免疫接种率98%. 这些主要健康指标已接近或超过中等发达国家的水平. 北京日报.京报网,2003年11月20 3
统计是人类思维的一个归纳过程 站在一个路口,看到每过去20辆小轿车时,也有100辆自行车通过而且平均每10个轿车载有12个人于是,你认为小汽车和自行车在这个路口的运载能力为24:100这是一个典型的统计思维过程 4
感受统计(之一) 统计在战争中的例子: 二战时期,德国的潜艇非常猖狂,而盟国的雷达还不够先进,给英国的运输船队造成巨大的损失,英国人通过多次统计观察,发现有德国潜艇的上方,会聚集大量的海鸟。 朝鲜战场上,美国人对志愿军感觉很奇怪,他们的一个军事专家,通过统计发现,志愿军的进攻大约是七天一个周期,打七天,志愿军肯定会跑,或者叫转移。 5
感受统计(之二) 撑死的人比饿死的人多! 据统计,肥胖并发脑血栓和心衰的发病率比正常体重者高一倍,患冠心病者多2~5倍,高血压发病率多2~6倍,合并糖尿病者高4倍,合并胆石症者高4~6倍。美国生命保险协会的统计调查结果显示,超重25%和35%的肥胖症者的死亡率比正常人高28%和50%,表明肥胖程度和死亡率呈正相关。美国每年因肥胖伴有冠心病、高血压、高血脂、糖尿病和脑血管意外而死亡的人数大约有30万人。 6
感受统计(之三) 媒体的数字化倾向 ——《统计视线里的社会和经济》 文革时期媒体种类数量少得可怜不说,且在有限的报导中空话、大话和假话连篇,较典型和常见的情况就是不敢用数字来实打实地说话。 随着改革开放特别是市场经济体制的确立,使得媒体开始“青睐”起数字来。但凡打开任何一张报纸的任何一个版面的任何一条消息,无不或多或少的“充斥”着统计数字。媒体的这种数字化倾向表现出在社会、经济和生活中用数字解说相应问题的现实状况。 7
后40回出自谁的手笔 众所周知,《红楼梦》一书共120回,一般认为前80回为曹雪芹所写,后40回为高鹗所续,长期以来对这个问题一直有争议。能否从数学上做出论证?1985、1986复旦大学李贤平教授带领他的学生作了这项有意义的工作,他们创造性想法是将120回看成是120个样本,然后确定与情节无关的虚词作为变量(所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的),计算出每一回里变量出现的次数,用多元分析中的聚类分析法进行分类,果然将120回分成两类即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。 8
后40回出自谁的手笔 之后,又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定为曹雪芹一人手笔。 而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写。这个论证在红学界轰动很大,他们用多元统计分析方法支持了红学界观点,使红学界大为赞叹。 9
统计的误用 对同样数据为何会有不同反响 数据和信息有本质区别 有些统计的误用者是无意的,但有些人却是为达到某种目的故意地隐藏不利资料而突出有利部分,所以统计可以变为制谎者的“工具”和政治家的“手段”。统计“谎言”的一种常见现象较多出现在小样本的观察结果上。 10
http://baike.baidu.com/view/73813.htm Case study 该案例的所有内容均来自网络,课程不做任何评论,仅作为思考素材 11 http://baike.baidu.com/view/73813.htm
http://baike.baidu.com/view/283249.htm 12
http://zhidao.baidu.com/question/43415709.html 13
14
15
16
17
18
19
20
21
22
23
http://baike.baidu.com/view/939539.htm?fr=ala0_1_1 24
http://www.amazon.cn/中国传媒公信力调查-张洪忠/dp/product-description/B003ZHTXGM 25
一、统计学的产生和发展 1、什么是统计? 统计——对大量现象数量方面进行的调查研究活动。 统计的原义——合计、汇总计算。 统计——对大量现象数量方面进行的调查研究活动。 即指人们为了说明所研究现象的某种数量特征和规律性而对有关数据进行搜集、整理和分析研究。 1、什么是统计? :1, 1, 3 26 26
什么是统计学? 统计学的英语单词是statistics,来源于state,即指政府,官方所要求的信息。 统计学是研究随机现象规律性的方法学。 统计学是一门关于如何收集、分析、解释和表达数据的科学。 ---《Webster’s International Dictionary》 :1, 1, 3 27 27
2、统计的三种涵义 统计工作——统计实践活动,是人们为了说明所研究对象的某种数量特征和数量规律性,而对该现象的数据进行收集、整理与分析的活动。 统计资料——即统计数据,是通过统计工作所获得的能够说明现象总体某种特征的数据,是统计实践活动的成果。 统计学——即统计科学,是一门研究收集数据、表现数据、分析数据、解释数据,从而认识数量规律的方法论科学。 28
统计学是:“关于收集和分析数据的科学与艺术(art)” 。 3、另一种定义 ——来自《不列颠百科全书》的定义 统计学是:“关于收集和分析数据的科学与艺术(art)” 。 艺术性体现在: 1)、数据有随机性(带偶然误差)。 2)、应用时有人的判断和主动性(“艺术”),不是死套公式。 29
4、统计实践活动的产生和发展 有文字记载的统计实践活动,如埃及建造金字塔时期,中国大禹治水时期。 资本主义生产方式出现以前,统计主要限于人口/土地/财产等; 随着资本主义生产方式的推进,统计飞速发展——统计内容扩展,专门统计机构成立; 20世纪50年代以后,统计又得到了迅速发展。 30
5、统计学的产生 国势学派(记述学派)—— (德)海门尔.康令;阿亨瓦尔1749年提出“统计学”。有统计学之名,无统计学之实。 政治算术学派——威廉.配第,约翰.格朗特 用数字描述经济现象和人口状况;虽无统计学之名,但有统计学之实。 数理统计学派——凯特勒(比利时)。 引入概率论, 开创近代统计学。使统计学产生了质的飞跃 ——统计方法成为通用方法;重心从描述统计转移到推断统计 … 社会统计学派——恩斯特.恩格尔;梅尔。从实质论逐渐转向(社会现象数量研究的)方法论,与数理统计学派从对立逐渐转向融合。 31
6、统计学的发展进程 1.统计学的初创阶段(17世纪中叶~19世纪末)。描述统计和概率论的基本内容和框架逐渐形成。 2.以推断统计为中心的现代统计学的形成阶段,(20世纪上半叶)。概率论体系日臻完善,推断统计迅速发展,逐渐构筑起了以推断统计为中心的现代统计学的基本框架。 3.统计理论方法与应用全面发展的新阶段(20世纪50年代起)。 统计学研究的新领域层出不穷,开拓了许多新分支和新方法; 统计的应用领域也不断扩展; 计算机为统计理论和方法的不断完善和深化提供了不可缺少的工具。 32
统计学可以应用于几乎所有的领域: 精算,农业,动物学,人类学,考古学,审计学,晶体学,人口统计学,牙医学,生态学,经济计量学,教育学,选举预测和策划,工程,流行病学,金融,水产渔业研究,遗传学,地理学,地质学,历史研究,人类遗传学,水文学,工业,法律,语言学,文学,劳动力计划,管理科学,市场营销学,医学诊断,气象学,军事科学,核材料安全管理,眼科学,制药学,物理学,政治学,心理学,心理物理学,质量控制,宗教研究,社会学,调查抽样,分类学,气象改善,博彩等。 33
一句话,要记住: 统计学(statistics)是用以 收集数据,分析数据和由数据得 出结论的一组概念、原则和方法。 34
根据研究领域和研究对象,统计学又分为:数理统计、经济统计、生物统计、医学统计、卫生统计…… 在上述学科已经有其特有的方法和特点;如生物统计(Biostatistics)、经济计量学(Econometrics)以及目前很热门的生物信息(Bioinformation)和数据挖掘(Data Mining)的方法主体都是统计。 35
二、为什么要学统计学? 采用统计学方法,发现不确定现象背后隐藏的规律。 如何合理地进行调查或试验设计 ; 如何科学地整理、分析所收集得来的具有变异的资料 ,揭示出隐藏在其内部的规律性。 36
(1)提供试验或调查设计的方法 试验设计这一概念有广义与狭义之分:广义的试验设计是指试验研究课题设计,也就是指整个试验计划的拟定 , 包含课题名称、试验目的,研究依据、内容及预期达到的效果,试验方案,供试单位的选取、重复数的确定、试验单位的分组,试验的记录项目和要求,试验结果的分析方法,经济效益或社会效益的估计 , 已具备的条件 , 需要购置的仪器设备,参加研究人员的分工,试验时间、地点、进度安排和经费预算,成果鉴定,学术论文撰写等内容。 狭义的试验设计主要是指试验单位 (如动物试验的畜、禽 )的选取、重复数目的确定及试验单位的分组。生物统计中的试验设计主要指狭义的试验设计。合理的试验设计能控制和降低试验误差,提高试验的精确性,为统计分析获得试验处理效应和试验误差的无偏估计提供必要的数据。 试验或调查设计主要解决合理地收集必要而有代表性资料的问题。 37
通过统计表、图可以大致看到所得资料集中、离散的情况。 (2)提供整理、分析资料的方法 整理资料的基本方法是根据资料的特性将其整理成统计表、 绘制成统计图。 通过统计表、图可以大致看到所得资料集中、离散的情况。 并利用所收集得来的数据计算出几个统计量,以表示该资料的数量特征、估计相应的总体参数。 38
统计分析 最重要的内容是 差异显著性检验。通过抽样调查或控制试验,获得的是具有变异的资料。产生变异的原因是什么?是由于进行比较的处理间,例如不同品种、不同饲料配方间有实质性的差异或是由于无法控制的偶然因素所引起?显著性检验的目的就在于承认并尽量排除这些无法控制的偶然因素的干扰,将处理间是否存在本质差异揭示出来。显著性检验的方法很多,常用的有: 39
t 检验——主要用于检验两个处理平均数差异是否显著; 方差分析——主要用于检验多个处理平均数间差异是否显著; 检验 —— 主要用于由质量性状得来的次数资料的显著性检验等。 40
统计分析的另一个重要内容是对试验指标或试验单位性状间的关系进行研究,或者研究它们之间的联系性质和程度,或者寻求它们之间的联系形式,即进行相关分析与回归分析。通过对资料进行相关、回归分析,可以揭示出试验指标或性状间的内在联系,为畜禽、水产农田、草原等新品种选育等提供强有力的依据。 41
还有一类统计分析方法不考虑资料的分布类型 , 也不事先 对有关 总体参数进行估算,这类统计分析方法叫非参数检验法。非参数检验法计算简便。当通常的检验方法对畜禽、水产科研中的某些资料无能为力时,非参数检验法则正好发挥作用。 42
三、统计学的研究对象与研究方法 1、统计学的研究对象 数量性 ——统计研究现象的数量特征(从数量上来认识事物的性质和规律性). 群体现象的数量方面,即现象总体的数量特征和数量关系。 数量性 ——统计研究现象的数量特征(从数量上来认识事物的性质和规律性). 在质与量的辨证统一中研究; 不同于纯数量的研究。 总体性—— 研究大量个别事物构成的现象整体的数据。 现象的数量规律性只有在总体层面上才能体现出来; 研究目的在于说明总体特征,但常常从观察个体数量特征入手,分析时也要注意一般与个别的结合. 43
2、统计学的研究方法 1)大量观察法 2)分组法 指对总体中的全部或足够多数的单位进行调查观察和综合研究 。 其数理依据是大数定律——从数量关系上揭示了现象的偶然性与必然性的关系。 实质上是统计研究的重要思想方法和原则,而不是一种具体的应用方法。 2)分组法 根据研究目的和现象的性质特点,按照一定的标志将总体分为若干部分的一种研究方法。 其应用贯穿于整个统计工作的全过程。 44
指运用各种综合指标来反映和研究现象总体的数量特征和数量关系。数字(即指标数字)是统计的语言。 3)综合指标法 指运用各种综合指标来反映和研究现象总体的数量特征和数量关系。数字(即指标数字)是统计的语言。 综合指标法既是描述统计的中心,也是推断统计的基础。 4) 统计模型法 根据一定的理论和假定条件,用数学模型去模拟现象之间相互关系、现象变化趋势等的一种研究方法。 统计模型包括三个要素——变量、数学关系式和模型参数。统计模型的参数由实际观察的数据来估计。 45
从个别到一般、从具体事实到抽象概括的推理方法,称为归纳法。 以一定的可信程度,根据样本数据来判断总体数量特征的归纳推理方法称为统计推断法。 5)归纳推断法 从个别到一般、从具体事实到抽象概括的推理方法,称为归纳法。 以一定的可信程度,根据样本数据来判断总体数量特征的归纳推理方法称为统计推断法。 46
四、 统计学的分类 1、描述统计与推断统计 描述统计——研究如何对客观现象的数量特征进行计量、观察、概括和表述。 四、 统计学的分类 1、描述统计与推断统计 描述统计——研究如何对客观现象的数量特征进行计量、观察、概括和表述。 用表和图表示,计算特征量(如平均值)等,所论不超出已有数据。 推断统计(统计推断)——据数据所提供信息对数据所来自的总体(母体)的性质作推断,推断会有错误、误差,用概率论的术语和方法来描述和论证。误差的产生源于数据有误差。怎样尽可能减少推断的错误和误差,是统计推断的中心问题。 47
2、描述统计 目的 描述数据特征 找出数据的基本规律 内容 确定要研究的数量特征 设计统计指标(说明这些数量特征的) 搜集数据 整理数据 计算并显示指标数据 25 50 Q1 Q2 Q3 Q4 x = 30 s2 = 105 48
3、推断统计 目的——对总体特征作出推断。 内容 参数估计 假设检验 相关回归分析 总体 样本 49
(包括分布理论,大数定律和中心极限定理等) (利用样本信息对总体的数量特征进行估计和检验等) 4、描述统计与推断统计的关系 概率论 (包括分布理论,大数定律和中心极限定理等) 推断统计 (利用样本信息对总体的数量特征进行估计和检验等) 描述统计 (统计数据的搜集、整理、显示和分析等) 样本数据 反映客观现象的数据 总体数据 总体内在的数量规律性 统计学探索现象数量规律性的过程 50
5、理论统计学与应用统计学 1)理论统计学 2)应用统计学 是关于数据的搜集、整理和分析的最基本原理、原则和方法。 适用于各种现象数量特征的分析研究。它是应用统计学共同的理论基础。 所谓统计学是一门通用方法论科学,就是指理论统计学而言。 2)应用统计学 运用于某一特定领域的统计理论和方法。 例如:生物统计学、医药统计学、气象统计学、科技统计学、经济统计学(宏观经济统计学、企业经济统计学、金融统计学、保险统计学、价格统计学、对外贸易统计学… ) 51
统计学的应用领域 统计学 经济学 管理学 医学 工程学 社会学 … 52
五、 统计学与其他学科的关系 1、统计学与数学 一方面,统计学要用到数学知识,统计的数量分析要符合数学原理; 五、 统计学与其他学科的关系 1、统计学与数学 联系: 一方面,统计学要用到数学知识,统计的数量分析要符合数学原理; 另一方面,统计方法和数学方法一样,并不能独立地直接研究和探索现象的规律,而是为各学科提供研究和探索客观规律的数量分析方法。 53
区别主要在于: (1)数学研究的是抽象的数量规律性,而统计学研究的是具体的、实实在在的数量规律性。数学研究的是没有量纲或单位的数,而统计学研究的是有具体实物内容或计量单位的数据。 (2)数学研究使用的是纯粹的演绎,而统计学是演绎与归纳相结合,且占主导地位的是归纳。 54
2、统计学与哲学 哲学是关于自然、社会和思维发展的普遍规律的科学,包括辨证唯物主义和历史唯物主义,它不仅是正确的世界观,也是科学的方法论。统计学作为一门探索客观事物数量规律性的方法论科学,必然要以哲学作为它的方法论基础。 3、统计学与其他学科的关系 统计方法可以帮助其他学科探索内在的数量规律性,而这种数量规律性的解释(和由数量规律性进而研究各学科内在的规律)只能由各学科的研究完成。 55
生物统计学的概念及主要内容 生物统计学(Biostatistics)是数理统计在生物学研究中的应用,它是应用数理统计的原理,运用统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学。属于生物数学的范畴。 56
二、主要内容 试 验 设 计 生 的 物 基 统 本 计 内 学 容 统 计 分 析 基本原则 方案制定 对比设计 常用试验设计方法 随机区组设计 裂区设计 拉丁方设计 正交设计 试 验 设 计 生 的 物 基 统 本 计 内 学 容 资料的搜集和整理 数据特征数的计算 统计推断 方差分析 回归和相关分析 协方差分析 主成分分析 聚类分析 统 计 分 析 57
生物统计学的基本作用: 提供整理和描述数据资料的科学方法,确定某些性状和特征的数量特征。 运用显著检验,判断试验结果的可靠性或可行性。 提供由样本推断总体的方法。 提供试验设计的一些重要原则。 58
第二节 常用统计学术语 一、总体与样本 具有相同性质或属性的个体所组成的集合称为总体 (population),它是指研究对象的全体; 第二节 常用统计学术语 一、总体与样本 具有相同性质或属性的个体所组成的集合称为总体 (population),它是指研究对象的全体; 组成总体的基本单元称为个体(individual); 从总体中抽出若干个体所构成的集合称为样本(sample); 总体又分为有限总体和无限总体: 含有有限个个体的总体称为有限总体(finitude popuoation); 包含有极多或无限多个体的总体称为无限总体(infinitude popuoation). 59
构成样本的每个个体称为样本单位;样本中所包含的个体 数目叫样本容量或样本大小(sample size),样本容量常记为n。 一般在生物学研究中,通常把n≤30的样本叫小样本,n >30的样本叫大样本。对于小样本和大样本,在一些统计数的 计算和分析检验上是不一样的。 研究的目的是要了解总体,然而能观测到的却是样本,通 过样本来推断总体是统计分析的基本特点。 60
二、变量与常量 变量,或变数,指相同性质的事物间表现差 异性或差异特征的数据。 常数,表示能代表事物特征和性质的数值, 通常由变量计算而来,在一定过程中是不变的。 61
连续变量 可以有任何小数出现 变 量 定量变量 非连续变量 只有整数出现 定性变量 62
总体 三、参数与统计量 参 数 推断inference 统计量 抽取部分观察单位 样本 为了表示总体和样本的数量特征,需要计算出几个特征数,包括平均数和变异数(极差、方差、标准差等)。 由总体计算的特征数称为参数(parameter),也称参量。常用希腊字母表示参数,例如用μ表示总体平均数,用σ表示总体标准差; 由样本计算的特征数称为统计数(staistic),也称统计量。常用拉丁字母表示统计数,例如用 表 示样本平均数,用S表示样本标准差。 总体参数由相应的统计量来估计,例如用 估计μ,用S估计σ等。 63
四、效应与互作 通过施加试验处理,引起试验差异的作用称为效应。效应是一个相对量,而非绝对量,表现为施加处理前后的差异。效应有正效应与负效应之分。 互作,又叫连应,是指两个或两个以上处理因素间相互作用产生的效应。互作也有正效应(协同作用)与负效应(拮抗作用)之分。 64
五、随机误差与错误 变异 效应 随机误差/机误(Random error) 误差 系统误差/错误(Systematic error) 65
随机误差,也叫 抽样误差(sampling error) 。这是由于试验中无法控制的内在和外在的偶然因素所造成。如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致,但也不可能达到绝对一致,所以随机误差带有偶然性质,在试验中,即使十分小心也是不可避免的。如果通过良好的试验设计、正确的试验操作,增加抽样或试验次数,随机误差可能减小,但不可能完全消灭。统计上的试验误差一般都指随机误差。随机误差越小,试验精确性越高。 66
系统误差,也叫片面误差 (lopsided error)。 这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。系统误差影响试验的准确性。只要以认真负责的态度和细心的工作作风是完全可以避免的。 67
准确度(accuracy)或真实性(validity) :观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异度)。 六 准确度与精确度 准确度(accuracy)或真实性(validity) :观察值与真值的接近程度,受系统误差的影响(常用指标:如灵敏度、特异度)。 即: 设某一试验指标或性状的真值为μ,观测值为 x,若 x与μ相差的绝对值|x-μ|小, 则观测值x的准确性高; 反之则低。 68
若观测值彼此接近,即任意二个观测值xi 、xj 相差的绝对值|xi -xj |小,则观测值精确性高;反之则低。 精确度(reliabiliy)—— 也称精密度(precision)或重复性(repeatability) :重复观察时观察值与其均值的接近程度,受随机误差的影响。 即: 若观测值彼此接近,即任意二个观测值xi 、xj 相差的绝对值|xi -xj |小,则观测值精确性高;反之则低。 69
七 频率与概率 frequency and probability 样本的实际发生率称为频率。设在相同条件下,独立重复进行n次试验,事件A出现f 次,则事件A出现的频率为f/n。 概率:随机事件发生的可能性大小。用大写的P 表示;取值[0,1]。 70
小概率事件 1 0.5 必然事件 P = 1 随机事件 0 < P < 1 不可能事件 P = 0 Certain 小概率事件 0.5 必然事件 P = 1 随机事件 0 < P < 1 不可能事件 P = 0 P ≤ 0.05(5%)或P ≤ 0.01(1%)称为小概率事件(习惯),统计学上认为不大可能发生。 Impossible 71
、平均数 平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。 第三节 平均数、标准差与变异系数 、平均数 平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。 72
算术平均数(arithmetic mean) 中位数(median) 众数(mode) 几何平均数(geometric mean) 平均数主要包括有: 算术平均数(arithmetic mean) 中位数(median) 众数(mode) 几何平均数(geometric mean) 调和平均数(harmonic mean) 73
主要用于样本含量n≤30以下、未经分组资料平均数的计算。 1、算术平均数 算术平均数是指资料中各观测值的总和除以观测值个数所得的商,简称平均数或均数,记为: 。算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。 (一)直接法 主要用于样本含量n≤30以下、未经分组资料平均数的计算。 74
设某一资料包含n个观测值: x1、x2、…、xn, 则样本平均数可通过下式计算: (1-1) 其中,Σ为总和符号; 表示从第一个观测值x1累加到第n个观测值xn。当 xi 在意义上已明确时,可简写为Σx,(3-1)式可改写为: 75
【例1.1】 某种公牛站测得10头成年公牛的体重分别为500、520、535、560、585、600、480、510、505、490(kg),求其平均数。 由于 Σx=500+520+535+560+58 +600+480+510+505+49 =5285, n=10 76
对于样本含量 n≥30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为: 得: 即10头种公牛平均体重为528.5 kg。 (二)加权法 对于样本含量 n≥30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为: (1-2) 77
第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量,因此将fi 称为是xi的“权”,加权法也由此而得名。 —分组数 第i组的次数fi是权衡第i组组中值xi在资料中所占比重大小的数量,因此将fi 称为是xi的“权”,加权法也由此而得名。 【例1.2】 将100头长白母猪的仔猪一月窝重(单位:kg)资料整理成次数分布表如下,求其加权数平均数。 78
表1—1 100头长白母猪仔猪一月窝重次数分布表 79
即这100头长白母猪仔猪一月龄平均窝重为45.2kg。 利用(1—2)式得: 即这100头长白母猪仔猪一月龄平均窝重为45.2kg。 计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。 80
此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即 【例1.3】 某牛群有黑白花奶牛 1500头,其平均体重为750 kg ,而另一牛群有黑白花奶牛1200头,平均体重为725 kg,如果将这两个牛群混合在一起,其混合后平均体重为多少? 此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即 81
1、样本各观测值与平均数之差的和为零,即离均差之和等于零。 即两个牛群混合后平均体重为738.89 kg。 (三)平均数的基本性质 1、样本各观测值与平均数之差的和为零,即离均差之和等于零。 或简写成 82
2、样本各观测值与平均数之差的平方和为最小,即离均差平方和为最小。 (xi- )2 < (xi- a)2 (常数a≠ ) 或简写为: < 对于总体而言,通常用μ表示总体平均数,有限总体的平均数为: (3-3) 83
当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。 式中,N表示总体所包含的个体数。 当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的无偏估计量。 统计学中常用样本平均数( )作为总体平均数(μ)的估计量,并已证明样本平均数是总体平均数μ的无偏估计量。 84
将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。 2、中位数 将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为Md。 当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。 中位数的计算方法因资料是否分组而有所不同。 85
对于未分组资料,先将各观测值由小到大依次排列。 (一)未分组资料中位数的计算方法 对于未分组资料,先将各观测值由小到大依次排列。 86
1、当观测值个数n为奇数时,(n+1)/2位置的观测值,即x(n+1)/2为中位数: Md= 2、当观测值个数为 偶 数 时 , n/2和(n/2+1)位置的两个观测值之和的1/2为中位数,即: (1-4) 87
【例1.4】 观察得9只西农莎能奶山羊的妊娠天数为 144 、 145、 147、 149、150、151、153、156、157,求其中位数。 此例 n=9,为奇数,则: Md= =150(天) 即西农莎能奶山羊妊娠天数的中位数为150天。 88
【例1.5】 某犬场发生犬瘟热,观察得10只仔犬发现症状到死亡分别为7、8、8、9、11、12、12、13、14、14天,求其中位数。 【例1.5】 某犬场发生犬瘟热,观察得10只仔犬发现症状到死亡分别为7、8、8、9、11、12、12、13、14、14天,求其中位数。 此例n=10,为偶数,则: (天) 即10只仔犬从发现症状到死亡天数的中位数为11.5天。 (二)已分组资料中位数的计算方法 89
若资料已分组,编制成次数分布表,则可利用次数分布表来计算中位数,其计算公式为: (1—5) 式中:L — 中位数所在组的下限; i — 组距; f — 中位数所在组的次数; n — 总次数; c — 小于中数所在组的累加次数。 90
【例1.6】 某奶牛场68头健康母牛从分娩到第一次发情间隔时间 整理成次数分布表如表 1—2 所示,求中位数。 【例1.6】 某奶牛场68头健康母牛从分娩到第一次发情间隔时间 整理成次数分布表如表 1—2 所示,求中位数。 表1—2 68头母牛从分娩到第一次发情间隔时间 次数分布表 91
即奶牛头胎分娩到第一次发情间隔时间的中位数为70.5天。 由表1—2可见:i=15,n=68,因而中位数只能在累加头数为36所对应的“57—71”这一组,于是可确定L=57,f=20,c=16,代入公式(1—5)得: (天) 即奶牛头胎分娩到第一次发情间隔时间的中位数为70.5天。 92
3、几何平均数 n 个观测值相乘之积开 n 次方所得的方根,称为几何平均数,记为G。它主要应用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析 。 如畜禽 、水产养殖的 增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等,用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下: (1-6) 93
为了计算方便,可将各观测值取对数后相加除以n,得lgG,再求lgG的反对数,即得G值,即 (1-7) 【例1.7】 某波尔山羊群1997—2000年各年度的存栏数见表3—3,试求其年平均增长率。 94
表1—3 某波尔山羊群各年度存栏数与增长率 95
利用(1—7)式求年平均增长率 G= =lg-1[(-0.368-0.398–0.602)] =lg-1(-0.456)=0.3501 即年平均增长率为0.3501或35.01%。 96
资料 中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为M0。 4、众 数 资料 中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为M0。 例如50枚受精种蛋出雏天数次数分布中,以22出现的次数最多,则该资料的众数为22天。 又如 【例1.6】 所 列 出 的 次数分布表中,57—71这一组次数最多,其组中值为64天,则该资料的众数为64天。 97
资料中各观测值倒数的 算术平均数 的倒数,称为调和平均数,记为H,即 5、调和平均数 资料中各观测值倒数的 算术平均数 的倒数,称为调和平均数,记为H,即 (1—8) 调和平均数主要用于反映群体不同阶段的平均增长率或群体不同规模的平均规模。 98
【例1.8】 某保种牛群不同世代牛群保种的规模分别为:0世代200头,1世代220头,2世代210头; 3世代190头,4世代210头,试求其平均规模。 利用(1—8)式求平均规模: (头) 即保种群平均规模为208.33头。 99
对于同一资料: 算术平均数>几何平均数>调和平均数 上述五种平均数,最常用的是算术平均数。
二、 标准差 1、标准差的意义 用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。
全距(极差)是表示资料中各观测值变异程度大小最简便的统计量。但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。
为 了 准 确 地 表示样本内各个观测值的变异程度 ,人们 首 先会考虑到以平均数为标准,求出各个观测值与平均数的离差,( ) ,称为离均差。 虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负 ,离均差之和 为零,即Σ ( ) = 0 ,因 而 不 能 用离均差之和Σ( )来 表 示 资料中所有观测值的总偏离程度。
为了解决离均差有正 、有负,离均差之和为零的问 题 , 可先求 离 均 差的绝 对 值 并 将 各 离 均 差 绝对 值 之 和 除以 观 测 值 个 数 n 求 得 平 均 绝 对 离差,即Σ| |/n。虽然平均绝对离差可以表示资料中各观测值的变异程度 ,但由于平均绝对离差包含绝对值符号 ,使用很不方便,在统计学中未被采用。
我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。 先将各 个离 均差平方,即 ( )2 ,再求 离均差平方和 , 即 ,简称平方和,记为SS; 由 于 离差平方和 常 随 样 本 大 小 而 改 变 ,为 了 消 除 样 本大小 的 影 响 , 用平方和 除 以 样 本 大 小, 即 ,求出离均差平方和的平均数 ;
统计量 称 为 均 方 ( mean square缩写为MS),又称样本方差,记为S2,即 为了使所得的统计量是相应总体参数的无 偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量n,而用自由度 n-1, 于是,我们 采 用统计量 表示资料的变异程度。 统计量 称 为 均 方 ( mean square缩写为MS),又称样本方差,记为S2,即 S2= (1—9)
相应的总体参数叫 总体方差 ,记为σ2。对于有限总体而言,σ2的计算公式为: (1—10)
由于 样本方差 带有原观测单位的 平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时 , 常需要与平均数配合使用 ,这 时应 将平方单位还原,即应求出样本方差的平方根。统计学上把样本方差 S2 的平方根叫做样本标准 差,记为S,即: (1-11)
由于 所以(1-11)式可改写为: (1-12)
在统计学中,常用样本标准差S估计总体标准差σ。 相应的总体参数叫总体标准差,记为σ。对于有限总体而言,σ的计算公式为: (1-13) 在统计学中,常用样本标准差S估计总体标准差σ。
2、标准差的计算方法 (一)直接法 对于未分组或小样本资料 , 可直接利用(1—11)或(1-12)式来计算标准差。
【例1.9】 计算10只辽宁绒山羊产绒量: 450, 450, 500, 500, 500,550, 550, 550, 600, 600,650(g)的标准差。 此例n=10,经计算得:Σx=5400,Σx2=2955000,代入(1—12)式得: (g) 即10只辽宁绒山羊产绒量的 标准差 为65.828g。
(二)加权法 对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为: (1—14) 式中,f为各组次数;x为各组的组中值;Σf = n为总次数。
将表1-4中的 Σf、Σfx、 代入(1—14)式得: 【例1.10】 利用某纯系蛋鸡200枚蛋重资料的次数分布表(见表1-4)计算标准差。 将表1-4中的 Σf、Σfx、 代入(1—14)式得: (g ) 即某 纯 系 蛋 鸡200枚 蛋 重的标准差为3.5524g。
表1—4 某纯系蛋鸡200枚蛋重资料次数分布 及标准差计算表
3、标准差的特性 (一)标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。 (二)在计算标准差时,在各观测值加上或减去一个常数,其数值不变。 (三)当每个观测值乘以或除以一个常数a,则所得的标准差是原来标准差的a倍或1/a倍。
(四)在资料服从正态分布的条件下,资料中约有68. 26%的观测值在平均数左右一倍标准差( ±S)范围内;约有95 (四)在资料服从正态分布的条件下,资料中约有68.26%的观测值在平均数左右一倍标准差( ±S)范围内;约有95.43%的观测值在平均数左右两倍标准差( ±2S)范围内;约有99.73%的观测值在平均数左右三倍标准差( ±3S) 范 围内。也就是说全距近似地等于6倍标准差,可用(全距/6)来粗略估计标准差。
三、 变异系数 标 准差与平均数的比值称为 变异系数,记为C·V。 变异系数是衡量资料中各观测值变异 程度的另一个统计量 。 标 准差与平均数的比值称为 变异系数,记为C·V。 变异系数可以消除单位 和 (或)平 均数不同对两个或多个资料变异程度比较的影响。
变异系数的计算公式为: (1—15) 【例1.11】 已知某良种猪场长白成年母猪平均体重为 190kg, 标准差为10.5kg,而大约克成年母猪平均体重为196kg,标准差为8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。
由于,长白成年母猪体重的变异系数: 大约克成年母猪体重的变异系数: 所以,长白成年母猪体重的变异程度大于大约克成年母猪。
注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。
第四节 资料的整理 一 资料的分类 正确地进行资料的分类是资料整理的前提。 第四节 资料的整理 一 资料的分类 正确地进行资料的分类是资料整理的前提。 在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为数量性状资料 、 质量性状资料和半定量(等级)资料三大类。
1. 数量性状(quantitative character)是 指能够以量测或计数的方式表示其特征的性状 。观察测定数量性状而获得的数据就是数量性状资料 ( data of quantitative characteristics)。数量性状资料的获得有量测和计数两种方式 ,因而数量性状资料 又分为计量资料和计数资料两种。
(一)计量资料 指用量测方式获得的数量性状资料,即用度、量、衡等计量工具直接测定获得的数量性状资料。其数据是用长度、容积、重量等来表示。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精度而定 , 它们之间的变异是连续性的。因此,计量资料也称为连续性变异资料。
(二)计数资料 指用计数方式获得的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。这些观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为不连续性变异资料或间断性变异资料。
2、质量性状资料 质量性状(qualitative character)是指能观察到而不能直接测量的性状,如颜色、 性别、生死等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:
(一)统计次数法 在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究猪的毛色遗传时,白猪与黑猪杂交,子二代中白猪、黑猪和花猪的头数分类统计如下表。
表4-1 白猪和黑猪子二代的毛色分离情况
这种由质量性状数量化得来的资料又叫 次数资料。 (二)评分法 对某一质量性状 , 因其类别不同,分别给予评分。例如,在研究猪的肉色遗传时,常用的方法是将屠宰后 2小时的猪眼肌横切面与标准图谱对比,由浅到深分别给予 15 分的评分,以便统计分析。
3、半定量(等级)资料 半 定 量 或 等 级 资 料 (semi-quantitative or ranked data) 是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量的不同。
如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾病,疗效分为“无效”、“好转”、 “显效”和“控制”四个级别 ;然后统计各级别的供试畜禽数。 半定量资料在兽医研究中是常见的。
三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。 例如,兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次数,计数资料就转化为质量性状次数资料;如果按白细胞总数过高、正常、过低分为三组 ,清点各组次数 ,就转化成了半定量资料 。
二、 资料的整理 一、资料的检查与核对 检查和核对原始资料的目的在于确保原始资料的完整性和正确性。 所谓完整性是指原始资料无遗缺或重复。 所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料 ,应予以删除或补齐 ;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。
二、资料的整理方法 当观测值不多(n≤30)时,不必分组,直接进行统计分析。 当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。 (一)计数资料的整理 现以50枚受精种蛋孵化出雏鸡的天数为例,说明计数料的整理。
表4-2 50枚受精种蛋孵化出雏鸡的天数 小鸡出壳天数在19─24天范围内变动 ,有6个不同的观察值。用各个不同观察值进行分组,共分为6组,可得表4-3形式的次数分布表。
表4-3 50枚受精种蛋出雏天数的次数分布表
有些计数资料,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多,而每组内包含的观察值太少,资料的规律性显示不出来。对于这样的资料,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显,对资料进一步计算分析也比较方便。例如观测某品种100只蛋鸡每年每只
鸡产蛋数 (原始资料略) , 其变异范围为200299枚。这样的资料如以每个观察值为一组, 则组数太多 (该资料最多可分为100组),如间隔10枚为一组,则可使组数适当减少。经初步整理后分为10组,资料的规律性就比较明显,见表4-4。
表4-4 100只蛋鸡每年产蛋数的次数分布表
(二)计量资料的整理 计量资料在分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组。 【例4.1】 将126头基础母羊的体重资料(见表4-5)整理成次数分布表。
全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即 1、求全距 全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即 R=Max(x)-Min(x) 本例 R=65.0-37.0=28.0(kg)
2、确定组数 组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。分组越多所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。一般组数的确定,可参考表4-6。
表4-5 126头基础母羊的体重资料 单位:kg
表4-6 样本含量与组数 本例中,n=126,根据表4-6,初步确定组数为10组。
3、确定组距 每组最大值与最小值之差称为组距,记为 i。分组时要求各组的组距相等。组距的计算公式为: 组距(i)=全距/组数 本例 i=28.0/10≈3.0
4、确定组限及组中值 各组的最大值与最小值称为组限。最小值称为下限, 最大值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下: 组中值=(组下限+组上限)/2=组下限+1/ 2组距=组上限-1/2组距 由于相邻两组的组中值间的距离等于组距,所以当第一组的组中值确定以后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。
组距确定后, 首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近或等于资料中的最小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限应大于资料中的最大值。
表4-5中, 最小值为37.0, 第一组的组中值取37.5,因组距已确定为3.0,所以 第一组的下限为: 37.5-(1/2)×3.0=36.0; 第一组的上限也就是第二组的下限为: 36.0+3.0=39.0; 第二组的上限也就是第三组的下限为: 39.0+3.0=42.0,……, 以此类推,一直到某一组的上限大于资料中的最大值为止。 于是可分组为: 36.0 39.0,39.0 42.0,……。
为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。 通常将上限略去不写。 第一组记为36.0 , 第二组记为39.0 , …… 5、归组划线计数,作次数分布表 分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。
表4-7 126头基础母羊的体重的次数分布表
在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本含量相等,如不等,证明归组划线有误,应予纠正。 在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;反之则少。
(三)质量性状资料、半定量(等级)资料的整理 对于质量性状资料 、 半定量(等级)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。
表4-8 F2代山羊的有角无角分离情况
表4-9 仔猪死亡情况
三、 常用统计表与统计图 1、统计表 (一)统计表的结构和要求 统计表由标题、横标目、纵标目、线条、 数 字及合计构成,其基本格式如下表:
表号 标题 编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。具体要求如下:
1、标题 标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。 2、标目 标目分横标目和纵标目两项。横标目列在表的左侧 , 用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容, 并 注 明计算单位,如%、kg、cm等等。
3、数字 一律用阿拉伯数字,数字以小数点对齐,小数位数一致, 无数字的用“─”表示,数字是“0”的,则填写“0”。 4、线条 表的上下两条边线略粗,纵、横标目间及合计用细线分开, 表的左右边线可省去,表的左上角一般不用斜线。
(二) 统计表的种类 统计表可根据纵、横标目是否有分组分为简单表和复合表两类。 1、简单表 由一组横标目和一组纵标目组成,纵横标目都未分组 。 此类表适于简单资料的统计,如表4-10。
表4-10 某品种鸡杂种二代冠形分离情况
2、复合表 由两组或两组以上的横标目与一组纵标目结合而成 , 或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。此类表适用于复杂资料的统计,如表4-11。
表4-11 几种动物性食品的营养成分
二、统计图 常用的统计图有长条图 (bar chart) 、圆饼图(pie chart) 、 线图(linear chart) 、 直方图(histogram)和 折线图 (broken-line chart)等 。 一般情况下 ,计量资料采用直方图和折线图,计数资料 、质量性状资料、半定量 (等级)资料常用长条图 、 线图或圆饼图。
(一)统计图绘制的基本要求 1、标题简明扼要,列于图的下方。 2、纵、横两轴应有刻度,注明单位。 3、横轴由左至右、纵轴由下而上,数值由小到大; 图形长宽比例约5:4或6:5。 4、图中需用不同颜色或线条代表不同事物时,应有图例说明。
(二)常用统计图及其绘制方法 1、长条图 它用等宽长条的长短或高低表示按某一研究 指 标 划分属性种类或等级的次数或频率分布 。如果只涉及一项指标 , 则采用单式长条图;如果涉及两个或两个以上的指标,则采用复式长条图。
在绘制长条图时,应注意以下几点: (1)纵轴尺度从“0”开始,间隔相等,标明所表示指标的尺度及单位。 (2)横轴是长条图的共同基线,应标明各长条的内容。长条的宽度要相等,间隔相同。间隔的宽度可与长条宽度相同或者是其一半。 (3)在绘制复式长条图时,将同一属性种类、等级的两个或两个以上指标的长条绘制在一起,各长条所表示的指标用图例说明,同一属性种类、等级的各长条间不留间隔。
2 圆饼图 用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。 所谓构成比,就是各类别、等级的观测值个数(次数)与观测值总个数(样本含量)的百分比。 把圆饼图的全面积看成100%,按各类别、等级的构成比将园面积分成若干分, 以扇形面积的大小表分别表示各类别、等级的比例。
绘制圆饼图时,应注意以下三点: (1)圆饼图每 3.6° 园心角 所对应的扇形面积为1%。 (2)圆饼图上各部分按资料顺序或大小顺序,以时钟9时或12时为起点,顺时针方向排列。 (3)圆饼图中各部分用线条分开,注明简要文字及百分比。
3、线图 用来表示事物或现象随时间而变化发展的情况。线图有单式和复式两种。 (1)单式线图 表示某一事物或现象的动态。 (2)复式线图 在同一图上表示两种或两种以上事物或现象的动态。这时可用实线“”,断线“------”,点线“····”,横点线“-•-•-•-”等来标志区别。
4、直方图(柱形图、矩形图) 对计量资料, 可根据次数分布表作出直方图以表示资料的分布情况。其作法是:在横轴上标记组限,纵轴标记次数 (f), 在各组上作出其高等于次数的矩形,即得次数分布直方图。
5、折线图 对于计量资料,还可根据次数分布表作出次数分布折线图。 其作法是:在横轴上标记组中值,纵轴上标记次数,以各组组中值为横坐标,次数为纵坐标描点,用线段依次连接各点,即可得次数分布折线图。
数据的组织与表达 A 数据与数据类型 B 频数分布表 C 统计图形表达 一、原始数据的组织 二、变量的类型 三、定量变量的离散化与有序分类变量的数量化 B 频数分布表 一、定量数据的频数分布表 二、定性数据的频数分布表 三、配对设计定性数据的频数分布表 C 统计图形表达 172
一、原始数据的组织 每一行代表一个研究对象(单位)的观测记录 每一列代表一个观测指标(变量) 173
二、变量的类型 定量变量 定性变量 只有认识了变量的类型,才能正确地选用统计分析方法 按变量测量的精确程度由低到高,将数据分类为:名义变量(如性别、婚姻状况)、有序变量(如疗效,类别间差别大小难以度量)、区间变量(如摄氏体温,类别间差别有实际意义)、比变量(如身高,除具有区间变量的特征外,还具有真实意义的零点。摄氏温度的零点为水结冰时温度,并非绝对意义的零点,所以它不属于比变量) 定性变量
1、定性变量(Qualitative Variable) 也称为:计数数据(enumeration (counting) data) (1)名义变量(Nominal variable) 二项分类 性别分类,如男性为1,女性为0。 多项无序分类 血型的A、B、AB、O型多项无序分类 (2)有序(等级)变量(Ordinal or ranking variable) 多项有序分类 疗效观测分为显效、有效、好转及无效4个类别。 175
2、定量变量(Quantitative Variable) (1)区间变量(interval variable ) 或数值变量(numerical variable ) 如:身高,血压,血清胆固醇浓度,体温,脉搏计数、红细胞计数、玫瑰花环计数、住院天数等。 (一般有度量衡单位,类别间的差别大小有实际意义) (2)比变量(ratio variable) 以上例子中除体温外(具有真实意义的零点) 176
连续型变量(Continuous variable) 与 离散型变量(Discrete variables) 根据观察数据之间有无缝隙(gap),常将数据分类为离散型变量(有缝隙)与连续型变量(无缝隙)两大类,名义变量一定是离散型变量;连续型变量只能是比、区间和有序变量,但比、区间和有序变量也可以是离散型变量(见图) 177
三、定量变量的离散化 与有序分类变量的数量化 1、实际年龄---------少年、青年、中年、老年 2、有序疗效等级:显效、有效、好转、无效 4 3 2 1 丢失信息 赋值的合理性? 178
定量变量--定性变量 丢失信息 定量变量 有序分类 定性变量 例:一组2040岁成年人的血压 8 正常血压 12 轻度高血压 <8 低血压 8 正常血压 12 轻度高血压 15 中度高血压 17 重度高血压 有序分类 定量变量 定性变量 以12kPa为界分为正常与异常两组,统计每组例数
Quantitative data 定量数据 观察单位observations 个体individuals 变量variables Units;elements 住院号 年龄 身高 体重 住院天数 职业 文化程度 分娩方式 妊娠结局 2025655 27 165 71.5 5 无 中学 顺产 足月 2025653 22 160 74.0 小学 助产 2025830 25 158 68.0 6 管理员 大学 2022543 23 161 69.0 剖宫产 2022466 159 62.0 11 商业 2024535 157 2 早产 2025834 20 66.0 4 2019464 24 70.5 3 2025783 29 154 57.0 7 干部 Quantitative data 定量数据 Qualitative data 定性数据
频数分布表 一、定量数据的频数分布 二、(非配对设计)定性数据的频数分布 三、配对设计定性数据的频数分布 频数(frequency)——将定量数据分类成若干个组段,或将定性数据分类成若干个类别,所清点得到的每一组段或类别的数据出现个数。 181
一、定量数据的频数分布 150名成年男子血清总胆固醇水平(mmol/L)测定 3.20 3.62 5.08 4.86 4.05 3.91 4.26 4.45 4.93 3.61 3.92 4.43 4.88 4.10 3.55 3.68 5.77 4.33 4.97 4.64 4.34 4.58 4.83 3.45 3.81 4.76 2.95 5.13 4.63 4.87 6.02 3.54 3.77 5.76 4.65 3.94 5.41 5.23 3.66 5.29 5.32 5.22 2.93 4.30 3.78 3.07 5.57 3.76 4.02 3.96 3.95 4.81 3.71 2.94 3.69 4.69 5.52 5.58 4.62 4.49 4.55 3.85 3.34 4.67 4.27 4.54 4.31 5.30 4.77 3.58 4.74 5.81 3.50 4.85 3.14 4.47 3.25 3.98 5.92 3.82 4.20 2.84 3.32 5.47 4.50 5.33 3.10 4.03 3.43 4.40 5.63 3.74 6.29 3.59 4.73 3.64 3.29 4.08 4.23 5.07 4.19 5.91 4.17 4.96 4.51 5.24 3.52 5.59 4.12 4.06 2.72 4.36 4.18 4.37 4.57 6.26 3.93 182
频数表的编制步骤 (1)求极差(range): 即最大值与最小值之差,又称为全距。R=6.29-2.72=3.57 mmol/L (2) 决定分组组数、组距 根据研究目的和样本含量n确定分组组数,通常分为10~15个组。组距=极差/组数,为方便计,组距=极差/10, 再略加调整。3.57/10=0.357 ≈0.4 (3) 列出组段 第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。2.7~ 3.1~ …… 5.5~ 5.9~6.3 (4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。 183
(5) 计算频率:Pi=fi /n, 如P1=f1 /n=6/150=0.04 (6) 计算累计频数(fc) (7) 计算累计频率: Pc=fc /n 184
185
二、(非配对设计)定性数据的频数分布 一维频数表 二维频数表 高维频数表 200名学生的血型 血型 O A B AB 合计 观测数 65 72 38 25 200 186
普通二维表的常见类型 187
由原始数据整理成一维频数表 单身 3 已婚 5 离异 2 分居 4 合计 14 14名成人的原始数据 14名成人的婚姻状况 婚姻状况 频数 编号 性别 身高 婚姻状况 1 男 175 单身 2 女 167 3 187 4 176 已婚 5 6 178 7 174 8 170 9 离异 10 186 11 182 分居 12 159 13 14 14名成人的婚姻状况 婚姻状况 频数 单身 3 已婚 5 离异 2 分居 4 合计 14 188
由原始数据整理成二维频数表 14名成人的原始数据 不同性别的婚姻状况 婚姻状况 性别 男 女 单身 2 1 已婚 3 离异 分居 婚姻状况 编号 性别 身高 婚姻状况 1 男 175 单身 2 女 167 3 187 4 176 已婚 5 6 178 7 174 8 170 9 离异 10 186 11 182 分居 12 159 13 14 婚姻状况 性别 男 女 单身 2 1 已婚 3 离异 分居 婚姻状况 性别 频数 单身 男 2 已婚 离异 1 分居 女 3 189
三、配对设计定性数据的频数分布1 自身配对 甲培养基 乙培养基 合计 阳性1 阴性0 38 5 43 9 24 33 47 29 76 表2.7 同一样品经两种培养基培养结果 样本编号 甲培养基 乙培养基 1 阳性 … 38 39 阴性 43 44 52 53 76 甲培养基 乙培养基 合计 阳性1 阴性0 38 5 43 9 24 33 47 29 76 甲培养基 乙培养基 频数 1 38 5 9 24 自身配对 190
三、配对设计定性数据的频数分布2 对比法 核素法 频数 1 58 2 3 42 7 8 9 17 191
统计图形表达 变量类型 一维情况 二维情况 定量数据 定性数据 1.茎叶图 2.盒式图 3.直方图 4.加分布曲线的直方图 1.散点图 2.加置信椭圆的散点图 1.分组 盒式图 2.分组 散点图 1.直条图 2.饼图 1.城区图 2.马赛克图 192
1、直方图(Histogram): 用于描述定量变量的数据分布特征。 193
2(1)、概率-概率散点图(p-p plot)又称为p-p图或百分点图,横轴为观察累积概率,纵轴为理论(如正态)累积概率,确定样本数据对于理论分布的一致性 194 图 表2-3数据的p-p图
2(2)、分位数-分位数散点图(q-q plot)又称为q-q图,横轴为观察值,纵轴为理论(如正态)分位数,确定样本数据对于理论分布的一致性 195 图 表2-3数据的q-q图
绘P-P或Q-Q图的数据 196
3、茎叶(Stem-Leaf )图 Stem Leaf # 62 69 2 60 22 2 58 112 3 56 367 3 62 69 2 60 22 2 58 112 3 56 367 3 54 172789 6 52 22349002223 11 50 7833 4 48 133567836777 12 46 23344457934467 14 44 0355799001445778 16 42 03667013467 11 40 23355680022789 14 38 1255122234568 13 36 1246889914678 13 34 35502455589 11 32 059224 6 30 7044 4 28 4345 4 26 2 1 ----+----+----+----+ Multiply Stem.Leaf by 10**-1 197
4、盒式图(Box plot) 198
5、直条图(Bar chart):用直条反映定性变量不同类别下的某指标大小。 四种营养素喂养小白鼠三周后所增体重(克) 199
绘制直条图注意事项 ⑴ 纵轴的刻度必须从“0”开始,否则会改变各对比组间的比例关系。 (2)横轴各直条一般按统计指标由大到小排列,也可按事物本身的自然顺序排列。 (3)各直条的宽度要一致,各直条应有相等的间隔,其宽度一般与直条的宽度相等或为直条宽度的一半。 200
6、圆饼图(pie Chart):反映定性变量各个分类的构成情况。 200名学生的血型 血型 O A B AB 合计 观测数 65 72 38 25 200 201
7. 散点图 202
8. 线图 203
9. 统计地图(statistical map) 204