生物统计学 Biostatistics 第一章 统计数据的收集与整理 2012.2
1.1 总体与样本 总体(population) 无限总体(intinite population) 总体(pupulation):根据研究目的确定的同质研究对象的全体(集合)。分有限总体与无限总体。 个体(individual) 样本(sample):从总体中随机抽取的若干个个体所构成的集合。 样本单位(sample unit) 样本含量(sample size),记为n。 总体(population) 无限总体(intinite population) 有限总体(finite population) 样本(sample) 样本含量(sample size)
从总体中获得样本的过程称为抽样(sampling) 抽样的目的,是希望通过对样本的研究,推断其总体,样本必须能够代表总体。我们需要的样本应该是一个总体的缩影。为了达到这个目的,就需要用随机抽样(random sampling)的方法获得样本。
随机数字表的使用 见附表一(p251)
不同的抽样方式得到不同的数据分布 从一有限总体中抽样,可分为放回式抽样(sampling with replacement)和非放回式抽样(sampling without replacement)。所谓放回式抽样是指:从总体中抽出一个个体,记下它的特征后,放回总体中,再做第二次抽样。这种抽样方式可能会重复抽中某一个体。非放回式抽样是指:从总体中抽出个体后,不再放回。 对于无限总体,两者实际上没有区别。
1.2 数据类型及频数(率)分布 根据观察数据之间有无缝隙(gap),常将数据分类为离散型(discrete)变量(有缝隙)与连续型(continuous)变量(无缝隙)两大类。 定量变量(quantitative variable):亦称为数值变量,变量值是定量的,表现为数值大小,一般有度量衡单位。e.g. 身高、体重。 定性变量(qualitative variable):亦称为分类变量,其变量值是定性的,表现某个体属于几种互不相容的类型中的一种。e.g. 血型,豌豆花的颜色。 常数(constant):是不能给予不同数值的变量,代表事物特征和性质的数值。e.g.样本平均数,标准差。 与某种标准作比较所得到的数据称为连续型数据(continuous data),又称为度量数据(measurement data)。 由记录不同类别个体的数目所得到的数据,称为离散型数据(discrete data),又称为计数数据(count data)。
在判断数据的类型之后,就要进一步研究数据的变化规律。描述数据变化规律的最简单方法是将这些数据列成频数表(frequency table)或绘成频数图(frequency graph),根据频数分布进行研究。
频数(率)表和频数(率)图的编绘 离散型数据频数(率)表和频数(率)图
编制连续型数据的频数(率)表 的方法步骤 从原始数据表中找出最大值和最小值,并求出极差。 决定划分的组数,分组数是由数据的多少决定的,在数据较少时,如50~100个数,可以分为7~10组。数据较多时,可分为15~20组。 根据极差与决定划分的组数,确定组限。 在频数表中列出全部组限、组界及中值。 将原始数据表中数据,用唱票的方式填入频数表中,计算出各组的频数和频率。
最低与最高一组非零频数的点分别与相邻零频数中值点相连 连续型数据频数(率)表 和频数(率)图 最低与最高一组非零频数的点分别与相邻零频数中值点相连
累计频数图的意义? 横坐标与多边形图有何差异?
累计的意义?累计频数图的意义?
研究频数(率)分布的意义 1. 根据频数(率)分布,可以看出数据的集中情况(重心)。 平均值(average value, mean) 算术平均数(arithmetic mean)、中位数(median)和众数(mode)。 2. 从频数(率)表或频数(率)图中,可以直观地看出数据的变异情况。 3. 可以直观看出频数(率)图的变化形状。还可显示一些不规则的情况。
频数(率)分布的不恒定性 当用随机抽样方法获得样本时,由于偶然性,有时在一个样本中抽到的数值偏高,而另一个样本中数值偏低,使两个样本的频数分布出现不同。由于样本分布的不恒定性,当用样本去推断总体时,推断的结果也会有所不同。这就需要考察当用某一样本去推断总体时所得结果与真正总体之间有多大误差,结果的可信度有多高。
1.3 样本的几个特征数 样本统计量
平均数(mean) 生物统计学中,使用最多的是算术平均数( )。
求和符号3个简单运算法则 [b-(a-1)]c
算数平均数的基本特征 算术平均数的计算与样本内的每个值都有关,它的大小受每个值的影响。 若每个xi都乘以相同的数k,则平均数亦应乘以k。 若每个xi都加上相同的数A,则平均数亦应加上A。 如果 是n1个数的平均数, 是n2个数的平均数,那么全部n1 + n2个数的算术平均数是加权平均数(weighted mean):
平均数的计算方法 离散型数据频数资料: 注意记住所有字母符号的含义
例1.1 新生儿体重 作表计算是个好习惯
连续型数据频数资料: 和离散型数据计算公式比较,符号有何异同 怎么才能精确计算? accurate calculation
学习小组任务 1、学会使用随机数字表(p2和附表1)。 2、为什么说通过中值计算连续型数据频数资料是不精确的,要怎样算才是精确的? 3、如何理解标准差的作用?标准差公式是怎么推导出来的(可参考1.3.3或课外参考资料)。
例1.2 “三尺三”株高
标准差 对于数据的变异程度,经常使用的度量方法有三种,它们是:范围(range)或称为极差,平均离差(mean deviation, MD)和标准差(Standard deviation, s or SD)或称为标准离差。其中最重要的是标准差。
学习小组任务 1、学会使用随机数字表(p2和附表1)。 2、为什么说通过中值计算连续型数据频数资料是不精确的,要怎样算才是精确的? 3、如何理解标准差的作用?标准差公式是怎么推导出来的(可参考1.3.3或课外参考资料)。
平均离差(mean deviation, MD)
除得的商称为样本方差(sample variance),用符号s2表示。 离差平方和(sum of square of deviations) n-1:该样本自由度 在统计模型中,自由度指样本中可以自由变动的变量的个数,当有约束条件时,自由度减少。 自由度计算公式:自由度=样本个数-样本数据受约束条件的个数,即df = n - k(df自由度,n样本个数,k约束条件个数)
标准差(s,SD) 方差的缺点: 方差s2是离均差平方的平均数。虽然方差在实际应用中用得最广泛,但它还不能直接地指出某个数x与平均数之间的偏离究竟达到什么程度。
s要比MD要大一些。 如果数据分布曲线是平滑且对称的,那么大约57%的数据落在平均数±MD内; 如果数据分布曲线是平滑且对称的,那么大约68%的数据落在平均数±s内。
总之,衡量数据离散程度时,三种方法都可以使用。用抽样理论可以证明:用标准差估计总体离散程度最可靠,平均离差次之。
标准差的计算方法 1. 非频数资料的计算方法 不要求公式推导。
例1.3 从两个小区分别随机抽取20株小麦,测其单穗粒数,结果如下表,计算其标准差。
列出下表计算
但是若将上述数据进行编码,则可明显看出用(1 但是若将上述数据进行编码,则可明显看出用(1. 12)式计算极为便利。具体做法是任选一个数C,求每一个数与C的差,利用差值计算离差平方和。结果与未编码所得的值是一样的。C最好选接近平均数的一个数,这样编出的数码最容易计算。
编码和列表都是好习惯。 现仅对例1.3中的 第一个小区进行 计算,取C=25, 于是x=x-25。 根据(1.12)式
1. 频数资料的计算方法
对于连续型数据,可以用中值代替离散型数据中的组值做近似的计算,但是连续型数据中的中值一般都较大,必须编码后再计算。可用下式:
偏斜度和峭度 度量数据围绕众数呈不对称的程度,即通常所称的偏斜度(skewness)。虽然有几种不同的度量偏斜的方法。但是鉴于三阶中心矩(third central moment)的方法有最好的特性,因而使用得最广泛。三阶中心矩的定义为:
下面用4、11、12和13这四个数示意性地说明三阶中心矩并计算出 m3 。从下表中可以看出,当我们将离差立方后,其中有一个负数,它远远超过另外三个正数,其代数和为负数,因此m3= 负数说明在平均数左侧的离差大于右侧的离差。因此分布是不对称的。
若频数分布是对称于平均数的,则三阶中心矩等于0。 当曲线在大于平均数的一侧有一个“长尾”时(图1-5A) ,m3 >0;正偏。 当曲线在小于平均数的一侧有一“长尾”时(图1-5B),m3 <0。负偏。
m3 >0 m3 <0
m3的两个严重缺点 (l)它的单位为物理学单位的立方,因此在不同类型数据之间不易比较。 (2)因为它没有计算数据变异的性质,因此没有一个绝对的含义。为了解决这一问题,制定了一个没有任何单位的量。
g1 >0 g1 <0
第二个度量曲线形状的量是g2,称为峭度(kurtosis)
不要求推导。
了解
对于频数资料,可用类似计算标准差的方法,将中值编码后再计算。可以使用以下公式: 了解
例1.2 “三尺三”株高分布的g1和g2。将表1-3中的数据用C=157编码后,列成下表
g1和 g2值与“正态”曲线的值差异都不大。g1=-0. 105与正态的0很接近,但稍微有些负偏。g2=0 在做曲线形状判断时,必须是一个大的样本, g1 和 g2 才可靠。判断g1 时,样本含量至少要200以上,g2需l000以上。以上各阶矩都是由样本计算得到的,因此称为样本矩(sample moment)。
变异系数(coefficient of variability,CV) 假若两组数据的标准差相等,但是平均数不等,那么平均数大的样本,比平均数小的样本相对来说更整齐。 为了客观地比较两者的变异程度,引入变异系数(coefficient of variability,CV)这一概念。变异系数的公式为:
本章作业 第3版教材 P20 1.5(要求通过频数资料计算平均数和标准差) 1.16 (要求列表、编码) 第2版教材 P20 1.12 (要求列表、编码)
6.5 6.6
学习小组任务 1、学会使用随机数字表(p2和附表1)。 2、为什么说通过中值计算连续型数据频数资料是不精确的,要怎样算才是精确的? 3、如何理解标准差的作用?标准差公式是怎么推导出来的(可参考1.3.3或课外参考资料)。