第四节 统计初步和数据整理 在这一节中我们将介绍统计学的基本知识。统计学是一门古老而又年轻的学科,例如为了征兵和收税的早期的人口统计,甚至在公元前就出现了。但是近代数理统计学,却主要是从20世纪初开始发展的。其主要特征是运用概率论的知识进行统计推断。即从所研究的全部对象中抽取部分个体,并通过对这部分个体的观察和分析,对全部对象的有关问题作出推断。数理统计学已经建立了一套系统的理论,有着广泛的应用。下面先介绍统计学中最基本的概念。
一、统计的基本概念 1. 总体 在讨论一个统计问题时,把研究对象的全体称为总体或母体,而其中的每一个对象称为个体。 例如我们要研究某企业生产的一批电视机显象管的平均使用寿命,那么这一批显象管的全体就组成一个总体,其中每一只显象管就是一个个体。 在实际中我们所研究的往往是总体中个体的某种数值指标,例如显象管的寿命指标X,它是一个随机变量。如果我们主要关心的只是这个数值指标X,为了方便起见,我们就将这个指标的所有可能取值的全体看作总体。如果X的分布函数是F(x),我们也称这一总体为具有分布函数F(x)的总体。
2. 样本 为了了解总体的情况,例如上面提到的一批电视机显象管的平均使用寿命,不可能测试每一只显象管的寿命,只能抽取其中的一部分显象管进行寿命测试,再通过对这一部分显象管的测试数据的分析对整批显象管的寿命作出推断。 从总体中抽出的部分个体称为样本或子样。样本中所含个体的数目称为样本容量。对于样本中的个体,感兴趣的是它的某个数值指标。从总体X中抽取n个个体,这n个数值指标记作X1,X2,…,Xn,显然每一个Xi都是一个随机变量。称X1,X2,…,Xn为来自总体X的一个容量为n的样本。
在抽取样本时,我们希望抽取的每一个个体都不受前面抽出的个体的影响,能够尽量多的反映总体的信息 。例如要知道N件产品中的正品率,我们抽取n件产品进行检验,当N不太大时,为了使每一个个体都能够尽量反映总体的信息我们必须采用有放回的抽取方法,即抽取一个个体对它进行检测之后放回总体中,充分混和之后再抽取下一个个体。如果N很大,而n相对于N又比较小的话就可以不放回而直接从总体中随机地抽取。这种抽取样本的方法叫作随机抽样。
今后我们讲的样本都是通过随机抽样方法得到的。 在一次实际的抽样中,我们得到样本X1,X2,…,Xn的一组观察值,用小写的x1, x2,…,xn表示,它是一组具体的数字,例如从某厂生产的显象管中随机抽出10个显象管,测得寿命如下(单位千小时) 4.8, 3.4, 5.2, 4.7, 5.5, 4.2, 4.5, 3.9, 5.0, 4.9 这十个数据就是样本容量为10的样本X1,X2,…,X10的一组观察值。
5.4.2 数据的整理和分析 一.频数与频率分布表 对于通过抽样获得的数据,或收集来的统计数据,如果不经过整理,很难看出有什么规律。我们常常要根据这些数据的变化情况,按照一定的方法进行分类整理,以便找出其中的规律。数据的频数或频率分布表就是常用的方法之一。
例5.35 从学校一次数学统测的成绩中,随机抽 取30个学生的成绩如下: 例5.35 从学校一次数学统测的成绩中,随机抽 取30个学生的成绩如下: 85 90 77 71 96 68 61 83 74 80 95 87 88 76 73 83 63 81 94 82 78 88 76 82 77 79 91 72 71 66. 现在我们对数据作如下加工整理: ⑴ 找出最大值,最小值,并计算极差R R=最大值-最小值=96-61=35。 极差R反映了数据波动的幅度。
⑵ 确定分组个数k和决定组距d 为了找出数据的分布情况,我们对数据进行分组,分组的个数一般根据数据量的多少来确定,当数据量在30左右时,可分为5—6个组,随着数据量n的增加,分组的数目也逐步增加,一般k在5到15之间。如果n很大k也可以取到20。 如何确定分组的个数k没有严格的规定,一个可供参考的计算公式(Sturges公式)是 k=1+3.222lgn. 实际的分组数可以是比上面公式计算出的k大些或小些 的整数。
在本例中n=30,我们取k=6。组数确定之后便可以决定组距,一般采用等距分组,本例中组距为: 。
⑶ 确定各组区间的上、下限 在确定各组的上、下限时,应使得最低一组区间包含最小值,最高一组区间包含最大值。另外,要使得每一个数据只能落在一个组区间中,特别是当数据落在两个组区间的分界点处时,要明确规定该数据属于较高的组区间还是属于较低的组区间。 有一种简单确定各组的上,下限的办法是使得组区 间的上,下限的数值比原始数据的精确度提高一位。 例如在本例中k=6,d=6,将数据变动范围[61,96]扩大 为(60.5, 96.5)分组结果见下表。
组号 组区间 组频数 组频率 1 60.5--66.5 3 0.1 2 66.5—72.5 4 0.133 72.5—78.5 7 0.233 78.5—84.5 5 94.5—90.5 0.166 6 90.5—96.5 总计 30 1
将每组的组频数除以数据总数得到每组的组频率,即: 组频率= 它表示各组组频数占总数据个数的比例。把组频率也记在表A中。 ⑷ 统计组频数 数出数据落入各个组区间中的个数,这个数就称为各组的组频数。将各组的组频数记入表A。 ⑸ 计算组频率 将每组的组频数除以数据总数得到每组的组频率,即: 组频率= 它表示各组组频数占总数据个数的比例。把组频率也记在表A中。
2. 直方图 直方图能够非常直观 地将数据整理结果表示出来的一种方法。在平面坐标,以横轴x表示所考察的变量,纵轴y表示频数,以表A为例,在横轴上标出6个等长的区间,在纵轴上标出频数,以区间组距为底边,各组的组频数为高作矩形。就得到了频数直方图。 60.5 66.5 72.5 78.5 84.5 96.5 3 4 7 5 图5.8
如果纵轴取为频率,按上面方法作出的直方图叫作频率直方图。 如果纵轴取为频率,按上面方法作出的直方图叫作频率直方图。
三、经验分布 在前面概率论的讨论中我们总是假设随机变量的分布是已经知道的。但是在实际工作中总体X的分布往往是未知的,是需要我们去探求的。这里讲述的经验分布可以作为总体分布的一个近似。
设x1, x2,…,xn是取自分布为F(x)的总体的一个样本的观察值。我们把样本的观察值由小到大进行排列,得到: 这里x(1)是样本的观察值x1, x2,…,xn中最小的一个,x(i)是样本的观察值中第i个小的数 (i=1,2,…,n)。则:
Fn(x)称为经验分布函数。当n比较大时,Fn(x)是总体分布函数F(x) 的一个良好的近似 Fn(x)称为经验分布函数。当n比较大时,Fn(x)是总体分布函数F(x) 的一个良好的近似.在图B中我们画出容量为100 的某个样本的经验分布函数F100(x)和相应总体的 分布函数F(x)。
四、 样本均值和样本方差 数学期望和方差是描述随机变量的重要指标,我们希望从样本的信息中给出总体期望和方差的估计。 设X1,X2,…,Xn是取自总体X的一个容量为n的样本,则 称为样本均值; 以及 分别称为样本方差和样本标准差。
我们可以用样本均值和样本方差来估计总体的数学期望和方差。如果x1, x2,…,xn是一个样本观察值,那么样本方差和样本标准差的观察值 就是总体的数学期望和方差的一个估计值。
例5.36 从某高校一年级男生中任意抽取12名,测得他 们的身高如下(单位:cm):171,165,174,175, 168,164,173,178,168,170,172,173,试估计该 年级男生的平均身高,并估计其方差和标准差。 解: =(171+165+174+175+168+164+173+178+168+170+172 +173)÷12 =170.92 s2 =[(171-170.92)2+(165-170.92)2+(174-170.92)2+…+(173- 170.92)2]÷11 =16.99 s=4.12。
该年级男生的平均身高是170.92 cm;男生身高的方差是16.99,标准差是4.12。 样本均值和样本方差的计算公式比较复杂,具体计算,特别是数据比较复杂时,计算很繁锁。但是不要紧,现在大部分的计数器都有统计计算的功能,只要进入计数器的统计状态,按照规定输入数据计数器就能自动计算出和s(或s2)。具体的操作要参考各个计数器的使用说明。可见只要学会了计数器统计功能的使用,计算样本均值和样本方差还是非常方便的。
第五节 回归分析
一、回归概念 自然界中有许多现象之间存在着相互依赖,相互制约的关系。这些关系有两类,一类是函数关系,即变量之间有着确定的联系(如圆面积与圆半径的关系);另一类是相关关系,例如: 子女的身高和父母的身高; ……。 这些变量相互关连着,但是这种联系又不能由一个法则或函数来确定。例如,一般说来父母身材高的,子女的身材也高一些,但是父母的身高与子女的身高并不存在一种确定的函数关系,仅呈现出某种趋势。这种不呈现确定性关系的变量之间的关系就是相关关系。
相关关系表示变量y的变化和另一个变量x的取值有关, 但关系是不确定的。 于是人们希望通过对y和x的一组观察值(xi, yi), i=1,2,3,…,n的分析找出对它们之间关系的一种描述。这种方法就是回归分析。“回归”一词最早出自于英国生物统计学家高尔顿(Galton)。他在研究人类身高的遗传问题时分析了儿子身高的和父母身体平均高度的关系。他发现很高(很矮)的双亲的儿子们一般高于(矮于)平均值但不象他们的双亲那么高(矮),因此儿子的身高将“回归”到平均身高而不是更趋极端,这也是“回归”一词的最初的含义。
二、 一元线性回归
利用微积分的知识可以求出使Q(a,b)达到最小的a,b满足下面的线性方程组: y=a*+b*x 称为回归方程。
例5.37 某农科所为了试验某种有机综合肥料的用量 对谷物产量的影响进行了科学试验,得到以下数据: 肥料的用量: 15 20 25 30 35 40 45 谷物 产 量: 330 345 365 405 445 490 455 求回归方程并预测肥料的用量为42时谷物的产量。 解:列表计算系数: i xi yi xi2 xiyi 1 15 330 225 4950 2 20 345 400 6900 3 25 365 625 9125 4 30 405 900 12150 5 35 445 1225 15575 6 40 490 1600 19600 7 45 455 2025 20475 Σ 210 2835 7000 88775
写出法方程: 解出:a*=245.36、b*=5.3214 于是回归方程为: y=245.36+5.3214x; i xi yi xi2 xiyi 1 15 330 225 4950 2 20 345 400 6900 3 25 365 625 9125 4 30 405 900 12150 5 35 445 1225 15575 6 40 490 1600 19600 7 45 455 2025 20475 Σ 210 2835 7000 88775 解出:a*=245.36、b*=5.3214 于是回归方程为: y=245.36+5.3214x; 将x=42代入回归方程,可以得 到谷物产量的预测值为: 468.86。