第6章 数理统计基础 §6.1 数理统计的几个基本概念 §6.2 描述统计 §6.3 抽样分布
§6.1 数理统计的几个基本概念 6.1.1 总体与样本 在统计中,我们通常把研究对象的全体构成的集合称为总体(Population),而把总体的没一个元素称为个体(Individual)。 例如6.1.1 研究某厂生产的一批灯泡的质量时,该批灯泡的全体组成总体,而每个灯泡就是个体。 例如6.1.2 我们研究某校2014级学生的发育情况时,该校2014级全体学生组成总体,每个学生就是个体.
在实际问题中,人们所关心的并非总体内个体的本身,而是关心个体的某一项(或某几项)数量指标,如芯片的寿命、学生的身高、体重等.因此,应该将总体理解为“研究对象的某一(或某些)数量指标值的全体构成的集合”.由于每个个体的出现是有随机性的,所以,相应的数量指标的出现也具有随机性.从而可以把该种数量指标看作是一个随机变量(或随机向量).这样,总体就可以用一个随机变量(或随机向量)及其分布来描述.本书用 或大写字母 表示总体.
总体 根据其所包含的单位数目是否可数,可以分为有限总体或无限总体,也可以是离散型随机变量或连续型随机变量。 在统计问题中,总体的分布通常是全部或部分未知的。为了对总体的分布情况进行各种研究,就需要对总体进行抽样观察。按一定的规则抽取若干个体进行观察或试验,这种抽取过程称为抽样(sampling),所抽出的个体称为样本(sample),样本中个体的个数称为样本容量(sample size)。
由于任一抽样都具有随机性,所以容量为n的样本可以由这n个个体组成,也可以由另外n个个体组成,因而,容量为的n样本可以看作是n维随机变量 。当对样本 进行了一次观察或试验后,得到了一组具体的数值 ,此时称该组数值为样本的一组观察值,简称为样本值(sample value)。因此,样本既可看成具体的数值,又可看成随机变量(或随机向量)。在实施抽样前被看成随机变量,在实施抽样后,它是具体的数值。样本的这种既可看成数值又可看成随机变量的性质,称为样本的二重性。
我们通过对总体进行抽样所得到的样本来对总体分布中某些未知因素进行统计推断,因此,为了使抽取的样本能很好地反映总体的信息,最常用的是采取“简单随机抽样”的方法,它要求满足以下两点: (1)代表性:样本的每个分量 与所考察的总体 具有相同的分布 ; (2)独立性: 为相互独立的随机变量,也就是每个观察结果既不影响其他观察结果,也不受其他观察结果的影响。
由简单随机抽样所得到的样本称为简单随机样本,它可用与总体同分布的 个相互独立的随机变量 来表示。由于简单随机样本在实际中常被采用,所以本书以后所提到的样本在没有特别说明的情况下均指简单随机样本,又简称为样本。 由于样本彼此独立且与总体的分布相同,因此样本 的分布可以由总体 的分布函数F完全决定,即样本 的联合分布函数为
若总体是离散型随机变量,其分布列为 ( ),则 的联合分布列为 若总体 是连续型随机变量,其概率密度为 则 的联合概率密度为
例6.1.3 设总体 服从正态分布 , 是来自总体 的样本,求样本 的联合概率密度。 解: ,密度函数为 则样本 的联合概率密度为:
例6.1.4 设总体 服从两点分布 , 是来自总体 的样本,求样本 的联合分布列。 解: 的分布列为 因此, 的联合分布列为
6.1.2 经验分布函数 定义6.1.1 是来自总体 的容量为n 的样本, 是该样本的一个样本值,把这些样本值按由小到大次序排列为 ,对于任意实数 x ,定义函数 为经验分布函数(empirical distribution function),或称样本分布函数。
显然,经验分布函数 就是在抽取样本 的试验中,样本值 中小于x的频率.实际上,它是一个以等概率仅取n 个值 的离散型随机变量的分布函数,且有如下性质: ; (2) 是单调不减函数; (4) 右连续,即 。
值得注意的是,对于不同的样本值 ,我们将得到不同的经验分布函数 。所以当x 固定时, 是样本的函数,因而它也是一个随机变量。 是事件 的概率,样本分布函数 是事件 的频率.由伯努利大数定律可知,
格利汶科(W. Glivenko)进一步证明了如下定理: 定理6.1.1*(格里汶科定理)对于任一实数x,当 时, 以概率1一致收敛于总体的分布函数 ,即
例6.1.5 设从总体 中抽取容量为8的样本,得到的样本值为 试求样本的经验分布函数 。 解 把样本值按从小到大的顺序排列为 由经验分布函数的定义可知
6.1.3 统计量 1.统计量 定义6.1.2 设 是来自总体 的一个样本, 定义6.1.2 设 是来自总体 的一个样本, 是样本值, 是 的函数。如果 不含任何未知参数,则 称为统计量( statistic ),而 称为统计量的观测值。
例6.1.6 设总体 其中p>0为未知参数, 为来自总体 的一个样本,指出下列函数哪些是统计量,哪些不是统计量。 ;② ;③ ;④
解 根据统计量定义,统计量必须满足两个条件: (1)它是样本 的函数, (2)它不含任何未知参数。 在①④中,它们都是样本 的函数, 但③含未知参数p,所以①,②及④中的样 本函数都是统计量,③中的样本函数不是统计量。
例6.1.7 为来自正态总体 的一个样本,其 中 是未知参数,则 , , 都不是统计量,因为它们都含有未知参数, 而 , , 都是统计量。
2.常用统计量 设 为来自总体 的一个样本, 是样本值,数理统计中最常用的统计量及其观察值 (1)样本均值 称 为样本均值.它反映了总体均值的信息。
(2)样本方差 称 或 为样本方差.它反映了总体方差的信息。 (3)样本标准差 称 或 为样本标准差。 (4)样本(k阶)原点矩 称 为样本(k阶)原点矩,它的观测值为 显然,样本一阶原点矩就是样本均值.即 。
(5)样本k阶中心矩 称 , 为样本k阶中心矩,它的观测值为 , 值得注意的是:总体均值 是常数,而样本均值 是随机变量,这是两个不同的概念,不能混淆。当然,这两者之间有一定的关系.同样,总体方差 与样本方差 、总体矩与样本矩也是不同的概念。
若总体均值 、方差 都存在,则由样本 的独立性及与总体 的同分布性,有 由于 也具有相互独立及与 同分布性,于是
例6.1.8 设 是来自总体 的样本,且总体均值 ,总体方差 ,求 。 解 由样本的独立性、同分布性以及数学期望和方差的性质,
因 而 所以
3.次序统计量* 定义6.1.3 设 是取自总体 的一个样本,称 为第 个次序统计量,它是样本 的满足如下条件的函数:每当样本得到一组观测值 时,将它们按由小到大重新排序 第 个值 就作为统计量 的观察值,而 称为次序统计量或顺序统计量(order statistic).其中 称为最小次序统计量(minimum order statistic), 称为最大次序统计量(maximum order statistic)。
设总体 的分布函数为 ,记 和 的分布函数分别为 和 ,则
当总体 为连续型随机变量且密度函数为 时, 和 的密度函数分别为 一般地,有如下定理 定理6.1.2 设总体 的密度函数为 ,分布函数为 , 为来自总体 的样本,则第k个次序统计量 的密度函数为 (6.1.1)
例6.1.9 是取自正态总体 的容量为5的样本,求概率 和 。 解 设总体 的分布函数为 ,则随机变量 和 的分布函数分别为 , 于是,
例6.1.10 设总体 , 为来自总体 的样本,求第 个次序统计量 的密度函数。 解 由于 ,则其分布函数 及密度函数 分别为 根据(6.1. 1)式,有
§6.2 描述统计 6.2.1 频率分布直方图 为了能够从样本 大致确定总体 的概率分布,需要大量样本观测值.若总体 为离散型随机变量,则可以通过计算样本观测值 中各个分量的重复次数,从而得到总体 取这些值的频率,由伯努利大数定律,当 较大时, 取这些值的频率就可以近似地作为总体 取这些值的概率,这样就大致地得到总体 的概率分布。
对于总体 为连续型随机变量的情形,由于不能计算每个观测值的次数和频率,通常需要作出样本的频率分布直方图(简称直方图).作直方图的步骤如下: 设 是样本的 个观测值。 (1)求出 中的最小者 、最大值 以及极差 。 (2)选取常数 (略小于 )和 (略大于 ),并将区间 等分成 个互不相交的子区间 , ,…, ,…, , 每个子区间的长度(组距),
子区间的个数一般取8至15个,太多则由于频率的随机摆动而使分布显得杂乱,太少则难以显示分布的特征 子区间的个数一般取8至15个,太多则由于频率的随机摆动而使分布显得杂乱,太少则难以显示分布的特征.此外,为了方便起见,分点 应比样本 多取一位小数。 (3)计算样本观察值 落入第 个小区间 的组频数 ,组频率 以及 . (4)在 上以 为底,以 为高作小矩形,各小矩形的面积恰为 ,所有小矩形合在一起就构成了频率直方图。
例6.2.1 以下是某班60位学生“概率论与数理统计”期末考试成绩 63 76 83 91 45 81 93 30 72 80 82 83 81 76 67 84 72 58 83 64 93 63 75 99 74 76 95 91 83 61 82 85 83 44 88 72 66 94 68 78 88 71 94 85 82 79 100 90 83 88 84 48 72 80 85 80 87 76 62 96 试列出分组表,并作出频率直方图。
解 我们从这60个样本值中找出最小值为30,最大值为100,将区间等分成8个互不相交的子区间,其组距、分组表与直方图如下 组频数 组频率 1 0.02 0.0019 2 0.03 0.0037 6 0.10 0.0111 8 0.13 0.0148 16 0.27 0.0296 18 0.30 0.0333 合计 60
6.2.2 描述样本数据集中趋势的统计量 1. 算术平均值 算术平均值也称为均值(mean),是将一组数据的总和除以这组数据的个数所得的结果。 定义6.2.1 设 为来自总体 的样本, 是一组样本值,其算术平均值称为样本均值,一般用 表示,即
例6.2.2 随机抽取某班11名同学的2014年十月份的消费情况,得到的数据如下(单位:元): 890,1300,1196,980,998,980,1600,1350,1493,1400,2080, 计算这11人在十月份消费的平均值。 解
2. 分位数与中位数 定义6.2.3 设 为来自总体的一个样 本, 是其次序统计量,其观测值为 。对 ,定义 为该样本的 分位数(或 分位点)( quantile of order p)。
例如,若 ,则 若 ,则 特别,当 时,样本的分位数 称为样本中位数(median),并另记为 。 容易看出,样本中位数有一个简单的表示式
例如,若 ,则 ,若 ,则 样本中位数是反映样本位置特征的一个量,它可以用于推断总体分布的中位数和总体的对称中心,当总体分布关于某点对称时,对称中心既是总体中位数又是总体均值,此时样本中位数 也反映总体均值的信息。与样本均值相比,样本中位数不受样本中的异常值的影响,有时比样本均值更有代表性。
例6.2.3 根据例6.2.2中的数据,计算该组数据的中位数. 解 把例6.2.2中数据按由小到大重新排序为 890, 980, 980, 998, 1196, 1300, 1350, 1400, 1493, 1600, 2080, 由于 为奇数,故其中位数为 。
3. 众数 定义6.2.4 样本中出现次数最多的数据称为众数(mode),记作 。 众数代表的是最常见、最普遍的状况,是对现象集中趋势的度量,它受数据中最大或最小值变化的影响较小,从分布的角度看,众数出现的频率最高。如果样本数据中每个数出现的次数都相同,它就没有众数。如果样本数据中有两个或以上的数出现次数相同,且出现次数超过其他数的出现次数,这几个数都是众数。 例如我们有如下数据:3,4,4,5,6,6,6,8,8,8,8,10,6,则众数为6和8。
众数、中位数和平均值的关系 从分布的角度看,众数始终是一组数据分布的最高峰值,中位数是处于一组数据中间位置上的值,而平均值则是全部数据的算术平均。
6.2.3 描述样本数据分散程度统计量 定义6.2.5 设 为来自总体 的一个样 6.2.3 描述样本数据分散程度统计量 定义6.2.5 设 为来自总体 的一个样 本, 是其次序统计量,称 为样本极差,它是反映总体分布散布程度的信息,可以用于推断总体的标准差。 例如,根据例6.2.2中的数据,计算这11人十月份消费的极差为 (元) 描述样本数据分散程度的统计量还有如6.1.3节中定义的样本方差及样本标准差。
6.2.4偏度与峰度 1. 样本偏度 定义6.2.6 设 分别是样本的二阶、三阶中心矩,称统计量 为样本偏度(skewness)。 定义6.2.6 设 分别是样本的二阶、三阶中心矩,称统计量 为样本偏度(skewness)。 样本偏度 反映了总体分布密度曲线的对称信息.如果数据完全对称,显然 。数据不对称则 。这里,用 除以 是为了消除量纲的影响, 是个相对数,它很好地刻画了数据分布的偏斜方向和程度.若 表示样本对称;若 表示样本的右尾长,即样本中有几个较大的数,这反映总体是正偏的(或右偏的); 若 表示样本的左尾长,即样本中有几个较小的数,这反映总体是负偏的(或左偏的)。
2. 样本峰度 定义6.2.7 设 分别是样本的二阶、四阶中心矩,称统计量 为样本峰度(kurtosis)。 样本峰度 反映了总体分布密度曲线在其峰值附近的陡峭程度.当 时,分布曲线为正态曲线;当 时,分布密度曲线在其峰值附近比正态分布来得陡,称为尖峰型, 越大,分布密度曲线的顶端越尖峭;当 时,分布密度曲线在其峰值附近比正态分布来平坦,称为平坦型, 越小,分布密度曲线的顶端越平坦。
对于具有单峰分布的大多数数据而言,众数、中位数和平均值之间有以下关系: 如果数据的分布是对称的,众数 ,中位数 和平均值 一定相等,三者合而为一,即 ;如果数据是左偏(负偏)的,数据中的极小值会使平均值偏向较小的一方,极小值的大小虽不影响中位数,但其所占项数会影响数据的中间位置从而使中位数偏小,众数则完全不受极小值大小和位置影响,因此,一般情况下,三者的关系表现为 ;反之,如果数据是右偏(正偏)的,一般有, 。
§6.3 抽样分布 统计量是样本的函数,它是一个随机变量.统计量的分布称为抽样分布(sampling distribution).在使用统计量进行统计推断时常需要知道它的分布。当总体的分布已知时,抽样分布是确定的,但是要求出统计量的精确分布,一般来说是不容易的.下面介绍来自正态总体的几个常用的统计量的分布。
6.3.1 分布 定义6.3.1 称 服从自由度为n的 分布,如果它的密度函数为 其中 是Gamma函数,记为 y<0
分布密度函数图像是一个取非负值的偏态分布,如图6-2 图6-2 分布的概率密度
分布在数理统计中具有重要意义。 分布是由阿贝(Abbe)于1863年首先提出,后来由海尔墨特(Hermert)和现代统计学的奠基人之一的卡 分布在数理统计中具有重要意义。 分布是由阿贝(Abbe)于1863年首先提出,后来由海尔墨特(Hermert)和现代统计学的奠基人之一的卡.皮尔逊(K.Pearson)分别于1875年和1900年推导出来,是统计学中的一个非常有用的分布。
2. 分布的构造 定理6.3.1 若 相互独立,且都服从标准正态分布N(0,1),则 在上述结论中,可以认为( )是来自标准正态分布N(0,1)的一个样本,从而(6.2)式定义的 是一个统计量。自由度n表示和式 中独立变量的个数。
3. 分布的分位数 定义6.3.2 设 ,对给定的实数 ,称满足条件 的点 为 分布的上 分位数。 对不同的 与 ,分位数的值已经编制成表供查用(参见本书附表3) 图6.3 分布的上 分位点
例如,查表得 表中只给出了自由度n=45为止,当n>45时,近似地有 (6.3.2) 其中 是标准正态分布的上 分位数。利用(6.3.2)式可对n>45时的 分布上的上 分位数进行近似计算。
4. 分布的性质 (1)可加性 若 ,且 相互独立,则 证明 由 分布的构造,可设 其中 相互独立,且都服从标准正态分布N(0,1), 于是,由 分布的构造 服从 ,即
(2)期望与方差 若 ,则 证明 因为 ,于是 于是
例6.3.1 设 是来自总体 的一个样本,问当a,b为何值时, 并确定n的取值。
于是 而且 与 相互独立,所以 从而
6.3.2 分布 1. 分布的定义 定义6.3.3 称 服从自由度为n的t分布,记为 ,如果它的密度函数为 图6-4 t(n)分布的概率密度
2.t-分布的构造 定理6.3.2 若 且 与 相互独立,则 t-分布是统计学中一类重要分布,它与标准正态分布的微小差别是由英国统计学家戈赛特(Gosset)在其论文《均值的或然误差》中导出的,该论文于1908年以“Student”的笔名发表在《生物统计》上,这是统计量精确分布理论中一系列重要结果的开端。后人也称t-分布为学生氏分布,t-分布的发现在统计学上具有划时代的意义,打破了原先正态分布一统天下的局面,并开创了小样本统计推断的先河。
3. t-分布的分位数 定义6.3.4 设t~t(n),对于给定的正数 ,称满足条件 的点 为t(n)分布的上 分位数。
图6-5给出了t(n)分布的上 分位点 由t分布概率密度f(x)图形的对称性可知 书末附表4给出了t(n)分布上 分位点 的数值表,例如 当n较大(通常n>45)时, 可由标准正态分布的上 分位点 来近似代替。
4. t-分布的性质 (1)t-分布的密度函数的图像是一个关于纵轴对称的分布,且 (2)t-分布的密度函数的图像与标准正态分布的密度函数形状类似,只是峰比标准正态分布低一些,尾部的概率比标准正态分布的厚一些,实际上,当n充分大时t-分布近似于标准正态分布。即 但当n较小时t-分布与标准正态分布仍相差较大。 (3)若 ,则 。当n=1时,t-分布就是标准柯西分布,它的期望和方差不存在。
例6.3.2 设总体 和 相互独立且都服从 分布,而样本 和 分别来自 和 ,求统计量 的分布
解 由于 并且 和 相互独立,由t-分布的构造知
例6.3.3 设 为来自总体 的简单随机样本,求统计量 的分布
解 由正态分布的性质知 所以 而 由于 与 相互独立,从而由t-分布构造,有
6.3.3 分布 1. 分布的定义 定义6.3.5 称 服从自由度为 的 分布,记为 如果它的密度函数为 6.3.3 分布 1. 分布的定义 定义6.3.5 称 服从自由度为 的 分布,记为 如果它的密度函数为 其中 是两个正整数, 是分子的自由度,称为第一自由度, 是分母的自由度,称为第二自由度。
分布最早见于英国统计学家费歇尔( )1922 年发表的论文. 分布的名称由美国统计学家斯纳德柯( )在1932年引进,以纪念费歇尔的功绩。 分布经常被用来对两个样本方差进行比较.它是方差分析的一个基本分布,也被用于回归分析中的显著性检验。
2. 分布的构造 定理6.3.3 设 , 且 和 相互独立,则
图6-6 分布的概率密度 的密度函数的图像如图6.6所示,它是一个只取非负值的偏态分布。
3. 分布的分位数 定义6.3.6 设 ,对于给定的正数 ,称满足条件 的点 为 分布的上 分位数。
图6-7给出了 分布的上 分位点 其数值可查本书附表5。 图6-7 分布的上 分位点
4. 分布的性质 (1)若 则 (2)若 ,则
证明 由 分布构造可知,随机变量 与 相互独立,使得 其中 , ,而 , 并且 ,所以由 分布的定义知 即
(3)若 则 (4) 分布的上 分位数有如下的性质: 事实上,对于给定的 ,有 于是
由于 因此 就是 的上 分位点 即 这个性质常用来求 分布表中没有包括的数值。
例6.3.4 设总体 服从标准正态分布 ,是来自总体 的一个简单随机样本, 试问统计量 服从何种分布? 解 因为 且 与 相互独立, 所以 即
6.3.4 常用抽样分布 设总体 的均值为 ,方差为 , 是取自总体 的一个样本, 与 分别为该样本的样本均值与样本方差, 则 事实上
1.单正态总体的样本均值与样本方差的分布 定理6.3.4 设总体 是来 自正态总体 的一个简单样本,则 该定理的证明可由 分布的构造直接得到。 定理6.3.5 ( 定理)设总体 是来自正态总体 的一个简单样本, 分别为该样本的样本均值与样本方差, 则有
(1) ; (2) (3) 与 相互独立. 证明* 由 又 相互独立,并且与总体 同服从 由正态分 布的性质知, 这就证明了结论(1)。 记 则 其中 为单位矩阵.取一个正
交矩阵 , 令 ,由多维正态分布的性质知 仍服从 维正态分布。 经过正交变换,有
于是 由于 的正交性, 故 且有
即 的各个分量相互独立,且都服从正 态分布,其方差均为 , 的均值为 ,其余 的均值均为0。故它们相互独立,从而 与 也相互独立,这就证明了(3)成立。 由于 相互独立且同分布于 于是
推论6.3.1 设总体 是 即(2)成立. 取自 的一个样本, 分别为该样本的样本均值与样本方差, 则有 推论6.3.1 设总体 是 取自 的一个样本, 分别为该样本的样本均值与样本方差, 则有 证明 由定理6.3.5及 分布的构造知
化简上式即得 例6.3.5 设总体 为来自 总体 的一个样本,求: (1) 样本均值 的数学期望与方差; (2) 解 由于 样本容量 由 定理,有
于是 由 得 故 例6.3.6 从正态总体 中抽取容 量为 的一个样本, 为其样本方差,求 的方差 解 因为 由 定理
由 分布的方差,得 又由方差的性质, 于是
2.双正态总体的样本均值与样本方差的分布 推论6.3.2 与 为两个独 立的正态总体,分别从 和 中抽取样本 和 ,则随机变量 证明 由定理6.3.4知
且 和 相互独立,由 分布的构造知, 推论6.3.3 设 与 是两个 相互独立的正态总体, 又设 是取自总 体 的样本, 与 分别为该样本的样本均值与样 本方差。 是取自总体 的样本, 与 分 别为此样本的样本均值与样本方差。记 是 与 的加权平均, 即
则 (1) (2) (3) 当 时, 证明 (1) 由定理的条件知 和 相互独立,且
所以 即 (2) 由定理6.3.5知 且 和 相互独立,由 分布的构造得
(3) 由定理6.3.5及 分布的可加性得 由(1)知 根据 分布的构造可得,