第五章 统计量及其分布 §5.1 总体与样本 §5.2 样本数据的整理与显示 §5.3 统计量及其分布 §5.4 三大抽样分布 §5.1 总体与样本 §5.2 样本数据的整理与显示 §5.3 统计量及其分布 §5.4 三大抽样分布 §5.5 充分统计量
例5.0.1 某公司要采购一批产品,每件产品不 是合格品就是不合格品,但该批产品总有一 个不合格品率 p 。由此,若从该批产品中随 机抽取一件,用 x 表示这一批产品的不合格 数,不难看出 x 服从一个二点分布b(1 , p), 但分布中的参数 p 是不知道的。一些问题:
p 的大小如何; p 大概落在什么范围内; 能否认为 p 满足设定要求 (如 p 0.05)。
§5.1 总体与个体 总体的三层含义: 研究对象的全体; 数据; 分布
X 0 1 P 1 p p 例5.1.1 考察某厂的产品质量,以0记合格品,以1记 不合格品,则 例5.1.1 考察某厂的产品质量,以0记合格品,以1记 不合格品,则 总体 = {该厂生产的全部合格品与不合格品} = {由0或1组成的一堆数} 若以 p 表示这堆数中1的比例(不合格品率),则该 总体可由一个二点分布表示: X 0 1 P 1 p p
比如:两个生产同类产品的工厂的产品的总体 分布: 比如:两个生产同类产品的工厂的产品的总体 分布: X 1 p 0.983 0.017 X 1 p 0.915 0.085
原因在于总体的差异上! 1979年4月17日日本《朝日新闻》刊登调查报 例5.1.2 在二十世纪七十年代后期,美国消费 例5.1.2 在二十世纪七十年代后期,美国消费 者购买日产SONY彩电的热情高于购买美产 SONY彩电,原因何在? 原因在于总体的差异上! 1979年4月17日日本《朝日新闻》刊登调查报 告指出N(m, (5/3)2),日产SONY彩电的彩色浓 度服从正态分布,而美产SONY彩电的彩色浓 度服从(m5 , m+5)上的均匀分布。
图5.1.1 SONY彩电彩色浓度分布图
表5.1.1 各等级彩电的比例(%) 等级 I II III IV 美产 33.3 33.3 33.3 0 日产 68.3 27.1 4.3 0.3
5.1.2 样本 样品、样本、样本量: 样本具有两重性 一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 5.1.2 样本 样品、样本、样本量: 样本具有两重性 一方面,由于样本是从总体中随机抽取的,抽 取前无法预知它们的数值,因此,样本是随机 变量,用大写字母 X1, X2, …, Xn 表示; 另一方面,样本在抽取以后经观测就有确定的 观测值,因此,样本又是一组数值。此时用小 写字母 x1, x2, …, xn 表示是恰当的。 简单起见,无论是样本还是其观测值,样本一般均用 x1, x2,… xn 表示,应能从上下文中加以区别。
例5.1.3 啤酒厂生产的瓶装啤酒规定净含量为640 克。由于随机性,事实上不可能使得所有的啤酒 净含量均为640克。现从某厂生产的啤酒中随机 抽取10瓶测定其净含量,得到如下结果: 641, 635, 640, 637, 642, 638, 645, 643, 639, 640 这是一个容量为10的样本的观测值, 对应的总体为该厂生产的瓶装啤酒的净含量。 这样的样本称为完全样本。
例5.1.4 考察某厂生产的某种电子元件的 寿命,选了100只进行寿命试验,得到 如下数据:
表5.1.2 100只元件的寿命数据 表5.1.2中的样本观测值没有具体的数值, 只有一个范围,这样的样本称为分组样本。 表5.1.2 100只元件的寿命数据 寿命范围 元件数 寿命范围 元件数 寿命范围 元件数 ( 0 24] 4 (192 216] 6 (384 408] 4 (24 48] 8 (216 240] 3 (408 432] 4 (48 72] 6 (240 264] 3 (432 456] 1 (72 96] 5 (264 288] 5 (456 480] 2 (96 120] 3 (288 312] 5 (480 504] 2 (120 144] 4 (312 336] 3 (504 528] 3 (144 168] 5 (336 360] 5 (528 552] 1 (168 192] 4 (360 184] 1 >552 13 表5.1.2中的样本观测值没有具体的数值, 只有一个范围,这样的样本称为分组样本。
样本的要求:简单随机样本 随机性: 总体中每一个个体都有同等机会 独立性: 样本中每一样品的取值不影响其 要使得推断可靠,对样本就有要求,使样本能很好地代表总体。通常有如下两个要求: 随机性: 总体中每一个个体都有同等机会 被选入样本 -- xi 与总体X有相同的分布。 独立性: 样本中每一样品的取值不影响其 它样品的取值 -- x1, x2, …, xn 相互独立。
设总体X具有分布函数F(x), x1, x2, …, xn 为取自该总体的容量为n的样本,则样本联合分布函数为 用简单随机抽样方法得到的样本称为 简单随机样本,也简称样本。 于是,样本 x1, x2, …, xn 可以看成是 独立同分布( iid ) 的随机变量, 其共同分布即为总体分布。 设总体X具有分布函数F(x), x1, x2, …, xn 为取自该总体的容量为n的样本,则样本联合分布函数为
总体分为有限总体与无限总体 实际中总体中的个体数大多是有限的。当个体数充分大时,将有限总体看作无限总体是一种合理的抽象。 对无限总体,随机性与独立性容易实现,困难在于排除有意或无意的人为干扰。 对有限总体,只要总体所含个体数很大,特别是与样本量相比很大,则独立性也可基本得到满足。
例5.1.5 设有一批产品共N个,需要进行抽样检 验以了解其不合格品率p。现从中采取不放回 抽样抽出2个产品,这时,第二次抽到不合格 品的概率依赖于第一次抽到的是否是不合格 品,如果第一次抽到不合格品,则 P(x2 = 1 | x1 = 1) = (Np1)/(N1) 而若第一次抽到的是合格品,则第二次抽到不合格品的概率为 P(x2 = 1 | x1 = 0) = (Np)(N1)
思考: 若总体的密度函数为p(x),则其样本的(联 合)密度函数是什么? 显然,如此得到的样本不是简单随机样本。但是,当N 很大时,我们可以看到上述两种情形的概率都近似等于p 。所以当N 很大,而n不大(一个经验法则是 n N 0.1)时可以把该样本近似地看成简单随机样本。 思考: 若总体的密度函数为p(x),则其样本的(联 合)密度函数是什么?
§5.2 样本数据的整理与显示 5.2.1 经验分布函数 设 x1, x2, …, xn 是取自总体分布函数为F(x)的样本,若将样本观测值由小到大进行排列,为 x(1), x(2), …, x(n),则称 x(1), x(2), …, x(n) 为有序样本, 用有序样本定义如下函数
则Fn(x)是一非减右连续函数,且满足 Fn() = 0 和 Fn() = 1 由此可见,Fn(x)是一个分布函数, 并称Fn(x)为经验分布函数。
例5.2.1 某食品厂生产听装饮料,现从生产线上 随机抽取5听饮料,称得其净重(单位:克) 351 347 355 344 351 这是一个容量为5的样本,经排序可得有序样本: x(1)= 344, x(2)= 347, x(3)= 351, x(4)= 354, x(5)= 355
0 , x < 344 其经验分布函数为 0.2, 344 x < 347 Fn(x) = 0.4, 347 x < 351 0.8, 344 x < 347 1, x 355 由伯努里大数定律: 只要 n 相当大,Fn(x)依概率收敛于F(x) 。
更深刻的结果也是存在的,这就是格里纹科定理。 定理5.2.1(格里纹科定理) 设x1,x2,…,xn是取自 总体分布函数为F(x)的样本, Fn(x) 是其经验分 布函数,当n时,有 PsupFn(x) F(x)0 = 1 格里纹科定理表明:当n 相当大时,经验分布函数是总体分布函数F(x)的一个良好的近似。 经典的统计学中一切统计推断都以样本为依据,其理由就在于此。
5.2.2 频数--频率分布表 样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。 5.2.2 频数--频率分布表 样本数据的整理是统计研究的基础,整理数据的最常用方法之一是给出其频数分布表或频率分布表。 例5.2.2 为研究某厂工人生产某种产品的能力, 我们随机调查了20位工人某天生产的该种产品 的数量,数据如下 160 196 164 148 170 175 178 166 181 162 161 168 166 162 172 156 170 157 162 154
组距d = (最大观测值 最小观测值)/组数; 对这20个数据(样本)进行整理,具体步骤如下: (1) 对样本进行分组:作为一般性的原则,组数通 常在5~20个,对容量较小的样本; (2) 确定每组组距:近似公式为 组距d = (最大观测值 最小观测值)/组数; (3) 确定每组组限: 各组区间端点为 a0, a1=a0+d, a2=a0+2d, …, ak=a0+kd, 形成如下的分组区间 (a0 , a1] , (a1, a2], …, (ak-1 , ak] 其中a0 略小于最小观测值, ak 略大于最大观测值.
(4) 统计样本数据落入每个区间的个数——频数, 并列出其频数频率分布表。 (4) 统计样本数据落入每个区间的个数——频数, 并列出其频数频率分布表。 表5.2.1 例5.2.2 的频数频率分布表 组序 分组区间 组中值 频数 频率 累计频率(%) 1 (147,157] 152 4 0.20 20 2 (157,167] 162 8 0.40 60 3 (167,177] 172 5 0.25 85 4 (177,187] 182 2 0.10 95 5 (187,197] 192 1 0.05 100 合计 20 1
5.2.3 样本数据的图形显示 一、直方图 直方图是频数分布的图形表示,它的横坐标表示所关心变量的取值区间,纵坐标有三种表示方法:频数,频率,最准确的是频率/组距,它可使得诸长条矩形面积和为1。凡此三种直方图的差别仅在于纵轴刻度的选择,直方图本身并无变化。
二、茎叶图 把每一个数值分为两部分,前面一部分(百位和十位)称为茎,后面部分(个位)称为叶,然后画一条竖线,在竖线的左侧写上茎,右侧写上叶,就形成了茎叶图。如: 数值 分开 茎 和 叶 112 11 | 2 11 和 2
例5.2.3 某公司对应聘人员进行能力测试,测试 成绩总分为 150分。下面是50位应聘人员的测 试成绩(已经过排序): 例5.2.3 某公司对应聘人员进行能力测试,测试 成绩总分为 150分。下面是50位应聘人员的测 试成绩(已经过排序): 64 67 70 72 74 76 79 80 81 82 83 85 86 88 91 92 93 95 97 99 100 102 104 106 107 108 112 114 116 118 119 122 123 125 126 128 133 我们用这批数据给出一个茎叶图,见下页。
4 7 0 2 4 6 6 9 0 1 2 2 3 5 6 8 1 1 2 3 3 3 5 6 6 7 7 9 0 0 2 4 6 6 7 8 8 2 2 4 6 8 9 9 2 3 5 6 8 3 图5.2.3 测试成绩的茎叶图
在要比较两组样本时, 可画出它们的背靠背的茎叶图。 甲车间 6 2 0 5 6 乙车间 8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意:茎叶图保留数据中全部信息。当样本量较 大,数据很分散,横跨二、三个数量级时, 茎叶图并不适用。
§5.3 统计量及其分布 5.3.1 统计量与抽样分布 当人们需要从样本获得对总体各种参数的认识时,最好的方法是构造样本的函数,不同的函数反映总体的不同特征。 定义5.3.1 设 x1, x2, …, xn 为取自某总体的样 本,若样本函数T = T(x1, x2, …, xn)中不含有任 何未知参数。则称T为统计量。统计量的分布 称为抽样分布。
按照这一定义:若 x1, x2, …, xn 为样本, 则 以及经验分布函数Fn(x)都是统计量。而当, 2 未知时,x1, x1/ 等均不是统计量。 尽管统计量不依赖于未知参数,但是它的分布一般是依赖于未知参数的。 下面介绍一些常见的统计量及其抽样分布。
5.3.2 样本均值及其抽样分布 x x= (x1+…+xn)/n 5.3.2 样本均值及其抽样分布 定义5.3.2 设 x1, x2, …, xn为取自某总体的样本,其算术平均值称为样本均值,一般用 表示,即 x x= (x1+…+xn)/n 思考:在分组样本场合,样本均值如何计算? 二者结果相同吗?
样本均值的基本性质: 定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即 定理5.3.1 若把样本中的数据与样本均值之差 称为偏差,则样本所有偏差之和为0,即 定理5.3.2 数据观测值与均值的偏差平方和 最小,即在形如 (xic)2 的函数中, 最小,其中c为任意给定常数。
样本均值的抽样分布: x x x 定理5.3.3 设x1, x2, …, xn 是来自某个总体的样本, 为样本均值。 的精确分布为N(, 2/n) ; 若总体分布未知或不是正态分布, 但 E(x)=, Var(x)=2,则n 较大时 的渐近分 布为N(, 2/n) ,常记为 。 x xAN(, 2/n) 这里渐近分布是指n 较大时的近似分布.
5.3.3 样本方差与样本标准差 s*= s*2 定义5.3.3 称为样本方差, 称为样本标准差。 其算术平方根 5.3.3 样本方差与样本标准差 定义5.3.3 称为样本方差, s*= s*2 其算术平方根 称为样本标准差。 在n 不大时,常用 作为样本方差, 其算术平方根也称为样本标准差。
只有n1个数据可以自由变动,而第n个则不 在这个定义中, ( xi x )2 称为偏差平方和, n1称为偏差平方和的自由度。其含义是: 在 确定后, n 个偏差 x x1x, x2x, …, xnx 中 只有n1个数据可以自由变动,而第n个则不 能自由取值,因为 (xi x ) = 0 . 样本偏差平方和有三个不同的表达式: ( xix )2 = xi2 – (xi)2/n = xi2 – nx 它们都可用来计算样本方差。 思考:分组样本如何计算样本方差?
x 样本均值的数学期望和方差,以及样本方差的数学期望都不依赖于总体的分布形式。 定理5.3.4 设总体 X 具有二阶矩,即 E(x)= , Var(x)=2 , x1, x2, …, xn 为从该总体得到的样本, x 和s2 分别是样本均值和样本方差,则 E( x )=, Var( x )=2 /n, E(s2) =2
5.3.4 样本矩及其函数 bk = (xi x)k/n 称为样本k阶中心矩。 5.3.4 样本矩及其函数 样本均值和样本方差的更一般的推广是样本矩,这是一类常见的统计量。 定义5.3.4 ak = (xik)/n 称为样本 k 阶原点矩, 特别,样本一阶原点矩就是样本均值。 bk = (xi x)k/n 称为样本k阶中心矩。 特别,样本二阶中心矩就是样本方差。
就显得很不够。为此,需要一些刻画分布形状的统计量,如样本偏度和样本峰度,它们都是样本中心矩的函数。 x 当总体关于分布中心对称时,我们用 x 和 s 刻画样本特征很有代表性,而当其不对称时, 只用 就显得很不够。为此,需要一些刻画分布形状的统计量,如样本偏度和样本峰度,它们都是样本中心矩的函数。 x 和 s 定义: 1 = b3/b23/2 称为样本偏度, 2 = b4/b22 称为样本峰度。 样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度。
5.3.5 次序统计量及其分布 另一类常见的统计量是次序统计量。 x(i) 称为该样本的第i 个次序统计量,它的取值 5.3.5 次序统计量及其分布 另一类常见的统计量是次序统计量。 一、定义5.3.7 设 x1, x2, …, xn 是取自总体X的样本, x(i) 称为该样本的第i 个次序统计量,它的取值 是将样本观测值由小到大排列后得到的第 i 个 观测值。其中x(1)=minx1, x2,…, xn称为该样本 的最小次序统计量,称 x(n)=maxx1,x2,…,xn为 该样本的最大次序统计量。
例5.3.6 设总体X 的分布为仅取0,1,2的离散 均匀分布,分布列为 我们知道,在一个样本中,x1, x2,…,xn 是独立同分布的,而次序统计量 x(1), x(2),…, x(n) 则既不独立,分布也不相同,看下例。 例5.3.6 设总体X 的分布为仅取0,1,2的离散 均匀分布,分布列为 0 1 2 1/3 1/3 1/3 现从中抽取容量为3的样本,其一切可能取值有33=27种,表5.3.6列出了这些值,由此
可给出的 x(1) , x(2), x(3) 分布列如下: 0 1 2 0 1 2 0 1 2 我们可以清楚地看到这三个次序统计量的分布是不相同的。
进一步,我们可以给出两个次序统计量的联合分布,如,x(1) 和x(2) 的联合分布列为 1 2 7/27 9/27 3/27 4/27 1/27 x(1) x(2)
因为 P(x(1) = 0, x(2) = 0) =7/27 , 而 P( x(1) = 0)*P( x(2) = 0) = (19/27)*(7/27), 二者不等, 由此可看出x(1) 和 x(2)是不独立的。
二、单个次序统计量的分布 定理5.3.5 设总体X的密度函数为p(x),分布 函数为F(x), x1, x2,…, xn为样本,则第k个 次序统计量x(k)的密度函数为
例5.3.7 设总体密度函数为 p(x)=3x2, 0x1. 从该总体抽得一个容量为5的样本, 试计算 P(x(2)1/2)。 解:有两种求法:从古典概型出发;从次序统 计量密度函数出发。 例5.3.8 设总体分布为U(0,1), x1, x2,…, xn为样 本,试求第 k 个次序统计量的分布。
三、多个次序统计量的联合分布 对任意多个次序统计量可给出其联合分布,以两个为例说明: 定理5.3.6 在定理5.3.5的记号下,次序统计 定理5.3.6 在定理5.3.5的记号下,次序统计 量 (x(i), x(j)), (i j) 的联合分布密度函数为
次序统计量的函数在实际中经常用到。 如 样本极差 Rn = x(n) x(1), 样本中程 [x(n) x(1)]/2。 样本极差是一个很常用的统计量,其分布只在很少几种场合可用初等函数表示。
p1,n(y,z)=n(n1)(zy)n-2, 0 y z 1 例5.3.9 设总体分布为U(0,1), x1, x2,…, xn 为 样本,则(x(n), x(1))的联合密度函数为 p1,n(y,z)=n(n1)(zy)n-2, 0 y z 1 令 R = x(n) x(1) ,由 R 0, 可以推出 0 x(1) = x(n)R 1 R , 则 这正是参数为(n1, 2)的贝塔分布。
5.3.6 样本分位数与样本中位数 样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义: 5.3.6 样本分位数与样本中位数 样本中位数也是一个很常见的统计量,它也是次序统计量的函数,通常如下定义: 更一般地,样本p分位数mp可如下定义:
定理5.3.7 设总体密度函数为p(x),xp为其p分 位数, p(x)在xp处连续且 p(xp) 0,则 当n 时样本 p 分位数 mp 的渐近分布为 特别,对样本中位数,当n时近似地有
例5.3.10 设总体为柯西分布,密度函数为 p(x,)= 1/[(1+(x)2)] , x + 不难看出是该总体的中位数,即x0.5= 。 设 x1, x2,…, xn 是来自该总体的样本,当样本量n 较大时,样本中位数m0.5 的渐近分布为 m0.5 AN(, 2/4n) . 通常,样本均值在概括数据方面具有一定的优势。但当数据中含有极端值时,使用中位数比使用均值更好,中位数的这种抗干扰性在统计中称为具有稳健性。
5.3.7 五数概括与箱线图 次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如下五个值: 5.3.7 五数概括与箱线图 次序统计量的应用之一是五数概括与箱线图。在得到有序样本后,容易计算如下五个值: 最小观测值 xmin= x(1) , 最大观测值 xmax=x(n) , 中位数 m0.5 , 第一4分位数 Q1 = m0.25, 第三4分位数 Q3 = m0.75. 所谓五数概括就是指用这五个数: xmin , Q1 , m0.5 , Q3 , xmax 来大致描述一批数据的轮廓。
§5.4 三大抽样分布 大家很快会看到,有很多统计推断是基于正态分布的假设的,以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用,这是因为这三个统计量不仅有明确背景,而且其抽样分布的密度函数有明显表达式,它们被称为统计中的“ 三大抽样分布 ” 。
5.4.1 2 分布(卡方分布) 定义5.4.1 设 X1, X2,…, Xn, 独立同分布于标准 5.4.1 2 分布(卡方分布) 定义5.4.1 设 X1, X2,…, Xn, 独立同分布于标准 正态分布N(0,1) ,则2= X12+… Xn2的分布称 为自由度为n 的2分布,记为 2 2(n) 。 当随机变量 2 2(n) 时,对给定 (01),称满足 P(2 12(n)) 的 12(n) 是自由度为n1的卡方分布的1 分位数. 分位数 12(n) 可以从附表3 中查到。
该密度函数的图像是一只取非负值的偏态分布
5.4.2 F 分布 定义5.4.2 设X1 2(m), X2 2(n), X1与X2独立, 则称 F =(X1/m)/(X2/n) 的分布是自由度为 m 与 n 的 F分布,记为F F(m, n),其中m 称为分子自 由度,n 称为分母自由度。 当随机变量F F(m,n) 时,对给定 (01) ,称满足 P(F F1(m,n)) =1 的F1(m,n) 是自由度为m 与 n 的F 分布的1 分位数。 由 F 分布的构造知 F(n,m) = 1/F1(m,n)。
该密度函数的图象也是一只取非负值的偏态分布
5.4.3 t 分布 定义 5.4.3 设随机变量X1 与X2 独立, 且X1 N(0,1), X2 2(n), 则称 t=X1/ X2/n 的分布为自由度为n 的t 分布,记为t t(n) 。
t 分布的密度函数的图象是一个关于纵轴对称的分布,与标准正态分布的密度函数形状类似,只是峰比标准正态分布低一些尾部的概率比标准正态分布的大一些。
自由度为1的 t 分布就是标准柯西分布, 它的均值不存在; n1时, t 分布的数学期望存在且为0; n2时,t 分布的方差存在,且为n/(n2); 当自由度较大 (如n30) 时, t 分布可以用 正态分布 N(0,1)近似。
当随机变量t t(n) 时,称满足 P(t t1(n)) =1 的 t1(n) 是自由度为 n 的 t 分布的1分位数. 分位数 t1(n) 可以从附表4中查到。 譬如 n=10,=0.05,那么从附表4上查得 t10.05(10) = t0.95(10)=1.812 . 由于 t 分布的密度函数关于0 对称, 故其分位数间有如下关系 t(n1)= t1(n1)
5.4.4 一些重要结论 s2= (xix)2/(n1) 定理5.4.1 设 x1, x2,…, xn 是来自N(, 2) 的 5.4.4 一些重要结论 定理5.4.1 设 x1, x2,…, xn 是来自N(, 2) 的 样本,其样本均值和样本方差分别为 x = xi/n s2= (xix)2/(n1) 和 则有 (1) x 与 s2 相互独立; (2) x N(, 2/n) ; (3) (n1) s2/2 2(n1)。
推论5.4.3 设 x1, x2,…, xn 是来自N(1, 12) 的 样本,y1, y2,…, yn 是来自N(2, 22) 的样本, 且此两样本相互独立,则有 特别,若12 =22 ,则 F=sx2/sy2 F(m1,n1)
推论5.4.4 在推论5.4.3的记号下,设 12 =22 = 2 , 并记 则
§5.5 充分统计量 5.5.1 充分性的概念 例5.5.1 为研究某个运动员的打靶命中率,我们 对该运动员进行测试,观测其10次,发现除第 §5.5 充分统计量 5.5.1 充分性的概念 例5.5.1 为研究某个运动员的打靶命中率,我们 对该运动员进行测试,观测其10次,发现除第 三、六次未命中外,其余8次都命中。这样的 观测结果包含了两种信息: (1) 打靶10次命中8次; (2) 2次不命中分别出现在第3次和第6次 打靶上。
第二种信息对了解该运动员的命中率是没有什么帮助的。一般地,设我们对该运动员进行n 次观测,得到 x1, x2,…, xn,每个xj 取值非0即1,命中为1,不命中为0。令 T = x1+…+xn ,T为观测到的命中次数。在这种场合仅仅记录使用T 不会丢失任何与命中率 有关的信息,统计上将这种“样本加工不损失信息”称为“充分性”。 样本 x=(x1,x2,…,xn) 有一个样本分布F (x), 这个分布包含了样本中一切有关的信息。
统计量T =T (x1,x2,…,xn) 也有一个抽样分布FT(t) ,当我们期望用统计量T 代替原始样本并且不损失任何有关 的信息时,也就是期望抽样分布 FT(t) 像 F(x) 一样概括了有关 的一切信息,这即是说在统计量 T 的取值为 t 的情况下样本 x 的条件分布 F(x|T=t) 已不含 的信息,这正是统计量具有充分性的含义。
定义5.5.1 设 x1, x2, …, xn 是来自某个总体 的样本,总体分布函数为F ( x ; ),统计 量 T = T(x1, x2, …, xn) 称为 的充分统计 量,如果在给定T 的取值后,x1, x2,…, xn 的条件分布与 无关.
5.5.2 因子分解定理 充分性原则: 在统计学中有一个 基本原则-- 在充分统计量存在的场合,任何统计推断都 5.5.2 因子分解定理 充分性原则: 在统计学中有一个 基本原则-- 在充分统计量存在的场合,任何统计推断都 可以基于充分统计量进行,这可以简化统计 推断的程序。 定理5.5.1 设总体概率函数为 p(x ; ), X1, …, Xn 为样本,则 T=T(X1,… Xn) 为充分统计量的充分 必要条件是:存在两个函数g(t; )和h(x1, …, xn), 使得对任意的 和任一组观测值 x1, x2,…, xn,有 p(x1, x2,…, xn; ) =g(T(x1,x2,…,xn); )h(x1,x2,…,xn) (5.5.1)
p(x ; )= 其中g(t, )是通过统计量 T 的取值而依赖于样本的。 例5.5.4 设x1, x2, …, xn是取自总体U(0, )的样本, 即总体的密度函数为 p(x ; )= 1/ , 0 x 0 , 其他 于是样本的联合密度函数为
(1/)n, 0minximaxxi p(x1;)…p(xn;)= 0, 其它 0, 其它 由于诸xi0,所以我们可将上式改写为 p(x1;)…p(xn;) = (1/)nI x(n) 取T =x(n),并令 g(t ; )= (1/)nIt, h(x)=1, 由因子分解定理知T =x(n) 是 的充分统计量。 例5.5.5 设x1, x2, …, xn 是取自总体N(, 2)的样 本, =(, 2)是未知的,则联合密度函数为
取 t1= xi , t2= xi2, 并令 g(t1, t2, ) = (22)-n/2exp-n 2/(22) exp(t22 t1)/(22) , 其中 h(x)=1, 由因子分解定理,T=(xi , xi2) 是充分统计量。
(x, s2 ) 进一步,我们指出这个统计量与 是一一对应的,这说明在正态总体场合 常用的 ( x , s2 ) 是充分统计量。