引言 我们已介绍了总体、样本、简单随机样本、统计量和抽样分布的概念,介绍了统计中常用的三大分布,给出了几个重要的抽样分布定理. 它们是进一步学习统计推断的基础.
现在我们来介绍一类重要的统计推断问题 参数估计 在参数估计问题中,假定总体分布 形式已知,未知的仅仅是一个或几个 参数. 参数估计问题是利用从总体抽样得到的信息来估计总体的某些参数或者参数的某些函数. 估计新生儿的平均体重 估计废品率 估计平均降雨量 估计湖中鱼数 … …
参数估计问题的一般提法 现从该总体抽样,得样本 设有一个统计总体,总体的分布函数 向量) . 为 F(x, ),其中 为未知参数 ( 可以是 X1,X2,…,Xn 要依据该样本对参数 作出估计,或估计 的某个已知函数 . 这类问题称为参数估计.
点估计 参数估计 区间估计
假如我们要估计某队男生的平均身高. (假定身高服从正态分布 ) 现从该总体选取容量为5的样本,我们的任务是要根据选出的样本(5个数)求出总体均值 的估计. 而全部信息就由这5个数组成 . 设这5个数是: 1.65 1.67 1.68 1.78 1.69 估计 为1.68, 这是点估计. 估计 在区间[1.57, 1.84]内, 这是区间估计.
一、点估计概念及讨论的问题 例1 已知某地区新生婴儿的体重X~ … 随机抽查100个婴儿 得100个体重数据 10,7,6,6.5,5,5.2, … 而全部信息就由这100个数组成. 呢? 据此,我们应如何估计 和
,我们需要构造出适当的样本的函数T(X1,X2,…Xn),每当有了样本,就代入该函数中算出一个值,用来作为 的估计值 . 为估计 ,我们需要构造出适当的样本的函数T(X1,X2,…Xn),每当有了样本,就代入该函数中算出一个值,用来作为 的估计值 . T(X1,X2,…Xn)称为参数 的点估计量, 把样本值代入T(X1,X2,…Xn) 中,得到 的一个点估计值 .
请注意,被估计的参数 是一个 未知常数,而估计量 T(X1,X2,…Xn) 是一个随机变量,是样本的函数,当 样本取定后,它是个已知的数值,这 个数常称为 的估计值 .
问题是: 使用什么样的统计量去估计 ? 可以用样本均值; 也可以用样本中位数; 还可以用别的统计量 .
自然想到把样本体重的平均值作为总体平均体重的一个估计. 我们知道,服从正态分布 由大数定律, 样本体重的平均值 自然想到把样本体重的平均值作为总体平均体重的一个估计. 用样本体重的均值 类似地,用样本体重的方差 .
那么要问: 样本均值是否是 的一个好的估计量? 样本方差是否是 的一个好的估计量? 这就需要讨论以下几个问题: (1) 我们希望一个“好的”估计量具有什么 特性? (2) 怎样决定一个估计量是否比另一个估计 量“好”? (3) 如何求得合理的估计量?
二、估计量的优良性准则 在介绍估计量优良性的准则之前,我们必须强调指出: 评价一个估计量的好坏,不能仅仅依据一次试验的结果,而必须由多次试验结果来衡量 . 这是因为估计量是样本的函数,是随机变量 . 因此,由不同的观测结果,就会求得不同的参数估计值. 因此一个好的估计,应在多次试验中体现出优良性 .
常用的几条标准是: 1.无偏性 2.有效性 3.相合性 这里我们重点介绍前面两个标准 .
1.无偏性 估计量是随机变量,对于不同的样本值会得到不同的估计值 . 我们希望估计值在未知参数真值附近摆动,而它的期望值等于未知参数的真值. 这就导致无偏性这个标准 . . 真值 设 是未知参数 的估计量,若 则称 为 的无偏估计 .
无偏性是对估计量的一个常见而重要的要求 . 无偏性的实际意义是指没有系统性的偏差 . 例如,用样本均值作为总体均值的估计时,虽无法说明一次估计所产生的偏差,但这种偏差随机地在0的周围波动,对同一统计问题大量重复使用不会产生系统偏差 .
的大小来决定二者 和 一个参数往往有不止一个无偏估计, 若 都是参数 的无偏估计量, 比较 我们可以 谁更优 . 由于 所以无偏估计以方差小者为好, 这就引进了有效性这一概念 .
D( )< D( ) 则称 较 有效 . 都是参数 的无偏估计量,若有 设 和 2.有效性 D( )< D( ) 则称 较 有效 . 都是参数 的无偏估计量,若有 设 和 . 真值 真值 . 绿色是采用估计量 ,14组样本得到的14个估计值. 红色是采用估计量 ,14组样本得到的14个估计值.
在数理统计中常用到最小方差无偏估计. 它的定义是: 设 是取自总体X的一个样本, 是未知参数 的一个估计量, 若 满足: (1) , 即 为 的无偏估计; (2) , 是 的任一无偏估计. 则称 为 的最小方差无偏估计. (也称最佳无偏估计)
二、寻求估计量的方法 1. 矩估计法 2. 极大似然法 3. 最小二乘法 4. 贝叶斯方法 …… 这里我们主要介绍前面两种方法 .
1. 矩估计法 它是基于一种简单的“替换”思想建立起来的一种估计方法 . 是英国统计学家K.皮尔逊最早提出的 . 其基本思想是用样本矩估计总体矩 . 理论依据: 大数定律 或格列汶科定理
记总体k阶矩为 样本k阶矩为 记总体k阶中心矩为 样本k阶中心矩为 用相应的样本矩去估计总体矩的估计方法 就称为矩估计法.
设总体的分布函数中含有k个未知参数 都是这k个参数的函数,记为: ,那么它的前k阶矩 一般 i=1,2,…,k 从这k个方程中解出 j=1,2,…,k 那么用诸 的估计量 Ai分别代替上式中的诸 , 即可得诸 的矩估计量 : j=1,2,…,k
例2 设总体X的概率密度为 其中 是未知参数, X1,X2,…,Xn是取自X的样本,求参数 的矩估计. 解: 由矩法, 即为 的矩估计. 数学期望 是一阶 原点矩 由矩法, 总体矩 样本矩 的矩估计. 即为 从中解得
例3 设X1,X2,…Xn是取自总体X的一个样本 其中 >0,求 的矩估计. 解:由密度函数知 具有均值为 的指数分布 其中 >0,求 的矩估计. 解:由密度函数知 具有均值为 的指数分布 故 E(X- )= 即 E(X)= D(X)= D(X- )=
即 E(X)= D(X)= 用样本矩估计 总体矩 令 解得
矩法的优点是简单易行,并不需要事先知道总体是什么分布 . 缺点是,当总体类型已知时,没有 充分利用分布提供的信息 . 一般场合下, 矩估计量不具有唯一性 . 其主要原因在于建立矩法方程时,选取那些总体矩用相应样本矩代替带有一定的随意性 .
2. 极大似然法 是在总体类型已知条件下使用的一种参数估计方法 . 它首先是由德国数学家 高斯在1821年提出的 , 然而,这个方法常归功于 Gauss 它首先是由德国数学家 高斯在1821年提出的 , 然而,这个方法常归功于 英国统计学家费歇 . Fisher 费歇在1922年重新发现了 这一方法,并首先研究了这 种方法的一些性质 .
极大似然法的基本思想 先看一个简单例子: 某位同学与一位猎人一起外出打猎 . 一只野兔从前方窜过 . 只听一声枪响,野兔应声倒下 . 如果要你推测, 是谁打中的呢? 你会如何想呢?
你就会想,只发一枪便打中,猎人命中的概率一般大于这位同学命中的概率. 看来这一枪是猎人射中的 . 这个例子所作的推断已经体现了极大似然法的基本思想 . 下面我们再看一个例子,进一步体会极大似然法的基本思想 .
例4 设X~B(1,p), p未知.设想我们事先知道p只有两种可能: 如今重复试验3次,得结果: 0 , 0, 0 问:应如何估计p? 由概率论的知识, 3次试验中出现“1”的次数 k=0,1,2,3
估计 出现 出现 出现 出现 将计算结果列表如下: 估计 p值 P(Y=0) P(Y=1) P( Y=2) P(Y=3) 0.7 0.027 0.189 0.441 0.343 0.3 0.343 0.441 0.189 0.027 0.441 0.343 0.343 0.441 估计 估计 应如何估计p? p=0.7 或 p=0.3 k=0,1,2,3
如果有p1,p2,…,pm可供选择, 又如何合理地选p呢? 若重复进行试验n次,结果“1”出现k次 (0 ≤ k≤ n), 我们计算一切可能的 P(Y=k; pi )=Qi , i=1,2,…,m 从中选取使Qi 最大的pi 作为p的估计. 时Qi 最大, 比方说, 当 i=1,2,…,m 则估计参数p为
如果只知道0<p<1, 并且实测记录是 Y=k (0 ≤ k≤ n), 又应如何估计p呢? 注意到 =f (p) 是p的函数,可用求导的方法找到使f (p)达到 极大值的p . 但因f (p)与lnf (p)达到极大值的自变量相同,故问题可转化为求lnf (p)的极大值点 .
将ln f (p)对p求导并令其为0, =0 便得 p(n-k)=k(1-p) 从中解得 这时, 对一切0<p<1,均有
这时,对一切0<p<1,均有 则估计参数p为 以上这种选择一个参数使得实验结果具有最大概率的思想就是极大似然法的基本思想 .
极大似然估计原理: 设X1,X2,…Xn是取自总体X的一个样本,样本的联合密度(连续型)或联合概率函数(离散型)为 f (X1,X2,…Xn; ) . 当给定样本X1,X2,…Xn时,定义似然函数为: f (X1,X2,…Xn; )
似然函数: 看作参数 的函数,它可作为 将以多 f (X1,X2,…Xn; ) 大可能产生样本值X1,X2,…Xn的一种度量 . 看作参数 的函数,它可作为 将以多 大可能产生样本值X1,X2,…Xn的一种度量 . 极大似然估计法就是用使 达到最 大值的 去估计 . 称 为 的极大似然估计(MLE).
求极大似然估计(MLE)的一般步骤是: (1) 由总体分布导出样本的联合概率函数 (或联合密度); (2) 把样本联合概率函数(或联合密度)中自变 量看成已知常数,而把参数 看作自变量, 得到似然函数L( ); (3) 求似然函数L( ) 的最大值点(常常转化 为求ln L( )的最大值点) ,即 的MLE; (4) 在最大值点的表达式中, 用样本值代入 就得参数的极大似然估计值 .
两点说明: 1、求似然函数L( ) 的最大值点,可以应用微积分中的技巧。由于ln(x)是x的增函数,lnL( )与L( )在 的同一值处达到它的最大值,假定 是一实数,且lnL( ) 是 的一个可微函数。通过求解所谓“似然方程”: 可以得到 的MLE . 若 是向量,上述方程必须用似然方程 组代替 .
两点说明: 2、用上述求导方法求参数的MLE有时行不通,这时要用极大似然原则来求 .
下面举例说明如何求极大似然估计 例5 设X1,X2,…Xn是取自总体 X~B(1, p) 的一个样本,求参数p的极大似然估计. 解:似然函数为: L(p)= f (X1,X2,…Xn; p )
对数似然函数为: 对p求导并令其为0, =0 得 即为 p 的MLE .
例6 设X1,X2,…Xn是取自总体X的一个样本 其中 >0, 求 的极大似然估计. 解:似然函数为 对数似然函数为
对数似然函数为 求导并令其为0 =0 从中解得 即为 的MLE .
例7 设X1,X2,…Xn是取自总体X的一个样本 其中 >0,求 的极大似然估计. 解:似然函数为 i=1,2,…,n
解:似然函数为 i=1,2,…,n 对数似然函数为
对数似然函数为 用求导方法无法最终确定 用极大似然原则来求 . 对 分别求偏导并令其为0, =0 (1) =0 (2) 由(1)得
由于 对 且是 的增函数 取其它值时, 故使 达到最大的 即 的MLE, 是 即 为 的MLE . 于是
极大似然估计的一个性质 可证明极大似然估计具有下述性质: 设 的函数g=g( )是 上的实值函数, 且有唯一反函数 . 如果 是 的MLE,则 g( )也是g( )的极大似然估计.
例8 一罐中装有白球和黑球,有放回地抽取一个容量为n的样本,其中有 k 个白球,求罐中黑球与白球之比 R 的极大似然估计. 解: 设X1,X2,…,Xn为所取样本, 则X1,X2,…,Xn是取自B(1,p)的样本,p是每次抽取时取到白球的概率,p未知 . 先求p的MLE:
在前面例4中,我们已求得 p的MLE为 由前述极大似然估计的性质不难求得 的MLE是
最后,我们用极大似然法估计湖中的鱼数 为了估计湖中的鱼数N,第一次捕上r条鱼, 做上记号后放回. 隔一段时间后, 再捕出S 条鱼, 结果发现这S条鱼中有k条标有记号. 根据这个信息,如何估计湖中的鱼数呢? 第二次捕出的有记号的鱼数X是r.v, X具有超几何分布:
把上式右端看作N的函数,记作L(N;k) . 应取使L(N;k)达到最大的N,作为N的极大似然估计. 但用对N求导的方法相当困难, 我们考虑比值: 经过简单的计算知,这个比值大于或小于1, 或 而定 . 由
经过简单的计算知,这个比值大于或小于1, 或 而定 . 由 这就是说,当N增大时,序列P(X=k;N) 先是上升而后下降; 当N为小于 的最 大整数时, 达到最大值 . 故N的极大似然 估计为
我们介绍了参数点估计,讨论了估计量的优良性准则 . 给出了寻求估计量最常用的矩法和极大似然法 . 参数点估计是用一个确定的值去估计未 知的参数. 看来似乎精确,实际上把握不大. 为了使估计的结论更可信,需要引入区间估计.