第三章 参数估计 Parametric Estimation 数理统计课题组
本章大纲 点估计的基本概念 置信区间估计的基本概念 两种基本的点估计方法 有效估计和C-R下界 充分统计量
学习目标 参数估计解决问题的基本思想; 几种点估计方法的优缺点; 常见点估计的评价; 掌握大样本极大似然估计的近似分布; 置信区间估计的定义和常用求法; 点估计与置信区间估计的主要区别.
本章大纲 点估计的基本概念 两种基本的点估计方法 矩估计 极大似然估计 置信区间估计的基本概念 枢轴量的概念 小样本置信区间求法 多项分布的极大似然估计 极大似然估计的渐进分布 置信区间估计的基本概念 枢轴量的概念 小样本置信区间求法 极大似然估计的置信区间解法 有效估计和C-R下界 充分统计量 因子分解定理 Rao-Blackwell定理
1.点估计的基本概念(Point Estimator) 点估计: 就是由样本x1,x2,…xn确定一个统计量 用它估计总体的未知参数,称为总体参数的估计量。当具体的样本抽出后,可求得出样本统计量的值。用它作为总体参数的估计值,称作总体参数的点估计值。
2.两种基本的点估计方法 矩估计(Moment Estimator) 极大似然估计 (Maximum Likelihood estimator) 多项分布的极大似然估计 极大似然估计的渐进分布 极大似然估计的置信区间解法
2 点估计的常用方法 1) 矩估计法 设 是一随机变量, 是它的一个样本。 若 存在,则称之为 X 的 阶原点矩。记作 设 是一随机变量, 是它的一个样本。 若 存在,则称之为 X 的 阶原点矩。记作 若 存在,则称之为 X 的 阶中心矩。记作 称 为样本的 阶原点矩。 称 为样本的 阶中心矩。 矩法估计:
2 点估计的常用方法 1) 矩估计法 设 是一随机变量, 是它的一个样本。 若 存在,则称之为 X 的 阶原点矩。记作 设 是一随机变量, 是它的一个样本。 若 存在,则称之为 X 的 阶原点矩。记作 若 存在,则称之为 X 的 阶中心矩。记作 称 为样本的 阶原点矩。 称 为样本的 阶中心矩。 矩法估计:
矩估计的原理: 经验分布趋向于理论分布; 由辛钦大数定律知
例1 设某少年儿童出版社每本书发生错字的次数X服从
例2 解:
例2(续) 解得:
2 点估计的常用方法 2).极大似然估计法 设总体X的概率分布为 或概率密度为 其中 是未知参数。 如何求极大似然估计量呢?
2. 点估计的常用方法-极大似然估计
2. 点估计的常用方法-极大似然估计 含多个参数 令 最大似然解 似然方程 或
多项分布参数的极大似然估计 很多情况下, 假定一个变量X可能取m个状态,m>2,每个状态假定可能性为p1,…,pm, , 独立进行n次试验, 用Xi表示第i种状态出现的频数, X1,…,Xm会有多项分布,
例7:Hardy-Weinberg平衡定律 假定基因的频率在自然界是固定的,基因类型三类:AA,Aa,aa,它们出现的可能性为 其中 是父代为A的可能性, 是父代为a的可能性 需要给出父代 的MLE. AA Aa aa 合计 342 500 187 1029
解: 对数似然函数为
极大似然估计的理论结果 极大似然估计的分布有渐进的正态分布 极大似然估计的理论结果 极大似然估计的分布有渐进的正态分布
3.置信区间估计的基本概念 (Confidential Interval) 枢轴量的概念 小样本置信区间求法 拔靴法置信区间求法
3. 置信区间估计 置信区间估计的概念 样本 置信度1-α 使得
置信区间的含义 样本分布 区间 (X - ZX ,X + ZX ) 该随机区间以(1 - ) % 包含,以 % 不包含. 该随机区间以(1 - ) % 包含,以 % 不包含. 35
构造置信区间的一般方法 (pilot function) 1.
单一总体参数的区间估计 一.总体均值的区间估计 总体服从正态分布,σ2已知时,当 时, 根据区间估计的定义,在1-α置信度下,总体均值μ的置信区间为:
单个总体参数的区间估计 即: 从而有 即在1-α置信度下,μ的置信区间为:
注意:有很多满足置信度的置信区间 x X _ -2.58x -1.65x +1.65x +2.58x
影响到区间精度的量 1. 数据的分布离散程度 2. 样本容量 3. 置信水平 (1 - ) Measured by 1. 数据的分布离散程度 Measured by 2. 样本容量 X = / n 3. 置信水平 (1 - ) Affects Z X - ZX toX + ZX Have students explain why each of these occurs. Level of confidence can be seen in the sampling distribution. © 1984-1994 T/Maker Co.
单个总体参数的区间估计 [例8] 已知某零件的直径服从正态分布,从该批产品中随机抽取10件,测得平均直径为202.5mm,已知总体标准差σ=2.5mm,试建立该种零件平均直径的置信区间,给定置信度为0.95。 解:已知 =202.5, n=10, 1-α=0.95
单个总体参数的区间估计 即 计算结果为:[200.95,204.05]
单个总体参数的区间估计 (1) n≥30时,只需将σ2由S2代替即可. σ2未知时 中的σ用 S近似 ( 2 ) n<30时,由 所以
单个总体参数的区间估计举例 [例9]某大学从该校学生中随机抽取30人,调查到他们平均每人每天完成作业时间为120分钟,样本标准差为30分钟,试以95%的置信水平估计该大学全体学生平均每天完成作业时间。 解: 1-α=0.95 tα/2=2.04 在95%的置信度下,μ的置信区间为
单个总体参数的区间估计 二.总体方差的区间估计
单个总体参数的区间估计 所以在1-α置信度下: σ2的置信区间 总体标准差σ 的置信区间为
比例的置信区间的例子 400个毕业生中有32名进入研究生学习,构造 p 的95% 置信区间估计: R程序: p.hat=32/400 n=400 alpha=0.05 L=p.hat-qnorm(1-alpha/2,0,1)*sqrt(p.hat*(1-p.hat)/n) U=p.hat+qnorm(1-alpha/2,0,1) *sqrt(p.hat*(1-p.hat)/n) 81
1、正态: 2、比例: 样本量 由 在总体均值的区间估计时,半置信区间的宽度为: (1)总体的方差越大,需要的样本量越大。 样本量 由 在总体均值的区间估计时,半置信区间的宽度为: 1、正态: 2、比例: (1)总体的方差越大,需要的样本量越大。 (2)样本量n和置信区间长度的平方成反比。 (3)置信度越高,样本量越大。
样本量的确定 需要考虑问题: (1)要求什么样的精度?即我们想构造多宽的区间? (2)对于构造的置信区间来说,想要多大的置信度?即我们想要多大的可靠度?
估计总体均值时,样本量的确定 样本容量n与总体方差、允许误差、置信度有以下关系: 必要样本容量n 与总体方差成正比。 2.在给定的置信水平下,允许误差越大,样本容量就可以越小。 3.样本容量n与置信度成正比。
估计总体均值时,样本量的确定 [例10] 一家广告公司想估计某类商店去年所花的平均广告费有多少。经验表明,总体方差约为1 800 000。如置信度取95%,并要使估计值处在总体平均值附近500元的范围内,这家广告公司应取多大的样本? 解:已知 这家广告公司应抽选28个商店作样本(注意抽取样本数总是整数,所以n应圆整成整数)。
估计总体比例时,样本量的确定 估计总体比例时,允许误差为: 由上式可得出估计总体比例时,确定必要样本容量的公式。由于总体比率是未知的,因此要用样本比率代替
估计总体比例时,样本量的确定 [例11] 一家市场调研公司想估计某地区有健身器材的家庭所占的比例。该公司希望对p 的估计误差不超过0.05, 要求的可靠程度为95%,应取多大量的样本?没有可利用的 估计值。 解:对于服从二项分布的随机变量,当 由于 的估计值未知,我们可以采用 时,其方差达到最大值。因此,在无法得到 值时,可以用 计算。 已知: 由于 的估计值未知,可以采用 计算必要的样本量:
估计总体比例时,样本量的确定 故为了以95%的可靠度保证估计误差不超过0.05,应取385户进行调查。
注意:比例近似正态分布时所要求的样本量 n=100 p=0.1 plot(0:n,dbinom(0:n,n,p),type="h",lwd=4) lines(0:n,dnorm(0:n,n*p,n*p*(1-p)),col=3,lwd=4) title("size=100,p=0.1,density of normal and binom") n=600 plot(0:n,dbinom(0:n,n,p),type="h",lwd=4,ylim=c(0,0.13)) title("size=600,p=0.1,density of normal and binom")
两个正态总体参数的比较 一、两个总体均值之差的估计 设两总体X~N(μ1,σ12),Y~N(μ2,σ22), 由两总体分别独立的抽取容量为n1和n2的样本, ??
两个正态总体参数的比较 1.两个总体方差σ12,σ22,已知, 在1-α置信度下,μ1-μ2的置信区间为
两个正态总体参数的比较 2.两个总体方差σ12,σ22,未知, (1)σ12≠σ22,且两样本容量均≥30, 由S12和 S22分别估计σ12和σ22,即可 (2)σ12=σ22=σ2,σ2未知,
两个正态总体参数的比较 σ12≠σ22 且两样本 均很大时 由S12和 S22分别估计σ12和σ22,即可
两个正态总体参数的比较 σ12=σ22=σ2 σ2未知 在1-α置信度下,μ1-μ2的置信区间为
两个正态总体参数的比较
两个正态总体参数的比较 二 、两个总体方差比的置信区间估计 由于
两个正态总体参数的比较 在1-α置信度下,σ12∕σ22的置信区间为
两个正态总体参数的比较 三、 两个总体比例之差的区间估计 设两个总体比例分别为P1和P2,为了估计P1-P2,分别从两个总体中各随机抽取容量为n1和n2的两个随机样本,并计算两个样本的比例
两个正态总体参数的比较 其中, 在1-α置信度下,p1-p2的置信区间为
两个正态总体参数的比较 [例12]某减肥用品公司对其所作的报纸广告在两个城市的效果进行了比较,其分别从两个城市中随机抽取了800名成年人,其中看过该广告的比例分别为, , 试求:两城市中看过该广告的成年人比例之差的置信度为95%的置信区间: 解:由于n1,n2均为大样本, 1-α=0.95,μα/2=1.96
两个正态总体参数的比较 p1-p2的置信区间为 故在95%置信度下,p1-p2的置信区间为(0.011,0.049)。
4.有效估计和C-R下界 有效估计 Cramer-Rao下界
2. 衡量估计量优劣的标准 罗—克拉美不等式(Cramer-Rao) 具有最小方差 两个以上的 最小方差无偏估计量 无偏估计量 检验 一个估计量 非最佳无偏 估计量
2.衡量估计量优劣的标准 罗—克拉美不等式 对于一个无偏估计量 的方差 在分布为正则的条件下,其方差不会小于一个正数,这个正数是 的下限,它依赖于总体的概率密度函数和样本量n 即: 注:当 等于不等式右端时,这时称 为最佳 无偏估计量。
2.衡量估计量优劣的标准 [例1] 若 , 是总体均值的最优无偏估计量。 [证]
5.充分统计量的概念(Sufficiency) 因子分解定理 Rao-Blackwell定理
如何改进你的估计 (Rao-Blackwell 定理) 如果你设计了一个估计 假定T是一个充分统计量,那么 不等号成立当且仅当
4.衡量估计量优劣的标准 1).无偏性 (unbiasedness) 设 为总体未知参数 的估计量 若 设 为总体未知参数 的估计量 若 则称 是 的无偏估计量,称 具有无偏性。如果 是有偏估计量,则它的偏差为 偏差=
2.衡量估计量优劣的标准 注: , 具有无偏性。 , 对于 具有无偏性 但S不是 的无偏估计
2. 衡量估计量优劣的标准 2).一致性(consistency) 如果对任意小的正数,有 则称 是 的一致估计量,称 具有一致性,可以证明 均具有一致性。
2.衡量估计量优劣的标准 3).有效性 若 都是 的无偏估计量且 或 则称 较 为有效估计量。 的有效估计量
2 衡量估计量优劣的标准 罗—克拉美下限值为 为 的最佳无偏估计
本章小结 点估计的基本概念与常用求解方法 置信区间估计的概念与应用 两种基本的点估计方法 有效估计和C-R下界 充分统计量