Download presentation
Presentation is loading. Please wait.
Published byRatna Sutedja Modified 6年之前
1
第十四章 数理统计方法 §14.1 数理统计的基本概念 §14.2 参数的点估计 §14.3 区间估计 §14.4 回归分析 返回
2
§14.1 数理统计的基本概念 一、总体与样本 称研究对象的全体为总体,组成总体的每个基本单元称为个体.
§14.1 数理统计的基本概念 一、总体与样本 称研究对象的全体为总体,组成总体的每个基本单元称为个体. 在一个总体 中,抽取 个个体 ,称为总体 的一个样本,样本所含个体的数目 称为样本容量.
3
样本 是从总体 中随机抽取出来的可能结果,是 个随机变量,但在一次抽取后,它们都是具体的数值,记作 ,称为样本的观测值,简称样本值.
如果总体中每个个体被抽到的机会是均等的,并且每次抽取时总体中的成分不变,这样抽取个体的方法,称为简单随机抽样.由简单随机抽样得到的样本,称为简单随机样本.
4
简单随机样本具有以下两个性质: (1)独立性:即 中,各个随机变量的取值互不影响,这时,我们称 是相互独立的随机变量. (2)代表性:即 中的每一个都与总体X有相同的概率分布.
5
总体、个体、样本和简单随机样本比较: 直观理解 数学本质 总体 研究对象的全体 随机变量X(指某个数量指标) 个体 组成总体的每个基本单元
与总体同分布的某个随机变量Xi 样本 从总体抽出的n个个体 n个随机变量X1,X2,…,Xn 简单随机样本 重复随机抽取所得的样本 n个相互独立且与总体X同分布 的随机变量X1,X2,…,Xn
6
二、样本的数字特征 1.样本均值和样本方差 设 是总体 的容量为 的样本,则称: 为样本均值. 为样本方差.称样本方差 的算术平方根 为样本标准差.
7
对于一组样本值 ,样本均值 表示数据集中的位置,样本方差 刻划了数据对均值 的离散程度, 越大,数据越分散,波动越大; 越小,数据越集中,波动越小.
8
例1 从某总体中抽取一个容量为5的样本,测得样本值为
求样本均值和样本方差. 解 :
9
2.对总体均值和总体方差的点估计 用样本均值的观测值 作为总体均值 的估计值,用样本方差的观测值 作为总体方差 的估计值.这就是对总体均值和总体方差的点估计. 例2 某厂生产螺母,从某日的产品中随机抽取8件,量得内径的毫米数如下: 试估计该日生产的这些螺母内径的均值和标准差.
10
解 : 即螺母内径的均值估计为14.96毫米,标准差估计为0.25毫米.
11
三、统计量 1.统计量 若 是取自总体的一个样本,则称样 本的不包含任何未知参数的连续函数。 为统计量 。 如 都是统计量 。 ,
12
由于 都是随机变量,所以统计量也是 随机变量。 取定一组值 时,就得到了统计量 的一个观测值 而当 2.样本矩 设 是从总体X中抽取出来的一个样本, 称统计量。
13
为k阶样本原点矩.称统计量 为k阶样本中心矩 。 其中 是样本均值.显然,样本均值是一阶原点矩, 但样本方差不是二阶中心矩. 3.统计量的分布
14
(1) 一分布 设 是取自标准正态总体 。N(0,1)的 一个样本,则统计量 的分布密度为
15
称统计量 服从自由度为n的分布 ,记作 ~ (n)。 其中 是 Γ— 函数在 处 的函数值。 为 分布的图形与自由度n有关(见图14-1), 的点 (n)分布的上100百分位点, 其中f(t)是 (n)分布的概率密度(见图14-2). 对于给定的正数: 0< <1称满足式
16
定理14.1 设 是取自正态总体N( , ) 的一个样本,则 ① 样本均值 ~ N( , ) ② 统计量 ; ③ 与 相互独立.
17
定理14.2 设 是取自标准正态总体 N(0,1)的一个样本,则 ① ~ N(0,1/n); ② ~ (n-1); ③ 与Q相互独立.
18
例3 已知某单位职工的月奖金服从正态分布,总体均值
为200,总体标准差为40,从该总体中抽取一个容量 192~210的概率. 为20的简单随机样本, 求这一样本的均值介于 解 因为X ~ N(200,402),n=20,所以 E( )=200,D( )= 故 ~ N(200,80).因此
19
=2Φ(1.118)-1=0.8686×2-1=0.737 即样本的均值介于192~210的概率是0.737。 (2)t—分布 设X与Y是两个相互独立的随机变量,且 X~ N(0,1),Y~ (n),
20
则统计量 的概率密度为 (-∞< x <+∞) …… 称统计量 服从自由度为n的t—分布, 记作T~ t(n)。
21
t—分布的概率密度函数图形(见图14-3) 关于x=0对称, 且形状类似于正态概率密度的图形。 对于给定的正数:0< <1,称满足式 的点 为t—分布的上 百分位点, 其中 f(t)是t—分布的概率密度(见图14-4)。 定理14.3 设X1,X2,…,Xn(n≥2)是取自正态总体 N( , )的一个样本,则
22
N( , ) 定理14.4 设X与Y是两个相互独立的随机变量 , X1,X2,…,Xn1 是取自正态总体 N( , )的一个 样本,Y1,Y2,…,Yn2 是取自正态总体 的一个样本 ,则随机变量
23
其中 与 分别是两总体的样本均值 , 与 分别是 两总体的样本方差 , 与 分别是两总体的样本容量。 特别地,当 = = n 时,有
24
(3)F—分布 若随机变量X1 ~ ( ),X2 ~ ( ),且X1与X2 相互独立,则统计量 的概率密度函数为
25
称统计量 服从第一自由度为 ,第二自由 度为 的F—分布,记作F ~ F( , )即 ~ F( ,) F—分布的图形与 、 有关(见图14-5)。 对于给定的正数 :0 < <1,称满足式
26
的点 为F—分布的上 百分位点,其中 f(t)是F—分布的概率密度 (见图14-6)。 定理 设X1,X2,…,Xn1是取自正态总体 N( , )的一个样本,Y1,Y2,…, Yn2是取自 正态总体N( , )的一个样本,且X与Y相互独立 , 则随机变量 其中 与 分别是两总体的样本方差, 与 分别 是两总体的样本容量 。
27
§14.2 参数的点估计 量为参数 的一个估计量,当x1,x2,…,xn为一组 设 为总体X的待估计参数,X1,X2,…,Xn 是总体X的一个样本 。构造一个统计量 作为 参数的一个估计,称统计 就是 的一个点估计 值。 样本值时,则
28
x1,x2,…,xn为总体X的一组样本值, 样本的k阶
一、矩估计 (k=1,2,…,m)中也包含了未知参数 设总体X的分布中包含参数 , 则其分 布函数可以表示成 。 显然它的k阶原 点矩 ,即 ,又设 (k=1,2,…,m),按照“当参数等于其估计量时,总体矩等于相应的样本矩”的原则 x1,x2,…,xn为总体X的一组样本值, 样本的k阶 原点矩为
29
建立方程, 即有
30
由上面m个方程,解出m个未知参数( )就是
( )的矩估计量. 例2 设某种灯泡的寿命X ~ N( ,),其中 和 未知, 今随机抽取5只灯泡,测得寿命(单位:h)分别为 求 和 的估计值. 解 根据例1的结论,得
31
L( ,x1,x2,…,xn)= 即 和 的估计值分别为 =1492, =14762.4。 二、最大似然估计
即 和 的估计值分别为 =1492, = 。 二、最大似然估计 设x1,x2,…,xn是来自密度为f(x;)的一个样本, 是未知参数,称 f(X1; ) f(X2; ) … f(Xn; ) 为 的似然函数,记作L( ,x1,x2,…,xn),即 L( ,x1,x2,…,xn)= f(x1;)f(x 2;)…f(x n;)
32
由于样本值x1,x2,…,xn是常数,因此L是参数的函数
使似然函数L(x1,x2,…,xn; )达到最大值的估计 称为参数 最大似然估计量.记作 = (x1,x2,…,xn) 例4 设总体X的分布为指数分布,其密度为
33
L(X1,X2,…,Xn; ) = f(X1; )f(X2; )…f(Xn; ) 其中λ为未知参数.设X1,X2,…,Xn是来自总体X的
一个样本,求参数λ的最大似然估计。 解 似然函数为 L(X1,X2,…,Xn; ) = f(X1; )f(X2; )…f(Xn; ) 取对数,得 ……
34
解方程…… 故参数λ的最大似然估计量为 三、估计的评价标准 1.无偏性 定义14.1 如果参数 的估计量(X1,X2,…,Xn)满足: E( )=
35
则称 为 参数的无偏估计量 。 例7 证明 ( ,i=1,2,…,n,且 ) 是总体均值 的无偏估计量. 证 因为 所以 是 的无偏估计量. 2.有效性
36
定义14.2 若 ,都是的无偏估计,而且D( )< D( )
则称 比 更有效. 样本均值 ( i=1,2,…,n,且 , ) 与 都是总体均值的无偏估计量,验算它们的方差可知比更有效。 例9 若总体X服从泊松分布 …… k=0,1,2,…
37
对于容量为n(n>2)的样本X1,X2,…,Xn,
证明: 比 有效。 证 因为E(Xi)=λ, 所以E( )=λ,E( )=λ, 即 与 都是λ的无偏估计.但是D( )=λ/n, D( )=λ/2,所以比有效. 从上面两个评定估计量好坏的标准可知:方差最小的无
38
偏估计是一个“最佳”的估计.可以证明: N( ,),则样本均值 = 与样本方差 是总体均值 与 总体方差的最小 方差无偏估计。 率p的最小方差无偏估计;(2)若总体X服从正态分布 (1)频率 是概
39
§14.3 区间估计 一、置信区间与置信度 是各次独立的,且都遵从N(0, ) 例1 设X1,X2,…,Xn是物体长度的测量值,已知误差
§14.3 区间估计 一、置信区间与置信度 是各次独立的,且都遵从N(0, ) 例1 设X1,X2,…,Xn是物体长度的测量值,已知误差 εi(i=1,2,…,n) 其中是已知的常数,问以99%的把握可以断言长度的真值 在什么范围内?
40
解 因为测量值xi =+εi,根据期望和方差的性质,有E(xi)= ,D(xi)= D(εi),
以X1,X2,…,Xn是独立同分布的随机变量,即 Xi ~ N( , ), 于是 的点估计量 = 就服从正态分布N( , ), 由正态分布的性质可知
41
也即以0.95的概率断言不等式 成立,此不等式 这样就获得了长度真值的一个估计区间,该区间称为置信 真值 的偶然情况,出现这种偶然情况的概率有5% (即1-95%)。 就是 或写成 。 度为95%的置信区间.当然,也可能碰上这个区间不包含 完全类似,有以99%的把握(概率)断言真值 。
42
为参数 的置信度为1- 的置信 定义14.3 设X1,X2,…,Xn是分布密度为f(x;)的 一个样本, 对给定的0< <1,如果能求得两个统计量 (X1,X2,…,Xn)与 (X1,X2,…,Xn)使得 则称1- 为置信度,称区间 [(X1,X2,…,Xn), P[ (X1,X2,…,Xn)≤ ≤ (X1,X2,…,Xn)]=1- 区间.置信度简称为信度,置信度为1- 的 置信区间在 (X1,X2,…,Xn)]
43
不至于混淆时也简称为置信区间。 求置信区间的步骤如下: 1.明确问题:明确要估计的参数,确定置信度; 2.用参数的点估计,导出估计量的分布; 3.利用估计量的分布给出置信区间. 二、数学期望的区间估计 1.已知方差 ,对 期望进行区间估计 设X1,X2,…,Xn为总体N( , )的一个样本,
44
其中 未知, (已知),所以 = ~ N( , ) 即 对于给定的置信度1- ,存在 , , 使得 即所求期望的的置信度为1- 的置信区间为
45
例2 从正态总体N( ,4)中抽取容量为4的样本,
样本均值为 = =13.2.求的置信度为0.95的置信 区间。 解 因为1- =0.95,所以 =0.05,查正态分布数值表, 故, 于是
46
即 的置信度为0.95的置信区间是(9.28,17.12) 2.未知方差 ,对期望 进行区间估计 设X1,X2,…,Xn为总体N( , )的一个样本, 由于方差 未知,用 的无偏估计样本方差 来估计 , 并且由定理12.3可知
47
对于给定的置信度1- ,存在 , (见图14-8),使得 故所求期望的的置信度为1- 的置信区间为
48
例3 用某仪器测量温度,重复5次,得 , , , 若测得的数据 服从正态分布,试求温度真值所在的范围?( =0.05) 解 在总体方差未知的情况下,总体均值(温度 真值)的置信区间是
49
查t—分布表可知 计算知 = =1259, 所以
50
三、方差 的区间估计 故温度真值的置信度为0.95的置信区间是 (1244.2, 1273.8).
三、方差 的区间估计 当总体N( , )的参数未知时,方差 的置信度
51
1- 的置信区间为 (见图14-9)
52
§14.4 回归分析 由一个(或一组)非随机变量来估计或预测某一个 随机变量的观测值时,所建立的数学模型和所进行的统
§14.4 回归分析 由一个(或一组)非随机变量来估计或预测某一个 随机变量的观测值时,所建立的数学模型和所进行的统 计分析,称为回归分析 .如果这个模型是线性的 ,就称为 线性回归分析.研究两个变量间的相关关系的回归分析, 称为一元回归分析.
53
yi=f(xi )+ε 一、元线性回归分析 用以近似地描述具有相关关系的变量间的联系的 函数,称为回归函数.
由于Y与x之间不存在完全确定的函数关系,因此 必须把随机波动产生的影响考虑在内.于是模型的 一般形式为 yi=f(xi )+ε 其中Y是随机变量,x是普通变量,ε是随机项.
54
yi=f(xi)+εi(i=1,2,…,n)
若进行n次独立试验,得到变量Y与x的一组观测值 (xi,yi)(i=1,2,…,n),则有 yi=f(xi)+εi(i=1,2,…,n) 将点(xi,yi)画在平面直角坐标系中得到的图称为散 点图(见图14-10). 图14-10
55
如果所有的散点大体上散布在某一条直线附近
(见图14-11),就可以认为Y对x的回归函数的类型为 直线型,即 ,称此方程为Y对x的回归直线方程,并称其中b的为回归系数,在y的上方加“^”,是为了区别于Y的实际观测值y. 如果随机变量Y与非随机变量x之间存在着线性相关关系,则可用回归直线方程 来描述. 图14-11
56
二、最小二乘法 设n次试验得到的观测数据为(x1,y1),(x2,y2), …,(xn,yn),则有 (i=1,2,…,n) 即 (i=1,2,…,n) . 取全部误差的平方和为
57
上式中只有a,b是未知数,即Q是a,b的函数,要找出一条总的看来最接近这n个观测点的直线,就是要求出使Q取得最小值的a,b(记作 , )
上式中只有a,b是未知数,即Q是a,b的函数,要找出一条总的看来最接近这n个观测点的直线,就是要求出使Q取得最小值的a,b(记作 , ).由于平方又叫做二乘方,因此把这种使“偏差平方和为最小”的方法称为最小二乘法 .这样求得的 , 称为参数a,b的最小二乘估计. , 的求法如下
58
整理可得 解此方程组,可得 为了方便记忆,引入记号
59
例1 以家庭为单位,某种商品的月需求量与该商品价格之间的一组调查数据为
, 于是有 例1 以家庭为单位,某种商品的月需求量与该商品价格之间的一组调查数据为 价格xi(元) 2 4 4.6 5 5.2 5.6 6 6.6 7 需求量yi(千克) 3.5 3 2.7 2.4 2.5 1.5 1.2
60
将这10对数字看作平面上点的坐标画出(见图14-12),易见所有散点大体上分布在一直线的附近,因此,可设月需求量Y对价格x的回归方程为
x y 图14-12 列出回归分析表:
61
∑
62
从而 所求回归直线为
63
三、一元线性回归的相关性检验 1.相关性检验的统计假设 不能描述随机变量Y ,与非随机变量x之间的相关关系 . 在 中,如果b=0,就说明线性回归方程 所以,为了判断Y与x之间是否存在线性相关关系 ,应当提出的待检假设是 H0:b=0 2.偏差平方和的分解 只反映了x对y的影响,所以回归值
64
就是 中只受 影响的那一部分,而 就是除去 了 的影响后受其它种种因素影响的部分 ,故将 称为残差(或剩余),于是观测值 可以分解为两部分 = (回归值)+( )(残差) 将偏差平方和分解
65
可以证明 记 于是 Syy=U+Q U反映了回归值 , ,…, 的分散程度.称U为回
66
归平方和.至于Q,则是在总偏差中已分离出x对Y的线性
影响之外的其余因素所产生的误差,它反映了观测值偏 离回归直线的程度 .在 的假定下,Q 完全 是由随机项引起的,称Q为剩余平方和. 注意到
67
沿用前面的记号Sxx和Sxy,便有 3.相关性检验 Syy给定后,U,Q的大小就反映了x对y的影响程度,
68
U越大,则Q越小,x对y的影响就越大;U越小,则Q
保留前面公式 (i=1,2,…,n)中 对所做的假定,当H0:b=0成立时,统计量
69
对给定的检验水平 ,由F分布表,可查得满足
的临界值 .如果 ,就接受假设H0, 认为Y对x的线性相关关系不显著;如果 , 就否定假设H0,认为Y对x的线性相关关系显著;如果 ,亦否定假设H0,而且认为Y对x的线性相关关系 特别显著.这种检验方法称为F—检验. 4.一元线性回归分析的步骤
70
(1)列出回归分析表; (2)计算Sxx,Syy和Sxy: (3)计算U、Q的值: (4)计算统计量F的值; (5)查F分布表; (6)比较、判断. (7)在否定H0的情况下,求回归直线方程.
71
四、回归预测 当回归方程 有效时,就可以用 来预报真值y.通常假定y- ~N(0, ),这样通过 对 的估计,就会知道y- 的取值范围. 因此可用 作为 的无偏估计,记作 , 即
72
用3 准则,就有 这样估计的y值落在区间 或 内的相应概率分别近似为0.99和0.95.
73
完
74
图14-1 返回
75
图14-2 返回
76
图14-3 返回
77
图14-4 返回
78
图14-5 返回
79
图14-6 返回
80
图14-7 返回
81
图14-8 返回
82
图14-9 返回
Similar presentations