第十四章 数理统计方法 §14.1 数理统计的基本概念 §14.2 参数的点估计 §14.3 区间估计 §14.4 回归分析 返回
§14.1 数理统计的基本概念 一、总体与样本 称研究对象的全体为总体,组成总体的每个基本单元称为个体. §14.1 数理统计的基本概念 一、总体与样本 称研究对象的全体为总体,组成总体的每个基本单元称为个体. 在一个总体 中,抽取 个个体 ,称为总体 的一个样本,样本所含个体的数目 称为样本容量.
样本 是从总体 中随机抽取出来的可能结果,是 个随机变量,但在一次抽取后,它们都是具体的数值,记作 ,称为样本的观测值,简称样本值. 如果总体中每个个体被抽到的机会是均等的,并且每次抽取时总体中的成分不变,这样抽取个体的方法,称为简单随机抽样.由简单随机抽样得到的样本,称为简单随机样本.
简单随机样本具有以下两个性质: (1)独立性:即 中,各个随机变量的取值互不影响,这时,我们称 是相互独立的随机变量. (2)代表性:即 中的每一个都与总体X有相同的概率分布.
总体、个体、样本和简单随机样本比较: 直观理解 数学本质 总体 研究对象的全体 随机变量X(指某个数量指标) 个体 组成总体的每个基本单元 与总体同分布的某个随机变量Xi 样本 从总体抽出的n个个体 n个随机变量X1,X2,…,Xn 简单随机样本 重复随机抽取所得的样本 n个相互独立且与总体X同分布 的随机变量X1,X2,…,Xn
二、样本的数字特征 1.样本均值和样本方差 设 是总体 的容量为 的样本,则称: 为样本均值. 为样本方差.称样本方差 的算术平方根 为样本标准差.
对于一组样本值 ,样本均值 表示数据集中的位置,样本方差 刻划了数据对均值 的离散程度, 越大,数据越分散,波动越大; 越小,数据越集中,波动越小.
例1 从某总体中抽取一个容量为5的样本,测得样本值为 417.3 418.1 419.4 420.1 421.5 求样本均值和样本方差. 解 :
2.对总体均值和总体方差的点估计 用样本均值的观测值 作为总体均值 的估计值,用样本方差的观测值 作为总体方差 的估计值.这就是对总体均值和总体方差的点估计. 例2 某厂生产螺母,从某日的产品中随机抽取8件,量得内径的毫米数如下: 15.3 14.9 15.2 15.1 14.8 14.6 15.1 14.7 试估计该日生产的这些螺母内径的均值和标准差.
解 : 即螺母内径的均值估计为14.96毫米,标准差估计为0.25毫米.
三、统计量 1.统计量 若 是取自总体的一个样本,则称样 本的不包含任何未知参数的连续函数。 为统计量 。 如 都是统计量 。 ,
由于 都是随机变量,所以统计量也是 随机变量。 取定一组值 时,就得到了统计量 的一个观测值 而当 2.样本矩 设 是从总体X中抽取出来的一个样本, 称统计量。
为k阶样本原点矩.称统计量 为k阶样本中心矩 。 其中 是样本均值.显然,样本均值是一阶原点矩, 但样本方差不是二阶中心矩. 3.统计量的分布
(1) 一分布 设 是取自标准正态总体 。N(0,1)的 一个样本,则统计量 的分布密度为
称统计量 服从自由度为n的分布 ,记作 ~ (n)。 其中 是 Γ— 函数在 处 的函数值。 为 分布的图形与自由度n有关(见图14-1), 的点 (n)分布的上100百分位点, 其中f(t)是 (n)分布的概率密度(见图14-2). 对于给定的正数: 0< <1称满足式
定理14.1 设 是取自正态总体N( , ) 的一个样本,则 ① 样本均值 ~ N( , ) ② 统计量 ; ③ 与 相互独立.
定理14.2 设 是取自标准正态总体 N(0,1)的一个样本,则 ① ~ N(0,1/n); ② ~ (n-1); ③ 与Q相互独立.
例3 已知某单位职工的月奖金服从正态分布,总体均值 为200,总体标准差为40,从该总体中抽取一个容量 192~210的概率. 为20的简单随机样本, 求这一样本的均值介于 解 因为X ~ N(200,402),n=20,所以 E( )=200,D( )= 故 ~ N(200,80).因此
=2Φ(1.118)-1=0.8686×2-1=0.737 即样本的均值介于192~210的概率是0.737。 (2)t—分布 设X与Y是两个相互独立的随机变量,且 X~ N(0,1),Y~ (n),
则统计量 的概率密度为 (-∞< x <+∞) …… 称统计量 服从自由度为n的t—分布, 记作T~ t(n)。
t—分布的概率密度函数图形(见图14-3) 关于x=0对称, 且形状类似于正态概率密度的图形。 对于给定的正数:0< <1,称满足式 的点 为t—分布的上 100 百分位点, 其中 f(t)是t—分布的概率密度(见图14-4)。 定理14.3 设X1,X2,…,Xn(n≥2)是取自正态总体 N( , )的一个样本,则
N( , ) 定理14.4 设X与Y是两个相互独立的随机变量 , X1,X2,…,Xn1 是取自正态总体 N( , )的一个 样本,Y1,Y2,…,Yn2 是取自正态总体 的一个样本 ,则随机变量
其中 与 分别是两总体的样本均值 , 与 分别是 两总体的样本方差 , 与 分别是两总体的样本容量。 特别地,当 = = n 时,有
(3)F—分布 若随机变量X1 ~ ( ),X2 ~ ( ),且X1与X2 相互独立,则统计量 的概率密度函数为
称统计量 服从第一自由度为 ,第二自由 度为 的F—分布,记作F ~ F( , )即 ~ F( ,) F—分布的图形与 、 有关(见图14-5)。 对于给定的正数 :0 < <1,称满足式
的点 为F—分布的上100 百分位点,其中 f(t)是F—分布的概率密度 (见图14-6)。 定理14.5 设X1,X2,…,Xn1是取自正态总体 N( , )的一个样本,Y1,Y2,…, Yn2是取自 正态总体N( , )的一个样本,且X与Y相互独立 , 则随机变量 其中 与 分别是两总体的样本方差, 与 分别 是两总体的样本容量 。
§14.2 参数的点估计 量为参数 的一个估计量,当x1,x2,…,xn为一组 设 为总体X的待估计参数,X1,X2,…,Xn 是总体X的一个样本 。构造一个统计量 作为 参数的一个估计,称统计 就是 的一个点估计 值。 样本值时,则
x1,x2,…,xn为总体X的一组样本值, 样本的k阶 一、矩估计 (k=1,2,…,m)中也包含了未知参数 设总体X的分布中包含参数 , 则其分 布函数可以表示成 。 显然它的k阶原 点矩 ,即 ,又设 (k=1,2,…,m),按照“当参数等于其估计量时,总体矩等于相应的样本矩”的原则 x1,x2,…,xn为总体X的一组样本值, 样本的k阶 原点矩为
建立方程, 即有
由上面m个方程,解出m个未知参数( )就是 ( )的矩估计量. 例2 设某种灯泡的寿命X ~ N( ,),其中 和 未知, 今随机抽取5只灯泡,测得寿命(单位:h)分别为 1623 1527 1287 1432 1591 求 和 的估计值. 解 根据例1的结论,得
L( ,x1,x2,…,xn)= 即 和 的估计值分别为 =1492, =14762.4。 二、最大似然估计 即 和 的估计值分别为 =1492, =14762.4。 二、最大似然估计 设x1,x2,…,xn是来自密度为f(x;)的一个样本, 是未知参数,称 f(X1; ) f(X2; ) … f(Xn; ) 为 的似然函数,记作L( ,x1,x2,…,xn),即 L( ,x1,x2,…,xn)= f(x1;)f(x 2;)…f(x n;)
由于样本值x1,x2,…,xn是常数,因此L是参数的函数 使似然函数L(x1,x2,…,xn; )达到最大值的估计 称为参数 最大似然估计量.记作 = (x1,x2,…,xn) 例4 设总体X的分布为指数分布,其密度为
L(X1,X2,…,Xn; ) = f(X1; )f(X2; )…f(Xn; ) 其中λ为未知参数.设X1,X2,…,Xn是来自总体X的 一个样本,求参数λ的最大似然估计。 解 似然函数为 L(X1,X2,…,Xn; ) = f(X1; )f(X2; )…f(Xn; ) 取对数,得 ……
解方程…… 故参数λ的最大似然估计量为 三、估计的评价标准 1.无偏性 定义14.1 如果参数 的估计量(X1,X2,…,Xn)满足: E( )=
则称 为 参数的无偏估计量 。 例7 证明 ( ,i=1,2,…,n,且 ) 是总体均值 的无偏估计量. 证 因为 所以 是 的无偏估计量. 2.有效性
定义14.2 若 ,都是的无偏估计,而且D( )< D( ) 则称 比 更有效. 样本均值 ( i=1,2,…,n,且 , ) 与 都是总体均值的无偏估计量,验算它们的方差可知比更有效。 例9 若总体X服从泊松分布 …… k=0,1,2,…
对于容量为n(n>2)的样本X1,X2,…,Xn, 证明: 比 有效。 证 因为E(Xi)=λ, 所以E( )=λ,E( )=λ, 即 与 都是λ的无偏估计.但是D( )=λ/n, D( )=λ/2,所以比有效. 从上面两个评定估计量好坏的标准可知:方差最小的无
偏估计是一个“最佳”的估计.可以证明: N( ,),则样本均值 = 与样本方差 是总体均值 与 总体方差的最小 方差无偏估计。 率p的最小方差无偏估计;(2)若总体X服从正态分布 (1)频率 是概
§14.3 区间估计 一、置信区间与置信度 是各次独立的,且都遵从N(0, ) 例1 设X1,X2,…,Xn是物体长度的测量值,已知误差 §14.3 区间估计 一、置信区间与置信度 是各次独立的,且都遵从N(0, ) 例1 设X1,X2,…,Xn是物体长度的测量值,已知误差 εi(i=1,2,…,n) 其中是已知的常数,问以99%的把握可以断言长度的真值 在什么范围内?
解 因为测量值xi =+εi,根据期望和方差的性质,有E(xi)= ,D(xi)= D(εi), 以X1,X2,…,Xn是独立同分布的随机变量,即 Xi ~ N( , ), 于是 的点估计量 = 就服从正态分布N( , ), 由正态分布的性质可知
也即以0.95的概率断言不等式 成立,此不等式 这样就获得了长度真值的一个估计区间,该区间称为置信 真值 的偶然情况,出现这种偶然情况的概率有5% (即1-95%)。 就是 或写成 。 度为95%的置信区间.当然,也可能碰上这个区间不包含 完全类似,有以99%的把握(概率)断言真值 。
为参数 的置信度为1- 的置信 定义14.3 设X1,X2,…,Xn是分布密度为f(x;)的 一个样本, 对给定的0< <1,如果能求得两个统计量 (X1,X2,…,Xn)与 (X1,X2,…,Xn)使得 则称1- 为置信度,称区间 [(X1,X2,…,Xn), P[ (X1,X2,…,Xn)≤ ≤ (X1,X2,…,Xn)]=1- 区间.置信度简称为信度,置信度为1- 的 置信区间在 (X1,X2,…,Xn)]
不至于混淆时也简称为置信区间。 求置信区间的步骤如下: 1.明确问题:明确要估计的参数,确定置信度; 2.用参数的点估计,导出估计量的分布; 3.利用估计量的分布给出置信区间. 二、数学期望的区间估计 1.已知方差 ,对 期望进行区间估计 设X1,X2,…,Xn为总体N( , )的一个样本,
其中 未知, (已知),所以 = ~ N( , ) 即 对于给定的置信度1- ,存在 , , 使得 即所求期望的的置信度为1- 的置信区间为
例2 从正态总体N( ,4)中抽取容量为4的样本, 样本均值为 = =13.2.求的置信度为0.95的置信 区间。 解 因为1- =0.95,所以 =0.05,查正态分布数值表, 故, 于是
即 的置信度为0.95的置信区间是(9.28,17.12) 2.未知方差 ,对期望 进行区间估计 设X1,X2,…,Xn为总体N( , )的一个样本, 由于方差 未知,用 的无偏估计样本方差 来估计 , 并且由定理12.3可知
对于给定的置信度1- ,存在 , (见图14-8),使得 故所求期望的的置信度为1- 的置信区间为
例3 用某仪器测量温度,重复5次,得1250 , 1260 , 1265 ,1245 1275 .若测得的数据 服从正态分布,试求温度真值所在的范围?( =0.05) 解 在总体方差未知的情况下,总体均值(温度 真值)的置信区间是
查t—分布表可知 计算知 = =1259, 所以
三、方差 的区间估计 故温度真值的置信度为0.95的置信区间是 (1244.2, 1273.8). 三、方差 的区间估计 当总体N( , )的参数未知时,方差 的置信度
1- 的置信区间为 (见图14-9)
§14.4 回归分析 由一个(或一组)非随机变量来估计或预测某一个 随机变量的观测值时,所建立的数学模型和所进行的统 §14.4 回归分析 由一个(或一组)非随机变量来估计或预测某一个 随机变量的观测值时,所建立的数学模型和所进行的统 计分析,称为回归分析 .如果这个模型是线性的 ,就称为 线性回归分析.研究两个变量间的相关关系的回归分析, 称为一元回归分析.
yi=f(xi )+ε 一、元线性回归分析 用以近似地描述具有相关关系的变量间的联系的 函数,称为回归函数. 由于Y与x之间不存在完全确定的函数关系,因此 必须把随机波动产生的影响考虑在内.于是模型的 一般形式为 yi=f(xi )+ε 其中Y是随机变量,x是普通变量,ε是随机项.
yi=f(xi)+εi(i=1,2,…,n) 若进行n次独立试验,得到变量Y与x的一组观测值 (xi,yi)(i=1,2,…,n),则有 yi=f(xi)+εi(i=1,2,…,n) 将点(xi,yi)画在平面直角坐标系中得到的图称为散 点图(见图14-10). 图14-10
如果所有的散点大体上散布在某一条直线附近 (见图14-11),就可以认为Y对x的回归函数的类型为 直线型,即 ,称此方程为Y对x的回归直线方程,并称其中b的为回归系数,在y的上方加“^”,是为了区别于Y的实际观测值y. 如果随机变量Y与非随机变量x之间存在着线性相关关系,则可用回归直线方程 来描述. 图14-11
二、最小二乘法 设n次试验得到的观测数据为(x1,y1),(x2,y2), …,(xn,yn),则有 (i=1,2,…,n) 即 (i=1,2,…,n) . 取全部误差的平方和为
上式中只有a,b是未知数,即Q是a,b的函数,要找出一条总的看来最接近这n个观测点的直线,就是要求出使Q取得最小值的a,b(记作 , ) 上式中只有a,b是未知数,即Q是a,b的函数,要找出一条总的看来最接近这n个观测点的直线,就是要求出使Q取得最小值的a,b(记作 , ).由于平方又叫做二乘方,因此把这种使“偏差平方和为最小”的方法称为最小二乘法 .这样求得的 , 称为参数a,b的最小二乘估计. , 的求法如下
整理可得 解此方程组,可得 为了方便记忆,引入记号
例1 以家庭为单位,某种商品的月需求量与该商品价格之间的一组调查数据为 , 于是有 例1 以家庭为单位,某种商品的月需求量与该商品价格之间的一组调查数据为 价格xi(元) 2 4 4.6 5 5.2 5.6 6 6.6 7 需求量yi(千克) 3.5 3 2.7 2.4 2.5 1.5 1.2
将这10对数字看作平面上点的坐标画出(见图14-12),易见所有散点大体上分布在一直线的附近,因此,可设月需求量Y对价格x的回归方程为 x y · · · · · 图14-12 列出回归分析表:
1 2 5 10 4 25 2 4 3.5 14 16 12.25 3 4 3 12 16 9 4 4.6 2.7 12.42 21.16 7.29 5 5 2.4 12 25 5.76 6 5.2 2.5 13 27.04 6.25 7 5.6 2 11.2 31.36 4 8 6 1.5 9 36 2.25 9 6.6 1.2 7.92 43.56 1.44 10 7 1.2 8.4 49 1.44 ∑ 50 25 109.94 269.12 74.68
从而 所求回归直线为
三、一元线性回归的相关性检验 1.相关性检验的统计假设 不能描述随机变量Y ,与非随机变量x之间的相关关系 . 在 中,如果b=0,就说明线性回归方程 所以,为了判断Y与x之间是否存在线性相关关系 ,应当提出的待检假设是 H0:b=0 2.偏差平方和的分解 只反映了x对y的影响,所以回归值
就是 中只受 影响的那一部分,而 就是除去 了 的影响后受其它种种因素影响的部分 ,故将 称为残差(或剩余),于是观测值 可以分解为两部分 = (回归值)+( )(残差) 将偏差平方和分解
可以证明 记 于是 Syy=U+Q U反映了回归值 , ,…, 的分散程度.称U为回
归平方和.至于Q,则是在总偏差中已分离出x对Y的线性 影响之外的其余因素所产生的误差,它反映了观测值偏 离回归直线的程度 .在 的假定下,Q 完全 是由随机项引起的,称Q为剩余平方和. 注意到
沿用前面的记号Sxx和Sxy,便有 3.相关性检验 Syy给定后,U,Q的大小就反映了x对y的影响程度,
U越大,则Q越小,x对y的影响就越大;U越小,则Q 保留前面公式 (i=1,2,…,n)中 对所做的假定,当H0:b=0成立时,统计量
对给定的检验水平 ,由F分布表,可查得满足 的临界值 .如果 ,就接受假设H0, 认为Y对x的线性相关关系不显著;如果 , 就否定假设H0,认为Y对x的线性相关关系显著;如果 ,亦否定假设H0,而且认为Y对x的线性相关关系 特别显著.这种检验方法称为F—检验. 4.一元线性回归分析的步骤
(1)列出回归分析表; (2)计算Sxx,Syy和Sxy: (3)计算U、Q的值: (4)计算统计量F的值; (5)查F分布表; (6)比较、判断. (7)在否定H0的情况下,求回归直线方程.
四、回归预测 当回归方程 有效时,就可以用 来预报真值y.通常假定y- ~N(0, ),这样通过 对 的估计,就会知道y- 的取值范围. 因此可用 作为 的无偏估计,记作 , 即
用3 准则,就有 这样估计的y值落在区间 或 内的相应概率分别近似为0.99和0.95.
完
图14-1 返回
图14-2 返回
图14-3 返回
图14-4 返回
图14-5 返回
图14-6 返回
图14-7 返回
图14-8 返回
图14-9 返回