第六章 样本及抽样分布 简单随机抽样: 代表性: 中每一个与所考察的总 体有相同的分布。 2.独立性: 是相互独立的随机变量。
假如总体的分布函数为 简单随机样本的联合分布函数为 概率密度为:
统计量:由样本构造的一些函数,不含任何未知参数。完全由样本决定的量。 样本平均值: 样本方差:
样本标准差: 样本k阶(原点)矩: 样本k阶中心矩:
经验分布函数 定义:设 是取自总体X~F(x)的一个样本,把样本观察值从小到大排列为 称函数 为总体X的经验分布函数。
格里汶科(Glivenko)在1933年证明了以下的结果: 对于任一实数 ,当 时 以概率1一致收敛于分布函数
例:从一批标准重量为500g的罐头中,随机抽取8听,测得误差如下(单位:g): 8,-4,6,-7,-2,1,0,1 求经验分布函数,并作出图形。 解:将样本值按大小顺序排列为 -7〈-4〈-2〈0〈1=1〈6〈8 则样本经验分布函数为
抽样分布:统计量的分布称为“抽样分布”。 精确抽样分布: 总体X的分布已知,如对于任一n,都能导出统计量的明显表达式,这种分布称为精确抽样分布。它常用于小样本的统计推断问题。 渐近分布: 在样本容量n无限大时,能获得统计量的极限分布,这种分布称为渐近分布。它常用于大样本的统计推断问题。
几个常用统计量的分布 (1) 分布 设 ~N(0,1),则称统计量 服从自由度为n的 分布,记为 自由度为上式右端包含的独立变量的个数。 概率密度图形。
由 分布的可加性:设 并且 独立,则有: 分布的数学期望和方差: 若
分布的分位点: 表只详列到n=45为止。费歇曾证明,当n充分大时,近似地有:
(2)t 分布 设 且X,Y独立,则称随机变量: 服从自由度为n的t分布,记为t~t(n)。 图形关于t=0对称,当n充分大时其图形类似于标准正态概率密度的图形。
t分布的分位点: 由图形的对称性知 。
(3)F分布 设 且 独立,则称随机变量 服从自由度为 的F分布,记为
的图形。由定义可知
F分布的分位点
(4)正态总体的样本均值与样本方差的抽样分布 定理一:设 是来自正态总体 的样本, 是样本均值,则有:
定理二:设 是总体 分别是样本均值和样本方差, 的样本, , 则有: 1° 2° 与 独立。
定理三:设 是总体 的样本, 分别是样本均值和样本方差, , 则有:
定理四:设 分别是来自正态总体 的样本,且这两个样本相互独立。设 分别是这两个样本的样本均值, 分别是这两个样本的样本方差,则有
1° 2° 其中
例 设总体X服从正态分布 是来自总体X的简单随机样本,则随机变量 服从什么分布,自由度是多少。
[分析] 根据简单随机样本的性质, 相互独立,服从同分布 易见 也相互独立,并且由于 故 从而有 即 ,因此Y服从F分布,自由度为(10,5)。
第七章 参数估计 两种基本方法:点估计、区间估计。 估计量优良性常用的几条标准: 无偏心、有效性、相合性。 (1)无偏性 (2)有效性 (3)相合性
样本均值 是总体均值 的无偏估计; 样本方差 是总体方差σ2的无偏估计。 样本二阶中心矩 不是σ2的无偏估计,S也不是σ的无偏估计。
最小方差无偏估计: 为 的任一无偏估计。 寻求估计量的方法: 矩估计法 最大似然估计法
(1)矩估计法: 用样本各阶矩去估计总体各阶矩。 概率密度为 分布律为 它的前k阶矩
可以解出
以样本矩 分别代替上式中的 就有 分别作为 的估计量。
例5:设总体X的均值 都存在,且有 。但 均为未知,又设 是来自总体X的一个样本,求 的矩估计量。 解:总体一阶矩: 总体二阶矩: 由矩法,用样本矩去估计总体矩,令: =A1
解得: 所得结果表明,总体均值与方差的矩估计量的表达式不因总体分布不同而异。
总结: 矩估计法的优点是简便易行,并不需要事先知道 总体的分布; 缺点是:在总体分布类型已知的场合,没有充分 利用分布提供的信息。 一般场合下,矩估计量不具有唯一性。
(2)最大似然估计法 取值的可能范围 内挑选使似然函数 达到最大的参数值 ,作为参数 的估计值,即取 使 称为参数 由费希尔(R.A.Fisher)引进的最大似然估计法,就是固定样本观察值 ,在 取值的可能范围 内挑选使似然函数 达到最大的参数值 ,作为参数 的估计值,即取 使 称为参数 的最大似然估计值,而相应的统计量 称为参数 的最大似然估计量。
设 是来自总体X的一个样本,则 的联合密度为:
设 是相应于样本 落在点 的一个样本值,则随机点 的邻域(边长分别为 的n维立方体)内的概率近似地为 其值随 的取值而变化。与离散型的情况一样,取 的估计值 使概率取到最大值。
考虑函数: 称为样本的似然函数。若: 的最大值。这里 则称 为 的最大似然估计值,称 为 的最大似然估计量。
可从方程: 解得。 也可以从方程: 求得。从后一方程求解往往比较方便,称为对数似然方程。
例:设 是来自总体X的一个样本, 试求参数P的最大似然估计量。 解:设 是样本 的一个样本值。X的分布律为: 似然函数为: 取对数
令 解得p的最大似然估计值: p的最大似然估计量为: 这一估计量与矩估计量是相同的。
例:设 为未知参数 是来自总体X的一个样本值。求 的最大似然估计量。 解:X的概率密度为: 似然函数为:
取对数 令 解得 的最大似然估计量为: 得 它们与相应的矩估计量相同。
求最大似然估计值的一般步骤是: 由总体分布导出样本的联合分布律函数(或联合概率密 度); 2.把样本联合分布律函数(或联合概率密度)中自变量看 成已知常数,而把参数 看作自变量,得到似然函数 3.求似然函数 的最大值点(常常转化为求 的最大值点); 4.在最大值点的表达式中,用样本值代入就得参数的最 大似然估计值。
一般,用最大似然法所得的估计的性质比用矩法所得的要好,故通常多用最大似然法。
2 基于截尾样本的最大似然估计 完全样本: 由所有产品的失效时间 所组成的样本。
常用的两种截尾寿命试验: 一种是定时截尾寿命试验 此时m是一个随机变量,所得的样本 称为定时截尾样本。 2. 另一种是定数截尾寿命试验 所得的样本 称为定数截尾样本。
3 区间估计 有二个要求: 要求 以很大的可能被包含在区间 内,即:概率 要尽可能大。 2.估计的精度要尽可能高,即要求区间的长度 3 区间估计 有二个要求: 要求 以很大的可能被包含在区间 内,即:概率 要尽可能大。 2.估计的精度要尽可能高,即要求区间的长度 尽可能小。
置信区间: 称随机区间 是 的置信水平为 的置信区间。 分别称为双侧置信区间的置信下限 和置信上限, 称为置信水平。
可以得到未知参数的任何置信水平小于1的置信区 间 置信水平愈高,相应的区间平均长度愈长(在 同样的样本容量下)。 在同样的置信水平下,样本容量愈大,区间平均长 度愈短。
求置信区间的步骤如下: 明确问题,求什么参数的置信区间?置信水平 是多少? 2.寻找参数的一个良好的点估计W。 3.寻找(或构造)一个待估参数θ和估计量W的函数 S(W, θ),其分布为已知,并且不依赖于任何未知数。 称S(W, θ)为枢轴量。如
4. 对于给定的置信水平 ,根据S(W, θ)的 分布,确定常数a,b使得 5.对“ ”作等价变形,得到如下形式: 就是参数 的置信水平为 则 就是参数 的置信水平为 的置信区间。
4 正态总体均值与方差的区间估计 (一)单个总体 的情况 1°均值 的置信区间 (1) 为已知
(2) 为未知 考虑到 是 的无偏估计,将上式中的 换成 ,取枢轴量 对给定的置信水平 ,查t分布分位数表的 使
即 于是,得到了 的一个置信水平为 的置信区间 或 在实际问题中,总体方差 未知的情况居多。
(3)总体分布未知,但样本容量n很大 此时由中心极限定理,知 近似服从N(0,1) 因此若总体方差 已知时,得到 的一个置信水平为 的近似置信区间 但 一般未知,用S近似代替,这样得到 的一个置信水平为 的近似置信区间
的置信区间 的置信区间。 2°方差 为总体 的样本, 例:设 未知,求参数 的置信水平为 解: 的无偏点估计为样本方差S2。已知 对给定的置信水平 ,查 分布上 分位点表可得
即 得到方差 的一个置信水平为 的置信区间 标准差 的一个置信水平为 的置信区间
(二)两个总体 的情况 1°两个总体均值差 的置信区间
具体步骤为: (1) 两总体均为正态, 已知。 设 分别为 , 的无偏估计,故 的无偏估计量是 由 的独立性以及 得: 或
对给定的置信水平1— ,查标准正态分布函数表得 使 即得 的一个置信水平为1— 的置信区间:
(2) 两总体均为正态, 但 为未知。 其中, 从而可得 的一个置信水平为1— 的置信区间为:
(3) 两总体分布未知,但 很大。 用 去估计 根据中心极限定理,近似有 类似可得 的一个置信水平为1— 的近似置信区间为:
2°两个总体方差比 的置信区间 由第六章定理四: 不依赖任何未知参数。由此得: 即:
6 单侧置信区间 对于任意 满足 随机区间 是 的置信水平为 的单侧置信区间, 称为 的置信水平为 的单侧置信下限。
又若统计量 ,对于任意 满足 称随机区间 是 的置信水平为 的单侧置信区间, 称为 的置信水平为 的单侧置信上限。
第八章 假设检验 具体有两类假设检验问题: (1)对参数的假设检验。 (2)对总体分布的假设检验。 假设检验中的概率反证法的逻辑是:假设原假设成立,如果小概率事件在一次试验中发生,就可以有很大的把握否定原假设。
假设检验的一般步骤: (1)提出原假设 及备择假设(对立假设) (2)选取一个适当的统计量T,在 成立的条件下 求出它的分布(或近似分布); (3)根据给定显著性水平 ,求出拒绝域C; (4)算出统计量T的实测值,将实测值与拒绝域对照 ,若实测值落入拒绝域,则否定原假设 否则,就认为差异不显著而不能否定原假设。
两类错误及其概率 第一类错误: 第二类错误:
显著性检验 控制犯第1类错误的概率,使它不大于 ,而不考虑犯第II类错误的概率的检验,称为显著性检验。 不管在什么情况下,为了保证 不致太大, 样本容量 都不应太小。
的拒绝域分别在两侧。在上述例1中,拒绝域为 双侧检验与单侧检验 假设检验 其中, 表示 可能大于 ,也可能小于 ,这类检验 的拒绝域分别在两侧。在上述例1中,拒绝域为 (- ,- ),( ), ,+ 称这类假设检验为双侧假设检验。 在很多情况下,会提出如下形式的原假设: 对应的备择假设是 称这类假设检验为单侧假设检验或单边假设检验。
正态总体均值、方差的检验法(显著性水平为 ) 原假设H0 检验统计量 备择假设H1 拒绝域
原假设H0 检验统计量 备择假设H1 拒绝域
例题: 例1:某种元件的寿命X(以小时计)服从正态分布 均未知。现测得16只元件的寿命如下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于225(小时)?( ) 解:检验假设(原假设取与题意相反的假设) 因为 均未知,用t检验法,其拒绝域为:
算得 即有: t没有落在拒绝域中,故接受H0,即认为元件的平均寿命不大于225小时。
3 分布拟合检验 皮尔逊的 检验法 专用于检验分布是否为正态的“偏度、峰度检验法”。
检验法 (一) 检验法是在总体的分布未知时,根据它的n个样本 来检验总体分布假设的一种方法。 原假设为: 总体X的分布函数为 总体X的分布函数不是 (可以不写出) 若总体X为离散型,则 :总体X的分布律为 若总体X为连续型,则 总体X的概率密度为
分布拟合的 检验法基本思想和步骤如下: (1)将总体X的可能取值范围或全体 分成k个互不重迭 的小区间或子集,记作 (2)把落入第i个小区间 的样本值的个数记作 称为实测频数。所有实测频数之和 等于样本 容量n。 (3)当 为真时,可以根据 所假设的X的分布函数来 计算事件 的概率,得到 ,于是 就是落入 的样本值的理论频数。
显然,实测频数 与理论频数 之间的差标志着 经验分布与理论分布之间的差异的大小。 皮尔逊引进了如下统计量表示经验分布与理论分布之间的差异: 其中 是随机变量,在理论分布已给定的情况下, 是常量。
皮尔逊证明了如下定理: 如原假设中的理论分布 已经完全给定,那么当 时,统计量 = = 的分布近似服从 个自由度的 分布。
如果理论分布 中有r个未知参数,则需用相应的 估计量来代替(一般用最大似然估计值来代替)。那么当 时,统计量 的分布近似服从 个自 由度的 分布。 根据这个定理,对于给定的显著性水平 ,查 分布分位数表可得临界值 ,使得 即 为小概率事件。 得拒绝域为
注意,皮尔逊定理是在n无限大时推导出来的,因而在使用时要注意n要足够大以及 不太小这两个条件。 根据计算实践经验,要求 ,以及每一个 都不小于5。 否则应适当合并区间,使 满足这个条件。
第九章 回归分析与方差分析 1.一元线性回归分析 回归分析就是研究相关关系的一种重要的数理统计方法。即从数量的角度去研究这种关系。 一元回归分析:在回归分析中,变量只有两个; 多元回归分析:变量在二个以上; 线性回归:变量间呈线性关系; 非线性回归:变量间不具有线性关系。
(一)一元线性回归 对一组X的值 作独立观察,得到随机变量 Y相应的观察值 ,构成n对数据。 这n对数据可作出一个散点图,可直观地描述两变量之间的关系。根据散点图,有以下几个问题: (1)两变量之间的关系是否密切,或者说能否由X来估 计Y; (2)两变量之间的关系是呈一条直线还是某种曲线; (3)是否存在其他规律。
实际中常假定 服从正态分布 ,即 通常称 (1.1) 为一元线性回归模型。 上式表明,Y由两部分组成: 一部分是x的线性函数 另一部分 是随机误差,是人们不可控制的。
回归方程:
n次独立 观察,得一样本: 对应的样本值记为: 该样本的构造可由方程 来描述,这里, 是第i次观察时随机误差所取的值, 它是不能观察的。
回归分析的任务是利用n组独立观察数据 来估计a和b,以估计值的 代替a,b, 得回归方程 称其为经验回归方程。
1.用最小二乘法估计 偏差的平方和 最小二乘法认为 :寻找 ,使上述平方和达到最小。 这就是最小二乘法的基本思想。
对 作了n次观察或试验,得到n对数据 找一条直线 尽可能地拟合这些数据。 当 取值 时, 应取值 而实际观察到的为 ,这样,形成了偏差(图)
它是所有实测值 与回归值 的偏差平方和。 设法求出 的估计值 ,使 达到最小,由此 得到的回归直线 是在所有直线中 最小的一条。 根据最小二乘法思想,类似地提出了如下的目标量 它是所有实测值 与回归值 的偏差平方和。 设法求出 的估计值 ,使 达到最小,由此 得到的回归直线 是在所有直线中 最小的一条。
用求极值法,求出使 达到最小的 。即解方程 得 (1.8) 其中: 得到回归方程
求出回归方程 问题尚未结束。 (1)回归方程是否有意义?即 的变化是否真的对 有影响?因此,要对回归效果作出检验。 (2)如果方程真有意义,用它预测 时,预测值与真值 的偏差能否估计?
2.回归方程的显著性检验 对任意的一组观察值 ,都可以用 最小二乘法,形式上求得 对 的回归方程。 如果 与 没有线性关系,这种形式的回归 方程就没有意义。 因此,需要考察 是否确有线性关系,这就是 与 回归效果的检验问题。
回归平方和 与残差平方和 反映了由于 的变化引起的 的差异,体现了 对 的影响; 反映了自变量以外的随机因素对 的影响。 为 的影响部分与随机因素影响部分的比值; 若它不是显著地大,表明所选的 并不是一个重要的 因素,它的作用与随机因素的作用相当,于是得到的回归方程就没有意义。
的作用是显著地比随机因素大, 这样方程才有意义。 关于回归方程的显著性检验问题 b是否等于0的检验问题 可以证明,当 的关系中b=0时,有 如果它显著地大,表明 的作用是显著地比随机因素大, 这样方程才有意义。 关于回归方程的显著性检验问题 b是否等于0的检验问题 可以证明,当 的关系中b=0时,有
用 来检验b的绝对值是否大于0;或者说检验回归方程 是否有意义。 给定显著性水平 ,查F分布分位数表,求出否定域, 便可判断回归方程是否有意义。即要检验假设 检验统计量为
拒绝域为
也可用t检验法来检验回归方程是否有意义,假设 又 且 与 独立(见附录5°),故有 即 这里
当H0为真时b=0,此时 即得H0的拒绝域为 被拒绝时,认为回归效果是显著的,反之, 当假设 就认为回归效果不显著。
3. 预测( 的估计) 当检验认为回归方程确有意义,则可用来预测或控制。 我们无法确切知道 的值。因此,只能估计 的范围。通常假定 这样通过对 的估计,就可知道 的取值范围。 假定 是在模型 的条件下进行的一次试验结果,可以证明 有:
于是 因此, 给定的置信水平 ,有 的置信区间为 其中
根据书上(用相关系数检验法),也有 即 ,有 给定置信水平
置信区间 其中 让 ( 换为 )变动,有: 或
事实上,当n很大且 靠近 时,有 ,用正态分布的性质有 即 服从 或 作为实际应用时的近似预报。
4.可线性化的一元非线性回归 两个变量之间并不一定是线性关系,而是某种曲线关系。应该用曲线来拟合。 用适当的变量代换,把它线性化。 具体做法是: 根据观察值 画出散点图,通过散点图与常见曲线进行比较,经验地选择曲线类型。
以下几种曲线都可以通过变量代换转化为线性回归: (1)指数函数: (2)幂函数: (3)双曲线: 或 (4)对数函数:
解题步骤: (1)若在原模型下,例如在原模型 下,对于 有样本 下的样本 其中 (3)利用上节的方法来估计 或对Y进行预测。 (2)求出在新模型 下的样本 其中 (3)利用上节的方法来估计 或对Y进行预测。 (4)在得到Y关于 的回归方程后,再将原自变量 代回,就得到Y关于 的回归方程。它的图形是一条 曲线,也称为曲线回归方程。
2 多元线性回归 在实际问题中,随机变量Y往往与多个普通变量 有关,研究这类关系问题称为多元回归问题。
3 单因素试验的方差分析 名词:试验指标、因素、单因素试验、水平 设不同水平Aj下 的样本之间相互独立。 其中 与 均为未知参数。称为单因素试验 方差分析的数学模型。
方差分析的任务是对模型: 1°检验s个总体 的均值是否相等, 即检验假设 (3.2) 不全相等。 2°作出未知参数 的估计。 3°求出 的区间估计。
模型可改写成: (3.1)′ 假设等价于假设 (3.2)′
(二)平方和的分解 总偏差平方和: 其中
总偏差平方和的分解: (3.8) 其中 (3.9) (3.10) (3.7) (即水平 下的样本平均值)
与 的比值反映了两种差异所占的比重,若 的比值越大,说明因素的各个水平不同引起的差异显著。 问: 的比值大到什么程度,可以否定 ? 因此,统计量 可用来检验因素的效应是否显著。
(四)假设检验问题的拒绝域 拒绝域具有形式 当H0为真时
上述分析的结果可排成表9.5的形式,称为方差分析表。 由此得检验问题(3.2)′的拒绝域为 (3.20) 如果 ,则拒绝 ,此时说明因素对指标起显著影响; 如果 ,此时说明因素A的不同水平对结果 ,则接受 影响不显著。 上述分析的结果可排成表9.5的形式,称为方差分析表。
表9.5 单因素试验方差分析表 方差来源 平方和 自由度 均方 F值 因素A SA s-1 误 差 SE n-s 总 和 ST n-1 表中 分别称为SA,SE的均方。
4 双因素试验的方差分析 影响试验结果的因素不止一个,要用双因素或 多因素的方差分析; 确定哪些因素是主要的,它们对试验结果的影 响是否显著; 它们之间是否有交互作用。
(一)双因素等重复试验(有交互作用)的方差分析 设有两个因素A,B作用于试验的指标。 因素A有r个水平 因素B有s个水平 对因素 A,B的水平的每对组合(Ai,Bj), 都作t (t≥2)次试验(称为等重复试验),得到如下结果
因素B 因素A B1 B2 … Bs A1 A2 Ar
设: 各 独立, 均为未知参数。或写成: (4.1)
(4.1)可写成 (4.5) 其中 都是未知参数。(4.5)式就是 双因素试验方差分析的数学模型。
对于这一模型要检验以下三个假设: (4.6) (4.7) (4.8)
总偏差平方和(称为总变差) ST写成: 即得平方和的分解式: (4.9)
SE称为误差平方和,SA,SB分别称为因素A、因素B的效应平方和, 其中 (4.10) (4.11) (4.12) (4.13) SE称为误差平方和,SA,SB分别称为因素A、因素B的效应平方和, 称为A,B交互效应平方和。
可以证明 的自由度依次为 且有: (4.14) (4.15) (4.16)
当 为真时,可以证明 取显著性水平为 ,得假设 的拒绝域为 类似地,在显著性水平 下,假设H02的拒绝域为 (4.17) (4.18) (4.19) 类似地,在显著性水平 下,假设H02的拒绝域为 (4.20)
在显著性水平 下,假设H03的拒绝域为 (4.21) 上述结果可汇总成下列的方差分析表:
表9.9 双因素试验的方差分析表 方差来源 平方和 自由度 均 方 F 值 因素A SA r-1 因素B SB s-1 交互作用 SA×B (r-1)(s-1) 误 差 SE rs(t-1) 总 和 ST rst-1
(二)双因素无重复试验的方差分析 为要检验交互作用的效应是否显著,对于两个因素的每一组合 至少要做2次试验。 如果已经知道不存在交互作用,或交互作用对试验的指标影响很小,则可以不考虑交互作用,减少试验次数。也能对因素A、因素B的效应进行分析。现设对于两个因素的每一组合 只做一次试验,所得结果 如下:
因素B 因素A …
设 其中 各 独立, 均为未知参数,或写成 (4.23)
这就是双因素无重复试验要研究的方差分析的模型。 现在假设不存在交互作用,此时 故由(4.4)式知 于是(4.23)可写成 (4.24) 这就是双因素无重复试验要研究的方差分析的模型。
这个模型要检验的假设有以下两个: (4.25) 可得方差分析表如下:
方差来源 平方和 自由度 均方 F值 因素A 因素B 误差 总和
取显著性水平为 ,得假设 的拒绝域为 假设 的拒绝域为
第一章 概率论的基本概念 主要内容: 基本名词、事件间的关系及其运算、概率及其性质、等可能概型及其计算、条件概率、全概率公式、贝叶斯公式、划分、独立性。
第二章 随机变量及其分布 随机变量的统计规律只需知道: X取的所有可能值 X取每一个可能值的概率。 主要内容:随机变量、离散型随机变量及其分布律((0—1)分布、伯努利试验、二项分布、泊松分布)、随机变量的分布函数、连续型随机变量、概率密度(均匀分布、指数分布、正态分布、标准正态分布)、随机变量的函数的分布。
第三章 多维随机变量及其分布 主要内容: 二维随机变量(离散型和连续型)及其“分布函数”、联合分布律、边缘分布(离散型和连续型)、条件分布(离散型:条件分布律,连续型:条件概率密度、条件分布函数)、随机变量的独立性、两个随机变量的函数的分布。
第四章 随机变量的数字特征 主要内容: 数学期望、方差、切比雪夫不等式、协方差及相关系数、矩的概念、协方差矩阵。
第五章 大数定律与中心极限定理 1 大数定律 算术平均值具有稳定性。定理一(契比雪夫大数定律)和定理三(辛钦大数定理)。 频率具有稳定性。定理二(伯努利大数定理)。 2 中心极限定理 独立随机变量之和的近似概率分布问题。定理四(独立同分布的中心极限定理)和定理五(李雅普诺夫定理) 二项分布的极限分布是正态分布。定理六(棣莫弗—拉普拉斯定理)
希望同学们努力、认真、刻苦复习! 预祝同学们取得好成绩!