第六章 样本及抽样分布 简单随机抽样: 代表性: 中每一个与所考察的总 体有相同的分布。 2.独立性: 是相互独立的随机变量。

Slides:



Advertisements
Similar presentations
第一章 、随机事件与概率 1.1 、随机事件 1.2 、随机事件的概率 1.3 、随机事件概率的计算 1.4 、伯努利概型.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
7.1 假设检验 1. 假设检验的基本原理 2. 假设检验的相关概念 3. 假设检验的一般步骤 4. 典型例题 5. 小结.
07/16/96 概率统计 自考辅导.
第一节 数理统计的基本概念.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第三章 函数逼近 — 最佳平方逼近.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
工程数学 第22讲 本文件可从网址 上下载 (单击ppt讲义后选择'工程数学'子目录)
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
主要内容 § 3.1 多维随机变量及联合分布 联合分布函里数 联合分布律 联合概率密度 § 3.2 二维随机变量的边缘分布
本讲义可在网址 或 ftp://math.shekou.com 下载
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
区间估计 Interval Estimation.
第5章 §5.3 定积分的积分法 换元积分法 不定积分 分部积分法 换元积分法 定积分 分部积分法.
第6章 统计量及其抽样分布 统计量 关于分布的几个概念 由正态分布导出的几个重要分布 样本均值的分布与中心极限定理 样本比例的抽样分布
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
本次课讲授:第二章第十一节,第十二节,第三章第一节, 下次课讲第三章第二节,第三节,第四节; 下次上课时交作业P29—P30
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
数据统计与分析 秦 猛 南京大学物理系 手机: 第十讲 数据统计与分析 秦 猛 南京大学物理系 办公室:唐仲英楼A 手机:
概 率 统 计 主讲教师 叶宏 山东大学数学院.
连续型随机变量及其概率密度 一、概率密度的概念与性质 二、常见连续型随机变量的分布 三、小结.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
数列.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第七章 参数估计 主讲教师:董庆宽 副教授 研究方向:密码学与信息安全
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
1.设A和B是集合,证明:A=B当且仅当A∩B=A∪B
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第三章 多维随机变量及其分布 第一节 二维随机变量 第二节 边缘分布 第三节 条件分布 第四节 相互独立的随机变量
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
数据统计与分析 秦 猛 南京大学物理系 第11讲 办公室:唐仲英楼A
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
难点:连续变量函数分布与二维连续变量分布
数理统计基本知识.
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第八章 假设检验 8.3 两个正态总体参数的假设检验.
参数估计 参数估计问题:知道随机变量(总体)的分布类型, 但确切的形式不知道,根据样本来估计总体的参数,这 类问题称为参数估计。
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
第四章 函数的 积分学 第七节 定积分的换元积分法     与分部积分法 一、定积分的换元积分法 二、定积分的分部积分法.
一元一次方程的解法(-).
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

第六章 样本及抽样分布 简单随机抽样: 代表性: 中每一个与所考察的总 体有相同的分布。 2.独立性: 是相互独立的随机变量。

假如总体的分布函数为 简单随机样本的联合分布函数为 概率密度为:

统计量:由样本构造的一些函数,不含任何未知参数。完全由样本决定的量。 样本平均值: 样本方差:

样本标准差: 样本k阶(原点)矩: 样本k阶中心矩:

经验分布函数 定义:设 是取自总体X~F(x)的一个样本,把样本观察值从小到大排列为 称函数 为总体X的经验分布函数。

格里汶科(Glivenko)在1933年证明了以下的结果: 对于任一实数 ,当 时 以概率1一致收敛于分布函数

例:从一批标准重量为500g的罐头中,随机抽取8听,测得误差如下(单位:g): 8,-4,6,-7,-2,1,0,1 求经验分布函数,并作出图形。 解:将样本值按大小顺序排列为 -7〈-4〈-2〈0〈1=1〈6〈8 则样本经验分布函数为

抽样分布:统计量的分布称为“抽样分布”。 精确抽样分布: 总体X的分布已知,如对于任一n,都能导出统计量的明显表达式,这种分布称为精确抽样分布。它常用于小样本的统计推断问题。 渐近分布: 在样本容量n无限大时,能获得统计量的极限分布,这种分布称为渐近分布。它常用于大样本的统计推断问题。

几个常用统计量的分布 (1) 分布 设 ~N(0,1),则称统计量 服从自由度为n的 分布,记为 自由度为上式右端包含的独立变量的个数。 概率密度图形。

由 分布的可加性:设 并且 独立,则有: 分布的数学期望和方差: 若

分布的分位点: 表只详列到n=45为止。费歇曾证明,当n充分大时,近似地有:

(2)t 分布 设 且X,Y独立,则称随机变量: 服从自由度为n的t分布,记为t~t(n)。 图形关于t=0对称,当n充分大时其图形类似于标准正态概率密度的图形。

t分布的分位点: 由图形的对称性知 。

(3)F分布 设 且 独立,则称随机变量 服从自由度为 的F分布,记为

的图形。由定义可知

F分布的分位点

(4)正态总体的样本均值与样本方差的抽样分布 定理一:设 是来自正态总体 的样本, 是样本均值,则有:

定理二:设 是总体 分别是样本均值和样本方差, 的样本, , 则有: 1° 2° 与 独立。

定理三:设 是总体 的样本, 分别是样本均值和样本方差, , 则有:

定理四:设 分别是来自正态总体 的样本,且这两个样本相互独立。设 分别是这两个样本的样本均值, 分别是这两个样本的样本方差,则有

1° 2° 其中

例 设总体X服从正态分布 是来自总体X的简单随机样本,则随机变量 服从什么分布,自由度是多少。

[分析] 根据简单随机样本的性质, 相互独立,服从同分布 易见 也相互独立,并且由于 故 从而有 即 ,因此Y服从F分布,自由度为(10,5)。

第七章 参数估计 两种基本方法:点估计、区间估计。 估计量优良性常用的几条标准: 无偏心、有效性、相合性。 (1)无偏性 (2)有效性 (3)相合性

样本均值 是总体均值 的无偏估计; 样本方差 是总体方差σ2的无偏估计。 样本二阶中心矩 不是σ2的无偏估计,S也不是σ的无偏估计。

最小方差无偏估计: 为 的任一无偏估计。 寻求估计量的方法: 矩估计法 最大似然估计法

(1)矩估计法: 用样本各阶矩去估计总体各阶矩。 概率密度为 分布律为 它的前k阶矩

可以解出

以样本矩 分别代替上式中的 就有 分别作为 的估计量。

例5:设总体X的均值 都存在,且有 。但 均为未知,又设 是来自总体X的一个样本,求 的矩估计量。 解:总体一阶矩: 总体二阶矩: 由矩法,用样本矩去估计总体矩,令: =A1

解得: 所得结果表明,总体均值与方差的矩估计量的表达式不因总体分布不同而异。

总结: 矩估计法的优点是简便易行,并不需要事先知道 总体的分布; 缺点是:在总体分布类型已知的场合,没有充分 利用分布提供的信息。 一般场合下,矩估计量不具有唯一性。

(2)最大似然估计法 取值的可能范围 内挑选使似然函数 达到最大的参数值 ,作为参数 的估计值,即取 使 称为参数 由费希尔(R.A.Fisher)引进的最大似然估计法,就是固定样本观察值 ,在 取值的可能范围 内挑选使似然函数 达到最大的参数值 ,作为参数 的估计值,即取 使 称为参数 的最大似然估计值,而相应的统计量 称为参数 的最大似然估计量。

设 是来自总体X的一个样本,则 的联合密度为:

设 是相应于样本 落在点 的一个样本值,则随机点 的邻域(边长分别为 的n维立方体)内的概率近似地为 其值随 的取值而变化。与离散型的情况一样,取 的估计值 使概率取到最大值。

考虑函数: 称为样本的似然函数。若: 的最大值。这里 则称 为 的最大似然估计值,称 为 的最大似然估计量。

可从方程: 解得。 也可以从方程: 求得。从后一方程求解往往比较方便,称为对数似然方程。

例:设 是来自总体X的一个样本, 试求参数P的最大似然估计量。 解:设 是样本 的一个样本值。X的分布律为: 似然函数为: 取对数

令 解得p的最大似然估计值: p的最大似然估计量为: 这一估计量与矩估计量是相同的。

例:设 为未知参数 是来自总体X的一个样本值。求 的最大似然估计量。 解:X的概率密度为: 似然函数为:

取对数 令 解得 的最大似然估计量为: 得 它们与相应的矩估计量相同。

求最大似然估计值的一般步骤是: 由总体分布导出样本的联合分布律函数(或联合概率密 度); 2.把样本联合分布律函数(或联合概率密度)中自变量看 成已知常数,而把参数 看作自变量,得到似然函数 3.求似然函数 的最大值点(常常转化为求 的最大值点); 4.在最大值点的表达式中,用样本值代入就得参数的最 大似然估计值。

一般,用最大似然法所得的估计的性质比用矩法所得的要好,故通常多用最大似然法。

2 基于截尾样本的最大似然估计 完全样本: 由所有产品的失效时间 所组成的样本。

常用的两种截尾寿命试验: 一种是定时截尾寿命试验 此时m是一个随机变量,所得的样本 称为定时截尾样本。 2. 另一种是定数截尾寿命试验 所得的样本 称为定数截尾样本。

3 区间估计 有二个要求: 要求 以很大的可能被包含在区间 内,即:概率 要尽可能大。 2.估计的精度要尽可能高,即要求区间的长度 3 区间估计 有二个要求: 要求 以很大的可能被包含在区间 内,即:概率 要尽可能大。 2.估计的精度要尽可能高,即要求区间的长度 尽可能小。

置信区间: 称随机区间 是 的置信水平为 的置信区间。 分别称为双侧置信区间的置信下限 和置信上限, 称为置信水平。

可以得到未知参数的任何置信水平小于1的置信区 间 置信水平愈高,相应的区间平均长度愈长(在 同样的样本容量下)。 在同样的置信水平下,样本容量愈大,区间平均长 度愈短。

求置信区间的步骤如下: 明确问题,求什么参数的置信区间?置信水平 是多少? 2.寻找参数的一个良好的点估计W。 3.寻找(或构造)一个待估参数θ和估计量W的函数 S(W, θ),其分布为已知,并且不依赖于任何未知数。 称S(W, θ)为枢轴量。如

4. 对于给定的置信水平 ,根据S(W, θ)的 分布,确定常数a,b使得 5.对“ ”作等价变形,得到如下形式: 就是参数 的置信水平为 则 就是参数 的置信水平为 的置信区间。

4 正态总体均值与方差的区间估计 (一)单个总体 的情况 1°均值 的置信区间 (1) 为已知

(2) 为未知 考虑到 是 的无偏估计,将上式中的 换成 ,取枢轴量 对给定的置信水平 ,查t分布分位数表的 使

即 于是,得到了 的一个置信水平为 的置信区间 或 在实际问题中,总体方差 未知的情况居多。

(3)总体分布未知,但样本容量n很大 此时由中心极限定理,知 近似服从N(0,1) 因此若总体方差 已知时,得到 的一个置信水平为 的近似置信区间 但 一般未知,用S近似代替,这样得到 的一个置信水平为 的近似置信区间

的置信区间 的置信区间。 2°方差 为总体 的样本, 例:设 未知,求参数 的置信水平为 解: 的无偏点估计为样本方差S2。已知 对给定的置信水平 ,查 分布上 分位点表可得

即 得到方差 的一个置信水平为 的置信区间 标准差 的一个置信水平为 的置信区间

(二)两个总体 的情况 1°两个总体均值差 的置信区间

具体步骤为: (1) 两总体均为正态, 已知。 设 分别为 , 的无偏估计,故 的无偏估计量是 由 的独立性以及 得: 或

对给定的置信水平1— ,查标准正态分布函数表得 使 即得 的一个置信水平为1— 的置信区间:

(2) 两总体均为正态, 但 为未知。 其中, 从而可得 的一个置信水平为1— 的置信区间为:

(3) 两总体分布未知,但 很大。 用 去估计 根据中心极限定理,近似有 类似可得 的一个置信水平为1— 的近似置信区间为:

2°两个总体方差比 的置信区间 由第六章定理四: 不依赖任何未知参数。由此得: 即:

6 单侧置信区间 对于任意 满足 随机区间 是 的置信水平为 的单侧置信区间, 称为 的置信水平为 的单侧置信下限。

又若统计量 ,对于任意 满足 称随机区间 是 的置信水平为 的单侧置信区间, 称为 的置信水平为 的单侧置信上限。

第八章 假设检验 具体有两类假设检验问题: (1)对参数的假设检验。 (2)对总体分布的假设检验。 假设检验中的概率反证法的逻辑是:假设原假设成立,如果小概率事件在一次试验中发生,就可以有很大的把握否定原假设。

假设检验的一般步骤: (1)提出原假设 及备择假设(对立假设) (2)选取一个适当的统计量T,在 成立的条件下 求出它的分布(或近似分布); (3)根据给定显著性水平 ,求出拒绝域C; (4)算出统计量T的实测值,将实测值与拒绝域对照 ,若实测值落入拒绝域,则否定原假设 否则,就认为差异不显著而不能否定原假设。

两类错误及其概率 第一类错误: 第二类错误:

显著性检验 控制犯第1类错误的概率,使它不大于 ,而不考虑犯第II类错误的概率的检验,称为显著性检验。 不管在什么情况下,为了保证 不致太大, 样本容量 都不应太小。

的拒绝域分别在两侧。在上述例1中,拒绝域为 双侧检验与单侧检验 假设检验 其中, 表示 可能大于 ,也可能小于 ,这类检验 的拒绝域分别在两侧。在上述例1中,拒绝域为 (- ,- ),( ), ,+ 称这类假设检验为双侧假设检验。 在很多情况下,会提出如下形式的原假设: 对应的备择假设是 称这类假设检验为单侧假设检验或单边假设检验。

正态总体均值、方差的检验法(显著性水平为 ) 原假设H0 检验统计量 备择假设H1 拒绝域

原假设H0 检验统计量 备择假设H1 拒绝域

例题: 例1:某种元件的寿命X(以小时计)服从正态分布 均未知。现测得16只元件的寿命如下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于225(小时)?( ) 解:检验假设(原假设取与题意相反的假设) 因为 均未知,用t检验法,其拒绝域为:

算得 即有: t没有落在拒绝域中,故接受H0,即认为元件的平均寿命不大于225小时。

3 分布拟合检验 皮尔逊的 检验法 专用于检验分布是否为正态的“偏度、峰度检验法”。

检验法 (一) 检验法是在总体的分布未知时,根据它的n个样本 来检验总体分布假设的一种方法。 原假设为: 总体X的分布函数为 总体X的分布函数不是 (可以不写出) 若总体X为离散型,则 :总体X的分布律为 若总体X为连续型,则 总体X的概率密度为

分布拟合的 检验法基本思想和步骤如下: (1)将总体X的可能取值范围或全体 分成k个互不重迭 的小区间或子集,记作 (2)把落入第i个小区间 的样本值的个数记作 称为实测频数。所有实测频数之和 等于样本 容量n。 (3)当 为真时,可以根据 所假设的X的分布函数来 计算事件 的概率,得到 ,于是 就是落入 的样本值的理论频数。

显然,实测频数 与理论频数 之间的差标志着 经验分布与理论分布之间的差异的大小。 皮尔逊引进了如下统计量表示经验分布与理论分布之间的差异: 其中 是随机变量,在理论分布已给定的情况下, 是常量。

皮尔逊证明了如下定理: 如原假设中的理论分布 已经完全给定,那么当 时,统计量 = = 的分布近似服从 个自由度的 分布。

如果理论分布 中有r个未知参数,则需用相应的 估计量来代替(一般用最大似然估计值来代替)。那么当 时,统计量 的分布近似服从 个自 由度的 分布。 根据这个定理,对于给定的显著性水平 ,查 分布分位数表可得临界值 ,使得 即 为小概率事件。 得拒绝域为

注意,皮尔逊定理是在n无限大时推导出来的,因而在使用时要注意n要足够大以及 不太小这两个条件。 根据计算实践经验,要求 ,以及每一个 都不小于5。 否则应适当合并区间,使 满足这个条件。

第九章 回归分析与方差分析 1.一元线性回归分析 回归分析就是研究相关关系的一种重要的数理统计方法。即从数量的角度去研究这种关系。 一元回归分析:在回归分析中,变量只有两个; 多元回归分析:变量在二个以上; 线性回归:变量间呈线性关系; 非线性回归:变量间不具有线性关系。

(一)一元线性回归 对一组X的值 作独立观察,得到随机变量 Y相应的观察值 ,构成n对数据。 这n对数据可作出一个散点图,可直观地描述两变量之间的关系。根据散点图,有以下几个问题: (1)两变量之间的关系是否密切,或者说能否由X来估 计Y; (2)两变量之间的关系是呈一条直线还是某种曲线; (3)是否存在其他规律。

实际中常假定 服从正态分布 ,即 通常称 (1.1) 为一元线性回归模型。 上式表明,Y由两部分组成: 一部分是x的线性函数 另一部分 是随机误差,是人们不可控制的。

回归方程:

n次独立 观察,得一样本: 对应的样本值记为: 该样本的构造可由方程 来描述,这里, 是第i次观察时随机误差所取的值, 它是不能观察的。

回归分析的任务是利用n组独立观察数据 来估计a和b,以估计值的 代替a,b, 得回归方程 称其为经验回归方程。

1.用最小二乘法估计 偏差的平方和 最小二乘法认为 :寻找 ,使上述平方和达到最小。 这就是最小二乘法的基本思想。

对 作了n次观察或试验,得到n对数据 找一条直线 尽可能地拟合这些数据。 当 取值 时, 应取值 而实际观察到的为 ,这样,形成了偏差(图)

它是所有实测值 与回归值 的偏差平方和。 设法求出 的估计值 ,使 达到最小,由此 得到的回归直线 是在所有直线中 最小的一条。 根据最小二乘法思想,类似地提出了如下的目标量 它是所有实测值 与回归值 的偏差平方和。 设法求出 的估计值 ,使 达到最小,由此 得到的回归直线 是在所有直线中 最小的一条。

用求极值法,求出使 达到最小的 。即解方程 得 (1.8) 其中: 得到回归方程

求出回归方程 问题尚未结束。 (1)回归方程是否有意义?即 的变化是否真的对 有影响?因此,要对回归效果作出检验。 (2)如果方程真有意义,用它预测 时,预测值与真值 的偏差能否估计?

2.回归方程的显著性检验 对任意的一组观察值 ,都可以用 最小二乘法,形式上求得 对 的回归方程。 如果 与 没有线性关系,这种形式的回归 方程就没有意义。 因此,需要考察 是否确有线性关系,这就是 与 回归效果的检验问题。

回归平方和 与残差平方和 反映了由于 的变化引起的 的差异,体现了 对 的影响; 反映了自变量以外的随机因素对 的影响。 为 的影响部分与随机因素影响部分的比值; 若它不是显著地大,表明所选的 并不是一个重要的 因素,它的作用与随机因素的作用相当,于是得到的回归方程就没有意义。

的作用是显著地比随机因素大, 这样方程才有意义。 关于回归方程的显著性检验问题 b是否等于0的检验问题 可以证明,当 的关系中b=0时,有 如果它显著地大,表明 的作用是显著地比随机因素大, 这样方程才有意义。 关于回归方程的显著性检验问题 b是否等于0的检验问题 可以证明,当 的关系中b=0时,有

用 来检验b的绝对值是否大于0;或者说检验回归方程 是否有意义。 给定显著性水平 ,查F分布分位数表,求出否定域, 便可判断回归方程是否有意义。即要检验假设 检验统计量为

拒绝域为

也可用t检验法来检验回归方程是否有意义,假设 又 且 与 独立(见附录5°),故有 即 这里

当H0为真时b=0,此时 即得H0的拒绝域为 被拒绝时,认为回归效果是显著的,反之, 当假设 就认为回归效果不显著。

3. 预测( 的估计) 当检验认为回归方程确有意义,则可用来预测或控制。 我们无法确切知道 的值。因此,只能估计 的范围。通常假定 这样通过对 的估计,就可知道 的取值范围。 假定 是在模型 的条件下进行的一次试验结果,可以证明 有:

于是 因此, 给定的置信水平 ,有 的置信区间为 其中

根据书上(用相关系数检验法),也有 即 ,有 给定置信水平

置信区间 其中 让 ( 换为 )变动,有: 或

事实上,当n很大且 靠近 时,有 ,用正态分布的性质有 即 服从 或 作为实际应用时的近似预报。

4.可线性化的一元非线性回归 两个变量之间并不一定是线性关系,而是某种曲线关系。应该用曲线来拟合。 用适当的变量代换,把它线性化。 具体做法是: 根据观察值 画出散点图,通过散点图与常见曲线进行比较,经验地选择曲线类型。

以下几种曲线都可以通过变量代换转化为线性回归: (1)指数函数: (2)幂函数: (3)双曲线: 或 (4)对数函数:

解题步骤: (1)若在原模型下,例如在原模型 下,对于 有样本 下的样本 其中 (3)利用上节的方法来估计 或对Y进行预测。 (2)求出在新模型 下的样本 其中 (3)利用上节的方法来估计 或对Y进行预测。 (4)在得到Y关于 的回归方程后,再将原自变量 代回,就得到Y关于 的回归方程。它的图形是一条 曲线,也称为曲线回归方程。

2 多元线性回归 在实际问题中,随机变量Y往往与多个普通变量 有关,研究这类关系问题称为多元回归问题。

3 单因素试验的方差分析 名词:试验指标、因素、单因素试验、水平 设不同水平Aj下 的样本之间相互独立。 其中 与 均为未知参数。称为单因素试验 方差分析的数学模型。

方差分析的任务是对模型: 1°检验s个总体 的均值是否相等, 即检验假设 (3.2) 不全相等。 2°作出未知参数 的估计。 3°求出 的区间估计。

模型可改写成: (3.1)′ 假设等价于假设 (3.2)′

(二)平方和的分解 总偏差平方和: 其中

总偏差平方和的分解: (3.8) 其中 (3.9) (3.10) (3.7) (即水平 下的样本平均值)

与 的比值反映了两种差异所占的比重,若 的比值越大,说明因素的各个水平不同引起的差异显著。 问: 的比值大到什么程度,可以否定 ? 因此,统计量 可用来检验因素的效应是否显著。

(四)假设检验问题的拒绝域 拒绝域具有形式 当H0为真时

上述分析的结果可排成表9.5的形式,称为方差分析表。 由此得检验问题(3.2)′的拒绝域为 (3.20) 如果 ,则拒绝 ,此时说明因素对指标起显著影响; 如果 ,此时说明因素A的不同水平对结果 ,则接受 影响不显著。 上述分析的结果可排成表9.5的形式,称为方差分析表。

表9.5 单因素试验方差分析表 方差来源 平方和 自由度 均方 F值 因素A SA s-1 误 差 SE n-s 总 和 ST n-1 表中 分别称为SA,SE的均方。

4 双因素试验的方差分析 影响试验结果的因素不止一个,要用双因素或 多因素的方差分析; 确定哪些因素是主要的,它们对试验结果的影 响是否显著; 它们之间是否有交互作用。

(一)双因素等重复试验(有交互作用)的方差分析 设有两个因素A,B作用于试验的指标。 因素A有r个水平 因素B有s个水平 对因素 A,B的水平的每对组合(Ai,Bj), 都作t (t≥2)次试验(称为等重复试验),得到如下结果

因素B 因素A B1 B2 … Bs A1 A2 Ar

设: 各 独立, 均为未知参数。或写成: (4.1)

(4.1)可写成 (4.5) 其中 都是未知参数。(4.5)式就是 双因素试验方差分析的数学模型。

对于这一模型要检验以下三个假设: (4.6) (4.7) (4.8)

总偏差平方和(称为总变差) ST写成: 即得平方和的分解式: (4.9)

SE称为误差平方和,SA,SB分别称为因素A、因素B的效应平方和, 其中 (4.10) (4.11) (4.12) (4.13) SE称为误差平方和,SA,SB分别称为因素A、因素B的效应平方和, 称为A,B交互效应平方和。

可以证明 的自由度依次为 且有: (4.14) (4.15) (4.16)

当 为真时,可以证明 取显著性水平为 ,得假设 的拒绝域为 类似地,在显著性水平 下,假设H02的拒绝域为 (4.17) (4.18) (4.19) 类似地,在显著性水平 下,假设H02的拒绝域为 (4.20)

在显著性水平 下,假设H03的拒绝域为 (4.21) 上述结果可汇总成下列的方差分析表:

表9.9 双因素试验的方差分析表 方差来源 平方和 自由度 均 方 F 值 因素A SA r-1 因素B SB s-1 交互作用 SA×B (r-1)(s-1) 误 差 SE rs(t-1) 总 和 ST rst-1

(二)双因素无重复试验的方差分析 为要检验交互作用的效应是否显著,对于两个因素的每一组合 至少要做2次试验。 如果已经知道不存在交互作用,或交互作用对试验的指标影响很小,则可以不考虑交互作用,减少试验次数。也能对因素A、因素B的效应进行分析。现设对于两个因素的每一组合 只做一次试验,所得结果 如下:

因素B 因素A …

设 其中 各 独立, 均为未知参数,或写成 (4.23)

这就是双因素无重复试验要研究的方差分析的模型。 现在假设不存在交互作用,此时 故由(4.4)式知 于是(4.23)可写成 (4.24) 这就是双因素无重复试验要研究的方差分析的模型。

这个模型要检验的假设有以下两个: (4.25) 可得方差分析表如下:

方差来源 平方和 自由度 均方 F值 因素A 因素B 误差 总和

取显著性水平为 ,得假设 的拒绝域为 假设 的拒绝域为

第一章 概率论的基本概念 主要内容: 基本名词、事件间的关系及其运算、概率及其性质、等可能概型及其计算、条件概率、全概率公式、贝叶斯公式、划分、独立性。

第二章 随机变量及其分布 随机变量的统计规律只需知道: X取的所有可能值 X取每一个可能值的概率。 主要内容:随机变量、离散型随机变量及其分布律((0—1)分布、伯努利试验、二项分布、泊松分布)、随机变量的分布函数、连续型随机变量、概率密度(均匀分布、指数分布、正态分布、标准正态分布)、随机变量的函数的分布。

第三章 多维随机变量及其分布 主要内容: 二维随机变量(离散型和连续型)及其“分布函数”、联合分布律、边缘分布(离散型和连续型)、条件分布(离散型:条件分布律,连续型:条件概率密度、条件分布函数)、随机变量的独立性、两个随机变量的函数的分布。

第四章 随机变量的数字特征 主要内容: 数学期望、方差、切比雪夫不等式、协方差及相关系数、矩的概念、协方差矩阵。

第五章 大数定律与中心极限定理 1 大数定律 算术平均值具有稳定性。定理一(契比雪夫大数定律)和定理三(辛钦大数定理)。 频率具有稳定性。定理二(伯努利大数定理)。 2 中心极限定理 独立随机变量之和的近似概率分布问题。定理四(独立同分布的中心极限定理)和定理五(李雅普诺夫定理) 二项分布的极限分布是正态分布。定理六(棣莫弗—拉普拉斯定理)

希望同学们努力、认真、刻苦复习! 预祝同学们取得好成绩!