Download presentation
Presentation is loading. Please wait.
1
第六章 数理统计的基本知识 第一节 总体与样本
第六章 数理统计的基本知识 数理统计是以概率论为基础,根据试验或观察得到的数据,来研究随机现象.通过统计分析,对研究对象的客观规律性作出合理的估计和推断. 第一节 总体与样本 在一个统计问题中,我们把所研究对象的全体称为一个总体.总体中的每个元素(即每一个研究对象)称为个体. 若总体中包含有限个个体,则称这个总体为有限总体,否则称为无限总体,总体中所包含的个体总数称为总体容量. 在统计问题中,人们所关心的往往不是总体的一切方面,而是它的某一项数量指标X.因此,我们把这个数量指标X所有可能取值的全体就作为总体看待,称为总体X,X是一个随机变量.我们要根据试验或观察得到的数据来得到X的概率分布和数字特征,分别称为总体的分布和数字特征.
2
大家知道,随机现象的统计规律性必然在大量的重复试验中呈现出来, 为了推断总体X 的性质,从理论上讲,应该对每个个体逐一进行测试,然而实际上这样做往往是不现实的,例如,要研究灯泡寿命,由于寿命测试是破坏性的,当测试过每只灯炮的寿命后,这批灯泡就报废了. 一般来说,恰当的方法是按一定的规则从总体中抽取若干个个体进行测试,为了使测试到的数据能很好地反映总体的情况,当然应该要求总体中每一个个体被抽到的可能性是均等的.并且在抽取一个个体后总体的成分不改变.这种抽取个体的方法称为简单随机抽样.被抽出的部分个体,叫做总体的一个样本. 假设我们从总体 X 中抽取 n 个个体进行测试(简单抽样),把测试结果分别记作X1,X2,…, Xn.由于抽样的随机性,Xi 可以取 X 所有可能的值,是与 X 具有相同分布的随机变量,且 X1,X2,…,Xn 相互独立.这样的 n 个个体称为总体 X 的一个简单随机样本.
3
定义 设 X 是具有某一概率分布的随机变量(看作一个总体).如果随机变量X1,X2,…, Xn 相互独立,且都与 X 具有相同的概率分布, 则称 n 维随机变量 (X1,X2,…,Xn) 为来自总体 X 的简单随机样本,简称样本,n 称为样本容量. 在对总体X进行一次具体的抽样并作观测之后,得到样本(X1,X2,…,Xn)的确切的数值(x1,x2,…,xn),称为一个样本观测值(观察值),简称样本值. 样本(X1,X2,…,Xn)所有可能取值的全体称为样本空间,它是n维空间或其中的一个子集.样本观察值(x1,x2,…,xn)是样本空间中的一个点. 如果总体 X 的分布函数为F(x),则 X 的样本 X1,X2,…,Xn 的联合分布函数为 如果总体 X 为连续型且概率密度为 f(x),则样本(X1,X2,…,Xn)的联合概率密度为 .
4
第二节 统计量及其分布 二、样本矩 一、统计量
第二节 统计量及其分布 一、统计量 样本是总体的代表,是统计推断的依据.在应用时,往往不是直接使用样本本身,而是针对不同的问题构造样本的函数,来进行统计推断. 定义1 设(X1,X2,…,Xn)是来自总体 X 的一个样本,t = g(t1, t2,…, tn) 为t1, t2, …, tn的一个单值实函数,并且其中不包含任何未知参数,则称 T = g(X1, X2, …, Xn)为一个统计量. 设 x1, x2,…, xn 是相应于样本 X1, X2, …,Xn 的样本值,则称 g(x1,x2,…, xn)是统计量T = g(X1,X2,…,Xn)的观察值. 二、样本矩 下面给出几个常用的统计量.设(X1,X2,…,Xn)是来自总体 X 的一个样本,(x1,x2,…,xn)是样本观察值,定义: 样本均值 .
5
样本分差 样本标准差(均方差) . 样本k阶(原点)矩 (k=1,2,… ) . 样本k阶中心矩 (k=1,2,… ) . 显然 , . 它们的观察值分别为 ,
6
, . 三、顺序统计量 定义2 (X1,X2,…,Xn)是总体X的一个样本,(x1,x2,…,xn)是一个样本观察值,将它由小到大的顺序排列,得到x(1)≤x(2)≤…≤x(n) ,取x(i)作为X(i)的观测值,由此得到的统计量X(1),X(2),…,X(n)称为样本(X1,X2,…,Xn)的一组顺序统计量,X(i)称为第i个顺序统计量或第i项.统计量 Rn = x(n)-x(1) 分别称为样本中位数和样本极差. 样本均值、顺序统计量的首项及末项、样本中位数描述了样本在数轴上的大致位置;样本方差与样本极差描述了样本的分散程度.
7
第三节 样本分布函数与频率直方图 一、样本分布函数
第三节 样本分布函数与频率直方图 一、样本分布函数 样本能够反映总体X的信息,总体X的分布函数F(x)是否能由样本来“表示”?回答是肯定的,我们用下面介绍的样本函数来近似表示总体X的分布函数. 定义 设x(1),x(2),…,x(n)是总体X的顺序统计量的一组观察值,对于任意的实数x,定义函数 称Fn(x)为总体X的样本分布函数(或经验分布函数).
8
样本分布函数Fn(x)不仅与样本容量 n 有关, 还与所得到的样本观察值有关,故它是随机变量.Fn(x)的图形(图6-1)呈跳跃上升的台阶状, 在x(1),x(2),…,x(n)中的不重复的值处,跳跃高度为 ;在重复 l 次的值处,跳跃高度为 .图6-1中的曲线是总体 X 的理论分布函数 F(x) 的图形. 图6-1
9
样本分布函数Fn(x)具有以下性质: 1°0≤Fn(x)≤1; 2°Fn(x)是单调不减函数; 3°Fn(x)是处处右连续的. 对于样本观察值 (x1,x2,…,xn),为了求其对应的样本分布函数 Fn(x) 之值,只须将这 n 个值中小于或等 x 的个数除以样本容量 n 即可.对于给定的x,Fn(x)是 n 次重复独立试验中事件 {X≤x} 出现的频率,而理论分布函数F(x)是事件{X≤x}发生的概率,由伯努利定理知,对任意给定的正数ε,有 , 即Fn(x)按概率收敛于F(x).进一步还有如下结论. 定理 (格利文科(W. Glivenko)定理) 设总体X的分布函数为F(x), 样本分布函数Fn(x),则对于任何实数x,有 . 证明从略. 以上结论是我们用样本去推断总体的依据.
10
a=t0<t1<t2<…<tk-1<tk=b.
二、频率直方图 如果说样本分布函数是通过随机样本对总体分布函数的反映,那么下面介绍的频率直方图就是样本对总体概率密度函数的反映(假设总体是连续随机变量). 依据总体 X 的一个样本观察值(x1,x2,…,xn)画直方图的一般步骤如下: 1°找出x1,x2,…,xn中的最小值x(1)与最大值x(n). 2°选择常数a、b(a≤x(1),b≥x(n)),在区间[a,b]内插入k-1个分点; a=t0<t1<t2<…<tk-1<tk=b. 用来对样本观察值进行分组.为了方便,可将区间[a,b]分成 k 等分,此时组距是 i=1,2,…,k. 组数 k 要选择适当.一般地说,当20≤n≤100时,取 k 为 5~10;当 n>100时,取 k 为10~15.通常取 ti 比样本观察值精度高一位.
11
fi≈P{ti-1<X≤ti}=pi,i=1,2,…,k,
3°对于每个小区间(ti-1,ti],数出x1,x2,…,xn落入其中的个数 ni (称为频数),再算出频率 ,i=1, 2, …, k. 4°在 xOy 平面上, 对每个 i, 画出以(ti-1,ti] 为底,以 yi=fi /Δt (i=1,2,…,k) 为高的矩形.这种图称为频率直方图,简称直方图. 直方图中第 i 个小矩形面积 yiΔt=fi (i=1,2,…,k),k 个小矩形的面积之和为1. 由于样本观察值的 n 个数值 x1,x2,…,xn是从总体X 中独立抽取的,它们落入区间 (ti-1,ti] 的频率 fi 近似等于随机变量 X 在该区间内取值的概率,即 fi≈P{ti-1<X≤ti}=pi,i=1,2,…,k, 当 X 是连续随机变量,且概率密度为 f (x) 时,则有 ,i=1,2,…,k. 由此可见直方图在一定程度上反映了X 的概率密度情况.
12
试根据这些数据作出直方图,并根据直方图估计含硅量 X 的分布.
0.86 0.83 0.77 0.81 0.80 0.79 0.82 0.87 0.78 0.71 0.95 0.76 0.84 0.90 0.75 0.73 0.89 0.74 0.85 0.88 0.65 0.64 试根据这些数据作出直方图,并根据直方图估计含硅量 X 的分布.
13
解 1°从n=120个数据中找出最小值 x(1)= 0.64及最大值 x(120)= 0.95.
2°取 a = 0.635, b = 0.955, 分 k = 16 组,组距 . 3°分组及频数如表 6-1所示.表中的组中值 (i=1,2,…,16)将会在第八章第五节用到. 4°以横轴 x 轴表示含硅量,a= t0= 0.635,t1= 0.655,…,t15= 0.935, b= t16 = 0.955,Δt = 0.02,取纵坐标的单位长为 ,则直方图中第 i 个矩形的高度 , 正好是 ni (i=1,2,…,16)个单位.
14
分组(ti-1,ti)] 频 数 组中值 0.635~ 0.655~ 0.675~ 0.695~ 0.715~ 0.735~ 0.755~ 0.775~ 0.795~ 0.815~ 0.835~ 0.855~ 0.875~ 0.895~ 0.915~ 0.935~
15
有了直方图,就可以大致画出 X 的概率密度曲线.从图上看,曲线很象正态分布的概率密度曲线.
14 6 1 有了直方图,就可以大致画出 X 的概率密度曲线.从图上看,曲线很象正态分布的概率密度曲线.
16
第四节 几个常用统计量的分布 统计量是样本的函数,它是一个随机变量, 下面介绍来自正态总体的几个常用统计量的分布. 一、 分布
第四节 几个常用统计量的分布 统计量是样本的函数,它是一个随机变量, 下面介绍来自正态总体的几个常用统计量的分布. 一、 分布 1.定义 设X1,X2,…,Xn是来自正态总体N(0,1)的样本,则称统计量 为服从自由度为 n 的 分布,记作 ~ (n). f(x) n=1 n=5 n=15 x 2. (n)分布的概率密度(不证): 其中 为 函数 在 处的函数值.
17
3.(n)分布的性质: 性质1:设 ~ (n),则E( )=n,D( )=2n. 证:因Xi~N(0,1),E(Xi2)=1 ,D(Xi)=1. . 性质2:设 X~ (n1),Y~ (n2),且X与Y相互独立, 则 X+Y~ (n1+n2). 性质3:设 为X的样本,则 . 证: ,由定义 性质4:设 ~ (n),则对任意实数x,有
18
4. (n)分布的上 分位点: 设 ~ (n),对于给定的正数 , 称满足条件 的点 为 (n) 分布的上 分位点.
例如 取 ,则查附表4(395)有 . 4. (n)分布的上 分位点: 设 ~ (n),对于给定的正数 , 称满足条件 的点 为 (n) 分布的上 分位点. f(x) x
19
二、t 分布(学生分布) 1.定义 设X~N (0,1),Y~ (n),且 X 与Y 独立,则称随机变量 服从自由度为 n 的 t 分布,记作 t ~ t (n). 2.t (n)分布的概率密度(不证): 3.性质:t (n) 分布的概率密度关于 y 轴对称,且
20
设 t ~ t (n),对于给定正数 ,称满足条件 的点 为 t (n) 分布的上 分位点,且有
f(x) x n=10 n=4 n=1 4.t (n) 分布的上 分位点: 设 t ~ t (n),对于给定正数 ,称满足条件 的点 为 t (n) 分布的上 分位点,且有 .
21
三、F分布 1.定义:设X~ (m),Y~ (n),且 X 与 Y 独立,则称随机变量
为服从自由度是 m、n 的 F分布,记作 F~F (m, n), 其中 m 称为第一自由度,n 称为第二自由度. 2.F(m,n)分布的概率密度为
22
设 F~F(m, n),对于给定正数 ,称满足条件 的点 为F(m, n)分布的上 分位点,且有
x f(x) 4.F (m, n) 分布的上 分位点: 设 F~F(m, n),对于给定正数 ,称满足条件 的点 为F(m, n)分布的上 分位点,且有 .
23
第五节 正态总体统计量的分布 本节介绍来自正态总体的样本均值与样本方差的抽样分布.这是参数估计与假设检验的基础.
第五节 正态总体统计量的分布 本节介绍来自正态总体的样本均值与样本方差的抽样分布.这是参数估计与假设检验的基础. 定理1 设 为来自总体 X 的样本,则 , . 定理 . 定理3 设X1,X2,…,Xn是正态总体 的一个样本,则样本均值 与样本方差 S 2 相互独立,且有 .
24
定理4 设X1,X2,…,Xn是正态总体 的样本, 与S 2分别为样本均值与样本方差, 则有
. 证 由 , 则有 . 定理5 设总体 ,总体 ,且 X 与 Y 独立.X1,X2,…,与Y1,Y2,…,分别为来自总体 X 与总体 Y 的样本,且这两组样本相互独立. ,则有
25
, . (ii) 若 ,则 , 其中 . (iii) .
26
(iv) . 证 (i) 略 (ii) 由定理 3 得 , , 于是 . 又由 (i) 及 t 分布定义,有 即 , .
27
(iv) 由定理 3, ,则 即 , .
28
例1 从总体 N ( 52,6.32 ) 中随机抽取一容量为 36 的样本,求样本均值 落在 50.8 到 53.8 之间的概率.
解 由 , 即 ,得所求概率为
29
例2 设 X1,X2,…,X10 为总体 N (0,0.09)的一个样本,求 .
解 由 , , 则有 .(查 表394页)
30
例3 设总体 , 样本 X1, X2, …,X6,设 Y = ( X1+X2+X3 )2 + ( X4+X5+X6 )2,求C, 使CY 服从 分布,并求自由度.
由独立性有 , 取 ,有 ,自由度为2. 解 由 , 有 , ,
Similar presentations