第六章数理统计的基本知识第一节总体与样本

第六章数理统计的基本知识第一节总体与样本
第六章数理统计的基本知识数理统计是以概率论为基础，根据试验或观察得到的数据，来研究随机现象．通过统计分析，对研究对象的客观规律性作出合理的估计和推断．第一节总体与样本在一个统计问题中，我们把所研究对象的全体称为一个总体．总体中的每个元素(即每一个研究对象)称为个体．若总体中包含有限个个体，则称这个总体为有限总体，否则称为无限总体，总体中所包含的个体总数称为总体容量．在统计问题中，人们所关心的往往不是总体的一切方面，而是它的某一项数量指标X．因此，我们把这个数量指标X所有可能取值的全体就作为总体看待，称为总体X，X是一个随机变量．我们要根据试验或观察得到的数据来得到X的概率分布和数字特征，分别称为总体的分布和数字特征．

大家知道，随机现象的统计规律性必然在大量的重复试验中呈现出来, 为了推断总体X 的性质，从理论上讲，应该对每个个体逐一进行测试，然而实际上这样做往往是不现实的，例如，要研究灯泡寿命，由于寿命测试是破坏性的，当测试过每只灯炮的寿命后，这批灯泡就报废了．一般来说，恰当的方法是按一定的规则从总体中抽取若干个个体进行测试，为了使测试到的数据能很好地反映总体的情况，当然应该要求总体中每一个个体被抽到的可能性是均等的．并且在抽取一个个体后总体的成分不改变．这种抽取个体的方法称为简单随机抽样．被抽出的部分个体，叫做总体的一个样本．假设我们从总体 X 中抽取 n 个个体进行测试(简单抽样)，把测试结果分别记作X1，X2，…, Xn．由于抽样的随机性，Xi 可以取 X 所有可能的值，是与 X 具有相同分布的随机变量，且 X1，X2，…，Xn 相互独立．这样的 n 个个体称为总体 X 的一个简单随机样本．

定义设 X 是具有某一概率分布的随机变量(看作一个总体)．如果随机变量X1，X2，…, Xn 相互独立，且都与 X 具有相同的概率分布, 则称 n 维随机变量 (X1，X2，…，Xn) 为来自总体 X 的简单随机样本，简称样本，n 称为样本容量．在对总体X进行一次具体的抽样并作观测之后，得到样本(X1，X2，…，Xn)的确切的数值(x1，x2，…，xn)，称为一个样本观测值(观察值)，简称样本值．样本(X1，X2，…，Xn)所有可能取值的全体称为样本空间，它是n维空间或其中的一个子集．样本观察值(x1，x2，…，xn)是样本空间中的一个点．如果总体 X 的分布函数为F(x)，则 X 的样本 X1，X2，…，Xn 的联合分布函数为如果总体 X 为连续型且概率密度为 f(x)，则样本(X1，X2，…，Xn)的联合概率密度为．

第二节统计量及其分布二、样本矩一、统计量
第二节统计量及其分布一、统计量样本是总体的代表，是统计推断的依据．在应用时，往往不是直接使用样本本身，而是针对不同的问题构造样本的函数，来进行统计推断．定义1 设(X1，X2，…，Xn)是来自总体 X 的一个样本，t = g(t1, t2,…, tn) 为t1, t2, …, tn的一个单值实函数，并且其中不包含任何未知参数，则称 T = g(X1, X2, …, Xn)为一个统计量．设 x1, x2,…, xn 是相应于样本 X1, X2, …,Xn 的样本值，则称 g(x1，x2，…, xn)是统计量T = g(X1,X2,…,Xn)的观察值．二、样本矩下面给出几个常用的统计量．设(X1，X2，…，Xn)是来自总体 X 的一个样本，(x1，x2，…，xn)是样本观察值，定义: 样本均值．

样本分差样本标准差（均方差）．样本k阶(原点)矩（k=1，2，… ) . 样本k阶中心矩（k=1，2，… ) . 显然，．它们的观察值分别为 ,

, . 三、顺序统计量定义2 (X1，X2，…，Xn)是总体X的一个样本，(x1，x2，…，xn)是一个样本观察值，将它由小到大的顺序排列，得到x(1)≤x(2)≤…≤x(n) ，取x(i)作为X(i)的观测值，由此得到的统计量X(1)，X(2)，…，X(n)称为样本(X1，X2，…，Xn)的一组顺序统计量，X(i)称为第i个顺序统计量或第i项．统计量 Rn = x(n)－x(1) 分别称为样本中位数和样本极差．样本均值、顺序统计量的首项及末项、样本中位数描述了样本在数轴上的大致位置；样本方差与样本极差描述了样本的分散程度．

第三节样本分布函数与频率直方图一、样本分布函数
第三节样本分布函数与频率直方图一、样本分布函数样本能够反映总体X的信息，总体X的分布函数F(x)是否能由样本来“表示”？回答是肯定的，我们用下面介绍的样本函数来近似表示总体X的分布函数．定义设x(1)，x(2)，…，x(n)是总体X的顺序统计量的一组观察值，对于任意的实数x，定义函数称Fn(x)为总体X的样本分布函数(或经验分布函数)．

样本分布函数Fn(x)不仅与样本容量 n 有关, 还与所得到的样本观察值有关，故它是随机变量．Fn(x)的图形(图6-1)呈跳跃上升的台阶状, 在x(1)，x(2)，…，x(n)中的不重复的值处，跳跃高度为；在重复 l 次的值处，跳跃高度为．图6-1中的曲线是总体 X 的理论分布函数 F(x) 的图形．图6-1

样本分布函数Fn(x)具有以下性质： 1°0≤Fn(x)≤1； 2°Fn(x)是单调不减函数； 3°Fn(x)是处处右连续的．对于样本观察值 (x1，x2，…，xn)，为了求其对应的样本分布函数 Fn(x) 之值，只须将这 n 个值中小于或等 x 的个数除以样本容量 n 即可．对于给定的x，Fn(x)是 n 次重复独立试验中事件 {X≤x} 出现的频率，而理论分布函数F(x)是事件{X≤x}发生的概率，由伯努利定理知，对任意给定的正数ε，有，即Fn(x)按概率收敛于F(x)．进一步还有如下结论．定理（格利文科(W. Glivenko)定理）设总体X的分布函数为F(x), 样本分布函数Fn(x)，则对于任何实数x，有．证明从略．以上结论是我们用样本去推断总体的依据．

a=t0<t1<t2<…<tk－1<tk=b．
二、频率直方图如果说样本分布函数是通过随机样本对总体分布函数的反映，那么下面介绍的频率直方图就是样本对总体概率密度函数的反映(假设总体是连续随机变量)．依据总体 X 的一个样本观察值(x1，x2，…，xn)画直方图的一般步骤如下： 1°找出x1，x2，…，xn中的最小值x(1)与最大值x(n)． 2°选择常数a、b(a≤x(1)，b≥x(n))，在区间[a，b]内插入k－1个分点； a=t0<t1<t2<…<tk－1<tk=b．用来对样本观察值进行分组．为了方便，可将区间[a,b]分成 k 等分，此时组距是 i=1，2，…，k．组数 k 要选择适当．一般地说，当20≤n≤100时，取 k 为 5~10；当 n>100时，取 k 为10~15．通常取 ti 比样本观察值精度高一位．

fi≈P{ti-1<X≤ti}=pi，i=1，2，…，k，
3°对于每个小区间(ti-1,ti]，数出x1，x2，…，xn落入其中的个数 ni (称为频数)，再算出频率，i=1, 2, …, k． 4°在 xOy 平面上, 对每个 i, 画出以(ti-1,ti] 为底，以 yi=fi /Δt (i=1，2，…，k) 为高的矩形．这种图称为频率直方图，简称直方图．直方图中第 i 个小矩形面积 yiΔt=fi (i=1，2，…，k)，k 个小矩形的面积之和为1．由于样本观察值的 n 个数值 x1，x2，…，xn是从总体X 中独立抽取的，它们落入区间 (ti-1,ti] 的频率 fi 近似等于随机变量 X 在该区间内取值的概率，即 fi≈P{ti-1<X≤ti}=pi，i=1，2，…，k，当 X 是连续随机变量，且概率密度为 f (x) 时，则有，i=1，2，…，k．由此可见直方图在一定程度上反映了X 的概率密度情况．

试根据这些数据作出直方图，并根据直方图估计含硅量 X 的分布．
0.86 0.83 0.77 0.81 0.80 0.79 0.82 0.87 0.78 0.71 0.95 0.76 0.84 0.90 0.75 0.73 0.89 0.74 0.85 0.88 0.65 0.64 试根据这些数据作出直方图，并根据直方图估计含硅量 X 的分布．

解 1°从n=120个数据中找出最小值 x(1)= 0.64及最大值 x(120)= 0.95．
2°取 a = 0.635, b = 0.955, 分 k = 16 组，组距． 3°分组及频数如表 6-1所示．表中的组中值 (i=1,2,…,16)将会在第八章第五节用到． 4°以横轴 x 轴表示含硅量，a= t0= 0.635，t1= 0.655，…，t15= 0.935， b= t16 = 0.955，Δt = 0.02，取纵坐标的单位长为，则直方图中第 i 个矩形的高度 , 正好是 ni (i=1,2,…,16)个单位．

分组(ti-1,ti)] 频数组中值 0.635~ 0.655~ 0.675~ 0.695~ 0.715~ 0.735~ 0.755~ 0.775~ 0.795~ 0.815~ 0.835~ 0.855~ 0.875~ 0.895~ 0.915~ 0.935~

有了直方图，就可以大致画出 X 的概率密度曲线．从图上看，曲线很象正态分布的概率密度曲线．
14 6 1 有了直方图，就可以大致画出 X 的概率密度曲线．从图上看，曲线很象正态分布的概率密度曲线．

第四节几个常用统计量的分布统计量是样本的函数，它是一个随机变量, 下面介绍来自正态总体的几个常用统计量的分布．一、分布
第四节几个常用统计量的分布统计量是样本的函数，它是一个随机变量, 下面介绍来自正态总体的几个常用统计量的分布．一、分布 1．定义设X1，X2，…，Xn是来自正态总体N(0，1)的样本，则称统计量为服从自由度为 n 的分布，记作 ~ (n)． f(x) n=1 n=5 n=15 x 2． (n)分布的概率密度（不证）：其中为函数在处的函数值．

3．(n)分布的性质：性质1：设 ~ (n)，则E( )=n，D( )=2n．证：因Xi~N(0,1)，E(Xi2)=1 ，D(Xi)=1．．性质2：设 X~ (n1)，Y~ (n2)，且X与Y相互独立, 则 X+Y~ (n1+n2)．性质3：设为X的样本，则．证：，由定义性质4：设 ~ (n)，则对任意实数x，有

4． (n)分布的上分位点：设 ~ (n)，对于给定的正数，称满足条件的点为 (n) 分布的上分位点．
例如取，则查附表4（395)有． 4． (n)分布的上分位点：设 ~ (n)，对于给定的正数，称满足条件的点为 (n) 分布的上分位点． f(x) x

二、t 分布（学生分布） 1．定义设X~N (0,1)，Y~ (n)，且 X 与Y 独立，则称随机变量服从自由度为 n 的 t 分布，记作 t ~ t (n)． 2．t (n)分布的概率密度(不证)： 3．性质：t (n) 分布的概率密度关于 y 轴对称，且

设 t ~ t (n)，对于给定正数，称满足条件的点为 t (n) 分布的上分位点，且有
f(x) x n=10 n=4 n=1 4．t (n) 分布的上分位点：设 t ~ t (n)，对于给定正数，称满足条件的点为 t (n) 分布的上分位点，且有．

三、F分布 1．定义：设X~ (m)，Y~ (n)，且 X 与 Y 独立，则称随机变量
为服从自由度是 m、n 的 F分布，记作 F~F (m, n)，其中 m 称为第一自由度，n 称为第二自由度． 2．F(m,n)分布的概率密度为

设 F~F(m, n)，对于给定正数，称满足条件的点为F(m, n)分布的上分位点，且有
x f(x) 4．F (m, n) 分布的上分位点：设 F~F(m, n)，对于给定正数，称满足条件的点为F(m, n)分布的上分位点，且有．

第五节正态总体统计量的分布本节介绍来自正态总体的样本均值与样本方差的抽样分布．这是参数估计与假设检验的基础．
第五节正态总体统计量的分布本节介绍来自正态总体的样本均值与样本方差的抽样分布．这是参数估计与假设检验的基础．定理1 设为来自总体 X 的样本，则，．定理．定理3 设X1，X2，…，Xn是正态总体的一个样本，则样本均值与样本方差 S 2 相互独立，且有．

定理4 设X1，X2，…，Xn是正态总体的样本，与S 2分别为样本均值与样本方差, 则有
．证由 , 则有．定理5 设总体，总体，且 X 与 Y 独立．X1，X2，…，与Y1，Y2，…，分别为来自总体 X 与总体 Y 的样本，且这两组样本相互独立．，则有

, . (ii) 若，则，其中． (iii) ．

(iv) ．证 (i) 略 (ii) 由定理 3 得，，于是．又由 (i) 及 t 分布定义，有即 , .

(iv) 由定理 3，，则即 , .

例1 从总体 N ( 52，6.32 ) 中随机抽取一容量为 36 的样本，求样本均值落在 50.8 到 53.8 之间的概率．
解由，即，得所求概率为

例2 设 X1，X2，…，X10 为总体 N (0，0.09)的一个样本，求．
解由，，则有 .（查表394页）

例3 设总体 , 样本 X1， X2, …，X6，设 Y = ( X1+X2+X3 )2 + ( X4+X5+X6 )2，求C, 使CY 服从分布，并求自由度．
由独立性有 , 取，有，自由度为2．解由 , 有 , ,

第六章数理统计的基本知识第一节总体与样本

Similar presentations

Presentation on theme: "第六章数理统计的基本知识第一节总体与样本"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第六章 数理统计的基本知识 第一节 总体与样本

Similar presentations

Presentation on theme: "第六章 数理统计的基本知识 第一节 总体与样本"— Presentation transcript:

Similar presentations

About project

反馈

第六章数理统计的基本知识第一节总体与样本

Presentation on theme: "第六章数理统计的基本知识第一节总体与样本"— Presentation transcript: