Presentation is loading. Please wait.

Presentation is loading. Please wait.

第十四章 数理统计方法 §14.1 数理统计的基本概念 §14.2 参数的点估计 §14.3 区间估计 §14.4 回归分析 返回.

Similar presentations


Presentation on theme: "第十四章 数理统计方法 §14.1 数理统计的基本概念 §14.2 参数的点估计 §14.3 区间估计 §14.4 回归分析 返回."— Presentation transcript:

1 第十四章 数理统计方法 §14.1 数理统计的基本概念 §14.2 参数的点估计 §14.3 区间估计 §14.4 回归分析 返回

2 §14.1 数理统计的基本概念 一、总体与样本 称研究对象的全体为总体,组成总体的每个基本单元称为个体.
§14.1 数理统计的基本概念 一、总体与样本 称研究对象的全体为总体,组成总体的每个基本单元称为个体. 在一个总体 中,抽取 个个体 ,称为总体 的一个样本,样本所含个体的数目 称为样本容量.

3 样本 是从总体 中随机抽取出来的可能结果,是 个随机变量,但在一次抽取后,它们都是具体的数值,记作 ,称为样本的观测值,简称样本值.
如果总体中每个个体被抽到的机会是均等的,并且每次抽取时总体中的成分不变,这样抽取个体的方法,称为简单随机抽样.由简单随机抽样得到的样本,称为简单随机样本.

4 简单随机样本具有以下两个性质: (1)独立性:即 中,各个随机变量的取值互不影响,这时,我们称 是相互独立的随机变量. (2)代表性:即 中的每一个都与总体X有相同的概率分布.

5 总体、个体、样本和简单随机样本比较: 直观理解 数学本质 总体 研究对象的全体 随机变量X(指某个数量指标) 个体 组成总体的每个基本单元
与总体同分布的某个随机变量Xi 样本 从总体抽出的n个个体 n个随机变量X1,X2,…,Xn 简单随机样本 重复随机抽取所得的样本 n个相互独立且与总体X同分布 的随机变量X1,X2,…,Xn

6 二、样本的数字特征 1.样本均值和样本方差 设 是总体 的容量为 的样本,则称: 为样本均值.          为样本方差.称样本方差 的算术平方根 为样本标准差.

7 对于一组样本值       ,样本均值 表示数据集中的位置,样本方差 刻划了数据对均值 的离散程度, 越大,数据越分散,波动越大; 越小,数据越集中,波动越小.

8 例1 从某总体中抽取一个容量为5的样本,测得样本值为
求样本均值和样本方差. 解 :

9 2.对总体均值和总体方差的点估计 用样本均值的观测值 作为总体均值 的估计值,用样本方差的观测值 作为总体方差 的估计值.这就是对总体均值和总体方差的点估计. 例2 某厂生产螺母,从某日的产品中随机抽取8件,量得内径的毫米数如下: 试估计该日生产的这些螺母内径的均值和标准差.

10 解 : 即螺母内径的均值估计为14.96毫米,标准差估计为0.25毫米.

11 三、统计量 1.统计量 是取自总体的一个样本,则称样 本的不包含任何未知参数的连续函数。 为统计量 。 都是统计量 。

12 由于 都是随机变量,所以统计量也是 随机变量。 取定一组值 时,就得到了统计量 的一个观测值 而当 2.样本矩 是从总体X中抽取出来的一个样本, 称统计量。

13 为k阶样本原点矩.称统计量 为k阶样本中心矩 。 其中 是样本均值.显然,样本均值是一阶原点矩, 但样本方差不是二阶中心矩. 3.统计量的分布

14 (1) 一分布 是取自标准正态总体 。N(0,1)的 一个样本,则统计量 的分布密度为

15 称统计量 服从自由度为n的分布 ,记作 ~ (n)。 其中 Γ— 函数在 的函数值。 分布的图形与自由度n有关(见图14-1), 的点 (n)分布的上100百分位点, 其中f(t)是 (n)分布的概率密度(见图14-2). 对于给定的正数: 0< <1称满足式

16 定理14.1 设 是取自正态总体N( , ) 的一个样本,则 ① 样本均值 ~ N( , ) ② 统计量 ③ 与 相互独立.

17 定理14.2 设 是取自标准正态总体 N(0,1)的一个样本,则 ~ N(0,1/n); ~ (n-1); ③ 与Q相互独立.

18 例3 已知某单位职工的月奖金服从正态分布,总体均值
为200,总体标准差为40,从该总体中抽取一个容量 192~210的概率. 为20的简单随机样本, 求这一样本的均值介于 解 因为X ~ N(200,402),n=20,所以 E( )=200,D( )= 故 ~ N(200,80).因此

19 =2Φ(1.118)-1=0.8686×2-1=0.737 即样本的均值介于192~210的概率是0.737。 (2)t—分布 设X与Y是两个相互独立的随机变量,且 X~ N(0,1),Y~ (n),

20 则统计量 的概率密度为 (-∞< x <+∞) …… 称统计量 服从自由度为n的t—分布, 记作T~ t(n)。

21 t—分布的概率密度函数图形(见图14-3) 关于x=0对称, 且形状类似于正态概率密度的图形。 对于给定的正数:0< <1,称满足式 的点 为t—分布的上 百分位点, 其中 f(t)是t—分布的概率密度(见图14-4)。 定理14.3 设X1,X2,…,Xn(n≥2)是取自正态总体 N( , )的一个样本,则

22 N( , ) 定理14.4 设X与Y是两个相互独立的随机变量 , X1,X2,…,Xn1 是取自正态总体 N( , )的一个 样本,Y1,Y2,…,Yn2 是取自正态总体 的一个样本 ,则随机变量

23 其中 与 分别是两总体的样本均值 , 与 分别是 两总体的样本方差 , 与 分别是两总体的样本容量。 特别地,当 = = n 时,有

24 (3)F—分布 若随机变量X1 ~ ( ),X2 ~ ( ),且X1与X2 相互独立,则统计量 的概率密度函数为

25 称统计量 服从第一自由度为 ,第二自由 度为 的F—分布,记作F ~ F( , )即 ~ F( ,) F—分布的图形与 有关(见图14-5)。 对于给定的正数 :0 < <1,称满足式

26 的点 为F—分布的上 百分位点,其中 f(t)是F—分布的概率密度 (见图14-6)。 定理 设X1,X2,…,Xn1是取自正态总体 N( , )的一个样本,Y1,Y2,…, Yn2是取自 正态总体N( , )的一个样本,且X与Y相互独立 , 则随机变量 其中 与 分别是两总体的样本方差, 与 分别 是两总体的样本容量 。

27 §14.2 参数的点估计 量为参数 的一个估计量,当x1,x2,…,xn为一组 设 为总体X的待估计参数,X1,X2,…,Xn 是总体X的一个样本 。构造一个统计量 作为 参数的一个估计,称统计 就是 的一个点估计 值。 样本值时,则

28 x1,x2,…,xn为总体X的一组样本值, 样本的k阶
一、矩估计 (k=1,2,…,m)中也包含了未知参数 设总体X的分布中包含参数 , 则其分 布函数可以表示成 。 显然它的k阶原 点矩 ,即 ,又设 (k=1,2,…,m),按照“当参数等于其估计量时,总体矩等于相应的样本矩”的原则 x1,x2,…,xn为总体X的一组样本值, 样本的k阶 原点矩为

29 建立方程, 即有

30 由上面m个方程,解出m个未知参数( )就是
( )的矩估计量. 例2 设某种灯泡的寿命X ~ N( ,),其中 和 未知, 今随机抽取5只灯泡,测得寿命(单位:h)分别为 求 和 的估计值. 解 根据例1的结论,得

31 L( ,x1,x2,…,xn)= 即 和 的估计值分别为 =1492, =14762.4。 二、最大似然估计
即 和 的估计值分别为 =1492, = 。 二、最大似然估计 设x1,x2,…,xn是来自密度为f(x;)的一个样本, 是未知参数,称 f(X1; ) f(X2; ) … f(Xn; ) 为 的似然函数,记作L( ,x1,x2,…,xn),即 L( ,x1,x2,…,xn)= f(x1;)f(x 2;)…f(x n;)

32 由于样本值x1,x2,…,xn是常数,因此L是参数的函数
使似然函数L(x1,x2,…,xn; )达到最大值的估计 称为参数 最大似然估计量.记作 = (x1,x2,…,xn) 例4 设总体X的分布为指数分布,其密度为

33 L(X1,X2,…,Xn; ) = f(X1; )f(X2; )…f(Xn; ) 其中λ为未知参数.设X1,X2,…,Xn是来自总体X的
一个样本,求参数λ的最大似然估计。 解 似然函数为 L(X1,X2,…,Xn; ) = f(X1; )f(X2; )…f(Xn; ) 取对数,得 ……

34 解方程…… 故参数λ的最大似然估计量为 三、估计的评价标准 1.无偏性 定义14.1 如果参数 的估计量(X1,X2,…,Xn)满足: E( )=

35 则称 为 参数的无偏估计量 。 例7 证明 ( ,i=1,2,…,n,且 ) 是总体均值 的无偏估计量. 证 因为 所以 是 的无偏估计量. 2.有效性

36 定义14.2 若 ,都是的无偏估计,而且D( )< D( )
则称 比 更有效. 样本均值 ( i=1,2,…,n,且 , ) 都是总体均值的无偏估计量,验算它们的方差可知比更有效。 例9 若总体X服从泊松分布 …… k=0,1,2,…

37 对于容量为n(n>2)的样本X1,X2,…,Xn,
证明: 比 有效。 证 因为E(Xi)=λ, 所以E( )=λ,E( )=λ, 即 与 都是λ的无偏估计.但是D( )=λ/n, D( )=λ/2,所以比有效. 从上面两个评定估计量好坏的标准可知:方差最小的无

38 偏估计是一个“最佳”的估计.可以证明: N( ,),则样本均值 = 与样本方差 是总体均值 与 总体方差的最小 方差无偏估计。 率p的最小方差无偏估计;(2)若总体X服从正态分布 (1)频率 是概

39 §14.3 区间估计 一、置信区间与置信度 是各次独立的,且都遵从N(0, ) 例1 设X1,X2,…,Xn是物体长度的测量值,已知误差
§14.3 区间估计 一、置信区间与置信度 是各次独立的,且都遵从N(0, ) 例1 设X1,X2,…,Xn是物体长度的测量值,已知误差 εi(i=1,2,…,n) 其中是已知的常数,问以99%的把握可以断言长度的真值 在什么范围内?

40 解 因为测量值xi =+εi,根据期望和方差的性质,有E(xi)= ,D(xi)= D(εi),
以X1,X2,…,Xn是独立同分布的随机变量,即 Xi ~ N( , ), 于是 的点估计量 = 就服从正态分布N( , ), 由正态分布的性质可知

41 也即以0.95的概率断言不等式 成立,此不等式 这样就获得了长度真值的一个估计区间,该区间称为置信 真值 的偶然情况,出现这种偶然情况的概率有5% (即1-95%)。 就是 或写成 。 度为95%的置信区间.当然,也可能碰上这个区间不包含 完全类似,有以99%的把握(概率)断言真值 。

42 为参数 的置信度为1- 的置信 定义14.3 设X1,X2,…,Xn是分布密度为f(x;)的 一个样本, 对给定的0< <1,如果能求得两个统计量 (X1,X2,…,Xn)与 (X1,X2,…,Xn)使得 则称1- 为置信度,称区间 [(X1,X2,…,Xn), P[ (X1,X2,…,Xn)≤ ≤ (X1,X2,…,Xn)]=1- 区间.置信度简称为信度,置信度为1- 的 置信区间在 (X1,X2,…,Xn)]

43 不至于混淆时也简称为置信区间。 求置信区间的步骤如下: 1.明确问题:明确要估计的参数,确定置信度; 2.用参数的点估计,导出估计量的分布; 3.利用估计量的分布给出置信区间. 二、数学期望的区间估计 1.已知方差 ,对 期望进行区间估计 设X1,X2,…,Xn为总体N( , )的一个样本,

44 其中 未知, (已知),所以 = ~ N( , ) 对于给定的置信度1- ,存在 , , 使得 即所求期望的的置信度为1- 的置信区间为

45 例2 从正态总体N( ,4)中抽取容量为4的样本,
样本均值为 = =13.2.求的置信度为0.95的置信 区间。 解 因为1- =0.95,所以 =0.05,查正态分布数值表, 故, 于是

46 即 的置信度为0.95的置信区间是(9.28,17.12) 2.未知方差 ,对期望 进行区间估计 设X1,X2,…,Xn为总体N( , )的一个样本, 由于方差 未知,用 的无偏估计样本方差 来估计 , 并且由定理12.3可知

47 对于给定的置信度1- ,存在 , (见图14-8),使得 故所求期望的的置信度为1- 的置信区间为

48 例3 用某仪器测量温度,重复5次,得 , , , 若测得的数据 服从正态分布,试求温度真值所在的范围?( =0.05) 解 在总体方差未知的情况下,总体均值(温度 真值)的置信区间是

49 查t—分布表可知 计算知 = =1259, 所以

50 三、方差 的区间估计 故温度真值的置信度为0.95的置信区间是 (1244.2, 1273.8).
三、方差 的区间估计 当总体N( , )的参数未知时,方差 的置信度

51 1- 的置信区间为 (见图14-9)

52 §14.4 回归分析 由一个(或一组)非随机变量来估计或预测某一个 随机变量的观测值时,所建立的数学模型和所进行的统
§14.4 回归分析 由一个(或一组)非随机变量来估计或预测某一个 随机变量的观测值时,所建立的数学模型和所进行的统 计分析,称为回归分析 .如果这个模型是线性的 ,就称为 线性回归分析.研究两个变量间的相关关系的回归分析, 称为一元回归分析.

53 yi=f(xi )+ε 一、元线性回归分析 用以近似地描述具有相关关系的变量间的联系的 函数,称为回归函数.
由于Y与x之间不存在完全确定的函数关系,因此 必须把随机波动产生的影响考虑在内.于是模型的 一般形式为 yi=f(xi )+ε 其中Y是随机变量,x是普通变量,ε是随机项.

54 yi=f(xi)+εi(i=1,2,…,n)
若进行n次独立试验,得到变量Y与x的一组观测值 (xi,yi)(i=1,2,…,n),则有 yi=f(xi)+εi(i=1,2,…,n) 将点(xi,yi)画在平面直角坐标系中得到的图称为散 点图(见图14-10). 图14-10

55 如果所有的散点大体上散布在某一条直线附近
(见图14-11),就可以认为Y对x的回归函数的类型为 直线型,即 ,称此方程为Y对x的回归直线方程,并称其中b的为回归系数,在y的上方加“^”,是为了区别于Y的实际观测值y. 如果随机变量Y与非随机变量x之间存在着线性相关关系,则可用回归直线方程 来描述. 图14-11

56 二、最小二乘法 设n次试验得到的观测数据为(x1,y1),(x2,y2), …,(xn,yn),则有 (i=1,2,…,n) 即 (i=1,2,…,n) 取全部误差的平方和为

57 上式中只有a,b是未知数,即Q是a,b的函数,要找出一条总的看来最接近这n个观测点的直线,就是要求出使Q取得最小值的a,b(记作 , )
上式中只有a,b是未知数,即Q是a,b的函数,要找出一条总的看来最接近这n个观测点的直线,就是要求出使Q取得最小值的a,b(记作 , ).由于平方又叫做二乘方,因此把这种使“偏差平方和为最小”的方法称为最小二乘法 .这样求得的 , 称为参数a,b的最小二乘估计. , 的求法如下

58 整理可得 解此方程组,可得 为了方便记忆,引入记号

59 例1 以家庭为单位,某种商品的月需求量与该商品价格之间的一组调查数据为
, 于是有 例1 以家庭为单位,某种商品的月需求量与该商品价格之间的一组调查数据为 价格xi(元) 2 4 4.6 5 5.2 5.6 6 6.6 7 需求量yi(千克) 3.5 3 2.7 2.4 2.5 1.5 1.2

60 将这10对数字看作平面上点的坐标画出(见图14-12),易见所有散点大体上分布在一直线的附近,因此,可设月需求量Y对价格x的回归方程为
x y 图14-12 列出回归分析表:

61

62 从而 所求回归直线为

63 三、一元线性回归的相关性检验 1.相关性检验的统计假设 不能描述随机变量Y ,与非随机变量x之间的相关关系 . 在 中,如果b=0,就说明线性回归方程 所以,为了判断Y与x之间是否存在线性相关关系 ,应当提出的待检假设是 H0:b=0 2.偏差平方和的分解 只反映了x对y的影响,所以回归值

64 就是 中只受 影响的那一部分,而 就是除去 了 的影响后受其它种种因素影响的部分 ,故将 称为残差(或剩余),于是观测值 可以分解为两部分 = (回归值)+( )(残差) 将偏差平方和分解

65 可以证明 于是 Syy=U+Q U反映了回归值 , ,…, 的分散程度.称U为回

66 归平方和.至于Q,则是在总偏差中已分离出x对Y的线性
影响之外的其余因素所产生的误差,它反映了观测值偏 离回归直线的程度 .在 的假定下,Q 完全 是由随机项引起的,称Q为剩余平方和. 注意到

67 沿用前面的记号Sxx和Sxy,便有 3.相关性检验 Syy给定后,U,Q的大小就反映了x对y的影响程度,

68 U越大,则Q越小,x对y的影响就越大;U越小,则Q
保留前面公式 (i=1,2,…,n)中 对所做的假定,当H0:b=0成立时,统计量

69 对给定的检验水平 ,由F分布表,可查得满足
的临界值 .如果 ,就接受假设H0, 认为Y对x的线性相关关系不显著;如果 , 就否定假设H0,认为Y对x的线性相关关系显著;如果 ,亦否定假设H0,而且认为Y对x的线性相关关系 特别显著.这种检验方法称为F—检验. 4.一元线性回归分析的步骤

70 (1)列出回归分析表; (2)计算Sxx,Syy和Sxy: (3)计算U、Q的值: (4)计算统计量F的值; (5)查F分布表; (6)比较、判断. (7)在否定H0的情况下,求回归直线方程.

71 四、回归预测 当回归方程 有效时,就可以用 来预报真值y.通常假定y- ~N(0, ),这样通过 对 的估计,就会知道y- 的取值范围. 因此可用 作为 的无偏估计,记作 ,

72 用3 准则,就有 这样估计的y值落在区间 内的相应概率分别近似为0.99和0.95.

73

74 图14-1 返回

75 图14-2 返回

76 图14-3 返回

77 图14-4 返回

78 图14-5 返回

79 图14-6 返回

80 图14-7 返回

81 图14-8 返回

82 图14-9 返回


Download ppt "第十四章 数理统计方法 §14.1 数理统计的基本概念 §14.2 参数的点估计 §14.3 区间估计 §14.4 回归分析 返回."

Similar presentations


Ads by Google