Presentation is loading. Please wait.

Presentation is loading. Please wait.

数据的统计描述和分析 撰写:刘伟 董小刚 林玎 制作:李慧玲 李刚健 吉林建工学院基础科学系 2019/7/19.

Similar presentations


Presentation on theme: "数据的统计描述和分析 撰写:刘伟 董小刚 林玎 制作:李慧玲 李刚健 吉林建工学院基础科学系 2019/7/19."— Presentation transcript:

1 数据的统计描述和分析 撰写:刘伟 董小刚 林玎 制作:李慧玲 李刚健 吉林建工学院基础科学系 2019/7/19

2 实验目的 实验内容 1、直观了解统计基本内容。 2、掌握用数学软件包求解统计问题。 1、统计的基本理论。 2、用数学软件包求解统计问题。
3、实验作业。

3 数据的统计描述和分析 统计的基本概念 参数估计 假设检验 2019/7/19

4 一、统计量 2019/7/19

5 2019/7/19

6 二、分布函数的近似求法 2019/7/19

7 ò ò 三、几个在统计中常用的概率分布 1 p = e dy e x F 1 p = +¥ < ¥ - x ) , ( s m N m
2 s m N 正态分布 2 ) ( 1 s m p - = x e dy e x F y 2 ) ( 1 s m p - ò = 密度函数: 分布函数: m 2 s < - x 其中 为均值, 为方差, . 标准正态分布: N (0,1) -4 -2 2 4 6 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 密度函数 2 1 ) ( x e - = p j 分布函数 dy e x y 2 1 ) ( - ò = F p 2019/7/19

8 2019/7/19

9 2019/7/19

10 F分布F(10,50)的密度函数曲线 返回 2019/7/19

11 参数估计 2019/7/19

12 一、点估计的求法 (一)矩估计法 2019/7/19

13 (二)极大似然估计法 2019/7/19

14 二、区间估计的求法 2019/7/19

15 (一)数学期望的置信区间 1、已知DX,求EX的置信区间 2. 未知方差DX,求EX的置信区间 (二)方差的区间估计 返回
2019/7/19

16 假设检验 对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设. 1.参数检验:如果观测的分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验. 参数检验的目的往往是对总体的参数及其有关性质作出明 确的判断. 2.非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类型,这种检验叫非参数检验. 如要求判断总体分布类型的检验就是非参数检验. 2019/7/19

17 假设检验的一般步骤是: 2019/7/19

18 一、参数检验 (一)单个正态总体均值检验 2019/7/19

19 2019/7/19

20 (二)单个正态总体方差检验 2019/7/19

21 (三)两个正态总体均值检验

22 (四)两个正态总体方差检验

23 二、非参数检验 (二)概率纸检验法 概率纸是一种判断总体分布的简便工具.使用它们,可以很快地判断总体分布的类型.概率纸的种类很多. 返回
2019/7/19

24 统计工具箱中的基本统计命令 1.数据的录入、保存和调用 2.基本统计量 3.常见概率分布的函数 4.频 数 直 方 图 的 描 绘
5.参数估计 6.假设检验 7.综合实例 返回 2019/7/19

25 例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下
统计工具箱中的基本统计命令 一、数据的录入、保存和调用 例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下 2019/7/19

26 方法1 1、年份数据以1为增量,用产生向量的方法输入。 命令格式: x=a:h:b t=78:87
2、分别以x和y代表变量职工工资总额和商品零售总额。 x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4] y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0] 3、将变量t、x、y的数据保存在文件data中。 save data t x y 4、进行统计分析时,调用数据文件data中的数据。 load data To MATLAB(txy) 2019/7/19

27 方法2 1、输入矩阵: data=[78,79,80,81,82,83,84,85,86,87,88; 23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4; 41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0] 2、将矩阵data的数据保存在文件data1中:save data1 data 3、进行统计分析时,先用命令: load data1 调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y: t=data(1,:) x=data(2,:) y=data(3,:) 若要调用矩阵data的第j列的数据,可用命令: data(:,j) To MATLAB(data) 返回 2019/7/19

28 对随机变量x,计算其基本统计量的命令如下: 均值:mean(x) 中位数:median(x) 标准差:std(x) 方差:var(x)
二、基本统计量 对随机变量x,计算其基本统计量的命令如下: 均值:mean(x) 中位数:median(x) 标准差:std(x) 方差:var(x) 偏度:skewness(x) 峰度:kurtosis(x) 例 对例1中的职工工资总额x,可计算上述基本统计量。 To MATLAB(tjl) 返回 2019/7/19

29 三、常见概率分布的函数 Matlab工具箱对每一种分布都提供五类函数,其命令字符为: 概率密度:pdf 概率分布:cdf
逆概率分布:inv 均值与方差:stat 随机数生成:rnd (当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.) 2019/7/19

30 y=normpdf(x); z=normpdf(x,0,2); plot(x,y,x,z)
如对均值为mu、标准差为sigma的正态分布,举例如下: 1、密度函数:p=normpdf(x,mu,sigma) (当mu=0,sigma=1时可缺省) 在Matlab中输入以下命令: x=-6:0.01:6; y=normpdf(x); z=normpdf(x,0,2); plot(x,y,x,z) To MATLAB(liti2) 2019/7/19

31 2、概率分布:P=normcdf(x,mu,sigma)
To MATLAB(liti3) 3、逆概率分布:x=norminv(P,mu,sigma). 即求出x ,使得P{X<x}=P.此命令可用来求分位数. To MATLAB(liti4) 2019/7/19

32 4、均值与方差:[m,v]=normstat(mu,sigma)
To MATLAB(liti5) 5、随机数生成:normrnd(mu,sigma,m,n).产生mn阶的正态分布随机数矩阵. 例6 命令:M=normrnd([1 2 3;4 5 6],0.1,2,3) 结果为:M= 此命令产生了23的正态分布随机数矩阵,各数分别服从N(1,0.12), N(2,22), N(3, 32), N(4,0.12), N(5, 22),N(6, 32) To MATLAB(liti6) 返回 2019/7/19

33 四、频 数 直 方 图 的 描 绘 1、给出数组data的频数表的命令为: [N,X]=hist(data,k)
此命令将区间[min(data),max(data)]分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X. 2、描绘数组data的频数直方图的命令为: hist(data,k) 返回 2019/7/19

34 五、参数估计 1、正态总体的参数估计 设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:
[muhat,sigmahat,muci,sigmaci] = normfit(X,alpha) 此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值, muci是均值的区间估计,sigmaci是标准差的区间估计. 2019/7/19

35 一.取容量充分大的样本(n>50),按中心极限定理,它近似地 服从正态分布; 二.使用Matlab工具箱中具有特定分布总体的估计命令.
2、其它分布的参数估计 有两种处理办法: 一.取容量充分大的样本(n>50),按中心极限定理,它近似地 服从正态分布; 二.使用Matlab工具箱中具有特定分布总体的估计命令. (1)[muhat, muci] = expfit(X,alpha)----- 在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计. (2)[lambdahat, lambdaci] = poissfit(X,alpha)----- 在显著性水平alpha下,求泊松分布的数据X 的参数的点估计及其区间估计. (3)[phat, pci] = weibfit(X,alpha)----- 在显著性水平alpha下,求Weibull分布的数据X 的参数的点估计及其区间估计. 返回 2019/7/19

36 六、假设检验 在总体服从正态分布的情况下,可用以下命令进行假设检验. 1、总体方差sigma2已知时,总体均值的检验使用 z-检验
[h,sig,ci] = ztest(x,m,sigma,alpha,tail) 检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差, alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值: tail = 0,检验假设“x 的均值等于 m ” tail = 1,检验假设“x 的均值大于 m ” tail =-1,检验假设“x 的均值小于 m ” tail的缺省值为 0, alpha的缺省值为 0.05. 返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间. 2019/7/19

37 例7 Matlab统计工具箱中的数据文件gas. mat
例7 Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115. 解 作假设:m = 115. 首先取出数据,用以下命令: load gas 然后用以下命令检验 [h,sig,ci] = ztest(price1,115,4) To MATLAB(liti7) 返回:h = 0,sig = ,ci = [ ]. 检验结果: 1. 布尔变量h=0, 表示不拒绝零假设. 说明提出的假设均值115 是合理的. 2. sig-值为0.8668, 远超过0.5, 不能拒绝零假设 3. 95%的置信区间为[113.4, 116.9], 它完全包括115, 且精度很 高. . 2019/7/19

38 2、总体方差sigma2未知时,总体均值的检验使用t-检验
[h,sig,ci] = ttest(x,m,alpha,tail) 检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值: tail = 0,检验假设“x 的均值等于 m ” tail = 1,检验假设“x 的均值大于 m ” tail =-1,检验假设“x 的均值小于 m ” tail的缺省值为 0, alpha的缺省值为 0.05. 返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间. 2019/7/19

39 例8 试检验例8中二月份油价 Price2的均值是否等于115. 解 作假设:m = 115,
[h,sig,ci] = ttest( price2 ,115) To MATLAB(liti8) 返回:h = 1,sig = e-004,ci =[ ]. 检验结果: 1. 布尔变量h=1, 表示拒绝零假设. 说明提出的假 设油价均值115是不合理的. 2. 95%的置信区间为[ ], 它不包括 115, 故不能接受假设. 3. sig-值为4.9517e-004, 远小于0.5, 不能接受零 假设. 2019/7/19

40 [h,sig,ci] = ttest2(x,y,alpha,tail)
tail = 0,检验假设“x 的均值等于 y 的均值 ” tail = 1,检验假设“x 的均值大于 y 的均值 ” tail =-1,检验假设“x 的均值小于 y 的均值 ” tail的缺省值为 0, alpha的缺省值为 0.05. 返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为与x与y均值差的的 1-alpha 置信区间. 2019/7/19

41 例9 试检验例8中一月份油价Price1与二月份的油价Price2均值是否相同.
解 用以下命令检验 [h,sig,ci] = ttest2(price1,price2) To MATLAB(liti9) 返回:h = 1,sig = ,ci =[-5.8,-0.9]. 检验结果:1. 布尔变量h=1, 表示拒绝零假设. 说明提出的 假设“油价均值相同”是不合理的. 2. 95%的置信区间为[-5.8,-0.9],说明一月份油 价比二月份油价约低1至6分. 3. sig-值为0.0083, 远小于0.5, 不能接受“油价均 相同”假设. 2019/7/19

42 4、非参数检验:总体分布的检验 Matlab工具箱提供了两个对总体分布进行检验的命令: (1)h = normplot(x)
(2)h = weibplot(x) 此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态. 返回 2019/7/19

43 试观察该刀具出现故障时完成的零件数属于哪种分布.
例10 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下: 试观察该刀具出现故障时完成的零件数属于哪种分布. 2019/7/19

44 [muhat,sigmahat,muci,sigmaci] = normfit(x)
解 1、数据输入 To MATLAB(liti101) 2、作频数直方图 hist(x,10) To MATLAB(liti102) (看起来刀具寿命服从正态分布) 3、分布的正态性检验 normplot(x) To MATLAB(liti103) (刀具寿命近似服从正态分布) To MATLAB(liti104) 4、参数估计: [muhat,sigmahat,muci,sigmaci] = normfit(x) 估计出该刀具的均值为594,方差204,均值的0.95置信区间为[ , ],方差的0.95置信区间为[ , ]. 2019/7/19

45 5、假设检验 结果:h = 0,sig = 1,ci =[553.4962,634.5038].
To MATLAB(liti105) 5、假设检验 已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值 m 是否等于594. 结果:h = 0,sig = 1,ci =[ , ]. 检验结果: 1. 布尔变量h=0, 表示不拒绝零假设. 说 明提出的假设寿命均值594是合理的. 2. 95%的置信区间为[553.5,634.5], 它 完全包括594, 且精度很高. 3. sig-值为1, 远超过0.5, 不能拒绝零假 设. 返回 2019/7/19

46 作 业 1、某校60名学生的一次考试成绩如下: 1)计算均值、标准差、极差、偏度、峰度,画出直方图; 2)检验分布的正态性; 3)若检验符合正态分布,估计正态分布的参数并检验参数. 2019/7/19

47 2、据说某地汽油的价格是每加仑115美分,为了验证这种说法,一位学者开车随机选择了一些加油站,得到某年一月和二月的数据如下:
一月: 二月: 1)分别用两个月的数据验证这种说法的可靠性; 2)分别给出1月和2月汽油价格的置信区间; 3)给出1月和2月汽油价格差的置信区间. 2019/7/19


Download ppt "数据的统计描述和分析 撰写:刘伟 董小刚 林玎 制作:李慧玲 李刚健 吉林建工学院基础科学系 2019/7/19."

Similar presentations


Ads by Google