数据的统计描述和分析 撰写:刘伟 董小刚 林玎 制作:李慧玲 李刚健 吉林建工学院基础科学系 2019/7/19.

Slides:



Advertisements
Similar presentations
第一章 、随机事件与概率 1.1 、随机事件 1.2 、随机事件的概率 1.3 、随机事件概率的计算 1.4 、伯努利概型.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第八章 第四节 机动 目录 上页 下页 返回 结束 一个方程所确定的隐函数 及其导数 隐函数的微分法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
7.1 假设检验 1. 假设检验的基本原理 2. 假设检验的相关概念 3. 假设检验的一般步骤 4. 典型例题 5. 小结.
07/16/96 概率统计 自考辅导.
第六章 样本及抽样分布 简单随机抽样: 代表性: 中每一个与所考察的总 体有相同的分布。 2.独立性: 是相互独立的随机变量。
第四章 概率、正态分布、常用统计分布.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
08-09冬季学期 概率论与数理统计 姜旭峰,胡玉磊.
第八章 假设检验 本章重点: 1、正确建立零假设和备择假设 2、理解第一类错误和第二类错误 3、大样本情况下单个总体的假设检验
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
主要内容 § 3.1 多维随机变量及联合分布 联合分布函里数 联合分布律 联合概率密度 § 3.2 二维随机变量的边缘分布
本讲义可在网址 或 ftp://math.shekou.com 下载
不确定度的传递与合成 间接测量结果不确定度的评估
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
区间估计 Interval Estimation.
统计学期末复习
Introduction To Mean Shift
第6章 统计量及其抽样分布 统计量 关于分布的几个概念 由正态分布导出的几个重要分布 样本均值的分布与中心极限定理 样本比例的抽样分布
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
《 数学实验》7  概率论 样本描述 参数估计 假设检验  方差分析.
本次课讲授:第二章第十一节,第十二节,第三章第一节, 下次课讲第三章第二节,第三节,第四节; 下次上课时交作业P29—P30
计算机数学基础 主讲老师: 邓辉文.
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
第十章 方差分析.
数据统计与分析 秦 猛 南京大学物理系 手机: 第十讲 数据统计与分析 秦 猛 南京大学物理系 办公室:唐仲英楼A 手机:
连续型随机变量及其概率密度 一、概率密度的概念与性质 二、常见连续型随机变量的分布 三、小结.
第七章 参数估计 7.3 参数的区间估计.
1.统计推断 2.程序 实验目的:掌握matlab求解正态总体的均值、方差等未知参数的点估计、置信区间和假设检验的方法。
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
数理统计建模 林秋.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第七章 参数估计 主讲教师:董庆宽 副教授 研究方向:密码学与信息安全
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
数据统计与分析 秦 猛 南京大学物理系 第11讲 办公室:唐仲英楼A
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
难点:连续变量函数分布与二维连续变量分布
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第五章 数理统计的基本知识 §5.1 总体与样本.
第八章 假设检验 8.3 两个正态总体参数的假设检验.
参数估计 参数估计问题:知道随机变量(总体)的分布类型, 但确切的形式不知道,根据样本来估计总体的参数,这 类问题称为参数估计。
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
贝叶斯估计 Bayes Estimation
7.3 参数的区间估计 一、区间估计基本概念 二、正态总体均值与方差的区间估计 三、小结.
Presentation transcript:

数据的统计描述和分析 撰写:刘伟 董小刚 林玎 制作:李慧玲 李刚健 吉林建工学院基础科学系 2019/7/19

实验目的 实验内容 1、直观了解统计基本内容。 2、掌握用数学软件包求解统计问题。 1、统计的基本理论。 2、用数学软件包求解统计问题。 3、实验作业。

数据的统计描述和分析 统计的基本概念 参数估计 假设检验 2019/7/19

一、统计量 2019/7/19

2019/7/19

二、分布函数的近似求法 2019/7/19

ò ò 三、几个在统计中常用的概率分布 1 p = e dy e x F 1 p = +¥ < ¥ - x ) , ( s m N m 2 s m N . 正态分布 2 ) ( 1 s m p - = x e dy e x F y 2 ) ( 1 s m p - ¥ ò = 密度函数: 分布函数: m 2 s +¥ < ¥ - x 其中 为均值, 为方差, . 标准正态分布: N (0,1) -4 -2 2 4 6 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 密度函数 2 1 ) ( x e - = p j 分布函数 , dy e x y 2 1 ) ( - ¥ ò = F p 2019/7/19

2019/7/19

2019/7/19

F分布F(10,50)的密度函数曲线 返回 2019/7/19

参数估计 2019/7/19

一、点估计的求法 (一)矩估计法 2019/7/19

(二)极大似然估计法 2019/7/19

二、区间估计的求法 2019/7/19

(一)数学期望的置信区间 1、已知DX,求EX的置信区间 2. 未知方差DX,求EX的置信区间 (二)方差的区间估计 返回 2019/7/19

假设检验 对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设. 1.参数检验:如果观测的分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验. 参数检验的目的往往是对总体的参数及其有关性质作出明 确的判断. 2.非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类型,这种检验叫非参数检验. 如要求判断总体分布类型的检验就是非参数检验. 2019/7/19

假设检验的一般步骤是: 2019/7/19

一、参数检验 (一)单个正态总体均值检验 2019/7/19

2019/7/19

(二)单个正态总体方差检验 2019/7/19

(三)两个正态总体均值检验

(四)两个正态总体方差检验

二、非参数检验 (二)概率纸检验法 概率纸是一种判断总体分布的简便工具.使用它们,可以很快地判断总体分布的类型.概率纸的种类很多. 返回 2019/7/19

统计工具箱中的基本统计命令 1.数据的录入、保存和调用 2.基本统计量 3.常见概率分布的函数 4.频 数 直 方 图 的 描 绘 5.参数估计 6.假设检验 7.综合实例 返回 2019/7/19

例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下 统计工具箱中的基本统计命令 一、数据的录入、保存和调用 例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下 2019/7/19

方法1 1、年份数据以1为增量,用产生向量的方法输入。 命令格式: x=a:h:b t=78:87 2、分别以x和y代表变量职工工资总额和商品零售总额。 x=[23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4] y=[41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0] 3、将变量t、x、y的数据保存在文件data中。 save data t x y 4、进行统计分析时,调用数据文件data中的数据。 load data To MATLAB(txy) 2019/7/19

方法2 1、输入矩阵: data=[78,79,80,81,82,83,84,85,86,87,88; 23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4; 41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0] 2、将矩阵data的数据保存在文件data1中:save data1 data 3、进行统计分析时,先用命令: load data1 调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y: t=data(1,:) x=data(2,:) y=data(3,:) 若要调用矩阵data的第j列的数据,可用命令: data(:,j) To MATLAB(data) 返回 2019/7/19

对随机变量x,计算其基本统计量的命令如下: 均值:mean(x) 中位数:median(x) 标准差:std(x) 方差:var(x) 二、基本统计量 对随机变量x,计算其基本统计量的命令如下: 均值:mean(x) 中位数:median(x) 标准差:std(x) 方差:var(x) 偏度:skewness(x) 峰度:kurtosis(x) 例 对例1中的职工工资总额x,可计算上述基本统计量。 To MATLAB(tjl) 返回 2019/7/19

三、常见概率分布的函数 Matlab工具箱对每一种分布都提供五类函数,其命令字符为: 概率密度:pdf 概率分布:cdf 逆概率分布:inv 均值与方差:stat 随机数生成:rnd (当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.) 2019/7/19

y=normpdf(x); z=normpdf(x,0,2); plot(x,y,x,z) 如对均值为mu、标准差为sigma的正态分布,举例如下: 1、密度函数:p=normpdf(x,mu,sigma) (当mu=0,sigma=1时可缺省) 在Matlab中输入以下命令: x=-6:0.01:6; y=normpdf(x); z=normpdf(x,0,2); plot(x,y,x,z) To MATLAB(liti2) 2019/7/19

2、概率分布:P=normcdf(x,mu,sigma) To MATLAB(liti3) 3、逆概率分布:x=norminv(P,mu,sigma). 即求出x ,使得P{X<x}=P.此命令可用来求分位数. To MATLAB(liti4) 2019/7/19

4、均值与方差:[m,v]=normstat(mu,sigma) To MATLAB(liti5) 5、随机数生成:normrnd(mu,sigma,m,n).产生mn阶的正态分布随机数矩阵. 例6 命令:M=normrnd([1 2 3;4 5 6],0.1,2,3) 结果为:M=0.9567 2.0125 2.8854 3.8334 5.0288 6.1191 此命令产生了23的正态分布随机数矩阵,各数分别服从N(1,0.12), N(2,22), N(3, 32), N(4,0.12), N(5, 22),N(6, 32) To MATLAB(liti6) 返回 2019/7/19

四、频 数 直 方 图 的 描 绘 1、给出数组data的频数表的命令为: [N,X]=hist(data,k) 此命令将区间[min(data),max(data)]分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X. 2、描绘数组data的频数直方图的命令为: hist(data,k) 返回 2019/7/19

五、参数估计 1、正态总体的参数估计 设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得: [muhat,sigmahat,muci,sigmaci] = normfit(X,alpha) 此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值, muci是均值的区间估计,sigmaci是标准差的区间估计. 2019/7/19

一.取容量充分大的样本(n>50),按中心极限定理,它近似地 服从正态分布; 二.使用Matlab工具箱中具有特定分布总体的估计命令. 2、其它分布的参数估计 有两种处理办法: 一.取容量充分大的样本(n>50),按中心极限定理,它近似地 服从正态分布; 二.使用Matlab工具箱中具有特定分布总体的估计命令. (1)[muhat, muci] = expfit(X,alpha)----- 在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计. (2)[lambdahat, lambdaci] = poissfit(X,alpha)----- 在显著性水平alpha下,求泊松分布的数据X 的参数的点估计及其区间估计. (3)[phat, pci] = weibfit(X,alpha)----- 在显著性水平alpha下,求Weibull分布的数据X 的参数的点估计及其区间估计. 返回 2019/7/19

六、假设检验 在总体服从正态分布的情况下,可用以下命令进行假设检验. 1、总体方差sigma2已知时,总体均值的检验使用 z-检验 [h,sig,ci] = ztest(x,m,sigma,alpha,tail) 检验数据 x 的关于均值的某一假设是否成立,其中sigma 为已知方差, alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值: tail = 0,检验假设“x 的均值等于 m ” tail = 1,检验假设“x 的均值大于 m ” tail =-1,检验假设“x 的均值小于 m ” tail的缺省值为 0, alpha的缺省值为 0.05. 返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间. 2019/7/19

例7 Matlab统计工具箱中的数据文件gas. mat 例7 Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115. 解 作假设:m = 115. 首先取出数据,用以下命令: load gas 然后用以下命令检验 [h,sig,ci] = ztest(price1,115,4) To MATLAB(liti7) 返回:h = 0,sig = 0.8668,ci = [113.3970 116.9030]. 检验结果: 1. 布尔变量h=0, 表示不拒绝零假设. 说明提出的假设均值115 是合理的. 2. sig-值为0.8668, 远超过0.5, 不能拒绝零假设 3. 95%的置信区间为[113.4, 116.9], 它完全包括115, 且精度很 高. . 2019/7/19

2、总体方差sigma2未知时,总体均值的检验使用t-检验 [h,sig,ci] = ttest(x,m,alpha,tail) 检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值: tail = 0,检验假设“x 的均值等于 m ” tail = 1,检验假设“x 的均值大于 m ” tail =-1,检验假设“x 的均值小于 m ” tail的缺省值为 0, alpha的缺省值为 0.05. 返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间. 2019/7/19

例8 试检验例8中二月份油价 Price2的均值是否等于115. 解 作假设:m = 115, [h,sig,ci] = ttest( price2 ,115) To MATLAB(liti8) 返回:h = 1,sig = 4.9517e-004,ci =[116.8 120.2]. 检验结果: 1. 布尔变量h=1, 表示拒绝零假设. 说明提出的假 设油价均值115是不合理的. 2. 95%的置信区间为[116.8 120.2], 它不包括 115, 故不能接受假设. 3. sig-值为4.9517e-004, 远小于0.5, 不能接受零 假设. 2019/7/19

[h,sig,ci] = ttest2(x,y,alpha,tail) tail = 0,检验假设“x 的均值等于 y 的均值 ” tail = 1,检验假设“x 的均值大于 y 的均值 ” tail =-1,检验假设“x 的均值小于 y 的均值 ” tail的缺省值为 0, alpha的缺省值为 0.05. 返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为与x与y均值差的的 1-alpha 置信区间. 2019/7/19

例9 试检验例8中一月份油价Price1与二月份的油价Price2均值是否相同. 解 用以下命令检验 [h,sig,ci] = ttest2(price1,price2) To MATLAB(liti9) 返回:h = 1,sig = 0.0083,ci =[-5.8,-0.9]. 检验结果:1. 布尔变量h=1, 表示拒绝零假设. 说明提出的 假设“油价均值相同”是不合理的. 2. 95%的置信区间为[-5.8,-0.9],说明一月份油 价比二月份油价约低1至6分. 3. sig-值为0.0083, 远小于0.5, 不能接受“油价均 相同”假设. 2019/7/19

4、非参数检验:总体分布的检验 Matlab工具箱提供了两个对总体分布进行检验的命令: (1)h = normplot(x) (2)h = weibplot(x) 此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态. 返回 2019/7/19

试观察该刀具出现故障时完成的零件数属于哪种分布. 例10 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下: 459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851 试观察该刀具出现故障时完成的零件数属于哪种分布. 2019/7/19

[muhat,sigmahat,muci,sigmaci] = normfit(x) 解 1、数据输入 To MATLAB(liti101) 2、作频数直方图 hist(x,10) To MATLAB(liti102) (看起来刀具寿命服从正态分布) 3、分布的正态性检验 normplot(x) To MATLAB(liti103) (刀具寿命近似服从正态分布) To MATLAB(liti104) 4、参数估计: [muhat,sigmahat,muci,sigmaci] = normfit(x) 估计出该刀具的均值为594,方差204,均值的0.95置信区间为[ 553.4962,634.5038],方差的0.95置信区间为[ 179.2276,237.1329]. 2019/7/19

5、假设检验 结果:h = 0,sig = 1,ci =[553.4962,634.5038]. To MATLAB(liti105) 5、假设检验 已知刀具的寿命服从正态分布,现在方差未知的情况下,检验其均值 m 是否等于594. 结果:h = 0,sig = 1,ci =[553.4962,634.5038]. 检验结果: 1. 布尔变量h=0, 表示不拒绝零假设. 说 明提出的假设寿命均值594是合理的. 2. 95%的置信区间为[553.5,634.5], 它 完全包括594, 且精度很高. 3. sig-值为1, 远超过0.5, 不能拒绝零假 设. 返回 2019/7/19

作 业 1、某校60名学生的一次考试成绩如下: 93 75 83 93 91 85 84 82 77 76 77 95 94 89 91 88 86 83 96 81 79 97 78 75 67 69 68 84 83 81 75 66 85 70 94 84 83 82 80 78 74 73 76 70 86 76 90 89 71 66 86 73 80 94 79 78 77 63 53 55 1)计算均值、标准差、极差、偏度、峰度,画出直方图; 2)检验分布的正态性; 3)若检验符合正态分布,估计正态分布的参数并检验参数. 2019/7/19

2、据说某地汽油的价格是每加仑115美分,为了验证这种说法,一位学者开车随机选择了一些加油站,得到某年一月和二月的数据如下: 一月:119 117 115 116 112 121 115 122 116 118 109 112 119 112 117 113 114 109 109 118 二月:118 119 115 122 118 121 120 122 128 116 120 123 121 119 117 119 128 126 118 125 1)分别用两个月的数据验证这种说法的可靠性; 2)分别给出1月和2月汽油价格的置信区间; 3)给出1月和2月汽油价格差的置信区间. 2019/7/19