数理统计建模 2012-1-9 林秋.

Slides:

Advertisements

Similar presentations

第一章、随机事件与概率 1.1 、随机事件 1.2 、随机事件的概率 1.3 、随机事件概率的计算 1.4 、伯努利概型.

Advertisements

第五节函数的微分一、微分的定义二、微分的几何意义三、基本初等函数的微分公式与微分运算法则四、微分形式不变性五、微分在近似计算中的应用六、小结.

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.

练一练：在数轴上画出表示下列各数的点，并指出这些点相互间的关系： -6 ， 6 ， -3 ， 3 ， -1.5, 1.5.

7.1 假设检验 1. 假设检验的基本原理 2. 假设检验的相关概念 3. 假设检验的一般步骤 4. 典型例题 5. 小结.

第四章假设检验第4.1节假设检验的基本概念第4.2节正态总体均值与方差的假设检验第4.3节非参数假设检验方法

第一章序列的统计量、检验和分布 EViews提供序列的各种统计图、统计方法及过程。当用前述的方法向工作文件中读入数据后，就可以对这些数据进行统计分析和图表分析。 EViews可以计算一个序列的各种统计量并可用表、图等形式将其表现出来。视图包括最简单的曲线图，一直到核密度估计。

§3.4 空间直线的方程.

3.4 空间直线的方程.

第四章概率、正态分布、常用统计分布.

6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.

完全随机设计多样本资料秩和检验.

08-09冬季学期概率论与数理统计姜旭峰，胡玉磊.

第 8 章假设检验作者：中国人民大学统计学院贾俊平 PowerPoint 统计学.

本讲义可在网址或 ftp://math.shekou.com 下载

不确定度的传递与合成间接测量结果不确定度的评估

第三节格林公式及其应用（2）一、曲线积分与路径无关的定义二、曲线积分与路径无关的条件三、二元函数的全微分的求积四、小结.

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

§5 微分及其应用一、微分的概念实例:正方形金属薄片受热后面积的改变量..

初中数学八年级下册（苏科版） 10.4 探索三角形相似的条件（2）.

统计学期末复习

Introduction To Mean Shift

第三章多维随机变量及其分布 §2 边缘分布边缘分布函数边缘分布律边缘概率密度.

例1 ：甲击中的环数； X ：乙击中的环数； Y 平较高？试问哪一个人的射击水：的射击水平由下表给出甲、乙两人射击，他们

《数学实验》7  概率论样本描述参数估计假设检验  方差分析.

本次课讲授：第二章第十一节，第十二节，第三章第一节，下次课讲第三章第二节，第三节，第四节；下次上课时交作业P29—P30

§2 求导法则 2.1 求导数的四则运算法则下面分三部分加以证明, 并同时给出相应的推论和例题 .

第一章　函数函数 — 研究对象—第一章分析基础极限 — 研究方法—第二章连续 — 研究桥梁—第二章.

第十章方差分析.

第8章概率论与数理统计问题的求解概率分布与伪随机数生成统计量分析数理统计分析方法及计算机实现统计假设检验方差分析及计算机求解.

数据统计与分析秦猛南京大学物理系手机：第十讲数据统计与分析秦猛南京大学物理系办公室：唐仲英楼A 手机：

概率统计主讲教师叶宏山东大学数学院.

连续型随机变量及其概率密度一、概率密度的概念与性质二、常见连续型随机变量的分布三、小结.

第七章参数估计 7.3 参数的区间估计.

习题一、概率论 1.已知随机事件A，B，C满足在下列三种情况下，计算（1）A，B，C相互独立（2）A，B独立，A，C互不相容

抽样和抽样分布基本计算 Sampling & Sampling distribution

模型分类问题 Presented by 刘婷婷苏琬琳.

概率统计主讲教师叶宏山东大学数学院.

线性代数厦门大学线性代数教学组 2019年4月24日6时8分 / 45.

5.2 常用统计分布一、常见分布二、概率分布的分位数三、小结.

完全随机设计多组资料的比较赵耐青卫生统计教研室.

第五章多总体的统计检验.

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

第4章 Excel电子表格制作软件 4.4 函数（一）.

第三章从概率分布函数的抽样 (Sampling from Probability Distribution Functions)

第16讲相似矩阵与方阵的对角化主要内容： 1.相似矩阵 2. 方阵的对角化.

§6.7 子空间的直和一、直和的定义二、直和的判定三、多个子空间的直和.

一测定气体分子速率分布的实验实验装置金属蒸汽显示屏狭缝接抽气泵.

概率统计主讲教师叶宏山东大学数学院.

第4课时绝对值.

多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer

第四节随机变量函数的概率分布 X 是分布已知的随机变量，g ( · ) 是一个已知的连续函数，如何求随机变量 Y =g(X ) 的分布？

第一部分：概率产生随机样本：对分布采样均匀分布其他分布伪随机数很多统计软件包中都有此工具如在Matlab中：rand

第四节多个样本均数的两两比较多个样本均数的两两比较又称多重比较(multiple comparison)，其目的是推断究竟哪些总体均数之间存在差别。

第15讲特征值与特征向量的性质主要内容：特征值与特征向量的性质.

数据统计与分析秦猛南京大学物理系第11讲办公室：唐仲英楼A

§5.2 抽样分布　　确定统计量的分布——抽样分布，是数理统计的基本问题之一．采用求随机向量的函数的分布的方法可得到抽样分布．由于样本容量一般不止2或 3(甚至还可能是随机的)，故计算往往很复杂，有时还需要特殊技巧或特殊工具．　　由于正态总体是最常见的总体，故本节介绍的几个抽样分布均对正态总体而言．

概率论与数理统计B.

第二节函数的极限一、函数极限的定义二、函数极限的性质三、小结思考题.

§2 方阵的特征值与特征向量.

第三节随机区组设计的方差分析随机区组设计资料的总平方和可以分解为三项：（10.10）.

难点：连续变量函数分布与二维连续变量分布

数理统计基本知识.

第十五讲区间估计本次课讲完区间估计并开始讲授假设检验部分下次课结束假设检验，并进行全书复习本次课程后完成作业的后两部分

第五章数理统计的基本知识 §5.1 总体与样本.

第八章假设检验 8.3 两个正态总体参数的假设检验.

第三章从概率分布函数的抽样 (Sampling from Probability Distribution Functions)

贝叶斯估计 Bayes Estimation

数据的统计描述和分析撰写：刘伟董小刚林玎制作：李慧玲李刚健吉林建工学院基础科学系 2019/7/19.

第6章数理统计基础 §6.1 数理统计的几个基本概念 §6.2 描述统计 §6.3 抽样分布.

Presentation transcript:

数理统计建模 2012-1-9 林秋

概率统计方法 1.概率分布与伪随机数生成 2 统计量分析 3 数理统计分析方法 4 统计假设检验 5 方差分析

MATLAB 第一部分概率分布与伪随机数生成

概率分布与伪随机数生成随机变量名称 MATLAB 密度函数 Beta分布 betapdf 标准正态分布 normpdf 二项分布 binopdf 泊松分布 poisspdf 卡方分布 chi2pdf 瑞利分布 raylpdf 指数分布 exppdf T分布 tpdf F分布 fpdf 均匀分布 unifpdf 伽马分布 gampdf Weibull分布 weibpdf 几何分布 geopdf 非中心F分布 ncfpdf 超几何分布 hygepdf 非中心T分布 nctpdf 对数正态分布 lognpdf 非中心卡方布 ncx2pdf 如果将上述命令中的后缀pdf分别改为cdf，inv，rnd，stat 就得到相应的随机变量的分布函数、分位数、随机数的生成以及均值与方差.

1. 概率函数 pdf(‘name’,x,p1,p2,…,m,n) cdf('name',x,p1,p2,…,m,n) 通用函数 pdf(‘name’,x,p1,p2,…,m,n) 生成以p1,p2,…为参数的m  n 密度函数在x处的值. 'name'表示分布类型的字符串 cdf('name',x,p1,p2,…,m,n) 生成以p1,p2,…为参数的m  n 分布函数在x处的值. 'name'表示分布类型的字符串 icdf('name',x,p1,p2,…,m,n) 生成以p1,p2,…为参数的m  n 逆分布函数(下分位数)在x处的值. 'name'表示分布类型的字符串(同random)

1. 概率函数 normpdf(x,mu,sigma,…) normcdf(x,mu,sigma) norminv(p,mu,sigma) 专用函数 normpdf(x,mu,sigma,…) 返回参数为 mu和sigma的正态分布密度函数在x处的值 normcdf(x,mu,sigma) 正态分布函数值 norminv(p,mu,sigma) normcdf的逆函数，即p下分位数

…… …… 1. 概率函数例： x=-8:0.1:8; y=pdf('norm',x,0,1); plot(x,y,x,y1,':') 注： y=pdf('norm',x,0,1) y=normpdf(x,0,1) 相类似地， y=pdf('beta',x,A,B) y=betapdf(x,A,B) y=pdf('bino,x,N,p) y=binopdf(x,N,p) …… ……

2随机数与伪随机数随机数的生成： (1)物理生成法依赖一些专用的电子元件发出随机信号 (2)数学公式生成法：通过数学算法，仿照随机数发生的规律计算出随机数。此类随机数又称“伪随机数”。伪随机数优点：首先，选择相同的随机数种子，随机数是可以重复的，这样创造了重复实验的条件；其次，随机数满足的统计规律可以人为地选择，例如可以自由选择均匀分布、正态分布等，来满足我们的需要。

2. 随机数的生成 rand(m,n) randn(m,n) randperm(N) perms(1:n) 注：rand(n)=rand(n,n) randn(m,n) 生成标准正态分布N(0,1)的 m  n 随机矩阵 randperm(N) 生成一个由 1:N组成的随机排列 perms(1:n) 生成由 1:n 组成的全排列，共 n! 个

2. 随机数的生成 random('name',A1,A2,A3,m,n) name 的取值可以是通用函数求指定分布的随机数 normal Uniform poisson beta exponential gamma geometric discrete Uniform... ...

2. 随机数的生成 unidrnd(N,m,n) binornd(k,p,m,n) unifrnd(a,b,m,n) 常用分布的随机数

2. 随机数的生成 normrnd(mu,sigma,m,n) R=mvnrnd(mu,sigma,m) 生成n维正态分布数据，mu是n维均值向量，sigma为n阶协方差矩阵(必须是正定的)，R是 m  n 矩阵，每行代表一个随机数

MATLAB 第二部分统计量分析

1. 统计量用n-1标准化用n标准化表示位置的统计量均值——mean(x) 中位数——mode(x) 众数——median(x) 表示分散程度的统计量 std(x)——样本的无偏标准差s std(x,1)——样本的标准差s1 var(x)——样本的无偏方差s^2 var(x,1)——样本的方差s1^2 range(x)——样本的极差用n-1标准化用n标准化

1. 统计量表示分布形状的统计量 skewness(x)——偏度(偏度反映分布的对称性) g1 >0称为右偏态，此时数据位于均值右边的比位于左边的多； g1 <0称为左偏态，情况相反；g1接近0则可认为分布是对称的. kurtosis(x)——峰度(衡量偏离正态分布的程度) 峰度是分布形状的另一种度量，正态分布的峰度为3，若g2比3大很多，表示分布有沉重的尾巴，说明样本中含有较多远离均值的数据.

1. 统计量协方差和相关系数 cov(X,Y) X,Y为向量,各代表一个样本,求得样本协方差 cov(X) X矩阵,各列为一个样本,求得样本协方差矩阵.对角线元素是X各列的方差 corcoef(X) 给出X列向量的相关系数矩阵 corcoef(X,Y) 同cov,给出X,Y向量的相关系数

1. 统计量上分位数 Y=prctile(X,p) X向量(X的p%上分位数) X矩阵(分别求各列的上分位数) trimmean(X,p)

2 统计图——直方图为了直观地了解随机变量的分布特征，如对称性，峰值等，直方图是广泛使用的方法. hist(X,k) 将向量X中数据等距分为k组,并作频数直方图，k=10 [N,X]=hist(Y,k) 不作图,N返回数据频数,X返回各组的中心位置

2 统计图——箱图和概率纸检验函数 boxplot(Y) normplot(x)

MATLAB 第二部分参数估计法

参数估计已知总体的分布类型，总体参数未知，需要根据样本对未知参数作出估计。对于未知参数的估计，可分两种情况：点估计区间估计由于正态分布情况发生的比较多，故我们主要考虑正态分布的情形。

正态总体的参数估计设总体服从正态分布，则其点估计和区间估计可同时由以下命令获得： [muhat,sigmahat,muci,sigmaci] =normfit(X,alpha)

正态总体的参数估计举例

其它分布的参数估计（1）[muhat, muci] = expfit(X,alpha) 在显著性水平alpha下，求指数分布的数据X的均值的点估计及其区间估计. （2）[lambdahat, lambdaci] = poissfit(X,alpha) 在显著性水平alpha下，求泊松分布的数据X 的参数的点估计及其区间估计. （3）[phat, pci] = weibfit(X,alpha) 在显著性水平alpha下，求Weibull分布的数据X 的参数的点估计及其区间估计.

MATLAB 第三部分假设检验法

假设检验对总体X的分布律或分布参数作某种假设，根据抽取的样本观察值，运用数理统计的分析方法，检验这种假设是否正确，从而决定接受假设或拒绝假设. 1.参数检验：如果观测的分布函数类型已知，这时构造出的统计量依赖于总体的分布函数，这种检验称为参数检验. 参数检验的目的往往是对总体的参数及其有关性质作出明确的判断. 2.非参数检验：如果所检验的假设并非是对某个参数作出明确的判断，因而必须要求构造出的检验统计量的分布函数不依赖于观测值的分布函数类型，这种检验叫非参数检验. 如：要求判断总体分布类型的检验就是非参数检验.

假设检验的一般步骤

1. U检验法和t检验法

U检验法

1. U检验法

t 检验法

t 检验法

2. 两个正态总体均值差的t检验两个正态总体方差未知但等方差时，比较两正态总体样本均值的假设检验，用ttest2：

2. 两个正态总体均值差的t检验

2. 两个正态总体均值差的t检验

3. 两个总体一致性的检验——秩和检验

3. 两个总体一致性的检验——秩和检验例某商店为了确定向公司A或公司B 购买某种产品，将A,B公司以往各次进货的次品率进行比较，数据如下所示，设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商品的次品的密度最多只差一个平移，取α = 0.05。 A：7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5 B ：5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3 解分别以μA、μB记公司A、B 的商品次品率总体的均值。所需检验的假设是 H0: μA=μB，H1:μA≠μB . Matlab实现如下： a=[7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5]; b=[5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3]; [p,h]=ranksum(a,b) 求得p=0.8041，h=0，表明两样本总体均值相等的概率为0.8041，并不很接近于零，且h=0说明可以接受原假设，即认为两个公司的商品的质量无明显差异。 41

4. 中位数检验

4. 中位数检验

4. 中位数检验

由随机样本判定分布是否为正态分布，可用下面两个假设算法的函数。 5. 正态分布的拟合优度检验由随机样本判定分布是否为正态分布，可用下面两个假设算法的函数。 s为接受假设的概率值，s越接近于0，则可以拒绝是正态分布的原假设. h=0接受正态分布，h=1拒绝正态分布. 大样本小样本

6. Kolomogorov-Smirnov检验单个样本分布的 K-S检验 kstest 两个样本具有相同的连续分布的假设检验 kstest2

指定分布函数为cdf的检验(cdf=[]时表示标准正态分布)，显著水平为0.05 (3)H=kstest(X,cdf,alpha) (4)H=kstest(X,cdf,alpha,tail) (5)[H,p,ksstat,cv]=kstest(...) p为原假设成立的概率，ksstat为检验统计量的值， cv为是否接受原假设的临界值. H=0，不能拒绝； H=1，拒绝.

X服从二项分布,不服从标准正态分布,拒绝原假设单个样本分布的K-S检验 >> X=binocdf(0:20,20,0.5); >> [H,p,k,c]=kstest(X,[],0.05,0) H = 1 p = 2.8173e-005 k = 0.5000 c = 0.2873 X服从二项分布,不服从标准正态分布,拒绝原假设

(3)[H,p,ksstat,cv]=kstest2(...) %与指定分布cdf相同的连续分布两个样本具有相同的连续分布的假设检验双样本K-S检验:kstest2 调用格式: (1)H=kstest2(X1,X2) (2)H=kstest2(X1,X2,alpha) (3)[H,p,ksstat,cv]=kstest2(...) %与指定分布cdf相同的连续分布注：原假设为具有相同连续分布

Y是由randn生成的正态分布随机数,拒绝X和Y具有相同的分布的假设两个样本具有相同的连续分布的假设检验 >> X=-1:1:5; >> Y=randn(20,1); >> [H,p,k]=kstest2(X,Y) H = 1 p = 0.0219 k = 0.6143 Y是由randn生成的正态分布随机数,拒绝X和Y具有相同的分布的假设

MATLAB 第四部分方差分析(ANOVA)

方差分析

1 单因素方差分析对一些观察来说，只有一个外界因素可能对观测的现象产生影响。单因素方差分析是比较两组或多组数据的均值，它返回原假设—均值相等的概率,若p值接近于0，则原假设受到怀疑，说明至少有一列均值与其余列均值有明显不同。 X为需要分析的数据，每一列对应于随机分配的一个组的测试数据，这样会返回概率p，tab为方差分析表。stats为统计结果量，为结构变量，包括每组均值等。

1 单因素方差分析 ANOVAs函数生成两个图形窗口，第一个窗口为标准方差分析表，分为六列：显示误差来源显示每一误差来源的平方和(ss) 显示与每一误差来源相关的自由度(df) 显示均值平方和(MS) 显示F统计量(F) 显示p值(Prob>F) 第二个窗口显示X的每一列的箱形图，箱形图中心线上较大的差异对应于较大的F值和较小的p值.

单因素方差分析表

例：设有5种治疗某病的药物，要比较他们的疗效，假定将30病人随机分为5组，每组6人，评价疗效有无显著差异。

建立A矩阵，并求各列的均值。 >> A=[5,4,6,7,9; 8,6,4,4,3; 7,6,4,6,5; 7,3,5,6,7; 10,5,4,3,7; 8,6,3,5,6]; >> mean(A) ans = 7.5000 5.0000 4.3333 5.1667 6.1667 >> [p,tbl,stats]=anova1(A) %单因子方差分析 p = 0.0136 %<0.02或0.05，应拒绝给出的假设，有影响。 tbl = 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F' 'Columns' [36.4667] [ 4] [9.1167] [3.8960] [0.0136] 'Error' [58.5000] [25] [2.3400] [] [] 'Total' [94.9667] [29] [] [] []

stats = gnames: [5x1 char] n: [6 6 6 6 6] source: 'anova1' means: [7.5000 5 4.3333 5.1667 6.1667] df: 25 s: 1.5297 箱形图方差表

2. 双因素方差分析因素水平的改变所造成的试验结果的改变，称为主效应。当某一因素的效应随另一因素水平不同而不同，则称这两个因素之间存在交互作用。由交互作用引起的试验结果的改变称为交互作用。进行两因素方差分析p=anova2(x)，它比较样本x中两列或两列以上或两行或两行以上数据的均值。不同列中的数据代表因子A的变化，不同行代表因子B的变化。

2. 双因素方差分析 P: 原假设H0A的p值：原假设为A样本来自相同总体原假设H0B的p值：原假设为B样本来自相同总体原假设H0AB的p值:原假设为因子A和因子B之间没有交互效应。

例：比较 3 种松树在4 个不同地区的生长情况有无差别,在每个地区对每种松树随机地选择 5 株，测量它们的胸径，对它们进行双因素方差分析。 2. 双因素方差分析

>> anova2(B’,5); ％5表示每一单元观察点的数目 28,22,25,19,26,30,26,26,20,28,19,24,19,25,29,17,21,18,26,23; 18,10,12,22,13,15,21,22,14,12,23,25,19,13,22,16,12,23,22,19]; >> anova2(B’,5); ％5表示每一单元观察点的数目小(有影响)，很大(无影响)，所以没有理由拒绝另外两个假设。故得出结论：树之间有显著差异,地区对树的胸径无显著影响，不同区域对不同树种的胸径观测结果也无显著影响。

2. 双因素方差分析例一火箭使用了4种燃料，3种推进器作射程试验，每种燃料与每种推进器的组合各发射火箭2次，得到结果如下：例一火箭使用了4种燃料，3种推进器作射程试验，每种燃料与每种推进器的组合各发射火箭2次，得到结果如下： B1 B2 B3 A1 58.2,52.6 56.2,41.2 65.3,60.8 A2 49.1,42.8 54.1,50.5 51.6,48.4 A3 60.1,58.3 70.9,73.2 39.2,40.7 A4 75.8,71.5 58.2,51.0 48.7,41.4 试在水平0.05下，检验不同燃料（因素A）、不同推进器（因素B ）下的射程是否有显著差异？交互作用是否显著？ 2019年4月26日 MATLAB和R软件 63