数理统计建模 2012-1-9 林秋.

Slides:



Advertisements
Similar presentations
第一章 、随机事件与概率 1.1 、随机事件 1.2 、随机事件的概率 1.3 、随机事件概率的计算 1.4 、伯努利概型.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
练一练: 在数轴上画出表示下列各数的点, 并指出这些点相互间的关系: -6 , 6 , -3 , 3 , -1.5, 1.5.
7.1 假设检验 1. 假设检验的基本原理 2. 假设检验的相关概念 3. 假设检验的一般步骤 4. 典型例题 5. 小结.
第四章 假设检验 第4.1节 假设检验的基本概念 第4.2节 正态总体均值与方差 的假设检验 第4.3节 非参数假设检验方法
第一章 序列的统计量、检验和分布 EViews提供序列的各种统计图、统计方法及过程。当用前述的方法向工作文件中读入数据后,就可以对这些数据进行统计分析和图表分析。 EViews可以计算一个序列的各种统计量并可用表、图等形式将其表现出来。视图包括最简单的曲线图,一直到核密度估计。
§3.4 空间直线的方程.
3.4 空间直线的方程.
第四章 概率、正态分布、常用统计分布.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
完全随机设计多样本资料秩和检验.
08-09冬季学期 概率论与数理统计 姜旭峰,胡玉磊.
第 8 章 假设检验 作者:中国人民大学统计学院 贾俊平 PowerPoint 统计学.
本讲义可在网址 或 ftp://math.shekou.com 下载
不确定度的传递与合成 间接测量结果不确定度的评估
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
初中数学八年级下册 (苏科版) 10.4 探索三角形 相似的条件(2).
统计学期末复习
Introduction To Mean Shift
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
《 数学实验》7  概率论 样本描述 参数估计 假设检验  方差分析.
本次课讲授:第二章第十一节,第十二节,第三章第一节, 下次课讲第三章第二节,第三节,第四节; 下次上课时交作业P29—P30
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第一章 函数 函数 — 研究对象—第一章 分析基础 极限 — 研究方法—第二章 连续 — 研究桥梁—第二章.
第十章 方差分析.
第8章 概率论与数理统计问题的求解 概率分布与伪随机数生成 统计量分析 数理统计分析方法及计算机实现 统计假设检验 方差分析及计算机求解.
数据统计与分析 秦 猛 南京大学物理系 手机: 第十讲 数据统计与分析 秦 猛 南京大学物理系 办公室:唐仲英楼A 手机:
概 率 统 计 主讲教师 叶宏 山东大学数学院.
连续型随机变量及其概率密度 一、概率密度的概念与性质 二、常见连续型随机变量的分布 三、小结.
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
完全随机设计多组资料的比较 赵耐青 卫生统计教研室.
第五章 多总体的统计检验.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
第16讲 相似矩阵与方阵的对角化 主要内容: 1.相似矩阵 2. 方阵的对角化.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第四节 多个样本均数的两两比较 多个样本均数的两两比较又称多重比较(multiple comparison),其目的是推断究竟哪些总体均数之间存在差别。
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
数据统计与分析 秦 猛 南京大学物理系 第11讲 办公室:唐仲英楼A
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
难点:连续变量函数分布与二维连续变量分布
数理统计基本知识.
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第五章 数理统计的基本知识 §5.1 总体与样本.
第八章 假设检验 8.3 两个正态总体参数的假设检验.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
贝叶斯估计 Bayes Estimation
数据的统计描述和分析 撰写:刘伟 董小刚 林玎 制作:李慧玲 李刚健 吉林建工学院基础科学系 2019/7/19.
第6章 数理统计基础 §6.1 数理统计的几个基本概念 §6.2 描述统计 §6.3 抽样分布.
Presentation transcript:

数理统计建模 2012-1-9 林秋

概率统计方法 1.概率分布与伪随机数生成 2 统计量分析 3 数理统计分析方法 4 统计假设检验 5 方差分析

MATLAB 第一部分 概率分布与伪随机数生成

概率分布与伪随机数生成 随机变量 名称 MATLAB 密度函数 Beta分布 betapdf 标准正态分布 normpdf 二项分布 binopdf 泊松分布 poisspdf 卡方分布 chi2pdf 瑞利分布 raylpdf 指数分布 exppdf T分布 tpdf F分布 fpdf 均匀分布 unifpdf 伽马分布 gampdf Weibull分布 weibpdf 几何分布 geopdf 非中心F分布 ncfpdf 超几何分布 hygepdf 非中心T分布 nctpdf 对数正态分布 lognpdf 非中心卡方布 ncx2pdf 如果将上述命令中的后缀pdf分别改为cdf,inv,rnd,stat 就得到相应的随机变量的分布函数、分位数、随机数的生成以及均值与方差.

1. 概率函数 pdf(‘name’,x,p1,p2,…,m,n) cdf('name',x,p1,p2,…,m,n) 通用函数 pdf(‘name’,x,p1,p2,…,m,n) 生成以p1,p2,…为参数的m  n 密度函数在x处的值. 'name'表示分布类型的字符串 cdf('name',x,p1,p2,…,m,n) 生成以p1,p2,…为参数的m  n 分布函数在x处的值. 'name'表示分布类型的字符串 icdf('name',x,p1,p2,…,m,n) 生成以p1,p2,…为参数的m  n 逆分布函数(下分位数)在x处的值. 'name'表示分布类型的字符串(同random)

1. 概率函数 normpdf(x,mu,sigma,…) normcdf(x,mu,sigma) norminv(p,mu,sigma) 专用函数 normpdf(x,mu,sigma,…) 返回参数为 mu和sigma的正态分布密度函数在x处的值 normcdf(x,mu,sigma) 正态分布函数值 norminv(p,mu,sigma) normcdf的逆函数,即p下分位数

…… …… 1. 概率函数 例: x=-8:0.1:8; y=pdf('norm',x,0,1); plot(x,y,x,y1,':') 注: y=pdf('norm',x,0,1) y=normpdf(x,0,1) 相类似地, y=pdf('beta',x,A,B) y=betapdf(x,A,B) y=pdf('bino,x,N,p) y=binopdf(x,N,p) …… ……

2随机数与伪随机数 随机数的生成: (1)物理生成法 依赖一些专用的电子元件发出随机信号 (2)数学公式生成法: 通过数学算法,仿照随机数发生的规律计算出随机数。此类随机数又称“伪随机数”。 伪随机数优点:首先,选择相同的随机数种子,随机数是可以重复的,这样创造了重复实验的条件;其次,随机数满足的统计规律可以人为地选择,例如可以自由选择均匀分布、正态分布等,来满足我们的需要。

2. 随机数的生成 rand(m,n) randn(m,n) randperm(N) perms(1:n) 注:rand(n)=rand(n,n) randn(m,n) 生成标准正态分布N(0,1)的 m  n 随机矩阵 randperm(N) 生成一个由 1:N组成的随机排列 perms(1:n) 生成由 1:n 组成的全排列,共 n! 个

2. 随机数的生成 random('name',A1,A2,A3,m,n) name 的取值可以是 通用函数求指定分布的随机数 normal Uniform poisson beta exponential gamma geometric discrete Uniform... ...

2. 随机数的生成 unidrnd(N,m,n) binornd(k,p,m,n) unifrnd(a,b,m,n) 常用分布的随机数

2. 随机数的生成 normrnd(mu,sigma,m,n) R=mvnrnd(mu,sigma,m) 生成n维正态分布数据,mu是n维均值向量,sigma为n阶协方差矩阵(必须是正定的),R是 m  n 矩阵,每行代表一个随机数

MATLAB 第二部分 统计量分析

1. 统计量 用n-1标准化 用n标准化 表示位置的统计量 均值——mean(x) 中位数——mode(x) 众数——median(x) 表示分散程度的统计量 std(x)——样本的无偏标准差s std(x,1)——样本的标准差s1 var(x)——样本的无偏方差s^2 var(x,1)——样本的方差s1^2 range(x)——样本的极差 用n-1标准化 用n标准化

1. 统计量 表示分布形状的统计量 skewness(x)——偏度(偏度反映分布的对称性) g1 >0称为右偏态,此时数据位于均值右边的比位于左边的多; g1 <0称为左偏态,情况相反;g1接近0则可认为分布是对称的. kurtosis(x)——峰度(衡量偏离正态分布的程度) 峰度是分布形状的另一种度量,正态分布的峰度为3, 若g2比3大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据.

1. 统计量 协方差和相关系数 cov(X,Y) X,Y为向量,各代表一个样本,求得样本协方差 cov(X) X矩阵,各列为一个样本,求得样本协方差矩阵.对角线元素是X各列的方差 corcoef(X) 给出X列向量的相关系数矩阵 corcoef(X,Y) 同cov,给出X,Y向量的相关系数

1. 统计量 上分位数 Y=prctile(X,p) X向量(X的p%上分位数) X矩阵(分别求各列的上分位数) trimmean(X,p)

2 统计图——直方图 为了直观地了解随机变量的分布特征,如对称性,峰值等,直方图是广泛使用的方法. hist(X,k) 将向量X中数据等距分为k组,并作频数直方图,k=10 [N,X]=hist(Y,k) 不作图,N返回数据频数,X返回各组的中心位置

2 统计图——箱图和概率纸检验函数 boxplot(Y) normplot(x)

MATLAB 第二部分 参数估计法

参数估计 已知总体的分布类型,总体参数未知,需要根据样本对未知参数作出估计。 对于未知参数的估计,可分两种情况: 点估计 区间估计 由于正态分布情况发生的比较多,故我们主要考虑正态分布的情形。

正态总体的参数估计 设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得: [muhat,sigmahat,muci,sigmaci] =normfit(X,alpha)

正态总体的参数估计举例

其它分布的参数估计 (1)[muhat, muci] = expfit(X,alpha) 在显著性水平alpha下,求指数分布的数据X的均值的点估 计及其区间估计. (2)[lambdahat, lambdaci] = poissfit(X,alpha) 在显著性水平alpha下,求泊松分布的数据X 的参数的点 估计及其区间估计. (3)[phat, pci] = weibfit(X,alpha) 在显著性水平alpha下,求Weibull分布的数据X 的参数 的点估计及其区间估计.

MATLAB 第三部分 假设检验法

假设检验 对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设. 1.参数检验:如果观测的分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验. 参数检验的目的往往是对总体的参数及其有关性质作出明 确的判断. 2.非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类型,这种检验叫非参数检验. 如:要求判断总体分布类型的检验就是非参数检验.

假设检验的一般步骤

1. U检验法和t检验法

U检验法

1. U检验法

t 检验法

t 检验法

2. 两个正态总体均值差的t检验 两个正态总体方差未知但等方差时,比较两正态总体样本均值的假设检验,用ttest2:

2. 两个正态总体均值差的t检验

2. 两个正态总体均值差的t检验

3. 两个总体一致性的检验——秩和检验

3. 两个总体一致性的检验——秩和检验 例 某商店为了确定向公司A或公司B 购买某种产品,将A,B公司以往各次进货的次品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商品的次品的密度最多只差一个平移,取α = 0.05。 A:7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5 B :5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3 解 分别以μA、μB记公司A、B 的商品次品率总体的均值。所需检验的假设是 H0: μA=μB,H1:μA≠μB . Matlab实现如下: a=[7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5]; b=[5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3]; [p,h]=ranksum(a,b) 求得p=0.8041,h=0,表明两样本总体均值相等的概率为0.8041,并不很接近于零, 且h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。 41

4. 中位数检验

4. 中位数检验

4. 中位数检验

由随机样本判定分布是否为正态分布,可用下面两个假设算法的函数。 5. 正态分布的拟合优度检验 由随机样本判定分布是否为正态分布,可用下面两个假设算法的函数。 s为接受假设的概率值,s越接近于0,则可以拒绝是正态分布的原假设. h=0接受正态分布,h=1拒绝正态分布. 大样本 小样本

6. Kolomogorov-Smirnov检验 单个样本分布的 K-S检验 kstest 两个样本具有相同的连续分布的假设检验 kstest2

指定分布函数为cdf的检验(cdf=[]时表示标准正态 分布),显著水平为0.05 (3)H=kstest(X,cdf,alpha) (4)H=kstest(X,cdf,alpha,tail) (5)[H,p,ksstat,cv]=kstest(...) p为原假设成立的概率 ,ksstat为检验统计量的值, cv为是否接受原假设的临界值. H=0,不能拒绝; H=1,拒绝.

X服从二项分布,不服从标准正态分布,拒绝原假设 单个样本分布的K-S检验 >> X=binocdf(0:20,20,0.5); >> [H,p,k,c]=kstest(X,[],0.05,0) H = 1 p = 2.8173e-005 k = 0.5000 c = 0.2873 X服从二项分布,不服从标准正态分布,拒绝原假设

(3)[H,p,ksstat,cv]=kstest2(...) %与指定分布cdf相同的连续分布 两个样本具有相同的连续分布的假设检验 双样本K-S检验:kstest2 调用格式: (1)H=kstest2(X1,X2) (2)H=kstest2(X1,X2,alpha) (3)[H,p,ksstat,cv]=kstest2(...) %与指定分布cdf相同的连续分布 注:原假设为具有相同连续分布

Y是由randn生成的正态分布随机数,拒绝X和Y具有相同的分布的假设 两个样本具有相同的连续分布的假设检验 >> X=-1:1:5; >> Y=randn(20,1); >> [H,p,k]=kstest2(X,Y) H = 1 p = 0.0219 k = 0.6143 Y是由randn生成的正态分布随机数,拒绝X和Y具有相同的分布的假设

MATLAB 第四部分 方差分析(ANOVA)

方差分析

1 单因素方差分析 对一些观察来说,只有一个外界因素可能对观测的现象产生影响。 单因素方差分析是比较两组或多组数据的均值,它返回原假设—均值相等的概率,若p值接近于0,则原假设受到怀疑,说明至少有一列均值与其余列均值有明显不同。 X为需要分析的数据,每一列对应于随机分配的一个组的测试数据,这样会返回概率p,tab为方差分析表 。stats为统计结果量,为结构变量,包括每组均值等。

1 单因素方差分析 ANOVAs函数生成两个图形窗口,第一个窗口为标准方差分析表,分为六列: 显示误差来源 显示每一误差来源的平方和(ss) 显示与每一误差来源相关的自由度(df) 显示均值平方和(MS) 显示F统计量(F) 显示p值(Prob>F) 第二个窗口显示X的每一列的箱形图,箱形图中心线上较大的差异对应于较大的F值和较小的p值.

单因素方差分析表

例:设有5种治疗某病的药物,要比较他们的疗效,假定将30病人随机分为5组,每组6人,评价疗效有无显著差异。

建立A矩阵,并求各列的均值。 >> A=[5,4,6,7,9; 8,6,4,4,3; 7,6,4,6,5; 7,3,5,6,7; 10,5,4,3,7; 8,6,3,5,6]; >> mean(A) ans = 7.5000 5.0000 4.3333 5.1667 6.1667 >> [p,tbl,stats]=anova1(A) %单因子方差分析 p = 0.0136 %<0.02或0.05,应拒绝给出的假设,有影响。 tbl = 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F' 'Columns' [36.4667] [ 4] [9.1167] [3.8960] [0.0136] 'Error' [58.5000] [25] [2.3400] [] [] 'Total' [94.9667] [29] [] [] []

stats = gnames: [5x1 char] n: [6 6 6 6 6] source: 'anova1' means: [7.5000 5 4.3333 5.1667 6.1667] df: 25 s: 1.5297 箱形图 方差表

2. 双因素方差分析 因素水平的改变所造成的试验结果的改变,称为主效应。当某一因素的效应随另一因素水平不同而不同,则称这两个因素之间存在交互作用。由交互作用引起的试验结果的改变称为交互作用。 进行两因素方差分析p=anova2(x),它比较样本x中两列或两列以上或两行或两行以上数据的均值。不同列中的数据代表因子A的变化,不同行代表因子B的变化。

2. 双因素方差分析 P: 原假设H0A的p值:原假设为A样本来自相同总体 原假设H0B的p值:原假设为B样本来自相同总体 原假设H0AB的p值:原假设为因子A和因子B之间 没有交互效应。

例:比较 3 种松树在4 个不同地区的生长情况有无差别,在每个地区对每种松树随机地选择 5 株,测量它们的胸径,对它们进行双因素方差分析。 2. 双因素方差分析

>> anova2(B’,5); %5表示每一单元观察点的数目 28,22,25,19,26,30,26,26,20,28,19,24,19,25,29,17,21,18,26,23; 18,10,12,22,13,15,21,22,14,12,23,25,19,13,22,16,12,23,22,19]; >> anova2(B’,5); %5表示每一单元观察点的数目 小(有影响), 很大(无影响),所以没有理由拒绝另外两个假设。故得出结论:树之间有显著差异,地区对树的胸径无显著影响,不同区域对不同树种的胸径观测结果也无显著影响。

2. 双因素方差分析 例 一火箭使用了4种燃料,3种推进器作射程试验,每种燃料与每种推进器的 组合各发射火箭2次,得到结果如下: 例 一火箭使用了4种燃料,3种推进器作射程试验,每种燃料与每种推进器的 组合各发射火箭2次,得到结果如下: B1 B2 B3 A1 58.2,52.6 56.2,41.2 65.3,60.8 A2 49.1,42.8 54.1,50.5 51.6,48.4 A3 60.1,58.3 70.9,73.2 39.2,40.7 A4 75.8,71.5 58.2,51.0 48.7,41.4 试在水平0.05下,检验不同燃料(因素A)、不同推进器(因素B )下的射程是 否有显著差异?交互作用是否显著? 2019年4月26日 MATLAB和R软件 63