数理统计建模 2012-1-9 林秋
概率统计方法 1.概率分布与伪随机数生成 2 统计量分析 3 数理统计分析方法 4 统计假设检验 5 方差分析
MATLAB 第一部分 概率分布与伪随机数生成
概率分布与伪随机数生成 随机变量 名称 MATLAB 密度函数 Beta分布 betapdf 标准正态分布 normpdf 二项分布 binopdf 泊松分布 poisspdf 卡方分布 chi2pdf 瑞利分布 raylpdf 指数分布 exppdf T分布 tpdf F分布 fpdf 均匀分布 unifpdf 伽马分布 gampdf Weibull分布 weibpdf 几何分布 geopdf 非中心F分布 ncfpdf 超几何分布 hygepdf 非中心T分布 nctpdf 对数正态分布 lognpdf 非中心卡方布 ncx2pdf 如果将上述命令中的后缀pdf分别改为cdf,inv,rnd,stat 就得到相应的随机变量的分布函数、分位数、随机数的生成以及均值与方差.
1. 概率函数 pdf(‘name’,x,p1,p2,…,m,n) cdf('name',x,p1,p2,…,m,n) 通用函数 pdf(‘name’,x,p1,p2,…,m,n) 生成以p1,p2,…为参数的m n 密度函数在x处的值. 'name'表示分布类型的字符串 cdf('name',x,p1,p2,…,m,n) 生成以p1,p2,…为参数的m n 分布函数在x处的值. 'name'表示分布类型的字符串 icdf('name',x,p1,p2,…,m,n) 生成以p1,p2,…为参数的m n 逆分布函数(下分位数)在x处的值. 'name'表示分布类型的字符串(同random)
1. 概率函数 normpdf(x,mu,sigma,…) normcdf(x,mu,sigma) norminv(p,mu,sigma) 专用函数 normpdf(x,mu,sigma,…) 返回参数为 mu和sigma的正态分布密度函数在x处的值 normcdf(x,mu,sigma) 正态分布函数值 norminv(p,mu,sigma) normcdf的逆函数,即p下分位数
…… …… 1. 概率函数 例: x=-8:0.1:8; y=pdf('norm',x,0,1); plot(x,y,x,y1,':') 注: y=pdf('norm',x,0,1) y=normpdf(x,0,1) 相类似地, y=pdf('beta',x,A,B) y=betapdf(x,A,B) y=pdf('bino,x,N,p) y=binopdf(x,N,p) …… ……
2随机数与伪随机数 随机数的生成: (1)物理生成法 依赖一些专用的电子元件发出随机信号 (2)数学公式生成法: 通过数学算法,仿照随机数发生的规律计算出随机数。此类随机数又称“伪随机数”。 伪随机数优点:首先,选择相同的随机数种子,随机数是可以重复的,这样创造了重复实验的条件;其次,随机数满足的统计规律可以人为地选择,例如可以自由选择均匀分布、正态分布等,来满足我们的需要。
2. 随机数的生成 rand(m,n) randn(m,n) randperm(N) perms(1:n) 注:rand(n)=rand(n,n) randn(m,n) 生成标准正态分布N(0,1)的 m n 随机矩阵 randperm(N) 生成一个由 1:N组成的随机排列 perms(1:n) 生成由 1:n 组成的全排列,共 n! 个
2. 随机数的生成 random('name',A1,A2,A3,m,n) name 的取值可以是 通用函数求指定分布的随机数 normal Uniform poisson beta exponential gamma geometric discrete Uniform... ...
2. 随机数的生成 unidrnd(N,m,n) binornd(k,p,m,n) unifrnd(a,b,m,n) 常用分布的随机数
2. 随机数的生成 normrnd(mu,sigma,m,n) R=mvnrnd(mu,sigma,m) 生成n维正态分布数据,mu是n维均值向量,sigma为n阶协方差矩阵(必须是正定的),R是 m n 矩阵,每行代表一个随机数
MATLAB 第二部分 统计量分析
1. 统计量 用n-1标准化 用n标准化 表示位置的统计量 均值——mean(x) 中位数——mode(x) 众数——median(x) 表示分散程度的统计量 std(x)——样本的无偏标准差s std(x,1)——样本的标准差s1 var(x)——样本的无偏方差s^2 var(x,1)——样本的方差s1^2 range(x)——样本的极差 用n-1标准化 用n标准化
1. 统计量 表示分布形状的统计量 skewness(x)——偏度(偏度反映分布的对称性) g1 >0称为右偏态,此时数据位于均值右边的比位于左边的多; g1 <0称为左偏态,情况相反;g1接近0则可认为分布是对称的. kurtosis(x)——峰度(衡量偏离正态分布的程度) 峰度是分布形状的另一种度量,正态分布的峰度为3, 若g2比3大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据.
1. 统计量 协方差和相关系数 cov(X,Y) X,Y为向量,各代表一个样本,求得样本协方差 cov(X) X矩阵,各列为一个样本,求得样本协方差矩阵.对角线元素是X各列的方差 corcoef(X) 给出X列向量的相关系数矩阵 corcoef(X,Y) 同cov,给出X,Y向量的相关系数
1. 统计量 上分位数 Y=prctile(X,p) X向量(X的p%上分位数) X矩阵(分别求各列的上分位数) trimmean(X,p)
2 统计图——直方图 为了直观地了解随机变量的分布特征,如对称性,峰值等,直方图是广泛使用的方法. hist(X,k) 将向量X中数据等距分为k组,并作频数直方图,k=10 [N,X]=hist(Y,k) 不作图,N返回数据频数,X返回各组的中心位置
2 统计图——箱图和概率纸检验函数 boxplot(Y) normplot(x)
MATLAB 第二部分 参数估计法
参数估计 已知总体的分布类型,总体参数未知,需要根据样本对未知参数作出估计。 对于未知参数的估计,可分两种情况: 点估计 区间估计 由于正态分布情况发生的比较多,故我们主要考虑正态分布的情形。
正态总体的参数估计 设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得: [muhat,sigmahat,muci,sigmaci] =normfit(X,alpha)
正态总体的参数估计举例
其它分布的参数估计 (1)[muhat, muci] = expfit(X,alpha) 在显著性水平alpha下,求指数分布的数据X的均值的点估 计及其区间估计. (2)[lambdahat, lambdaci] = poissfit(X,alpha) 在显著性水平alpha下,求泊松分布的数据X 的参数的点 估计及其区间估计. (3)[phat, pci] = weibfit(X,alpha) 在显著性水平alpha下,求Weibull分布的数据X 的参数 的点估计及其区间估计.
MATLAB 第三部分 假设检验法
假设检验 对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设. 1.参数检验:如果观测的分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验. 参数检验的目的往往是对总体的参数及其有关性质作出明 确的判断. 2.非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类型,这种检验叫非参数检验. 如:要求判断总体分布类型的检验就是非参数检验.
假设检验的一般步骤
1. U检验法和t检验法
U检验法
1. U检验法
t 检验法
t 检验法
2. 两个正态总体均值差的t检验 两个正态总体方差未知但等方差时,比较两正态总体样本均值的假设检验,用ttest2:
2. 两个正态总体均值差的t检验
2. 两个正态总体均值差的t检验
3. 两个总体一致性的检验——秩和检验
3. 两个总体一致性的检验——秩和检验 例 某商店为了确定向公司A或公司B 购买某种产品,将A,B公司以往各次进货的次品率进行比较,数据如下所示,设两样本独立。问两公司的商品的质量有无显著差异。设两公司的商品的次品的密度最多只差一个平移,取α = 0.05。 A:7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5 B :5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3 解 分别以μA、μB记公司A、B 的商品次品率总体的均值。所需检验的假设是 H0: μA=μB,H1:μA≠μB . Matlab实现如下: a=[7.0 3.5 9.6 8.1 6.2 5.1 10.4 4.0 2.0 10.5]; b=[5.7 3.2 4.2 11.0 9.7 6.9 3.6 4.8 5.6 8.4 10.1 5.5 12.3]; [p,h]=ranksum(a,b) 求得p=0.8041,h=0,表明两样本总体均值相等的概率为0.8041,并不很接近于零, 且h=0说明可以接受原假设,即认为两个公司的商品的质量无明显差异。 41
4. 中位数检验
4. 中位数检验
4. 中位数检验
由随机样本判定分布是否为正态分布,可用下面两个假设算法的函数。 5. 正态分布的拟合优度检验 由随机样本判定分布是否为正态分布,可用下面两个假设算法的函数。 s为接受假设的概率值,s越接近于0,则可以拒绝是正态分布的原假设. h=0接受正态分布,h=1拒绝正态分布. 大样本 小样本
6. Kolomogorov-Smirnov检验 单个样本分布的 K-S检验 kstest 两个样本具有相同的连续分布的假设检验 kstest2
指定分布函数为cdf的检验(cdf=[]时表示标准正态 分布),显著水平为0.05 (3)H=kstest(X,cdf,alpha) (4)H=kstest(X,cdf,alpha,tail) (5)[H,p,ksstat,cv]=kstest(...) p为原假设成立的概率 ,ksstat为检验统计量的值, cv为是否接受原假设的临界值. H=0,不能拒绝; H=1,拒绝.
X服从二项分布,不服从标准正态分布,拒绝原假设 单个样本分布的K-S检验 >> X=binocdf(0:20,20,0.5); >> [H,p,k,c]=kstest(X,[],0.05,0) H = 1 p = 2.8173e-005 k = 0.5000 c = 0.2873 X服从二项分布,不服从标准正态分布,拒绝原假设
(3)[H,p,ksstat,cv]=kstest2(...) %与指定分布cdf相同的连续分布 两个样本具有相同的连续分布的假设检验 双样本K-S检验:kstest2 调用格式: (1)H=kstest2(X1,X2) (2)H=kstest2(X1,X2,alpha) (3)[H,p,ksstat,cv]=kstest2(...) %与指定分布cdf相同的连续分布 注:原假设为具有相同连续分布
Y是由randn生成的正态分布随机数,拒绝X和Y具有相同的分布的假设 两个样本具有相同的连续分布的假设检验 >> X=-1:1:5; >> Y=randn(20,1); >> [H,p,k]=kstest2(X,Y) H = 1 p = 0.0219 k = 0.6143 Y是由randn生成的正态分布随机数,拒绝X和Y具有相同的分布的假设
MATLAB 第四部分 方差分析(ANOVA)
方差分析
1 单因素方差分析 对一些观察来说,只有一个外界因素可能对观测的现象产生影响。 单因素方差分析是比较两组或多组数据的均值,它返回原假设—均值相等的概率,若p值接近于0,则原假设受到怀疑,说明至少有一列均值与其余列均值有明显不同。 X为需要分析的数据,每一列对应于随机分配的一个组的测试数据,这样会返回概率p,tab为方差分析表 。stats为统计结果量,为结构变量,包括每组均值等。
1 单因素方差分析 ANOVAs函数生成两个图形窗口,第一个窗口为标准方差分析表,分为六列: 显示误差来源 显示每一误差来源的平方和(ss) 显示与每一误差来源相关的自由度(df) 显示均值平方和(MS) 显示F统计量(F) 显示p值(Prob>F) 第二个窗口显示X的每一列的箱形图,箱形图中心线上较大的差异对应于较大的F值和较小的p值.
单因素方差分析表
例:设有5种治疗某病的药物,要比较他们的疗效,假定将30病人随机分为5组,每组6人,评价疗效有无显著差异。
建立A矩阵,并求各列的均值。 >> A=[5,4,6,7,9; 8,6,4,4,3; 7,6,4,6,5; 7,3,5,6,7; 10,5,4,3,7; 8,6,3,5,6]; >> mean(A) ans = 7.5000 5.0000 4.3333 5.1667 6.1667 >> [p,tbl,stats]=anova1(A) %单因子方差分析 p = 0.0136 %<0.02或0.05,应拒绝给出的假设,有影响。 tbl = 'Source' 'SS' 'df' 'MS' 'F' 'Prob>F' 'Columns' [36.4667] [ 4] [9.1167] [3.8960] [0.0136] 'Error' [58.5000] [25] [2.3400] [] [] 'Total' [94.9667] [29] [] [] []
stats = gnames: [5x1 char] n: [6 6 6 6 6] source: 'anova1' means: [7.5000 5 4.3333 5.1667 6.1667] df: 25 s: 1.5297 箱形图 方差表
2. 双因素方差分析 因素水平的改变所造成的试验结果的改变,称为主效应。当某一因素的效应随另一因素水平不同而不同,则称这两个因素之间存在交互作用。由交互作用引起的试验结果的改变称为交互作用。 进行两因素方差分析p=anova2(x),它比较样本x中两列或两列以上或两行或两行以上数据的均值。不同列中的数据代表因子A的变化,不同行代表因子B的变化。
2. 双因素方差分析 P: 原假设H0A的p值:原假设为A样本来自相同总体 原假设H0B的p值:原假设为B样本来自相同总体 原假设H0AB的p值:原假设为因子A和因子B之间 没有交互效应。
例:比较 3 种松树在4 个不同地区的生长情况有无差别,在每个地区对每种松树随机地选择 5 株,测量它们的胸径,对它们进行双因素方差分析。 2. 双因素方差分析
>> anova2(B’,5); %5表示每一单元观察点的数目 28,22,25,19,26,30,26,26,20,28,19,24,19,25,29,17,21,18,26,23; 18,10,12,22,13,15,21,22,14,12,23,25,19,13,22,16,12,23,22,19]; >> anova2(B’,5); %5表示每一单元观察点的数目 小(有影响), 很大(无影响),所以没有理由拒绝另外两个假设。故得出结论:树之间有显著差异,地区对树的胸径无显著影响,不同区域对不同树种的胸径观测结果也无显著影响。
2. 双因素方差分析 例 一火箭使用了4种燃料,3种推进器作射程试验,每种燃料与每种推进器的 组合各发射火箭2次,得到结果如下: 例 一火箭使用了4种燃料,3种推进器作射程试验,每种燃料与每种推进器的 组合各发射火箭2次,得到结果如下: B1 B2 B3 A1 58.2,52.6 56.2,41.2 65.3,60.8 A2 49.1,42.8 54.1,50.5 51.6,48.4 A3 60.1,58.3 70.9,73.2 39.2,40.7 A4 75.8,71.5 58.2,51.0 48.7,41.4 试在水平0.05下,检验不同燃料(因素A)、不同推进器(因素B )下的射程是 否有显著差异?交互作用是否显著? 2019年4月26日 MATLAB和R软件 63