数学建模常用统计方法介绍 吕 佳 延安大学 数学与计算机科学学院 数学建模常用统计方法介绍 吕 佳 延安大学 数学与计算机科学学院
数学建模需要的随机数学知识: 概率论(probability theory) 数理统计(mathematical statistics) 随机过程(stochastics processes) 回归分析(regression analysis) 多元统计分析(multivariate statistical analysis) 时间序列分析(time series analysis) 随机运筹学( stochastics operation research)
数学建模常用的随机数学方法: 概率基础方法(分布,数字特征等) 随机模拟法(蒙特卡洛方法,MCM) 统计基础方法(统计描述,统计推断等) 回归分析法 方差分析方法 聚类分析方法 判别分析方法 主成分分析方法
数学建模常用的随机数学方法: 马尔可夫(MARKOV)过程方法 时间序列分析方法 排队论方法 存储论方法 决策论方法
随机数学建模常用软件 Excel MATLAB R SAS SPSS C++
Matlab : 1. Matlab 主包:数百个核心内部函数; 2. 各种可选Toolbox”工具包”.下面简介统计工具箱(statistics toolbox): 6
(1) Probability distributions(概率分 布):分布,参数估计,随机数等; (2)Descriptive statistics(描述统计):样本的各种描述统计量; (3)Linear models (线性模型):线性回归分析,方差分析; (4) Nonlinear models(非线性模型):非线性回归,Logistic回归; (5) Hypothesis test(假设检验):参数非参数检验,分布检验; 7
(6) Multivariate statistics(多元统计):聚类分析,判别分析,主成分分析,因子分析等; (7)Statistics plots(统计图):各类统计图形; (8) Statistical process control(统计过程控制): (9) Design of experiments(试验设计): (10) Hidden markov models(隐马尔可夫模型): 8
统计方法(回归分析) 回归分析—对具有相关关系的现象,根据其关系形态,选择一个合适的数学模型,用来近似地表示变量间的平均变化关系的一种统计方法 (一元线性回归、多元线性回归、非线性回归) 回归分析在一组数据的基础上研究这样几个问题: 建立因变量与自变量之间的回归模型(经验公式) 对回归模型的可信度进行检验 判断每个自变量对因变量的影响是否显著 判断回归模型是否适合这组数据 利用回归模型对进行预报或控制 [b, bint,r,rint,stats]=regress(Y,X,alpha) (线性回归) rstool(x,y,’model’, alpha)(多元二项式回归) [beta,r,J]=nlinfit(x,y,’model’, beta0)(非线性回归)
统计方法(逐步回归分析) 逐步回归分析—从一个自变量开始,视自变量作用的显著程度,从大到小依次逐个引入回归方程 当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉 引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步 对于每一步都要进行检验,以确保每次引入新的显著性变量前回归方程中只包含作用显著的变量 这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止 stepwise(x,y,inmodel,alpha) SPSS,SAS
统计方法(聚类分析) 聚类分析—所研究的样本或者变量之间存在程度不同的相似性,要求设法找出一些能够度量它们之间相似程度的统计量作为分类的依据,再利用这些量将样本或者变量进行分类 系统聚类分析—将n个样本或者n个指标看成n类,一类包括一个样本或者指标,然后将性质最接近的两类合并成为一个新类,依此类推。最终可以按照需要来决定分多少类,每类有多少样本(指标)
统计方法(系统聚类分析步骤) 系统聚类方法步骤: 计算n个样本两两之间的距离 构成n个类,每类只包含一个样品 合并距离最近的两类为一个新类 计算新类与当前各类的距离(新类与当前类的距离等于当前类与组合类中包含的类的距离最小值),若类的个数等于1,转5,否则转3 画聚类图 决定类的个数和类。
聚类分析 系统聚类法是聚类分析中应用最为广泛的一种方法,它的基本原理是:首先将一定数量的样品或指标各自看成一类,然后根据样品(或指标)的亲疏程度,将亲疏程度最高的两类进行合并。然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直至将所有的样品(或指标)合并为一类。
系统聚类分析用到的函数 函 数 功 能 pdist 计算观测量两两之间的距离 squareform 函 数 功 能 pdist 计算观测量两两之间的距离 squareform 将距离矩阵从上三角形式转换为方形形式,或从方形形式转换为上三角形式 linkage 创建系统聚类树 dendrogram 输出冰柱图 cophenet 计算Cophenetic相关系数 cluster 根据linkage函数的输出创建分类 clusterdata 根据数据创建分类 inconsistent 计算聚类树的不连续系数
统计方法(判别分析) 判别分析—在已知研究对象分成若干类型,并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。 距离判别法—首先根据已知分类的数据,分别计算各类的重心,计算新个体到每类的距离,确定最短的距离(欧氏距离、马氏距离) Fisher判别法—利用已知类别个体的指标构造判别式(同类差别较小、不同类差别较大),按照判别式的值判断新个体的类别 Bayes判别法—计算新给样品属于各总体的条件概率,比较概率的大小,然后将新样品判归为来自概率最大的总体
判别分析 判别分析是利用原有的分类信息,得到体现这种分类的函数关系式(称之为判别函数,一般是与分类相关的若干个指标的线性关系式),然后利用该函数去判断未知样品属于哪一类。 对于给定的数据,用classify函数进行线性判别分析,用mahal函数计算马氏距离。
判别分析 判别分析(Discriminatory Analysis)的任务是根据已掌握的1批分类明确的样品,建立较好的判别函数,使产生错判的事例最少,进而对给定的1个新样品,判断它来自哪个总体。
因子分析 因子分析是一种降维方法。需要用模型解释数据内部的相关性时,使用因子分析法进行分析。 MATLAB中,用factoran函数进行因子分析。 最近邻法 线性插值 三次插值 用interpn函数进行更高维数据的插值,同样有最近邻插值、线性插值和三次插值三种方法。