数理统计方法在化学中的应用 李振华 复旦大学化学系表面化学实验室 数理统计在化学中的应用.

Slides:



Advertisements
Similar presentations
天然 養生 樂活 年貨集錦 田森館 - 艾草之家. ‧環保健康生活小常識 : 日常使用的家中日用品,包含各種各樣的化學物質,這些化學物質,有些頗具 毒性,有些雖然沒有急毒性,但暴露日久卻會造成慢性中毒,導致健康受損, 甚至致命。 環境荷爾蒙會影響人類或其他生物的生殖能力與發育,其中一類的「壬基酚 (
Advertisements

2.5 微分及其应用. 三、可微的条件 一、问题的提出 二、微分的定义 六、微分的形式不变性 四、微分的几何意义 五、微分的求法 八、小结 七、微分在近似计算中的应用.
进食和睡眠障碍 上海市心理咨询中心 张海音. 进食障碍 是一组以进食行为异常为主的精 神障碍,主要包括神经性厌食、神经 性贪食,及神经性呕吐。儿童期拒食、 偏食,及异食症等(见儿童进食障 碍)。
公害污染事件-鉛中毒 認識鉛中毒 鉛中毒的事件 如何解決鉛中毒? A 鄭豪仁 資環二甲 指導老師:胡子陵.
这辈子只做一件家务,你会做什么? A、拖地 B、洗碗 C、做饭 D、倒垃圾.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
复习回顾 … , 1、算术平均数的概念: 一般地,对于n个数 我们把 叫做这n个数的算术平均数,简称平均数. 2、加权平均数的定义
Measures of location and dispersion
Excel在统计中的应用.
第四章 随机变量的数字特征 数学期望 方差 * 协方差与相关系数 大数定律与中心极限定理.
郑州轻工业学院数学与信息科学系 第七章:参 数 估 计 概率统计教研组.
Statistical Probability for Production Simulation
3.1 随机事件及其概率 3.2 随机变量及其概率分布 3.3 大数定律与中心极限定理
第二章:随机变量 上节课内容 本节课内容 概率理论 随机变量及其分布 随机变量变换 常见分布族 多元随机向量的分布 概率公理及推论
Excel Functions and Probability Distribution
新闻写作的特点与技巧 主讲:毛兆宏.
江西 6、下列关于名著的表述,不正确的一项是
你是用左脑是右脑?.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
第三章 水文统计的基本原理与方法.
第五章 定积分及其应用.
第三章 隨機變數.
管理统计学 主讲人: 北京理工大学 管理与经济学院 李金林 电话: 办公室: 中心教学楼1012房间
統計學 授課教師:林志偉 Tel:5021.
第十八章 技术.
林黛玉进贾府 曹雪芹.
印象派之父 莫內 製作︰林佩葳 指導老師︰袁淑芬老師.
6.2 常態機率分配 常態機率分配(normal probability distribution)可以說是最重要的連續機率分配。
第十章 兩母體之假設檢定 Inferences Based on Two-Samples:
第十四章 数值变量的统计描述.
分析化学教程 第二章 分析数据处理及 分析测试的质量保证 (1) 分析化学教程( 学年)
Continuous Probability Distributions
第 5 章 樣本資料的數值分布.
Properties of Continuous probability distributions
Sampling Theory and Some Important Sampling Distributions
第六章 機率分配.
Interval Estimation區間估計
第一章.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
检验 Chi-Squared Test Goodness-of-fit Test 拟合优度检验 & Test of Row and Column Independenc 独立性检验 欧阳顺湘 北京师范大学珠海分校.
Chap 9 Testing Hypotheses and Assessing Goodness of Fit
导数的应用 ——函数的单调性与极值.
第一章.
概率论 ( Probability) 2016年 2019年4月15日5时31分.
练习 将一枚骰子连掷两次,以X表示两次所得点数之 和,试写出随机变量X的分布律. 解: X =“出现的点数”
3-6-1 愛滋風暴如同原子彈 戴著無比的威力蔓延開來 你是否能安然度過這場 風暴呢?.
Dr. C. Hsieh College of Informatics Kao yuan University
八、假設檢定 I (Hypothesis Testing Ⅱ)
The Bernoulli Distribution
CH13 超越描述統計:推論統計.
五.連續變數及常態分佈 (Continuous Random Variables and Normal Distribution)
第二部分:统计推断 Chp6:统计推断概述 Chp7:非参数推断 Chp8:Bootstrap Chp9:参数推断 Chp10:假设检验
統計學回顧 區國強.
(四)标准差(standard deviation)
楊志強 博士 統計學 楊志強 博士
第四章 常用概率分布 韩国君 教授.
【VA虚拟应用管理平台】专题培训 智能打印 陕西益和信息技术开发有限责任公司 2011年2月.
第 6 章 统计量及其抽样分布 作者:中国人民大学统计学院 贾俊平 PowerPoint 统计学.
生物统计学 Biostatistics 第一章 统计数据的收集与整理
第七章 计量资料的统计分析.
3-3 随机误差的正态分布 一、 频率分布 在相同条件下对某样品中镍的质量分数(%)进行重复测定,得到90个测定值如下:
課程五 機率.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
抽樣分配.
第7章 常用機率分配.
Gaussian Process Ruohua Shi Meeting
Presentation transcript:

数理统计方法在化学中的应用 李振华 复旦大学化学系表面化学实验室 数理统计在化学中的应用

讲义 http://www.surfchem.fudan.edu.cn/teacher/lizh/lizh.htm

绪论 统计方法是一种用于收集、表示、分析和解释通过观察和实验而得到的基本数据的方法,是人类认识自然和社会的重要手段。 《上海股票市场收益率分布模型统计研究》 在运用正态分布假设的GARCH模型来描述金融收益序列的条件分布时,正态分布假设常常被拒绝,人们用一些具有尖峰、厚尾特性的分布,如t分布、GED分 布来替代正态分布假设,从而得到一系列GARCH模型的扩展形式,如GARCH-t模型、GARCH-GED模型等。本文依据严密的统计分析方法选择了 GARCH-t(1,1)模型描述上证综指对数收益率序列的分布。最后,根据各项模型检验结果说明,用GARCH-t(1,1)模型描述上证综指收益率序 列是有充分理由的。 《统计定价模型与股票投资决策》<<统计与决策>>2007年 第15期 ,作者: 高祥宝, 闫惠敏 数理统计在化学中的应用

韩寒代笔之争 http://www.tieku.org/448946/3.html 首先从逻辑角度讲,方舟子应该证明 P( A | F) 大于一个很大的值如95% 。这里 A是方的假设, 比如 “《三重门》是韩父写的”F是 所有可观测的客观事实的集合。这里方可以用两种方法去证明 P(A|F) > 95%. 第一种是找到一些列的独立证据 F1,F2, F3… 每一个证据 P(A|Fi) 都很大,比如他能找到证人证明什么时间,什么地点由什么证人看到了听说了韩父代写,或者手稿上的字迹能证明是韩父的。这些都是硬的证据,方没有。这没有关系,方可以采用另外一种方法证明,那就是对于某一个事实Fk, 如果 P( Fk|a ) 很小,这里a是A的补集。(也就是a =”三重门是韩寒自己写的“)那么通过贝耶斯公式反推P( A | F),如果P( Fk|a ) 足够小,那么P( A | F)是可以大于95%的。 这种也是方一直在采用的方法,但使用这种方法的问题在于,根据公式,P ( A | F) = P(AF)/P(F) = ( P(F1|A)*P(F2|A)*…P(Fn|A)*P(A) ) / (P(F1|A)*P(F2|A)*…P(Fn|A)*P(A) + (P(F1|a)*P(F2|a)*…P(Fn|a)*P(a) )也就是说,如果F由很多n个独立的事实组成,那么,你如果只找到了1个很小的P( Fk|a )是不能推断P( A | F)很大的。也就是说,如果这里有100万个事实,你找到了100个 令人质疑的事实 根本没用,除非你的那些令人质疑的事实的概率极其小 。 这也就是我们金融领域常说的data mining. 也就是,在同一个sample里不停的用各种方法去找股票的规律,最后你总能找到“一些”的规律,比如,“每个月的第一天股价总是上升的”之类的。你用统计方法做假设检验, t-value都好高,但是没用,因为你是先看到了Sample再做的检验。同理,方舟子把韩寒的资料不停的翻,不停的找,总能找出点什么异常的,但是这根本无法证明什么。除非方舟子可以做 out of sample test. 比如,方舟子用他的假设来推断一些事实存在于他还没看过的/不知道的韩寒的书,资料,或者事件,那才能算得上证据。不然的话,今天证明这个,明天证明那个,不过就是一个data mining 的游戏而已。

韩寒代笔之争 http://www.douban.com/note/200344586/ 【例四】假设有一个要证明韩寒作品有代笔的实验。 零假设:韩寒作品没有代笔 备择假设:韩寒作品有代笔 选择显著性水平α=?(且预设检验力1-β=?) 选择样本、收集数据,计算p值。 若p<α,则接受备择假设,拒绝零假设; 若p>α,则无法拒绝零假设。

红楼梦前80回与后40回作者之争 早在 1980 年,在美国威斯康星大学召开的“首届国际《红楼梦》研讨会”上,该校华裔学者陈炳藻教授首次报告了他在这方面的研究工作(见 [4] , [5] ),此后还出版了专著(见 [6] )。陈教授将《红楼梦》 120 回分为三组,每组 40 回,并将《儿女英雄传》作为对照组进行比较研究。他从每组中任取 8 万字,挑出名词、动词、形容词、副词、虚词这 5 种词,然后运用统计学方法算出各组之间用词的相关程度,结果发现: 《红楼梦》前 80 回与后 40 回所用词汇的相关程度远远超过《红楼梦》与《儿女英雄传》所用词汇的相关程度,并由此推断:前 80 回与后 40 回均为曹雪芹一人所作。 http://tieba.baidu.com/p/1405479073

红楼梦前80回与后40回作者之争 但是,我国华东师范大学陈大康教授得出了迥异的结论 (1987 , [7]) 。他也把《红楼梦》 120 回分成三组,每组 40 回,并统计了其中所含词、字、句等 88 个项目。他发现,这些词在前两组出现的规律相同,而与后 40 回却不一致;关于用字特点和句式规律,前两组也是惊人的吻合,而后 40 回则迥异。由此推断:后 40 回非曹雪芹所作(但含有少量残稿) 本文以数据分析为基础,以统计学中“两个独立二项总体的等价性检验”为基本方法,很清楚明确地证明:《红楼梦》前 80 回与后 40 回在饮食与花卉的描写上确实存在非常显著的差异;在树木的描写上也存在明显差异。不过,这种差异还不能说明《红楼梦》前 80 回与后 40 回出自不同的作者。

统计学是“对令人困惑费解的问题做出数字设想的艺术。” ---美国 David Freedman 统计学是一门处理数据中变异性的科学和艺术。   --- John M.Last《A Dictionary of Epidemiology》    科学与艺术的不同在于不同的人处理相同的问题可能得到不同的结果 数理统计在化学中的应用

实验化学的基础是测量 实验化学学科作为一门实验科学,一直被认为是有着很大欠缺的,那就是欠缺严格性、逻辑性以及精确性的理论。 测量具有随机可变性、不确定性、模糊性。统计学可解决前两种问题. 数理统计在化学中的应用

测量的重要性 在美国芝加哥大学社会科学研究馆的正面,刻有这样一段铭文:“假若你不能测量,你的知识就是贫乏和不能令人满意的。” 实际上,这句话还应该这样来补充:“假如你只懂得测量,那么你对世界的认识将是可怜的。” 数理统计在化学中的应用

不能片面强调测量的精确性 长期以来,我们已习惯于把科学知识看成是许多确实无误的陈述的集合,化学中同样也是这样,充斥着决定论。 片面地追求所谓精确性,其结果只能是将认识过程中的某一部分加以近似化、简单化,最终常会走向形而上学,乃至神秘主义。 数理统计在化学中的应用

二.统计学的历史及作用 统计学的历史一般认为开始于十七世纪中叶,最初的统计学出现在德国和英国,被称为古典统计学。统计学的发展史上曾形成过记述学派、政治算术学派、数理学派这三个主要学派。十九世纪中叶,数理学派的代表人物比利时科学家凯特勒(L.A.J. Quetelet)将概率论正式引进到统计学中之后,也就开始了数理统计学的发展时期。 数理统计在化学中的应用

数理统计在科学研究中得到了极其广泛的应用 主要地是由于以下几个原因: 窥一斑而知全豹:科学实验的研究对象具体地只能是极小一部分样品,研究的最后结果也只能是从这一小部分样品的研究结果出发来作出统计推断,也就是运用数理统计方法推断出研究对象的全体来。 归纳规律:科学实验中不可避免地会存在着大量随机误差的问题,要从这些随机现象中去得出准确可靠的研究结果,这只能依赖于数理统计的方法和原理。 优化和试验设计:科学实验经常要进行各种条件试验,诸如合成路线、配方设计、工艺条件、寿命试验等等,这就需要运用统计的原理和方法来进行优化和实验设计。 数理统计在化学中的应用

数理统计在科学研究中得到了极其广泛的应用 函数关系:科学实验中总要研究各个变量之间的关系,并进而进行科学的预测和推断,而这些是离不开数理统计方法的应用的。 数据处理:随着现代科学研究的发展,各种测量仪器的计算机化给我们带来了“数据爆炸”,如何来处理这些大量的数据,并要能从这些数据中获取更多的甚至意想不到的信息,只有数学和统计学技术才能给我们以可靠的保证。 数理统计在化学中的应用

三.统计方法在化学中应用的意义 应该说化学这一学科基本上还是一门实验学科,因此化学工作者掌握数理统计的原理及其应用的必要性和实际意义也就显得尤为重要。只有正确地运用数理统计方法,才能够帮助我们在化学实验中,从表面杂乱无章的现象里去寻找出有意义的统计结论来;才能使我们能更有成效地进行各门化学领域中的科学研究,确保科学研究取得可靠、准确的结果并进而得以发现客观规律;才能使我们从大量的实验数据、实验资料中去揭示和获取更多的化学信息。 数理统计在化学中的应用

第一章 随机变量和分布函数 第一节 几个基本的统计学概念 1-1 总体和样本 1-2 随机现象 1-3 随机变量 第一章 随机变量和分布函数 第一节 几个基本的统计学概念 1-1 总体和样本 1-2 随机现象 1-3 随机变量 离散型随机变量 \连续型随机变量 数理统计在化学中的应用

样本:从总体中抽取一部分实测的个体或单位的集合 容量:样本中含有个体的数目 样品:组成样本的每一单位或个体 第一章 第一节 $1.1 总体和样本 总体:满足指定条件的众多数据的集合 有限总体 无限总体 样本:从总体中抽取一部分实测的个体或单位的集合 容量:样本中含有个体的数目 样品:组成样本的每一单位或个体 总体 样本 样品 数理统计在化学中的应用

必然事件:满足一定条件后一定发生或一定不发生的事件 随机事件:满足一定条件后不一定发生的事件 第一章 第一节 $1.1.1 必然事件与随机事件 必然事件:满足一定条件后一定发生或一定不发生的事件 随机事件:满足一定条件后不一定发生的事件 数理统计在化学中的应用

$1.1.2 频率和概率(几率) 频率: 概率: 0  P  1 必然事件: P = 1 不可能事件:P = 0 数理统计在化学中的应用

Table 1.1.2.1 硬币投掷实验 数理统计在化学中的应用

随机变量的取值仅仅是有限个,或是可列的无穷多个。 连续型随机变量 随机变量的取值是充满某一区间的,并且落在任一区间的概率也是确定的。 第一章 第一节 $1.1.3 随机变量 实验中所可能出现的结果的量(X)。 离散型随机变量 随机变量的取值仅仅是有限个,或是可列的无穷多个。 连续型随机变量 随机变量的取值是充满某一区间的,并且落在任一区间的概率也是确定的。 随机变量所取的数值:x 数理统计在化学中的应用

$1.2 分布函数 第二节 分布函数 $1.2.1 分布函数的定义、类型和性质 $1.2.2 概率密度函数 数理统计在化学中的应用

累积分布函数(Cumulative Distribution Function, CDF): $1.2 分布函数 $1.2.1 分布函数的定义、类型和性质 累积分布函数(Cumulative Distribution Function, CDF): 设x是一任意实数或事件,X取得小等于x的数值,的概率为P(Xx), F(x) (= P(Xx) )就称为随机变量X的累积分布函数,记为: F(x) = P(Xx) 数理统计在化学中的应用

$1.2 分布函数 $1.2.1 分布函数的定义、类型和性质 对于任意实数x1, x2, 且x1 < x2有, P{x1<x≤x2}=P{x≤x2}-P{x≤x1} = F(x2)-F(x1) 因此,若已知x的累积分布函数,就可以知道x落在任一区间(x1, x2)上的概率,在这个意义上说,累积分布函数完整地描述了随机变量的统计规律性。 数理统计在化学中的应用

F(x)为增函数,当x2 > x1时,F(x2)  F(x1) F(x)为右连续 $1.2.1 累积分布函数具有如下性质: F(x)为增函数,当x2 > x1时,F(x2)  F(x1) F(x)为右连续   数理统计在化学中的应用

$1.2.2 概率密度分布函数(Probability Density Function, PDF) $1.2 分布函数 $1.2.2 概率密度分布函数(Probability Density Function, PDF) 对于一维连续实随机变量x,任何一个满足下列条件的函数f(x)都可以被定义为其概率密度函数: 显然 数理统计在化学中的应用

$1.2.3 概率质量函数 概率质量函数(Probability Mass Function, PMF): 是离散随机变量在各特定取值上的概率 概率质量函数和概率密度函数不同之处在于:概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。 离散随机变量概率质量函数的不连续性决定了其累积分布函数也不连续。 数理统计在化学中的应用

$1.2.4 平均值,期望值,偏差,方差 均值,期望值 平均值 X的期望值(expectation value),有时用来表示 数理统计在化学中的应用

$1.2.3 量度数据离散程度(dispersion)的统计量 极差 一组数据中最大值和最小值之差 平均绝对偏差 方差(Variance) 样本方差 数理统计在化学中的应用

标准差(Standard Deviation) $1.2.3 量度数据离散程度的统计量 方差(Variance) 总体方差 样本方差 S2 是对总体方差2的无偏估计 标准差(Standard Deviation) 相对标准差(Relative Standard Deviation) 数理统计在化学中的应用

$1.2.3 量度数据离散程度的统计量 连续性随机变量的标准差 数理统计在化学中的应用

$1.3 化学中常用的分布函数 $1.3.1 二项式分布 $1.3.2 泊松分布 $1.3.3 麦克斯威尔分布 数理统计在化学中的应用

$1.3.1 二项式分布 每次试验只有两种可能结果而不受以前试验结果影响的分布。其中一种事件的概率p,另一种的概率q(1-q)。 如果在n次独立试验下,求A出现次数x的概率分布,这一分布的概率质量函数即为: P(x) = Cnx px qn-x (x = 0,1,2 … n,0<p<1 ) 这个概率函数给出的分布就叫做二项式分布,即二项式(p+q)n的展开式。二项分布常用于军事射击和工业检查中,在化学中可用于计算质谱中同位素峰的强度比以及根据塔板理论推导气液色谱的流出曲线。 数理统计在化学中的应用

二项式分布 数理统计在化学中的应用

例1-2色谱的塔板理论 (一)塔板理论的四个基本假设 1.在柱内一小段高度内组分分配瞬间达平衡(H→理论塔板高度) 2.载气非连续而是间歇式(脉动式)进入色谱柱,每次进气一个塔板体积 3.样品和载气均加在第0号塔板上,且忽略样品沿柱方向的纵向扩散 4.分配系数在各塔板上是常数 根据塔板理论,待分离组分流出色谱柱时的浓度沿时间呈现二项式分布,当色谱柱的塔板数很高的时候,二项式分布趋于正态分布。 杨世钺, 色谱法溶质以二项式展开分布的简明推导, 化学通报, 1989, 02, 47-49.

例1-3 有一化学药品的混合过程在正常情况下会有10%的可能混合不合格,今在一批药品中抽验8个样品,发现有2个不合要求,检验员欲拒收整批药品,试问这一决定是否正确? 解: P(x=2) = Cnx px qn-x = C82 0.12 0.910-2 = 0.149 计算表明,在总体合不格率为10%的情况下抽检出两个不合格的概率为14.9%,因此不应拒收这批药品。 数理统计在化学中的应用

$1.3.2 泊松分布 当某事件出现的概率很低(P<<1),样本容量很大(n>>1)时,二项分布就成为泊松分布。由法国数学家Poisson于1838年发表。 泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。 数理统计在化学中的应用

泊松分布 泊松分布的概率质量函数为: (x = 0,1,2,…,为参数) : 单位时间(或单位面积)内随机事件的平均发生数 性质: x的期望值等于方差即:  = = 2: 数理统计在化学中的应用

PMF CDF 数理统计在化学中的应用

[例1-4] 400ml微生物溶液中含微生物的浓度是0 [例1-4] 400ml微生物溶液中含微生物的浓度是0.5只/毫升,抽出1毫升,其中所含微生物的只数x服从什么分布?含3只及3只以上微生物的可能性有多少? 解:溶液中总共有微生物n = 0.5×400 = 200只,每一只微生物落入抽检的1毫升溶液中的概率p = 1/400,不落入的概率q = 399/400。如看有几只微生物落入抽检的1毫升溶液中就相当于一个n = 200时的独立试验模型,所以x服从二项分布。 数理统计在化学中的应用

由于 = np = 0.5比较小,可以用泊松分布来近似计算。 P(n≥3) = 1 - P(n<3) = 1 - P(n=0) - P(n=1) - P(n=2) = 1 – e-0.5 – 0.5e-0.5 – 0.52e-0.5 /2 = 1 - 0.6065 - 0.3033 - 0.0758 = 0.0144 因为概率很小,在0.5只/毫升条件下,抽检1毫升是不大可能发现3只或3只以上的。如真抽到,就说明并不是这个浓度,而是大大超过了. 数理统计在化学中的应用

$1.3.3 麦克斯威尔分布 直角坐标下速度的概率密度分布 球坐标下速度的概率密度分布 速率的概率密度分布 数理统计在化学中的应用

第二章 正态分布 $2.1 频率和概率 数理统计在化学中的应用

数理统计在化学中的应用

数理统计在化学中的应用

图2-1 测量数据的频率密度直方图。 数理统计在化学中的应用 图2-1 测量数据的频率密度直方图。 在次数少的试验中,事件发生的频率会有较大波动,而在大量的试验中,事件发生的频率虽仍有微小波动,却总是稳定在某一常数附近。如果试验次数不断增加,组距分得越来越小,分组越来越多,每一组的最高点的连线最终必将稳定地成为一条曲线,这样的曲线就叫做频率密度分布曲线。 数理统计在化学中的应用

图2-1 频率密度分布逐渐接近正态分布示意 数理统计在化学中的应用 考察频率分布可知,当试验次数越来越多时,频率也就会越来越稳定于某个数,这就是说,某一测量结果出现的次数与测量总次数之比会逐渐稳定于某个值,该值就是该试验结果的概率。从频率分布曲线图上也可看出,当n→∞,组距→0时,随机样本的频率密度分布就会成为一条连续的曲线。若该曲线以y = f(x)表示,则f(x)就称为x的概率密度函数。 数理统计在化学中的应用

$2.2 正态分布( 高斯分布)与正态曲线 假设在一定条件下,对某一个量x进行无限多次重复的等精度测量,得到一系列数据x1,x2,… xn,则各测量值的频数密度分布将会从锯齿形图(见直方形图)转变成为一条平滑的曲线,该曲线的分布就称为正态分布。因为随机误差是服从正态分布的,所以正态分布又常称为(随机)误差分布。 数理统计在化学中的应用

正态分布的历史 正态分布最早是棣莫佛在1734年发表的一篇关于二项分布文章中提出的。拉普拉斯在1812年发表的《分析概率论》中对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛-拉普拉斯定理。 拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。 正态分布这个名字还被Charles S. Peirce, Francis Galton, Wilhelm Lexis在1875分别独立的使用。这个术语是不幸的,因为它反应和鼓励了一种谬误,即很多概率分布都是正态的。 这个分布被称为“正态”或者“高斯”正好是Stigler名字由来法则的一个例子,这个法则说“没有科学发现是以它最初的发现者命名的”。 数理统计在化学中的应用

中心极限定理 数学家们对正态分布曲线做了将近有300年的研究,证明了当每次测量都受到很多微小随机因素的影响时,测量的总误差就具有正态分布,当然对于这种断定不应在没有证据的情况下就予以接受。 统计学告诉我们,只要测量的次数n足够多,样本平均值的分布总可服从正态分布,而不论它原来是什么分布。这就是中心极限定理。 中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。 二项式 泊松 数理统计在化学中的应用

智商分布曲线 IQ test: http://www.iqtest.dk/main.swf 数理统计在化学中的应用 95%的人智商介于70-110之间。但近年的研究表明,智力分布曲线的两侧并不是完全对称的。智力低的一端范围较大,即智力低下的人比智力高的人为数略多。这是因为人类智力除按正常的变异规律分布外,还有许多疾病可以损害大脑,导致智力低下。但是,智力是可以变化的。 数理统计在化学中的应用

IQ Richard Herrnstein and Charles Murray The Bell Curve (1994) 智商70%左右来源于遗传,和环境关系不大 Leon J. Kamin (1927-) Now: Indiana University Chairman (1968): Department of Psychology at Princeton University The Science and Politics of IQ (1974)

IQ and Race In his 2006 book Race Differences in Intelligence Lynn adopted the ten-category classification scheme of human genetic variation introduced in The History and Geography of Human Genes by Luigi Cavalli-Sforza and colleagues. Lynn argues that mean IQ varies by genetic clusters, or "race". According to his calculations, the East Asian cluster (Chinese, Japanese and Koreans) has the highest mean IQ at 105, followed by Europeans (100), Inuit-Eskimos (91), South East Asians (87), Native American Indians (87), Pacific Islanders (85), South Asians & North Africans (84), sub-Saharan Africans (67), Australian Aborigines (62), and Kalahari Bushmen & Congo Pygmies (54).[3][60]

正态分布:通常用N(,2)来表示总体平均值(期望值)为 ,方差为2的正态分布。 正态分布概率密度函数(PDF) f(x)又叫正态分布曲线,由下式来表示: . -4 -2 2 4 6 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 , 数理统计在化学中的应用

累积概率分布函数(CDF) 数理统计在化学中的应用

$2.2.3 正态分布的性质 从图2-3 可以看到,正态曲线的形状是由决定的,而决定曲线的位置。  数理统计在化学中的应用

累积分布函数(CDF)

f(x) 68% 95% 99%  -3 -2 - + +2 +3 x 数理统计在化学中的应用

$2.3 标准正态分布和概率的计算 讨论正态分布曲线 令u = (x-)/,则 记当=0; 2=1时的正态分布,称为标准正态分布,记为N(0,1) 数理统计在化学中的应用

$2.3 标准正态分布和概率的计算 因此: u = (x-)/ du = dx/ 数理统计在化学中的应用

正态分布表: 数理统计在化学中的应用

第三节 概率的计算 [例2-2] 设随机变量X服从N(, 2),试计算下列范围中的概率 第三节 概率的计算 [例2-2] 设随机变量X服从N(, 2),试计算下列范围中的概率 (1) (-, +); (2) (-2, +2); (3) (-3, +3); 数理统计在化学中的应用

[例2-3]根据资料,30-40岁男子血清胆固醇值(mmol/l)极近正态分布N(4.72,0.77), 试求:该年龄健康男子血清胆固醇值(1)大于6.20的概率;(2)大于4.00且小于5.50的概率。 数理统计在化学中的应用

数理统计在化学中的应用

第四节 和正态分布有关的一些样本分布 数理统计在化学中的应用

自由度 统计学上的自由度(degree of freedom, df),是指当以样本的统计量来估计总体的参数时, 样本中独立或能自由变化的资料的个数,称为该统计量的自由度。这里我们用k或v来表示。 例如,在估计总体的平均数时,样本中的k个数全部加起来, 其中任何一个数都和其他资料相独立,从其中抽出任何一个数都不影响其他资料(这也是随机抽样所要求的)。 因此一组资料中每一个资料都是独立的,所以自由度就是估计总体参数时独立资料的数目,而平均数是根据k个独立资料来估计的,因此自由度为k。

学生t-分布(Student's t-distribution) 1908年,英国统计学家W.S. Gosset证明了:在未知而以样本的标准差S去代替时,此时遵守的将是t-分布。 若x1,x2,… xn是由服从正态分布的总体中随机抽取的样本值, 学生t 分布可简称为t 分布。其推导由威廉·戈塞于1908年首先发表,当时他还在都柏林的健力士酿酒厂工作。因为不能以他本人的名义发表,因其老板认为其为商业机密,所以论文使用了学生(Student)这一笔名。之后t 检验以及相关理论经由罗纳德·费雪的工作发扬光大,而正是他将此分布称为学生分布。 数理统计在化学中的应用

那么统计量 如果知道总体平均值,即期望值,和标准差,则可定义: 数理统计在化学中的应用

t-分布的几率密度分布函数 v是自由度 注意:对于一个容量是n的样本,其v=n-1。

t-分布的概率密度函数(PDF) 数理统计在化学中的应用

t-分布的累积分布函数(CDF) 数理统计在化学中的应用

t-分布的应用——t检验(Student's t-test) 学生t分布应用在当对呈正态分布的母群体(总体)的均值进行估计。它是对两个样本均值差异进行显著性测试的学生t检验的基础。t检验改进了Z检验(Z-test),不论样本数量大或小皆可应用。在样本数量大(超过120等)时,可以应用Z检验,但Z检验用在小的样本会产生很大的误差,因此样本很小的情况下得改用学生t检验。 当总体的标准差是未知的但却又需要估计时,我们可以运用学生t分布。t-分布有着广泛的应用。从上式可以得到 TDIST (x,degrees_freedom,tails) ,TINV(probability,degrees_freedom) 数理统计在化学中的应用

t检验临界值表 单侧P{t>t(v)} = 或 P{t<-t(v)} =,所对应的t(v)值(>0) 0.1 0.05 0.025 0.01 0.005 0.0005 v\a 0.2 0.02 0.001 1 3.078 6.314 12.706 31.821 63.657 636.619 2 1.886 2.920 4.303 6.965 9.925 31.599 3 1.638 2.353 3.182 4.541 5.841 12.924 4 1.533 2.132 2.776 3.747 4.604 8.610 5 1.476 2.015 2.571 3.365 4.032 6.869 6 1.440 1.943 2.447 3.143 3.707 5.959

卡方分布(2 -分布) 卡方分布是统计学中的一种机率分布,它广泛的运用于检测数学模型是否适合所得的数据,以及数据间的相关性。数据并不需要呈正态分布。 如果从一个正态总体中,抽取出随机变量Xi, 则各随机变量Xi与总体均值之差对总体标准差的比值,即Zi = (xi –)/ ,也服从正态分布,它们的平方和称为2 k: 2的自由度 数理统计在化学中的应用

卡方分布:概率密度分布函数 其中x=2 数理统计在化学中的应用

卡方分布:累积分布函数 其中x=2 数理统计在化学中的应用

卡方分布的性质和用途 自由度为 k 的卡方变量的平均值是 k,方差是 2k。 两个独立的2分布随机变量各自除以自己的自由度之后的比值就是F-分布。 用来测试随机变量之间是否相互独立,也可用来检测统计模型是否符合实际要求,观察值和理论值之间的偏离是否显著 EXCEL: CHIDIST(x,degrees_freedom) :计算2分布单尾概率的数值 CHIINV(probability,degrees_freedom) CHIDIST的逆函数 单尾概率: CHIDIST(x,k)=P(X > x)

CHIDIST(x, degree_freedom) 1-F(x) CHIDIST(x, degree_freedom)

F-分布 如果有两个总体都服从正态分布,从两个总体中抽出两个样本1和2,各自的容量是n1和n2,自由度为v1=n1-1和v2=n2-1,定义F 这个比值,即F,它的分布就是一个具有n1-1和n2-1 自由度的F分布。如果两个样本是从同一个总体中抽出,则 同样做滴定实验。两个学生各做三组测定。测得两组三个数值。 数理统计在化学中的应用

F-分布 这就是说即使F≠1,我们也不能认为这两个总体的方差就不等,考虑到随机因素的影响,它应有一个合理的允许范围,必须用统计的方法来处理,这就引出了研究F-分布的问题。 F > 0 F取值越大,越不可能。 同样做滴定实验。两个学生各做三组测定。测得两组三个数值。 数理统计在化学中的应用

F-分布的几率密度分布函数(PDF) v1=1, v2=1 v1=2, v2=1 v1=5, v2=2 v1=100, v2=1 数理统计在化学中的应用

F-分布的累积分布函数(CDF) I: 不完全Beta函数 v1=1, v2=1 v1=2, v2=1 v1=5, v2=2 数理统计在化学中的应用

F-分布的累积分布函数(CDF) FDIST(x, v1, v2) = 1 - F(x) FINV(p, v1, v2): FDIST的逆函数,即如果 p = FDIST(x, v1, v2),则 x = FINV(p, v1, v2) 数理统计在化学中的应用

数理统计在化学中的应用

数理统计在化学中的应用