第二讲 概率统计基本概念 一、概率统计的基本概念 1.随机事件(random test)

Slides:



Advertisements
Similar presentations
第一章 、随机事件与概率 1.1 、随机事件 1.2 、随机事件的概率 1.3 、随机事件概率的计算 1.4 、伯努利概型.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.2.1 条件概率 临沂第二十四中学高二数学备课组
資料分析 ---敘述統計分析.
3.1 随机事件及其概率 3.2 随机变量及其概率分布 3.3 大数定律与中心极限定理
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
3.1.3 概率的基本性质.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
《高等数学》(理学) 常数项级数的概念 袁安锋
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
第一章.
第三章 水文统计的基本原理与方法.
第五章 定积分及其应用.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
第三节 协方差及相关系数 协方差 相关系数 课堂练习 小结 布置作业.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
主要内容 § 3.1 多维随机变量及联合分布 联合分布函里数 联合分布律 联合概率密度 § 3.2 二维随机变量的边缘分布
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
1.2 事件的频率与概率 一、事件的频率 二、概率的公理化体系 1.2 事件的频率与概率.
統計學 授課教師:林志偉 Tel:5021.
3.解:连续掷同一枚硬币4次的基本事件总数为 ,
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
第四章 随机变量的数字特征 §4 协方差及相关系数 协方差的定义 协方差的性质 相关系数的定义 相关系数的性质.
概率论与数理统计模拟题(3) 一.填空题 3且 1.对于任意二事件A 和 B,有P(A-B)=( )。 2.设 已知
教學演示教材: 〈信賴區間與信心水準的解讀〉
本次课讲授:第二章第十一节,第十二节,第三章第一节, 下次课讲第三章第二节,第三节,第四节; 下次上课时交作业P29—P30
第一章.
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
生物统计学 第二章 概率和概率分布
第一章.
数据统计与分析 秦 猛 南京大学物理系 手机: 第十讲 数据统计与分析 秦 猛 南京大学物理系 办公室:唐仲英楼A 手机:
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第七章 参数估计 7.3 参数的区间估计.
导数的应用 ——函数的单调性与极值.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
数列.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
§1体积求法 一、旋转体的体积 二、平行截面面积为已知的立体的体积 三、小结.
第三章 平均数、标准差与变异系数 第一节 平均数 上一张 下一张 主 页 退 出.
第4章 Excel电子表格制作软件 4.4 函数(一).
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
五.連續變數及常態分佈 (Continuous Random Variables and Normal Distribution)
統計學回顧 區國強.
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
第三章 多维随机变量及其分布 第一节 二维随机变量 第二节 边缘分布 第三节 条件分布 第四节 相互独立的随机变量
第四节 随机变量函数的概率分布 X 是分布已知的随机变量,g ( · ) 是一个已知 的连续函数,如何求随机变量 Y =g(X ) 的分布?
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
难点:连续变量函数分布与二维连续变量分布
生物统计学 Biostatistics 第一章 统计数据的收集与整理
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
概率论与数理统计.
§4.1数学期望.
比和比值 黃琮聖 林姿均.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

第二讲 概率统计基本概念 一、概率统计的基本概念 1.随机事件(random test) 第二讲 概率统计基本概念 一、概率统计的基本概念 1.随机事件(random test) 在一定条件下可能实现,也可能不能实现的现象称为随机事件。 如“某一铜矿体中铜品位为0.5%-1.2%”、“闪长岩侵入于碳酸盐地层中形成矽卡岩铁矿”、“钻探到地下1000米处见矿”等。 由于地质作用的长期性和复杂性,地质过程中的大多数地质现象都可当作是随机事件。

2.总体(population)和样本(group)   假设我们研究某个矿体,并从该矿体上采集一组(n个)样品,并分析这组样品中成矿元素Cu和伴生金属元素Pb、Zn、Ag的含量,便可得到一系列元素含量的值,如下所示: 其中,1=Cu, 2=Pb, 3=Zn, 4=Ag,

其中,1=Cu, 2=Pb, 3=Zn, 4=Ag, 将这组样品中一切测定值的集合称为总体(population) 某个样品上所得到的测定值为样本(group) 样本中的单个测定值称为个体(individuals) 一个总体中所含个体的数目称为总体大小(此处为n×4) 样本中所包含个体的总数为样本大小/容量(此处为4)   注意:样本和样品的区别!

3.随机变量(random variables) 在观测或试验中,可能取这个或那个数值,但事前不能确定取什么样的值,而一旦观测/试验完成,其值也随之唯一确定。这种变量称为随机变量(离散型、连续型)。 在某个铜矿体的不同部位取样并分析各样品的Cu品位值。显然,每个样品的品位事先是不能预测,且随其在矿体位置的不同而有所变化,但经化验分析后其值又是唯一的,因此Cu品位是一个随机变量。地质学中大多数变量都是随机变量。 

4.频率(frequency)和概率(probability) 若进行N次观测,某一事件A出现的次数m称为其发生的频数(f*),m/N比值称事件A发生的频率. 如果试验(观测)条件相同,当N→∞时,频率f的极限值称为事件A出现的概率,用P表示。实际上,当N足够大时(N>50~100),可取事件A的频率作为概率的近似值。 对某一地区500个水系沉积物样品进行Au的含量分析,其中64个样品的品位>50 ppb,则 样品品位高于50ppb的频数为64,频率为64/500=12.8%, 它接近于本区样品Au含量超过50ppb的概率。

5.随机事件的概率有以下重要性质 (1)对任意事件A,0≤P (A)≤1  (2)若事件A和事件B互不相容(即A、B不可能同时出现)则P (A +B) = P (A) + P (B)(概率加法)  (3)条件概率(conditional probability) 若A、B为两个随机事件,且P (B)≠0,则事件B已经出现的条件下事件A出现的概率称为条件概率,即 P (A|B) = P (AB)表示AB同时出现的概率,即联合概率(joint probability)。

例:将某一区域划分为16个单元,其中7个单元出现NE向断裂,4个单元出现铅锌矿化;其中三个出现在有NE向断裂的单元内,试计算当存在NE向断裂的条件下有矿化的概率。 P(NE向断裂) =7/16=0.44, P(矿化|NE向断裂) =P(矿化&NE向断裂)/ P(NE向断裂) =(3/16)/0.44=0.187/0.44=42.5%

(4)全概率公式  若事件B1, B2, …., Bn是一组互不相容的事件,并且B1+B2+….+Bn是一个必然事件,则称 B1, B2, …., Bn构成了一个互不相容的事件完备群。若事件A与事件Bi (i=1, 2, …, n)中之一同时出现,即: A=AB1+AB2+…+ABn, 则事件A出现的概率为: P(A)=P(B1)P(A|B1) +…+ P(Bn)P(A|Bn)

(5)贝叶斯准则(Bayes’ theory )   贝叶斯准则的基本公式为: P(AB) = P(B|A)P(A) 即事件A、B同时出现的概率等于事件A已经出现时事件 B出现的概率乘以事件A发生的概率。上式等价于: P(AB) = P(A|B)P(B) 即P(B|A)P(A) = P(A|B)P(B)。此式又可写成: P(A|B)P(B) P(A) P(B|A) = 贝叶斯公式非常有用,因为有时我们只知道条件概率中 A事件的概率,但恰恰所关心的是B事件的概率。

例: 经测量发现某一地区有磁场异常的出现(A),但我们所关心的是磁异常出现的情况下该区出现矿床(B)的概率是多少。我们可以获得矿区的条件概率P(磁异常|矿化)和非条件概率P(矿化),但却很难直接获得P(矿化/磁异常),因为需要对每一个磁异常进行检查和验证,这在实际工作中往往是不太可能的。通过贝叶斯公式,我们可以对P(矿化|磁异常)进行计算,即:

5.频率分布和概率分布(frequency distribution & probability distribution)

  如果观测次数无限增大,且分组区间无限减小,则可以用频率分布曲线来代表总体分布的概率分布曲线,它对应着一个函数关系y=f(x)。函数f(x)称为X的概率密度函数(probability density function)。若f(x)已知,给定区间(a, b),则随机变量X在(a, b)区间的取值概率

第二讲 概率统计基本概念(续) 一、概率统计的基本概念 1.随机事件 随机现象 V.S. 决定性现象 第二讲 概率统计基本概念(续) 一、概率统计的基本概念 1.随机事件 随机现象 V.S. 决定性现象 过马路遇到红灯 V.S. F=ma; 长方形面积 = L x H 2.总体和样本 3.随机变量 4.频率、概率、条件概率、联合概率 全概率公式、贝叶斯准则 随机事件A, 若在N次试验中出现了n次,则 FN(A) = n/N; 频率稳定性---统计规律性 概率P(A) P(NE向断裂) P(矿化|NE向断裂) P(矿化&NE向断裂)

5.频率分布和概率分布(frequency distribution & probability distribution)

  如果观测次数无限增大,且分组区间无限减小,则可以用频率分布曲线来代表总体分布的概率分布曲线,它对应着一个函数关系y=f(x)。函数f(x)称为X的概率密度函数(probability density function)。若f(x)已知,给定区间(a, b),则随机变量X在(a, b)区间的取值概率

6.概率分布函数(probability distribution function)   定义:设X是随机变量,对于任何实数x,若事件(X≤x)的概率P(X≤x)有意义,则可定义函数:    F (x) = P (X≤x) [x∈R1=(-∞, +∞)] 则称F (x)为随机变量X的概率分布函数。它给出随机变量X不大于x值的概率。 在数学上,F(x) = P (X≤x) 可用积分形式表示:

正态分布的随机变量的 概率密度函数 正态分布的随机变量的 概率分布函数

7.随机变量的若干重要数字特征 (1)平均值(aerage/expectation) 设离散型随机变量X 的可能取值为x1, x2, …, xn, .., P (X =xi) = Pi,则X的平均值 μ = (即以取值概率为权的加权平均值)  对连续型随机变量X,设其概率密度函数为f (x),则  E(X) =  样本算术平均值 μ =               

众数 (mode): 具有最大频率的随机变量的取值 中位数 (median): 累积概率50%时对应的观测值. 在正态分布中,mode=median=expectation                   f(x) .

S2= 方差的平方根称为标准差(standard deiation), 记为σ. (2)方差、标准差、变异系数  方差(ariance)是对随机变量离散性质的反映和度量,实际上反映了每一个体(观测值)偏离总体平均值的程度。其数学表达式为: D(X) = E[X-E(X)]2 样本方差的计算: S2= 方差的平方根称为标准差(standard deiation), 记为σ.

变异系数(Coefficient of ariation) 变异系数是衡量矿化均匀程度等的重要参数 CV=

cov(X,Y )=E[X-E(X)][Y-E(Y)]  (3)协方差(Coariance), σXY  用以表征表征随机变量X、Y相对于各自平均值的协同变化(joint ariation)。分别对随机变量X和Y进行观测,得样本容量为n的一组观测值x1,x2…xn和y1,y2…yn,则   cov(X,Y )=E[X-E(X)][Y-E(Y)] 样本协方差计算:

(4)相关系数(correlation coefficient) 随机变量X与Y之间的相关系数记为 样本相关系数计算:   相关系数有以下性质:   1)对任意随机变量X和Y, -1≤rxy≤1   2)相互独立的随机变量x, y,其rxy=0,σxy也为0)

De Wijs 锌品位数据 118个样品 deWijs(1951)发表了取自Boliia的Pulacayo地区铅锌矿-石英矿脉中的118个锌元素化验数据。 在一条铅锌矿-石英脉(地下446标高)240米长的穿脉水平巷道中,每隔2米刻槽取了118个样品。大块脉质平均仅0.5米宽并同时包含了两侧围岩中侵染状的闪锌矿,部分地方出现近似平行的细矿脉脉道。水平巷道中样品被切割成标准的1.3米宽(与期望的终止宽度相吻合)。图中的的化验值表示了平均加权的锌的百分含量,每隔样品点代表1.3米宽度(与矿脉垂直切割) Zinc (%) Distance (m) Zinc (%) rank

N: 118 Max: 39.3000 Max_Dist: 186 Min: 3.7000 Min_Dist: 230 Range: 35.6000 Mean: 15.6000 Var: 64.2764 Std: 8.0173 Median: 13.6500 Mode: 10.6000 IQR: 11.0000 CV: 0.5139 Skewness: 0.8090 Kurtosis: 3.0579

Q-Q Plot

lg[Zinc (%)] Distance (m) N: 118 Max: 1.5944 Min: 0.5682 Range: 1.0262 Mean: 1.1346 Std: 0.2327 Median: 1.1351 Trimmean: 1.1431 Geomean: 1.1089 Harmmeam: 1.0808 Mode: 1.0253 Mad: 0.1886 Var: 0.0542 IQR: 0.3245 Moment: 0.0537 CofV: 0.2051 Skewness: -0.2437 Kurtosis: 2.5120 Distance (m)