第二讲 概率统计基本概念 一、概率统计的基本概念 1.随机事件(random test) 第二讲 概率统计基本概念 一、概率统计的基本概念 1.随机事件(random test) 在一定条件下可能实现,也可能不能实现的现象称为随机事件。 如“某一铜矿体中铜品位为0.5%-1.2%”、“闪长岩侵入于碳酸盐地层中形成矽卡岩铁矿”、“钻探到地下1000米处见矿”等。 由于地质作用的长期性和复杂性,地质过程中的大多数地质现象都可当作是随机事件。
2.总体(population)和样本(group) 假设我们研究某个矿体,并从该矿体上采集一组(n个)样品,并分析这组样品中成矿元素Cu和伴生金属元素Pb、Zn、Ag的含量,便可得到一系列元素含量的值,如下所示: 其中,1=Cu, 2=Pb, 3=Zn, 4=Ag,
其中,1=Cu, 2=Pb, 3=Zn, 4=Ag, 将这组样品中一切测定值的集合称为总体(population) 某个样品上所得到的测定值为样本(group) 样本中的单个测定值称为个体(individuals) 一个总体中所含个体的数目称为总体大小(此处为n×4) 样本中所包含个体的总数为样本大小/容量(此处为4) 注意:样本和样品的区别!
3.随机变量(random variables) 在观测或试验中,可能取这个或那个数值,但事前不能确定取什么样的值,而一旦观测/试验完成,其值也随之唯一确定。这种变量称为随机变量(离散型、连续型)。 在某个铜矿体的不同部位取样并分析各样品的Cu品位值。显然,每个样品的品位事先是不能预测,且随其在矿体位置的不同而有所变化,但经化验分析后其值又是唯一的,因此Cu品位是一个随机变量。地质学中大多数变量都是随机变量。
4.频率(frequency)和概率(probability) 若进行N次观测,某一事件A出现的次数m称为其发生的频数(f*),m/N比值称事件A发生的频率. 如果试验(观测)条件相同,当N→∞时,频率f的极限值称为事件A出现的概率,用P表示。实际上,当N足够大时(N>50~100),可取事件A的频率作为概率的近似值。 对某一地区500个水系沉积物样品进行Au的含量分析,其中64个样品的品位>50 ppb,则 样品品位高于50ppb的频数为64,频率为64/500=12.8%, 它接近于本区样品Au含量超过50ppb的概率。
5.随机事件的概率有以下重要性质 (1)对任意事件A,0≤P (A)≤1 (2)若事件A和事件B互不相容(即A、B不可能同时出现)则P (A +B) = P (A) + P (B)(概率加法) (3)条件概率(conditional probability) 若A、B为两个随机事件,且P (B)≠0,则事件B已经出现的条件下事件A出现的概率称为条件概率,即 P (A|B) = P (AB)表示AB同时出现的概率,即联合概率(joint probability)。
例:将某一区域划分为16个单元,其中7个单元出现NE向断裂,4个单元出现铅锌矿化;其中三个出现在有NE向断裂的单元内,试计算当存在NE向断裂的条件下有矿化的概率。 P(NE向断裂) =7/16=0.44, P(矿化|NE向断裂) =P(矿化&NE向断裂)/ P(NE向断裂) =(3/16)/0.44=0.187/0.44=42.5%
(4)全概率公式 若事件B1, B2, …., Bn是一组互不相容的事件,并且B1+B2+….+Bn是一个必然事件,则称 B1, B2, …., Bn构成了一个互不相容的事件完备群。若事件A与事件Bi (i=1, 2, …, n)中之一同时出现,即: A=AB1+AB2+…+ABn, 则事件A出现的概率为: P(A)=P(B1)P(A|B1) +…+ P(Bn)P(A|Bn)
(5)贝叶斯准则(Bayes’ theory ) 贝叶斯准则的基本公式为: P(AB) = P(B|A)P(A) 即事件A、B同时出现的概率等于事件A已经出现时事件 B出现的概率乘以事件A发生的概率。上式等价于: P(AB) = P(A|B)P(B) 即P(B|A)P(A) = P(A|B)P(B)。此式又可写成: P(A|B)P(B) P(A) P(B|A) = 贝叶斯公式非常有用,因为有时我们只知道条件概率中 A事件的概率,但恰恰所关心的是B事件的概率。
例: 经测量发现某一地区有磁场异常的出现(A),但我们所关心的是磁异常出现的情况下该区出现矿床(B)的概率是多少。我们可以获得矿区的条件概率P(磁异常|矿化)和非条件概率P(矿化),但却很难直接获得P(矿化/磁异常),因为需要对每一个磁异常进行检查和验证,这在实际工作中往往是不太可能的。通过贝叶斯公式,我们可以对P(矿化|磁异常)进行计算,即:
5.频率分布和概率分布(frequency distribution & probability distribution)
如果观测次数无限增大,且分组区间无限减小,则可以用频率分布曲线来代表总体分布的概率分布曲线,它对应着一个函数关系y=f(x)。函数f(x)称为X的概率密度函数(probability density function)。若f(x)已知,给定区间(a, b),则随机变量X在(a, b)区间的取值概率
第二讲 概率统计基本概念(续) 一、概率统计的基本概念 1.随机事件 随机现象 V.S. 决定性现象 第二讲 概率统计基本概念(续) 一、概率统计的基本概念 1.随机事件 随机现象 V.S. 决定性现象 过马路遇到红灯 V.S. F=ma; 长方形面积 = L x H 2.总体和样本 3.随机变量 4.频率、概率、条件概率、联合概率 全概率公式、贝叶斯准则 随机事件A, 若在N次试验中出现了n次,则 FN(A) = n/N; 频率稳定性---统计规律性 概率P(A) P(NE向断裂) P(矿化|NE向断裂) P(矿化&NE向断裂)
5.频率分布和概率分布(frequency distribution & probability distribution)
如果观测次数无限增大,且分组区间无限减小,则可以用频率分布曲线来代表总体分布的概率分布曲线,它对应着一个函数关系y=f(x)。函数f(x)称为X的概率密度函数(probability density function)。若f(x)已知,给定区间(a, b),则随机变量X在(a, b)区间的取值概率
6.概率分布函数(probability distribution function) 定义:设X是随机变量,对于任何实数x,若事件(X≤x)的概率P(X≤x)有意义,则可定义函数: F (x) = P (X≤x) [x∈R1=(-∞, +∞)] 则称F (x)为随机变量X的概率分布函数。它给出随机变量X不大于x值的概率。 在数学上,F(x) = P (X≤x) 可用积分形式表示:
正态分布的随机变量的 概率密度函数 正态分布的随机变量的 概率分布函数
7.随机变量的若干重要数字特征 (1)平均值(aerage/expectation) 设离散型随机变量X 的可能取值为x1, x2, …, xn, .., P (X =xi) = Pi,则X的平均值 μ = (即以取值概率为权的加权平均值) 对连续型随机变量X,设其概率密度函数为f (x),则 E(X) = 样本算术平均值 μ =
众数 (mode): 具有最大频率的随机变量的取值 中位数 (median): 累积概率50%时对应的观测值. 在正态分布中,mode=median=expectation f(x) .
S2= 方差的平方根称为标准差(standard deiation), 记为σ. (2)方差、标准差、变异系数 方差(ariance)是对随机变量离散性质的反映和度量,实际上反映了每一个体(观测值)偏离总体平均值的程度。其数学表达式为: D(X) = E[X-E(X)]2 样本方差的计算: S2= 方差的平方根称为标准差(standard deiation), 记为σ.
变异系数(Coefficient of ariation) 变异系数是衡量矿化均匀程度等的重要参数 CV=
cov(X,Y )=E[X-E(X)][Y-E(Y)] (3)协方差(Coariance), σXY 用以表征表征随机变量X、Y相对于各自平均值的协同变化(joint ariation)。分别对随机变量X和Y进行观测,得样本容量为n的一组观测值x1,x2…xn和y1,y2…yn,则 cov(X,Y )=E[X-E(X)][Y-E(Y)] 样本协方差计算:
(4)相关系数(correlation coefficient) 随机变量X与Y之间的相关系数记为 样本相关系数计算: 相关系数有以下性质: 1)对任意随机变量X和Y, -1≤rxy≤1 2)相互独立的随机变量x, y,其rxy=0,σxy也为0)
De Wijs 锌品位数据 118个样品 deWijs(1951)发表了取自Boliia的Pulacayo地区铅锌矿-石英矿脉中的118个锌元素化验数据。 在一条铅锌矿-石英脉(地下446标高)240米长的穿脉水平巷道中,每隔2米刻槽取了118个样品。大块脉质平均仅0.5米宽并同时包含了两侧围岩中侵染状的闪锌矿,部分地方出现近似平行的细矿脉脉道。水平巷道中样品被切割成标准的1.3米宽(与期望的终止宽度相吻合)。图中的的化验值表示了平均加权的锌的百分含量,每隔样品点代表1.3米宽度(与矿脉垂直切割) Zinc (%) Distance (m) Zinc (%) rank
N: 118 Max: 39.3000 Max_Dist: 186 Min: 3.7000 Min_Dist: 230 Range: 35.6000 Mean: 15.6000 Var: 64.2764 Std: 8.0173 Median: 13.6500 Mode: 10.6000 IQR: 11.0000 CV: 0.5139 Skewness: 0.8090 Kurtosis: 3.0579
Q-Q Plot
lg[Zinc (%)] Distance (m) N: 118 Max: 1.5944 Min: 0.5682 Range: 1.0262 Mean: 1.1346 Std: 0.2327 Median: 1.1351 Trimmean: 1.1431 Geomean: 1.1089 Harmmeam: 1.0808 Mode: 1.0253 Mad: 0.1886 Var: 0.0542 IQR: 0.3245 Moment: 0.0537 CofV: 0.2051 Skewness: -0.2437 Kurtosis: 2.5120 Distance (m)