3-3 随机误差的正态分布 一、 频率分布 在相同条件下对某样品中镍的质量分数(%)进行重复测定,得到90个测定值如下: 第十讲 第三章 误差和分析数据和得理 10-1 3-3 随机误差的正态分布 一、 频率分布 在相同条件下对某样品中镍的质量分数(%)进行重复测定,得到90个测定值如下: 1.60 1.67 1.67 1.64 1.58 1.64 1.67 1.62 1.57 1.60 1.59 1.64 1.74 1.65 1.64 1.61 1.65 1.69 1.64 1.63 1.65 1.70 1.63 1.62 1.70 1.65 1.68 1.66 1.69 1.70 1.70 1.63 1.67 1.70 1.70 1.63 1.57 1.59 1.62 1.60 1.53 1.56 1.58 1.60 1.58 1.59 1.61 1.62 1.55 1.52 1.49 1.56 1.57 1.61 1.61 1.61 1.50 1.53 1.53 1.59 1.66 1.63 1.54 1.66 1.64 1.64 1.64 1.62 1.62 1.65 1.60 1.63 1.62 1.61 1.65 1.61 1.64 1.63 1.54 1.61 1.60 1.64 1.65 1.59 1.58 1.59 1.60 1.67 1.68 1.69
首先视样本容量的大小将所有数据分成若干组:容量大时分为10-20组,容量小时(n<50)分为5-7组,本例分为9组。 第十讲 第三章 误差和分析数据和得理 10-2 首先视样本容量的大小将所有数据分成若干组:容量大时分为10-20组,容量小时(n<50)分为5-7组,本例分为9组。 再将全部数据由小至大排列成序,找出其中最大值和最小值,算出极差R。由极差除以组数算出组距。本例中的R=1.74%-1.49%=0.25%,组距= R/9=0.25%/9=0.03%。每组内两个数据相差0.03%即:1.48-1.51,1.51-1.54等等。为了使每一个数据只能进入某一组内,将组界值较测定值多取一位。即: 1.485-1.515,1.515-1.545,1.545-1.575等等。 统计测定值落在每组内的个数(称为频数),再计算出数据出现在各组内的频率(即相对频数)。
第十讲 第三章 误差和分析数据和得理 10-3 分组(%) 频数 频率 1.485-1.515 2 0.022 1.515-1.545 6 0.067 1.545-1.575 6 0.067 1.575-1.605 17 0.189 1.605-1.635 22 0.244 1.635-1.665 20 0.222 1.665-1.695 10 0.111 1.695-1.725 6 0.067 1.725-1.755 1 0.011 ∑ 90 1.00
第十讲 第三章 误差和分析数据和得理 10-4 图3-3 频率分布的直方图
正态分布,又称高斯分布,它的数学表达式即正态分布函数式为: 第十讲 第三章 误差和分析数据和得理 10-5 由表中的数据和图3-3可以看出,测定数据的分布并非杂乱无章,而是呈现出某些规律性。在全部数据中,平均值1.62%所在的组(第五组)具有最大的频率值,处于它两侧的数据组,其频率值仅次之。统计结果表明:测定值出现在平均值附近的频率相当高,具有明显的集中趋势;而与平均值相差越大的数据出现的频率越小。 二、正态分布 正态分布,又称高斯分布,它的数学表达式即正态分布函数式为:
第十讲 第三章 误差和分析数据和得理 10-6 式中y表明测定次数趋于无限时,测定值xi出现的概率密度。若以x值表示横坐标,y值表示纵坐标,就得到测定值的正态分布曲线。曲线的最高点,它对应的横坐标值μ即为总体平均值,这就说明了在等精密度的许多测定值中,平均值是出现概率最大的值。 式(3-13)中的σ为总体标准偏差,是曲线两侧的拐点之一到直线x=μ的距离,它表征了测定值的分散程度。标准偏差较小的曲线陡峭,表明测定值位于μ附近的概率较大,即测定的精密度高。与此相反,具有较大标准偏差较大的曲线平坦,表明测定值位于μ附近的概率较小,即测定的精密度低。
图3-4 正态分布曲线 (μ相同,σ2>σ1) 第十讲 第三章 误差和分析数据和得理 10-7 σ1 σ2 图3-4 正态分布曲线 (μ相同,σ2>σ1)
综上所述,一旦m和σ确定后,正态分布曲线的位置和形状也就确定,因此μ和σ是正态分布的两个基本参数,这种正态分布用N( m ,σ2)表示。 第十讲 第三章 误差和分析数据和得理 10-8 综上所述,一旦m和σ确定后,正态分布曲线的位置和形状也就确定,因此μ和σ是正态分布的两个基本参数,这种正态分布用N( m ,σ2)表示。 正态分布曲线关于直线x=μ呈钟形对称,且具有以下特点: 1.对称性 绝对值大小相等的正负误差出现的概率相等,因此它们常可能部分或完全相互低消。 2.单峰性 峰形曲线最高点对应的横坐标x-μ值等于0,表明随机误差为0的测定值出现的概率密度最大。 3.有界性 一般认为,误差大于± 3σ的测定值并非是由随机误差所引起的。也就是说,随机误差的分布具有有限的范围,其值大小是界的。
三、标准正态分布 代入(3-13)中得: 由于 第十讲 第三章 误差和分析数据和得理 10-9 第十讲 第三章 误差和分析数据和得理 10-9 三、标准正态分布 由于μ和σ不同时就有不同的正态分布,曲线的形状也随之而变化。为了使用方便,将正态分布曲线的横坐标改用u来表示(以σ为单位表示随机误差),并定义 代入(3-13)中得: 由于
u称为标准正态变量。此时式(3-13)就转化成只有变量u的函数表达式: 第十讲 第三章 误差和分析数据和得理 10-10 故 u称为标准正态变量。此时式(3-13)就转化成只有变量u的函数表达式: 经过上述变换,总体平均值为μ的任一正态分布均可化为μ=0,σ2=1的标准正态分布,以N(0,1)表示。标准正态分布曲线如图3-5所示,曲线的形状与μ和σ的大小无关。
第十讲 第三章 误差和分析数据和得理 10-11 图3-5 标准正态分布曲线
第十讲 第三章 误差和分析数据和得理 10-12 四、随机误差的区间概率 正态分布曲线与横坐标之间所夹的总面积,就等于概率密度函数从-∞至+∞的积分值。它表示来自同一总体的全部测定值或随机误差在上述区间出现概率的总和为100%,即为1。 欲求测定值或随机误差在某区间出现的概率P,可取不同的u值对式(3-16)积分求面积而得到。例如随机误差在±σ区间(u=±1),即测定值在μ±σ区间出现的概率是:
按此法求出不同u值时的积分面积,制成相应的概率积分表可供直接查用。 第十讲 第三章 误差和分析数据和得理 10-13 按此法求出不同u值时的积分面积,制成相应的概率积分表可供直接查用。 表3-1中列出的面积对应于图中的阴影部分。若区间为±|u|值,则应将所查得的值乘以2。例如: 随机误差出现的区间 测定值出现的区间 概率 u=±1 x=μ±σ 0.3413×2=0.6826 u=±2 x=μ±2σ 0.4773×2=0.9546 u=±3 x=μ±3σ 0.4987×2=0.9974
第十讲 第三章 误差和分析数据和得理 10-14 以上概率值表明,对于测定值总体而言,随机误差在±2σ范围以外的测定值出现的概率小于0.045,即20次测定中只有1次机会。随机误差超出±3σ的测定值出现的概率更小。平均1000次测定中只有3次机会。通常测定仅有几次,不可能出现具有这样大误差的测定值。如果一旦发现,从统计学的观点就有理由认为它不是由随机误差所引起,而应当将其舍去,以保证分析结果准确可靠。
第十讲 第三章 误差和分析数据和得理 10-15 概率=面积=
表3-1 正态分布概率积分表 |u| 面积 |u| 面积 |u| 面积 0.0 0.0000 1.1 0.3643 2.2 0.4821 第十讲 第三章 误差和分析数据和得理 10-16 表3-1 正态分布概率积分表 |u| 面积 |u| 面积 |u| 面积 0.0 0.0000 1.1 0.3643 2.2 0.4821 0.1 0.0398 1.2 0.3849 2.2 0.4861 0.2 0.0793 1.3 0.4032 2.3 0.4893 0.3 0.1179 1.4 0.4192 2.4 0.4918 0.4 0.1554 1.5 0.4332 2.5 0.4938 0.5 0.1915 1.6 0.4452 2.58 0.4951 0.6 0.2258 1.7 0.4554 2.6 0.4953 0.7 0.2580 1.8 0.4641 2.7 0.4965 0.8 0.2881 1.9 0.4713 2.8 0.4974 0.9 0.3159 1.96 0.4950 3.0 0.4987 1.0 0.3413 2.0 0.4773 ∞ 0.5000
概率积分面积表的另一用途是由概率确定误差界限。例如要保证测定值出现的概率为0.95,那么随机误差界限应为±1.96σ。 第十讲 第三章 误差和分析数据和得理 10-17 概率积分面积表的另一用途是由概率确定误差界限。例如要保证测定值出现的概率为0.95,那么随机误差界限应为±1.96σ。 例1 经过无数次测定并在消除了系统误差的情况下,测得某钢样中磷的质量分数为0.099%。已知σ=0.002%,问测定值落在区间0.095%-0.103%的概率是多少? 解:根据得 |u|=2,由表3-1查得相应的概率为0.4773,则 P(0.095%≤x≤0.103%)=0.4773×2=0.955
例2 对烧结矿样进行150次全铁含量分析,已知结果符合正态分布(0.4695,0.00202)。求大于0.4735的测定值可能出现的次数。 第十讲 第三章 误差和分析数据和得理 10-18 例2 对烧结矿样进行150次全铁含量分析,已知结果符合正态分布(0.4695,0.00202)。求大于0.4735的测定值可能出现的次数。 解: 查表,P=0.4773,故在150次测定中大于0.4773的测定值出现的概率为: 0.5000-0.4773=0.0227 150×0.0227≈3