第2章 分析化学中的误差与数据处理 学习要求: 1.了解分析数据的统计学处理方法。 2.掌握分析数据的基本处理。 第2章 分析化学中的误差与数据处理 学习要求: 1.了解分析数据的统计学处理方法。 2.掌握分析数据的基本处理。 3.熟悉误差的来源和各种表示方法。 4.清楚提高分析结果准确度的方法。 5.熟悉分析结果的表示方法和处理方法。
2-1 分析化学中的误差 分析结果与真实值之间的差值称为误差。分析结果大于真实值,误差为正;分析结果小于真实值,误差为负。
2.1.1 误差与偏差 真值(XT) 真值(X T)—某一物理量本身具有的客观存在的真实数值,即为该量的真值。一般真值是未知的,但下列情况的真值可认为是知道的。 a.理论真值 b.计量学约定真值 如某化合物的理论组成等。 如国际计量大会上确定的长度、质量、物质的量单位等等。 c.相对真值 认定精度高一个数量级的测定值作为低一级的测量值的真值,这种真值是相对比较而言的。如科学实验中使用的标准试样及管理试样中组分的含量等。
平均值 当我们对同一种待分析试样,在相同条件下重复测定n次,若其测定结果分别为:x1,x2,x3,…,xn,则它们的算术平均值由下式求得:
中位数 一组测量按大小顺序排列,中间一个数据即为中位数:xM。当测量值的个数为偶数时,中位数为中间相邻两个测量值的平均值。它的优点是能简便直观说明一组测量数据的结果,且不受两端具有过大误差的数据的影响,缺点是不能充分利用数据。
绝对误差(Ea)=测得值(x)-真实值(xT) 测定结果( x )与真实值( xT )之间的差值称为误差( E ),即 E =x-xT 误差 通常用误差表示分析结果的准确度。误差表示方法有绝对误差和相对误差。 绝对误差表示测定值与真实值之差,即 绝对误差(Ea)=测得值(x)-真实值(xT) 相对误差(Er或RE)表示误差在测定结果中所占的百分率。即:
用重量分析法测定BaCl2·2H2O纯试剂中Ba的含量,结果为56. 14%,56. 16%,56. 17%,56 用重量分析法测定BaCl2·2H2O纯试剂中Ba的含量,结果为56.14%,56.16%,56.17%,56.13%,计算测定结果的绝对误差和相对误差。P-40 例2-1
偏差 值得注意的是:平均偏差不计正负号,而个别测定值的偏差要记正负号。 值得注意的是:平均偏差不计正负号,而个别测定值的偏差要记正负号。 偏差 当我们对同一种待分析试样,在相同条件下重复测定n次,若其测定结果分别为:x1,x2,x3,…,xn,算术平均偏差和相对平均偏差分别可求得:
总体标准偏差 当测定次数为无限多次时,各测量值对总体平均值μ的偏离,用总体标准偏差σ表示。
样本标准偏差 当测量值不多,总体平均值又不知道时,用样本的标准偏差S 来衡量该组数据的分散程度。样本标准偏差的数学表达式为: 当测量次数非常多时
相对标准偏差 单次测量结果的相对标准偏差(又称变异系数)为:
两组测量数据
标准偏差与平均偏差 用统计学方法可以证明,当测定次数非常多(例如大于20)时,标准偏差与平均偏差有下列头系: δ=0.797 9σ≈0.80σ
极差 R =xmax-xmin (R /x)×100% 相对极差为 (R /x)×100%
用光度法测定某试样中铜的含量,六次测定结果为0.21%,0.23%,0.24%,0.25% ,0.24%, 0.25%,试计算。 例2-2
2.1.2 准确度和精密度 通常用误差表示分析结果的准确度。误差是指测定结果与真实值的差。分析结果大于真实值,误差为正;分析结果小于真实值,误差为负。差值越小,误差愈小,表示分析结果与真实值愈接近,即准确度越高。 在相同的条件下重复测定多次,然后计算n次测定结果的符合程度,即所谓精密度。 精密度的大小决定于偶然误差的大小,通常以测定结果的偏差来衡量。
准确度和精密度的关系 系统误差是定量分析中误差的主要来源,它影响分析结果的准确度;偶然误差影响分析结果的精密度。获得良好的精密度并不能说明准确度就高(只有在消除了系统误差之后,精密度好,准确度才高)。准确度高一定需要精密度好,但精密度好不一定准确度高。
图2·1 例如甲、乙、丙、丁三人同时测定一铁矿石中的Fe2O3的含量。各分析四次: 由图可见,甲的分析结果准确度和精密度都好,结果可靠;乙的精密度虽很高,但平均值与真实值相差较大,说明准确度低;丙的分析结果准确度不高,精密度也不好;丁的结果精密度和准确度都很差。 图2·1
2.1.3 系统误差和随机误差 1. 系统误差 根据误差的性质与产生的原因,可将误差分为系统误差、偶然误差和过失误差三类。 系统误差也叫可测误差,它是由分析过程中某些经常发生的比较固定的原因所造成的。它的最重要的性质是:在一定条件下是恒定的,误差的符号偏向同一方向(具有单向性),即大小、方向有规律,重复测定时重复出现。增加测定次数,不能使系统误差减小。但它的大小、正负可以测定出来。因而是可以校正的。
系统误差产生的主要原因 ⒈方法误差 ── 这种误差是由于方法本身所造成的。 ⒉仪器误差 ── 主要是仪器本身不够准确或未经校准所引起的。 ⒈方法误差 ── 这种误差是由于方法本身所造成的。 ⒉仪器误差 ── 主要是仪器本身不够准确或未经校准所引起的。 如在重量分析中,沉淀不完全、共沉淀,灼烧时沉淀的分解、挥发等;在滴定分析中,反应进行不完全、干扰离子的影响,化学计量点和滴定终点不符及发生副反应等,系统地导致测定结果偏高或偏低。 ⒊试剂误差 ── 试剂误差来源于试剂不纯。 如砝码质量、容量器皿和仪表刻度不准。 如试剂或蒸馏水中含有被测物质或干扰物质,使分析结果偏高或偏低。 ⒋操作误差 ── 主要指在正常操作情况下;由于分析工作者掌握操作规程与控制条件稍有出入而引起的。 ⒌主观误差 ── 又称个人误差。这种误差是由分析人员本身的一些主观因素造成的。 系统误差可以用对照试验、空白试验、校准仪器等办法加以校正。
⒉随机误差 随机误差又称不可测误差或偶然误差。它是由测量过程中某些偶然因素造成的。如测定时环境的温度、湿度和气压的微小波动,仪器性能的微小变化,分析人员操作技术的微小差异等。其影响有时大、有时小;有时为正,有时为负。偶然误差难以察觉,也难以控制。但是,在消除了系统误差后,在同样条件下进行多次测定,则可发现偶然误差的分布完全服从一般的统计规律。
偶然误差的分布规律 ⒈绝对值相等的正误差和负误差出现的几率相等。 ⒈绝对值相等的正误差和负误差出现的几率相等。 ⒉小误差出现的机会多,大误差出现的机会少,特别大的正、负误差出现的几率非常小,故偶然误差出现的几率与其大小有关。 由偶然误差的性质可知,随着测定次数的增加,偶然误差的相对算术平均值将逐渐接近于零。所以,用增加平行测定次数,严格控制测定条件,分析结果取平均值的方法,都可以减小偶然误差。
⒊过失误差 因工作上的粗心大意,违反操作规程所产生的错误。如加错试剂,看错砝码,读错刻度,计算错误等,没有一定的规律可循,这些都属于不应有的过失误差。
2.1.4 公差 公差是生产部门对于分析结果允许误差的一种表示方法。工业分析中,待测组分与公差范围的关系如下: 公差是生产部门对于分析结果允许误差的一种表示方法。工业分析中,待测组分与公差范围的关系如下: 待测组分的质量分数/% 90 80 40 20 10 5 1.0 0.1 0.01 0.001 公差(相对误差)/% 0.3 0.4 0.6 1.2 1.6 5.0 50 100 对钢中硫含量分析的允许公差范围规定 硫的质量分数/% ≤0.020 0.020~0.050 0.050~0.100 0.100~0.200 ≥0.200 公差(绝对误差)/% ±0.002 ±0.004 ±0.006 ±0.010 ±0.015
分析结果通常是经过一系列测量步骤之后获得的,其中每一步骤的测量误差都会反映到结果中去。 2.1.5 误差的传递 1 系统误差的传递 (1) 加减法
(2) 乘除法
(3) 指数关系
(4) 对数关系
2 随机误差的传递 (1) 加减法
(2) 乘除法
(3) 指数关系
(4) 对数关系
例2-3
例2-4
用一种简便的方法来估计分析结果的最大可能误差。这种误差称为极值误差。 3 极值误差
例2-5、6
2.2 有效数字及其运算规则 2.2.1 有效数字 在定量分析中,分析结果所表达的不仅仅是试样中待测组分的含量,还反映了测量的准确程度。因此,在实验数据的记录和结果的计算中,保留几位数字不是任意的,要根据测量仪器、分析方法的准确度来决定。 有效数字是指在分析工作中实际上能测量到的数字。在保留的有效数字中,只有最后一位是可疑数字,其余数位都是准确数字。 数 字 位数 0.05 2×103 pH 7.0 1位 0.0053 4.2×104 pH 7.00 2位 0.0530 4.20×10-4 3位 0.5300 42.00% 4位 1.0530 10521 5位 5300 100 位数较含糊 例如读取滴定管上的读数,甲得到23.43mL,乙得到23.42mL,丙得到23.44mL。
2.2.2 数字修约规则 舍弃多余数字的过程称为“数字修约”,目前一般采用“四舍六入五成双”规则。 “四舍六入五成双”规则规定,当测量值中被修约的那个数字等于或小于4时,该数字舍去;等于或大于6时,进位;等于5时,如进位后末位数为偶数则进位。进位后末位数为奇数则舍去。 修约前 修约后 3.148 3.1 2.451 2.5 3.397 6 3.4 83.5009 84 0.736 0.74 74.5 74 74.51 75 75.5 76 75.499 76.5 76.5001 77
2.2.3 计算规则 计算规则(1) ㈠记录测定数值时,只保留一位可疑数字; ㈠记录测定数值时,只保留一位可疑数字; ㈡当有效数字位数确定后,其余数字(尾数)应一律弃去。舍弃办法:采用“四舍六入,五后有数就进一,五后无数看单双”的规则。即当尾数≤4时舍去;尾数≥6 时进位;尾数恰为5时, 按“四舍六入五成双”规则进位或舍去。 1.如果5后还有数字,由于这些数字均系测定所得,故可以看作是比5大,在这种情况下,该数字以进位为宜。例如,如果将下列测定值整化为两位有效数字,其结果应为: ⑴ 3.451 3.5; ⑵ 1.0501 1.1
计算规则(2) 2.如果5后面的数字全部为“0”时,则看保留下来的末位数是奇数还是偶数, 是奇数时就将5进位,若是偶数时,则将5舍去。总之,应保留“偶数”。例如, 如果将下列测定值整化为两位有效数字时,其结果应为: ⑴ 0.005 0.00(“0”以偶数论); ⑵ 0.215 0.22; ⑶ 0.425 0.42 在整化数字时,只允许对原测定的数值一次整化到所需要的位数,不得分次整化。例如,将13.4565整化为两位有效数字时: 13.4565→13.456→13.46→13.5→14(不对的做法) 13.4565→13(对的做法)。
计算规则(3) 3.计算有效数字位数时,若数据的首位等于8或大于8,其有效位数可多保留一位。例如9.37实际上虽只有三位,但它已接近于10.00,故可以认为它是四位有效数字。 ㈣加减法 当几个数据相加或相减时,它们的和或差的有效数字的保留,应以小数点后位数最少(即绝对误差最大的)的数据为依据。
计算规则(4) 例如0.0121、25.64及1.05782三数相加,若各数最后一位为可疑数字,则25.64中的4已是可疑数字。因此,三数相加后第二位小数已属可疑,其余两个数据可按“四舍六入五成双”规则的方法整理到只保留两位小数。因此,0.0121应写成0.01;1.05782应写成1.06三者之和为: 0.0121+25.64+1.05782 = 0.01+25.64+1.06 = 26.71
计算规则(5) 4.在大量数据的运算中,为使误差不迅速积累,对参加运算的所有数据,可以多保留一位可疑数据字(多保留的这一位数字叫“安全数字”)。如计算5.2727、0.075、3.7及2.12的总和时,根据上述规则,只应保留一位小数。但在运算中可以多保留一位,故5.2727应写成5.27;0.075应写成0.08;2.12应写成2.12。因此其和为: 5.27+0.08+3.7+2.12 = 11.17 然后,再根据“四舍六入五成双”规则把11.17整化成11.2。
计算规则(6) 5.乘除法 几个数据相乘除时,积或商的有效数字的保留,应以其中相对误差最大的那个数,即有效字数位最少的那个数为依据。 5.乘除法 几个数据相乘除时,积或商的有效数字的保留,应以其中相对误差最大的那个数,即有效字数位最少的那个数为依据。 例如,求0.0121、25.64和1.05782三数相乘之积。设此三数的最后一位数字为可疑数字,且最后一位数字都有±1的绝对误差,则它们的相对误差分别为:
计算规则(7) 第一个数是三位有效数字,其相对误差最大,应以此数据为依据,确定其它数据的位数,即按修约规则将各数都保留三位有效数字,然后相乘: 0.0121×25.6×1.06 = 0.328 若多保留一位可疑数字时,则 0.0121×25.64×1.058 = 0.3282 然后再按“四舍六入五留双”规则,将0.3282改写成0.328
计算规则(8) ㈥在对数运算中,所取对数位数应与真数有效数字位数相等。 ㈦在所有计算式中,常数π,e的数值以及乘除因子如,1/2等的有效数字位数, 可认为无限制,即在计算过程中,需要几位就可以写几位。 ㈧表示准确度和精密度时,在大多数情况下,只取一位有效数字即可,最多取两位有效数字。
2.3 分析化学中的数据处理 在统计学中,对于所考察的对象的全体,称为总体(或母体)。自总体中随机抽出的一组测量值,称为样本(或子样)。样本中所含测量值的数目,称为样本大小(或容量)。
2.3.1 随机误差的正态分布 1 频数分布 测量数椐具有明显的集中趋势。 每组测量值出现的次数称为频数,频数除以数椐总数称为相对频数,将它们一一列出,得到频数分布表,并椐此绘出相对频数分布直方图。 有一水样,在相同条件下用络合滴定法测定其中钙的含量,共有100个测量值。 频数分布表 分组(mg/L) 频数 相对频数 126~129 1 0.01 129~132 3 0.03 132~135 8 0.08 135~138 17 0.17 138~141 21 0.21 141~144 144~147 18 0.18 147~150 9 0.09 150~153 153~156 100 1.00
2 正态分布 式中y表示频率密度;x表示测量值;μ 为总体平均值,即无限次测量数据的平均值,对应于曲线最高点的横坐标值。在没有系统误差时,它就是真值;x - μ表示随机误差。 若以x – μ作横坐标,则曲线最高点对应的横坐标为零,这时曲线成为随机误差的正态分布曲线。
测量值与正态分布曲线 b.曲线以通过x =μ 这一点的垂直线为对称轴。 说明正误差和负误差出现的概率相等。 a. 当x =μ时,y 值最大,此即分布曲线的最高点。 测量值与正态分布曲线 它体现了测量值的集中趋势。这就是说,大多数测量值集中在算术平均值的附近。 b.曲线以通过x =μ 这一点的垂直线为对称轴。 说明正误差和负误差出现的概率相等。 c.当x 趋向于-∞或+∞时,曲线以x轴为渐近线。 d.当x =μ时的概率密度为: 说明小误差出现的概率大,大误差出现的概率小,出现很大误差的概率极小,趋近于零。 σ越大,测量值落在μ 附近的概率越小,测量的精密度越差,测量值的分布就越分散,正态分布曲线也就越平坦。
正态分布的基本参数 μ 和σ,前者反映测量值分布的集中趋势,后者反应测量值分布的分散程度,它们是正态分布的两个基本参数。这和正态分布曲线以N(μ ,σ2)表示。
标准正态分布曲线 若将正态分布曲线的横座标改用u 为单位表示,则可将正态分布曲线标准化,标准正态分布曲线以N(0,1)表示。
随机误差的区间概率 正态分布曲线与横座标+∞到-∞之间所夹的面积,代表所有数据出现概率的总和,其值应为1,概率P为: 对上式进行定积分可以计算出随机误差在某一区间出现的概率,如随机误差在u =±1区间,即测量值x在μ ± 1 σ 区间的概率是68.3 % 。也可求出测量值出现在其它区间的概率。
有限测量数据的统计处理 偶然误差的正态分布 误差在±1σ内的分析结果占全部分析结果的68.3%,在±1.96σ内的占95.0%,在±2σ内的占95.5%,随机误差超过3的测量值出现的概率是很小,仅占0.3。在实际工作中,如果多次重复测量中的个别数据的的误差的绝对值大于3σ,则这个极端值可以舍去。
例2-8,9
2.3.2 总体平均值的估计 1.平均值的标准偏差
图2-5 增加测定次数,可使平均值的标准偏差减小。但过多增加测定次数并不合算。在实际工作中,一般平行测定3~4次就够了;较高要求时可测定5~9次。
例3 平均值的平均偏差与单次测量的平均偏差之间:
2 少量实验数据的统计处理 (1) t分布曲线 在实际工作中,由于测定的数据是有限的,所以只知道x和S,而不知道σ。在测定次数少的情况下,测定值或其偏差不呈标准正态分布。因此如果以S代替σ,按标准正态分布去处理实际问题, 则是不合理的,甚至可能得到错误的判断和估计。 为了解决这个问题,英国化学家W.S.古塞特(Gosset)提出了一个能合理地处理少量实验数据的方法── t分布。 t 分布曲线的形状与标准正态分布曲线相似。标准正态分布曲线N(0,1)图的纵座标为概率密度,横座标为u,而t分布曲线图的纵座标仍为概率密度,但横座标则为新的统计量t。故式中S 相当于σ。
t 分布曲线 图中的f=n-1,称自由度。t 分布曲线因f不同而不同,它表明测定次数愈少,曲线愈平坦,当f在30以上或趋于无限大时,t分布曲线趋于正态分布曲线。 t 分布曲线下面一定范围内的面积就是某测定值出现的概率,但一定t值时的概率随f不同而不同。因此t分布的概率与t值及f值有关,这与标准正态分布的u 一定,相应的概率就为定值是不同的。不同f值及概率所对应的t 值,已计算出来可供查用。 t 值与置信度和自由度有关,故使用时常加脚注说明,通常表示为tP,f。使用t值表时,一般取95%的置信度。
不同置信度(P)要求下,t值随测定次数(n)变化的数值表 f=(n-1) 90% 95% 99% 99.5% 1 6.31 12.71 63.66 127.32 2 2.92 4.30 9.92 14.98 3 2.35 3.81 5.84 7.45 4 2.13 2.78 4.60 5.60 5 2.02 2.57 4.03 4.77 6 1.94 2.45 3.71 4.32 7 1.90 2.36 3.50 8 1.86 2.31 3.35 3.83 9 1.83 2.26 3.25 3.69 10 1.81 2.23 3.17 3.58 20 1.72 2.09 2.84 3.15 30 1.70 2.04 2.75 (3.01) 60 1.67 2.00 2.66 (2.87) 120 1.66 1.98 2.62 2.81 ∞ 1.64 1.96 2.58 t值表
(2) 平均值的置信区间 当用单次测量结果(x)来估计总体平均值μ的范围,则包括在(x±1σ)范围内的概率为68.3%,在(x±1.96σ)范围内的概率为95.0%,在(x±1.96σ)范围内的概率为95%,它的数学表达式为 μ = x±u σ
真值所在的置信区间 上式分别表示,当测定值的误差呈现t分布时,在一定置信度下,真值所在的置信区间。t分布在实际应用较广,通常使用的是后式。 上式可写成: 上式分别表示,当测定值的误差呈现t分布时,在一定置信度下,真值所在的置信区间。t分布在实际应用较广,通常使用的是后式。 置信区间检验法是当可疑数据在置信区间以内时,则应保留此数据, 否则应舍去。
P f(n-1) 90% 95% 99% 99.5% 3 2.35 3.18 5.84 4 2.13 2.78 4.60 5.60 5 2.02 2.57 4.03 4.77 例3-10
P f(n-1) 90% 95% 99% 99.5% 4 2.13 2.78 4.60 5.60 5 2.02 2.57 4.03 4.77 6 1.94 2.45 3.71 4.32 置信区间检验法计算1 例 用无水Na2CO3标定HCl溶液,七次测定结果分别为0.596,0.646,0.607,0.599,0.584,0.606和0.611 mol·L-1。试以t检验法判断该组数据中是否有可以舍去的数据(置信度为95%)? 解 将数据按递增顺序排列为:0.584、0.596、0.599、0.606、0.607、0.611、0.646 mol·L-1 置信度为95%, n=7;查表tP,f=6 =2.45,另外,求得其测定结果的平均值和标准偏差为: 结果表明,0.584和0.646这一数据不在此区间内,故应舍去。
置信区间检验法计算2 剔除后重新排列为: 0.596、0.599、0.606、0.607、0.611 mol·L-1 P f(n-1) 90% 95% 99% 99.5% 4 2.13 2.78 4.60 5.60 5 2.02 2.57 4.03 4.77 6 1.94 2.45 3.71 4.32 置信区间检验法计算2 剔除后重新排列为: 0.596、0.599、0.606、0.607、0.611 mol·L-1 n=5;查表tP,f=4 =2.78 其测定结果的平均值和标准偏差为: 在95%置信度下,标准溶液浓度值所在的置信区间0.596~0.612 mol·L-1。
2.4 提高分析结果准确度的方法 1. 选择合适的分析方法 重量分析和滴定分析,灵敏度虽然不高,但对于高含量组分的测定,能获得比较准确的结果。但对于低含量组分的测定,因充许有较大的相对误差,所以这时采用仪器分析法是比较合适的。
2. 减小测量误差 为了保证分析结果的准确度,改须尽量减小测量误差。比如试样质量和滴定剂用量。 在微量组分的光度测定中,因一般允许较大的相对误差,故对于各测量步骤的准确度,就不必要求象重量法和滴定法那样高。假定比色法测铁,若方法的相对误差为2%,则在称取0.5g试样时,试样的称量误差小于0.01g就行了。
3. 消除系统误差 ⒈对照试验 ⒉空白试验 对照试验是用来检查系统误差的有效方法。进行对照试验时,常用已知准确含量的标准试样,按同样方法进行分析以资对照,也可以用不同的分析方法,或者由不同实验室的分析人员分析同一试样来互相对照。 ⑴标准试样的结果比较可靠,可供对照试验选用;⑵ “管理样”代替标准试样进行对照分析;⑶“人工合成试样”进行对照分析;⑷ “加入回收法”进行试验;⑸用其它可靠的分析方法进行对照试验;⑹不同分析人员之间进行对照试验(内检),不同单位之间进行对照分析(外检)。 ⒊校准仪器 由试剂、蒸馏水、实验器皿和环境带入的杂质所引起的系统误差,可以通过作空白试验来消除或减少。 所谓空白试验,就是在不加待测组分的情况下,按照待测组分分析同样的操作手续和条件进行试验。试验所得结果称为空白值。从试样分析结果中扣除空白值后,就得到比较可靠的分析结果。当空白值较大时,应找出原因,加以消除。如提纯试剂和改用其它适当的器皿等。 ⒋分析结果的校正 ── 分析过程的系统误差,有时可采用适当的方法进行校正。 例如用电重量法测定纯度为99.9%以上的铜,因电解不很完全而引起负的系统误差。为此,可用光度法测定溶液中未被电解的残余铜,将用光度法得到的结果加到电重量分析法的结果中去,即可得到铜的较准确的结果。 当允许的相对误差大于1%时,一般可不必校准仪器。在准确度要求较高的分析中,对所用的仪器如滴定管、移液管、容量瓶、天平砝码等,必须进行校准,求出校正值,并在计算结果时采用,以消除由仪器带来的误差。
4. 减小随机误差 对于同一试样,增加平行测定次数可以减少偶然误差,平行测定2~4次即可。当分析结果的准确度要求较高时,则可适当地增加测定次数(通常为10次左右)。
本 章 小 结 定量分析的目的是通过一系列分析步骤来准确测定度样中待测组分的含量。要清楚滴定分析法的准确度、精密度的概念,掌握分析工作中误差和偏差的表示方法以及对分析结果各种数学处理和表示方法。了解分析过程中产生误差的原因及其特点,熟悉定量分析中误差的分类及减少和消除方法。要能够理解和正确使用有效数字。
作业二⑵ p-74 思考题 1、2、4、8 p-75 习题 5 、7、8、9、10、11