1.1 分析化学中的误差概念 1.2 有效数字及其运算规则 1.3 随机误差的正态分布 1.4 少量数据的统计处理 第1章 分析化学中的数据处理 1.1 分析化学中的误差概念 1.2 有效数字及其运算规则 1.3 随机误差的正态分布 1.4 少量数据的统计处理
1.1 分析化学中的误差概念 一、 误差的分类及产生的原因 二、误差的表示方法 1 准确度和误差 2 精密度和偏差 3 准确度和精密度的关系 1.1 分析化学中的误差概念 一、 误差的分类及产生的原因 二、误差的表示方法 1 准确度和误差 2 精密度和偏差 3 准确度和精密度的关系 三、提高分析结果准确度的方法
一、 误差的分类及产生的原因 (一)系统误差(可定误差): 由可定原因产生 1.特点:具单向性(大小、正负一定 ) 可测性(原因固定) 重复性(重复测定重复出现) 2.分类: (1)按来源分 a.方法误差:方法不恰当产生 b.仪器与试剂误差:仪器不精确和试剂中含被测组分或不纯组分产生 c.操作误差: 操作方法不当引起
(二)偶然误差(随机误差,不可定误差): 由不确定原因引起 (二)偶然误差(随机误差,不可定误差): 由不确定原因引起 特点: 1)不具单向性(大小、正负不定) 2)不可消除(原因不定) 但可减小(测定次数↑) 3) 分布服从统计学规律(正态分布)
二、误差的表示方法 (一)准确度与误差 (二)精密度与偏差 (三)准确度与精密度的关系
(一)准确度与误差 1.准确度:指测量结果与真值的接近程度 2.误差 (1)绝对误差:测量值与真实值之差 (2)相对误差:绝对误差占真实值的百分比 注:1)测高含量组分,RE可小;测低含量组分,RE可大 2)仪器分析法——测低含量组分,RE大 化学分析法——测高含量组分,RE小
(二)精密度与偏差 1.精密度:平行测量的各测量值间的相互接近程度 2.偏差: (1)绝对偏差 :单次测量值与平均值之差 (2)相对偏差:绝对偏差占平均值的百分比
(3)平均偏差:各测量值绝对偏差的算术平均值 (4)相对平均偏差:平均偏差占平均值的百分比 当测定次数非常多时,标准偏差与平均偏差有 (5)标准偏差: (6)相对标准偏差(变异系数) μ已知 μ未知
(三)准确度与精密度的关系
1. 准确度高,要求精密度一定高 但精密度好,准确度不一定高 2. 准确度反映了测量结果的正确性 精密度反映了测量结果的重现性 1. 准确度高,要求精密度一定高 但精密度好,准确度不一定高 精密度是保证准确度的先决条件。精密度差,所测结果不可靠,就失去了衡量准确度的前提。 高的精密度不一定能保证高的准确度。 2. 准确度反映了测量结果的正确性 精密度反映了测量结果的重现性 福州大学2005年,5分 如何表征分析结果的准确度和重现性?两者之间的关系?
1、以下情况产生的误差属于系统误差的是: A 称量时读错了砝码 B 试剂中含有少量干扰测定的离子 C 滴定时有溶液溅出 D 滴定管读数最后一位估测不准 2、以下论述正确的是 A、单次测定偏差的代数和为零 B、总体平均值就是真值 C、偏差用S表示 D、随机误差有单向性
测定值与真实值接近的程度 误差的大小 3、下列定义中正确的是 A 绝对误差是测量值与平均值之间的差 B 相对误差是绝对误差在真值中所占百分比的分数 C 总体平均值就是真值 D 偏差是测定值与真值之差 4、分析结果的准确度是指 , 准确度的高低 用 衡量。 测定值与真实值接近的程度 误差的大小
5、从精密度好就可以判断分析结果可靠的前提是 A 随机误差小 B 系统误差小 C 平均偏差小 D 相对偏差小 6、以下有关系统误差的论述错误的是 A 系统误差有单向性 B 系统误差有随机性 C 系统误差是可测误差 D 系统误差是由一定原因造成的
例:天平一次的称量误差为 0.0001g,两次的称量误差为 0.0002g,RE% 0.1%,计算最少称样量? 三、提高分析结果准确度的方法 1.选择合适的分析方法 (1) 根据试样的中待测组分的含量选择分析方法。高含量组分用滴定分析或重量分析法;低含量用仪器分析法。 (2) 充分考虑试样中共存组分对测定的干扰,采用适当的掩蔽或分离方法。 (3) 对于痕量组分,分析方法的灵敏度不能满足分析的要求,可先定量富集后再进行测定. 例:测全Fe含量 K2Cr2O7法 40.20% ±0.2%×40.20% 比色法 40.20% ±2.0%×40.20% 2.减小测量误差 1)称量 例:天平一次的称量误差为 0.0001g,两次的称量误差为 0.0002g,RE% 0.1%,计算最少称样量?
2)滴定 例:滴定管一次的读数误差为0.01mL,两次的读数误差为 0.02mL,RE% 0.1%,计算最少移液体积? 3.增加平行测定次数,一般测3~4次以减小偶然误差 4.消除测量过程中的系统误差 1)校准仪器:消除仪器的误差 2)空白试验:消除试剂误差 3)对照实验:消除方法误差 4)回收实验:加样回收,以检验是否存在方法误差
§1.2 有效数字及其运算规则 一、有效数字 二、有效数字的修约规则 三、有效数字的运算法则
一、有效数字:实际可以测得的数字 1. 有效数字位数包括所有准确数字和一位欠准数字 例:滴定读数20.30mL,最多可以读准三位 第四位欠准(估计读数)±1% 记录测量结果时,只保留一位可疑数据 分析天平称量质量:0.000Xg 滴定管体积: 0.0X mL 容量瓶: 100.0mL, 250.0mL, 50.0mL 吸量管, 移液管: 25.00mL, 10.00mL, 5.00mL,1.00mL pH: 0.0X 单位 吸光度: 0.00X
4.pH,pM,pK,lgC,lgK等对数值,其有效数字的 位数取决于小数部分(尾数)数字的位数,整数部 分只代表该数的方次 2. 在0~9中,只有0既是有效数字,又是无效数字 例: 0.06050 四位有效数字 定位 有效位数 例:3600 → 3.6×103 两位 → 3.60×103 三位 3.单位变换不影响有效数字位数 例:10.00[mL]→0.01000L 4.pH,pM,pK,lgC,lgK等对数值,其有效数字的 位数取决于小数部分(尾数)数字的位数,整数部 分只代表该数的方次 例:pH = 11.20 → [H+]= 6.3×10-12[mol/L] 两位 5.结果首位为8和9时,有效数字可以多计一位 例:90.0% ,可示为四位有效数字
→ 分析结果表示的有效数字 含量在1% 至10%:3位有效数字 含量小于1%:2位有效数字 → 分析中各类误差的表示 高含量(大于10%):4位有效数字 含量在1% 至10%:3位有效数字 含量小于1%:2位有效数字 → 分析中各类误差的表示 通常取1 至 2位有效数字。 → 各类化学平衡计算 2至3位有效数字。
下列数据中包含了几位有效数字? (1) 10.030含 位; (2) 0.01200含 位 ; (3)8.7×10-4含 位;(4)pKa=5.52含 位; (5)pH=10.00含 位
二、有效数字的修约规则 1.四舍六入五留双 例:0.37456 , 0.3745 均修约至三位有效数字 0.375 0.374 例:0.37456 , 0.3745 均修约至三位有效数字 0.375 0.374 2.只能对数字进行一次性修约 例:6.549, 2.451 一次修约至两位有效数字 6.5 2.5 3.当对标准偏差修约时,修约后会使标准偏差结果 变差,从而提高可信度 例:s = 0.134 → 修约至0.14,可信度↑
三、有效数字的运算法则 1.加减法:以小数点后位数最少的数为准(即以 绝对误差最大的数为准) 例: 50.1 + 1.45 + 0.5812 = ? δ ±0.1 ±0.01 ±0.0001 保留三位有效数字 2.乘除法:以有效数字位数最少的数为准(即以 相对误差最大的数为准) 例:0.0121 × 25.64 × 1.05782 = ? δ ±0.0001 ±0.01 ±0.00001 RE ±0.8% ±0.4% ±0.009% 保留三位有效数字
常用的加减法规则指出:结果小数后的位数以参加运算各数据中小数点后的位数最少者为准 实际上规则指的是纯小数,本题计算的是科学 记数法构成的正整数.不能直接引用规则. 5.856中的6是整数的千位,是3个数据中可 疑数字的最高位,故应以此为准.
计算下式的结果应为: 因为25.4508-21.52=3.94 结果应以此为准
1.3 随机误差的正态分布 一、 频数分布 测定某样品100次,因有偶然误差存在,故分析结果有高有低,有两头小、中间大的变化趋势,即在平均值附近的数据出现机会最多。
1.3 随机误差的正态分布 二、 正态分布: 测量数据一般符合正态分布规律,即高斯分布,正态分布曲线数学表达式为: 二、 正态分布: 测量数据一般符合正态分布规律,即高斯分布,正态分布曲线数学表达式为: y:概率密度; x:测量值 μ:总体平均值,即无限次测定数据的平均值,无系统误差时即为真值;反映测量值分布的集中趋势。 σ:标准偏差,反映测量值分布的分散程度; x-μ:随机误差
正态分布曲线规律: * x=μ 时,y值最大,体现了测量值的集中趋势。大多数测量值集中在算术平均值的附近,算术平均值是最可信赖值,能很好反映测量值的集中趋势。μ反映测量值分布集中趋势。 * 曲线以x=μ这一直线为其对称轴,说明正误差和负误差出现的概率相等。 * 当x趋于-∞或+∞时,曲线以x轴为渐近线。即小误差出现概率大,大误差出现概率小,出现很大误差概率极小,趋于零。 *σ越大,测量值落在μ附近的概率越小。即精密度越差时,测量值的分布就越分散,正态分布曲线也就越平坦。反之,σ越小,测量值的分散程度就越小,正态分布曲线也就越尖锐。σ反映测量值分布分散程度。
1.3 随机误差的正态分布 标准正态分布曲线 横坐标改为u,纵坐标 为概率密度,此时曲线的 形状与σ大小无关,不同 σ的曲线合为一条。
三、 随机误差的区间概率 正态分布曲线与横坐标-∞到+∞之间所 夹的面积,代表所有数据出现概率的总和, 其值应为1,即概率P为:
续 三、 随机误差的区间概率
u=±1 x=μ±1σ 68.3% u=±1.96 x=μ±1.96σ 95.0% u=±2 x=μ±2σ 95.5% 续 三、 随机误差的区间概率 随机误差出现的区间 测量值出现的区间 概率 (以σ为单位) u=±1 x=μ±1σ 68.3% u=±1.96 x=μ±1.96σ 95.0% u=±2 x=μ±2σ 95.5% u=±2.58 x=μ±2.58σ 99.0% u=±3 x=μ±3σ 99.7%
阴影部分的概率为0.4938。整个正态分布曲线右侧的概率 为1/2,即为0.5000,故阴影部分以外的概率为0.5000- 练习 三、 随机误差的区间概率 例1 已知某试样中山质量分数的标准值为1.75%,σ=0.10%,又已知测量时没有系统误差,求分析结果落在(1.75±0.15)%范围内的概率。 解: 例2 同上例,求分析结果大于2.00%的概率。 解:属于单边检验问题。 阴影部分的概率为0.4938。整个正态分布曲线右侧的概率 为1/2,即为0.5000,故阴影部分以外的概率为0.5000- 0.4938=0.62%,即分析结果大于2.00%的概率为0.62%。
1.4 少量数据的统计处理 一、 t 分布曲线 二、 平均值的置信区间 三、 显著性检验 四、 异常值的取舍
1.4 少量数据的统计处理 一、 t 分布曲线 正态分布是无限次测量 数据的分布规律,而对有 限次测量数据则用t 分布曲 1.4 少量数据的统计处理 一、 t 分布曲线 正态分布是无限次测量 数据的分布规律,而对有 限次测量数据则用t 分布曲 线处理。用s代替σ,纵坐 标仍为概率密度,但横坐 标则为统计量t。t定义为:
→自由度f — degree of freedom ( f = n-1) 一、 t 分布曲线 →自由度f — degree of freedom ( f = n-1) t分布曲线与正态分布曲线相似,只是t分布曲线随 自由度f而改变。当f趋近∞时,t分布就趋近正态分布。 →置信度(P)—confidence degree 在某一t值时,测定值落在(μ+ts)范围内的概率。 →置信水平(α)—confidence level 在某一t值时,测定值落在(μ+ts)范围以外的概率(l-P) → ta,f :t值与置信度P及自由度f关系。 例: t0·05,10表示置信度为95%,自由度为10时的t值。 t0·01,5表示置信度为99%,自由度为5时的t值。
一、 t 分布曲线
2 平均值的置信区间 → 对于少量测量数据,即当 n有限时,必须根据t分布进行统计处理: →当n趋近∞时: (confidence interval) →当n趋近∞时: 单次测量结果 以样本平均值来估计总体 平均值可能存在的区间: → 对于少量测量数据,即当 n有限时,必须根据t分布进行统计处理: 它表示在一定置信度下, 以平均值为中心,包括 总体平均值的范围。这 就叫平均值的置信区间。
一、 t 分布曲线 例 对其未知试样中Cl-的质量分数进行测定,4次结果为47.64%,47.69%,47.52%,47.55%。计算置信度为90%,95%和99%时,总体平均值μ的置信区间。 解:
三、 显著性检验— Significance test (1) F检验法— F test 比较两组数据的方差s2 (2) t检验法— t test * 平均值与标准值的比较 * 两组平均值的比较
→在一定的P(置信度95%)及f时, (1)F检验法 →比较两组数据的方差s2,以确定它们的精密度是 三、 显著性检验 (1)F检验法 →比较两组数据的方差s2,以确定它们的精密度是 否有显著性差异的方法。统计量F定义为两组数据的 方差的比值,分子为大的方差,分母为小的方差。 →两组数据的精密度相差不大,则F值趋近于1;若 两者之间存在显著性差异,F值就较大。 →在一定的P(置信度95%)及f时, F计算>F表,存在显著性差异, 否则,不存在显著性差异。
三、 显著性检验
解 已知新仪器的性能较好,它的精密度不会比旧仪器的差,因此,这是属于单边检验问题。 已知 n1=6, s1=0.055 三、 显著性检验 例1 在吸光光度分析中,用一台旧仪器测定溶液的吸光度6次,得标准偏差s1=0.055;再用一台性能稍好的新仪器测定4次,得标准偏差s2=0.022。试问新仪器的精密度是否显著地优于旧仪器的精密度? 解 已知新仪器的性能较好,它的精密度不会比旧仪器的差,因此,这是属于单边检验问题。 已知 n1=6, s1=0.055 n2=4, s2=0.022 查表,f大=6-1=5,f小=4-1=3,F表=9·01,F<F表,故两种仪 器的精密度之间不存在显著性差异,即不能做出新仪器显著 地优于旧仪器的结论。做出这种判断的可靠性达95%。
解 不论是第一种方法的精密度显著地优于或劣于第二种方法的精密度,都认为它们之间有显著性差异,因此,这是属于双边检验问题。 三、 显著性检验 例2 采用两种不同的方法分析某种试样,用第一种方法分析11次,得标准偏差s1=0.21%;用第二种方法分析9次,得标准偏差s2=0.60%。试判断两种分析方法的精密度之间是否有显著性差异? 解 不论是第一种方法的精密度显著地优于或劣于第二种方法的精密度,都认为它们之间有显著性差异,因此,这是属于双边检验问题。 已知 n1=11, s1=0·21% n2=9, s2=0·60% 查表,f大=9-1=8,f小=11-1=10,F表=3.07,F>F表,故认为两种方法的精密度之间存在显著性差异。作出此种判断的置信度为90%。
三、 显著性检验 (2) t检验法 →平均值与标准值的比较 为了检查分析数据是否存在较大的系统误差,可对标准试样进行若干次分析,再利用t检验法比较分析结果的平均值与标准试样的标准值之间是否存在显著性差异。 进行t检验时,首先按下式计算出t值 若t计算>tα,f,存在显著性差异,否则不存在显著性差异。 通常以95%的置信度为检验标准,即显著性水准为5%。
小结 1. 比较: t 检验——检验方法的系统误差 F 检验——检验方法的偶然误差 G 检验——异常值的取舍 2. 检验顺序: G检验 → F 检验 → t检验 异常值的取舍 精密度显著性检验 准确度或系统误差显著性检验
三、 显著性检验 例 采用某种新方法测定基准明矾中铝的质量分数,得到下列9个分析结果:10.74%,10.77%,10.77%,10.77%,10.81%,10.82%,10.73%,10.86%,10.81%。已知明矾中铝含量的标准值(以理论值代)为10.77%。试问采用该新方法后,是否引起系统误差(置信度95%)? 解 n=9, f=9-1=8 查表,P=0.95,f=8时,t0.05,8=2.31。t<t0.05,8,故x与μ之间不存在显著性差异,即采用新方法后,没有引起明显的系统误差。
在一定置信度时,查出表值 (总自由度f=n1+n2-2),若t>t表两组平均值存在显著性差异。t<t表,则不存在显著性差异。 三、 显著性检验 →两组平均值的比较 设两组分析数据为: n1 s1 x1 n2 s2 x2 在一定置信度时,查出表值 (总自由度f=n1+n2-2),若t>t表两组平均值存在显著性差异。t<t表,则不存在显著性差异。
例 用两种方法测定合金中铝的质量分数,所得结果如下: 第一法 1.26% 1.25% 1.22% 第二法 1.35% 1.31% 1.33% 三、 显著性检验 例 用两种方法测定合金中铝的质量分数,所得结果如下: 第一法 1.26% 1.25% 1.22% 第二法 1.35% 1.31% 1.33% 试问两种方法之间是否有显著性差异(置信度90%)? 解 n1=3, x1=1.24% s1=0.021% n2=4, x2=1.33% s2=0.017% f大=2 f小=3 F表=9·55 F<F表 → 说明两组数据的标准偏差没有显著性差异. →当P=0.90,f=n1+n2-2=5时,t0·10,5=2.02。t> t0·10,5,故两种分析方法之间存在显著性差异.
四、 可疑值(cutlier)的取舍 在实验中得到一组数据,个别数据离群较远,这一数据称为异常值、可疑值或极端值。若是过失造成的,则这一数据必须舍去。否则异常值不能随意取舍,特别是当测量数据较少时。 处理方法有4d法、格鲁布斯(Grubbs)法和Q检验法。
(1)4d法 根据正态分布规律,偏差超过3σ的个别测定值的概率小于0.3%,故这一测量值通常可以舍去。而δ=0.80σ,3σ≈4δ,即偏差超过4δ的个别测定值可以舍去。 用4d法判断异常值的取舍时,首先求出除异常值外的其余数据的平均值和平均偏差d,然后将异常值与平均值进行比较,如绝对差值大于4d,则将可疑值舍去,否则保留。 当4d法与其他检验法矛盾时,以其他法则为准。
例 测定某药物中钴的含量如(μg/g),得结果如下:1.25,1.27,1.31,1.40。试问1.40这个数据是否应保留? 解 首先不计异常值1.40,求得其余数据的平均值 x和平均偏差d为 异常值与平均值的差的绝对值为 |1.40一1.28|=0.12>4 d(0.092) 故1.40这一数据应舍去。
(2)格鲁布斯(Grubbs)法 有一组数据,从小到大排列为: x1,x2,……,xn-1,xn 其中x1或xn可能是异常值。 用格鲁布斯法判断时,首先计算出该组数据的平均值及标准偏差,再根据统计量T进行判断。 若T>Ta,n,则异常值应舍去,否则应保留
查表T0·05,4=1.46,T<T0·05,4,故1.40这个数据应该保留。 例 前一例中的实验数据,用格鲁布斯法判断时,1.40这个数据应保留否(置信度95%)? 解 平均值 x=1.31, s=0.066 查表T0·05,4=1.46,T<T0·05,4,故1.40这个数据应该保留。 格鲁布斯法优点,引人了正态分布中的两个最重要的样本参数x及s,故方法的准确性较好。缺点是需要计算x和s,手续稍麻烦。
(3)Q检验法 设一组数据,从小到大排列为: x1,x2,……,xn-1,xn 设x1、xn为异常值,则统计量Q为: 式中分子为异常值与其相邻的一个数值的差值,分母为整组数据的极差。Q值越大,说明xn离群越远。Q称为“舍弃商”。当Q计算>Q表时,异常值应舍去,否则应予保留。
1、正态分布曲线与横坐标所包围的总面积表示测量值出现的 ,其值为 .(东北师大2002年) 概率的总和 1 2、偶然误差正态分布曲线的两个重要参数是 , 有限次(n<20)的测量的偶然误差服从 分 布其重要参数有 .(首师2001年) t μ,f,s μ为无限次测量的总体均值,σ是总体标准差
3、根据偶然误差的标准正态分布曲线,某测定值出现在u=±1.0之间的概率为68.3%,则此测定值在u>1.0之外的概率为 。
4:置信度90%平均值的置信区间为(62.85±0.09)%,对此区间有4种理解,其中理解全部错误的是( )(中科院2004年) 4:置信度90%平均值的置信区间为(62.85±0.09)%,对此区间有4种理解,其中理解全部错误的是( )(中科院2004年) ①总体平均值µ落在此区间的概率为90% ②有90%的把握此区间包含总体平均值在内 ③再做一次测定结果落入此区间的概率为90% ④有90%的测量值落入此区间 A ①②③ B ①②④ C ①③④ D ②③④