第7章 分析化学中的数据处理 1.总体与样本 总体:在统计学中,对于所考察的对象的全体,称为总体(或母体)。 个体:组成总体的每个单元。 样本(子样):自总体中随机抽取的一组测量值(自总体中随机抽取的一部分个体)。 样本容量:样品中所包含个体的数目,用n表示。
例如:分析延河水总硬度,依照取样规则,从延河中取来供分析用2000ml样品水,这2000ml样品水是供分析用的总体,如果从样品水中取出20个试样进行平行分析,得到20个分析结果,则这组分析结果就是延河样品水的一个随机样本,样本容量为20。 2.随机变量 来自同一总体的无限多个测量值都是随机出现的,叫随机变量。
设样本容量为n, 则其平均值 为: 当测定次数无限增多时,所得平均值即为总体平均值μ: 若没有系统误差,则总体平均值μ就是真值 此时,单次测量的平均偏差δ为
1 总体标准偏差 2 样本标准偏差 相对标准偏差 标准偏差与平均偏差 平均值的标准偏差 7.1 标准偏差 1 总体标准偏差 2 样本标准偏差 相对标准偏差 标准偏差与平均偏差 平均值的标准偏差
7.1.1 总体标准偏差 当测定次数为无限多次时,各测量值对总体平均值μ的偏离,用总体标准偏差σ表示: 7.1.1 总体标准偏差 当测定次数为无限多次时,各测量值对总体平均值μ的偏离,用总体标准偏差σ表示: 计算标准偏差时,对单次测量加以平方,这样做不仅能避免单次测量偏差相加时正负抵消,更重要的是大偏差能显著地反应出来,因而可以更好地说明数据的分散程度。
7.1.2 样本标准偏差 当测量值不多,总体平均值又不知道时,用样本的标准偏差s来衡量该组数据的分散程度。样本标准偏差的数学表达式为: 7.1.2 样本标准偏差 当测量值不多,总体平均值又不知道时,用样本的标准偏差s来衡量该组数据的分散程度。样本标准偏差的数学表达式为: 式中(n-1)称为自由度,以f表示,是指独立偏差的个数。当测量次数非常多时,测量次数n与自由度(n-1)的区别就很小了,此时 ,同时
7.1.3 相对标准偏差 单次测量结果的相对标准偏差(又称变异系数)为 用标准偏差比用平均偏差更科学更准确. 例: 两组数据 例: 两组数据 1 x - : 0.11, -0.73, 0.24, 0.51, -0.14, 0.00, 0.30, -0.21 n=8 d1=0.28 S1=0.38 2 x - :0.18,0.26,-0.25,-0.37, 0.32 ,-0.28,0.31, -0.27 n=8 d2=0.28 S2=0.29 d1=d2, S1>S2
7.1.4 标准偏差与平均偏差 用统计学方法可以证明,当测定次数非常多 (例如大于20)时,标准偏差与平均偏差有下列关系:δ=0.979σ≈0.80σ,但应当指出:当测定次数较少时, 与S之间的关系就可能与此式相差颇大了。
7.15 平均值的标准偏差 样本平均值 是非常重要的统计量,通常以它来估计总体平均值μ。一组样本的平均值的标准偏差 样本平均值 是非常重要的统计量,通常以它来估计总体平均值μ。一组样本的平均值的标准偏差 与单次测量结果的标准偏差之间有下列关系: 无限次测量为 由此可见:平均值的标准偏差 与测定次数的平方根成反比。 有限次测量为
7.2 随机误差的正态分布 1 频数分布(frequency distribution) 2 正态分布(normal distribution ) 3 随机误差的区间概率
7.2.1 频数分布 测定某样品100次,因有偶然误差存在, 故分析结果有高有低,有两头小、中间大的变化趋 势,即在平均值附近的数据出现机会最多。
7.2.2 正态分布:测量数据一般符合正态分布规律,即高斯分布,正态分布曲线数学表达式为: y:概率密度; x:测量值 μ:总体平均值,即无限次测定数据的平均值,无系统误差时即为真值;反映测量值分布的集中趋势。 σ:标准偏差,反映测量值分布的分散程度; x-μ:随机误差
正态分布曲线规律: * x=μ 时,y值最大,体现了测量值的集中趋势。大多数测量值集中在算术平均值的附近,算术平均值是最可信赖值,能很好反映测量值的集中趋势。μ反映测量值分布集中趋势。 * 曲线以x=μ这一直线为其对称轴,说明正误差和负误差出现的概率相等。 * 当x趋于-∞或+∞时,曲线以x轴为渐近线。即小误差出现概率大,大误差出现概率小,出现很大误差概率极小,趋于零。 *σ越大,测量值落在μ附近的概率越小。即精密度越差时,测量值的分布就越分散,正态分布曲线也就越平坦。反之,σ越小,测量值的分散程度就越小,正态分布曲线也就越尖锐。σ反映测量值分布分散程度。
标准正态分布曲线 横坐标改为u,纵坐标 为概率密度,此时曲线的 形状与σ大小无关,不同 σ的曲线合为一条。 X- μ σ
7.2.3 随机误差的区间概率 正态分布曲线与横坐标-∞到+∞之间所 夹的面积,代表所有数据出现概率的总和, 其值应为1,即概率P为:
u=±1 x=μ±1σ 68.3% u=±1.96 x=μ±1.96σ 95.0% u=±2 x=μ±2σ 95.5% 随机误差出现的区间 测量值出现的区间 概率 (以σ为单位) u=±1 x=μ±1σ 68.3% u=±1.96 x=μ±1.96σ 95.0% u=±2 x=μ±2σ 95.5% u=±2.58 x=μ±2.58σ 99.0% u=±3 x=μ±3σ 99.7%
例1 已知某试样中山质量分数的标准值为1. 75%,σ=0. 10%,又已知测量时没有系统误差,求分析结果落在(1. 75±0 例1 已知某试样中山质量分数的标准值为1.75%,σ=0.10%,又已知测量时没有系统误差,求分析结果落在(1.75±0.15)%范围内的概率。 解: 例2 同上例,求分析结果大于2.00%的概率。 解:属于单边检验问题。 阴影部分的概率为0.4938。整个正态分布曲线右侧的概率 为1/2,即为0.5000,故阴影部分以外的概率为0.5000- 0.4938=0.62%,即分析结果大于2.00%的概率为0.62%。
7.3 少量数据的统计处理 1 t 分布曲线 2 平均值的置信区间 3 显著性检验 4 异常值的取舍
7.3.1 t 分布曲线 正态分布是无限次测量 数据的分布规律,而对有 限次测量数据则用t 分布曲 线处理。用s代替σ,纵坐 标仍为概率密度,但横坐 标则为统计量t。t定义为:
→自由度f — degree of freedom ( f = n-1) t分布曲线与正态分布曲线相似,只是t分布曲线随 自由度f而改变。当f趋近∞时,t分布就趋近正态分布。 →置信度P—confidence degree 在某一t值时,测定值落在(μ+ts)范围内的概率。 →置信水平α—confidence level 在某一t值时,测定值落在(μ+ts)范围以外的概率(l-P) → ta,f :t值与置信度P及自由度f关系。 例: t0·05,10表示置信度为95%,自由度为10时的t值。 t0·01,5表示置信度为99%,自由度为5时的t值。
→ 对于少量测量数据,即当 n有限时,必须根据t分布进行统计处理: 7.3.2 平均值的置信区间 (confidence interval) →当n趋近∞时: 单次测量结果 以样本平均值来估计总体 平均值可能存在的区间: → 对于少量测量数据,即当 n有限时,必须根据t分布进行统计处理: 它表示在一定置信度下, 以平均值为中心,包括 总体平均值的范围。这 就叫平均值的置信区间。
例 对其未知试样中Cl-的质量分数进行测定,4次结果为47. 64%,47. 69%,47. 52%,47 解:
7.3.3 显著性检验— Significance test 1. F检验法— F test 比较两组数据的方差s2 2. t检验法— t test * 平均值与标准值的比较 * 两组平均值的比较
→在一定的P(置信度95%)及f时, 1. F 检验法 →比较两组数据的方差s2,以确定它们的精密度是 方差的比值,分子为大的方差,分母为小的方差。 →两组数据的精密度相差不大,则F值趋近于1;若 两者之间存在显著性差异,F值就较大。 →在一定的P(置信度95%)及f时, F计算>F表,存在显著性差异, 否则,不存在显著性差异。
例1 在吸光光度分析中,用一台旧仪器测定溶液的吸光度6次,得标准偏差s1=0. 055;再用一台性能稍好的新仪器测定4次,得标准偏差s2=0 解 已知新仪器的性能较好,它的精密度不会比旧仪器的差,因此,这是属于单边检验问题。 已知 n1=6, s1=0.055 n2=4, s2=0.022 查表,f大=6-1=5,f小=4-1=3,F表=9·01,F<F表,故两种仪 器的精密度之间不存在显著性差异,即不能做出新仪器显著 地优于旧仪器的结论。做出这种判断的可靠性达95%。
例2 采用两种不同的方法分析某种试样,用第一种方法分析11次,得标准偏差s1=0. 21%;用第二种方法分析9次,得标准偏差s2=0 解 不论是第一种方法的精密度显著地优于或劣于第二种方法的精密度,都认为它们之间有显著性差异,因此,这是属于双边检验问题。 已知 n1=11, s1=0·21% n2=9, s2=0·60% 查表,f大=9-1=8,f小=11-1=10,F表=3.07,F>F表,故认为两种方法的精密度之间存在显著性差异。作出此种判断的置信度为90%。
2. t 检验法 →平均值与标准值的比较 为了检查分析数据是否存在较大的系统误差,可对标准试样进行若干次分析,再利用t检验法比较分析结果的平均值与标准试样的标准值之间是否存在显著性差异。 进行t检验时,首先按下式计算出t值 若t计算>tα,f,存在显著性差异,否则不存在显著性差异。 通常以95%的置信度为检验标准,即显著性水准为5%。
例 采用某种新方法测定基准明矾中铝的质量分数,得到下列9个分析结果:10. 74%,10. 77%,10. 77%,10. 77%,10 例 采用某种新方法测定基准明矾中铝的质量分数,得到下列9个分析结果:10.74%,10.77%,10.77%,10.77%,10.81%,10.82%,10.73%,10.86%,10.81%。已知明矾中铝含量的标准值(以理论值代)为10.77%。试问采用该新方法后,是否引起系统误差(置信度95%)? 解 n=9, f=9-1=8 查表,P=0.95,f=8时,t0.05,8=2.31。t<t0.05,8,故x与μ之间不存在显著性差异,即采用新方法后,没有引起明显的系统误差。
在一定置信度时,查出表值 (总自由度f=n1+n2-2),若t>t表两组平均值存在显著性差异。t<t表,则不存在显著性差异。 →两组平均值的比较 设两组分析数据为: n1 s1 x1 n2 s2 x2 在一定置信度时,查出表值 (总自由度f=n1+n2-2),若t>t表两组平均值存在显著性差异。t<t表,则不存在显著性差异。
例 用两种方法测定合金中铝的质量分数,所得结果如下: 第一法 1.26% 1.25% 1.22% 第二法 1.35% 1.31% 1.33% 试问两种方法之间是否有显著性差异(置信度90%)? 解 n1=3, x1=1.24% s1=0.021% n2=4, x2=1.33% s2=0.017% f大=2 f小=3 F表=9·55 F<F表 → 说明两组数据的标准偏差没有显著性差异. →当P=0.90,f=n1+n2-2=5时,t0·10,5=2.02。t> t0·10,5,故两种分析方法之间存在显著性差异.
7.3.4 异常值(cutlier)的取舍 在实验中得到一组数据,个别数据离群 较远,这一数据称为异常值、可疑值或极端 值。若是过失造成的,则这一数据必须舍去。 否则异常值不能随意取舍,特别是当测量数 据较少时。 处理方法有4d法、格鲁布斯(Grubbs)法和Q检验法。
1. 4d法 根据正态分布规律,偏差超过3σ的个别测定值的概率小于0.3%,故这一测量值通常可以舍去。而δ=0.80σ,3σ≈4δ,即偏差超过4δ的个别测定值可以舍去。 用4d法判断异常值的取舍时,首先求出除异常值外的其余数据的平均值和平均偏差d,然后将异常值与平均值进行比较,如绝对差值大于4d,则将可疑值舍去,否则保留。 当4d法与其他检验法矛盾时,以其他法则为准。
例 测定某药物中钴的含量如(μg/g),得结果如下:1.25,1.27,1.31,1.40。试问1.40这个数据是否应保留? 解 首先不计异常值1.40,求得其余数据的平均值 x和平均偏差d为 异常值与平均值的差的绝对值为 |1.40一1.28|=0.12>4 d(0.092) 故1.40这一数据应舍去。
2. 格鲁布斯(Grubbs)法 有一组数据,从小到大排列为: x1,x2,……,xn-1,xn 其中x1或xn可能是异常值。 用格鲁布斯法判断时,首先计算出该组数据的平均值及标准偏差,再根据统计量T进行判断。 若T>Ta,n,则异常值应舍去,否则应保留
查表T0·05,4=1.46,T<T0·05,4,故1.40这个数据应该保留。 例 前一例中的实验数据,用格鲁布斯法判断时,1.40这个数据应保留否(置信度95%)? 解 平均值 x=1.31, s=0.066 查表T0·05,4=1.46,T<T0·05,4,故1.40这个数据应该保留。 格鲁布斯法优点,引人了正态分布中的两个最重要的样本参数x及s,故方法的准确性较好。缺点是需要计算x和s,手续稍麻烦。
3. Q检验法 设一组数据,从小到大排列为: x1,x2,……,xn-1,xn 设x1、xn为异常值,则统计量Q为: 式中分子为异常值与其相邻的一个数值的差值,分母为整组数据的极差。Q值越大,说明xn离群越远。Q称为“舍弃商”。当Q计算>Q表时,异常值应舍去,否则应予保留。
7.4 误差的传递 分析结果通常是经过一系列测量步骤之后获得的,其中每一步骤的测量误差都会反映到分析结果中去。设分析结果Y 由测量值A、B、C 计算获得,测量值的系统误差分别为 A、B、C,标准偏差分别为SA、SB、SC。ki为常数。
7.4.1 系统误差的传递 1.加减法 2.乘除法 3.指数关系 4.对数关系
7.4.2 随机误差的传递 1.加减法 2.乘除法 3.指数关系 4.对数关系
7.4.3 极值误差
7.5 回归分析法 7.5.1 一元线性回归方程(linear regression) 式中x,y分别为x和y的平 均值,a为直线的截矩, b为直线的斜率,它们的 值确定之后,一元线性回 归方程及回归直线就定了。
7.5.2 相关系数-correlation coefficient 相关系数的物理意义如下: a.当所有的认值都在回归线上时,r= 1。 b.当y与x之间完全不存在线性关系时,r=0。 c.当r值在0至1之间时,表示例与x之间存在相关关系。r值愈接近1,线性关系就愈好。
例 用吸光光度法测定合金钢中Mn的含量,吸光度与Mn的含量间有下列关系: Mn的质量μg 0 0.02 0.04 0.06 0.08 0.10 10.12 未知样 吸光度A 0.032 0.135 0.187 0.268 0.359 0.435 0.511 0.242 试列出标准曲线的回归方程并计算未知试样中Mn的含量。 解 此组数据中,组分浓度为零时,吸光度不为零,这可能是在试剂中含有少量Mn,或者含有其它在该测量波长下有吸光的物质。 设Mn含量值为x,吸光度值为y,计算回归系数a,b值。 a=0.038 b=3.95 标准曲线的回归方程为 y=0.38+3.95x r=0.9993<r99%,f 标准曲线具有很好的线性关系未知试样中含Mn 0.052μg。
7.6 提高分析结果准确度的方法 1 选择合适的分析方法 (1) 根据试样的中待测组分的含量选择分析方 1 选择合适的分析方法 (1) 根据试样的中待测组分的含量选择分析方 法。高含量组分用滴定分析或重量分析法;低 含量用仪器分析法。 (2) 充分考虑试样中共存组分对测定的干扰, 采用适当的掩蔽或分离方法。 (3) 对于痕量组分,分析方法的灵敏度不能满 足分析的要求,可先定量富集后再进行测定.
→称量:分析天平的称量误差为±0.0002g,为了使测量时的相对误差在0.1%以下,试样质量必须在0.2 g以上。 2 减小测量误差 →称量:分析天平的称量误差为±0.0002g,为了使测量时的相对误差在0.1%以下,试样质量必须在0.2 g以上。 →滴定管读数常有±0.0l mL的误差,在一次滴定中,读数两次,可能造成±0.02 mL的误差。为使测量时的相对误差小于0.1%,消耗滴定剂的体积必须在20 mL以上,最好使体积在25 mL左右,一般在20至30mL之间。 →微量组分的光度测定中,可将称量的准确度提高约一个数量级。
3 减小随机误差 在消除系统误差的前提下,平行测定次数愈多,平均值愈接近真实值。因此,增加测定次数,可以提高平均值精密度。在化学分析中,对于同一试样,通常要求平行测定(parallel determination)2~4次。
4 消除系统误差 由于系统误差是由某种固定的原因造成的, 因而找出这一原因,就可以消除系统误差 的来源。有下列几种方法。 4 消除系统误差 由于系统误差是由某种固定的原因造成的, 因而找出这一原因,就可以消除系统误差 的来源。有下列几种方法。 (1) 对照试验-contrast test (2) 空白试验- blank test (3) 校准仪器 -calibration instrument (4) 分析结果的校正-correction result
(1) 对照试验 →与标准试样的标准结果进行对照; 标准试样、管理样、合成样、加入回收法。 →与其它成熟的分析方法进行对照; 国家标准分析方法或公认的经典分析方法。 →由不同分析人员,不同实验室来进行对照试验。 内检、外检。
(2) 空白试验 空白实验:在不加待测组分的情况下,按照试样分析同样的操作手续和条件进行实验,所测定的结果为空白值,从试样测定结果中扣除空白值,来校正分析结果。 消除由试剂、蒸馏水、实验器皿和环境带入的杂质引起的系统误差,但空白值不可太大。
(3) 校准仪器 仪器不准确引起的系统误差,通过校准仪器来减小其影响。例如砝码、移液管和滴定管等,在精确的分析中,必须进行校准,并在计算结果时采用校正值。 (4) 分析结果的校正 校正分析过程的方法误差,例用重量法测定试样中高含量的SiO2,因硅酸盐沉淀不完全而使测定结果偏低,可用光度法测定滤液中少量的硅,而后将分析结果相加。
本 章 作 业 P268 2, 4, 7 P269 8, 10, 12 P270 16, 20, 22, 24, 25 P271 28, 29