Presentation is loading. Please wait.

Presentation is loading. Please wait.

数据处理过程中的质量控制 寇长贵(副教授) Tel: Mail:

Similar presentations


Presentation on theme: "数据处理过程中的质量控制 寇长贵(副教授) Tel: Mail:"— Presentation transcript:

1 数据处理过程中的质量控制 寇长贵(副教授) Tel: 0431-85619173 Mail: koucg@jlu.edu.cn
流行病与卫生统计学教研室 吉林大学公共卫生学院

2 主要内容 第六章内容 数据的逻辑检查与核对 数据编码与赋值 缺失值处理

3 数据质量 数据质量是对研究设计、实施和资料整理三个阶段工作的优劣程度的全面评价。 评价标准: 适用性 准确性 及时性 可取得性 衔接性
可解释性 研究获得的数据与客观现象相应的数量表现之间的吻合程度

4 数据的逻辑检查与核对 录入前要核查 真实性:无伪造和失真,无乱答 准确性:有无前后矛盾、相关问题逻辑一致 完整性:整体完整性和单份完整性。
标准性:调查结果中数据的计量单位要统一

5 数据的逻辑检查与核对 数据的检查和核对是数据处理的第一步,是指研究者对所收集的原始资料进行初步的审阅。 主要内容: 数据不符合纳入标准
数据缺失 数据错误 数据出现离群值或异常值

6 数据的逻辑检查与核对 数据不符合纳入标准 研究人员在进行调查或实验之前都会很明确给对样本设定严格的纳入标准,只有符合纳入标准的个体才可以被选入调查或实验中; 如大量选入不符合纳入标准的个体将会导致严重的选择性偏倚。 如在肝癌的病例对照研究中,研究人员的纳入标准为有明确病理诊断的肝癌患者并排除其他肝炎或肝脏疾病。如果肝脏其他疾病患者混入了研究中去,将会增大或减少暴露与疾病的关联

7 数据的逻辑检查与核对 数据缺失(data missing)
不能超过10%,高于30%及以上的数据是无效数据,采用任何缺失值处理方法都将无济于事; 主要表现:为若干研究对象缺失和单个研究对象资料缺失; 原因:一是被试(调查)者脱离观察或失访(因故不在、遗忘或拒绝回答)造成的,这种遗漏无法填补;二是研究(调查)者疏忽、忘记填写或记录而造成的,如及时发现,尚可补救; 处理时注意:①因病情恶化脱离观察时,应作疗法无效归入非治愈组处理,如因病情好转而脱离观察,按有效的程度放入治愈组;②移居时,应对移居者进行追踪;③失访原因不明或拒绝回答时,应剔除。

8 数据的逻辑检查与核对 数据错误 按产生原因分类: 按研究的不同阶段:
偶然性错误:不可预见的,常由于被访人员、调查人员、资料整理人员一时的疏忽造成,这种错误对结论影响较小,有时容易发现; 一贯性错误:是由于被调查者误答或实验者对记录要求错误理解而造成的,这种错误对结论影响较大且不易发现。 按研究的不同阶段: 采集阶段错误:在数据收集的现场进行严格的质量控制,确保数据完整; 录入阶段错误:无论数据录入人员的工作态度有多么认真、素质有多么高,在数据录入的过程都难免出现录入错误和乱码等问题。

9 数据的逻辑检查与核对 数据离群值或异常值 定义:通常测量或调查所得到的原始数据,会出现一个或数个过大和过小的数据,它们明显远离测定值群体,这些数据称为“异常值”、“离群值或”或“可疑数值”。 原因:数据输入时的出错;在不同数据格式之间进行转换时,误把缺失值的代号当成了实际观测值;出现离群值的样本并非属于所要考察的总体;考察的样本相对于正态分布有比较多的极值;实验技术失误或仪器状态失常等。 处理:对离群值的识别与处理,要视具体情况而定,首先应认真检查专业数据,看能否从专业上加以合理的解释,如数据存在逻辑错误时,应该及时查找原始表进行核对,如原始记录确实如此,可以找到该观察对象重新调查。当离群值比较少,只有一两个的时候,可以将其去除不纳入统计分析

10 数据的逻辑检查与核对 主要方法 人工静态检查 专业检查 逻辑检查 计算检查 复录比较检查 图示法检查

11 人工静态检查 一种比较机械的数据检查和核对方法; 不需要对核对人员进行任何专业知识的培训和也不需要借助任何统计软件;
将原始数据与计算机所呈现的数据清单进行核对就可以完成数据的检查工作; 虽然该方法比较机械,但核对效果却比较理想;当数据量很大时,这种方法就无能为力。

12 专业检查 数据核查人员利用相关专业知识纠正数据错误; 中学生月经初潮的实足年龄填写为5岁; 妇女孕早期发热时的体温填写为68摄氏度;
某一小学生身高为142cm,体重为45 Kg,肺活量却写成35000mL; 某一问卷性别栏内填写“男”,而在死亡原因栏内填写“卵巢癌”.

13 逻辑检查 把调查数据与人们普遍接受的对现象某些特征或关系的看法进行比较,以判断有无数据质量问题的一种常见数据检查方法。
利用数据项目之间的相互关系是否合乎逻辑来辨别数据的真伪。 女性月经初潮年龄应小于年龄; 宫颈癌不能有男性患者; 读书年限小于10年的不应有博士学位; 年龄为15周岁的少年,不应填写婚姻状况等等。 如果发生这种现象,那就需要进行重点核查;对调查资料,利用变量间逻辑关系,可以编制各种程序,找出不合理逻辑的观察单位,进一步找到是哪个环节出错,尽最大可能予以纠正。

14 计算检查 在掌握了有关问题的大量资料,就可以通过计算和平衡关系来检查数据的质量;
通过计算输入的样本例数与调查的样本例数是否相同,可以检查数据是否存在重复和录入有空记录;如果输入的样本例数过少,说明存在“漏输”现象,如果输入的样本例数过多,则提示重复录入。 数据核查人员还可以通过比较数据库中纵列合计或横行合计之和与总计是否相符来检查数据是否存在错误。

15 复录比较检查 为了保证数据的质量,可选择不同的数据录入员对同一套数据进行同时录入,产生两个不同的数据库;然后对两个数据库进行双录入检查,这种针对数据录入过程的检查方法叫做复录比较检查,也称双录入检查和一致性检查。 复录比较检查包括即时复录比较和成批复录比较两种。EpiData和Epi Info软件均具有复录比较检查程序模块。 双录入核查以后,结果会输出两个数据库的具体内容。并且把两数据库输入有误的变量名和内容以列表的形式显示出来。

16 复录比较检查 EpiData软件双录入核查结果

17 图示法检查

18 图示法检查 直方图:用于观察某个变量的分布情况,也是一种常用的考察变量分布的方法。直方图能清楚的显示各分类观察值出现的频率大小,因此可以用来检查数据中是否存在远离群体的离群值。

19 图示法检查 箱式图:用于多组数据的直观比较分析。箱式图分为简单箱式图和复式箱式图。一般选择5个描述统计量(最小值、P25、中位数、P75、最大值)来绘制,框中间的黑粗线为中位数,极值,用“*”表示。 方框的上下边线分别为P25和P75,框外两个细线分别为1.5倍的四分位间距,之外的数据称为离群值或极值,其中位于1.5倍间距和3倍四分位间距之间的为离群值,用“O”表示;超过3倍四分位间距的为极值,用“*”表示。

20 图示法检查 散点图:散点图是常用来表现两个变量和多个变量之间有无相关关系的统计图。通过散点图可直观地看出两变量之间是否具有相关关系,如在散点图中出现一个观察点远离众散点,变量间相关关系受此点影响很大,则该点即为离群值。

21 图示法检查 Q-Q 图:直观检验数据是否符合某种分布的一种统计图,其中多用于正态分布的检验。
它是以样本的分位数(Px)作为横坐标,以按照正态分布计算的相应分位数作为纵坐标,样本值表现为围绕直角坐标系中第一象限的对角线散布的散点。如果出现偏离对角线较远的点,可认为是离群点。

22 图示法检查 标准化残存图:线性回归模型的应变量有两部分组成,其中一部分由自变量决定的,称为预测值或估计值,另一部分不能由现有的自变量决定,称为残差。 将残差减去其均数,除以其标准差,便得标准化残差。如将应变量或自变量作为横坐标,以标准化残差为纵坐标,绘制散点图,这类散点图称为标准化残差图。在标准化残差图中观察数据点位于±2倍标准差以外,即是离群值。

23 数据编码与赋值 数据编码的概念 数据编码的原则 数据编码 数据的重新赋值

24 数据编码的概念 数据编码是指把资料信息转换成计算机能识别的某些特定的符号和数码的过程,它直接关系到数据处理和分析的繁复程度和真实性。
大规模的流行病学调查需要编制一份编码手册(也称编码簿)发给编码员,每个编码员则按编码手册的要求,统一进行编码。将调查数据转换成代码数据,代码数据应尽可能保留原始调查数据的形态及包含的信息。

25 数据编码的原则 唯一性原则: 简单性原则: 概括性原则: 每一编码与所代表的信息呈一一对应关系;
编码的位数要尽可能少,编码的符号要尽可能简单,一般编码都使用阿拉伯数字; 概括性原则: 对信息进行分门别类,然后用少数几个符号代表不同的类。

26

27 数据编码 定量变量的编码: 定量变量的编码最为简单,一般只需把变量数值直接写成代码数据,而不需要任何转变。
有时为了降低录入难度,避免录入错误,人们常把定量资料认为的转变为等级编码,如先对年龄进行分组,即1~19=1,20~39=2,……,>80=5,然后再将这些分组的年龄代码数据1,2,3,4,5输入到计算机数据文件。

28 数据编码 定性变量的编码: 二分类变量的编码:常用0和1来编码,因此也可以称为0-1变量。由于对阳性事物设立高次代码有助于调查者在分析时获得正的参数估计值,所以一般情况下常用“1”代表“有 、正或阳性”;用“0”代表“无、负或阴性”。

29 数据编码 定性变量的编码: 多分类变量的编码:季节一般分为春、夏、秋、冬。通常的做法是用英语字母(如A、B、C、D)或阿拉伯数字(1,2,3,4)依次对其进行编码。 值得注意的是,这里季节是个名义变量,其取值1、2、3、4只是为了数据记录的便利而设定的代码,不能由其平均数作为该分类变量的平均水平对资料进行描述,也不能直接参与回归分析等计算。因为“1”不能理解为“较低水平”,“4”也不能理解为“较高水平”,它们之间不存在自然的等级变化,如果直接参与回归分析只能会造成结果无法解释。

30 数据编码 定性变量的编码: 多分类变量的编码:季节一般分为春、夏、秋、冬。通常的做法是用英语字母(如A、B、C、D)或阿拉伯数字(1,2,3,4)依次对其进行编码。

31 数据编码 定性变量的编码: 有序变量的编码:临床体检或实验室检验常用−、±、+和++等来表示测量结果,属于有序变量。
有序变量的取值称为水平,如果有理由认为各水平之间是等距离或近似等距离,则可把各水平取值依次记作 1、2、3、4。例如,患者术后出血量分为少、一般、偏多、过多,分别按这个顺序编码为1、2、3、4。如果把“1”理解为“较低水平”,代表较少出血量,把“4”理解为“较高水平”,代表较多出血量,完全可以和医学实际意义相吻合。

32 数据编码 问卷中多复选题的编码: 所谓复选题,也称多项选择题, 即题目的答案不止一个,答案的选项可以根据研究需要多重选择。
复选题主要包括两种情况: 一种是被调查人员从选项集中任意选择符合自身情况的选项,没有其他附加要求; 另一种是被调查人员从选项集中选择最重要的3项(或5项),并按照程度大小排序。

33

34 数据编码 问卷中多复选题的编码: 1. 多重二分法:将复选题的多个选项分别当作独立的变量来看待,根据选项的个数分别定义为若干个子变量。对于每一选项的赋值,选定义为“1”,不选为“0”。 如例1按照多重二分法进行编码时,就会产生5个新的且相互独立的变量,分别用A1、A2、 A3、A4、 A5表示,假设某位调查对象选择了“1、2、5”,编码的结果便为A1=1、A2=1、A3=0、A4=0、A5=1。

35 数据编码 问卷中多复选题的编码: 2.随机编码法:当变量选项比较多,而题目只要求从多个选项中选择最重要的3或5项时,仍然使用多重二分法录入显然不方便。为了减少录入“0”的次数,常选用另一种编码方法-随机编码法。 如例2,这时候只要定义3个子变量即可(如B1,B2,B3),每个子变量的备选项可以分别定义为1-10,也可以理解为每个子变量为被访者的一次选择。假设某位调查对象选择了“1、2、5”,编码的结果便为B1=1、B2=2、B3=5。

36 数据编码 问卷中多复选题的编码: 3.组合编码法:运用了排列组合的方法,把所有符合例3条件的组合定义为一种类型,并分别用阿拉伯数据对其进行编码。然后在数据录入时,只需要把某一类型的代码录入一个变量(C)即可。 由于这种方法只需定义一个变量,因此可以有效减少了数据容量, 提高录入速度,便于数据的检查。而且用单选题的编码方式用于复选题的数据编码,也必然增加了可选择的统计分析手段。 存在着因备选项增加而造成的组合类型多样化、类型识别困难的弊端。

37 数据编码 缺失数据的编码 : 失访数据(又称漏失数据):是指应该调查而未被调查到的数据,例如调查对象回答不准确、调查员记录不清、项目遗漏或随访过程中调查对象失访等原因,都会导致漏失数据的产生。 空白数据:是在调查对象不具有某些项目的情况时产生,它属于不必调查的数据,例如男性中学生月经初潮的调查项目一定呈空白状态。

38 数据编码 缺失数据的编码 : 虽然这两种类型的缺损数据在客观上都造成了调查表项目的空白,但它们的性质及其在分析时的处理方法不同。有些调查者将漏失数据和空白数据都视作同一代码例如“9”或“0”处理,这对统计分析特别是多元分析极为不利。如果某项目漏失数据较少,仍可用适当方法加以处理并使其参与分析,但真正的空白数据则完全没有必要这样来做。 一般来说,可用适当位数的“9”或“X” 代码来表示漏失数据;用“0”或“-”代码表示空白数据。

39 缺失值处理 缺失值的概念 缺失数据的分类 缺失值的处理

40 缺失值的定义 缺失值是指在数据采集与整理过程中丢失的内容,也说明现有数据集中某个或某些属性的值是不完全的。
主要包括失访数据(又称漏失数据)和空白数据。 缺失值是各类统计调查中都无法完全避免的事情,在一项调查中要想获得100 %的有效问卷是几乎不可能的。特别是在开展大样本长期随访研究时,即使质量控制措施非常严格,缺失值也会很容易达到10%。

41 造成数据缺失的原因 问卷涉及敏感性问题 搜集数据的方法不严格 调查员的行为和态度不端正 问题本身无答案 有些信息暂时无法获取 有些信息被遗漏
调查研究中的损耗较大 从多个数据源中合并数据等。 在数据整理阶段,研究人员将不符合逻辑的数据剔除也会造成数据的缺失。

42 缺失值带来的问题 数据中的信息不能被完全提取、造成数据处理与分析困难、容易产生偏倚等。
如果进行时间序列分析,存在缺失值甚至会导致统计分析无法进行。 在面对缺失数据时,很多人都选择直接删除缺失值的方法。当缺失值在数据库中所占比重较少时,直接删除不会带来太大的问题;但当缺失值所占比例较多时,直接删除会损失大量信息,甚至可能得到错误的结论。

43 缺失值的分类 在调查研究中,缺失数据又被称为无回答,无回答主要包括单位无回答和项目无回答两种形式。
“单位无回答”又称全部调查项目无回答,是指被调查者不愿意或者不能够回答整张问卷; “项目无回答”又称部分调查项目无回答,指被调查单位虽然接受了调查, 但只回答了其中的一部分而非全部的问题,或者对某些项目提供的资料是无用的。

44 缺失值的分类 按其缺失机制与方式分: 完全随机缺失:指已评价的结果或即将要进行的评价结果中,研究的对象缺失率是独立的,该缺失与自身或其他变量的取值无关。 随机缺失:指缺失数据的发生与数据库中其他无缺失变量的取值有关。某一观察值缺失的概率仅依赖已有的观察结果,不依赖未观察到的结果。 非随机缺失:指数据的缺失不仅与其他变量的取值有关,缺失率与缺失数据有关,也和自身有关。这种缺失一般不是由偶然因素所造成的,常常是不可忽略的。

45 缺失值的处理 事前预防措施: 考虑到数据缺失的复杂性和后果的严重性。在数据搜集之前采取必要的措施进行预防显得尤为重要。具体来说,就是想尽一切办法提高应答率。 如提高调查表的设计质量 降低问题的敏感性 加强调查人员和数据录入汇总人员责任心和业务能力 加强宣传和激励,给被访人员一定的物质奖励等 很多人认为,如果调查的样本容量没有满足设计要求,增大样本容量可以用于解决问题。但是事实并非如此,当存在无回答偏差时,增大样本量的效果很不理想,而提高应答率比增大样本量更重要,也更有意义。

46 缺失值的处理 再抽样基础上的估计:许多学者建议可以从抽样的角度采取一些措施去解决数据缺失和样本量不足的问题。此类方法主要包括:
对无回答进行子抽样,把子样本的数据,作为整个无回答层的代表值。 多次反复调查,对无回答单位进行多次的补充调查,以尽可能多地获得调查数据。一般认为这种重复调查的尝试应进行三次,然后利用调查所获的数据对估计量进行调整,以减小可能产生的估计偏差 替换被调查单位,用总体中最初未被选入样本的其他单位去替代那些经过努力后仍未获得回答的单位,使用替换法应尽可能保证替代者和被替代者的同质性。

47 缺失值的处理 数据收集后的加权调整: 加权调整法是根据调查中回答单位的回答概率,经过一系列计算最终给调查中回答数据赋予调整的权数,即将调查设计中赋予缺失数据的权数分摊到获得数据身上,然后再进行数据处理,以此减小无回答偏差。

48 缺失值的处理 剔除含缺失值的记录:缺失值剔除分为列表删除和配对删除。
多种统计分析软件(如SPSS 和SAS)提供的默认的缺失值处理方法都为配对删除,就是将要分析的变量两两配对,如果在任意一对中,有变量是缺失的,就将此对删除; 列表删除是对整条记录来说的,如果在此记录中有任意一个变量是缺失的,就要将此记录整条删除。当缺失数据所占的比例非常小时,可以直接删除缺失而不用考虑信息的偏倚。 剔除缺失值是以减少原始数据来换取数据集信息的完备,会造成资源的大量浪费,丢弃大量隐藏在被剔除对象中的信息。如果数据集中,本来包含的对象很少,每个变量缺失的百分比变化很大,当缺失数据所占比例较大,直接删除的性能都比较差。

49 缺失值的处理 缺失值的简单插补: 缺失值的多重填补 1. 均值插补 2. 热平台插补法(Hot deck) 3. 随机插补法
4. 回归插补法 5. 期望-最大似然估计法(EM) 缺失值的多重填补

50 均值插补 用全局变量或属性的平均值来代替所有缺失数据,把全局变量或是平均值看作属性的一个新值,这种方法只能是缺失值满足MCAP假设条件时才能对总体提供一个无偏估计,并且,它严重扭曲了数据分布,所有的插补值都集中在均值点上,在分布上形成尖峰,导致低估方差。根据一定的辅助变量,将样本分成多个部分,然后在每一部分上分别使用均值插补,称为局部均值插补。 如果缺失值为数值型,可以用中位数填补分布为偏态,均数填补分布为正态或近似正态的变量;如果缺失值是分类、等级和二值变量时,可以根据统计学中的众数原理,用样本中出现次数最多的数值来填补缺失值。

51 热平台插补法 选择与缺失记录“相似”的完整记录中的相应变量值填补缺失值。
这是一种历史比较悠久的填补法,美国普查局多年来都采用了这种方法。它是优于列表删除, 配对删除和均数填补的一种缺失数据处理方法。 由于此方法简单直观,不采用任何明确的统计模型,所以成为当今数据处理最为流行的插补方法之一。但其中的“相似”很难界定;大型数据集中此方法显得过于繁琐。 使用该方法的最关键环节就是“相似”的界定,目前国内学者常使用相关系数矩阵来确定某个完整变量(如变量Y)与含缺失值的变量(如变量X)最相关。然后对变量Y进行排序,那么变量X的缺失值就可以用排在缺失值前的那个记录的数据来填补了。

52 随机插补法 指选定被用作替代的数据集,当出现缺失值时,从替代的数据集中随机抽取单位进行插补的方法。与均值插补类似,随机插补也可以先把总体按与主要研究变量有关的标志分成若干层,替代单位从无回答单位所在层中抽选,此为分层随机插补。 替代单位也可以是按事先规定的标准确定,例如在一项群众体育活动状况调查中,替代者可以选取无回答者相邻右边的住户,此种方法为非随机替代法。

53 回归插补法 这是一种条件性的均值插补法,比一般的均值插补法较为进步。基于完整的数据集,建立回归方程(模型),对于包含缺失值的对象,将已知变量值代入方程来估计缺失的变量值,用此估计值对缺失值进行填补。该方法利用了数据库中尽量多的信息,而且一些统计软件(如SPSS和Stata)也已经能够直接执行该功能。 此方法虽然是一个无偏估计,但是却容易忽视随机误差,低估标准差和其他未知性质的测量值,而且这一问题会随着缺失信息的增多而变得更加严重。

54 期望-最大似然估计法 利用己有数据作为训练样本来建立预测模型,预测并估计缺失数据,进而达到填补缺失值的目的。
该方法采用了迭代法建模,首先假设缺失值服从某一理论分布(如正态分布、混合正态、t分布等),在此分布前提下利用未缺失数据建模估计各缺失值的期望值,然后利用预测步得到的期望值计算参数最大似然估计的校正值,重复以上两步,直到前后两次计算结果达到规定的收敛标准。在SPSS软件中,EM法给出了完全随机缺失的Little’s 2检验的结果。 这种方法应用的条件是数据为多元正态分布和数据缺失的机制是可忽略的。最大似然法的主要优点是根据观测数据的分布对缺失值进行填充,其结果的估计比较精确和有效。

55 SPSS软件主菜单Transform中Replace Missing Values提供了多种缺失值替代的方法,包括:全体序列的均值替代;相邻若干点的均数替代;相邻若干点的中位数替代;线性内插,即缺失值相邻两点的均数;记录号作为自变量,序列值作为应变量进行回归,求得该点的估计值。 另外,SPSS软件中的Missing Value Analysis模块也提供了功能强大的EM和回归算法。

56

57 用该变量的所有非缺失值的均数做替代; 用缺失值相邻点的非缺失值的均数做替代; 用缺失值相邻点的非缺失值的中位数做替代; 用线性拟合方式确定替代值; 用缺失值相邻点的线性趋势替代。

58

59 频数插补 IF (B2=$SYSMIS) K=RV.UNIFORM(0,1). DO IF (K <=0.296).
RECODE B2 (SYSMIS =1). END IF. DO IF (K > & K <= 1.00). RECODE B2 (SYSMIS =2). EXECUTE. DELETE VARIABLES K.

60 下课了!


Download ppt "数据处理过程中的质量控制 寇长贵(副教授) Tel: Mail:"

Similar presentations


Ads by Google