现场调查问卷的数据管理 Survey Data Management 流行病学教研组 流行病与卫生统计学教研室
主要内容 问卷录入前的核查 数据编码 常用数据管理软件介绍 数据的录入与管理
研究设计 设计“问卷” 实施调查 收集数据 数据录入 分析资料 分析数据 数据管理 结果解释 …… 撰写论文
一、问卷录入前的核查 核查的内容 真实性:无伪造和失真,无乱答 准确性:有无前后矛盾、相关问题逻辑一致 完整性:整体完整性和单份完整性。 标准性:调查结果中数据的计量单位要统一
二、数据的编码与赋值 数据编码的概念 数据编码的原则 数据编码
数据编码的概念 数据编码是指把资料信息转换成计算机能识别的某些特定的符号和数码的过程,它直接关系到数据处理和分析的繁复程度和真实性。 大规模的流行病学调查需要编制一份编码手册(也称编码簿)发给编码员,每个编码员则按编码手册的要求,统一进行编码。将调查数据转换成代码数据,代码数据应尽可能保留原始调查数据的形态及包含的信息。
数据编码的原则 唯一性原则: 简单性原则: 概括性原则: 每一编码与所代表的信息呈一一对应关系; 编码的位数要尽可能少,编码的符号要尽可能简单,一般编码都使用阿拉伯数字; 概括性原则: 对信息进行分门别类,然后用少数几个符号代表不同的类。
数据编码 定量变量的编码: 定量变量的编码最为简单,一般只需把变量数值直接写成代码数据,而不需要任何转变。 有时为了降低录入难度,避免录入错误,人们常把定量资料认为的转变为等级编码,如先对年龄进行分组,即1~19=1,20~39=2,……,>80=5,然后再将这些分组的年龄代码数据1,2,3,4,5输入到计算机数据文件。
数据编码 定性变量的编码: 二分类变量的编码:常用0和1来编码,因此也可以称为0-1变量。 由于对阳性事物设立高次代码有助于调查者在分析时获得正的参数估计值,所以一般情况下常用“1”代表“有 、正或阳性”;用“0”代表“无、负或阴性”。
数据编码 定性变量的编码: 多分类变量的编码:季节一般分为春、夏、秋、冬。通常的做法是用英语字母(如A、B、C、D)或阿拉伯数字(1,2,3,4)依次对其进行编码。 值得注意的是,这里季节是个名义变量,其取值1、2、3、4只是为了数据记录的便利而设定的代码,不能由其平均数作为该分类变量的平均水平对资料进行描述,也不能直接参与回归分析等计算。因为“1”不能理解为“较低水平”,“4”也不能理解为“较高水平”,它们之间不存在自然的等级变化,如果直接参与回归分析只能会造成结果无法解释。
数据编码 定性变量的编码: 有序变量的编码:临床体检或实验室检验常用−、±、+和++等来表示测量结果,属于有序变量。 有序变量的取值称为水平,如果有理由认为各水平之间是等距离或近似等距离,则可把各水平取值依次记作 1、2、3、4。例如,患者术后出血量分为少、一般、偏多、过多,分别按这个顺序编码为1、2、3、4。如果把“1”理解为“较低水平”,代表较少出血量,把“4”理解为“较高水平”,代表较多出血量,完全可以和医学实际意义相吻合。
数据编码 问卷中多选题的编码: 所谓多项选择题, 即题目的答案不止一个,答案的选项可以根据研究需要多重选择。 复选题主要包括两种情况: 一种是被调查人员从选项集中任意选择符合自身情况的选项,没有其他附加要求; 另一种是被调查人员从选项集中选择最重要的3项(或5项),并按照程度大小排序。
数据编码 问卷中多复选题的编码: 1.多重二分法:将复选题的多个选项分别当作独立的变量来看待,根据选项的个数分别定义为若干个子变量。对于每一选项的赋值,选定义为“1”,不选为“0”。 如例1按照多重二分法进行编码时,就会产生5个新的且相互独立的变量,分别用A1、A2、 A3、A4、 A5表示,假设某位调查对象选择了“1、2、5”,编码的结果便为A1=1、A2=1、A3=0、A4=0、A5=1。
数据编码 问卷中多复选题的编码: 2.随机编码法:当变量选项比较多,而题目只要求从多个选项中选择最重要的3或5项时,仍然使用多重二分法录入显然不方便。为了减少录入“0”的次数,常选用另一种编码方法-随机编码法。 如例2,这时候只要定义3个子变量即可(如B1,B2,B3),每个子变量的备选项可以分别定义为1-10,也可以理解为每个子变量为被访者的一次选择。假设某位调查对象选择了“1、2、5”,编码的结果便为B1=1、B2=2、B3=5。
数据编码 漏失数据的编码 : 失访数据(又称漏失数据):是指应该调查而未被调查到的数据。 例如:调查对象回答不准确、调查员记录不清、项目遗漏或随访过程中调查对象失访等原因,都会导致漏失数据的产生。 空白数据:是在调查对象不具有某些项目的情况时产生,它属于不必调查的数据。 例如:男性中学生月经初潮的调查项目一定呈空白状态。
数据编码 漏失数据的编码 : 虽然这两种类型的缺损数据在客观上都造成了调查表项目的空白,但它们的性质及其在分析时的处理方法不同。有些调查者将漏失数据和空白数据都视作同一代码例如“99”或“0”处理,这对统计分析特别是多元分析极为不利。如果某项目漏失数据较少,仍可用适当方法加以处理并使其参与分析,但真正的空白数据则完全没有必要这样来做。 一般来说,可用适当位数的“99”或“X” 代码来表示漏失数据;用“0”或“-”代码表示空白数据。
数据管理与分析 数据录入和管理 Epi Info EpiData 3.0 Microsoft Excel Microsoft Access Visual FoxPro Other: SPSS, SAS, STATA… 数据管理与分析
Epi Info 6.04d http://www.cdc.gov/epiinfo/downloads.htm
EpiData 3.0
Microsoft Excel
Microsoft Access
Microsoft Visual FoxPro
SAS
STATA
SPSS
Epi Info v3.3 http://www.cdc.gov/epiinfo/downloads.htm
数据录入和管理 数据分析 EpiData 3.0 Microsoft Excel Microsoft Access Visual FoxPro Epi Info SPSS, SAS, STATA, NCSS-PASS… EpiCalc 2000 数据分析
EpiData 免费的数据录入和数据管理软件 开发者:丹麦欧登塞(Odense, Denmark)的一个非盈利组织,即The EpiData Association (http://www.epidata.dk) 程序设计者:Jens M. Lauritsen, Michael Bruus和Mark Myatt
EpiData 直观方便 简单易学 实用性强 对计算机硬件要求不高 数据录入功能强
EpiData 当前最高版本:3.1 语言:丹麦语、挪威语、荷兰语、意大利语、中文、法语、西班牙语、俄语、斯洛文尼亚语、塞尔维亚语、波兰语、葡萄牙语、阿拉伯语、英语 记录数最好不要超过20万~30万条 整个录入界面不要超过999行
下载:http://www.epidata.dk/
数据录入和管理流程 1. 建立调查表文件 2. 创建数据库 3. 建立核查文件 4. 录入数据 5. 数据库管理 6. 输出数据
0. 设计问卷
1. 建立调查表文件 *.QES 格式:变量标 {变量名} 变量编码 定义变量名的规则: 新建文件 字符型变量 打开已有 日期型变量 数值型变量 定义变量名的规则: 变量名第一个字符一定为字母(A-Z) 之后可含字母(A-Z)和数字(0-9) 变量名最多10个字符 变量名不能是中文
1. 建立调查表文件 格式:变量标 {变量名} 变量编码 字符型变量 变量类型 的选择 *.QES 日期型变量 数值型变量
2. 创建数据库 *.QES *.REC 建议:数据库文件应该和调查表文件同名, 仅仅后缀不同
2. 创建数据库
3. 建立核查文件 目的:方便录入,质量控制 注意: 核查文件的文件名(*.chk)必须与数据库的文件名(*.rec)一致,唯一不同的就是扩展名。
3. 建立核查文件 *.REC *.QES questionnaire record *.CHK check
3. 建立核查文件 的数值,如1,2,9 定义允许录入 的范围,如1-3 设置跳转, 如2>occup2 必须录入 对于分类数据,它定义了数值的具体含义 重复录入 在新的记录中,程序会自动复制前一条记录的内容到当前记录。
4. 录入数据
*.QES 4. 录入数据 *.REC *.REC *.CHK
5. 数据库管理 追加 / 合并数据库 逻辑一致性核查 平行双录入核查 生成报表 ……
生成报表 (1): 文件结构
生成报表 (2): 全部或部分记录的录入报表
生成报表 (3): 简单统计报表
6. 输出数据库
6. 输出数据库 *.QES *.REC *.CHK 统计分析软件 *.txt *.sps *.dbf *.sas *.dta *.xls
数据录入和管理流程 1. 建立调查表文件 2. 创建数据库 3. 建立核查文件 4. 录入数据 5. 数据库管理 6. 输出数据
第一步:打开或建立调查表文件 运行Epidata 点击 选择课件文件夹内的
第二步:生成数据库文件 点击 选择
第三步:建立核查文件
第三步:建立核查文件
第四步:录入数据
第四步:录入数据
第五步:数据库的管理 追加 / 合并数据库 逻辑一致性核查 平行双录入核查 生成报表 ……
第六步:数据导出
EpiData 实习一下! 数据库在(课件文件夹)
下课了!