现场调查问卷的数据管理 Survey Data Management

现场调查问卷的数据管理 Survey Data Management
流行病学教研组流行病与卫生统计学教研室

主要内容问卷录入前的核查数据编码常用数据管理软件介绍数据的录入与管理

研究设计设计“问卷” 实施调查收集数据数据录入分析资料分析数据数据管理结果解释 …… 撰写论文

一、问卷录入前的核查核查的内容真实性：无伪造和失真，无乱答准确性：有无前后矛盾、相关问题逻辑一致完整性：整体完整性和单份完整性。
标准性：调查结果中数据的计量单位要统一

二、数据的编码与赋值数据编码的概念数据编码的原则数据编码

数据编码的概念数据编码是指把资料信息转换成计算机能识别的某些特定的符号和数码的过程，它直接关系到数据处理和分析的繁复程度和真实性。
大规模的流行病学调查需要编制一份编码手册（也称编码簿）发给编码员，每个编码员则按编码手册的要求，统一进行编码。将调查数据转换成代码数据，代码数据应尽可能保留原始调查数据的形态及包含的信息。

数据编码的原则唯一性原则：简单性原则：概括性原则：每一编码与所代表的信息呈一一对应关系；
编码的位数要尽可能少，编码的符号要尽可能简单，一般编码都使用阿拉伯数字；概括性原则：对信息进行分门别类，然后用少数几个符号代表不同的类。

数据编码定量变量的编码：定量变量的编码最为简单，一般只需把变量数值直接写成代码数据，而不需要任何转变。
有时为了降低录入难度，避免录入错误，人们常把定量资料认为的转变为等级编码，如先对年龄进行分组，即1～19=1，20～39=2，……，>80=5，然后再将这些分组的年龄代码数据1，2，3，4，5输入到计算机数据文件。

数据编码定性变量的编码：二分类变量的编码：常用0和1来编码，因此也可以称为0-1变量。
由于对阳性事物设立高次代码有助于调查者在分析时获得正的参数估计值，所以一般情况下常用“1”代表“有、正或阳性”；用“0”代表“无、负或阴性”。

数据编码定性变量的编码：多分类变量的编码：季节一般分为春、夏、秋、冬。通常的做法是用英语字母（如A、B、C、D）或阿拉伯数字（1，2，3，4）依次对其进行编码。值得注意的是，这里季节是个名义变量，其取值1、2、3、4只是为了数据记录的便利而设定的代码，不能由其平均数作为该分类变量的平均水平对资料进行描述，也不能直接参与回归分析等计算。因为“1”不能理解为“较低水平”，“4”也不能理解为“较高水平”，它们之间不存在自然的等级变化，如果直接参与回归分析只能会造成结果无法解释。

数据编码定性变量的编码：有序变量的编码：临床体检或实验室检验常用−、±、＋和＋＋等来表示测量结果，属于有序变量。有序变量的取值称为水平，如果有理由认为各水平之间是等距离或近似等距离，则可把各水平取值依次记作 1、2、3、4。例如，患者术后出血量分为少、一般、偏多、过多，分别按这个顺序编码为1、2、3、4。如果把“1”理解为“较低水平”，代表较少出血量，把“4”理解为“较高水平”，代表较多出血量，完全可以和医学实际意义相吻合。

数据编码问卷中多选题的编码：所谓多项选择题，即题目的答案不止一个，答案的选项可以根据研究需要多重选择。复选题主要包括两种情况：
一种是被调查人员从选项集中任意选择符合自身情况的选项，没有其他附加要求；另一种是被调查人员从选项集中选择最重要的3项（或5项），并按照程度大小排序。

数据编码问卷中多复选题的编码： 1.多重二分法：将复选题的多个选项分别当作独立的变量来看待，根据选项的个数分别定义为若干个子变量。对于每一选项的赋值，选定义为“1”，不选为“0”。如例1按照多重二分法进行编码时，就会产生5个新的且相互独立的变量，分别用A1、A2、 A3、A4、 A5表示，假设某位调查对象选择了“1、2、5”，编码的结果便为A1=1、A2=1、A3=0、A4=0、A5=1。

数据编码问卷中多复选题的编码： 2.随机编码法：当变量选项比较多，而题目只要求从多个选项中选择最重要的3或5项时，仍然使用多重二分法录入显然不方便。为了减少录入“0”的次数，常选用另一种编码方法－随机编码法。如例2，这时候只要定义3个子变量即可（如B1，B2，B3），每个子变量的备选项可以分别定义为1-10，也可以理解为每个子变量为被访者的一次选择。假设某位调查对象选择了“1、2、5”，编码的结果便为B1=1、B2=2、B3=5。

数据编码漏失数据的编码：失访数据（又称漏失数据):是指应该调查而未被调查到的数据。
例如：调查对象回答不准确、调查员记录不清、项目遗漏或随访过程中调查对象失访等原因，都会导致漏失数据的产生。空白数据：是在调查对象不具有某些项目的情况时产生，它属于不必调查的数据。例如：男性中学生月经初潮的调查项目一定呈空白状态。

数据编码漏失数据的编码：虽然这两种类型的缺损数据在客观上都造成了调查表项目的空白，但它们的性质及其在分析时的处理方法不同。有些调查者将漏失数据和空白数据都视作同一代码例如“99”或“0”处理，这对统计分析特别是多元分析极为不利。如果某项目漏失数据较少，仍可用适当方法加以处理并使其参与分析，但真正的空白数据则完全没有必要这样来做。一般来说，可用适当位数的“99”或“X” 代码来表示漏失数据；用“0”或“-”代码表示空白数据。

数据管理与分析数据录入和管理 Epi Info EpiData 3.0 Microsoft Excel Microsoft Access
Visual FoxPro Other: SPSS, SAS, STATA… 数据管理与分析

Epi Info 6.04d

EpiData 3.0

Microsoft Excel

Microsoft Access

Microsoft Visual FoxPro

Epi Info v3.3

数据录入和管理数据分析 EpiData 3.0 Microsoft Excel Microsoft Access
Visual FoxPro Epi Info SPSS, SAS, STATA, NCSS-PASS… EpiCalc 2000 数据分析

EpiData 免费的数据录入和数据管理软件
开发者：丹麦欧登塞（Odense, Denmark）的一个非盈利组织，即The EpiData Association ( 程序设计者：Jens M. Lauritsen, Michael Bruus和Mark Myatt

EpiData 直观方便简单易学实用性强对计算机硬件要求不高数据录入功能强

EpiData 当前最高版本：3.1 语言：丹麦语、挪威语、荷兰语、意大利语、中文、法语、西班牙语、俄语、斯洛文尼亚语、塞尔维亚语、波兰语、葡萄牙语、阿拉伯语、英语记录数最好不要超过20万~30万条整个录入界面不要超过999行

下载：

数据录入和管理流程 1. 建立调查表文件 2. 创建数据库 3. 建立核查文件 4. 录入数据 5. 数据库管理 6. 输出数据

0. 设计问卷

1. 建立调查表文件 *.QES 格式：变量标 {变量名} 变量编码定义变量名的规则：新建文件字符型变量打开已有日期型变量
数值型变量定义变量名的规则：变量名第一个字符一定为字母（A-Z）之后可含字母（A-Z）和数字（0-9）变量名最多10个字符变量名不能是中文

1. 建立调查表文件格式：变量标 {变量名} 变量编码字符型变量变量类型的选择 *.QES 日期型变量数值型变量

2. 创建数据库 *.QES *.REC 建议：数据库文件应该和调查表文件同名，仅仅后缀不同

2. 创建数据库

3. 建立核查文件目的：方便录入，质量控制注意：
核查文件的文件名（*.chk）必须与数据库的文件名（*.rec）一致，唯一不同的就是扩展名。

3. 建立核查文件 *.REC *.QES questionnaire record *.CHK check

3. 建立核查文件的数值，如1,2,9 定义允许录入的范围，如1-3 设置跳转，如2>occup2
必须录入对于分类数据，它定义了数值的具体含义重复录入在新的记录中，程序会自动复制前一条记录的内容到当前记录。

4. 录入数据

*.QES 4. 录入数据 *.REC *.REC *.CHK

5. 数据库管理追加 / 合并数据库逻辑一致性核查平行双录入核查生成报表 ……

生成报表 (1): 文件结构

生成报表 (2): 全部或部分记录的录入报表

生成报表 (3): 简单统计报表

6. 输出数据库

6. 输出数据库 *.QES *.REC *.CHK 统计分析软件 *.txt *.sps *.dbf *.sas *.dta *.xls

数据录入和管理流程 1. 建立调查表文件 2. 创建数据库 3. 建立核查文件 4. 录入数据 5. 数据库管理 6. 输出数据

第一步：打开或建立调查表文件运行Epidata 点击选择课件文件夹内的

第二步：生成数据库文件点击选择

第三步：建立核查文件

第四步：录入数据

第五步：数据库的管理追加 / 合并数据库逻辑一致性核查平行双录入核查生成报表 ……

第六步：数据导出

EpiData 实习一下！数据库在（课件文件夹）

下课了!

现场调查问卷的数据管理 Survey Data Management

Similar presentations

Presentation on theme: "现场调查问卷的数据管理 Survey Data Management"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

现场调查问卷的数据管理 Survey Data Management

Similar presentations

Presentation on theme: "现场调查问卷的数据管理 Survey Data Management"— Presentation transcript:

Similar presentations

About project

反馈