现场调查问卷的数据管理 Survey Data Management

Slides:

Advertisements

Similar presentations

2009 套读自考本科简介 —— 抓住机遇，用知识改变命运目录二、提升学历、提升自身素质的途径选择三、高教自考和套读自考本科介绍四、我校自考套读本科情况介绍一、就业状况五、我校今年招生专业介绍.

Advertisements

实用农业科技写作王鹏文. 第一章导论第一节农业科技写作概述一、农业科技写作概念和分类：科技文献类、科技应用类、科技普及类、科技新闻类二、农业科技写作的意义和重要性：科技工作的重要组成部分、科学研究的手段、科技成果的反映和标志、科技交流的工具三、农业科技写作的特点 : 功利性与及时性、科学性与先进性、读者的专门性与狭隘性、

新课程引领实践中前行 —— 蓟县初中信息技术三年课改总结. 自从 2005 年秋季我市进入基础教育新一轮课程改革实验以来，在市教研室的正确领导下，我县初中信息技术课改工作稳步推进。三年来，取得了一些成果，也有不少体会。现将三年来的信息技术课改工作总结如下。

河南省基础教育资源网邓伟鹏二〇一二年七月内容大纲 1. 培训平台的目的 2. 培训平台介绍 3. 培训平台功能 4. 培训工作建立流程 5. 培训门户 6. 在线学习 6.1 课程学习 6.2 在线考试 7. 培训考试管理 7.1. 课程管理 7.2 必修学习班建立 7.3 在线考试管理 7.4.

桐乡市地方税务局 2013 年度社会保险费汇算清缴有关政策及事项说明. 一、政策规定根据《中华人民共和国社会保险法》、《桐乡市社会保险费征缴管理办法》（市政府令第 42 号）、《关于完善社会保险费征缴管理有关问题的通知》（桐政办发 [2012]152 号）及《关于完善社会保险费征缴管理.

中国宏观经济数据库 ( 国泰安研究服务中心 ). 一、数据库简介  “ 国泰安研究服务中心 ” （）是中国经济、金融、会计研究的门户网站，主要从事股票市场、上市公司、基金市场、期货市场、债券市场、货币市场等经济数据的采集和研究服务。  国泰安研究服务中心由数据服务、研究服务与学者.

中国部分农村地区肺结核发病因素的病例对照研究陈伟中国疾控中心结核病预防控制中心北京.

第十三章医学统计学方法的基本概念和基本步骤

中国旅游研究院武汉分院成果展示 ——2011年武汉市旅游市场调研成果简报华中师范大学中国旅游研究院武汉分院二〇一一年十二月.

NO.005 職涯報實習徵才攻讀國立嘉義大學學生事務處學生職涯發展中心.

国家科技计划体系暨国家重点新产品计划申报简介

國中教育會考十二年國教—免試入學及意見整理.

E-prime簡介何明洲中山醫學大學心理系.

上海体育职业学院祁社生一、重视体育科研在提高竞技运动训练水平中的意义和作用

严格标准规范程序认真做好党员发展工作.

薪資申報系統操作說明.

商学院旅游管理专业介绍.

　历史以人类的活动为特定的对象，它思接万载，视通万里，千恣百态，令人销魂，因此它比其他学科更能激发人们的想像力。　　　　

《数学》(华师大.八年级下册) 第二十一章数据的整理与初步处理扇形统计图的制作.

怎样报销劳务性费用？ ——暨薪酬发放申报系统介绍怎样报销劳务性费用？ ——暨薪酬发放申报系统介绍 (学院、部门适用)

5.1 Excel 概述 Excel的特点 1、表格制作 2、完成复杂运算 3、建立图表 4、数据库管理 5、决策支持.

实习19 流行病学数据分析常用软件.

探討某醫院志工中華醫事科技大學參與服務動機影響因子指導老師：趙海倫老師班級：四醫管四 A

104學年度臺南區免試入學作業國中端說明會臺南市政府教育局 104學年度臺南區高級中等學校免試入學委員會日期：104年1月9日(五)

卫生部农村妇女乳腺癌筛查项目临床与超声检查表填写及数据库简介

『臺北市營建剩餘資源管理系統』教育訓練說明臺北市政府報告人王宏正

4.3 处理数据宝鸡理工学校计算机组李小保.

电子表格工作簿的操作和数据的处理感谢各位领导和老师的莅临与指导！授课人：幸福人寿邵阳中心支公司银保部王晚英.

“三项制度+一个平台”构建省级高校教学质量监控体系

瓯海职专财经专业组简介.

国有资产清查数据填报操作规范 2016年3月25日.

第11章金融风险及其防范 11.1 金融风险概述 金融风险的含义

响沙之王——银肯响沙响沙之王——银肯响沙.

软件工程实验三周志钊

中国的富饶之地 —东北.

上海文会会计师事务所有限公司中国注册会计师童幸义

关于成绩的数理统计的探讨望您多多指教！多谢！！.

校園霸凌事件處理、申復流程暨狀況模擬林華杉教官此範本可作為群組設定中簡報訓練教材的起始檔案。章節

第6章問卷統計分析軟體操作(SPSS,Excel)

仓储企业岗位人员招聘第一组组员：陈娇娇祝婷婷丁元莉袁珮王慧.

人口与计划生育统计分析昌吉市计划生育委员会二○○六年三月.

三校生高考培训 ---OFFICE~EXCEL.

河北省部分社区建档高血压患者血压与体重基线水平分析

内蒙古景观与区划人文景观人文景观是指有人为因素作用形成（构成）的景观。人为因素主要有文化、建筑等因素。

必备职业素养主讲：程华.

第十章房地产开发项目的经济评价 §1 房地产开发项目及其前期工作 §2 房地产开发项目经济评价 本章内容.

2014年深圳市学生人身意外伤害保险投保工作介绍中国人民财产保险股份有限公司深圳市分公司

传媒学院2013年度团委工作总结分析报告

第2章 Visual FoxPro 简介 Visual FoxPro概述 Visual FoxPro设计工具

RESSET 数据库 RESSET/DB 操作指南

關鍵數據數據錯了扣 50分排序錯了扣50分.

97學年度導師輔導知能研習營成果.

办学条件核查评估秘书组电力职业技术学院山西机电职业技术学院 2014年7月9日.

第八单元 Word和Excel 进阶应用.

電腦應用製作單位: 高雄市立高雄中學.

第6章製作圖表製作圖表編輯圖表.

地方科技基础条件资源调查管理信息系统（标准化器）操作培训 2017年7月呼和浩特

怎样报销劳务性费用？ ——暨薪酬发放申报系统介绍怎样报销劳务性费用？ ——暨薪酬发放申报系统介绍 (项目经费适用)

成本会计学.

舊生升級編班與新生管理操作說明全誼資訊股份有限公司中華民國106年06月05日.

Microsoft Word 2003 透視合併列印 Microsoft MVP 王作桓.

我會看年曆.

第一章概說.

新课程理念下如何进行课堂教学刘志超 2014年2月25日.

数据处理过程中的质量控制寇长贵(副教授) Tel: Mail:

全國高級中等學校專業群科食品群專題組之專題製作經驗分享報告者：北門農工 (劉軒如).

数据库管理软件简介与 EpiData软件应用

Presentation transcript:

现场调查问卷的数据管理 Survey Data Management 流行病学教研组流行病与卫生统计学教研室

主要内容问卷录入前的核查数据编码常用数据管理软件介绍数据的录入与管理

研究设计设计“问卷” 实施调查收集数据数据录入分析资料分析数据数据管理结果解释 …… 撰写论文

一、问卷录入前的核查核查的内容真实性：无伪造和失真，无乱答准确性：有无前后矛盾、相关问题逻辑一致完整性：整体完整性和单份完整性。标准性：调查结果中数据的计量单位要统一

二、数据的编码与赋值数据编码的概念数据编码的原则数据编码

数据编码的概念数据编码是指把资料信息转换成计算机能识别的某些特定的符号和数码的过程，它直接关系到数据处理和分析的繁复程度和真实性。大规模的流行病学调查需要编制一份编码手册（也称编码簿）发给编码员，每个编码员则按编码手册的要求，统一进行编码。将调查数据转换成代码数据，代码数据应尽可能保留原始调查数据的形态及包含的信息。

数据编码的原则唯一性原则：简单性原则：概括性原则：每一编码与所代表的信息呈一一对应关系；编码的位数要尽可能少，编码的符号要尽可能简单，一般编码都使用阿拉伯数字；概括性原则：对信息进行分门别类，然后用少数几个符号代表不同的类。

数据编码定量变量的编码：定量变量的编码最为简单，一般只需把变量数值直接写成代码数据，而不需要任何转变。有时为了降低录入难度，避免录入错误，人们常把定量资料认为的转变为等级编码，如先对年龄进行分组，即1～19=1，20～39=2，……，>80=5，然后再将这些分组的年龄代码数据1，2，3，4，5输入到计算机数据文件。

数据编码定性变量的编码：二分类变量的编码：常用0和1来编码，因此也可以称为0-1变量。由于对阳性事物设立高次代码有助于调查者在分析时获得正的参数估计值，所以一般情况下常用“1”代表“有、正或阳性”；用“0”代表“无、负或阴性”。

数据编码定性变量的编码：多分类变量的编码：季节一般分为春、夏、秋、冬。通常的做法是用英语字母（如A、B、C、D）或阿拉伯数字（1，2，3，4）依次对其进行编码。值得注意的是，这里季节是个名义变量，其取值1、2、3、4只是为了数据记录的便利而设定的代码，不能由其平均数作为该分类变量的平均水平对资料进行描述，也不能直接参与回归分析等计算。因为“1”不能理解为“较低水平”，“4”也不能理解为“较高水平”，它们之间不存在自然的等级变化，如果直接参与回归分析只能会造成结果无法解释。

数据编码定性变量的编码：有序变量的编码：临床体检或实验室检验常用−、±、＋和＋＋等来表示测量结果，属于有序变量。有序变量的取值称为水平，如果有理由认为各水平之间是等距离或近似等距离，则可把各水平取值依次记作 1、2、3、4。例如，患者术后出血量分为少、一般、偏多、过多，分别按这个顺序编码为1、2、3、4。如果把“1”理解为“较低水平”，代表较少出血量，把“4”理解为“较高水平”，代表较多出血量，完全可以和医学实际意义相吻合。

数据编码问卷中多选题的编码：所谓多项选择题，即题目的答案不止一个，答案的选项可以根据研究需要多重选择。复选题主要包括两种情况：一种是被调查人员从选项集中任意选择符合自身情况的选项，没有其他附加要求；另一种是被调查人员从选项集中选择最重要的3项（或5项），并按照程度大小排序。

数据编码问卷中多复选题的编码： 1.多重二分法：将复选题的多个选项分别当作独立的变量来看待，根据选项的个数分别定义为若干个子变量。对于每一选项的赋值，选定义为“1”，不选为“0”。如例1按照多重二分法进行编码时，就会产生5个新的且相互独立的变量，分别用A1、A2、 A3、A4、 A5表示，假设某位调查对象选择了“1、2、5”，编码的结果便为A1=1、A2=1、A3=0、A4=0、A5=1。

数据编码问卷中多复选题的编码： 2.随机编码法：当变量选项比较多，而题目只要求从多个选项中选择最重要的3或5项时，仍然使用多重二分法录入显然不方便。为了减少录入“0”的次数，常选用另一种编码方法－随机编码法。如例2，这时候只要定义3个子变量即可（如B1，B2，B3），每个子变量的备选项可以分别定义为1-10，也可以理解为每个子变量为被访者的一次选择。假设某位调查对象选择了“1、2、5”，编码的结果便为B1=1、B2=2、B3=5。

数据编码漏失数据的编码：失访数据（又称漏失数据):是指应该调查而未被调查到的数据。例如：调查对象回答不准确、调查员记录不清、项目遗漏或随访过程中调查对象失访等原因，都会导致漏失数据的产生。空白数据：是在调查对象不具有某些项目的情况时产生，它属于不必调查的数据。例如：男性中学生月经初潮的调查项目一定呈空白状态。

数据编码漏失数据的编码：虽然这两种类型的缺损数据在客观上都造成了调查表项目的空白，但它们的性质及其在分析时的处理方法不同。有些调查者将漏失数据和空白数据都视作同一代码例如“99”或“0”处理，这对统计分析特别是多元分析极为不利。如果某项目漏失数据较少，仍可用适当方法加以处理并使其参与分析，但真正的空白数据则完全没有必要这样来做。一般来说，可用适当位数的“99”或“X” 代码来表示漏失数据；用“0”或“-”代码表示空白数据。

数据管理与分析数据录入和管理 Epi Info EpiData 3.0 Microsoft Excel Microsoft Access Visual FoxPro Other: SPSS, SAS, STATA… 数据管理与分析

Epi Info 6.04d http://www.cdc.gov/epiinfo/downloads.htm

EpiData 3.0

Microsoft Excel

Microsoft Access

Microsoft Visual FoxPro

SAS

STATA

SPSS

Epi Info v3.3 http://www.cdc.gov/epiinfo/downloads.htm

数据录入和管理数据分析 EpiData 3.0 Microsoft Excel Microsoft Access Visual FoxPro Epi Info SPSS, SAS, STATA, NCSS-PASS… EpiCalc 2000 数据分析

EpiData 免费的数据录入和数据管理软件开发者：丹麦欧登塞（Odense, Denmark）的一个非盈利组织，即The EpiData Association (http://www.epidata.dk) 程序设计者：Jens M. Lauritsen, Michael Bruus和Mark Myatt

EpiData 直观方便简单易学实用性强对计算机硬件要求不高数据录入功能强

EpiData 当前最高版本：3.1 语言：丹麦语、挪威语、荷兰语、意大利语、中文、法语、西班牙语、俄语、斯洛文尼亚语、塞尔维亚语、波兰语、葡萄牙语、阿拉伯语、英语记录数最好不要超过20万~30万条整个录入界面不要超过999行

下载：http://www.epidata.dk/

数据录入和管理流程 1. 建立调查表文件 2. 创建数据库 3. 建立核查文件 4. 录入数据 5. 数据库管理 6. 输出数据

0. 设计问卷

1. 建立调查表文件 *.QES 格式：变量标 {变量名} 变量编码定义变量名的规则：新建文件字符型变量打开已有日期型变量数值型变量定义变量名的规则：变量名第一个字符一定为字母（A-Z）之后可含字母（A-Z）和数字（0-9）变量名最多10个字符变量名不能是中文

1. 建立调查表文件格式：变量标 {变量名} 变量编码字符型变量变量类型的选择 *.QES 日期型变量数值型变量

2. 创建数据库 *.QES *.REC 建议：数据库文件应该和调查表文件同名，仅仅后缀不同

2. 创建数据库

3. 建立核查文件目的：方便录入，质量控制注意：核查文件的文件名（*.chk）必须与数据库的文件名（*.rec）一致，唯一不同的就是扩展名。

3. 建立核查文件 *.REC *.QES questionnaire record *.CHK check

3. 建立核查文件的数值，如1,2,9 定义允许录入的范围，如1-3 设置跳转，如2>occup2 必须录入对于分类数据，它定义了数值的具体含义重复录入在新的记录中，程序会自动复制前一条记录的内容到当前记录。

4. 录入数据

*.QES 4. 录入数据 *.REC *.REC *.CHK

5. 数据库管理追加 / 合并数据库逻辑一致性核查平行双录入核查生成报表 ……

生成报表 (1): 文件结构

生成报表 (2): 全部或部分记录的录入报表

生成报表 (3): 简单统计报表

6. 输出数据库

6. 输出数据库 *.QES *.REC *.CHK 统计分析软件 *.txt *.sps *.dbf *.sas *.dta *.xls

数据录入和管理流程 1. 建立调查表文件 2. 创建数据库 3. 建立核查文件 4. 录入数据 5. 数据库管理 6. 输出数据

第一步：打开或建立调查表文件运行Epidata 点击选择课件文件夹内的

第二步：生成数据库文件点击选择

第三步：建立核查文件

第三步：建立核查文件

第四步：录入数据

第四步：录入数据

第五步：数据库的管理追加 / 合并数据库逻辑一致性核查平行双录入核查生成报表 ……

第六步：数据导出

EpiData 实习一下！数据库在（课件文件夹）

下课了!