现场调查数据的处理分析 Survey Data Analysis

现场调查数据的处理分析 Survey Data Analysis
流行病教研组流行病与卫生统计学教研室

主要内容常用统计学软件介绍调查数据的分析策略 Logistic回归介绍

研究设计设计“问卷” 实施调查收集数据数据录入分析资料分析数据数据管理结果解释 …… 撰写论文

常用统计分析软件 Epi Info SAS STATA SPSS EpiCalc …… 数据分析

SAS系统全称为Statistics Analysis System，最早由北卡罗来纳大学的两位生物统计学研究生编制，并于1976年成立了SAS软件研究所，正式推出了SAS软件。
缺点：高昂的价格、不太友好的界面、非统计学专业人员不容易上手!

Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件，由美国计算机资源中心（Computer Resource Center）研制。
从1985至1998的十四年时间里，已连续推出1.1，1.2，1.3，1.4，1.5，……及2.0，2.1，3.0，3.1，4.0，5.0，6.0等多个版本，通过不断更新和扩充，内容日趋完善。它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点，又在许多方面别具一格。Stata融汇了上述程序的优点，克服了各自的缺点，使其功能更加强大，操作更加灵活、简单，易学易用，越来越受到人们的重视和欢迎。

Stata的突出特点是只占用很少的磁盘空间，输出结果简洁，所选方法先进，内容较齐全，制作的图形十分精美，可直接被图形处理软件或文字处理软件如WORD等直接调用。

SPSS是软件英文名称的首字母缩写，原意为Statistical Package for the Social Sciences，即“社会科学统计软件包”。最近，伴随SPSS产品服务领域的扩大和服务深度的增加，SPSS公司已决定将之英文全称更改为Statistical Product and Service Solutions，意为“统计产品与服务解决方案”，标志着SPSS的战略方向正在作出重大调整。 20世纪60年代末，美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS，同时成立了SPSS公司，并于1975年在芝加哥组建了SPSS总部。缺点：SPSS采用VB编制，计算速度也远远慢于其他统计软件；其输出结果虽然漂亮，但不能和WORD等常用文字处理软件直接兼容。这些都可以说是SPSS的致命伤。多水平统计模型等问题方面存在一定问题。

Epi Info v3.3

最新版本： Epi InfoTM Version3.3
开发：（1）WHO的艾滋病全球控制小组（2）美国CDC流行病学室免费获得（1）（2）最新版本： Epi InfoTM Version3.3

基本流程空白调查表编码 Enter (.Rec) 建立调查表(.Qes) Make View 原始资料 Data1 双重输入
Analyze 统计分析比较修改生成数据库 Data2 生成逻辑检查文件(.Chk) Check Validation

调查数据的分析策略选择合适的数据管理与分析软件资料的核对资料的整理资料的统计分析

调查数据的分析策略选择合适的数据管理与分析软件如：SAS、SPSS、Epi-Info、STATA

调查数据的分析策略资料的核对检查数据的结构检查数据的完整性检查各变量的取值情况观测数，变量名称、数量失访数据（缺失数据）
① 查阅原始资料纠正；② 剔除观察记录；③ 用统计学方法填补缺失值检查各变量的取值情况数值变量：最小值, 最大值，均值，中位数，发现异常值分类变量：检测变量编码的一致性其它发现异常的方法：图示法，回归诊断等

调查数据的分析策略资料的整理（1）数据的分组分类变量/有序变量数值变量按照实际的类别进行分组
若有必要和合理，可将性质相近的类别合并数值变量按照实际的生理，病理，临床和公共卫生意义分组分位数分组如：四分位数，五分位数使用的方便程度/专业惯例分组例：年龄在某一适宜范围内每5或10岁一组

调查数据的分析策略资料的整理（2）数据的转换非正态数据的变量转换分类变量转换为哑变量正态性（normality）检验
Univariate过程 Q-Q plot 对数、平方根和倒数变换分类变量转换为哑变量

哑变量在回归分析中，一般需要将多分类变量转换成多个二分类变量之后，才能将它们引入回归模型。将多分类变量转换得到的多个二分类变量称为哑变量。

比如：要分析不同年龄（X1）、居住地区（X2）、文化程度（X3）对妇女曾生子女个数（Y）的影响。
文化程度共有5类别，原始数据库中用数字1至5分别代表文盲、小学、初中、高中和大专及以上。取文盲为参照类，用哑变量D2, D3, D4, D5分别代表小学、初中、高中和大专及以上。根据原变量编码形成相应哑变量时的赋值为：即： X3=1 （文盲） D2=0， D3=0， D4=0， D5=0 X3=2 （小学） D2=1， D3=0， D4=0， D5=0 X3=3 （初中） D2=0， D3=1， D4=0， D5=0 X3=4 （高中） D2=0， D3=0， D4=1， D5=0 X3=5 （大专及以上） D2=0， D3=0， D4=0， D5=1 Y=b0+b1X1+b2X2+b3D2+b4D3+b5D4+b6D5

调查数据的分析策略资料的统计分析统计描述统计推断如何抽样，如何由样本信息推断总体特征的问题。
以统计表、统计图及其他现象化的方式对资料的数量特征及其分布规律进行测定和描述，但不涉及P值、可信区间等由样本推论总体的问题。统计推断如何抽样，如何由样本信息推断总体特征的问题。注意：统计方法的选择要根据收集资料的类型、研究的目的，研究设计类型等具体情况而定。

调查数据的分析策略按照变量类型计量资料的统计分析计数资料的统计分析
通常可采用平均数、标准差等指标进行描述，并用统计表或图表达统计结果。可用t检验，方差分析，相关与回归分析等常用的基本统计分析方法。计数资料的统计分析可采用率、构成比等指标进行描述，并用频数表表达统计结果。可用2 检验，秩和检验、二项分布、Poission分布、相关与回归分析等统计分析方法。

图1 数值变量的分析程序图2 分类变量的分析程序分类变量单因素分析多因素分析 2检验分层分析 Logistic 回归分析
COX回归分析其他分析方法数值变量正态性检验变量转换正态非正态参数检验非参数检验图1 数值变量的分析程序图2 分类变量的分析程序

调查数据的分析策略按照研究目的比较组间结局的差异分析变量之间的相互关系研究事件（疾病）与危险因素的关联
可用t检验，2 检验，方差分析等分析变量之间的相互关系采用相关与回归分析研究事件（疾病）与危险因素的关联需要计算危险度（OR,RR,AR等）

调查数据的分析策略按照研究设计类型完全随机设计随机区组设计（或配对设计）两独立样本的t检验或完全随机设计的方差分析

普查数据分析思路统计应调查人数、实际调查人数，描述漏查率和应答率；
描述调查对象的社会人口学特征，如性别、年龄、民族等基本构成。定量变量采用均数±标准差描述，定性变量采用构成比（百分比）描述；统计调查人群的总体指标，如描述总体的患病率、感染率等频率指标；按社会人口学特征或暴露与否分组，描述疾病和健康状态相关频率指标；或按疾病有无描述暴露的构成比；并进行分层和对比分析。

抽样调查数据分析思路一般描述：包括抽样方法、设计样本量、调查样本量、应答率和样本人群的社会人口学特征等。统计描述：
计算有关统计指标，包括患病率、感染率、暴露率等频率指标及其95%的可信区间，计量资料的均数、标准差或百分位数等。结合频率指标，通过图表或文字，按时间、地区和人群描述疾病或健康状态的分布。可先按某个因素分层描述，再按多个因素综合描述。关联分析：对暴露和疾病的关系可作初步的关联分析如计量资料的比较采用t检验或方差分析（ANOVA），率的比较采用χ2检验或u检验。也可选择适当的自变量和因变量进行多因素分析，关联的统计推断采用χ2检验或Logistic回归分析。

Logistic回归 Logistic回归是一个较好的，目前常用的，控制混杂因素的多因素分析方法。
Logistic回归中y呈现为二值变量形式。如发病与不发病，死与活,成功与失败,阳性与阴性, 等等。当应变量只取二个数值时常记为1与0。 Y=1：反应，如：发病，死亡，成功 Y=0：不反应，如：不发病，存活，不成功

Y: 反应变量（response variable)，或应变量
X:自变量，协变量(covariate)，或解释(explanatory)变量，伴随变量等，X可以呈现分类型变量，也可以是连续型变量。 logistic回归是一种概率模型。设P为Y=1的概率，P=P(Y=1)，则Q=1-P，为呈现非反应值的概率，Q=P(Y=0)。 P与各协变量Xp之间的关系可用下式表示。

发病的概率： P(y=1︱x)= ① 不发病的概率： Q(y=0︱x)=1-P= P/(1-P)= ②
定义z=ln[P/(1-P)]为logit变换,它是比数的自然对数值,则有 ②

Logistic回归的应用在队列研究中用于预测:把各协变量代入方程，得到P值，即发病的概率。
因素关联分析：分析哪些因素（协变量）对疾病的发生有显著作用。对各偏回归系数作显著性检验，如显著，则说明在排除其它因素的影响后，该因素与发病有显著关系。求各因素在排除其它因素的影响后，对于发病的相对危险度（或比数比）比较各因素对于发病的相对重要性:比较各标准化偏回归系数bi绝对值的大小，绝对值大的对发病的作用也大。

协变量筛选方法

说明：前进法、后退法的侧重点不同。当自变量之间不存在简单线性相关关系时，两种方法计算的结果时一致的。当自变量间存在一定的简单线性相关关系时，前进法侧重于向模型中引入单独作用较强的变量，后退法侧重于向模型中引入联合作用较强的变量。

编码等级高的为后

估计模型的拟合优度显示OR的 95%可信区间协变量引入或删除的概率标准

个体处理综合表应变量编码表分类变量编码表

模型总体检验

OR值偏回归系数常数项 OR值95%可信区间

学到手的才是知识靠天靠地不如靠双手问师问友最好问己心

现场调查数据的处理分析 Survey Data Analysis

Similar presentations

Presentation on theme: "现场调查数据的处理分析 Survey Data Analysis"— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

现场调查数据的处理分析 Survey Data Analysis

Similar presentations

Presentation on theme: "现场调查数据的处理分析 Survey Data Analysis"— Presentation transcript:

Similar presentations

About project

反馈