Download presentation
Presentation is loading. Please wait.
1
现场调查数据的处理分析 Survey Data Analysis
流行病教研组 流行病与卫生统计学教研室
2
主要内容 常用统计学软件介绍 调查数据的分析策略 Logistic回归介绍
3
研究设计 设计“问卷” 实施调查 收集数据 数据录入 分析资料 分析数据 数据管理 结果解释 …… 撰写论文
4
常用统计分析软件 Epi Info SAS STATA SPSS EpiCalc …… 数据分析
5
SAS
6
SAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。
缺点:高昂的价格 、不太友好的界面、非统计学专业人员不容易上手!
7
STATA
8
Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。
从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1.5,……及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。 它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。
9
Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或文字处理软件如WORD等直接调用。
10
SPSS
11
SPSS是软件英文名称的首字母缩写,原意为Statistical Package for the Social Sciences,即“社会科学统计软件包”。最近,伴随SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已决定将之英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在作出重大调整。 20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。 缺点:SPSS采用VB编制,计算速度也远远慢于其他统计软件;其输出结果虽然漂亮,但不能和WORD等常用文字处理软件直接兼容。这些都可以说是SPSS的致命伤。多水平统计模型等问题方面存在一定问题。
12
Epi Info v3.3
13
最新版本: Epi InfoTM Version3.3
开发: (1)WHO的艾滋病全球控制小组 (2)美国CDC流行病学室 免费获得 (1) (2) 最新版本: Epi InfoTM Version3.3
14
基本流程 空白调查表 编 码 Enter (.Rec) 建立调查表(.Qes) Make View 原始资料 Data1 双重输入
Analyze 统计分析 比较 修改 生成数据库 Data2 生成逻辑检查文件(.Chk) Check Validation
21
调查数据的分析策略 选择合适的数据管理与分析软件 资料的核对 资料的整理 资料的统计分析
22
调查数据的分析策略 选择合适的数据管理与分析软件 如:SAS、SPSS、Epi-Info、STATA
23
调查数据的分析策略 资料的核对 检查数据的结构 检查数据的完整性 检查各变量的取值情况 观测数,变量名称、数量 失访数据(缺失数据)
① 查阅原始资料纠正;② 剔除观察记录;③ 用统计学方法填补缺失值 检查各变量的取值情况 数值变量:最小值, 最大值,均值,中位数,发现异常值 分类变量:检测变量编码的一致性 其它发现异常的方法:图示法,回归诊断等
24
调查数据的分析策略 资料的整理(1) 数据的分组 分类变量/有序变量 数值变量 按照实际的类别进行分组
若有必要和合理,可将性质相近的类别合并 数值变量 按照实际的生理,病理,临床和公共卫生意义分组 分位数分组 如:四分位数,五分位数 使用的方便程度/专业惯例分组 例:年龄在某一适宜范围内每5或10岁一组
25
调查数据的分析策略 资料的整理(2) 数据的转换 非正态数据的变量转换 分类变量转换为哑变量 正态性(normality)检验
Univariate过程 Q-Q plot 对数、平方根和倒数变换 分类变量转换为哑变量
26
哑变量 在回归分析中,一般需要将多分类变量转换成多个二分类变量之后,才能将它们引入回归模型。将多分类变量转换得到的多个二分类变量称为哑变量。
27
比如:要分析不同年龄(X1)、居住地区(X2)、文化程度(X3)对妇女曾生子女个数(Y)的影响。
文化程度共有5类别,原始数据库中用数字1至5分别代表文盲、小学、初中、高中和大专及以上。取文盲为参照类,用哑变量D2, D3, D4, D5分别代表小学、初中、高中和大专及以上。根据原变量编码形成相应哑变量时的赋值为: 即: X3=1 (文盲) D2=0, D3=0, D4=0, D5=0 X3=2 (小学) D2=1, D3=0, D4=0, D5=0 X3=3 (初中) D2=0, D3=1, D4=0, D5=0 X3=4 (高中) D2=0, D3=0, D4=1, D5=0 X3=5 (大专及以上) D2=0, D3=0, D4=0, D5=1 Y=b0+b1X1+b2X2+b3D2+b4D3+b5D4+b6D5
28
调查数据的分析策略 资料的统计分析 统计描述 统计推断 如何抽样,如何由样本信息推断总体特征的问题。
以统计表、统计图及其他现象化的方式对资料的数量特征及其分布规律进行测定和描述,但不涉及P值、可信区间等由样本推论总体的问题。 统计推断 如何抽样,如何由样本信息推断总体特征的问题。 注意:统计方法的选择要根据收集资料的类型、研究的目的,研究设计类型等具体情况而定。
29
调查数据的分析策略 按照变量类型 计量资料的统计分析 计数资料的统计分析
通常可采用平均数、标准差等指标进行描述,并用统计表或图表达统计结果。 可用t检验,方差分析,相关与回归分析等常用的基本统计分析方法。 计数资料的统计分析 可采用率、构成比等指标进行描述,并用频数表表达统计结果。 可用2 检验,秩和检验、二项分布、Poission分布、相关与回归分析等统计分析方法。
30
图1 数值变量的分析程序 图2 分类变量的分析程序 分类变量 单因素分析 多因素分析 2检验 分层分析 Logistic 回归分析
COX回归分析 其他分析方法 数值变量 正态性检验 变量转换 正态 非正态 参数检验 非参数检验 图1 数值变量的分析程序 图2 分类变量的分析程序
31
调查数据的分析策略 按照研究目的 比较组间结局的差异 分析变量之间的相互关系 研究事件(疾病)与危险因素的关联
可用t检验,2 检验,方差分析等 分析变量之间的相互关系 采用相关与回归分析 研究事件(疾病)与危险因素的关联 需要计算危险度(OR,RR,AR等)
32
调查数据的分析策略 按照研究设计类型 完全随机设计 随机区组设计(或配对设计) 两独立样本的t检验或完全随机设计的方差分析
33
普查数据分析思路 统计应调查人数、实际调查人数,描述漏查率和应答率;
描述调查对象的社会人口学特征,如性别、年龄、民族等基本构成。定量变量采用均数±标准差描述,定性变量采用构成比(百分比)描述; 统计调查人群的总体指标,如描述总体的患病率、感染率等频率指标; 按社会人口学特征或暴露与否分组,描述疾病和健康状态相关频率指标;或按疾病有无描述暴露的构成比;并进行分层和对比分析。
34
抽样调查数据分析思路 一般描述:包括抽样方法、设计样本量、调查样本量、应答率和样本人群的社会人口学特征等。 统计描述:
计算有关统计指标,包括患病率、感染率、暴露率等频率指标及其95%的可信区间,计量资料的均数、标准差或百分位数等。 结合频率指标,通过图表或文字,按时间、地区和人群描述疾病或健康状态的分布。可先按某个因素分层描述,再按多个因素综合描述。 关联分析:对暴露和疾病的关系可作初步的关联分析 如计量资料的比较采用t检验或方差分析(ANOVA),率的比较采用χ2检验或u检验。也可选择适当的自变量和因变量进行多因素分析,关联的统计推断采用χ2检验或Logistic回归分析。
35
Logistic回归 Logistic回归是一个较好的,目前常用的,控制混杂因素的多因素分析方法。
Logistic回归中y呈现为二值变量形式。如发病与不发病,死与活,成功与失败,阳性与阴性, 等等。当应变量只取二个数值时常记为1与0。 Y=1: 反应,如: 发病,死亡,成功 Y=0:不反应,如:不发病,存活,不成功
36
Y: 反应变量(response variable),或应变量
X:自变量,协变量(covariate),或解释(explanatory)变量,伴随变量等,X可以呈现分类型变量,也可以是连续型变量。 logistic回归是一种概率模型。 设P为Y=1的概率,P=P(Y=1),则Q=1-P,为呈现非反应值的概率,Q=P(Y=0)。 P与各协变量Xp之间的关系可用下式表示。
37
发病的概率: P(y=1︱x)= ① 不发病的概率: Q(y=0︱x)=1-P= P/(1-P)= ②
定义z=ln[P/(1-P)]为logit变换,它是比数的自然对数值,则有 ②
38
Logistic回归的应用 在队列研究中用于预测:把各协变量代入方程,得到P值,即发病的概率。
因素关联分析:分析哪些因素(协变量)对疾病的发生有显著作用。对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与发病有显著关系。 求各因素在排除其它因素的影响后,对于发病的相对危险度(或比数比) 比较各因素对于发病的相对重要性:比较各标准化偏回归系数bi绝对值的大小,绝对值大的对发病的作用也大。
41
协变量筛选方法
43
说明: 前进法、后退法的侧重点不同。当自变量之间不存在简单线性相关关系时,两种方法计算的结果时一致的。当自变量间存在一定的简单线性相关关系时,前进法侧重于向模型中引入单独作用较强的变量,后退法侧重于向模型中引入联合作用较强的变量。
45
编码等级 高的为后
46
估计模型的 拟合优度 显示OR的 95%可信区间 协变量引入或删 除的概率标准
47
个体处理综合表 应变量编码表 分类变量编码表
48
模型总体检验
49
OR值 偏回归系数 常数项 OR值95%可信区间
50
学到手的才是知识 靠天靠地不如靠双手 问师问友最好问己心
Similar presentations