现场调查数据的处理分析 Survey Data Analysis

Slides:



Advertisements
Similar presentations
00003-E-1 – December 2005 《 2005 年艾滋病流行最新报告》部分数据摘要 联合国艾滋病规划署和世界卫生组织 2005 年 11 月 21 日 报告全文(英文)可以从联合国艾滋病规划署网站 获得
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
吴志强 信息管理学院 讲座:SPSS使用方法 吴志强 信息管理学院
科研设计的统计学原则 高月求.
Logistic回归分析 汕大医学院预防医学教研室.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
实习19 流行病学数据分析常用软件.
初级会计电算化 (用友T3) 制作人:张爱红.
证券投资技术分析.
第三章 数据类型和数据操作 对海量数据进行有效的处理、存储和管理 3.1 数据类型 数据源 数据量 数据结构
完全随机设计多样本资料秩和检验.
医学期刊统计学审稿 应注意的问题 卫生统计学教研室 易 东.
UI(用户界面)集训班 Illustrator 高级班.
糖尿病流行病学.
科研数据的种类 及处理方法 广东省心血管病研究所 麦劲壮.
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
全国计算机等级考试 二级基础知识 第二章 程序设计基础.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
ACD/ChemSketch软件在有机化学教学中的简单应用
R in Enterprise Environment 企业环境中的R
现场调查问卷的数据管理 Survey Data Management
SOA – Experiment 3: Web Services Composition Challenge
管理信息结构SMI.
全国高校数学微课程教学设计竞赛 知识点名称: 导数的定义.
走进编程 程序的顺序结构(二).
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第十章 方差分析.
数据挖掘工具性能比较.
1085至1125年间的官员地域分布与社会关系 1.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯 流行病与卫生统计学教研室
第七章 参数估计 7.3 参数的区间估计.
医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
消防人員土石流防救災訓練之效益 研究-以台中市消防局為例
C语言程序设计 主讲教师:陆幼利.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
微机系统的组成.
SPSS for Windows简介 电子工业出版社.
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
模型分类问题 Presented by 刘婷婷 苏琬琳.
VisComposer 2019/4/17.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第六章 Excel的应用 一、Excel的单元格与区域 1、单元格:H8, D7, IV26等 2、区域:H2..D8, HS98:IT77
第4章 Excel电子表格制作软件 4.4 函数(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
3.16 枚举算法及其程序实现 ——数组的作用.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
2019/5/8 第2章 数据分析软件介绍.
Chapter 18 使用GRASP的对象设计示例.
Visual Basic程序设计 第13章 访问数据库
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
概率论与数理统计B.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
滤波减速器的体积优化 仵凡 Advanced Design Group.
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
Volterra-Lotka方程 1925年, A. Lotka(美)和V. Volterra(意)给出了第一个两物种间的捕食模型。
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
数据库管理软件简介与 EpiData软件应用
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

现场调查数据的处理分析 Survey Data Analysis 流行病教研组 流行病与卫生统计学教研室

主要内容 常用统计学软件介绍 调查数据的分析策略 Logistic回归介绍

研究设计 设计“问卷” 实施调查 收集数据 数据录入 分析资料 分析数据 数据管理 结果解释 …… 撰写论文

常用统计分析软件 Epi Info SAS STATA SPSS EpiCalc …… 数据分析

SAS

SAS系统全称为Statistics Analysis System,最早由北卡罗来纳大学的两位生物统计学研究生编制,并于1976年成立了SAS软件研究所,正式推出了SAS软件。 缺点:高昂的价格 、不太友好的界面、非统计学专业人员不容易上手!

STATA

Stata是一个用于分析和管理数据的功能强大又小巧玲珑的实用统计分析软件,由美国计算机资源中心(Computer Resource Center)研制。 从1985至1998的十四年时间里,已连续推出1.1,1.2,1.3,1.4,1.5,……及2.0,2.1,3.0,3.1,4.0,5.0,6.0等多个版本,通过不断更新和扩充,内容日趋完善。 它同时具有数据管理软件、统计分析软件、绘图软件、矩阵计算软件和程序语言的特点,又在许多方面别具一格。Stata融汇了上述程序的优点,克服了各自的缺点,使其功能更加强大,操作更加灵活、简单,易学易用,越来越受到人们的重视和欢迎。

Stata的突出特点是只占用很少的磁盘空间,输出结果简洁,所选方法先进,内容较齐全,制作的图形十分精美,可直接被图形处理软件或文字处理软件如WORD等直接调用。

SPSS

SPSS是软件英文名称的首字母缩写,原意为Statistical Package for the Social Sciences,即“社会科学统计软件包”。最近,伴随SPSS产品服务领域的扩大和服务深度的增加,SPSS公司已决定将之英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在作出重大调整。  20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。 缺点:SPSS采用VB编制,计算速度也远远慢于其他统计软件;其输出结果虽然漂亮,但不能和WORD等常用文字处理软件直接兼容。这些都可以说是SPSS的致命伤。多水平统计模型等问题方面存在一定问题。

Epi Info v3.3 http://www.cdc.gov/epiinfo/downloads.htm

最新版本: Epi InfoTM Version3.3 开发: (1)WHO的艾滋病全球控制小组 (2)美国CDC流行病学室 免费获得 (1)http://www.cdc.gov (2)http://www.epiinfo.it/epiinfo3.asp 最新版本: Epi InfoTM Version3.3

基本流程 空白调查表 编 码 Enter (.Rec) 建立调查表(.Qes) Make View 原始资料 Data1 双重输入 Analyze 统计分析 比较 修改 生成数据库 Data2 生成逻辑检查文件(.Chk) Check Validation

调查数据的分析策略 选择合适的数据管理与分析软件 资料的核对 资料的整理 资料的统计分析

调查数据的分析策略 选择合适的数据管理与分析软件 如:SAS、SPSS、Epi-Info、STATA

调查数据的分析策略 资料的核对 检查数据的结构 检查数据的完整性 检查各变量的取值情况 观测数,变量名称、数量 失访数据(缺失数据) ① 查阅原始资料纠正;② 剔除观察记录;③ 用统计学方法填补缺失值 检查各变量的取值情况 数值变量:最小值, 最大值,均值,中位数,发现异常值 分类变量:检测变量编码的一致性 其它发现异常的方法:图示法,回归诊断等

调查数据的分析策略 资料的整理(1) 数据的分组 分类变量/有序变量 数值变量 按照实际的类别进行分组 若有必要和合理,可将性质相近的类别合并 数值变量 按照实际的生理,病理,临床和公共卫生意义分组 分位数分组 如:四分位数,五分位数 使用的方便程度/专业惯例分组 例:年龄在某一适宜范围内每5或10岁一组

调查数据的分析策略 资料的整理(2) 数据的转换 非正态数据的变量转换 分类变量转换为哑变量 正态性(normality)检验 Univariate过程 Q-Q plot 对数、平方根和倒数变换 分类变量转换为哑变量

哑变量 在回归分析中,一般需要将多分类变量转换成多个二分类变量之后,才能将它们引入回归模型。将多分类变量转换得到的多个二分类变量称为哑变量。

比如:要分析不同年龄(X1)、居住地区(X2)、文化程度(X3)对妇女曾生子女个数(Y)的影响。 文化程度共有5类别,原始数据库中用数字1至5分别代表文盲、小学、初中、高中和大专及以上。取文盲为参照类,用哑变量D2, D3, D4, D5分别代表小学、初中、高中和大专及以上。根据原变量编码形成相应哑变量时的赋值为: 即: X3=1 (文盲) D2=0, D3=0, D4=0, D5=0 X3=2 (小学) D2=1, D3=0, D4=0, D5=0 X3=3 (初中) D2=0, D3=1, D4=0, D5=0 X3=4 (高中) D2=0, D3=0, D4=1, D5=0 X3=5 (大专及以上) D2=0, D3=0, D4=0, D5=1 Y=b0+b1X1+b2X2+b3D2+b4D3+b5D4+b6D5

调查数据的分析策略 资料的统计分析 统计描述 统计推断 如何抽样,如何由样本信息推断总体特征的问题。 以统计表、统计图及其他现象化的方式对资料的数量特征及其分布规律进行测定和描述,但不涉及P值、可信区间等由样本推论总体的问题。 统计推断 如何抽样,如何由样本信息推断总体特征的问题。 注意:统计方法的选择要根据收集资料的类型、研究的目的,研究设计类型等具体情况而定。

调查数据的分析策略 按照变量类型 计量资料的统计分析 计数资料的统计分析 通常可采用平均数、标准差等指标进行描述,并用统计表或图表达统计结果。 可用t检验,方差分析,相关与回归分析等常用的基本统计分析方法。 计数资料的统计分析 可采用率、构成比等指标进行描述,并用频数表表达统计结果。 可用2 检验,秩和检验、二项分布、Poission分布、相关与回归分析等统计分析方法。

图1 数值变量的分析程序 图2 分类变量的分析程序 分类变量 单因素分析 多因素分析 2检验 分层分析 Logistic 回归分析 COX回归分析 其他分析方法 数值变量 正态性检验 变量转换 正态 非正态 参数检验 非参数检验 图1 数值变量的分析程序 图2 分类变量的分析程序

调查数据的分析策略 按照研究目的 比较组间结局的差异 分析变量之间的相互关系 研究事件(疾病)与危险因素的关联 可用t检验,2 检验,方差分析等 分析变量之间的相互关系 采用相关与回归分析 研究事件(疾病)与危险因素的关联 需要计算危险度(OR,RR,AR等)

调查数据的分析策略 按照研究设计类型 完全随机设计 随机区组设计(或配对设计) 两独立样本的t检验或完全随机设计的方差分析

普查数据分析思路 统计应调查人数、实际调查人数,描述漏查率和应答率; 描述调查对象的社会人口学特征,如性别、年龄、民族等基本构成。定量变量采用均数±标准差描述,定性变量采用构成比(百分比)描述; 统计调查人群的总体指标,如描述总体的患病率、感染率等频率指标; 按社会人口学特征或暴露与否分组,描述疾病和健康状态相关频率指标;或按疾病有无描述暴露的构成比;并进行分层和对比分析。

抽样调查数据分析思路 一般描述:包括抽样方法、设计样本量、调查样本量、应答率和样本人群的社会人口学特征等。 统计描述: 计算有关统计指标,包括患病率、感染率、暴露率等频率指标及其95%的可信区间,计量资料的均数、标准差或百分位数等。 结合频率指标,通过图表或文字,按时间、地区和人群描述疾病或健康状态的分布。可先按某个因素分层描述,再按多个因素综合描述。 关联分析:对暴露和疾病的关系可作初步的关联分析 如计量资料的比较采用t检验或方差分析(ANOVA),率的比较采用χ2检验或u检验。也可选择适当的自变量和因变量进行多因素分析,关联的统计推断采用χ2检验或Logistic回归分析。

Logistic回归 Logistic回归是一个较好的,目前常用的,控制混杂因素的多因素分析方法。 Logistic回归中y呈现为二值变量形式。如发病与不发病,死与活,成功与失败,阳性与阴性, 等等。当应变量只取二个数值时常记为1与0。 Y=1: 反应,如: 发病,死亡,成功 Y=0:不反应,如:不发病,存活,不成功

Y: 反应变量(response variable),或应变量 X:自变量,协变量(covariate),或解释(explanatory)变量,伴随变量等,X可以呈现分类型变量,也可以是连续型变量。 logistic回归是一种概率模型。 设P为Y=1的概率,P=P(Y=1),则Q=1-P,为呈现非反应值的概率,Q=P(Y=0)。 P与各协变量Xp之间的关系可用下式表示。

发病的概率: P(y=1︱x)= ① 不发病的概率: Q(y=0︱x)=1-P= P/(1-P)= ② 定义z=ln[P/(1-P)]为logit变换,它是比数的自然对数值,则有 ②

Logistic回归的应用 在队列研究中用于预测:把各协变量代入方程,得到P值,即发病的概率。 因素关联分析:分析哪些因素(协变量)对疾病的发生有显著作用。对各偏回归系数作显著性检验,如显著,则说明在排除其它因素的影响后,该因素与发病有显著关系。 求各因素在排除其它因素的影响后,对于发病的相对危险度(或比数比) 比较各因素对于发病的相对重要性:比较各标准化偏回归系数bi绝对值的大小,绝对值大的对发病的作用也大。

协变量筛选方法

说明: 前进法、后退法的侧重点不同。当自变量之间不存在简单线性相关关系时,两种方法计算的结果时一致的。当自变量间存在一定的简单线性相关关系时,前进法侧重于向模型中引入单独作用较强的变量,后退法侧重于向模型中引入联合作用较强的变量。

编码等级 高的为后

估计模型的 拟合优度 显示OR的 95%可信区间 协变量引入或删 除的概率标准

个体处理综合表 应变量编码表 分类变量编码表

模型总体检验

OR值 偏回归系数 常数项 OR值95%可信区间

学到手的才是知识 靠天靠地不如靠双手 问师问友最好问己心