基于SPSS的数据分析(上) ——高雅
SPSS统计分析软件概述 SPSS for Windows/SPSS for IOS SPSS更新至22.0版本,已推出汉化版 SPSS又名社会科学统计包(Statistical Package for the Social Science),是世界著名的统计分析软件之一。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,并成立SPSS公司。 SPSS for Windows/SPSS for IOS SPSS更新至22.0版本,已推出汉化版
主界面介绍
数据分析的基本步骤 数据分析的基本步骤 SPSS 明确数据分析目标 正确收集数据 建立数据文件 加工和整理数据 选择恰当的统计分析方法进行探索分析 读懂统计分析结果 建立数据文件 加工整理数据 数据分析 解释分析结果
SPSS讲座大纲 一.SPSS数据文件的建立和管理 二.SPSS数据的预处理 三.基本统计分析 四.如何选择正确的统计方法 数据分析 解释分析结果
SPSS讲座大纲 一.SPSS数据文件的建立和管理 二.SPSS数据的预处理 三.基本统计分析 四.如何选择正确的统计方法 数据分析 解释分析结果
一.SPSS数据文件的建立和管理 一.SPSS数据的结构和定义方法 变量视图窗口(Variable View) 编辑变量名,定义数据类型、列宽、小数位宽、缺失数据、变量名标签、变量值标签、计量尺度等 展开: 1.定义用户缺失值 2.变量值标签 3.计量尺度
明显错误以及漏填的数据都可以看做缺失数据 用户缺失值 可以是1~3个特定的离散值、或者一个封闭区间 系统缺失值 用“.”表示 缺失值(Missing)分为 明显错误以及漏填的数据都可以看做缺失数据 用户缺失值 可以是1~3个特定的离散值、或者一个封闭区间 系统缺失值 用“.”表示 待分析的数据中存在大量的缺失值,会对分析产生重大影响,因此,在数据分析之前通常需要对缺失数据进行必要的处理。如EM法或回归法。
重点 计量尺度(Measure)分为 定距型数据(Scale) 如身高、体重、血压/人数、商品件数 定序型数据(Ordinal) 如职称等级、文化程度 定类型数据(Nominal) 如性别、血型、婚姻状况 变量类型分为 定量变量 定性变量 连续变量 离散变量 重点 有序变量 分类变量
不可逆的过程,转化后标注(values) 变量类型的转化: 定量变量(连续型/离散型数值) 如年龄、BMI 少儿组、青年组、中年组、老年组 定性变量(有序多分类变量) 正常、超重、肥胖 非老年组、老年组 定性变量(二分类变量) 正常组、超重组 不可逆的过程,转化后标注(values)
一.SPSS数据文件的建立和管理 二.SPSS数据文件的合并 纵向合并数据文件 Data Merge File Add Cases 合并依据:相同的变量名 纵向合并数据文件 *表示该变量是当前数据编辑窗口中的变量 +表示该变量是即将合并的文件中的变量 Data Merge File Add Cases
同名变量,作为合并后新数据文件的变量 不同变量名 若变量名不同,但含义相同: Pair:变量配对 Rename:变量改名
横向合并数据文件 Data Merge File Add Variables 合并依据:相同的变量名,称关键变量 两个数据文件必须都按关键变量值升序排序 横向合并数据文件 *表示该变量是当前数据编辑窗口中的变量 +表示该变量是即将合并的文件中的变量 Data Merge File Add Variables
所有变量 由两个数据文件中的个案共同组成合并后的数据文件 关键变量 查看个案来源的数据文件 若变量名不同,但含义相同: Pair:变量配对 Rename:变量改名
二.SPSS数据的预处理 1.变量排序 2.变量分组 3.数据选取 4.数据分裂 5.计数处理 6.分类汇总
一.变量排序 用途 操作 Data Sort Cases 1.便于数据浏览,了解数据的取值情况、缺失值数量等; 2.能够快捷找到数据的最大值和最小值,进而可以计算全距,初步把握数据的离散程度; 3.快捷地发现数据的异常值,为进一步明确它们是否对分析产生重要影响等提供帮助 操作 Data Sort Cases 制定排序变量到[Sort by]框中,在[Sort Order]框中指定排序方式 [Ascending]升序,[Descending]降序
二.变量分组 操作 Rransform Recode into Different Variables 将定量变量分组,是对数据进行整理和粗略把握数据分布的重要工具。 1.定量变量转化为定性变量。 2.在数据分组的基础上进行频数分析。 例如:将连续型变量(年龄)转换为分类的有序变量(20-30、30-40、40-50、50-60、60-70岁五个组) 分组原则:1.依据行业规范;2.组距分组规则 组数K=1+ln(n)/ln(2),n为数据个数 组距=(max-min)/K 操作 Rransform Recode into Different Variables
插入一个新变量,在变量视图中修改变量名
年龄分组完成! 技巧1:可先将待分组变量按升序/降序排列,观察最大值和最小值,在进行分组。 技巧2:定义变量值,方便以后查看不同组代表的含义。 按键可在变量值与变量值标签间互相切换
三.数据选取 操作 Data Select Cases 从已收集的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析,也称样本抽样。 目的:1.提高数据分析效率;2.检验模型的需要 例如:只想了解某一特定群体的特征,如“住房状况调查数据”,仅对具有本市户口的家庭住房状况进行分析,或者对全部样本的70%的数据进行分析。 操作 Data Select Cases 若要选择多分类,可将条件组合,[|]表示或;[&]表示且
四.数据分裂 针对某一变量的部分子集,做亚组分析——Select Cases 针对某一变量的全子集,做亚组分析——Split Cases
五.计数处理 操作 Transform Count Values within Cases 对所有个案或满足某条件的部分个案,计算有多少个变量的值落在指定的区间内,并将计算结果存入一个新变量中的过程。 步骤: 1.指定哪些变量参与计数,计数结果存入哪个新变量中 2.指定计数区间。 例如: 分析被调查家庭中有多少比例的家庭对目前的住房满意且近3年不准备购买住房。 操作 Transform Count Values within Cases 若要选择多分类,可将条件组合,[|]表示或;[&]表示且
存放计数结果的变量名 参与计数的变量
Analyze Descriptive Statistics Frequencies
六.分类汇总 操作 Data Aggregate 确定分类变量和汇总变量: 1.按照哪个变量(如学历、职业、年龄)进行分类; 2.对哪个变量(如基本工资、消费金额、血压)进行汇总,并指定对汇总变量计算哪些统计量(平均数、中位数等)。 例如: 分析本市户口和外地户口家庭目前人均住房面积的平均值是否有较大差距,未来打算购买住房的平均面积是否有较大差距。 操作 Data Aggregate
三.基本统计分析 一. 基本描述统计量 均值(Mean) 中位数(Median) 众数(Mode) 1.刻画集中趋势的描述统计量 集中趋势是指一组数据向某一中心值靠拢的倾向。计算刻画集中趋势的描述统计量正是要寻找能够反映数据一般水平的“代表值”或“中心值”。 均值(Mean) 中位数(Median) 众数(Mode)
样本标准差(Standard Deviation : Std Dev) 四分位间距(Quartile Interval Range) 2.刻画离散程度的描述统计量 离散程度是指一组数据远离其中心值的程度。如果数据紧密地集中在中心值的周围,即数据的离散程度较小,则说明中心值对数据的代表性好;相反,如果数据较松散地分布在中心值周围,即数据的离散程度较大,则表明中心值不具有代表性。 样本标准差(Standard Deviation : Std Dev) 四分位间距(Quartile Interval Range) 全距(Range)
偏度系数(Skewness) 峰度系数(Kurtosis) 3.刻画分布形态的描述统计量 数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡缓程度等。 偏度系数(Skewness) 峰度系数(Kurtosis)
二. 在SPSS中计算基本描述统计量 1.定量资料 操作 Analyze Descriptive Statistics Descriptives 例1:利用住房状况问卷调查数据,分析家庭人均住房面积的基本情况
正态分布检验 若随机变量X服从均值为μ,标准差为σ的高斯分布,记做X~N(μ,σ2)。 均值μ决定了其位置,方差决定了分布幅度。 当μ=0,σ=1时,该正态分布又称标准正态分布。 特点: 1.关于μ对称,并在μ处取最大值; 2.在正负无穷大时取值为0; 3.在μ±σ处有拐点
正态与非正态分布的统计学应用 适用范围:定量资料,如年龄、糖化血红蛋白值、BMI等 区别1:正态与非正态分布资料对假设检验要求不同。正态分布一般用参数检验(如T检验等),而非正态分布资料则要求用非参数检验。不合适的检验,有时会影响到检验结果。 区别2:正态资料一般采用平均数±标准差表示;非正态资料建议采用四分位数(四分位数间距IQR)表示,必要时提供range。
一图三表 定量资料 定性资料 实验流程图、基线资料表、单因素表、多因素表 基线表中的常见问题: 1.基线表中定量资料都采用mean±SD的形式,未必完全妥当; 2.基线数据不充分是中文文章的常见问题 基线表一般包括: 人口学资料(年龄、性别、BMI…)、现病史、合并症、既往史(既往诊断和治疗状况,药物使用情况、分类、剂量、周期)和危险因素等 定量资料 正态分布:均值±标准差 非正态分布:中位数(IQR) 定性资料 频数、百分比
例2:分析本市户口和外地户口家庭人均住房面积的基本情况 正态分布检验 例2:分析本市户口和外地户口家庭人均住房面积的基本情况 解决方案一:拆分数据—计算基本描述统计量
Descriptive Statistics Explore 解决方案二: Analyze Descriptive Statistics Explore 样本量>2000 样本量<2000
解读检验结果: 两种检验方法(K-S检验和S-W检验)的结果,其实暂时没有所谓的严格标准,在SAS中K-S检验一般适用于样本量>2000,S-W检验用于2000以内的样本。在SPSS中比较复杂,一般样本量50以内采用S-W检验,对于无权重或整数权重,在加权样本大小位于3-5000之间也可以采用。 P >0.05代表服从正态分布。
二. 在SPSS中计算基本描述统计量 2.定性资料 1.频数(Frequency) 变量值落在某个区间(或某个类别)中的次数 2.百分比(Percent) 各频数占总样本量的百分比 3.统计图 柱形图或条形图(Bar Chart) 饼图(Pir Chart) 直方图(Histograms)
二. 在SPSS中计算基本描述统计量 2.定性资料 操作 Analyze Descriptive Statistics Frequencies 例3:利用住房状况问卷调查数据,分析户主的从业状况和目前所住房屋的产权情况。
例4:利用住房状况问卷调查数据,分析人均住房面积的分布情况,并对本市户口和外地户口家庭进行比较。 分析思路: 1.先对数据拆分,分别计算本市户口和外地户口的人均住房面积,通过四分位数比较两者分布上的差异。 2.考虑数据跨度较大,应对数据进行分组,(0-10、10-20、20-30、30-40、>40,共5组)绘制频率表和直方图,分析本市户口和外地户口的家庭人居住房面积的情况
四.统计方法那么多,怎么选? 三个“3”原则: 第一个“3”——数据类型:定量、定性、time-to-event 第二个“3”——组别数量:单组、两组、多组 第三个“3”——组间关系:独立、配对、重复测量
定量资料: 数据 分组 NO 非参数检验 正态性检验 YES 组的数目 两组 多组 P<0.05只能证明多组中至少两组存在显著差异 T检验 方差分析 受试者来源 (受试者是否相同) 两两检验:post-hoc检验 包括LSD/Bonferrony/Tukey 配对T检验 独立样本T检验
定量资料总结: 正态资料: 非正态资料(非参数检验): 独立T检验、配对T检验、方差分析(ANOVA)、一般线性模(GLM) 2组检验 多组检验 非正态资料(非参数检验): Mann-Whitney U检验、Wilcoxon检验、Cruskal-Wallis H检验、Kendall’s W检验 2独立样本 2配对样本 多独立样本 多配对样本
定性资料: 表格类型 数据类型及属性 四格表 一般四格表 配对四格表 列联表 (R*C表) X.Y均为分类变量且属性不同 卡方检验 Kappa检验、McNemar检验 列联表 (R*C表) X.Y均为分类变量且属性不同 X为分类变量、Y为有序变量 X.Y均为有序变量且属性不同 X.Y均为有序变量且属性相同 双向无序表 单向有序表 双向有序表 卡方检验、Fisher精确检验 秩和检验 组间差异:秩和检验 XY相关性:Spearman秩相关 线性规律:线性趋势模型 一致性检验:Kappa检验
定性资料总结: 无序分类资料(计数):Crosstab(无序——卡方检验) 有序等级资料:非参数检验 相关分析:Spearman等级相关 Y为二分类独立变量:非条件Logistic回归 Y为二分类配对变量:条件Logistic回归
谢谢大家!