Presentation is loading. Please wait.

Presentation is loading. Please wait.

SPSS应用初阶(上) 主讲人:高雅 联系方式:gaoya@xmu.edu.cn.

Similar presentations


Presentation on theme: "SPSS应用初阶(上) 主讲人:高雅 联系方式:gaoya@xmu.edu.cn."— Presentation transcript:

1 SPSS应用初阶(上) 主讲人:高雅

2 01 SPSS软件介绍 02 界面及基本操作 03 数据文件的建立和管理 04 数据预处理 05 描述统计分析 content

3 /01 SPSS软件介绍

4 1.统计软件的作用 研究设计 数据收集 和整理 数据分析 结果报告 与决策 研究设计是统计分析的第一步,也是最重要的步骤。
统计分析软件是数据分析的主要工具 数据分析的主要步骤: 研究设计 数据收集 和整理 数据分析 结果报告 与决策 研究设计是统计分析的第一步,也是最重要的步骤。 依据研究目的,正确收集数据,进行数据整理和预处理 经历描述统计、简单分析和复杂推断的循环过程 依据结果和研究目的,运用专业知识,做结果报告或决策 统计学为数据分析过程提供一套完整的科学的方法论,统计软件为数据分析提供了实现手段。

5 01 02 03 2.SPSS发展简史 软件名称 最早:Statistical Package for Social Science
现在:IBM SPSS Statistics 软件发展 01 02 03 研发 成长 发展 60年代:美国斯坦福大学三位研究生研发 70年代:于芝加哥成立SPSS总部。 80年代:推出用于个人电脑的SPSS/PC+ 90年代:推出Windows版本(V6~10) 本世纪:被IBM公司并购,于2019年5月更新至SPSS26版,自22.0版后,中英可切换,每年一更新

6 3.SPSS基本特点 优势 劣势 兼容性好 数据量超过几十万条 计算速度慢(SAS相比) 易用性强 统计模型纳入速度较慢 扩展性高
支持多种格式文档为数据源 图片和结果能导出为多种文件格式 兼容性好 操作界面为对话框式,简便易学 非统计学领域应用广泛 易用性强 提供一定的扩展性,允许外部软件调用其算法,与R软件等软件互通 扩展性高 优势 劣势

7 /02 界面及基本操作入门

8 1.SPSS窗口简介 数据编辑窗口 数据视图:主操作界面 变量视图:定义变量 单元格编辑器 显示精确数值 不能直接输入公式 菜单栏
快捷工具栏 状态栏 快捷工具栏 单元格编辑器 数据视图/变量视图 状态栏 随时关注,显示数据集特殊状态,会影响随后的分析

9 1.SPSS窗口简介 结果浏览窗口 自动打开 大纲视图,可动态编辑 语法窗口
脚本窗口 高级用户进行SPSS二次平台开发时用

10 2.软件系统设置 界面语言 结果输出语言 查看器字体设定 文件打开与保存位置 …… 操作: 编辑-选项对话框

11 /03 数据文件的建立和管理

12 1.SPSS数据文件的特点 SPSS数据文件是一种有结构的数据文件

13 2.定义变量 展开: 1.定义用户缺失值 2.变量值标签 3.测量尺度 变量视图窗口
编辑变量名、定义数据类型、列宽、小数位宽、缺失数据、变量名标签、变量值标签、计量尺度等 展开: 1.定义用户缺失值 2.变量值标签 3.测量尺度

14 2.定义变量 缺失值(Missing)分为 用户缺失值 :用户选择拒填或不填的值,在系统中可以是1~3个特定的离散值、或者一个封闭区间
系统缺失值 :漏填的数据,在系统中用“.”表示 由于离群值和极端值对后续统计分析的建模过程和分析结果有较大影响,在统计分析之前应先对这些异常值和缺失值进行必要的检查,可以把有明显错误的数据定义为系统缺失值。 数据中的缺失值在后续的分析中不会被纳入分析,如果缺失值太多,会对分析结果产生影响,因此,分析前寻找缺失值出现的原因,可用EM法或回归法修正模型。

15 2.定义变量 变量名与变量值标签 变量名尽量用英文,8为长度以内,如果是调查问卷,可用变量名和变量值标签对含义进行说明,使结果更易于阅读
测量尺度 标度测量(Scale Measurement)温度、体重 有序测量(Ordinal Measurement)治愈程度、学历、职称 名义测量(Nominal Measurement)城市、血型 其他设置 均按默认值处理,一般不需要更改。

16 2.定义变量 低 定性 非数量型 名称级----定类变量 顺序级----定序变量 数量级----定距变量 定量 数量型 高 变量类别: 转换
离散型随机变量 定性 非数量型 名称级----定类变量 顺序级----定序变量 数量级----定距变量 转换 定量 数量型 连续型随机变量

17 3.数据打开与保存 操作步骤简单 设计变量-定义变量-输入数据 支持打开多种格式文件

18 4.数据合并 纵向合并数据文件 Data Merge File Add Cases 纵向合并(添加个案) 合并依据:相同的变量名
*表示该变量是当前数据编辑窗口中的变量 +表示该变量是即将合并的文件中的变量 Data Merge File Add Cases

19 4.数据合并 实例:将文件a.sav和b.sav合并

20 4.数据合并 横向合并数据文件 Data Merge File Add Variables 横向合并(添加变量)
合并依据:相同的变量名,称关键变量 两个数据文件必须都按关键变量值升序排序 横向合并数据文件 *表示该变量是当前数据编辑窗口中的变量 +表示该变量是即将合并的文件中的变量 Data Merge File Add Variables 默认是按照记录号顺序对应起来合并,由于在许多情况下是需要按照某个ID变量取值相同的原则进行对应和合并,此时就存在是否正确对应的问题,需要加以注意

21 4.数据合并 实例:将文件a.sav和c.sav合并

22 5.标识重复个案 数据菜单 - 标识重复个案 选择定义为重复个案的依据

23 /04 数据预处理

24 数据预处理 数据分裂 变量分组 数据的整理 – 排序、选取、数据分裂 数据的排列格式变换 – 加权、汇总
数据排序 计数处理 数据汇总 变量分组 数据分裂 筛选 加权 数据的整理 – 排序、选取、数据分裂 数据的排列格式变换 – 加权、汇总 数据整体趋势把握 – 计数、变量分组

25 1.数据排序 多个变量排序(按选入变量的先后进行排序) 操作:数据 – 个案排序 目的: 把握整体数据 易于发现输入错误(最大/最小值)
缺失值在排序中会排在最小值的前面, 因此可以快速找到缺失记录 单个变量排序 先选中一列 - 单击鼠标右键 – 升序/降序排序

26 2.数据选取 从已收集的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析。 目的:1.提高数据分析效率;2.检验模型的需要
注意取消! 从已收集的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析。 目的:1.提高数据分析效率;2.检验模型的需要

27 3.数据分裂 将数据文件分组进行处理 不拆分文件 按所选变量拆分文件,各组分析结果紧挨在一起便于相互比较
按所选变量拆分文件,各组分析结果单独放置 注意取消!

28 4.加权处理 分类资料数据录入格式 枚举格式 频数格式 只有先进行加权设定,统计软件才能正确识别和处理数据

29 5.分类汇总 确定分类变量和汇总变量: 1.按照哪个变量(如学历、职业、年龄)进行分类;
2.对哪个变量(如基本工资、消费金额、血压)进行汇总,并指定对汇总变量计算哪些统计量(平均数、中位数等)。 例:分Time月份和S0城市对CCSS案例数据中的变量index进行均数和标准差汇总,并将结果输出到新数据文件Sum_index1中

30 6.数据计数 对所有个案或满足某条件的部分个案,计算有多少个变量的值落在指定的区间内,并将计算结果存入一个新变量中的过程。 步骤:
作业:查找月收入超过6000以上的未婚女性个案 对所有个案或满足某条件的部分个案,计算有多少个变量的值落在指定的区间内,并将计算结果存入一个新变量中的过程。 步骤: 1.指定哪些变量参与计数,计数结果存入哪个新变量中 2.指定计数区间。 目的: 生成一个新变量,用于指示你所感兴趣的那些个案 操作:转换 – 对个案内的值计数 例:对年龄大于等于20岁的个案进行计数

31 7.变量分组 对连续变量进行分组 例:将年龄分为三组,每一组覆盖年龄范围分别为: 组1:小于35岁 组2:大于等于35岁,小于55岁
1.Recode into same variable 重编码入原来变量 2.Recode into different variable 重编码入一个新变量 建立变量名对应关系 例:将年龄分为三组,每一组覆盖年龄范围分别为: 组1:小于35岁 组2:大于等于35岁,小于55岁 组3:大于等于55岁 注意: 有重叠界值时,系统有完备的算法不会重复计算 但为了人员阅读方便,可人为划分界限 else设定,逻辑更完备 建立变量值对应关系

32 7.变量分组 3.可视离散化过程 用于在可视界面下将连续变量进行分段,该过程可以使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段,并采用图形化操作的方式,非常直观好用。 对年龄数值进行扫描,直接给出年龄直方图,观察分布形态 输入第一分割点位置和分割点数/宽度,另一个值将自动填补 快速甄别可疑的极大/极小值

33 7.变量分组 把变量根据分类变量的差异大小 做分组 例:把年龄变量按拥有汽车的情况来分组 4.最优离散化过程
是对前述可视化离散过程的进一步自动化,根据某些作为“关键指示变量”的分类变量,将原有的一个或多个连续性变量按照该分类变量类间差异最大化的优化原则离散化为分类变量,然后就可以使用离散后变量而非原始数据值进行后续的分析了。

34 /05 描述统计分析

35 描述统计量 统计图 统计表 数据量大的时候,无法根据观察到的一个个数值,得到总体的相关信息。
定量资料 集中趋势 均值、中位数、众数 离散趋势 标准差、四分位间距、全距 分布形态 正态分布、偏度系数、峰度系数 定性资料 频数、百分比、累计百分比… 条形图 分布形态、分组频数等 饼图 百分比构成 箱型图 中位数、四分位间距、离群值 散点图 刻划趋势线、观察相关度 相对更直观,可能会损失一些原始数据信息 频数表 百分比表 列联表等 按照一定的排列方式将统计指标组织为一张表格,数字精确,方便使用 清晰列出数值 但规律很难看出 很直观 但不能反映出太多信息 刻画 样本整体趋势 中的某一个细节 但统计量太多

36 1.定性资料的描述统计分析 基本的描述方式 原始数据: 频数列表 百分比 累计频数 累计百分比 集中趋势 众数 即出现最多的类别及相应的频数
列联表 对多个分类变量进行交叉描述,常见的是二维 频数 行、列、总百分比 行、列、总合计

37 1.定性资料的描述统计分析 例:对学历等背景变量进行描述 操作:分析 – 描述统计 – 频率

38 1.定性资料的描述统计分析 例:对家庭收入2级和职业绘制交叉表

39 2.定量资料的统计描述 频数表 是一种非常直观的方法,但比较粗糙,如果希望进行深入的分析,则必须要使用一些严谨的统计指标对各方面特征加以描述
操作步骤:确定组数;确定组距;确定各组段的上下限 各步骤的操作都存在着一些主观性,但因为只是进行初步的观察,这并无大碍 从频数图观察到的信息 --集中趋势 --离散趋势 --分布形状(是否对称,分布曲线的形状) --分布特征(单、双峰,有无极端值等)

40 2.定量资料的统计描述 集中趋势 均数mean 描述一组数据在数量上的平均水平,总体均数和样本均数用不同符号表示
适用范围:对称分布,特别是正态分布资料 几何均数G 针对正偏态资料集中趋势的描述而提出 适用范围:对数正态分布资料,但往往被进一步扩大到等比资料 中位数median 适用范围:万金油 和均数相比较为迟钝,只有样本量较为充足时结果才稳定下来 众数mode 所有数值中出现次数最多的一个

41 2.定量资料的统计描述 离散趋势 全距Range 适用范围最广,受极大值和极小值影响,不稳定 方差Variance 离均差 描述个体变异
离均差 描述个体变异 离均差和 代表整体?直接相加必然为0 离均差绝对值之和 数学推导困难 离均差平方和 代表整体,但受样本量影响 标准差 std.deviation 解决了阅读时量纲的问题 变异系数(coefficient of variation) 解决了不同资料间变异程度对比的问题 测量尺度相差太大:比较蚂蚁和大象的体重变异 量纲不同:比较身高和体重的变异程度 最常用,适用正态分布资料

42 2.定量资料的统计描述 例:对总指数index1进行描述统计,以详细了解其分布情况。 可运用描述、频率、探索三个功能 注:
四分位数(百分位数体系) 实际上是P25、P50和P75分位数的总称,他们正好能够将全部总体单位按标志值的大小等分为四部分的三个数值 上(P75)、下(P25)四分位数的差值被称为四分位间距 扣除极端值,较稳定 P50—中位数 例:对总指数index1进行描述统计,以详细了解其分布情况。 可运用描述、频率、探索三个功能 注: 1.频率功能可用于定量、定性资料 2.描述功能仅适用于正态分布资料 3.探索功能对分布特征不清楚的资料进行描述

43 2.定量资料的统计描述 M-估计量 当有极端值,或者数据呈现偏态分布时,均数对于描述集中趋势是有偏差的,而M估计量就是经过修正后的稳健的描述集中趋势的统计量。 离群值 给出了最大和最小的5个数值 百分位数 给出了2组,如果不是加权值,以第一行为主 探索功能还可以对需要分组的变量进行描述 例:对不同月份的总指数进行描述

44 2.定量资料的统计描述 放到的直方图 比直方图展示的信息更多

45 2.定量资料的统计描述 若散点与直线完全重合,证明完全服从正态分布 差值<0.05,代表较好服从正态分布

46 2.定量资料的统计描述 箱型图 运用百分位信息给出的总体分布图 --箱子中的线代表P50 --箱子两端代表四分位间距
--上下线段表示除去离群值和极端值后的最大/最小值 --超过P25/P75的1.5倍,定义为离群值,用⭕表示 --超过P25/P75的3倍,定义为极端值,用*表示

47 假设检验 根据样本数据进行描述统计,能够很好地观察出样本的基本情况,比如样本平均水平的变化情况,但我们真正关心的总体是否也有这样的区别呢? --因此我们需要做假设检验,数据管理、预处理和描述统计分析,都是做假设检验前的的准备工作,因为不同假设检验的模型,对数据资料的有正态性、方差齐性的要求,数据描述能够对后续统计分析的方法学试用条件进行探索观察。 样本 总体

48 谢 谢 聆 听!

49 6 扫码反馈讲座意见


Download ppt "SPSS应用初阶(上) 主讲人:高雅 联系方式:gaoya@xmu.edu.cn."

Similar presentations


Ads by Google