第二章 数据的管理 2015.9.29
数据管理的内容 原始变量计算出新变量 数据显示方式的变化如排序 改变变量编码的方式 分析一部分数据 合并文件 ……
1. Case summaries 程序 列出所有或部分数据 允许列出整个文件的清单或者文件中一个子集的清单 Step by step: Analyze---reports----case summaries Variables:被选中的全部值或者子集的变量清单 Grouping variables:根据某一变量创建所有其他变量列出的顺序 Display cases:默认选择 Limit cases to first:默认的初始case数目为100 Show only valid cases: 保证了列出的变量中的case都是有效的。一般不选 Show case numbers:
2. 缺失值替换 存在缺失值的case在进一步的分析中会被忽略 称名、顺序类数据有缺失值:如种族或收入等级,增加变量的水平,用该水平的数值替代缺失值。——用户定义的缺失值 连续型数据有缺失值:所有其他被试的平均或者中数。注:超过15%的值缺失须得剔除该被试或该变量 创建回归方程
Step by step: transform---replace missing values method:五种不同的替换缺失值的方法 注:numeric型数据 series mean:所有数据的均值 Mean of nearby points: 周围数据的均值,指定span of nearby points的number Median of nearby points:周围数据的中位数 Linear interpolation: 线性插值法 Linear trend at point: 线性趋势
3. Compute 创建和计算新变量 Step by step: transform ---- compute Target variable: 新变量名(注意命名的合法性) Numeric expression: 输入公式:使用计算器键盘,如建立一个新变量‘total’为测验一到期末测验成绩的总和 使用function group:将GPA分数开根号 计算:100*总和/125,并且四舍五入为整数,变量名为’percent’
4. Recode into different variables: 变量数据的重新编码 将一个已经存在的变量重新分类再编码为新变量,如成绩的重新编码 Step by step: transform---recode---into different variables numeric variable-output variable: 原来变量转换成新变量 Old and new values:具体值或范围的转换设置 例:将percent 从高到低转换成ABCDE四个等级(十分一个等级,E为60分以下),新变量名‘gradescore’ 将percent 转换成及格与不及格两类,新变量名为‘及格情况’
将一个已经存在的变量重新编码替换原来数据,如将性别和分数等级重新编码 Step by step: transform---recode---into same variables numeric variables: 想要重新编码的旧变量 old and new values: old value:…. 注意:重新编码后value值的改变
5. Select cases选择个案 根据一定条件只选择数据集中的一个子集进行分析 Step by step: data---select cases---if condition is satisfied---… (注:变量需要是numeric) 相关语句条件示例: gender=1 year>=3 year>=2&year<=3 year=1|year=4 要恢复所有数据集:all cases
6. Sort cases排序 Step by step: data---sort cases 如,按照姓的拼音来排名: ascending;descending 姓相同时如何排列?
7.Merging files合并数据 前提: 使用相同的数据编辑器(SPSS) 每个变量的格式和设置相同 保证相匹配的变量有相同的变量名 增加新变量,保证case的排列顺序相同 增加新case,保证变量的排列顺序是相同的
增加新的case或者被试 Step by step data---merge files---add cases Unpaired variables: 不匹配的变量,*(来自原始文件),+(来自外部文件) 合并时删除匹配的变量:将变量选出variables in the new active dataset 合并时增加不匹配的变量:将unpaired variables 选入右边框中。 (注:默认不匹配的变量不会出现在合并文件中)
增加新的变量 Step by step data--- merge files—add variables excluded variables: 相同的变量 + New working data file: 原始文件中有而外部文件中没有的变量 * 增加的新变量 +
练习 使用grades.sav文件,列出变量id到quiz5的所有被试数据(按原始顺序排列),并列出case编号。 使用grades.save文件,删除quiz1的成绩,用其他人quiz1成绩的均值来替换这些缺失值。 重新编码及格情况,成绩等级为D和E的编码为不及格,ABC编码为及格 将所有被试按照id升序排列