SPSS 16实用教程 第2章 变量、数据文件、系统参数
定 义 变 量 数据的输入与保存 数据的编辑 变量的操作 数据文件的合并和分组 读入其他格式文件数据 SPSS运行环境设置 2.1 数据的输入与保存 2.2 数据的编辑 2.3 变量的操作 2.4 数据文件的合并和分组 2.5 读入其他格式文件数据 2.6 SPSS运行环境设置 2.7
SPSS对数据的处理是以变量为前提的,因此本章首先介绍定义变量、输入数据,再介绍保存数据、操作数据文件,最后介绍SPSS运行环境和系统参数的设置。
2.1 定 义 变 量 启动SPSS后,出现如图2-1所示数据编辑窗口。由于目前还没有输入数据,因此显示的是一个空文件。
图2-1 数据编辑窗口
输入数据前首先要定义变量。定义变量即要定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签)和变量的格式。 单击数据编辑窗口左下方的“Variable View”标签或双击列的题头(Var),进入如图2-2所示的变量定义视图窗口,在此窗口中即可定义变量。
图2-2 变量定义视图窗口
2.1.1 变量的定义信息 在图2-2所示的窗口中每一行表示一个变量的定义信息,包括Name、Type、Width、Decimal、Label、Values、Missing、Columns、Align、Measure等。
1.定义变量名(Name) SPSS默认的变量为Var00001、Var00002等,用户也可以根据自己的需要来命名变量。SPSS变量的命名和一般的编程语言一样,有一定的命名规则,具体内容如下。
变量名必须以字母、汉字或字符@开头,其他字符可以是任何字母、数字或_、@、#、$等符号。 变量最后一个字符不能是句号。 变量名总长度不能超过8个字符(即4个汉字)。 不能使用空白字符或其他特殊字符(如“!”、“?”等)。
变量命名必须惟一,不能有两个相同的变量名。 在SPSS中不区分大小写。例如,HXH、hxh或Hxh对SPSS而言,均为同一变量名称。图2-3 定义变量类型对话框 SPSS的保留字(Reserved Keywords)不能作为变量的名称,如ALL、AND、WITH、OR等。
2.定义变量类型(Type) 单击Type相应单元中的按钮,弹出如图2-3所示的对话框,在对话框中选择合适的变量类型并单击“OK”按钮,即可定义变量类型。
图2-3 定义变量类型对话框
SPSS的主要变量类型如下。 Numeric Comma Dot Scientific notation Date Dollar Custom currency String
3.变量长度(Width) 设置变量的长度,当变量为日期型时无效。
4.变量小数点位数(Decimal) 设置变量的小数点位数,当变量为日期型时无效。
5.变量标签(Label) 变量标签是对变量名的进一步描述,变量只能由不超过8个字符组成,而8个字符经常不足以表示变量的含义。而变量标签可长达120个字符,变量标签可显示大小写,需要时可用变量标签对变量名的含义加以解释。
6.变量值标签(Values) 值标签是对变量的每一个可能取值的进一步描述。
7.缺失值的定义方式(Missing) SPSS有两类缺失值:系统缺失值和用户缺失值。 可以定义3个单独的缺失值。 可以定义一个缺失值范围和一个单独的缺失值。
8.变量的显示宽度(Columns) 输入变量的显示宽度,默认为8。
9.变量显示的对齐方式(Align) 选择变量值显示时的对齐方式:Left(左对齐)、Right(右对齐)、Center(居中对齐)。默认是右对齐。
10.变量的测量尺度(Measure) 变量按测量精度可以分为定性变量、定序变 量、定距变量和定比变量几种。
(1)定性变量。 (2)定序变量。 (3)定距变量。 (4)定比变量。
2.1.2 变量定义信息的复制 如果有多个变量的类型相同,可以先定义一个变量,然后把该变量的定义信息复制给新变量。
2.2 数据的输入与保存 2.2.1 录入数据的一般方法 定义了所有变量后,单击“Data View”标签,即可在出现的数据视图(编辑)窗中输入数据。 数据录入时可以逐行录入,也可以逐列。
2.2.2 录入带有变量值标签的数据 在录入带有变量值标签的数据时,用户手工输入的是实际的变量值,而屏幕上显示的是与该变量对应的变量值标签。
图2-6 选中“Value Lables”的效果
2.2.3 SPSS数据文件的保存 在录入数据时,应及时保存数据,防止数据的丢失,以便再次使用该数据 。
图2-7 保存为另外的数据格式文件
用户确定盘符、路径、文件名以及文件格式后单击“Save”按钮,即可保存为指定类型的数据文件。SPSS支持的常见的数据文件存放格式如下。 SPSS(*.sav) SPSS/PC+(*.sys) SPSS Portable(*.por) Tab delimited(*.dat)
Comma delimited(*.csv) Fixed ASCII(*.dat) Excel 2.1(*.xls) 1-2-3 Rel 3.0(*.wk3) SYLK(*.slk) dBASE 4(*.dbf) dBASE Ⅲ(*.dbf) dBASE Ⅱ(*.dbf) SAS v6 for Windows(*.sd2)
2.3 数据的编辑 2.3.1 单元值的修改 由于各种原因,已经输入的数据有时会需要修改,这就需要进行编辑,可用方向键或鼠标将黑框移动到要修改的单元,键入新值。
图2-8 选择行号
图2-9 查找数据对话框
2.3.2 增加和删除一个个案(Case) 1.增加一个新的个案(即增加一个新的行) 2.删除一个个案
图2-10 “Sort Cases”(排序)对话框 2.3.3 数据的排序 在数据文件中,可根据一个或多个排序变量的值重排个案的顺序。 图2-10 “Sort Cases”(排序)对话框
2.3.4 数据的行列互换 图2-11 “Transpose”对话框
2.3.5 选取个案子集 在数据统计中可从所有资料中选择部分数据进行统计分析。 图2-12 “Select Cases”对话框
系统提供的方式如下。 All cases If condition is satisfied Random sample of cases Based on time or case range Use filter variable
Output单选框有三个选项,分别提供如下的输出方式。 Filter out unselected cases Copy selected cases to a new dataset Delete unselected cases
图2-13 “Select Cases:If”对话框
2.3.6 数据分类汇总 用户还可对数据编辑器中的数据按指定变量的数值进行归类分组汇总。 在SPSS中,实现数据文件的分类汇总需要3个步骤。 2.3.6 数据分类汇总 用户还可对数据编辑器中的数据按指定变量的数值进行归类分组汇总。 在SPSS中,实现数据文件的分类汇总需要3个步骤。 首先,需要指定分类变量和汇总变量。然后,计算机根据分类变量的若干个不同取值将个案数据分成若干类,并对每类个案计算汇总变量的描述统计量。最后,将分类汇总计算结果保存到一个文件中。
分组汇总提供的函数形式主要有以下几种。 Mean Median Sum Standard deviation First Last
图2-14 “Aggregate Data”对话框
图2-15 “Aggregate Data: Aggregate Function”对话框
Minimum Maximum Weighted Weighted Missing Unweighted Unweighted Missing Number of cases
Percentage above Percentage below Percentage inside Percentage outside Fraction above Fraction below Fraction inside Fraction outside
图2-16 结果文件中变量名和标签
2.3.7 缺失值的替代 对于缺失值,可采取多种手段进行科学替代。这里的缺失值必须是系统或用户指定的缺失值。
图2-17 “Replace Missing Values”对话框
共有以下几种替代方式。 Series mean Mean of nearby points Median of nearby points Linear interpolation Linear trend at point
2.3.8 数据次序确定 选择“Transform”菜单中的“Rank Cases”命令,弹出“Rank Cases”对话框,如图2-18所示,在该对话框中可以改变数据排序的次序。
图2-18 “Rank Cases”对话框
图2-19 “Rank Cases:Types”对话框
排序类型如下。 Rank Fractional rank as percent Savage score Sum of case weights Fractional rank Ntiles Proportion estimates Normal scores
2.4 变量的操作 2.4.1 增加和删除一个变量(Variable) 1.增加一个变量 2.4 变量的操作 2.4.1 增加和删除一个变量(Variable) 1.增加一个变量 增加一个变量,即增加一个新的列。可以有多种操作方法, (1)菜单操作法。 (2)选中某列法。 (3)Variable View标签页法。
图2-20 选中某列法
图2-21 Variable View标签页法
2.删除一个变量 删除一个变量,即删除一列数据。其方法和上面的增加一个变量相对应。例如,要删除第5个变量列,则可先单击第5列的列头,这时整个第5列被选中(呈黑底白字状),然后按“Delete”键或选择“Edit”菜单的“Clear”命令,或者单击鼠标右键,在其快捷菜单中选择“Clear”项,该列即被删除。
也可以单击数据编辑窗口左下方的“Variable View”标签或双击列的题头,显示变量定义视图窗口,然后单击要输出变量的行头,这时整个行被选中,然后单击鼠标右键,在其快捷菜单中选择“Clear”项。
2.4.2 指定加权变量 在实际的统计中,经常需要计算数据的加权平均数。例如,希望了解某超市中某天售出商品的平均价格。如果仅以各种商品的单价平均数作为平均价格是不合理的,还应考虑到各商品的销售量对平均价格的影响。因此,以商品的销售量作为权重计算各种商品单价的加权平均数,才是我们需要求的数据。在SPSS处理中就需要将商品销售量作为加权变量。
图2-22 “Weight Cases”对话框
2.4.3 根据已存在的变量建立新变量 在数据统计中,有时候经常需要通过数据转换来提示变量之间的真实关系。这时需要通过对已经存在的变量进行处理,从而生成新的变量。选择“Transform”菜单的“Compute Variable”项,弹出如图2-23所示的“Compute Variable”(计算变量)对话框。在该对话框中的“Target Variable(目标变量)”框中输入符合变量命名规则的变量名,目标变量可以是现存变量或新变量。
图2-23 “Compute Variable”(计算变量)对话框
图2-24 条件表达式对话框
2.4.4 产生计数变量 在统计过程中,往往需要进行一些计数工作。产生计数变量就是实现计数功能,它对所有个案或满足一定条件的个案,计算若干个变量中有几个变量的值落在指定的区间内,并将计数结果放入一个新变量中。
图2-25 “Count Occurrences of Values within Cases”对话框
图2-26 “Count Values within Cases:Values to Count”对话框
图2-27 指定条件来确定参与计数的个案
图2-28 增加了一个计数结果列lj
2.4.5 变量的重新赋值 在数据编辑过程中,用户可对个案的某个变量的数值重新赋予新值。这种操作只适用于数值型变量。 2.4.5 变量的重新赋值 在数据编辑过程中,用户可对个案的某个变量的数值重新赋予新值。这种操作只适用于数值型变量。 在“Transform”菜单中的有“Into Same Variables”和“Into Different Variables”两种赋值方法供选择。其中“Into Same Variables”是对变量自身重新赋值;“Into Different Variables”是赋值到其变量或新生成的变量。
图2-29 “Recode into Same Variables”对话框
图2-30 “Recode into Same Variables:Old and New Values”对话框
在上述两种赋值情况下,用户均可通过单击“If”按钮指定条件,来确定参与重新赋值的个案。 与前面根据已存在的变量建立新变量方法不同的是:变量的重新赋值Recode不能进行运算,只能根据指定变量值作数值转换,且这种转换是单一数值的转换。
图2-31 “Recode into Different Variables”对话框
图2-32 “Recode into Different Variables:Old and New Values”对话框
2.4.6 变量的自动赋值(Automatic Recode) 变量的自动赋值可以将字符型、数字型数值转变成连续的整数,并将结果保存在一个新的变量中,其中字符型数据按照字母的顺序排序。
图2-33 “Automatic Recode”对话框
图2-34 确定变量
图2-35 运行结果
2.4.7 变量定义信息的查询 在SPSS数据编辑窗口中的“Variable View”标签中可以看到变量的定义信息,在其中还可以进行修改。在SPSS的“Utilities”菜单中还提供了变量信息的查询功能。
图2-36 “Variables”对话框
2.4.8 变量集的定义和使用 在SPSS的统计过程中,有时候收集到的变量会有很多个。在进行各种数据处理和统计分析时,所有变量都会显示在各个处理对话框的变量列表框中供用户选择。在众多变量中选择几个变量进行处理以及分析是很麻烦的,尤其是对于某几个经常需要进行操作的变量。SPSS提供了变量集(Variable Set)的概念,可以很好地解决上面所提出的问题。
1.变量集的定义 所谓变量集是指一些变量的集合。比如我们收集了某班级同学众多科目的成绩,可以把这些科目分为理科、文科、自然科学等,这其实就是变量集的概念。
SPSS变量集有两类:系统变量集和用户自定义变量集。 ALL VARIABLES:存放数据编辑窗口中所有的变量。 NEW VARIABLES:存放数据编辑窗口中所有尚未保存的新定义变量。
用户自定义变量集是用户根据实际数据分析需要定义的,它可以有许多个。一般把需要经常处理的、处理过程类似的若干个变量存放在一个用户自定义变量集中。
2.定义用户变量集 要将数学、物理、化学归到一个用户定义变量集中,名称为理科,具体操作的过程如下。
图2-37 “Define Variable Sets”对话框
3.用户变量集的使用 如果仅仅定义用户变量集,而没有指定SPSS使用该变量集,那么这个定义的用户变量集是不会自动发生作用的。也就是说用户应该告知SPSS系统要使用哪个变量集。 SPSS默认使用系统变量集,也就是说,SPSS默认在数据处理中,屏幕上列出数据文件所有的变量。如指定SPSS使用用户定义的变量集,那么在分析时,屏幕上就会只列出用户变量集中的那几个变量,从而简化了变量的选择过程。
图2-38 “Use Variable Sets”对话框
图2-39 列出用户变量集中变量
2.5 数据文件的合并和分组 统计分析的首要任务是将数据输入到计算机中。在数据量较大时,经常需要将一份大的数据文件分成几个小部分,分别由几个人输入,然后将若干个小的数据文件合并成一个大的数据文件。 数据文件的合并有两种方式:纵向合并和横向合并。
2.5.1 数据文件的纵向合并 纵向合并就是将一个SPSS数据文件的内容追加到数据编辑窗口当前数据的后面,然后将合并后的数据重新显示在数据编辑窗口中。通过该方法,可以将两个或更多个数据文件合并在一起。
图2-40 数据文件纵向合并窗口
图2-41 纵向合并
2.5.2 数据文件的横向合并 横向连接,也就是变量值的合并。利用横向合并可以将两个或两个以上的具有相同个案的数据文件连在一起。即将SPSS数据文件的内容连接到当前数据编辑窗口的右边,然后将合并后的数据文件显示在数据编辑窗口中。横向合并实质是将两个数据文件,按照个案对应进行左右对接。
实现数据文件的横向连接,必须有一个相同的公共变量,这个变量是两个数据文件横向对应连接的依据。 在合并的两个数据文件中,数据含义不同的变量,变量名不应取相同的名称。
图2-42 数据文件横向合并窗口
2.5.3 数据文件的分组(Split) 在统计中,经常需要先按某个变量进行分组,然后再求各个组的统计分析。例如,想分别了解男生和女生的成绩情况。这时就需要按照性别变量,进行数据文件的分组(这种分组是系统内定义的,在数据管理器中并不一定明确体现,故亦可称之为分割)。
用户一旦设置了分组,那么此后的所有分析都将按这种分组进行,除非取消数据分组的命令。
图2-43 “Split File”(分组设置)对话框
图2-44 分组统计结果
2.6 读入其他格式文件数据 在前面的数据保存中,已经讲到SPSS数据文件可以保存成其他格式的文件,如文本文件、dbf文件等。反过来,SPSS是否可以直接读取其他格式数据文件呢?答案是肯定的。SPSS可以读取文本文件、数据库文件等内容。
2.6.1 读取固定格式的文本文件 文本文件是计算机各种软件中最通用的一种格式文件。文本文件没有保存格式,因此,其文件很小,其中的数据均以ASCII码存储。各种软件,包括数据库软件、表格操作软件、字处理软件都可以将自己的格式数据转换成文本文件。因此,如果SPSS能够方便读取文本文件,那么就提高了读取其他软件数据的能力。根据文本文件中数据的排列方式,可将文本文件分成固定格式的文本文件和自由格式的文本文件两种。
固定格式(Fixed Columns)的文本文件,要求每个个案数据的变量数目、排列顺序、变量取值长度固定不变,一个个案数据可以占若干行,数据项之间可以有分隔符,也可以没有。分隔符一般为逗号、空格等。
图2-45 在菜单中选择“Read Text Data”命令
图2-46 “文本文件导入向导1”对话框(一)
图2-47 “文本文件导入向导2”对话框(一)
图2-48 “文本文件导入向导3”对话框(一)
图2-49 “文本文件导入向导4”对话框(一)
图2-50 “文本文件导入向导5”对话框(一)
图2-51 “文本文件导入向导6”对话框
2.6.2 读取自由格式的文本文件 自由格式的文本文件(Free Field)每个个案的变量数目、排列顺序固定,一个个案数据可以占据若干行,和固定格式文本文件不同的是,自由格式文本文件的数据项之间必须有分隔符(分隔符可以是逗号、空格、Tab键等),但数据项的长度可以变化。
图2-52 “文本文件导入向导1”对话框(二)
图2-53 “文本文件导入向导2”对话框(二)
图2-54 “文本文件导入向导3”对话框(二)
图2-55 “文本文件导入向导4”对话框(二)
图2-56 “文本文件导入向导5”对话框(二)
2.6.3 读取dBASE软件文件(.dbf) dBASE数据库软件的文件以.dbf为扩展名保存。该文件除了保存纯数据信息外,还保存了一些数据结构、属性方面的信息。 SPSS提供了与DBASE文件的接口,可以方便地将dBASE文件读入数据编辑窗口。具体的操作过程如下。
图2-57 打开dBASE数据文件
2.6.4 读取Excel软件文件(.xls) Excel软件可能是Windows系列操作系统中使用最多的数据表格软件。Excel文件以.xls为扩展名保存。该文件除了保存纯数据信息外,还保存了另外一些数据信息。 SPSS提供了与Excel文件的接口,可以方便地将Excel文件读入数据编辑窗口。具体的操作过程如下。
图2-58 读取Excel文件
图2-59 “Opening Excel Data Source”对话框
SPSS默认将某个sheet中所有数据都读入到数据编辑窗口中。在“Range”框中输入要读取数据的范围,也允许指定读取一部分区域的数据,如要读入前50行数据,则在该框中输入A1:F50,表示读取的区域是以A1单元为左上角,F50为右下角的矩形区域。Excel表格中每一行为SPSS的一个个案。 单击“Continue”按钮,即可完成数据导入。
2.6.5 读取数据库文件 SPSS还提供了读取Access及FoxPro等数据库文件的功能。
图2-60 在菜单中选择“New Query”命令
图2-61 “Database Wizard”向导对话框1
图2-62 文本文件选择对话框
图2-63 “Database Wizard”向导对话框2
图2-64 “Database Wizard”向导对话框3
图2-65 关系指定
图2-66 “Database Wizard”向导对话框4
图2-67 “Database Wizard”向导对话框5
图2-68 “Database Wizard”向导对话框6
2.7 SPSS运行环境设置 2.7.1 SPSS状态栏的显示和隐藏 数据编辑窗口最下面的状态栏用来显示SPSS当前的运行状态。当SPSS等待用户操作时,会显示“SPSS Processor is ready”的提示信息,如图2-69所示。
图2-69 状态栏
状态栏的显示或隐藏可以通过“View”菜单下面的“Status Bar”子菜单项来控制,当选中“Status Bar”子菜单项时(前面有选中符号√),SPSS将显示状态栏。
2.7.2 SPSS网格线的显示和隐藏 数据编辑窗口默认的显示是有网格线的,这样可以分隔一个个变量和个案,如图2-70所示。
图2-70 网格线
2.7.3 SPSS菜单的增加和删除 菜单栏中列出了SPSS的命令菜单,每个菜单对应一个相应的功能,SPSS提供了一个菜单编辑器。通过该编辑器,可以增加或删除SPSS操作界面中的菜单。
菜单栏中列出了SPSS的命令菜单,每个菜单对应一个相应的功能,SPSS提供了一个菜单编辑器。通过该编辑器,可以增加或删除SPSS操作界面中的菜单。
图2-71 选择“View”菜单的“Menu Editor”命令
图2-72 “Menu Editor”对话框
2.7.4 SPSS字体的设置 SPSS字体的设置是通过“View”菜单中的“Fonts”命令来设置的,如图2-73所示。
图2-73 选择“View”菜单的“Font”
图2-74 “Font”(字体设置)对话框
小 结 利用SPSS进行统计分析,变量和数据是必不可少的。本章主要介绍数据的输入、编辑以及针对变量的各种操作。 小 结 利用SPSS进行统计分析,变量和数据是必不可少的。本章主要介绍数据的输入、编辑以及针对变量的各种操作。 将数据输入SPSS中有多种方法,用户可以逐行录入也可以读入其他格式文件数据。数据输入后通常需要对数据进行进一步的处理,如排序、分类汇总或缺失值的替代等。 SPSS中的分析都是针对某一特定变量进行的。熟练掌握变量的操作技巧十分有助于提升工作的效率。