Download presentation
Presentation is loading. Please wait.
1
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话: 54344887
电 话: 微博: 人人网:
2
统计信息源---图书馆购买 中国统计年鉴数据库 CNKI 中国年鉴资源全文数据库 阿帕比数字资源平台 特点:以年为单位,数据完整
3
CNKI-中国经济社会发展统计数据库 阿帕比数字资源平台-年鉴
4
统计信息源---网络信息源 国家统计局 中国统计学会 Undata 特点:数据较新 小常识:环比、同比
6
统计信息源---实验或调查获得 通过实验获得数据 通过问卷调查获得一手数据 特点:原始性数据,通过一定的统计方法分析出统计结果。
7
网络调查问卷 问卷星 问道网 数据100
8
1、SPSS简介 SPSS的发展 SPSS的版本 SPSS的运行方式 SPSS的启动、主界面和退出 SPSS的帮助系统 1.1 1.2
1.3 SPSS的启动、主界面和退出 1.4 SPSS的帮助系统 1.5
9
1.1 SPSS的发展 社会科学统计软件包(Statistical Package for the Social Science,SPSS)是世界著名的统计分析软件之一。SPSS(Statistical Product and Service Solutions),“统计产品与服务解决方案”软件,经近40年的发展,在全球已拥有大量的用户。 SPSS名为社会学统计软件包,这是为了强调其社会科学应用的一面(因为社会科学研究中的许多现象都是随机的,要使用统计学和概率论的定理来进行研究)。 SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等。全球500强中有80%的公司使用SPSS。
10
1.2 SPSS的版本 到目前为止,SPSS已成为适合于DOS,Windows,UNIX,Macintosh及OS/2等多种操作系统使用的产品,国内常用的是其适用于DOS和Windows的版本。 SPSS for DOS通常称为SPSS/PC+,现已较少使用。 目前使用最多的是以运行于Windows 9X/NT/2000/XP上的版本,目前已发行IBM SPSS 19.0 for Windows标准版。
11
1.3 SPSS的运行方式 SPSS主要有3种运行方式。 1.完全窗口菜单运行方式 2.程序运行方式(依照程序自动进行多步骤的复杂数据分析)
3、混合运行方式
12
1.4 SPSS的启动、主界面和退出 启动SPSS SPSS安装完毕后,系统会自动在Windows菜单中创建快捷方式。
13
1.4.2 SPSS的数据窗口 SPSS主界面主要有两个,一个是SPSS数据编辑窗口,另一个是SPSS输出窗口。
数据编辑窗口由标题栏、菜单栏、工具栏、编辑栏、变量名栏、内容区、窗口切换标签页和状态栏组成,如图1-2所示。
14
SPSS的数据编辑窗口 菜单栏 工具栏 变量名 数据视图标签 变量视图标签
15
数据管理窗口的变量视图 菜单栏 工具栏 关于变量信息的格式名称 数据视图标签 变量视图标签
16
与Excel数据表的区别 (1) 一个列对应一个变量,即每一列代表一个变量(Variable)或一个被观测量的特征。例如问卷上的每一项就是一个变量。 (2) 行是个案(Case),即每一行代表一个个体、一个观测、一个样品。例如,问卷上的每一个人的数据就是一个个案。
17
SPSS菜单栏 File: 对SPSS文件的管理,包括新建、打开、保存文件等。
Edit: 与windows类似的编辑功能,如复制、剪切、粘贴、撤消等,以及系统参数设置 View:选择显示状态条、工具栏、网格线、变量标签、变量视图及字体设置等 Data: 实现文件级别的数据管理,如记录排序、记录拆分、 记录筛选、合并文件等 Transform:实现变量级别的数据管理,如计算新变量、变量值的分组合并、连续变量的可视化分段等
18
SPSS菜单栏 Analyze:SPSS的重点菜单项,涵盖各种主要统计分析功能。 Graphs:绘制各种普通统计图及交互式统计图,如直方图、
茎叶图、箱图、残差图等 Utilities:提供各种实用性管理设置,如变量信息管理,输出结果文件设置、菜单管理等 Windows:窗口拆分、最小化、当前窗口显示等 Help:帮助系统
19
SPSS结果输出窗口 SPSS结果输出窗口名为Viewer,它是显示和管理SPSS统计分析结果、报表及图形的窗口。可以将此窗口中的内容以结果文件.spo的形式保存。
22
1.4.4 SPSS数据分析的基本步骤 SPSS数据分析的一般步骤: SPSS数据的准备阶段(明确数据需求)
得出相关结论
23
1.4.4 SPSS数据分析的基本步骤 建立SPSS数据文件 定义SPSS数据结构 数据的加工处理 录入修改保存SPSS数据 统计分析
解释分析结果
24
2、 变量、数据文件、系统参数 定 义 变 量 数据的输入与保存 数据的编辑 变量的操作 数据文件的合并和分组 读入其他格式文件数据
2.1 数据的输入与保存 2.2 数据的编辑 2.3 变量的操作 2.4 数据文件的合并和分组 2.5 读入其他格式文件数据 2.6 SPSS运行环境设置 2.7
25
2.1 定 义 变 量 SPSS对数据的处理是以变量为前提的。由于目前还没有输入数据,因此显示的是一个空文件。 数据视图
26
输入数据前首先要定义变量。定义变量即要定义变量名、变量类型、变量长度(小数位数)、变量标签(或值标签)和变量的格式。
单击数据编辑窗口左下方的“Variable View”标签或双击列的题头(Var),进入变量定义视图窗口,在此窗口中即可定义变量。
27
变量的定义信息 在图2-2所示的窗口中每一行表示一个变量的定义信息,包括Name、Type、Width、Decimal、Label、Values、Missing、Columns、Align、Measure等。 变量视图
28
1.定义变量名(Name) SPSS默认的变量为Var00001、Var00002等,用户也可以根据自己的需要来命名变量。SPSS变量的命名和一般的编程语言一样,有一定的命名规则,具体内容如下。
29
1.定义变量名(Name) (1)变量名的第一个字符是英文字母或中文字,后面可跟任意字母或中文字、数字(除!、?、*外)
(2)变量名不能以句点结尾; (3)定名时应避免最后一个字符为下划线“_”(因为某些过程运行时自动创建的变量名的最后一个字符为下划线,这样有可能造成冲突); (4)变量名的长度一般不超过64个字符(32个中文字),SPSS11.0版变量名的长度一般不超过8个字符(4个中文字); (5)空格和特殊字符(如!、?、’和*等)不能用于变量名; (6)每个变量名必须保证是唯一的,不区分大小写; (7)下面的关键词不能用作变量名:ALL NE EQ TO LE LT GE BY OR GT AND NOT WITH
30
2.定义变量类型(Type) 单击Type相应单元中的按钮,弹出如图2-3所示的对话框,在对话框中选择合适的变量类型并单击“OK”按钮,即可定义变量类型。 标准数值型 逗号型 句点型 科学计数型 美元型 日期格式型 用户自定义型 字符串型
31
3.变量长度(Width) 设置变量的长度,当变量为日期型时无效。
32
4.变量小数点位数(Decimal) 设置变量的小数点位数,当变量为日期型时无效。 定义小数点的位数
33
5.变量标签(Label) 变量标签是对变量名的进一步描述,变量只能由不超过8/64个字符组成,而8个字符经常不足以表示变量的含义。而变量标签可长达32个中文汉字,需要时可用变量标签对变量名的含义加以解释。 变量标签
34
5.变量标签(Label) 当为变量定义了变量标签以后,在进行分析时,对话框中的待选变量列表框和分析变量列表框中的变量名前标注有变量标签,操作时一目了然。 未定义变量标签 定义了变量标签
35
6.变量值标签(Values) 值标签是对变量的每一个可能取值的进一步描述。 1.填入数字 2.填入数字所代表的意义 3.添加
36
6.变量值标签(Values) 给变量的值赋予值标签后,可以使输出结果更清楚、更便于阅读和理解。 未赋予值标签 赋予值标签后
37
7.缺失值的定义方式(Missing) SPSS有两类缺失值:系统缺失值和用户缺失值。
可以定义3个单独的缺失值。 可以定义一个缺失值范围和一个单独的缺失值。
38
7.缺失值的定义方式(Missing) 没有缺失值 离散的缺失值 连续的缺失值加上一个离散缺失值
39
8.变量的显示宽度(Columns) 输入变量的显示宽度,默认为8。 列宽
40
9.变量显示的对齐方式(Align) 选择变量值显示时的对齐方式:Left(左对齐)、Right(右对齐)、Center(居中对齐)。默认是右对齐。 位置
41
10.变量的测量尺度(Measure) 变量按测量精度可以分为定类尺度(Nominal)、定序尺度(Ordinal)、定距尺度(Scale)。
42
10.变量的测量尺度(Measure) 定距尺度(Scale Measurement):能够计算两个测度值之间比值的一种计量尺度,如职工月收入。有绝对“零点”,0就表示“没有” 定序尺度(Ordinal Measurement):有序分类变量,如职称变量可以有低级、中级和高级三个取值,可计算频数、频率、累计频数、累计频率。 定类尺度(Nominal Measurement):无序分类变量,如性别可取“男”、“女”;民族可取“汉”、“回”等。只能计算频数和频率 度量类型
43
变量定义信息的复制 如果有多个变量的类型相同,可以先定义一个变量,然后把该变量的定义信息复制给新变量。
44
2.2 数据的输入与保存 录入数据的一般方法 定义了所有变量后,单击“Data View”标签,即可在出现的数据视图(编辑)窗中输入数据。数据录入时可以逐行录入,也可以逐列。
45
录入带有变量值标签的数据 在录入带有变量值标签的数据时,用户手工输入的是实际的变量值,而屏幕上显示的可以是与该变量对应的变量值标签。 View---Value Lables
46
1.多选项二分法(Multiple Dichotomies Method)
这种方法将每个可能的答案设置为一个SPSS变量,变量的取值有两个,分别表示选中或没选中。这种方法的缺点是需要的变量数比较多。比如一道题目有6个选项,则一道多选题目就需要用6个变量来表示。好处是比较简单。
47
2.多选项分类法(Multiple Category Method)
多选项分类法首先估计多选项问题可能出现的答案个数。比如一个多选题,如果最多有3个答案,那么就设置3个SPSS变量,分别用来存放3个可能的答案。如果某个案的答案只有两个,那么第3个SPSS变量取值为缺失值。
48
2.3 数据的编辑 单元值的修改 由于各种原因,已经输入的数据有时会需要修改,这就需要进行编辑,可用方向键或鼠标将黑框移动到要修改的单元,键入新值。 Edit----go to case 图2-8 选择行号
49
图2-9 查找数据对话框
50
增加和删除个案(Case) 1.增加一个新的个案(即增加一个新的行) 2.删除一个个案
51
2.3.3 变量的操作 2.4.1 增加和删除一个变量(Variable) 1.增加一个变量
变量的操作 增加和删除一个变量(Variable) 1.增加一个变量 增加一个变量,即增加一个新的列。可以有多种操作方法, (1)菜单操作法。Edit—insert variable (2)选中某列法。 (3)Variable View标签页法。
52
图2-20 选中某列法
53
2.删除一个变量 删除一个变量,即删除一列数据。其方法和上面的增加一个变量相对应。例如,要删除第5个变量列,则可先单击第5列的列头,这时整个第5列被选中(呈黑底白字状),然后按“Delete”键或选择“Edit”菜单的“Clear”命令,或者单击鼠标右键,在其快捷菜单中选择“Clear”项,该列即被删除。
54
SPSS数据结构 变量名 数据类型 变量值标签 变量名标签 缺失值 计量尺度
55
案例一 使用现实问卷设计SPSS数据结构、并录入一些数据。
56
数据预处理 数据排序 选取个案子集 分类汇总 数据分组 数据拆分 定义变量集
57
图2-10 “Sort Cases”(排序)对话框
数据的排序 在数据文件中,可根据一个或多个排序变量的值重排个案的顺序。 Date—Sort cases 或选中变量点击右键sort Ascending/Descending 图2-10 “Sort Cases”(排序)对话框
58
2.3.5 选取个案子集 在数据统计中可从所有资料中选择部分数据进行统计分析。 系统提供的方式如下。 All cases
选取个案子集 在数据统计中可从所有资料中选择部分数据进行统计分析。 系统提供的方式如下。 All cases If condition is satisfied Random sample of cases Based on time or case range Use filter variable 图: “Select Cases”对话框
59
2.3.6 数据分类汇总 Data---Aggregate 用户还可对数据编辑器中的数据按指定变量的数值进行归类汇总。
数据分类汇总 用户还可对数据编辑器中的数据按指定变量的数值进行归类汇总。 在SPSS中,实现数据文件的分类汇总需要3个步骤。 首先,需要指定分类变量和汇总变量。然后,计算机根据分类变量的若干个不同取值将个案数据分成若干类,并对每类个案计算汇总变量的描述统计量。最后,将分类汇总计算结果保存到一个文件中。 Mean Median Sum Standard deviation Data---Aggregate
60
数据分组 是对定距型数据进行整理和粗略把握数据分布的重要工具。 工资分组 频率 百分比 有效百分比 累积百分比 有效 850以下 5
31.3 62.5 1 6.3 68.8 2 12.5 81.3 1000以上 3 18.8 100.0 合计 16
61
2.3.7 缺失值的替代 对于缺失值,可采取多种手段进行科学替代。这里的缺失值必须是系统或用户指定的缺失值。 共有以下几种替代方式。
缺失值的替代 对于缺失值,可采取多种手段进行科学替代。这里的缺失值必须是系统或用户指定的缺失值。 共有以下几种替代方式。 Series mean Mean of nearby points Median of nearby points Linear trend at point(用线性拟合方式确定替代值)
62
图2-17 “Replace Missing Values”对话框
Transform---Replace Missing Values 图2-17 “Replace Missing Values”对话框
63
指定加权变量 在实际的统计中,经常需要计算数据的加权平均数。例如,希望了解某超市中某天售出商品的平均价格。如果仅以各种商品的单价平均数作为平均价格是不合理的,还应考虑到各商品的销售量对平均价格的影响。因此,以商品的销售量作为权重计算各种商品单价的加权平均数,才是我们需要求的数据。在SPSS处理中就需要将商品销售量作为加权变量。
64
图: “Weight Cases”对话框
65
根据已存在的变量建立新变量 在数据统计中,有时候经常需要通过数据转换来提示变量之间的真实关系。这时需要通过对已经存在的变量进行处理,从而生成新的变量。选择“Transform”菜单的“Compute Variable”项,弹出如图2-23所示的“Compute Variable”(计算变量)对话框。在该对话框中的“Target Variable(目标变量)”框中输入符合变量命名规则的变量名,目标变量可以是现存变量或新变量。
66
图2-23 “Compute Variable”(计算变量)对话框
1.输入变量名 2.表达式 3.选择指定条件个案 图2-23 “Compute Variable”(计算变量)对话框
67
图2-24 条件表达式对话框
68
Transform---Count Value within Cases
产生计数变量 在统计过程中,往往需要进行一些计数工作。产生计数变量就是实现计数功能,它对所有个案或满足一定条件的个案,计算若干个变量中有几个变量的值落在指定的区间内,并将计数结果放入一个新变量中。 如:对每个个案统计语文、数学、英语3门课成绩中有几门在80分以上。 Transform---Count Value within Cases
69
2.4.5 变量的重新赋值 在数据编辑过程中,用户可对个案的某个变量的数值重新赋予新值。这种操作只适用于数值型变量。
变量的重新赋值 在数据编辑过程中,用户可对个案的某个变量的数值重新赋予新值。这种操作只适用于数值型变量。 在“Transform”菜单中的有“Into Same Variables”和“Into Different Variables”两种赋值方法供选择。其中“Into Same Variables”是对变量自身重新赋值;“Into Different Variables”是赋值到其变量或新生成的变量。
70
变量定义信息的查询 在SPSS数据编辑窗口中的“Variable View”标签中可以看到变量的定义信息,在其中还可以进行修改。在SPSS的“Utilities”菜单中还提供了变量信息的查询功能。 图2-36 “Variables”对话框
71
变量集的定义和使用 在SPSS的统计过程中,有时候收集到的变量会有很多个。在进行各种数据处理和统计分析时,所有变量都会显示在各个处理对话框的变量列表框中供用户选择。在众多变量中选择几个变量进行处理以及分析是很麻烦的,尤其是对于某几个经常需要进行操作的变量。SPSS提供了变量集(Variable Set)的概念,可以很好地解决上面所提出的问题。
72
变量集的定义 所谓变量集是指一些变量的集合。比如我们收集了某班级同学众多科目的成绩,可以把这些科目分为理科、文科、自然科学等,这其实就是变量集的概念。 SPSS变量集有两类:系统变量集和用户自定义变量集。 系统变量集是SPSS系统已经定义好的,它包括以下两个集合。 ALL VARIABLES:存放数据编辑窗口中所有的变量。 NEW VARIABLES:存放数据编辑窗口中所有尚未保存的新定义变量。
73
用户自定义变量集是用户根据实际数据分析需要定义的,它可以有许多个。一般把需要经常处理的、处理过程类似的若干个变量存放在一个用户自定义变量集中。
通过自定义变量集来简化变量选择的过程。
74
Utilities---Define Variable Set
2.定义用户变量集 要将数学、物理、化学归到一个用户定义变量集中,名称为理科,具体操作的过程如下。 Utilities---Define Variable Set
75
3.用户变量集的使用 如果仅仅定义用户变量集,而没有指定SPSS使用该变量集,那么这个定义的用户变量集是不会自动发生作用的。也就是说用户应该告知SPSS系统要使用哪个变量集。 SPSS默认使用系统变量集,也就是说,SPSS默认在数据处理中,屏幕上列出数据文件所有的变量。如指定SPSS使用用户定义的变量集,那么在分析时,屏幕上就会只列出用户变量集中的那几个变量,从而简化了变量的选择过程。
76
Utilities---Use Variable Set
77
Data---Merge Files---Add cases/Add variables
2.5 数据文件的合并和分组 统计分析的首要任务是将数据输入到计算机中。在数据量较大时,经常需要将一份大的数据文件分成几个小部分,分别由几个人输入,然后将若干个小的数据文件合并成一个大的数据文件。 数据文件的合并有两种方式:纵向合并和横向合并。 Data---Merge Files---Add cases/Add variables
78
数据文件的纵向合并 纵向合并就是将一个SPSS数据文件的内容追加到数据编辑窗口当前数据的后面,然后将合并后的数据重新显示在数据编辑窗口中。通过该方法,可以将两个或更多个数据文件合并在一起。 合并
79
2.5.2 数据文件的横向合并 实现数据文件的横向连接,必须有一个相同的公共变量,这个变量是两个数据文件横向对应连接的依据。
数据文件的横向合并 横向连接,也就是变量值的合并。利用横向合并可以将两个或两个以上的具有相同个案的数据文件连在一起。即将SPSS数据文件的内容连接到当前数据编辑窗口的右边,然后将合并后的数据文件显示在数据编辑窗口中。横向合并实质是将两个数据文件,按照个案对应进行左右对接。 实现数据文件的横向连接,必须有一个相同的公共变量,这个变量是两个数据文件横向对应连接的依据。 在合并的两个数据文件中,数据含义不同的变量,变量名不应取相同的名称。
80
合并
81
数据文件的拆分(Split) 在统计中,经常需要先按某个变量进行分组,然后再求各个组的统计分析。例如,想分别了解男生和女生的成绩情况。这时就需要按照性别变量,进行数据文件的分组(这种分组是系统内定义的,在数据管理器中并不一定明确体现,故亦可称之为分割)。
82
用户一旦设置了拆分分组,那么此后的所有分析都将按这种分组进行,除非取消数据分组的命令。
83
图:分组统计结果
84
2.6 读取其他格式数据文件 读取Excel软件文件(.xls) 读取dBASE软件文件(.dbf)
2.6 读取其他格式数据文件 读取Excel软件文件(.xls) 读取dBASE软件文件(.dbf) 读取Access及FoxPro等数据库文件的功能。
85
2.7 SPSS运行环境设置 2.7.1 SPSS状态栏的显示和隐藏
数据编辑窗口最下面的状态栏用来显示SPSS当前的运行状态。当SPSS等待用户操作时,会显示“SPSS Processor is ready”的提示信息,如图2-69所示。
86
SPSS字体的设置 SPSS字体的设置是通过“View”菜单中的“Fonts”命令来设置的,如图2-73所示。
87
案例:数据预处理 数据排序 变量计算 选取数据 计数 分类汇总 数据分组 数据拆分 定义变量集
88
3.SPSS基本统计分析 均值(Mean)和均值标准误差(S.E.mean) 中位数(Median) 众数(Mode) 全距(Range)
1.1 中位数(Median) 1.2 众数(Mode) 1.3 全距(Range) 1.4 方差(Variance)和标准差 (Standard Deviation) 1.5 四分位数(Quartiles)、十分位数 (Deciles)和百分位数(Percentiles) 1.6 频数(Frequency) 1.7
89
峰度(Kurtosis) 偏度(Skewness)
1.8 偏度(Skewness) 1.9 通过基本统计方法的学习,可以对要分析数据的总体特征有比较准确的把握,从而有助于选择其他更为深入的统计分析方法
90
1.1 均值(Mean)和均值标准误差(S.E.mean)
统计学上的定义 定义:均值(平均值、平均数)表示的是某变量所有取值的集中趋势或平均水平。例如,学生某门学科的平均成绩、公司员工的平均收入、某班级学生的平均身高等。 计算公式如下。
91
均值标准误差(S.E.mean) 样本数据来自总体。样本的统计描述量可以反映总体数据的特征,但由于抽样等原因,使得样本数据不一定能够完全准确地反映总体,它可能与总体的真实值之间存在一定的差异。进行不同次抽样,会得到若干个不同的样本均值,它们与总体均值存在着不同的差异。 均值标准误差(Standard Error of Mean,S.E. mean)就是描述这些样本均值与总体均值之间平均差异程度的统计量。
92
1.2 中位数(Median) 统计学上的定义 定义:把一组数据按递增或递减的顺序排列,处于中间位置上的变量值就是中位数。它是一种位置代表值,所以不会受到极端数值的影响,具有较高的稳健性。
93
1.3 众数(Mode) 统计学上的定义 定义:众数是指一组数据中,出现次数最多的那个变量值。众数在描述数据集中趋势方面有一定的意义。例如,制鞋厂可以根据消费者所需鞋的尺码的众数来安排生产。 计算公式:手工计算众数比较麻烦,需要统计数据的次数分布。
94
1.4 全距(Range) 统计学上的定义 定义:全距也称为极差,是数据的最大值与最小值之间的绝对差。在相同样本容量情况下的两组数据,全距大的一组数据要比全距小的一组数据更为分散。 计算公式:最大值-最小值。
95
1.5 方差(Variance)和标准差(Standard Deviation)
统计学上的定义 定义:方差是所有变量值与平均数偏差平方的平均值,它表示了一组数据分布的离散程度的平均值。标准差是方差的平方根,它表示了一组数据关于平均数的平均离散程度。方差和标准差越大,说明变量值之间的差异越大,距离平均数这个“中心”的离散趋势越大。
96
已知某零件的平均长度为a,现用甲、乙两台仪器各测量10次,将测量结果X用坐标上的点表示如图:
研究问题 已知某零件的平均长度为a,现用甲、乙两台仪器各测量10次,将测量结果X用坐标上的点表示如图: 机器甲 机器乙
97
1.6.1 统计学上的定义 1.6 四分位数(Quartiles)、十分位数(Deciles)和百分位数(Percentiles)
统计学上的定义 定义:四分位数是将一组个案由小到大(或由大到小)排序后,用3个点将全部数据分为四等份,与3个点上相对应的变量称为四分位数,分别记为Q1(第一四分位数)、Q2(第二四分位数)、Q3(第三四分位数)。其中,Q3到Q1之间的距离的一半又称为四分位差,记为Q。四分位差越小,说明中间的数据越集中;四分位数越大,则意味着中间部分的数据越分散。
98
1.7 频数(Frequency) 1.7.1 统计学上的定义
统计学上的定义 定义:频数就是一个变量在各个变量值上取值的个案数。如要了解学生某次考试的成绩情况,需要计算出学生所有分数取值,以及每个分数取值有多少个人,这就需要用到频数分析。
99
1.8 峰度(Kurtosis) 统计学上的定义 定义:峰度是描述某变量所有取值分布形态陡缓程度的统计量。这个统计量是与正态分布相比较的量,峰度为0表示其数据分布与正态分布的陡缓程度相同;峰度大于0表示比正态分布高峰要更加陡峭,为尖顶峰;峰度小于0表示比正态分布的高峰要平坦,为平顶峰。
100
1.9 偏度(Skewness) 1.9.1 统计学上的定义 定义:它是描述某变量取值分布对称性的统计量。
统计学上的定义 定义:它是描述某变量取值分布对称性的统计量。 偏度大于0表示正偏差数值较大,为正偏或右偏,即有一条长尾巴拖在右边;偏度小于0表示负偏差数值大,为负偏或左偏,有一条长尾拖在左边。而偏度的绝对值数值越大表示分布形态的偏斜程度越大。
101
案例:描述性统计分析 频数分析 基本描述统计量 交叉分组下的频数分析 多项选择题的分析
102
2、 均值比较和T检验 Means过程 单一样本T检验 两独立样本T检验 两配对样本T检验 2.1 2.2 2.3 2.4
在正态或近似正态分布的计量资料中,经常在使用上一节统计描述过程分析后,还要进行组与组之间平均水平的比较 两配对样本T检验 2.4
103
2.1 Means过程 统计学上的定义 定义:Means过程其实就是按照用户指定条件,对样本进行分组计算均数和标准差,如按性别计算各组的均数和标准差。 例如:比较不同性别同学的数学成绩平均值和方差。
104
2.2 单一样本T检验 统计学上的定义 定义:SPSS单样本T检验是检验某个变量的总体均值和某指定值之间是否存在显著差异。统计的前提样本总体服从正态分布。也就是说单样本本身无法比较,进行的是其均数与已知总体均数间的比较。 例: 分析某班级学生的语文成绩和全校语文的平均成绩80之间是否存在显著性差异。
105
2.3 两独立样本T检验 统计学上的定义 定义:所谓独立样本是指两个样本之间彼此独立没有任何关联,两个独立样本各自接受相同的测量,研究者的主要目的是了解两个样本之间是否有显著差异存在。这个检验的前提如下。 两个样本应是互相独立的,即从一总体中抽取一批样本对从另一总体中抽取一批样本没有任何影响,两组样本个案数目可以不同,个案顺序可以随意调整。 样本来自的两个总体应该服从正态分布。 两独立样本T检验的零假设H0为两总体均值之间不存在显著差异。
106
例:两独立样本T检验 分析A、B两所高校大一学生的高考数学成绩之间是否存在显著性差异。
107
2.4 两配对样本T检验 统计学上的定义 定义:两配对样本T检验是根据样本数据对样本来自的两配对总体的均值是否有显著性差异进行推断。一般用于同一研究对象(或两配对对象)分别给予两种不同处理的效果比较,以及同一研究对象(或两配对对象)处理前后的效果比较。前者推断两种效果有无差别,后者推断某种处理是否有效。 两配对样本T检验的零假设H0为两总体均值之间不存在显著差异。
108
例:两配对样本T检验 研究问题 研究一个班同学在参加了暑期数学、化学培训班后,学习成绩是否有显著变化。
109
4 、相关分析 相关分析的基本概念 二元定距变量的相关分析 二元定序变量的相关分析 偏相关分析 4.1 4.2 4.3 4.4
描述变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程为相关分析。可根据研究的目的不同,或变量的类型不同,采用不同的相关分析方法。 相关分析的基本概念 4.1 二元定距变量的相关分析 4.2 二元定序变量的相关分析 4.3 偏相关分析 4.4
110
4.1 相关分析的基本概念 任何事物的变化都与其他事物是相互联系和相互影响的,用于描述事物数量特征的变量之间自然也存在一定的关系。变量之间的关系归纳起来可以分为两种类型,即函数关系和统计关系。
111
相关系数的取值范围在−1和+1之间,即−1≤r≤+1。其中:
114
在实际中,因为研究目的不同,变量的类型不同,采用的相关分析方法也不同。比较常用的相关分析是二元定距变量的相关分析、二元定序变量的相关分析、偏相关分析。
在二元变量的相关分析过程中比较常用的几个相关系数是Pearson简单相关系数、Spearman和Kendall's tua-b等级相关系数。
115
4.2、二元定距变量相关分析 定义:二元定距变量的相关分析是指通过计算定距变量间两两相关的相关系数,对两个或两个以上定距变量之间两两相关的程度进行分析。 定距变量又称为间隔(interval)变量,它的取值之间可以比较大小,可以用加减法计算出差异的大小。例如,“年龄”变量、“收入”变量、“成绩”变量等都是典型的定距变量。
116
例:二元定距相关分析 研究问题 研究某班级学生的数学和化学成绩之间是否具有相关性。计算简单相关系数和绘制散点图。
117
4.3 二元定序变量的相关分析 4.3.1 统计学上的定义和计算公式
4.3 二元定序变量的相关分析 统计学上的定义和计算公式 定义:定序变量又称为有序(ordinal)变量、顺序变量,它取值的大小能够表示观测对象的某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历”变量的取值是:1—小学及以下、2—初中、3—高中、中专、技校、4—大学专科、5—大学本科、6—研究生以上。由小到大的取值能够代表学历由低到高。
118
例: 二元定序变量的相关分析 研究问题 某语文老师先后两次对其班级学生同一篇作文加以评分,两次成绩分别记为变量“作文1”和“作文2”,问两次评分的等级相关有多大,是否达到显著水平?
119
4.4 偏相关分析 研究立项课题数与发表论文数之间的相关关系。可能还要考虑投入高级职称的人数因素。
120
统计学上的定义 定义:偏相关分析是指当两个变量同时与第三个变量相关时,将第三个变量的影响剔除,只分析另外两个变量之间相关程度的过程。 偏相关分析的工具是计算偏相关系数r12,3。
121
Thank You !
Similar presentations