Presentation is loading. Please wait.

Presentation is loading. Please wait.

SPSS系统教程.

Similar presentations


Presentation on theme: "SPSS系统教程."— Presentation transcript:

1 SPSS系统教程

2 第一节 SPSS简介 SPSS的含义 SPSS for WINDOWS的特点 SPSS for WINDOWS的启动与退出

3 一、SPSS的含义 SPSS是软件英文名称的首字母缩写。原意为Statistical Package for the Social Sciences,即“社会科学统计软件包”。SPSS公司于2000年正式将英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”。 我们现在讲授的主要是SPSS for Windows 11.0版。

4 二、SPSS for Windows11.0的特点 操作界面极为友好,易于学习,易于使用,是非专业统计人员的首选统计软件。
无需花费大量时间记忆大量命令、过程、选择项等。 只要粗通统计分析原理,就能得到统计分析的结果。 可以根据计算机的设备来选择安装,灵活方便。 能非常方便地与其他软件的数据进行转换。 分析方法丰富,图表功能强大,输出结果美观漂亮。

5 三、SPSS的启动与退出 使用开始菜单启动SPSS 双击SPSS图标启动SPSS
使用FILE菜单中的“EXIT SPSS”菜单项退出SPSS 单击数据编辑窗右上角“x”的退出SPSS

6 进入SPSS后显示的文件对话框 使用数据库向导来创造一个新的文件选项 以浏览运行 操作指导 在数据窗口输入数据选项
打开一个已存在的数据源程序 运行一个已存在的文件选项 打开一个其它类型的文件

7 Spss11.0的界面 数据窗口 变量定义窗口

8 主界面的10个下拉菜单 ①文件(File); ②编辑(Edit) ; ③视图(View) ; ④数据(Data) ;
⑤转换(Transform) ;⑥统计分析(Analyze ) ; ⑦作图(Graphs) ;⑧工具(Utilities) ; ⑨ 窗口转换(Windows);⑩ 帮助(Help)

9 四、SPSS系统的运行方式 SPSS系统运行的三种方式: 完全窗口菜单运行管理方式 程序运行管理方式 混合运行管理方式

10 完全窗口菜单运行管理方式 完全窗口菜单运行管理方式主要在数据编辑窗口和输出观察窗口中进行操作。运行方式操作简便、直观,特别适合于初学者,也是本门课程讲授的主要方式。 缺点:对话框中包括的是基本参数和基本统计量的选择项,对于某些专业人员来说,可能不能充分满足需要。

11 程序运行管理方式 程序运行管理方式是在语句窗口(Syntax)中直接运行编写好的程序的一种方式。 分析结果仍然是显示在输出观察窗中。
主要用于习惯使用 程序的用户(SPSS最初是使用程序来进行统计分析的)。

12 混合运行管理方式 混合运行方式是以上两种方法的结合方式。
操作程序:首先在数据窗中输入数据或利用主菜单中的(File)菜单项打开已经存在的数据文件,然后利用对话框选择分析过程和分析参数。选择后不马上执行,而是用Paste将选择的过程与参数变换成相应的命令语句。在语句窗口中可以进行修改,然后再将程序提交系统执行。

13 五、SPSS窗口类型 数据编辑窗口(Newdata) 输出窗口(Output1) 语句窗口(Syntax) 统计图表编辑窗口(Chart)
帮助窗口(Help)

14 数据编辑窗口(Newdata) 数据编辑窗口是一个可扩展的二维表格,用户可在该窗口中建立或编辑数据文件。其主要功能有:定义变量属性;录入数据;修改变量属性;移动记录指针;插入记录;插入新的变量等。 在一个SPSS运行期间不能同时打开两个以上的数据编辑窗口。 File 文件操作 Edit 文件编辑 View 窗口外观控制 Data 数据文件的建立与编辑 Transform 数据转换 Statistic 统计分析 在spss10.0中为analysis Graphs 统计图表的建立与编辑 Utilities 实用程序 Window 窗口控制 Help 帮助

15 输出窗口(Output1) 输出窗口是一个文本窗口,其功能是用来显示系统处理的输出结果或系统运行过程中所发生的错误信息。
在一个SPSS运行期间可以同时打开两个或两个以上的输出窗口。其中只有一个为主输出窗口。

16 语句窗口(Syntax) 语句窗口可以用来粘贴SPSS过程的命令语句以及各选项对应的子命令语句,也可以用来手工编辑命令语句。然后将这些命令提交给系统进行运行。 在一个SPSS运行期间可以同时打开两个或两个以上的语句窗口。其中只有一个为主语句窗口。

17 统计图表编辑窗口

18 帮助窗口(Help)

19 六、SPSS系统参数设置 系统初始状态和系统默认值的设置是通过options选择对话框完成的。具体操作是通过打开Edit菜单中的options打开系统参数设置对话框。 参数与状态的设置生效的时间不同,有的在确认后立即生效,有的要在下一次启动spss系统时才生效。

20 系统参数设置基本操作

21 Spss11.0中系统参数的设置

22 系统参数的设置的主要项目 通用参数的设置 (General) 观察窗口参数设置 (Viewer)
草稿窗口参数设置 (Draft Viewer) 标签输出设置 (Output Labels) 统计图形参数设置 (Charts) 交互图形窗口参数设置 (Interactive) 要点表参数设置 (Pivot Tables) 数据功能卡设置 (Data) 数值型变量自定义格式设置 (Currency) 稿本窗口参数设置 (Scripts)

23 通用参数的设置项目 设置日志文件 设置内存工作区的大小 启动spss 时语句窗口状态的设置 测度系统参数设置 设置显示变量表顺序的方式
文件表中文件数的设置 启动时输出窗口类型的设置 输出通告设置 临时文件路径设置

24 通用参数的设置 声音设置:无声;默认声;自选声音文件 日志文件: 在日志文件中记录 系统 执行语句 将每次运行的语句 记录 在前次运行语
变量显示方式顺序 变量标签显示在前 变量表中只显变量名 变量名按字母顺序 按数据文件中变量类 型顺序 日志文件: 在日志文件中记录 系统 执行语句 将每次运行的语句 记录 在前次运行语 句之后, 并存入日 志文件 将每次存入日志文 件时覆盖前次所存 文件表中文件数设定 系统使用过的文件数 设定文件暂存处 输出声明设置 产生新结果时屏幕显 示导航器 示新输出信息 设定内存 测度单位选择 语句窗口状态设定 启动时输出窗类型: 产生交互式要点图和统计图 输出文本格式要点图和统计图 声音设置:无声;默认声;自选声音文件

25 观察窗口参数设置 主要项目: 初始输出状态设置 输出文本的字体、字号设置 文本输出页面设置 文本输出字型、字号设置与颜色

26 观察窗口参数设置 文本标题字体和大小选择 初始输入状态设置 文本输出页面设置 文本输出字型、字号、颜色设置

27 草稿观察窗口参数设置 主要项目: Display Output Items显示输出项的设置。
Page Breaks Between分页位置设置。 在Front栏中设置使用在新的输出中的字体。 Tabular Output平面表格输出栏,控制将要点表转换成平面表,即文本输出。 Text Output文本输出栏,控制文本输出页的尺寸。

28 草稿观察窗口参数设置 字体设置 分页设置 在每个程序之间分页 在每个输出之间插入一个分割符 列表输出 指定列宽和列分割 日志中是否显示命令
符形式 使用空格为分割符. 重复占多个页面表的 标题 单元格周围显示格线 输出表时每栏均为 最大列宽和标签长度 在character栏内设定 列宽和标签最大宽度; 在cell栏指定行分割 符和列分割符. 日志中是否显示命令 显示警告 显示说明信息 显示标题 显示统计图形 显示文本输出 显示运行日志 显示表格输出 分页设置 在每个程序之间分页 在每个输出之间插入一个分割符 标准页宽,每行80字符; 132字符; 自定义字符数 标准页长,每页59行; 尽可能的页长; 自定义页长 字体设置

29 标签输出设置 主要项目: 在Outline Labeling结果标签栏中,设置输出图形时是否使用标签。
在Pivot Table Labeling要点表格标签栏中,设置输出表格时是否使用标签。

30 标签输出设置 要点表标签栏:用于设定在输出图形时是否使用标签 控制在新的要点表中的变量名和描述性的变量标签值的输出。
Labels:使用变量标签来标识每个变量。 Names使用变量名来标识每个变量。 Names and labels:使用 变量名和变量标签来标识每个变量。 用于设定在输出图形时是否使用标签 控制新的要点表中的变量名和描述性变量标签的输出。 Labels:使用变量标签来标识每个变量。 Names使用变量名来标识每个变量。 Names and labels:使用 变量名和变量标签来标识每个变量。 Labels使用变量标签值来标识每个变量。 Values使用变量值来标 识每个变量。 LabelsandValues使用 变量值和变量标签值来标识每个变量。 控制新的要点表中的数据值和描述性的变量标签值的输出。 Labels使用变量标签值来标识每个变量。 Values使用变量值来标识每个变量。 Labels and Values使用 变量值和变量标签值来标识每个变量。

31 统计图形参数设置 主要项目: 图形模板栏 Chart Template 图形的宽与高比设置参数框 Chart Aspect
图形中文字字体设置栏 Font 图形填充和线条样式栏 Fill Patterns and Line Styles 图形变框栏 Frame

32 统计图形参数设置 图形模板栏 新的图形属性采用本对话框之中设置 图形宽高设置栏: 使用一个图形模板来确定图形属性 可输入宽高比值 当前设置
字体 选择图形填充和线条样式 使用14种颜色调色板,后根据需要给颜色增加样式 使用样式来代替颜色 框架栏 为整个图形画一个框,包括标题和图例 为输出的图形部分画出边框 单元格栏 在线上标志刻度 在线上标志分类

33 交互图形窗口参数设置 主要项目: ChartLook交互图形外观样式栏
Data Saved with Chart栏,控制与交互图形同时保存的信息。 Print Resolution 栏,控制交互图形打印的精度。 Measurement System栏,设置交互图形的度量系统。 Reading Pre-8.0 Data Files 栏,读取8.0以前版本的数据文件选择项。

34 交互图形窗口参数设置 打印精度栏 测度单元栏 图形外观样式栏 图形数据存储栏 可单击Browse选择
样式目录 图形数据存储栏 当生成图表的数据文件与图表分开时,控制信息与交互图形一起保存 只保存综合数据 读取8.0前版本的数据文件栏可对数值型变量描述最小值以便将数据分类或指明刻度。 打印精度栏 测度单元栏

35 要点表参数设置 主要项目: Table Look 表格外观样式栏,可选择新表格的表格样式。
Set Table Look Directory 按钮允许改变系统默认的Table Look目录。 Adjust Column Width for 控制要点表列宽的自动调整栏。 Default Edit Mode 设置默认的编辑表格模式。

36 要点表参数设置 表格外观栏 选择系统提供的表格输出时的外观样式 样本栏 预览Table Look 中选定的样式 调整要点表列宽栏
列宽调整为标签列宽 和数据值列宽中较大的一个。 默认编辑模式栏 Edit all tables in viewer:控制在观察窗口中的要点表或一个单独窗口的激活 Edit only small tables in viewer:在观察窗口仅能编辑小的要点表 Edit small and medium tables in viewer:在观察窗口仅能编辑小的或中等的要点表 Edit all but very large in viewer:在观察窗口不能编辑非常大的要点表 Open all tables in a separate windows :在一个单独窗口打开表

37 数据功能卡设置 主要项目: Transformation and Merge Options 选择数据转换和合并栏.
Display Format for New Numeric Variables 新数值变量指定系统默认的显示宽度和小数位数。 Set Century Range for 2-Digit Years栏,对日期型数据中的年份指定用两位数字输入和显示。

38 数据功能卡设置 设置两位年表示法变动范围 自动选择 自定义 为新数值型变量指定格式栏 宽度 小数点 数据转换与合并栏
立刻执行要求的转换同时读取数据文件 在遇到命令时才执行转换和合并 设置两位年表示法变动范围 自动选择 自定义 为新数值型变量指定格式栏 宽度 小数点

39 数值型变量自定义格式的设置 主要项目: Custom Output Formats用户定义输出格式栏
All Values设置数值的首尾字符栏 Negative Value设置负数的首尾字符栏 Decimal Separator设置小数点符号栏

40 数值型变量自定义格式的设置 输出样本栏 自定义输出格式 显示变量格式的预览 设置首尾字符栏
在此框输入一个字符,此字符将成为在所有值前都显示的前缀。 在此框输入的值成为在所有值后都显示的后缀 小数点分割符设置栏 采用圆点作小数点 采用逗号作小数点 设置负数的首尾字符栏 在此框内输入在所有负值前都显示的前缀 在此框内输入的值成为在所有负值后都显示的后缀

41 稿本窗口参数设置 主要项目: Global Procedures 全局过程栏
Autoscripts 自动稿本栏,自动稿本文件是稿本子程序的组合,在每次运行建立某一输出对象类型的过程时都要自动运行这些稿本子程序。 Autoscript subroutine status矩形框中包含当前所有自动稿本文件的所有子程序。

42 稿本窗口参数设置 全局过程栏 自动脚本栏

43 第二节 SPSS数据文件的建立

44 本讲主要内容 1、进入spss前的准备工作 ——资料的审查、数据编码、资料的登录、制定分析计划等等。 2、Spss运行的基本程序与使用方法
——录入、定义、保存、分析

45 一、进入SPSS之前的准备工作 编码 资料的审查 数据资料的形式: 封闭性问卷资料与开放性问卷资料。
不同的资料形式均要求对资料进行审查,但在编码时有不同的要求。

46 资料的审查 主要考察三个方面: 资料的完整性审查 资料的统一性审查 资料的合格性审查 资料

47 资料的完整性审查 包括资料总体上的完整性和每份资料的完整性。 资料总体的完整性主要考虑问卷发放的数量、回收率等。
每份资料的完整性主要看问卷的填答情况,是否是有效问卷。

48 资料的统一性审查 1、检查所有问卷、报表填答的方法是否统一。 2、检查统一指标的数值所使用的单位是否一致。
3、审查指标的定义和分析的标准是否与自己的研究分类相一致。 4、审查指标统计的总体是否一致。

49 资料的合格性审查 审查提供资料的人的身份是否符合规定的调查对象的身份。 审查所提供的资料是否符合填答的要求。 审查所提供的资料是否正确。

50 审查资料正确性的三种方法 1、判断检验:依据已知情况来判断是否真实正确。 2、逻辑检验:从资料的逻辑关系来检验是否正确。
3、计算检验:通过各种数字的运算来检验是否正确。

51 资料的编码 问题025:您认为打工的外地人对武汉市的社会秩序是否有影响?(单选) 3□没有影响 4□不好说
根据一定的规则将研究资料转换为可进行统计分析的数码资料的过程。 问题025:您认为打工的外地人对武汉市的社会秩序是否有影响?(单选) 1□有很大影响 □有较大影响 3□没有影响 □不好说 4 答案 编码

52 编码的步骤 1、确定变量 变量:用来反映概念的量化形式。在统计中往往指最小的分析单位。编码就是对变量进行编码。变量由两个部分构成:变量名和变量值。要注意区分何为变量,何为变量值。在调查问卷中还要注意区分问题和变量。

53 问题009:您有几个儿子?几个女儿? 1□儿子_______人 2□女儿________人 2 3 问题 变量1 变量2 变量1的值
变量2的值 变量1 变量2

54 2、几种常见的编码方式 封闭性问卷的处理方法 单项选择题 多项选择题 多项排序选择题 固定选择项 不固定选择项 开放性问卷的处理方法

55 2 2

56 1 3 5 6 有6个选项,故应设6个变量,运用0-1编码方法 编码,即:1,0,1,0,1,1。
此外,多选还有另外一种编码方法,即直接编码输入法,编码为1,3,5,6,0,0。

57 问题012:您择业中考虑的主要因素有(依据重要性大小排列,限选三项)
3 1 6 1Ǝ经济收入 Ǝ专业对口 3Ǝ发展前途 Ǝ地理区位 5Ǝ个人爱好 Ǝ风险大小 7Ǝ劳动强度 Ǝ社会福利 9Ǝ社会地位 Ǝ其他 因为是依据重要性大小排列,限选三项,故应设三个变量,编码依次为3,1,6。

58 择业中考虑的主要因素(依据重要性先后排列)
1Ǝ经济收入 Ǝ专业对口 3Ǝ发展前途 Ǝ地理区位 5Ǝ个人爱好 Ǝ风险大小 7Ǝ劳动强度 Ǝ社会福利 9Ǝ其他 ,依据选择项的数目,确定可能的选项数,每一位给一个编码,第一位是处于首位的则业因素,依次类推。 因为是依据重要性排列,不限制选项,故应设九个变量,编码依次为: 3,1,6,4,7,8,5,0,0。

59 择业中考虑的主要因素(多选) 编码应为:1,0,1,1,1,0,1,1,0。 或1,3,4,5,7,8,0,0,0。
1Ǝ经济收入 Ǝ专业对口 3Ǝ发展前途 Ǝ地理区位 5Ǝ个人爱好 Ǝ风险大小 7Ǝ劳动强度 Ǝ社会福利 9Ǝ其他 编码应为:1,0,1,1,1,0,1,1,0。 或1,3,4,5,7,8,0,0,0。

60 开放性问卷的处理方法 1、对回答进行分类。一般首先随机抽取一部分问卷,了解回答的情况,依据回答对问卷进行分类,主要考虑语气强弱、观点确定等方面。 2、建立回答类别与对应的数量关系,进行编码。

61 数据登录 在大型社会调查中通常要进行数据登录,现在一般采用问卷页边编码方式,以避免转录中增加误差。 数据登录的主要作用: 输入更快捷、准确。
有利于多人分工合作、共同输入。 便于核查数据。

62 数据录入 外部式录入 内部式录入 采用DOS、WPS、CCED等软件,按ASCII码方式录入成文本文件(*.dat;*.txt)。这种录入方式的特点是,数据之间没有间隔,录完一个数码后自动后移,录入速度较快。缺点是容易错位。 采用SPSS数据编辑器(SPSS Data Editor)录入。其优点是不容易错位,缺点是不能自动后移,录入速度慢,数据错误不容易修改。

63 二、SPSS运行的基本步骤 录入数据 定义数据 整理数据 统计数据 查看结果

64 录入数据 概率事件(观测量):在数据编辑器的二维表中, 每列为一个变量,每行记录 一次观测(Case) 一次观 测的值 输入数据 数据编辑器

65 保存数据 单击保存类型列表框,可以看到SPSS所支持的各种数据类型,有DBF、FoxPro、EXCEL、ACCESS等,这里我们仍然将其存为SPSS自己的数据格式(*.sav文件)。在文件名框内键入变量名并回车,可以看到数据管理窗口左上角由Untitled变为了现在的新变量名。

66 SPSS变量定义 Spss7.5、Spss8.0、Spss9.0的定义变量均通过Data菜单中 Define Variable子菜单的对话框中完成。 Spss10.0中变量定义只需在Data和Variable中进行转换即可进行变量定义。 Spss10.0中的变量定义。

67 Spss11.5变量定义项目 Spss11.5中变量定义的一共有10个项目:变量名(name)、变量类型(type)、变量长度(width)、小数位数(decimals)、变量标签(label)、变量值标签(values)、缺省值(missing)、变量显示宽度(columns)、变量对齐方式(align)、变量测量尺度(measure)。 注意区分变量的标签(Variable Labels)与变量值的标签(Value Labels)。

68 变量的类型表 SPSS变量类型 系统默认长度 小数位数 输入方式 显示方式 范例 输入 显示 Numeric 8 2 标准格式或科学记数法
标准格式数值变量原点表示小数点的数值 38.42 Comma 带逗点的数值或科学记数法 原点做小数点,逗点做三位分割符的数值 1,343,438.1 Dot 带圆点的数值或科学记数法 逗点做小数点,原点做三位分割符的数值 34,3434E2 3.434,34 Scietific notation 科学记数法 标准格式或 457.8E4 Date 日期格式非常多 显示格式非常多 Dollar 可带$或不带$输入或科学记数法 有效数值前带$以逗点为分割符 $12343 Custom Currency String 一串字符串 believe

69 变量标签与变量值标签 变量标签(Variable Labels):
为进一步描述变量所表示的意义,特别是当变量名不能充分描述变量所表述的意义时。 变量值标签 (Value Labels): 为进一步说明变量的可能取值,它可以定义,也可不定义。 如,变量取值为:grade1、 grade2、 grade3、 grade4,其表示年级,则变量标签为年级,而变量值标签对应变量取值为:本科一年级、本科二年级、本科三年级、本科四年级。

70 Spss11.5中变量定义的操作 定义变量宽度 单击Variable View 进入; 单击, 定义 定义对齐方式 变量 名 变量标签值
单击,定义变量类型 定义变量标签 定义测度层次 定义变量类型对话框 定义变量标签值对话框 定义变量定义缺省值对话框

71 数据的简单编辑 粘贴 剪切 复制 数据的剪切、粘贴与复制 若想恢复,打开Edit---Undo 1.插入观测量 1.插入变量
插入变量与删除变量 插入量与删除观测量 1.插入观测量 在添加处单击观测量,单击右鼠标键出现右侧对话框, 单击Insert Case 2.删除观测量 1.插入变量 在添加处单击Var,单击右鼠标键出现右侧对话框, 单击Insert Variables 2.删除变量 粘贴 剪切 复制 数据的剪切、粘贴与复制 若想恢复,打开Edit---Undo

72 Find Data in Variable SALARY对话框
数据的简单编辑 1、寻找某个观察量:单击Data---Go to Case 打开对话框: 输入要寻找观测量序号 Go To Case对话框 2、在某个变量中寻找指定数据 1)单击某变量如stock所在列的任意一单元格 2)单击Edit---Find,打开对话框 3)在Find中输入要找数据某变量 Find Data in Variable SALARY对话框

73 第三节 为分析作好准备

74 本节主要内容 数据编辑器的功能 数据文件的整理 数据文件的加权 重编码 数据的变换和计算 缺失值的处理

75 一、数据编辑器的功能 数据编辑器 标题栏 菜单栏 图标 输入数据栏 数据显示区: 变量名 观察序号 数据编辑器的构成

76 数据编辑器的功能 数据编辑器的功能主要是通过主菜单的“Edit”和“Data”两个菜单项来实现的。 其主要功能有:
1)变量和观测量的编辑功能 2)数据编辑功能

77 数据编辑功能表(Edit菜单) 命令 功能 Undo 删除刚输入的数据或者恢复刚修改的数据 Redo 恢复刚撤消的操作 Cut
将选定数据剪切到剪贴板 Copy 将选定数据拷贝到剪贴板 Paste 将剪贴板的数据粘贴到指定位置 Clear 清除选定的变量和观测值 Find 查找数据

78 Data菜单的各项命令 Define Variables Define Dates Templates Insert Variables
功能 对变量操作的命令 Define Variables 定义与编辑变量属性 Define Dates 定义与编辑日期变量或日期时间变量 Templates 定义与修改一个变量模板 Insert Variables 插入变量 对观测量操作的命令 Insert Case 插入观测量 Go to Case 定位到指定的观测量

79 Data菜单的各项命令 对文件操作的命令 Sort Cases 按选定的变量对观测量排序 Transpose 对数据文件的转置
Merge Files 合并数据文件 Aggregate 对数据进行分类与不分类的汇总 进行分析前的处理命令 Split File 折分数据文件 Select Cases 选择观测量 Weight Cases 加权处理观测量

80 二、数据文件的整理 主要内容: 观测量数据的排序 变量值排秩 拆分数据文件 合并数据文件

81 观测量数据的排序 首先在数据窗中建立或读入一个数据文件。
按Data  Sort Cases顺序逐一单击鼠标键,打开Sort Cases观测量排序对话框。 依据需要进行选择,然后单击OK按纽即可。 在进行数据处理 过程中,有时需要按某个变量值的顺序重新排列观测量在数据文件中出现的先后顺序。

82 观测量数据的排序 在左边的源变量框中选择排序变量进入Sort by框。如果选择2个以上的变量,观测量的排序结果与排序变量在Sort by框中的顺序有关。列于首位的为第一排序变量。 在Sort Order 栏内选择排序方式——升序与降序

83 变量值排秩 按Transform Rank Cases顺序逐一单击鼠标键,打开Rank Cases对话框。
具体操作方法: 按Transform Rank Cases顺序逐一单击鼠标键,打开Rank Cases对话框。 依据需要进行选择,然后单击OK按纽即可。新生成的秩变量的名称以原变量名称前加字母“R”的形式出现在数据文件中。 有些过程在分析 之前自动先对变量求秩序,有时需要人工事先排好秩。

84 变量值排秩

85 变量值排秩的选项说明 在Assign rank 1 to 栏中可选择秩的排列方式。
如选择一个或多个分组变量进入By栏,系统将按By变量分组排秩。 当所选择的变量具有相同值时称为Tie(结),其秩次的决定原则可以在Rank Cases:Ties对话框中指定。 在Rank Type中可以选择获得秩次的其他方法。 Display summary Tables 复选项为默认选择,表示要在输出结果窗中显示新变量的名称、标签、秩类型等总结性信息。

86 拆分数据文件 在进行数据处理时经常要对数据文件中的观测量进行分组分析,如分性别的平均分数。进行分析之前必须对 数据文件进行拆分。
拆分分件并不是将一个数据文件分为两个或几个独立的数据文件,而是在同一个数据文件中按某个条件分组。这种拆分在以后的运算中一直有效直到取消或更改拆分变量。

87 拆分数据文件的具体操作 根据对数据的具体需要选择相应的选项。 按Ok完成。 读取一个数据文件。
按Data  Split Files顺序逐一单击鼠标,打开Split Files对话框。 根据对数据的具体需要选择相应的选项。 按Ok完成。

88 拆分数据文件

89 合并数据文件 合并数据文件是指将外部数据中的观测量或变量合并到当前的数据文件中去。 合并数据文件包括两种方式:
从外部数据文件增加观测量到当前数据文件中——纵向合并或称追加观测量。 从外部数据文件增加变量到当前数据文件中——横向合并。

90 纵 向 合 并 首先打开一个数据文件。 按Data  Merge Files  Add Cases顺序逐一单击鼠标,打开:Read File对话框,依据需要选择文件,然后进入Add Cases From对话框,选择相应的选项或做适当的修改即可。

91 纵 向 合 并

92 纵 向 合 并

93 横 向 合 并 横向合并有两种方式: 从一个指定的外部数据文件中取得一个或几个变量的数据(包括变量名称)增加到 当前工作数据文件中,实际上相当于两个数据文件的横向合并。 按关键变量合并,即要求两个数据文件必须有一个共同的关键变量,而且这两个文件中的关键变量还存在一定数量的相同值的观测量。

94 横向合并的具体操作 首先打开一个数据文件。
按Data  Merge Files  Add Variables顺序逐一单击鼠标,打开Add Variables :Read File对话框,依据需要选择相应的选项或做适当的修改即可。

95 横向合并

96 三、 对观测量加权处理 在计算的过程中需要利用变量对数据进行加权处理时采用。 加权处理的具体方法:
按DataWeight Cases,打开Weight Cases对话框,依据需要进行适当的选择即可。

97 对观测量加权处理

98 对观测量加权处理 在选择加权变量时应注意: 加权变量中含有零、负数或缺省值的观测量将被排除在分析之外。 分数值有效。
一旦对数据进行了加权处理,那么在以后的分析中加权处理一直有效,直到关闭加权处理过程或选择其他的加权变量进行加权处理。

99 四、重编码 重编码的步骤及两种方式:(1)Into Same Variables ;(2) Into Different Variables.

100 重编码的应用 高一层次的变量,转化为低一层次的变量时,常常需要重编码。
当采用量表来进行测量,而量表中变量取值有正反两种方向的设置,需要转化为同一方向时,常常需要重编码。

101 第一种方式重编码

102 If Case 对话框 用于设置变量重编码的条件

103 Old and New Values对话框 设置旧变量转变为新变量的对应方式

104 第二种方式重编码 第二种重编码方式需要在Output Values中定义新变量的变量名与变量标签。
第二种重编码方式中 If 和 Old and New Values按钮展开的对话框形式与结构、内容是一样的。

105 五、对数据进行变换和计算 利用菜单“Transform”下的“Compute”命令实现数据的变换和计算
1、计算数值或字符型变量的值 2、创建新的变量或取代已存在的变量,对于新的变量,依然可以定义 3、可以利用已建立的函数进行变量的计算和转换

106 创建新的变量对话框

107 创建新的变量

108 六、缺失值的处理 SPSS中缺失值默认为圆点“.” DATA中设置了3种设置缺失值的方式
TRANSFORM下设置了5中不同的替代缺失值的方法。 缺失值的处理方法

109 缺失值定义方法

110 缺失值替代方法

111 缺失值处理方法 Exclude cases pariwise 成对删除含缺失值的个案
Exclude cases listwise 删除所有含有缺失值的个案 Replace with mean 用均值代替缺失值 Exclude cases analysis by analysis 统计检验时,删除含有缺失值的个案 Report values 报值

112 第四节 基本统计分析

113 一、SPSS统计分析功能概述 1、SPSS数值分析过程 2、SPSS图形分析过程

114 1、SPSS数值分析过程 Loglinear Descriptive Statistics Classify
Data reduction Scale Nonparametric tests Survival Multiple response Descriptive Statistics Compare means General linear model Correlate Regression

115 2、SPSS图形分析过程

116 二、基本统计分析功能 基本统计分析功能包括: 描述性统计分析(Descriptive Statistics)

117 描述性统计分析(Descriptive Statistics)
1、 Frequencies 频数分析表 2、 Descriptive 描述性统计分析过程 3、 Crosstabs 列联表分析过程

118 1、频数分析表 一、主要功能 可对数据按组进行归类整理,形成变量不同水平的频数分布表和图形,对数据的分布趋势进行初步分析。 二、频数分析
按Analyze—Descriptive Statistic—Frequencies顺序,打开Frequencies对话框如图。

119 Frequences主对话框 选择一个或多个变量右移入Variable(s)框。 显示频数分布表
按Statistics按钮,打开Statistics对话框 按Chart按钮,打开Chart 对话框 按Format按钮,打开Format 对话框

120 离差栏 分布参数栏 输出统计量对话框 在计算百分位数值和中位数时,假设数据已分组,且用各组的组中值代替各组数据 中心趋势栏
输出百分位数: 输出四分位数,显示25%、50%、75%的百分位数; 将数据平均分为所设定的相等等份,可输入2—100 的整数,如键入4则输出第25、50、75百分位数 自定义百分位数,可输入0—100 的整数。 输入值后: 按Add:输入值后按此键,可反复操作键入多个百分位数; 按Remove:删除已键入的数值 按Change:重新输入新数 中心趋势栏 离差栏 分布参数栏 输出统计量对话框

121 Chart 对话框 只有选择了条形图和圆图项才有效,决定纵轴表示的统计量 纵轴表示频数图 纵轴表示百分比 不输出任何图形,为默认
输出条形图,各条高度代表变量各分类的频数 输出圆图,圆图中各块的数值表示各分类变量的频数 输出直方图,此图仅适用于区间型数值变量。选择此项后,还可选择With normal curve,画出的直方图带有正态曲线 只有选择了条形图和圆图项才有效,决定纵轴表示的统计量 纵轴表示频数图 纵轴表示百分比 Chart 对话框

122 控制频数表输出的分类数量。默认为10 Format 对话框 设置频数表输出的格式 选择频数表中排列顺序 多变量框中可设定多变量表格输出的格式
按变量升序排列,此为默认 按变量降序排列 按变量各种取值发生的频数的升序排列 按变量各种取值发生的频数的降序排列 多变量框中可设定多变量表格输出的格式 控制频数表输出的分类数量。默认为10 Format 对话框

123 三、例题分析 对某高校100名大学生血清蛋白含量(g%)做频数分析,数据如表4—9 表4— 名大学生血清蛋白含量(%)

124 1、具体步骤 按Analyze—Descriptive Statistic—Frequencies 顺序,打开Frequencies对话框。打开数据文件“大学生血清.sav”,挑xdh变量进入Variable框,grade变量进入Break框。选中Display frequency tables复选框,要求输出频数分布表。 单击Statistics按钮,选择要输出的统计量。 单击Chart 按钮,选择Histogram项,输出直方图,并选择With normal curve复选框,输出正态曲线。 单击Format 按钮,选Ascending项。单击“OK”完成。

125 2、 输出结果及分析结果如下 血清蛋白含量的直方图 血清蛋白含量的统计表

126 血清蛋白含量的频数分布表

127 2、描述性统计分析过程 Descriptive 对话框
一、主要功能: 调用此过程对变量进行描述性统计分析,计算均值、标准差、全距和均值标准误差等,并可将原始数据转换成Z分数。 二、描述统计量分析 按Analyze Descriptive Statistics Descriptives顺序单击,打开 Descriptives主对话框。如图 如选中此框,将对Variables框中选择的变量进行标准化产生相应的Z分值,并作为新变量保存到数据窗口,其变量名在原变量名前加z。 选一个或多个变量移入 Descriptive 对话框

128 基本统计量 分布 当Variables框中有多个变量时,此框确定其输出顺序: 按Variables框中的排列顺序输出 按各变量的字母顺序输出
按均值的升序排列 按均值的降序排列 Options 对话框

129 已知20个初生婴儿的体重数据如下表,对其进行描述统计。 20个初生婴儿的体重(g)
三、例题分析 已知20个初生婴儿的体重数据如下表,对其进行描述统计。 20个初生婴儿的体重(g) 2770 2915 2795 2995 2860 2970 3087 3126 3125 4654 2272 3503 4218 3418 3921 2669 3707 2310 2573 3881 1、操作步骤: 打开数据文件“婴儿体重.sav”。打开 Descriptives主对话框,选定变量t进入Variable栏中。 选中Save standardized values as variables 复选框,要求计算变量的z值,并保存结果到当前数据集中。 单击Options 按钮,选中Mean、Std.Deviation、Minimum、Maximum 、Variance 项。

130 2、输出结果及分析 婴儿体重的描述统计量 这时打开原数据集,可看到多了一列zt,这是t 的z 分数,如下图所示: 保存了z 分数的数据集

131 3、列联表分析过程 主要功能: 调用列联表分析过程可进行计数资料和某些等级资料的列联表分析,一个行变量和一个列变量可组成一个二维列联表,如再加一个控制变量则可组成一个三维列联表。而多个行、列、控制变量就可组成一个复杂的多维列联表。在分析中可对二维和多维列联表资料进行统计描述和x2检验,并计算相应的百分数指标。此外,还可计算四格表确切概率(Fisher’s Exact Test),且有单双侧(One-Tail、Two-Tail)、对数拟然比检验( Likelihood Ratio)以及线性关系的Mantel-Haenszel x2检验。

132 4、列联表分析过程 列联表分析程序 按Analyze--Descriptive Statistics--Crosstabs 顺序打开 Crosstabs 主对话框。如图:

133 列联表概述 列联表分析的基本步骤 按Analyze-Descriptive Statistics-Crosstabs的顺序打开列联表的对话框; 在左侧的原变量框中选择一个或多个分类变量送入Row作为分布表中的行变量; 选择一个分类变量送入Column框,作为分布表中的列变量; 根据需要选择一个控制变量进入layer框中。该变量决定频数分布表的层; Display clustered bar charts复选项,显示每一组中各分类变量的分类条形图; Suppress tables复选项,要求只输出统计量,不输出多为列联表;

134 Crosstabs 对话框 显示每一组中各变量的分类条形图。 只输出统计量,不输出多维列联表。
该框中的变量作为分布表中的行变量,必须是数值型或字符型等分类变量。 显示每一组中各变量的分类条形图。 该框中的变量作为控制变量,决定频数分布表中的层,可有多个控制变量,如要增加新的控制变量,按Next 键,要修改以前的变量按Previous 键 只输出统计量,不输出多维列联表。

135 Crosstabs的Statistics 对话框
进行行和列变量相互独立的假设检验,有多种检验法。(注) 进行相关系数的检验,有两项结果显示: Pearson相关系数和 Spearman相关系数 适用于定类变量的统计量: 基于卡方检验基础上对相关性的检验 用来描述相关性 当用自变量预测因变量时,此系数反映这种预测降低错误的比率。 显示不确定系数,表示用一个变量来预测其他变量时降低错误的比率 适用于定序变量: 用于检验相关性 用于检验两个评估人对同一对象的评估是否具有一致系。 检验某事件发生和某因子之间的关系 进行两个相关的二值变量的非参数检验 进行一个二值因素变量和一个二值响应变量的独立性检验。 适用于定序变量: Gamma系数反映两个有序变量间的对称相关性。 是Gamma检验的非对称推广。 对有序变量和秩变量相关性的非参数检验。 与Kendall’s tau-c相似 通常情况下显示皮尔逊卡方检验(Pearson chi-square test) 、拟然比卡方检验(Likehood ration chi-square test )、线性相关卡方检验(Linear-by-linear association chi-square test) 、费歇精确检验(Fisher’s exactly test )、耶次校正卡方检验(Yete’s corrected chi-square test)

136 Crosstabs的Cell Display 对话框
选择在列联表中输出的统计量,包括观测量数、百分比、残差 输出观测量的实际数量 如果行和列变量在统计上是独立的或不相关的,那么会在单元格中输出期望的观测值的数量。 输出单元格中观测量的数目占整行全部观测量数目的百分比 输出单元格中观测值的数目占整列全部观测量数目的百分比 输出单元格中观测量的数目占全部观测量数目的百分比 计算非标准化残差 计算标准化残差 计算调整后残差

137 为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如下:
Table Format 对话框 决定各行的排列顺序: 各行的排列按升序 各行的排列按降序 三、例 为了探讨吸烟与慢性支气管炎有无关系,调查了339人,情况如下: 吸烟和慢性支气管炎调查表 患慢性支气管炎 未患慢性支气管炎 吸烟 43 162 不吸烟 13 121

138 1、操作步骤 输入数据:变量h为采得的数据;变量x为是否吸烟:1为吸烟,2为不吸烟;变量n为是否患病:1为患病,2为不患病。数据文件名为“Crosstab.sav”。 在Data菜单中选Weight Cases…项,打开Weight Cases对话框。 Weight Cases by,再将变量h选入Frequence Variable 框,单击OK完成加权。 按Analyze--Descriptive Statistics--Crootabs 顺序打开 Crootabs 主对话框。将x变量 选入Row框作为行变量,将n变量 选入Column 框作为列变量。 打开Statistics对话框,选中Chi-square\Contingency coefficient和Phi and Cramer’sV复选框,单击Continue返回。 单击Cell按钮,打开Cell display对话框,选中observed和Expected 复选框,单击Continue返回;单击OK。

139 2、输出结果及分析 吸烟与患病统计摘要表 统计摘要表,列出观测量有效值个数、缺失值个数和总的个数。
输出结果如表: 吸烟与患病统计摘要表 统计摘要表,列出观测量有效值个数、缺失值个数和总的个数。 从列联表中可看出,吸烟人中患病者有43人,比期望值33.9大,不吸烟人中患病者只有13人,比期望值22.1小。

140 吸烟与患病列联表 卡方检验

141 卡方检验表,从表中可看出,Chi-Square值为7. 469,显著值为0. 006<0
卡方检验表,从表中可看出,Chi-Square值为7.469,显著值为0.006<0.05,应否定零假设,即认为吸烟与患慢性支气管炎是不独立的。由于使用卡方检验要求每个单元格频数不少于5,当条件不满足时,还可用Fisher精确检验。其双侧检验显著值为0.007。 对称性检验表,通过度量对称性来得到有效的观测个数,本例为339。 对称性检验表

142 第五节 双变量关系描述统计 ——相关分析与检验

143 双变量的关系——有关与无关 寻找变量间的关系是科学研究的首要目的。变量间的关系最简单的划分即:有关与无关。
在统计学上,我们通常这样判断变量之间是否有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化,则这两个变量有关。如果一个变量的变化不引起另一个变量的变化则二者无关。

144 性别与四级英语考试通过率的相关统计 表述:统计结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。 自变量的不同取值在因变量上无差异,两变量无关。 自变量的不同取值在因变量上有差异,两变量有关。

145 表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。
因变量 自变量 表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。

146 双变量关系的统计类型

147 双变量的关系—关系强度测量 变量关系强度的含义:指两个变量相关程度的高低。统计学中是以准实验的思想来分析变量相关的。通常从以下的角度分析:
A)两变量是否相互独立。 B)两变量是否有共变趋势。 C)一变量的变化多大程度上能由另一变量的变化来解释。

148 双变量关系强度测量的主要指标

149 双变量的关系—关系的性质 直线相关与曲线相关 正相关与负相关 完全相关与完全不相关

150 相关分析 可采用相关分析和非参数相关分析过程。可选择计算积距相关系数、Spearman秩相关系数和Kendall秩相关系数。检验的假设为相关系数为0。可选择是单尾检验还是双尾检验。

151 一、相关分析—— Correlate菜单 相关分析用于描述两个变量间联系的密切程度,其特点是变量不分主次,被置于同等的地位。
在Analyze的下拉菜单Correlate命令项中有三个相关分析功能子命令Bivariate过程、Partial过程、 Distances过程,分别对应着相关分析、偏相关分析和相似性测度的三个spss过程。

152 简单相关分析 Bivariate过程用于进行两个或多个变量间的相关分析,如为多个变量,给出两两相关的分析结果。
Partial过程,当进行相关分析的两个变量的取值都受到其他变量的影响时,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数。 Distances过程用于对同一变量各观察单位间的数值或各个不同变量间进行相似性或不相似性分析一般不单独使用,而作为因子分析等的预分析。

153 二、 Bivariate相关分析 在进行相关分析时,散点图是重要的工具,分析前应先做散点图,以初步确定两个变量间是否存在相关趋势,该趋势是否为直线趋势,以及数据中是否存在异常点。否则可能的出错误结论。 Bivariate相关分析的步骤:输入数据后,依次单击Analyze—Correlate—Bivariate,打开Bivariate Correlations对话框如图5-1

154 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。
计算积距相关系数,连续性变量才可采用。 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。 计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。 图5-1 Bivariate Correlations 对话框 见图5-2 在输出结果中,相关系数的右上角上有“*”则表示显著性水平为0.05;右上角上有“**”则表示显著性水平为0.01。 不清楚变量之间是正相关还是负相关时选择此项。 清楚变量之间是正相关还是负相关时可选择此项。

155 图5-2 Optins 对话框 对每一个变量输出均值、标准差和无缺省值的观测数。 对每一个变量输出交叉距阵和协方差距阵。 计算某个统计量时,在这一对变量中排除有缺省值的观测值。 对于任何分析,有缺省值的观测值都会被排除。

156 相关分析实例 连续变量相关分析实例数据表 1、连续变量的相关分析实例 十只小鸡的体重与鸡冠的数据如表所示(数据文件:小鸡(相关).sav):
观测 号 1 2 3 4 5 6 7 8 9 10 体重 (克) 83 72 69 90 95 91 75 70 鸡冠重 (毫克) 56 42 18 84 107 68 31 48

157 分析步骤 1)输入数据,依次单击Analyze—Correlate—Bivariate,打开Bivariate Correlations对话框 2)选择weight 和coronary变量进入 Variables框中。 3)在Correlation Coefficients栏内选择Pearson。 4)在Test of Significance栏选择Two-tailed。 5)选择Flag significant correlation。 6)单击Options按钮,选择Mean and standard deviations、Cross-product deviations and covariances、Exclude cases pairise选项。 7)单击OK完成。

158 结果分析 描述性统计量表,如下: 从表中可看出,变量weight的均值为82.50,标准差为10.01,观测数为10;变量coronaryt的均值为60.00,标准差为27.60,观测数为10;

159 Pearson相关系数距阵 从表中可看出, Pearson相关系数为0.865,即小鸡的体重与鸡冠的相关系数为0.865,这两者之间不相关的双尾检验值为0.001。体重观测值的协方差为 ,而鸡冠重观测值的协方差为 ,体重和鸡冠重的协方差为 。 从统计结果可得到,小鸡的体重与鸡冠重之间存在正相关关系,当小鸡的体重越大时,则小鸡的鸡冠越重。并且,否定了小鸡的体重与鸡冠重之间不相关的假设。

160 2、定序变量的Spearman分析实例 权威主义和地位欲评秩
为研究集团迫使个人顺从的效应,一些研究者用F量表和为测量地位欲而设计的一种量表对12名大学生进行调查。欲知道对权威主义的评分之间相关的信息。 权威主义和地位欲评秩 学生 A B C D E F G H I J K L 权威主义 2 6 5 1 10 9 8 3 4 12 7 11 地位欲

161 分析步骤 1)输入数据,依次单击Analyze—Correlate—Bivariate,打开Bivariate Correlations对话框 2)选择power和position 变量进入 Variables框中。 3)在Correlation Coefficients栏内选择Spearman选项。 4)在Test of Significance栏选择Two-tailed。 5)选择Flag significant correlation。 6)单击Options按钮,选择Mean and standard deviations、Cross-product deviations and covariances、Exclude cases pairise选项。 7)单击OK。

162 结果分析 从表中可看出,权威主义和地位欲的相关系数为0.818,这表明权威主义越高的人地位欲也越高。权威主义与地位欲不相关的假设检验值为0.001,否定假设,即权威主义与地位欲是相关的。

163 3、定序变量的Kendall分析实例 仍用前例中的数据(数据文件:权威(Spearman相关).sav) 。操作过程相同,只是在第3)步在Correlation Coefficients栏内选择Kendall’s选项。结果如下: 从表中可看出,权威主义和地位欲的相关系数为0.667,这表明权威主义越高的人地位欲也越高。权威主义与地位欲不相关的假设检验值为0.003,否定假设,即权威主义与地位欲是相关的。Kendall相关分析所得到的结果类似于Spearman分析。

164 二、偏相关

165 一、概念 当有多个变量存在时,为了研究任何两个变量之间的关系,而使与这两个变量有联系的其它变量都保持不变。即控制了其它一个或多个变量的影响下,计算两个变量的相关性。 二、偏相关系数 偏相关系数是用来衡量任何两个变量之间的关系的大小。

166 三、选择不同的方法计算相关系数 Pearson:双变量正态分布资料,连续变量 Kendall: 资料不服从双变量正态分布或 总体分布未知,等级资料。 Spearman:等级资料。

167 四、SPSS操作步骤 Analyze-----Correlation-----Partial 把分析变量选入 Variable 框
把控制变量选入 Controlling for 框 点击 Options 点击 Statistics:选择 Mean and standard deviation Zero-order correlation Continue OK

168 结 果: Variable Mean Standard Dev Cases X1( 身高 ) 152.5759 8.3622 29
结 果: Variable Mean Standard Dev Cases X1( 身高 ) Y (肺活量) X2 ( 体重 )

169 1、身高与肺活量的简单相关系数 身高与肺活量的简单相关系数

170 2、体重与肺活量的简单相关系数

171 3、身高与体重的简单相关系数

172 4、体重为控制变量,身高与肺活量的偏相关系数
P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.. X2 (体重) Y(肺活量) X1(身高) Y (肺活量) ( 0) ( 26) P= P= .226 X1 (身高) ( 26) ( 0) P= P= .

173 5、身高作为控制变量,肺活量与体重的偏相关系数
P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.. X1(身高) Y(肺活量) X2(体重) Y ( 0) ( 26) P= P= .028 X ( 26) ( 0) P= P= .

174 应用相关注意事项 1.实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。例如,有人说,孩子长,公园里的小树也在长。求孩子和小树之间的相关关系就毫无意义,用孩子的身高推测小树的高度则更加慌谬。 2.相关关系 相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素‑‑ 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。

175 3.利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关分析。 4.变量范围 相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。

176 第六节 线性回归

177 回归的含义 回归(Regression,或Linear Regression)和相关都用来分析两个定距变量间的关系,但回归有明确的因果关系假设。即要假设一个变量为自变量,一个为因变量,自变量对因变量的影响就用回归表示。如年龄对收入的影响。由于回归构建了变量间因果关系的数学表达,它具有统计预测功能。

178 相关关系的概念 现象之间的相互联系,常表现为一定的因果关 系,将这些现象数量化则成为变量:其中一个 或若干个起着影响作用的变量称为自变量,通 常用X表示,它是引起另一现象变化的原因, 是可以控制、给定的值;而受自变量影响的变 量称为因变量,通常用Y表示,它是自变量变 化的结果,是不确定的值。

179 函数关系 ⒈ 出租汽车费用与行驶里程: 总费用=行驶里程  每公里单价 相关关系 ⒉ 家庭收入与恩格尔系数: 家庭收入高,则恩格尔系数低。
比较下面两种现象间的依存关系 函数关系 (确定性关系) ⒈ 出租汽车费用与行驶里程: 总费用=行驶里程  每公里单价 相关关系 (非确定性关系) ⒉ 家庭收入与恩格尔系数: 家庭收入高,则恩格尔系数低。

180 指客观现象间确实存在关系,但数量上不是严格对应的依存关系 相关关系
现象间的依存关系大致可以分成两种类型: 指现象间所具有的严格的确定性的依存关系 函数关系 指客观现象间确实存在关系,但数量上不是严格对应的依存关系 相关关系 函数关系与相关关系之间并无严格的界限:有函数关系的变量间,由于有测量误差及各种随机因素的干扰,可表现为相关关系;对具有相关关系的变量有深刻了解之后,相关关系有可能转化为或借助函数关系来描述。

181 回归分析与相关分析 联系: 理论和方法具有一致性; 无相关就无回归,相关程度越高,回归越好; 相关系数和回归系数方向一致,可以互相推算。

182 区别: 回归分析与相关分析 相关分析中x与y对等,回归分析中x与y要确定自变量和因变量;
相关分析中x、y均为随机变量,回归分析中只有y为随机变量; 相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。

183 回归分析的种类 一元回归 一 元线性回归 (简单回归) ⒈ 按自变量的 个数分 多元回归 (复回归) 线性回归 按回归曲线的形态分 ⒉
按自变量的 个数分 线性回归 非线性回归 按回归曲线的形态分

184 其中x为自变量;y为因变量;a为截距,即常量;b为回归系数,表明自变量对因变量的影响程度。
线性回归的统计原理: 两个定距变量的回归是用函数 y= f(x) 来分析的。我们最常用的是一元回归方程 在统计学中,这一方程中的系数是靠x与y变量的大量数据拟合出来的。 其中x为自变量;y为因变量;a为截距,即常量;b为回归系数,表明自变量对因变量的影响程度。

185 Y=350+20x

186 Y=a+bx Y (x,y) X

187 由图中可以看出,回归直线应该是到所有数据点最短距离的直线。该直线的求得即使用“最小二乘方法”,使:
在拟合的回归直线方程中,回归系数: 表示x每变化一个单位时,x与y共同变化的程度(共变异数)。 常数

188 比如通过上学年数和工资的关系计算得出下列的回归公式:
y= x 就可知上学年数每增长1年,工资会增加14.8元; 也可推测,上学年数为15年的人,工资收入应为 *15=694元。

189 一元线性回归模型 对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为: 假定E()=0,总体一元线性回归方程:

190 一元线性回归方程的几何意义 截距 斜率 一元线性回归方程的可能形态 为正 为负 为0

191 总体一元线性 回归方程: 以样本统计量估计总体参数 (估计的回归方程) 样本一元线性回归方程: (一元线性回归方程) 截距 斜率(回归系数)
截距a 表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b 表明自变量x每变动一个单位,因变量y平均变动b个单位。

192 X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。
随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响

193 一元线性回归方程 中参数a、b的确定: 最小平方法 基本数学要求:

194 【例】建立工业总产值对能源消耗量的线性回归方程 资料
【例】建立工业总产值对能源消耗量的线性回归方程 资料 【分析】因为工业总产值与能源消耗量之间存在高度正相关关系( ),所以可以拟合工业总产值对能源消耗量的线性回归方程。 解:设线性回归方程为

195 整理得到由两个关于a、b的二元一次方程组成的方程组:
进一步整理,有:

196 即线性回归方程为: 计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加0.7961个单位(亿元)。

197 回归系数b与相关系数r的关系: r> r< r=0 b> b<0 b=0

198 线性回归的操作步骤

199 SPSS线性回归的输出格式:

200 SPSS线性回归的输出格式:

201 回归方程的拟合优度与评价

202 总变差 回归变差 剩余变差 离差平方和的分解 每个因变量y的实际值与其平均数之间存在的总离差(y- )的平方和称为总离差平方和,简称总变差。
估计值 与平均数 离差的平方和,称为回归变差(可解释变差)。 剩余变差 每个观察值y与估计值 的离差平方和,称为剩余变差(未解释变差。

203 剩余平方和 回归平方和 总离差平方和

204 总离差平方和 回归平方和 剩余(误差)平方和 Lyy=U+Q

205 判定系数 是指因变量的总变差中可以被自变量解释部分的比例,即可解释因素的影响程度。用来说明因变量的变化有多少可通过自变量得到解释。是衡量拟合模型优劣的重要分析指标。 r2值越大,说明回归模型拟合得愈优。

206 判定系数与相关系数的关系 二者均可测定两变量的线性相关密切程度

207 判定系数与相关系数的区别: 判定系数无方向性(不能反映负相关),相关系数则有方向,其方向与样本回归系数 b 相同(可反映正相关,也可反映负相关); 判定系数说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向。

208 估计标准误差 是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值代表性的强弱;其值越小,回归方程的代表性越强,用回归方程估计或预测的结果越准确。可从一方面反映回归模型拟合的优劣状况。

209 在大样本条件下,可用公式计算: 【例】计算前面拟合的工业总产值对能源消耗量回归方程的回归标准差 资料

210 判定系数与估计标准误差的关系: 估计标准差越小,则变量间相关程度越高,回归线对Y的解释程度越高。

211 相关系数的显著性检验(t检验法) ⒊ 根据给定的显著性水平,确定临界值 ; 步 骤 ⒋ 确定原假设的拒绝规则:
⒊ 根据给定的显著性水平,确定临界值 ; ⒋ 确定原假设的拒绝规则: 若 ,则接受H0 ,表示总体两变量间线性相关性不显著; 若 ,则拒绝H0 ,表示总体两变量间线性相关性显著 ⒌ 计算检验统计量并做出决策。

212 【例】检验工业总产值与能源消耗量之间的线性相关性是否显著 资料
【例】检验工业总产值与能源消耗量之间的线性相关性是否显著 资料 当 成立时,则统计量

213 估计的前提:回归方程经过检验,证明 X 和 Y 的关系在统计上是显著相关的。
回归方程的估计与预测 估计的前提:回归方程经过检验,证明 X 和 Y 的关系在统计上是显著相关的。 对于给定的 X 值,求出 Y 平均值的一个估计值或 Y 的一个个别值的预测值。 点估计 对于给定的 X 值,求出 Y 的平均值的置信区间或 Y 的一个个别值的预测区间。 区间估计

214 点估计 若 x = 80(十万吨),则:

215 区间估计 对于给定的 x = x0 ,Y 的1-置信区间为: 自由度为n-2的 t 分布 的  水平双侧分位数

216 即: 在大样本条件下,近似有:

217 SPSS输出结果(一)

218 SPSS输出结果(二) 模型综述表 方差分析表

219 SPSS输出结果(三) 系数表

220 非标准预测值 标准预测值 下限 上限

221 简单相关表 八个同类工业企业的月产量与生产费用 企业编号 月产量(千吨)X 生产费用(万元)Y 1 2 3 4 5 6 7 8 1.2
2.0 3.1 3.8 5.0 6.1 7.2 8.0 62 86 80 110 115 132 135 160

222 20个同类工业企业固定资产原值与平均每昼夜产量
分组相关表 (百万元) (吨) 20个同类工业企业固定资产原值与平均每昼夜产量 平均每昼夜产量 固定资产原值 35~40 40~45 45~50 50~55 55~60 60~65 65~70 600~650 1 550~600 2 3 500~550 450~500 5 7 400~450 4 350~400 300~350 20

223 序号 能源消耗量(十万吨)x 工业总产值(亿元)y x2 y2 xy 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 35 38 40 42 49 52 54 59 62 64 65 68 69 71 72 76 24 25 28 32 31 37 41 47 50 51 48 58 1225 1444 1600 1764 2401 2704 2916 3481 3844 4096 4225 4624 4761 5041 5184 5776 576 625 784 1024 961 1369 1681 2209 2500 2601 2304 3364 840 950 960 1176 1568 1612 1998 2360 2542 2560 3055 3400 3381 3621 3456 4408 合计 916 55086 26175 37887


Download ppt "SPSS系统教程."

Similar presentations


Ads by Google