SPSS 16实用教程 第7章 回归分析.

Slides:



Advertisements
Similar presentations
质数和合数 中心小学 顾禹 人教版小学五年级数学下册 一、激趣导入 提示:密码是一个三位 数,它既是一个偶数, 又是 5 的倍数;最高位是 9 的最大因数;中间一位 是最小的质数。你能打 开密码锁吗?
Advertisements

1 、谁能说说什么是因数? 在整数范围内( 0 除外),如果甲数 能被乙数整除,我们就说甲数是乙数的 倍数,乙数是甲数的因数。 如: 12÷4=3 4 就是 12 的因数 2 、回顾一下,我们认识的自然数可以分 成几类? 3 、其实自然数还有一种新的分类方法, 你知道吗?这就是我们今天这节课的学.
因数与倍数 2 、 5 的倍数的特征
质数和合数 2 的因数( ) 6 的因数( ) 10 的因数 ( ) 12 的因数 ( ) 14 的因数 ( ) 11 的因数 ( ) 4 的因数( ) 9 的因数( ) 8 的因数( ) 7 的因数( ) 1 、 2 、 3 、 4 、 6 、 12 1 、 11 1 、 2 、 5 、 10.

3 的倍数的特征 的倍数有 : 。 5 的倍数有 : 。 既是 2 的倍数又是 5 的倍数有 : 。 12 , 18 , 20 , 48 , 60 , 72 , , 25 , 60 ,
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
冀教版四年级数学上册 本节课我们主要来学习 2 、 3 、 5 的倍数特征,同学们要注意观察 和总结规律,掌握 2 、 3 、 5 的倍 数分别有什么特点,并且能够按 要求找出符合条件的数。
第六章 回归分析.
第十章 相关与回归分析 PowerPoint 统计学.
《解析几何》 乐山师范学院 0 引言 §1 二次曲线与直线的相关位置.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
《高等数学》(理学) 常数项级数的概念 袁安锋
预测与决策分析 Forecasting and Decision Analysis
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
计量经济学 第三章 多元线性回归模型.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
探索三角形相似的条件(2).
初中数学八年级下册 (苏科版) 10.4 探索三角形 相似的条件(2).
第12章 回归直线.
§3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程的显著性检验(F检验) 三、变量的显著性检验(t检验) 四、参数的置信区间.
引子: 国内生产总值增加会减少财政收入吗?
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
数据挖掘工具性能比较.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
Three stability circuits analysis with TINA-TI
线 性 代 数 厦门大学线性代数教学组 2019年4月24日6时8分 / 45.
第四章 一次函数 4. 一次函数的应用(第1课时).
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
1.2 有理数 第1课时 有理数 伏家营中学 付宝华.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第4章 Excel电子表格制作软件 4.4 函数(一).
iSIGHT 基本培训 使用 Excel的栅栏问题
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第4课时 绝对值.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
导 言 经济学的基本问题 经济学的基本研究方法 需求和供给.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
基于列存储的RDF数据管理 朱敏
Volterra-Lotka方程 1925年, A. Lotka(美)和V. Volterra(意)给出了第一个两物种间的捕食模型。
第十七讲 密码执行(1).
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Sssss.
海报题目 简介: 介绍此项仿真工作的目标和需要解决的问题。 可以添加合适的图片。
Presentation transcript:

SPSS 16实用教程 第7章 回归分析

回归分析基本概念 一元线性回归分析 多元线性回归分析 非线性回归分析 曲 线 估 计 时间序列的曲线估计 含虚拟自变量的回归分析 7.1 一元线性回归分析 7.2 多元线性回归分析 7.3 非线性回归分析 7.4 曲 线 估 计 7.5 时间序列的曲线估计 7.6 含虚拟自变量的回归分析 7.7 含虚拟自变量的回归分析 7.8

在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。在上一章讲述了相关分析有关内容。本章介绍回归分析基本概念,回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。

7.1 回归分析基本概念 相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。  在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。

 在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。  相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。

具体地说,回归分析主要解决以下几方面的问题。  通过分析大量的样本数据,确定变量之间的数学关系式。  对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。  利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。

作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学家F·Galton(1822~1911)。

在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。

7.2 一元线性回归分析 7.2.1 统计学上的定义和计算公式 7.2 一元线性回归分析 7.2.1 统计学上的定义和计算公式 定义:一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。

在实际问题中,由于所要研究的现象的总体单位数一般是很多的,在许多场合甚至是无限的,因此无法掌握因变量y总体的全部取值。也就是说,总体回归方程事实上是未知的,需要利用样本的信息对其进行估计。显然,样本回归方程的函数形式应与总体回归方程的函数形式一致。

通过样本数据建立一个回归方程后,不能立即就用于对某个实际问题的预测。因为,应用最小二乘法求得的样本回归直线作为对总体回归直线的近似,这种近似是否合理,必须对其作各种统计检验。一般经常作以下的统计检验。

(1)拟合优度检验 回归方程的拟合优度检验就是要检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度。

回归方程的拟合优度检验一般用判定系数R2实现。该指标是建立在对总离差平方和进行分解的基础之上。

(2)回归方程的显著性检验(F检验) 回归方程的显著性检验是对因变量与所有自变量之间的线性关系是否显著的一种假设检验。 回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。

(3)回归系数的显著性检验(t检验) 所谓回归系数的显著性检验,就是根据样本估计的结果对总体回归系数的有关假设进行检验。 之所以对回归系数进行显著性检验,是因为回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量。因此,可以通过回归系数显著性检验对每个回归系数进行考察。

回归参数显著性检验的基本步骤。 ① 提出假设 ② 计算回归系数的t统计量值 ③ 根据给定的显著水平α确定临界值,或者计算t值所对应的p值 ④ 作出判断

7.2.2 SPSS中实现过程  研究问题 合成纤维的强度与其拉伸倍数有关,测得试验数据如表7-1所示。求合成纤维的强度与拉伸倍数之间是否存在显著的线性相关关系。

表7-1 强度与拉伸倍数的试验数据 序 号 拉 伸 倍 数 强度(kg/mm2) 1 2.0 1.6 2 2.5 2.4 3 2.7 4 3.5 5 4.0 6 4.5 4.2 7 5.2 5.0 8 6.3 6.4 9 7.1 6.5 10 8.0 7.3 11 9.0 12 10.0 8.1

 实现步骤 图7-1 在菜单中选择“Linear”命令

图7-2 “Linear Regression”对话框(一)

图7-3 “Linear Regression:Statistics”对话框

图7-4 “Linear Regression:Plots”对话框

图7-5 “Linear Regression:Save”对话框

图7-6 “Linear Regression:Options”对话框

7.2.3 结果和讨论 (1)输出结果文件中的第一个表格如下表所示。

(2)输出的结果文件中第二个表格如下表所示。

(3)输出的结果文件中第三个表格如下表所示。

(4)输出的结果文件中第四个表格如下表所示。

7.3 多元线性回归分析 7.3.1 统计学上的定义和计算公式 7.3 多元线性回归分析 7.3.1 统计学上的定义和计算公式 定义:在上一节中讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。

因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。

研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。

对多元线性回归,也需要测定方程的拟合程度、检验回归方程和回归系数的显著性。 (1)拟合优度检验 测定多元线性回归的拟合程度,与一元线性回归中的判定系数类似,使用多重判定系数,其定义为

(2)回归方程的显著性检验(F检验) 多元线性回归方程的显著性检验一般采用F检验,利用方差分析的方法进行。

(3)回归系数的显著性检验(t检验) 回归系数的显著性检验是检验各自变量x1,x2,…,对因变量y的影响是否显著,从而找出哪些自变量对y的影响是重要的,哪些是不重要的。 与一元线性回归一样,要检验解释变量对因变量y的线性作用是否显著,要使用t检验。

7.3.2 SPSS中实现过程  研究问题 用多元回归分析来分析36个员工多个心理变量值(z1~z8)对员工满意度my的预测效果,测得试验数据如表7-2所示。

表7-2 员工多个心理变量值和员工满意度数据 z1 z2 z3 z4 z5 z6 z7 Z8 满 意 度 66.00 64.00 62.00 表7-2 员工多个心理变量值和员工满意度数据 z1 z2 z3 z4 z5 z6 z7 Z8 满 意 度 66.00 64.00 62.00 50.00 58.00 56.00 1.08 1.00 25.00 55.00 59.00 53.00 51.00 1.11 22.00 47.00 49.00 45.00 46.00 1.31 1.20 20.00 54.00 52.00 69.00 48.00 24.00 68.00 23.00 60.00 21.00 57.00 39.00 44.00 1.69 15.00 1.14 65.00 63.00 1.46 1.43 26.00 2.23 1.29 2.08

z1 z2 z3 z4 z5 z6 z7 z8 满 意 度 61.00 55.00 58.00 1.15 1.14 23.00 59.00 64.00 60.00 52.00 54.00 56.00 1.08 1.00 26.00 72.00 67.00 68.00 40.00 51.00 1.85 1.71 30.00 25.00 53.00 62.00 47.00 63.00 1.31 27.00 57.00 45.00 1.23 20.00 71.00 74.00 50.00 18.00 24.00 46.00 49.00 43.00 48.00 19.00 65.00 1.77 1.43 17.00 44.00 42.00

图7-7 “Linear Regression”对话框(二)  实现步骤 图7-7 “Linear Regression”对话框(二)

7.3.3 结果和讨论 (1)输出结果文件中的第一个表格如下表所示。

2)输出的结果文件中第二个表格如下表所示。

(3)输出的结果文件中第三个表格如下表所示。

(4)输出的结果文件中第四个表格如下表所示。

(5)输出的结果文件中第五个表格如下表所示。

(6)输出的结果文件中第六个表格为回归系数分析,如下表所示

(7)输出的结果文件中第七个表格如下表所示。

(8)输出的结果文件中第八部分为图形,为回归因变量和每个自变量之间的关系点图。图7-8为自变量z1和my之间的关系点图。

7.4 非线性回归分析 7.4.1 统计学上的定义和计算公式 定义:研究在非线性相关条件下,自变量对因变量的数量变化关系,称为非线性回归分析。 在实际问题中,变量之间的相关关系往往不是线性的,而是非线性的,因而不能用线性回归方程来描述它们之间的相关关系,而要采用适当的非线性回归分析。

非线性回归问题大多数可以化为线性回归问题来求解,也就是通过对非线性回归模型进行适当的变量变换,使其化为线性模型来求解。一般步骤为:

 根据经验或者绘制散点图,选择适当的非线性回归方程;  通过变量置换,把非线性回归方程化为线性回归;  用线性回归分析中采用的方法来确定各回归系数的值;  对各系数进行显著性检验。

计算公式如下。 在本节中介绍几种常见的非线性回归模型,并分别给出其线性化方法及图形。

7.4.2 SPSS中实现过程  研究问题 研究民用汽车总量与国内生产总值的关系。数据如表7-3所示。(资料来源:《中国统计年鉴2007》,中国统计出版社,2007年)

图7-9 “Simple Scatterplot”对话框  实现步骤 图7-9 “Simple Scatterplot”对话框

图7-10 散点图

图7-11 “Curve Estimation”对话框(一)

7.4.3 结果和讨论 (1)第一部分输出相关统计量和参数的值,如下表所示。

(2)第二部分输出的是观察值和Cubic,Power两种曲线预测值的对比图,如图7-12所示。

7.5 曲 线 估 计 7.5.1 统计学上的定义和计算公式 定义:在一元回归分析中,一般首先绘制自变量和因变量间的散点图,然后通过数据在散点图中的分布特点选择所要进行回归分析的类型,是使用线性回归分析还是某种非线性的回归分析。

然而,在实际问题中,用户往往不能确定究竟该选择何种函数模型更接近样本数据,这时可以采用曲线估计的方法,其步骤如下:

 首先根据实际问题本身特点,同时选择几种模型;  然后SPSS自动完成模型的参数估计,并显示R2、F检验值、相伴概率值等统计量;  最后,选择具有R2统计量值最大的模型作为此问题的回归模型,并作一些预测。

7.5.2 SPSS中实现过程  研究问题 试用SPSS对国内生产总值和社会消费品零售总额之间的关系进行曲线回归分析。数据如表7-4所示。(资料来源:《中国统计年鉴2007》,中国统计出版社,2007年)

表7-4 1978~2006年社会消费品零售总额 年 份 国内生产总值(亿元) 社会消费品零售总额(亿元) 1978 3645.2 表7-4 1978~2006年社会消费品零售总额 年 份 国内生产总值(亿元) 社会消费品零售总额(亿元) 1978 3645.2 1558.6 1979 4062.6 1800.0 1980 4545.6 2140.0 1981 4891.6 2350.0 1982 5323.4 2570.0 1983 5962.7 2849.4 1984 7208.1 3376.4 1985 9016.0 4305.0 1986 10275.2 4950.0 1987 12058.6 5820.0 1988 15042.8 7440.0 1989 16992.3 8101.4 1990 18667.8 8300.1 1991 21781.5 9415.6 1992 26923.5 10993.7 1993 35333.9 12462.1 1994 48197.9 16264.7 1995 60793.7 20620.0 1996 71176.6 24774.1 1997 78973.0 27298.9 1998 84402.3 29152.5 1999 89677.1 31134.7 2000 99214.6 34152.6 2001 109655.2 37595.2 2002 120332.7 48135.9 2003 135822.8 52516.3 2004 159878.3 59501.0 2005 183867.9 67176.6 2006 210871.0 76410.0

图7-13 “Curve Estimation”对话框(二)  实现步骤 图7-13 “Curve Estimation”对话框(二)

图7-14 “Curve Estimation:Save”对话框(一)

7.5.3 结果和讨论 (1)SPSS输出结果文件中的第一部分如下表所示。

(2)输出的结果文件中第二部分如图7-15所示。

(3)由于进行曲线估计时所选的曲线模型种类较多,所以使得输出的观察值与在各种函数模型条件下预测值的对比图比较复杂,不易分辨出究竟Linear,Quadratic,Cubic及Power这4种曲线究竟哪种的对样本观察值的拟合优度更符合实际。

图7-16 对比图2

(4)重新回到图7-13所示对话框,在“Model”框内只选中“Quadratic”和“Cubic”这两种拟合优度更高的曲线模型进行估计。得出它们与观察值的对比图,如图7-17所示。

图7-17 对比图3

(5)如果在图7-13所示对话框中选中了“Display ANOVA table”项,作回归方程显著性检验,将输出相应的方差分析表,以Cubic模型为例(如下表所示),其结果是:回归方程显著有意义,并且x,x2,x3三个自变量的系数显著不为零。

(6)由于在图7-13所示对话框中选了“Save”项,且在图7-14所示的“Save Variables”框中选择了“Predicted values”,“Residuals”和“Prediction intervals”3个选项,因此在SPSS数据编辑窗口中就增了fit_1,err_1,lcl_1,ucl_1等44个变量的值,如图7-18所示。

图7-18 曲线估计分析结果保存

7.6 时间序列的曲线估计 7.6.1 统计学上的定义和计算公式 7.6 时间序列的曲线估计 7.6.1 统计学上的定义和计算公式 定义:时间序列的曲线估计是分析社会和经济现象中经常用到的一种曲线估计。通常把时间设为自变量x,代表具体的经济或社会现象的变量设为因变量y,研究变量x与y之间关系的方法就是时间序列曲线估计。其具体步骤与一般的曲线估计基本类似。 计算公式:SPSS中时间序列的曲线估计模型与上一节所介绍相同。

7.6.2 SPSS中实现过程  研究问题 试用SPSS对1978~2006年间社会消费品零售总额之间的关系进行曲线回归分析。数据如表7-5所示。(资料来源:《中国统计年鉴2007》,中国统计出版社,2007年)

表7-5 1978~2006年社会消费品零售总额 序 号 年 份 社会消费品零售总额(亿元) 1 1978 1558.6 2 1979 表7-5 1978~2006年社会消费品零售总额 序 号 年 份 社会消费品零售总额(亿元) 1 1978 1558.6 2 1979 1800.0 3 1980 2140.0 4 1981 2350.0 5 1982 2570.0 6 1983 2849.4 7 1984 3376.4 8 1985 4305.0 9 1986 4950.0 10 1987 5820.0 11 1988 7440.0 12 1989 8101.4 13 1990 8300.1 14 1991 9415.6 15 1992 10993.7 16 1993 14270.4 17 1994 18622.9 18 1995 23613.8 19 1996 28360.2 20 1997 31252.9 21 1998 33378.1 22 1999 35647.9 23 2000 39105.7 24 2001 43055.4 25 2002 48135.9 26 2003 52516.3 27 2004 59501.0 28 2005 67176.6 29 2006 76410.0

图7-19 “Curve Estimation”对话框(三)  实现步骤 图7-19 “Curve Estimation”对话框(三)

图7-20 “Curve Estimation:Save”对话框(二)

7.6.3 结果和讨论 (1)第一部分输出相关统计量和参数的值如下表所示。

(2)第二部分输出的是观察值Linear,Cubic,Power和Exponential 4种曲线预测值的对比图,如图7-21所示。

(3)由于在图7-19所示“Curve Estimation”对话框(三)中选了“Save”项,且在图7-20的“Save Variables”框中选择了“Predicted values”选项和“Predict Cases”框中选择了“Predict through”项,并且在“Observation”框中键入了“31”,因此在SPSS数据编辑窗口中就新增了fit_1,fit_2,fit_3和fit_4等4个变量的预测值,同时在窗口下方还新增了两个个案,它们分别代表对2007年和2008年的预测值。如图7-22所示。

7.7 含虚拟自变量的回归分析 7.7.1 统计学上的定义和计算公式 7.7 含虚拟自变量的回归分析 7.7.1 统计学上的定义和计算公式 定义:前面几节所讨论的回归模型中,因变量和自变量都是可以直接用数字计量的,即可以获得其实际观测值(如收入、支出、产量、国内生产总值等),这类变量称作数量变量、定量变量或数量因素。然而,在实际问题的研究中,经常会碰到一些非数量型的变量,如性别、民族、职业、文化程度、地区、正常年份与干旱年份、改革前与改革后等定性变量。

在建立一个实际问题的回归方程时,经常需要考虑这些定性变量。例如,建立粮食产量预测方程就应考虑到正常年份与受灾年份的不同影响;建立空调的销售模型时,除了要考虑居民收入和商品价格这两个量的因素之外,还必须将“季节”这个质的因素,作为一个重要解释变量。

由于受到质的因素影响,回归模型的参数不再是固定不变的。例如,在空调销售模型中,收入、价格与空调销售额的关系是随着季节变化而改变的,也就是说,在不同的季节回归模型的参数也会有所不同。再如,我国居民的消费行为在改革开放前后大不相同,因此消费函数的参数也会发生变化。显然,如果忽略质的因素,仍把模型中的参数看作是固定不变的,得到的参数估计量就不能正确描述经济变量之间的关系。

在回归分析中,对一些自变量是定性变量的先作数量化处理,处理的方法是引进只取“0”和“1”两个值的0−1型虚拟自变量。当某一属性出现时,虚拟变量取值为“1”,否则取值为“0”。例如,令“1”表示改革开放以后的时期,“0”则表示改革开放以前的时期。再如,用“l”表示某人是男性,“0”则表示某人是女性。虚拟变量也称为哑变量。需要指出的是,虽然虚拟变量取某一数值,但这一数值没有任何数量大小的意义,它仅仅用来说明观察单位的性质和属性。

如果在回归模型中需要引入多个0−1型虚拟变量D时,虚拟变量的个数应按下列原则来确定:对于包含一个具有k种特征或状态的质因素的回归模型,如果回归模型不带常数项,则中需引入k个0−1型虚拟变量D;如果有常数项,则只需引入k−1个0−1型虚拟变量D。当k=2时,只需要引入一个0−1型虚拟变量D。

计算公式如下。 下面以自变量所含定性变量是一个还是多个来分别说明如何构造含虚拟自变量的回归模型。 (1)自变量中只含一个定性变量,且这个定性变量只有两种特征的简单情况时。 (2)自变量中含多个定性变量时。

7.7.2 SPSS中实现过程  研究问题 研究采取某项保险革新措施的速度y与保险公司的规模x1及其类型d之间的关系,数据如表7-6所示。

表7-6 保险公司革新情况 i y x1 d 1 17 151 2 26 92 3 21 175 4 30 31 5 22 104 6 277 7 12 210 8 19 120 9 290 10 16 238 11 28 164 15 272 13 295 14 38 68 85 224 20 166 18 305 124 246

图7-23 “Linear Regression”对话框(三)  实现步骤 图7-23 “Linear Regression”对话框(三)

7.7.3 结果和讨论 (1)第一部分输出结果文件中的第一个表格如下表所示。

(2)输出的结果文件中第二个表格如下表所示。

(3)输出的结果文件中第三个表格如下表所示。

(4)输出的结果文件中第四个表格如下表所示。

7.8 逻辑回归分析 7.8.1 统计学上的定义和计算公式 定义:逻辑回归分析是对定性变量的回归分析。

可用于处理定性因变量的统计分析方法有:判别分析(Discriminant analysis)、Probit分析、Logistic回归分析和对数线性模型等。在社会科学中,应用最多的是Logistic回归分析。Logistic回归分析根据因变量取值类别不同,又可以分为Binary Logistic回归分析和Multinomi-nal Logistic回归分析。

Binary Logistic回归模型中因变量只能取两个值1和0(虚拟因变量),而Multinomial Logistic回归模型中因变量可以取多个值。本节将只讨论Binary Logistic回归,并简称Logistic回归(与7.5节曲线估计中介绍的Logistic曲线模型相区别)。Logistic函数的形式为

1.-2对数似然值(-2 log likelihood,-2LL)

2.拟合优度(Goodness of Fit)统计量 Logistic回归的拟合优度统计量计算公式为 在实际问题中,通常采用如下分类表(Classification Table)反映拟合效果。

Classification Table for Y Predicted(预测值) 1 Percent Correct (正确分类比例) Observed (观测值) n00 n01 f0 n10 n11 f1 Overall(总计) ff

3.Cox和Snell的R 2(Cox&Snell’s R-Square)

4.Nagelkerke的R 2(N agelkerke’s R-Square)

5.伪R 2(Psedo-R-square) 伪R2与线性回归模型的R2相对应,其意义相似,但它小于1。

6.Hosmer和Lemeshow的拟合优度检验统计量(Hosmer and Lemeshow's Goodness of Fit Test Statistic) 与一般拟合优度检验不同,Hosmer和Lemeshow的拟合优度检验通常把样本数据根据预测概率分为10组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer和Lemeshow的拟合优度检验统计量,简称H-L拟合优度检验统计量),最后根据自由度为8的卡方分布计算其值并对Logistic模型进行检验。

如果该p值小于给定的显著性水平(如=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果值大于,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据。

7.Wald统计量 Wald统计量用于判断一个变量是否应该包含在模型中,其检验步骤如下。 (1)提出假设。 (2)构造Wald统计量。 (3)作出统计判断。

7.8.2 SPSS中实现过程  研究问题 在一次关于某城镇居民上下班使用交通工具的社会调查中,因变量y =1表示居民主要乘坐公共汽车上下班;y =0表示主要骑自行车上下班;自变量x1表示被调查者的年龄;x2表示被调查者的月收入;x3表示被调查者的性别(x3=1为男性,x3=0为女性)。 试建立y与自变量间的Logistic回归,数据如表7-7所示。

表7-7 使用交通工具上下班情况 序号 x1(年龄) x2(月收入:元) x3(性别) y 1 18 850 2 21 1200 3 23 表7-7 使用交通工具上下班情况 序号 x1(年龄) x2(月收入:元) x3(性别) y 1 18 850 2 21 1200 3 23 4 950 5 28 6 31 7 36 1500 8 42 1000 9 46 10 48 11 55 1800 12 56 2100 13 58 14 15 20 16 25 17 27 1300 19 30 32 33 22 38 24 41 45 26 52

图7-24 “Logistic Regression”对话框  实现步骤 图7-24 “Logistic Regression”对话框

图7-25 “Logistic Regression:Options”对话框

7.8.3 结果和讨论 (1)第一部分输出结果有两个表格,第一个表格说明所有个案(28个)都被选入作为回归分析的个案。

第二个表格说明初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值。

(2)第二部分(Block 0)输出结果有4个表格。

(3)Omnibus Tests of Model Coefficients表格列出了模型系数的Omnibus Tests结果。

(4)Model Summary表给出了-2 对数似然值、Cox和Snell的R2以及Nagelkerke的R2检验统计结果。

(5)Hosmer and Lemeshow Test表格以及Contingency Table for Hosmer and Lemeshow Test表格给出了Hosmer和Lemeshow的拟合优度检验统计量。

(6)Classification Table分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86 (6)Classification Table分类表说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有76.9%准确性,因此对于所有个案总共有82.1%的准确性。

(7)Variables in the Equation表格列出了Step 1中各个变量对应的系数,以及该变量对应的Wald 统计量值和它对应的相伴概率。从该表格中可以看出x3相伴概率最小,Wald统计量最大,可见该变量在模型中很重要。

(8)Correlation Matrix表格列出了常数Constant、系数之间的相关矩阵。常数与x2之间的相关性最大,x1和x3之间的相关性最小。

(9)图7-26所示是观测值和预测概率分布图。该图以0和1为符号,每四个符号代表一个个案。横坐标是个案属于1的录属度,这里称为预测概率(Predicted Probability)。纵坐标是个案分布频数,反映个案的分布。

(10)逻辑回归的最后一个输出表格是Casewise List,列出了残差大于2的个案。

小 结 回归分析是研究变量与变量之间联系的最为广泛的模型。在实际中,根据变量的个数、类型,以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等。

小 结 一元线性回归只涉及一个自变量的回归问题;多元线性回归用于解决两个或两个以上自变量对一个因变量的数量变化关系问题;非线性回归主要解决在非线性相关条件下,自变量对因变量的数量变化关系;时间序列的曲线回归用于研究因变量与时间之间的变化关系;当遇到非数量型变量时,通过引入虚拟变量来构造含虚拟变量的回归模型;Logistic回归分析是对定性变量进行的回归分析。

小 结 SPSS中“Analyze”/“Regression”菜单可用于回归统计分析。其中,一元线性回归、多元线性回归和含虚拟变量的回归分析可由“Linear”子菜单完成;非线性回归分析、曲线估计和时间序列的曲线估计可由“Curve Estimation”子菜单完成;逻辑回归分析可由“Binary Logistic”子菜单完成。