Download presentation
Presentation is loading. Please wait.
1
第四章 SPSS基本统计分析 频数分析 计算基本描述统计量 探索性数据分析 交叉分组下的频数分析(卡方检验) 多选项分析 比率分析
2
涉及的统计过程: “描述统计”的全部 “比较均值”的均值过程 “多重响应”过程 用途:主要用来描述一个或多个变量的描述性统计量以及分布特征,分析变量间的关系。
3
统计基础:随机变量与概率分布 随机变量:有些变量在观察前事先不能确定数值,但其取值又有一定规律性。
概率(probability) :描述随机事件发生的规律性、可能性。取值界于0和1之间。 离散性随机变量:如击中次数,常用概率分布列表示具体取值的概率。 连续性随机变量:如身高、体重等变量,常用概率分布密度函数表示某取值范围的概率。 随机变量取值是随机的,但取具体值的概率是确定的。
4
概率分布密度函数 格子越分越细,就形成概率分布密度曲线
5
常见的概率分布曲线 人均收入分配的曲线就是正偏曲线。 经济学中的供给曲线是正J 形曲线,需求曲线是反J 形曲线(纵轴:价格;横轴:数量)。
死亡率近似服从U 形曲线分布。
6
描述数据分布形状的特征量 偏度g1:分布形状的左右对称性。g1 >0 ,正偏态;g1 <0,负偏态
正态性检验
7
一、频数分析 目的:粗略把握数据的分布特征 功能: 编制频数分布表:频数、百分比、累计百分比 绘制频数分析中常用统计图:条图、饼图、直方图
计算基本描述统计量 频数表通常对定类和定序变量较适用。
8
基本操作:分析-描述统计-频率 选项按钮: 统计:选择输出统计量:集中、离散趋势、分布特征、百分位数。 图标:选择绘制的图形:条图、饼图、直方图(仅用于定量变量)。 格式:定义频数表输出格式
9
分析-描述统计-频率界面 可描述分类变量
10
统计选项 计算分位数 计算常用描述统计量
11
频数分布表格式定义
12
频数分析应用举例 储户的户口、职业(分类数据):使用频数、百分比描述,累计百分比无太大意义。
储户收入水平(定序数据):除使用频数、百分比外,还有累计百分比。 取款目的排名:频数分布表输出按频数降序输出频数—格式—降序个数 数据中若存在缺失值,使用有效百分比。
13
不同户口(城镇、农村)的人群取款目的分析:首先做数据拆分,再进行频数分析
取款金额(定量数据)的分析 不显示频数分析表 统计 图表:直方图 不同户口(城镇、农村)的人群取款目的分析:首先做数据拆分,再进行频数分析
14
条图 饼图 直方图
15
二、计算基本描述统计量 目的:精确把握变量的总体分布状况。 基本操作: 描述统计-频率过程:统计 描述统计- 描述过程 描述统计- 探索过程
描述统计- 探索过程 均值比较-均值 过程(分组显示) 用途:计算变量的集中趋势、离散趋势、偏度、峰度等指标,绘制统计图。
16
几个过程的基本描述统计量比较
18
“探索”过程可计算分组或不分组的描述性统计量
19
几个过程的其他功能
20
描述统计- 描述 过程的独有功能 例:你能很快找到取款数目异常(>3σ)的储户吗? 标准化变换 可产生变量的标准化变化值
可一次输出多个数值型变量的统计量,不产生频数分布图表 例:你能很快找到取款数目异常(>3σ)的储户吗?
21
均值比较-均值过程的独有功能 可以分层分组计算描述性统计量 分组输出结果 分层输出结果
22
可完成单因素纯随机设计方差分析 当自变量是有序变量时,可计算线性趋势检验统计量R和R2。
23
三、探索性数据分析 基本操作:分析-描述统计- 探索过程 目的:对数据进行初步考察 用途: 计算整体或分组数据的描述性统计指标
输出描述性统计图:茎叶图、直方图、箱式图 正态性检验、方差齐性检验 检查数据的错误,辨认奇异值
24
Outliers:显示5个最大值和最小值 M估计量:集中趋势的四种稳健估计量。
25
选项:缺失值处理 1、某观测在所选择的变量中有缺失值时,该观测不参与全部分析 2、仅在与该变量有关的分析中视为缺失值 3、缺失值做为一个组别输出
1。
26
绘制:1、输出图形:箱式图、茎叶图、直方图 2、正态性检验及图示 3、Levene方差齐性检验
首选Untransformed,对原始数据进行方差齐性检验,如果不齐,转换后再进行Power 估计(幂变换估计)
27
例:居民储蓄调查 描述城乡居民存取款金额的差别 检查存取款金额的奇异点和极端值
对存取款金额进行正态性检验和方差齐性检验,以便进一步选择分析方法。
28
幂变换估计:求得最佳的幂变换值,为选择转换方法提供参考。
30
M估计量:均数的稳健估计,有四种估计方法。
31
标记
35
箱式图是在剔除了变量的极端值、奇异点后计算统计量并绘制的。中间的黑粗线为中位数,红框为四分位间距的范围,上下两个细线为最大、最小值。
36
四、交叉分组下的频数分析 目的:掌握多变量的联合分布特征,分析变量间的关系。 功能: 产生描述多变量联合分布的列联表
比较两个(或以上)样本率或比例差异(卡方检验) 变量间的关联度分析
37
1、变量关系概述 变量间的关系:有关与无关。 有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化
无关:如果一个变量的变化不引起另一个变量的变化。
38
表述:结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。 自变量的不同取值在因变量上无差异,两变量无关。
性别与四级英语考试通过率的相关统计 表述:结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。 自变量的不同取值在因变量上无差异,两变量无关。 自变量的不同取值在因变量上有差异,两变量有关。
39
表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。
因变量 自变量 表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。
40
2、双变量关系的统计类型
41
列联表的格式 条件分布、自由度;残差=观测频数-期望频数
42
列联分析——行列变量间的关系 两变量是否相互独立。 两变量是否有共变趋势。 一变量的变化多大程度上能由另一变量的变化来解释。
行变量发生变化,列变量取值是否也发生变化。 比较边缘百分比和条件百分比的差别。
43
卡方测量的原理: 卡方测量用来考察两变量是否独立(无关)。 其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。 在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘概率的乘积。反之,则两变量有关,或两变量不独立。
44
由此可见,期望值与观察值的差距越大,说明两变量越不独立,也就越相关。因此, Pearson卡方的表达式如下:
当为四格表时, 卡方的取值在0~∞之间。卡方值越大,行列变量的关联性越强。
45
列联表的产生: 分析-描述统计-交叉表
46
界面说明 【行】:用于选择行*列表中的行变量。 【列】:用于选择行*列表中的列变量。 【层】:层变量。 【显示复式条形图】:显示复式条图。
【取消表格】:不输出行*列表。 【精确】:针对2*2以上的行*列表设定计算确切概率的方法。 注:安装SPSS时除非特别选定,否则“精确”模块一般不安装。
47
列联表所研究的问题 城镇和农村的储户收入水平状况相同吗? 不同班级的患病情况一致吗? 城乡储户认为存钱合算的比例是否相同? 行变量:户口
列变量:收入水平 不同班级的患病情况一致吗? 行变量:班级 列变量:患病 城乡储户认为存钱合算的比例是否相同? 列变量:什么合算
48
回答不同班级患病是否相同的问题,需要引入卡方检验。
49
1、卡方检验步骤 提出假设H0:行、列变量独立(对立假设为?) 计算检验统计量(卡方统计量服从(r-1)*(c-1)个自由度的卡方分布)
确定检验水平与界值 结果判断:查界值表、看P值大小 期望频数含义:遵从总体分布比例 行列数与检验水平确定时,卡方界值是唯一的:服从自由度为(r-1)×(c-1)的近似卡方分布 P值:出现此卡方值以及更极端情况的概率 自由度:当行列边缘分布确定时,计算期望分布时能自由取值的格子数。υ= (r-1)×(c-1)
50
卡方检验操作:统计量选项 Chi-square复选框:计算X2值。
Correlations复选框:计算行、列两变量的Pearson相关系数和Spearman等级相关系数。 Norminal复选框组:选择是否输出反映分类资料相关性的指标,很少使用。 Contingency coefficient复选框:即列联系数,其值界于0~1之间; Phi and Cramer's V复选框:这两者也是基于X2值的,Phi在四格表X2检验中界于-1~1之间,在R*C表X2检验中界于0~1之间;Cramer's V 则界于0~1之间; Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差; Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。 Ordinal复选框组:选择是否输出反映有序分类资料相关性的指标,很少使用。 Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1; Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例; Kendall's tau-b复选框:界于-1~1之间; Kendall's tau-c复选框:界于-1~1之间; Eta复选框:计算Eta值,其平方值可认为是应变量受不同因素影响所致方差的比例; Kappa复选框:计算Kappa值,即内部一致性系数; Risk复选框:计算比数比OR值; McNemanr复选框:进行McNemanr检验(一种非参检验); Cochran's and Mantel-Haenszel statistics复选框:计算X2M-H统计量(分层X2,也有写为X2CMH的),可在下方输出H0假设的OR值,默认为1。
51
【单元格】:用于定义列联表单元格中需要计算的指标:
计数:是否输出实际观察数和理论数; 百分比:是否输出行百分数、列百分数以及合计百分数; 残差:选择残差的显示方式; 【格式】:用于选择行变量是升序还是降序排列。
52
结果:城乡储户的收入水平没有明显差异。
53
Pearson卡方值的影响因素 实际频数与期望频数之差 期望频数的大小 列联表的单元格子数 样本量大小
因为卡方分布是连续性分布,单元格较多时,分类数据的不连续分布可近似卡方分布,但单元格少时,必须进行Yates连续性校正。
54
2、卡方检验的校正 自由度为1时,期望频数均大于5 :连续性校正 20%的单元格期望频数小于5:似然比卡方检验
T<5 and n<40或 T<1时:确切概率法
55
3、行列变量的关联度分析 该关联度类似于参数检验中相关系数的含义,取值多在(-1,1)区间
可描述行列变量的关联强度,多数是对Pearson卡方测量值进行的修正。 为两变量相关研究中的非参数方法,卡方检验中的关联度分析不太常用。
56
3.1、两定类变量的关联度 列联系数:取值0~1,其取值随着行列数的增加而增大 Phi系数:取值-1~1,适用于四格表,对样本量进行了修正
V系数:取值0~1,对样本量和行列数进行修正;四格表时,等于Phi系数 Phi and Cramer's V复选框:Phi在四格表X2检验中界于-1~1之间,在R*C表X2检验中界于0~1之间;Cramer's V 则界于0~1之间; Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差; Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。
57
3.2、两定序变量的关联度 同序对数(P)、异序对数(Q) :当一个变量为升序排列时,另一变量序列中有后面的一个变量值大于前面的一个变量值,则记为一个同序对;否则为异序对。 Kendall’s tau-b: 行列数相等时 Kendall’s tau-c: 任意列联表 Gamma系数:四格表检验 均为两变量相关检验中的非参数方法
58
3.3、其他关联度 一个定类变量,一个定距变量的关联度:Eta系数,类似方差分析的非参数检验
两定距变量(或定序变量)的关联度:相关(Correlations):计算Pearson和Spearman相关系数 这类变量不常用交叉表分析
59
4、配对计数资料的卡方检验 例子:海尔公司的市场调查数据:对每个消费者调查两个问题:1、是否购买过海尔冰箱(是、否) ?2、是否购买过海尔洗衣机(是、否) ? 问1:海尔冰箱和洗衣机的购买率是否有差别? 问2:每位消费者对海尔冰箱和洗衣机的购买一致性程度如何?
60
4、配对计数资料的卡方检验 McNemar:配对计数资料的卡方检验。零假设为两变量的阳性率无差别
Kappa一致性检验:系数取值-1~1。测量同一观测对象在两变量(两变量服从二项分布)上取值的一致性程度。其绝对值越接近1,说明一致性程度越高。一般来说: 系数>=0.7,一致性程度较高; 0.4~0.7,一致性程度一般; <0.4,一致性较弱 Risk分析:仅用于四格表,可给出医学统计中的相对危险度和比值比
61
五、多选项分析 目的:解决问卷设计中的多选项问题的分析 多选项分析步骤: 先将多选项问题分解,分解方法(是否丢失信息、是否易于分析):
二分法:把每个选项均转为二分类变量 有序分类法:把该问题按顺序转为多个问题 再进行频数分析 第107页:
62
例子:高考志愿调查 请按顺序选择你想报考的三所大学 北大 清华 人大 北师大 北京理工大学 北外 第一 第二 第三 。
63
二分法分解 你报考北大吗?1、是 2、否 你报考清华吗?1、是 2、否 你报考北师大吗?1、是 2、否 你报考北外吗?1、是 2、否
你报考北大吗?1、是 2、否 你报考清华吗?1、是 2、否 你报考北师大吗?1、是 2、否 你报考北外吗?1、是 2、否 你报考人大吗?1、是 2、否 你报考北理工吗?1、是 2、否
64
有序分类法分解 有序分类法较优。 志愿一:1~6 志愿二:1~6 志愿三:1~6 另一个例子:您有过下列症状吗(可多选)?
A.失眠、B.多梦、C.情绪低落、D.记忆力减退 如何分解?
65
SPSS的多选项分析 基本操作:分析—多重响应—定义变量集, 定义多选项
二分法选择Dichotomies;分类法选择Categories,并列出取值范围。
66
多选项频数分析 基本操作:分析—多重响应—频率,多选项频数分析
例:对居民储蓄调查数据,指定目的一、目的二、目的三为多选项变量集后,选择频数分析后,SPSS自动汇总各种目的的频数表 如对不同年龄段的居民储蓄目的分析,可选择多选项的交叉表分析,分析不同年龄人群的储蓄目的
68
六、比率分析 目的:对两变量间的比率关系进行简单或分组描述分析。 特点:除基本描述统计量外,还有
加权比率均值:加权比率均值,是两变量均值的比。 AAD:平均绝对离差; COD:离散系数; PRD:相关价格微分,是比率均值与加权比率均值的比; COV:基于均值或中位数的变异系数 117页公式
69
基本操作:描述统计- 比率 过程
Similar presentations