第四章 SPSS基本统计分析频数分析计算基本描述统计量探索性数据分析交叉分组下的频数分析（卡方检验）多选项分析比率分析.

第四章 SPSS基本统计分析频数分析计算基本描述统计量探索性数据分析交叉分组下的频数分析（卡方检验）多选项分析比率分析

涉及的统计过程： “描述统计”的全部 “比较均值”的均值过程 “多重响应”过程用途：主要用来描述一个或多个变量的描述性统计量以及分布特征，分析变量间的关系。

统计基础：随机变量与概率分布随机变量：有些变量在观察前事先不能确定数值，但其取值又有一定规律性。
概率(probability) ：描述随机事件发生的规律性、可能性。取值界于0和1之间。离散性随机变量：如击中次数，常用概率分布列表示具体取值的概率。连续性随机变量：如身高、体重等变量，常用概率分布密度函数表示某取值范围的概率。随机变量取值是随机的，但取具体值的概率是确定的。

概率分布密度函数格子越分越细，就形成概率分布密度曲线

常见的概率分布曲线人均收入分配的曲线就是正偏曲线。经济学中的供给曲线是正J 形曲线，需求曲线是反J 形曲线（纵轴：价格；横轴：数量）。
死亡率近似服从U 形曲线分布。

描述数据分布形状的特征量偏度g1：分布形状的左右对称性。g1 >0 ，正偏态；g1 <0，负偏态
正态性检验

一、频数分析目的：粗略把握数据的分布特征功能：编制频数分布表：频数、百分比、累计百分比绘制频数分析中常用统计图：条图、饼图、直方图
计算基本描述统计量频数表通常对定类和定序变量较适用。

基本操作：分析－描述统计－频率选项按钮：统计：选择输出统计量：集中、离散趋势、分布特征、百分位数。图标：选择绘制的图形：条图、饼图、直方图（仅用于定量变量）。格式：定义频数表输出格式

分析－描述统计－频率界面可描述分类变量

统计选项计算分位数计算常用描述统计量

频数分布表格式定义

频数分析应用举例储户的户口、职业（分类数据）：使用频数、百分比描述，累计百分比无太大意义。
储户收入水平（定序数据）：除使用频数、百分比外，还有累计百分比。取款目的排名：频数分布表输出按频数降序输出频数—格式—降序个数数据中若存在缺失值，使用有效百分比。

不同户口(城镇、农村)的人群取款目的分析：首先做数据拆分，再进行频数分析
取款金额（定量数据）的分析不显示频数分析表统计图表：直方图不同户口(城镇、农村)的人群取款目的分析：首先做数据拆分，再进行频数分析

条图饼图直方图

二、计算基本描述统计量目的：精确把握变量的总体分布状况。基本操作：描述统计－频率过程：统计描述统计－描述过程描述统计－探索过程
描述统计－探索过程均值比较－均值过程（分组显示）用途：计算变量的集中趋势、离散趋势、偏度、峰度等指标，绘制统计图。

几个过程的基本描述统计量比较

“探索”过程可计算分组或不分组的描述性统计量

几个过程的其他功能

描述统计－描述过程的独有功能例：你能很快找到取款数目异常（>3σ）的储户吗？标准化变换可产生变量的标准化变化值
可一次输出多个数值型变量的统计量，不产生频数分布图表例：你能很快找到取款数目异常（>3σ）的储户吗？

均值比较－均值过程的独有功能可以分层分组计算描述性统计量分组输出结果分层输出结果

可完成单因素纯随机设计方差分析当自变量是有序变量时，可计算线性趋势检验统计量R和R2。

三、探索性数据分析基本操作：分析－描述统计－探索过程目的：对数据进行初步考察用途：计算整体或分组数据的描述性统计指标
输出描述性统计图：茎叶图、直方图、箱式图正态性检验、方差齐性检验检查数据的错误，辨认奇异值

Outliers：显示5个最大值和最小值 M估计量：集中趋势的四种稳健估计量。

选项：缺失值处理 1、某观测在所选择的变量中有缺失值时，该观测不参与全部分析 2、仅在与该变量有关的分析中视为缺失值 3、缺失值做为一个组别输出
1。

绘制：1、输出图形：箱式图、茎叶图、直方图 2、正态性检验及图示 3、Levene方差齐性检验
首选Untransformed，对原始数据进行方差齐性检验，如果不齐，转换后再进行Power 估计（幂变换估计）

例：居民储蓄调查描述城乡居民存取款金额的差别检查存取款金额的奇异点和极端值
对存取款金额进行正态性检验和方差齐性检验，以便进一步选择分析方法。

幂变换估计：求得最佳的幂变换值，为选择转换方法提供参考。

M估计量：均数的稳健估计，有四种估计方法。

标记

箱式图是在剔除了变量的极端值、奇异点后计算统计量并绘制的。中间的黑粗线为中位数，红框为四分位间距的范围，上下两个细线为最大、最小值。

四、交叉分组下的频数分析目的：掌握多变量的联合分布特征，分析变量间的关系。功能：产生描述多变量联合分布的列联表
比较两个（或以上）样本率或比例差异（卡方检验）变量间的关联度分析

1、变量关系概述变量间的关系:有关与无关。有关:如果一个变量的取值发生变化，另外一个变量的取值也相应发生变化
无关:如果一个变量的变化不引起另一个变量的变化。

表述：结果显示，当性别取值不同时，通过率变量的取值并未发生变化，因此性别与考试通过率无关。自变量的不同取值在因变量上无差异，两变量无关。
性别与四级英语考试通过率的相关统计表述：结果显示，当性别取值不同时，通过率变量的取值并未发生变化，因此性别与考试通过率无关。自变量的不同取值在因变量上无差异，两变量无关。自变量的不同取值在因变量上有差异，两变量有关。

表述：统计结果显示，当性别取值不同时，收入变量的取值发生了变化，因此性别与月收入有关。
因变量自变量表述：统计结果显示，当性别取值不同时，收入变量的取值发生了变化，因此性别与月收入有关。

2、双变量关系的统计类型

列联表的格式条件分布、自由度；残差＝观测频数-期望频数

列联分析——行列变量间的关系两变量是否相互独立。两变量是否有共变趋势。一变量的变化多大程度上能由另一变量的变化来解释。
行变量发生变化，列变量取值是否也发生变化。比较边缘百分比和条件百分比的差别。

卡方测量的原理：卡方测量用来考察两变量是否独立(无关)。其原理是根据这一概率定理：若两变量无关，则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。在列联表中，这一定理就具体转化为：若两变量无关，则两变量中条件概率应等于各自边缘概率的乘积。反之，则两变量有关，或两变量不独立。

由此可见，期望值与观察值的差距越大，说明两变量越不独立，也就越相关。因此， Pearson卡方的表达式如下：
当为四格表时，卡方的取值在0~∞之间。卡方值越大，行列变量的关联性越强。

列联表的产生：分析－描述统计－交叉表

界面说明【行】：用于选择行*列表中的行变量。【列】：用于选择行*列表中的列变量。【层】：层变量。【显示复式条形图】：显示复式条图。
【取消表格】：不输出行*列表。【精确】：针对2*2以上的行*列表设定计算确切概率的方法。注：安装SPSS时除非特别选定，否则“精确”模块一般不安装。

列联表所研究的问题城镇和农村的储户收入水平状况相同吗？不同班级的患病情况一致吗？城乡储户认为存钱合算的比例是否相同？行变量：户口
列变量：收入水平不同班级的患病情况一致吗？行变量：班级列变量：患病城乡储户认为存钱合算的比例是否相同？列变量：什么合算

回答不同班级患病是否相同的问题，需要引入卡方检验。

1、卡方检验步骤提出假设H0：行、列变量独立（对立假设为？）计算检验统计量（卡方统计量服从(r-1)*(c-1)个自由度的卡方分布）
确定检验水平与界值结果判断：查界值表、看P值大小期望频数含义：遵从总体分布比例行列数与检验水平确定时，卡方界值是唯一的：服从自由度为（r-1）×(c-1)的近似卡方分布 P值：出现此卡方值以及更极端情况的概率自由度：当行列边缘分布确定时，计算期望分布时能自由取值的格子数。υ= （r-1）×(c-1)

卡方检验操作：统计量选项 Chi-square复选框：计算X2值。
Correlations复选框：计算行、列两变量的Pearson相关系数和Spearman等级相关系数。 Norminal复选框组：选择是否输出反映分类资料相关性的指标，很少使用。 Contingency coefficient复选框：即列联系数，其值界于0～1之间； Phi and Cramer's V复选框：这两者也是基于X2值的，Phi在四格表X2检验中界于-1～1之间，在R*C表X2检验中界于0～1之间；Cramer's V 则界于0～1之间； Lambda复选框：在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测应变量好，为0时表明自变量预测应变量差； Uncertainty coefficient复选框：不确定系数，以熵为标准的比例缩减误差，其值接近1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后一变量的信息与前一变量无关。 Ordinal复选框组：选择是否输出反映有序分类资料相关性的指标，很少使用。 Gamma复选框：界于0～1之间，所有观察实际数集中于左上角和右下角时，其值为1； Somers'd复选框：为独立变量上不存在同分的偶对中，同序对子数超过异序对子数的比例； Kendall's tau-b复选框：界于-1～1之间； Kendall's tau-c复选框：界于-1～1之间； Eta复选框：计算Eta值，其平方值可认为是应变量受不同因素影响所致方差的比例； Kappa复选框：计算Kappa值，即内部一致性系数； Risk复选框：计算比数比OR值； McNemanr复选框：进行McNemanr检验（一种非参检验）； Cochran's and Mantel-Haenszel statistics复选框：计算X2M-H统计量（分层X2，也有写为X2CMH的），可在下方输出H0假设的OR值，默认为1。

【单元格】：用于定义列联表单元格中需要计算的指标：
计数：是否输出实际观察数和理论数；百分比：是否输出行百分数、列百分数以及合计百分数；残差：选择残差的显示方式；【格式】：用于选择行变量是升序还是降序排列。

结果：城乡储户的收入水平没有明显差异。

Pearson卡方值的影响因素实际频数与期望频数之差期望频数的大小列联表的单元格子数样本量大小
因为卡方分布是连续性分布，单元格较多时，分类数据的不连续分布可近似卡方分布，但单元格少时，必须进行Yates连续性校正。

2、卡方检验的校正自由度为1时，期望频数均大于5 ：连续性校正 20%的单元格期望频数小于5：似然比卡方检验
T<5 and n<40或 T<1时：确切概率法

3、行列变量的关联度分析该关联度类似于参数检验中相关系数的含义，取值多在（－1，1）区间
可描述行列变量的关联强度，多数是对Pearson卡方测量值进行的修正。为两变量相关研究中的非参数方法，卡方检验中的关联度分析不太常用。

3.1、两定类变量的关联度列联系数：取值0～1，其取值随着行列数的增加而增大 Phi系数：取值-1～1，适用于四格表，对样本量进行了修正
V系数：取值0～1，对样本量和行列数进行修正;四格表时，等于Phi系数 Phi and Cramer's V复选框：Phi在四格表X2检验中界于-1～1之间，在R*C表X2检验中界于0～1之间；Cramer's V 则界于0～1之间； Lambda复选框：在自变量预测中用于反映比例缩减误差，其值为1时表明自变量预测应变量好，为0时表明自变量预测应变量差； Uncertainty coefficient复选框：不确定系数，以熵为标准的比例缩减误差，其值接近1时表明后一变量的信息很大程度来自前一变量，其值接近0时表明后一变量的信息与前一变量无关。

3.2、两定序变量的关联度同序对数（P）、异序对数（Q）：当一个变量为升序排列时，另一变量序列中有后面的一个变量值大于前面的一个变量值，则记为一个同序对；否则为异序对。 Kendall’s tau-b: 行列数相等时 Kendall’s tau-c: 任意列联表 Gamma系数：四格表检验均为两变量相关检验中的非参数方法

3.3、其他关联度一个定类变量，一个定距变量的关联度：Eta系数，类似方差分析的非参数检验
两定距变量（或定序变量）的关联度：相关（Correlations）：计算Pearson和Spearman相关系数这类变量不常用交叉表分析

4、配对计数资料的卡方检验例子：海尔公司的市场调查数据：对每个消费者调查两个问题：1、是否购买过海尔冰箱(是、否) ？2、是否购买过海尔洗衣机(是、否) ？问1：海尔冰箱和洗衣机的购买率是否有差别？问2：每位消费者对海尔冰箱和洗衣机的购买一致性程度如何？

4、配对计数资料的卡方检验 McNemar：配对计数资料的卡方检验。零假设为两变量的阳性率无差别
Kappa一致性检验：系数取值－1～1。测量同一观测对象在两变量（两变量服从二项分布）上取值的一致性程度。其绝对值越接近1，说明一致性程度越高。一般来说：系数>=0.7,一致性程度较高； 0.4~0.7,一致性程度一般； <0.4，一致性较弱 Risk分析：仅用于四格表，可给出医学统计中的相对危险度和比值比

五、多选项分析目的：解决问卷设计中的多选项问题的分析多选项分析步骤：先将多选项问题分解，分解方法（是否丢失信息、是否易于分析）：
二分法：把每个选项均转为二分类变量有序分类法：把该问题按顺序转为多个问题再进行频数分析第107页：

例子：高考志愿调查请按顺序选择你想报考的三所大学北大清华人大北师大北京理工大学北外第一第二第三。

二分法分解你报考北大吗？1、是 2、否你报考清华吗？1、是 2、否你报考北师大吗？1、是 2、否你报考北外吗？1、是 2、否
你报考北大吗？1、是 2、否你报考清华吗？1、是 2、否你报考北师大吗？1、是 2、否你报考北外吗？1、是 2、否你报考人大吗？1、是 2、否你报考北理工吗？1、是 2、否

有序分类法分解 有序分类法较优。志愿一：1～6 志愿二：1～6 志愿三：1～6 另一个例子：您有过下列症状吗（可多选）？
A.失眠、B.多梦、C.情绪低落、D.记忆力减退如何分解？

SPSS的多选项分析基本操作：分析—多重响应—定义变量集，定义多选项
二分法选择Dichotomies;分类法选择Categories，并列出取值范围。

多选项频数分析基本操作：分析—多重响应—频率，多选项频数分析
例：对居民储蓄调查数据，指定目的一、目的二、目的三为多选项变量集后，选择频数分析后，SPSS自动汇总各种目的的频数表如对不同年龄段的居民储蓄目的分析，可选择多选项的交叉表分析，分析不同年龄人群的储蓄目的

六、比率分析目的：对两变量间的比率关系进行简单或分组描述分析。特点：除基本描述统计量外，还有
加权比率均值：加权比率均值，是两变量均值的比。 AAD：平均绝对离差； COD：离散系数； PRD：相关价格微分，是比率均值与加权比率均值的比； COV：基于均值或中位数的变异系数 117页公式

基本操作：描述统计－比率过程

第四章 SPSS基本统计分析频数分析计算基本描述统计量探索性数据分析交叉分组下的频数分析（卡方检验）多选项分析比率分析.

Similar presentations

Presentation on theme: "第四章 SPSS基本统计分析频数分析计算基本描述统计量探索性数据分析交叉分组下的频数分析（卡方检验）多选项分析比率分析."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第四章 SPSS基本统计分析 频数分析 计算基本描述统计量 探索性数据分析 交叉分组下的频数分析（卡方检验） 多选项分析 比率分析.

Similar presentations

Presentation on theme: "第四章 SPSS基本统计分析 频数分析 计算基本描述统计量 探索性数据分析 交叉分组下的频数分析（卡方检验） 多选项分析 比率分析."— Presentation transcript:

Similar presentations

About project

反馈

第四章 SPSS基本统计分析频数分析计算基本描述统计量探索性数据分析交叉分组下的频数分析（卡方检验）多选项分析比率分析.

Presentation on theme: "第四章 SPSS基本统计分析频数分析计算基本描述统计量探索性数据分析交叉分组下的频数分析（卡方检验）多选项分析比率分析."— Presentation transcript: