第四章 SPSS基本统计分析 频数分析 计算基本描述统计量 探索性数据分析 交叉分组下的频数分析(卡方检验) 多选项分析 比率分析.

Slides:



Advertisements
Similar presentations
卡方检验. 内容 卡方检验入门 1 配对设计两样本率比较的 χ2 检验 2 行列表资料的分析 3 确切概率法 4.
Advertisements

一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
基于SPSS的数据分析(上) ——高雅.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
單元七、spss與相關係數 沈瑞棋.
第四章 基本统计分析.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
第五章 SPSS基本统计分析 §5.1 统计描述 什么是统计描述?
完全随机设计多样本资料秩和检验.
高等数学电子教案 第五章 定积分 第三节 微积分基本定理.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
第三节 函数的求导法则 一 函数的四则运算的微分法则 二 反函数的微分法则 三 复合函数的微分法则及微分 形式不变性 四 微分法小结.
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
统计学期末复习
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
第三章 SPSS基本统计分析.
本次课讲授:第二章第十一节,第十二节,第三章第一节, 下次课讲第三章第二节,第三节,第四节; 下次上课时交作业P29—P30
计算机数学基础 主讲老师: 邓辉文.
交叉表格分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.
第十章 方差分析.
数据挖掘工具性能比较.
连续型随机变量及其概率密度 一、概率密度的概念与性质 二、常见连续型随机变量的分布 三、小结.
第七章 参数估计 7.3 参数的区间估计.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
两组两分类资料检验.
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
完全随机设计多组资料的比较 赵耐青 卫生统计教研室.
相關分析 7.1 連續變項之相關係數:Pearson 積差相關 7.2 質化變項之相關係數
用计算器开方.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第六章 Excel的应用 一、Excel的单元格与区域 1、单元格:H8, D7, IV26等 2、区域:H2..D8, HS98:IT77
第4章 Excel电子表格制作软件 4.4 函数(一).
统计图表绘制 电子工业出版社.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
资料的描述性分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2011/7/11.
函 数 连 续 的 概 念 淮南职业技术学院.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
分数再认识三 真假带分数的练习课.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
难点:连续变量函数分布与二维连续变量分布
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
相关关系 主讲人:孟迎芳.
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
FVX1100介绍 法视特(上海)图像科技有限公司 施 俊.
三角 三角 三角 函数 余弦函数的图象和性质.
§4.5 最大公因式的矩阵求法( Ⅱ ).
Presentation transcript:

第四章 SPSS基本统计分析 频数分析 计算基本描述统计量 探索性数据分析 交叉分组下的频数分析(卡方检验) 多选项分析 比率分析

涉及的统计过程: “描述统计”的全部 “比较均值”的均值过程 “多重响应”过程 用途:主要用来描述一个或多个变量的描述性统计量以及分布特征,分析变量间的关系。

统计基础:随机变量与概率分布 随机变量:有些变量在观察前事先不能确定数值,但其取值又有一定规律性。 概率(probability) :描述随机事件发生的规律性、可能性。取值界于0和1之间。 离散性随机变量:如击中次数,常用概率分布列表示具体取值的概率。 连续性随机变量:如身高、体重等变量,常用概率分布密度函数表示某取值范围的概率。 随机变量取值是随机的,但取具体值的概率是确定的。

概率分布密度函数 格子越分越细,就形成概率分布密度曲线

常见的概率分布曲线 人均收入分配的曲线就是正偏曲线。 经济学中的供给曲线是正J 形曲线,需求曲线是反J 形曲线(纵轴:价格;横轴:数量)。 死亡率近似服从U 形曲线分布。

描述数据分布形状的特征量 偏度g1:分布形状的左右对称性。g1 >0 ,正偏态;g1 <0,负偏态 正态性检验

一、频数分析 目的:粗略把握数据的分布特征 功能: 编制频数分布表:频数、百分比、累计百分比 绘制频数分析中常用统计图:条图、饼图、直方图 计算基本描述统计量 频数表通常对定类和定序变量较适用。

基本操作:分析-描述统计-频率 选项按钮: 统计:选择输出统计量:集中、离散趋势、分布特征、百分位数。 图标:选择绘制的图形:条图、饼图、直方图(仅用于定量变量)。 格式:定义频数表输出格式

分析-描述统计-频率界面 可描述分类变量

统计选项 计算分位数 计算常用描述统计量

频数分布表格式定义

频数分析应用举例 储户的户口、职业(分类数据):使用频数、百分比描述,累计百分比无太大意义。 储户收入水平(定序数据):除使用频数、百分比外,还有累计百分比。 取款目的排名:频数分布表输出按频数降序输出频数—格式—降序个数 数据中若存在缺失值,使用有效百分比。

不同户口(城镇、农村)的人群取款目的分析:首先做数据拆分,再进行频数分析 取款金额(定量数据)的分析 不显示频数分析表 统计 图表:直方图 不同户口(城镇、农村)的人群取款目的分析:首先做数据拆分,再进行频数分析

条图 饼图 直方图

二、计算基本描述统计量 目的:精确把握变量的总体分布状况。 基本操作: 描述统计-频率过程:统计 描述统计- 描述过程 描述统计- 探索过程 描述统计- 探索过程 均值比较-均值 过程(分组显示) 用途:计算变量的集中趋势、离散趋势、偏度、峰度等指标,绘制统计图。

几个过程的基本描述统计量比较

“探索”过程可计算分组或不分组的描述性统计量

几个过程的其他功能

描述统计- 描述 过程的独有功能 例:你能很快找到取款数目异常(>3σ)的储户吗? 标准化变换 可产生变量的标准化变化值 可一次输出多个数值型变量的统计量,不产生频数分布图表 例:你能很快找到取款数目异常(>3σ)的储户吗?

均值比较-均值过程的独有功能 可以分层分组计算描述性统计量 分组输出结果 分层输出结果

可完成单因素纯随机设计方差分析 当自变量是有序变量时,可计算线性趋势检验统计量R和R2。

三、探索性数据分析 基本操作:分析-描述统计- 探索过程 目的:对数据进行初步考察 用途: 计算整体或分组数据的描述性统计指标 输出描述性统计图:茎叶图、直方图、箱式图 正态性检验、方差齐性检验 检查数据的错误,辨认奇异值

Outliers:显示5个最大值和最小值 M估计量:集中趋势的四种稳健估计量。

选项:缺失值处理 1、某观测在所选择的变量中有缺失值时,该观测不参与全部分析 2、仅在与该变量有关的分析中视为缺失值 3、缺失值做为一个组别输出 1。

绘制:1、输出图形:箱式图、茎叶图、直方图 2、正态性检验及图示 3、Levene方差齐性检验 首选Untransformed,对原始数据进行方差齐性检验,如果不齐,转换后再进行Power 估计(幂变换估计)

例:居民储蓄调查 描述城乡居民存取款金额的差别 检查存取款金额的奇异点和极端值 对存取款金额进行正态性检验和方差齐性检验,以便进一步选择分析方法。

幂变换估计:求得最佳的幂变换值,为选择转换方法提供参考。

M估计量:均数的稳健估计,有四种估计方法。

标记

箱式图是在剔除了变量的极端值、奇异点后计算统计量并绘制的。中间的黑粗线为中位数,红框为四分位间距的范围,上下两个细线为最大、最小值。

四、交叉分组下的频数分析 目的:掌握多变量的联合分布特征,分析变量间的关系。 功能: 产生描述多变量联合分布的列联表 比较两个(或以上)样本率或比例差异(卡方检验) 变量间的关联度分析

1、变量关系概述 变量间的关系:有关与无关。 有关:如果一个变量的取值发生变化,另外一个变量的取值也相应发生变化 无关:如果一个变量的变化不引起另一个变量的变化。

表述:结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。 自变量的不同取值在因变量上无差异,两变量无关。 性别与四级英语考试通过率的相关统计 表述:结果显示,当性别取值不同时,通过率变量的取值并未发生变化,因此性别与考试通过率无关。 自变量的不同取值在因变量上无差异,两变量无关。 自变量的不同取值在因变量上有差异,两变量有关。

表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。 因变量 自变量 表述:统计结果显示,当性别取值不同时,收入变量的取值发生了变化,因此性别与月收入有关。

2、双变量关系的统计类型

列联表的格式 条件分布、自由度;残差=观测频数-期望频数

列联分析——行列变量间的关系 两变量是否相互独立。 两变量是否有共变趋势。 一变量的变化多大程度上能由另一变量的变化来解释。 行变量发生变化,列变量取值是否也发生变化。 比较边缘百分比和条件百分比的差别。

卡方测量的原理: 卡方测量用来考察两变量是否独立(无关)。 其原理是根据这一概率定理:若两变量无关,则两变量中联合事件发生的概率应等于各自独立发生的概率乘积。 在列联表中,这一定理就具体转化为:若两变量无关,则两变量中条件概率应等于各自边缘概率的乘积。反之,则两变量有关,或两变量不独立。

由此可见,期望值与观察值的差距越大,说明两变量越不独立,也就越相关。因此, Pearson卡方的表达式如下: 当为四格表时, 卡方的取值在0~∞之间。卡方值越大,行列变量的关联性越强。

列联表的产生: 分析-描述统计-交叉表

界面说明 【行】:用于选择行*列表中的行变量。 【列】:用于选择行*列表中的列变量。 【层】:层变量。 【显示复式条形图】:显示复式条图。 【取消表格】:不输出行*列表。 【精确】:针对2*2以上的行*列表设定计算确切概率的方法。 注:安装SPSS时除非特别选定,否则“精确”模块一般不安装。

列联表所研究的问题 城镇和农村的储户收入水平状况相同吗? 不同班级的患病情况一致吗? 城乡储户认为存钱合算的比例是否相同? 行变量:户口 列变量:收入水平 不同班级的患病情况一致吗? 行变量:班级 列变量:患病 城乡储户认为存钱合算的比例是否相同? 列变量:什么合算

回答不同班级患病是否相同的问题,需要引入卡方检验。

1、卡方检验步骤 提出假设H0:行、列变量独立(对立假设为?) 计算检验统计量(卡方统计量服从(r-1)*(c-1)个自由度的卡方分布) 确定检验水平与界值 结果判断:查界值表、看P值大小 期望频数含义:遵从总体分布比例 行列数与检验水平确定时,卡方界值是唯一的:服从自由度为(r-1)×(c-1)的近似卡方分布 P值:出现此卡方值以及更极端情况的概率 自由度:当行列边缘分布确定时,计算期望分布时能自由取值的格子数。υ= (r-1)×(c-1)

卡方检验操作:统计量选项 Chi-square复选框:计算X2值。 Correlations复选框:计算行、列两变量的Pearson相关系数和Spearman等级相关系数。 Norminal复选框组:选择是否输出反映分类资料相关性的指标,很少使用。 Contingency coefficient复选框:即列联系数,其值界于0~1之间; Phi and Cramer's V复选框:这两者也是基于X2值的,Phi在四格表X2检验中界于-1~1之间,在R*C表X2检验中界于0~1之间;Cramer's V 则界于0~1之间; Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差; Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。 Ordinal复选框组:选择是否输出反映有序分类资料相关性的指标,很少使用。 Gamma复选框:界于0~1之间,所有观察实际数集中于左上角和右下角时,其值为1; Somers'd复选框:为独立变量上不存在同分的偶对中,同序对子数超过异序对子数的比例; Kendall's tau-b复选框:界于-1~1之间; Kendall's tau-c复选框:界于-1~1之间; Eta复选框:计算Eta值,其平方值可认为是应变量受不同因素影响所致方差的比例; Kappa复选框:计算Kappa值,即内部一致性系数; Risk复选框:计算比数比OR值; McNemanr复选框:进行McNemanr检验(一种非参检验); Cochran's and Mantel-Haenszel statistics复选框:计算X2M-H统计量(分层X2,也有写为X2CMH的),可在下方输出H0假设的OR值,默认为1。

【单元格】:用于定义列联表单元格中需要计算的指标: 计数:是否输出实际观察数和理论数; 百分比:是否输出行百分数、列百分数以及合计百分数; 残差:选择残差的显示方式; 【格式】:用于选择行变量是升序还是降序排列。

结果:城乡储户的收入水平没有明显差异。

Pearson卡方值的影响因素 实际频数与期望频数之差 期望频数的大小 列联表的单元格子数 样本量大小 因为卡方分布是连续性分布,单元格较多时,分类数据的不连续分布可近似卡方分布,但单元格少时,必须进行Yates连续性校正。

2、卡方检验的校正 自由度为1时,期望频数均大于5 :连续性校正 20%的单元格期望频数小于5:似然比卡方检验 T<5 and n<40或 T<1时:确切概率法

3、行列变量的关联度分析 该关联度类似于参数检验中相关系数的含义,取值多在(-1,1)区间 可描述行列变量的关联强度,多数是对Pearson卡方测量值进行的修正。 为两变量相关研究中的非参数方法,卡方检验中的关联度分析不太常用。

3.1、两定类变量的关联度 列联系数:取值0~1,其取值随着行列数的增加而增大 Phi系数:取值-1~1,适用于四格表,对样本量进行了修正 V系数:取值0~1,对样本量和行列数进行修正;四格表时,等于Phi系数 Phi and Cramer's V复选框:Phi在四格表X2检验中界于-1~1之间,在R*C表X2检验中界于0~1之间;Cramer's V 则界于0~1之间; Lambda复选框:在自变量预测中用于反映比例缩减误差,其值为1时表明自变量预测应变量好,为0时表明自变量预测应变量差; Uncertainty coefficient复选框:不确定系数,以熵为标准的比例缩减误差,其值接近1时表明后一变量的信息很大程度来自前一变量,其值接近0时表明后一变量的信息与前一变量无关。

3.2、两定序变量的关联度 同序对数(P)、异序对数(Q) :当一个变量为升序排列时,另一变量序列中有后面的一个变量值大于前面的一个变量值,则记为一个同序对;否则为异序对。 Kendall’s tau-b: 行列数相等时 Kendall’s tau-c: 任意列联表 Gamma系数:四格表检验 均为两变量相关检验中的非参数方法

3.3、其他关联度 一个定类变量,一个定距变量的关联度:Eta系数,类似方差分析的非参数检验 两定距变量(或定序变量)的关联度:相关(Correlations):计算Pearson和Spearman相关系数 这类变量不常用交叉表分析

4、配对计数资料的卡方检验 例子:海尔公司的市场调查数据:对每个消费者调查两个问题:1、是否购买过海尔冰箱(是、否) ?2、是否购买过海尔洗衣机(是、否) ? 问1:海尔冰箱和洗衣机的购买率是否有差别? 问2:每位消费者对海尔冰箱和洗衣机的购买一致性程度如何?

4、配对计数资料的卡方检验 McNemar:配对计数资料的卡方检验。零假设为两变量的阳性率无差别 Kappa一致性检验:系数取值-1~1。测量同一观测对象在两变量(两变量服从二项分布)上取值的一致性程度。其绝对值越接近1,说明一致性程度越高。一般来说: 系数>=0.7,一致性程度较高; 0.4~0.7,一致性程度一般; <0.4,一致性较弱 Risk分析:仅用于四格表,可给出医学统计中的相对危险度和比值比

五、多选项分析 目的:解决问卷设计中的多选项问题的分析 多选项分析步骤: 先将多选项问题分解,分解方法(是否丢失信息、是否易于分析): 二分法:把每个选项均转为二分类变量 有序分类法:把该问题按顺序转为多个问题 再进行频数分析 第107页:

例子:高考志愿调查 请按顺序选择你想报考的三所大学 北大 清华 人大 北师大 北京理工大学 北外 第一 第二 第三 。

二分法分解 你报考北大吗?1、是 2、否 你报考清华吗?1、是 2、否 你报考北师大吗?1、是 2、否 你报考北外吗?1、是 2、否 你报考北大吗?1、是 2、否 你报考清华吗?1、是 2、否 你报考北师大吗?1、是 2、否 你报考北外吗?1、是 2、否 你报考人大吗?1、是 2、否 你报考北理工吗?1、是 2、否

有序分类法分解 有序分类法较优。 志愿一:1~6 志愿二:1~6 志愿三:1~6 另一个例子:您有过下列症状吗(可多选)? A.失眠、B.多梦、C.情绪低落、D.记忆力减退 如何分解?

SPSS的多选项分析 基本操作:分析—多重响应—定义变量集, 定义多选项 二分法选择Dichotomies;分类法选择Categories,并列出取值范围。

多选项频数分析 基本操作:分析—多重响应—频率,多选项频数分析 例:对居民储蓄调查数据,指定目的一、目的二、目的三为多选项变量集后,选择频数分析后,SPSS自动汇总各种目的的频数表 如对不同年龄段的居民储蓄目的分析,可选择多选项的交叉表分析,分析不同年龄人群的储蓄目的

六、比率分析 目的:对两变量间的比率关系进行简单或分组描述分析。 特点:除基本描述统计量外,还有 加权比率均值:加权比率均值,是两变量均值的比。 AAD:平均绝对离差; COD:离散系数; PRD:相关价格微分,是比率均值与加权比率均值的比; COV:基于均值或中位数的变异系数 117页公式

基本操作:描述统计- 比率 过程