Download presentation
Presentation is loading. Please wait.
1
第四章 SPSS的基本统计分析
2
基本统计分析 内容: 编制单变量频数分布表 计算单变量基本描述统计量以及不同分组下的描述统计量
编制多变量的交叉频数分布表,并以此分析变量间的关系 其他探索性分析 多选项分析
3
频 数 分 析 目的: 采用的方法: 粗略把握变量值的分布状况。 研究被调查者某方面的状态(如:购买家电的类型、居民月支出状况)
例:研究被调查者的特征(如:性别、年龄、收入) 研究被调查者某方面的状态(如:购买家电的类型、居民月支出状况) 采用的方法: 1、计算频分布表:包括计算频数、累计频数、百分比、累计百分比; 2、绘制统计图形:条形图、饼图等
4
频 数 分 析 基本操作步骤: (1)菜单项:analyze→descriptivestatistics→frequencies;
(2)选择几个待分析的变量到variables框; (3)chart选项,选择所需要的图形。 例:就数据库中“商品房购买意向的调查数据”分析被调查者的户籍状况以及他们认为房价的变化状况;商品房购买意向调查模拟数据.sav 课堂作业:就以上数据分析月住房开销的分布,并对不同居住类型进行比较。
5
频数分析 频数分析中的其他分析 计算分位数:适用于定距数据 数据按升序排序后,找到若干个分位点上的变量值
quartiles:计算四分位数25%(QL)、50%(中位数)、75%(QU) cut points for n equal groups:n等份 percentile:自定义百分位点 分位数的应用 在排除极端值影响的条件下,通过计算分位数差,比较两组样本数据的离散程度 例: ( QL=50,QU=80) 和 (QL=70,QU=75) 的比较
6
计算描述统计量 目的: 精确把握变量的总体分布状况,了解数据的集中趋势、离散趋势、对称程度、陡峭程度。 基本方法: 计算基本描述统计量。
7
计算描述统计量 内容: 描述集中趋势的统计量 描述离散程度的统计量 均值(mean):表示某变量所有变量值集中趋势或平均水平的统计量。
适用于定距数据。 特点:利用了全部数据,易受极端值的影响。 描述离散程度的统计量 标准差(standard deviation--Std Dev):表示某变量的所有变量值离散程度的统计量。 SPSS中计算的是样本标准差。 方差(variance):标准差的平方。 SPSS中计算的是样本方差。 极差 (range):最大值(maximum)—最小值(minimum)
8
计算描述统计量 描述对称程度的统计量 偏度(skewness):描述某变量分布形态的偏斜程度和方向的统计量. 偏度为0表示对称;
大于0表示正偏差大(右偏),频数最大的值比均值小,极值大于均值; 小于0表示负偏差大(左偏)。
9
计算描述统计量 描述陡峭程度的统计量 峰度(kurtosis):描述某变量所有变量值分布形态陡缓程度的统计量。
峭度为0表示与标准正态分布峭度相同。 大于0表示比标准正态分布陡,尖峰。 小于0表示比标准正态分布缓;平峰。
10
计算描述统计量 其他统计量 标准误差(standard error S.E):抽样分布中的标准差,反映样本误差。
均值标准误差(means of S.E) 中心极限定理认为:样本均值~N(u,2/n) 反映样本均值与总体真值间的平均离散程度 样本数越大,样本均值的离散程度越小,对真值的估计越准确
11
计算描述统计量 基本操作步骤 (1)菜单选项:analyze->descriptive statistics->descripive (2)选择将参加计算的数值型变量名到variables框。 例、1、就数据库中“商品房购买意向的调查数据”计算月住房开销的基本统计量,并对不同居住类型进行比较;商品房购买意向调查模拟数据.sav
12
计算描述统计量 其他功能 数据标准化处理 小于0表示在平均水平下,大于0反之.
新变量的均值为0,标准差为1; 小于0表示在平均水平下,大于0反之. 正态分布的数据标准化后呈标准正态分布(68.2%,95.4%,99.7%) save standardized values as variables选项 将变量作标准化后,结果存入名为“Z+原变量名”的新变量中. 例、1、就数据库中“商品房购买意向的调查数据”计算月住房开销的基本统计量,分析月住房开销的数量是否存在不均衡现象。 ;商品房购买意向调查模拟数据.sav
13
比率分析 目的:主要用于对两个变量间比率变化的描述分析,适用于定距型变量。
例、利用数据库中数据“保费收入”分析各地区财产保险业务的保费收入占全部保费收入比例情况。
14
交叉分组下的频数分析 目的 例:学习成绩与性别有关联吗?(两变量) 例:职业、性别、爱逛商店有关联吗?(三变量) 分析的主要步骤
了解不同变量在不同水平下的数据分布情况 例:学习成绩与性别有关联吗?(两变量) 例:职业、性别、爱逛商店有关联吗?(三变量) 分析的主要步骤 产生交叉列联表 分析列联表中变量间的关系
15
产生交叉列联表 什么是列联表 控制变量 列变量 行变量 地区 频数
16
产生交叉列联表 基本操作步骤 (1)菜单选项: analyze->descriptive statistics-> crosstabs (2)选择一个变量作为行变量到row框. (3)选择一个变量作为列变量到column框. (4)可选一个或多个变量作为控制变量到layer框. 控制变量的层次设置:同层为水平数加;不同层为水平数积. (5)是否显示各分组的棒图(display clustered bar charts )
17
产生交叉列联表 进一步计算 cells选项:选择在频数分析表中输出各种百分比. row:行百分比(Row pct);
column:列百分比(Col pct); total:总百分比(Tot pct);
18
例、利用数据库中数据“职工数据”分析不同职称和不同文化程度交叉分组下的职工频数分布情况。
19
例、利用数据库中数据“商品房购买意向调查数据”分析不同居住类型的被访者未来的购房预期是否一致。
20
分析列联表中变量间的关系 目的: 通过列联表分析,检验行列变量之间是否独立。 方法: 卡方检验:对品质数据的相关性进行度量。
21
分析列联表中变量间的关系 卡方检验 年龄与工资收入交叉列联表 低 中 高 青 400 0 0 中 0 500 0 老 0 0 600
低 中 高 青 中 老 低 中 高 青 中 老
22
分析列联表中变量间的关系 卡方检验基本步骤 (1)H0:行列变量之间无关联或相互独立 (2)构造卡方统计量
统计量服从(r-1)*(c-1)个自由度的卡方分布 count:观察(实际)频数 expected count:期望频数 (期望频数反映的是H0成立情况下的数据分布特征) Residual:剩余 (观察频数-期望频数)
23
分析列联表中变量间的关系 卡方检验基本步骤 (3)计算卡方统计量的值,并得到该统计量值的概率P值
(4)决策。概率P与显著性水平比较,小于等于则拒绝H0,否则不能拒绝 实现步骤 statistics选项 cells选项
24
分析列联表中变量间的关系 卡方检验的要求:
一般要求列联表中期望频数小于5的格子数不超过20%,否则会夸大卡方值,容易得出拒绝结论,可以合并单元格。 卡方值会受样本数的影响
25
多选项分析 多选项分析的基本思路 定义多选项变量集 多选项频数分析 多选项交叉分组下的频数分析
26
多选项分析 定义多选项变量集 目的:将已分解的变量定义为一个集合,便于进行多选项分析
菜单选项:analyze->multiple response->define sets 从原变量中选取被分解的变量(数值型)到variables in sets框 指定被分解的变量是按多选项二分法(dichotomize)分解还是按多选项分类法(categories)分解的 为变量集命名。系统自动在名字前加字符$.
27
多选项分析 多选项频数分析 多选项交叉分析下的频数分析
菜单选项:analyze->multiple response->frequencies 多选项交叉分析下的频数分析 菜单选项:analyze->multiple response->crosstabs
28
例、利用数据库中数据“商品房购买意向调查数据”分析:(1)分析被访者选择的付款方式;(2)分析不同收入段被访者选择的付款方式。
Similar presentations