第五章 SPSS基本统计分析 §5.1 统计描述 什么是统计描述? 统计描述是对所收集的数据资料进行加工整理、综合概括,通过图示、列表和计数对资料进行分析和描述。 统计描述的特点: 1)只能对统计数据的结构和总体情况进行描述,并不能深入了解统计数据的内部规律。 2)是统计分析的第一步,做好这一步是后面正确进行统计推断地先决条件。 多个模块可进行描述性分析,但专门为该目的而设计的几个模块则集中在Analyze -> Descriptive Statistics菜单项。
§5.2 基本描述统计量 一.描述集中趋势的统计量 1.均值(Mean) 2.众数(Mode) 3.中位数(Median) 4.总和(Sum) 二.描述离散趋势的统计量 1.标准差(Standard Deviation) 2.方差(Variance) 3.全距(Range) 4.四分位间距(Quartile) 5.最大值(Maximum) 6.最小值(Minimum) 7.标准误(Standard Error of Mean):描述样本均值与总体均值间的平均差异程度。
三.描述分布特征的量 1.峰度(Kurtosis) 数据分布的平峰或尖峰程度称为峰态。 峰度是描述峰态的统计量。 与正态分布相比,峰度K>0表示为尖顶峰分布,K<0时为平顶峰分布。K=0时为峰态与标准正态分布相当。
2.偏度(Skewness) 数据分布的不对称性称为偏态。 偏度是描述偏态的统计量。 偏度SK>0时为右(正)偏,偏度SK<0时为左(负)偏
四.案例分析 高校人文社科活动人员情况 输出窗口 五.分组计算描述统计量(文件拆分) 四.案例分析 高校人文社科活动人员情况 输出窗口 五.分组计算描述统计量(文件拆分) SPSS中的文件拆分功能并非将一个数据文件拆分成两个或者若干个独立的数据文件,而是按某个或者多个拆分变量进行排序,得到分组的效果。 拆分变量类似分组变量。 文件拆分的步骤: 菜单:Data— Split File 命令 需要注意两点: 拆分处理对以后的SPSS分析操作均起作用。若希望恢复对所有数据的整体分析操作,还需要重新执行拆分功能,并选中Analyze all cases项。 2. 可以进行多重拆分
§5.3 变量的频数统计 一.变量频数的描述方法 1.频数、百分比 频数(Frequency):变量在各个变量值上取值得个案数 频数统计的功能是描述变量的分布特征。 一.变量频数的描述方法 1.频数、百分比 频数(Frequency):变量在各个变量值上取值得个案数 百分比(Percent):频数/总个案数 有效百分比(Valid Percent):不包含缺失值个案的所有个案中各频数变量取值的比例。 累计百分比(Cumulative Percent):各百分比的合计。
2.分位值(Percentile Values) 分位值表示频数统计变量在个案不同百分位点上的取值。
分位点 在0-100之间 常用的是四分位点(Quartiles) 0 25% 50% 75% 100% ( 四分位点 ) 四分位间距=P75-P25=18126-1769.25=16356.75
用户可自定义分位点(Percentile) 有两种方式:1) 自定义分位点 2) 自定义分段数 分段数为5 分位点为30,50,80,90
用直条的长短来表示非连续性资料的数量大小。 3.统计图形 (1)条形图(Bar Charts) 用直条的长短来表示非连续性资料的数量大小。 受教育程度 个案数 小学 1 初中 2 高中 大学 9 硕士研究生
(2)直方图(Histogram Charts) 以一组无间隔的直条图表现频数分布特征的统计图,直方图的每一条图形高度分别表示相应组别的频数。
(3)饼图(Pie Charts) 用圆的整体面积代表被研究对象的总体,按构成部分的比重把圆面积分成若干个扇形,用以表示对象的部分对总体的比例关系的统计图。 受教育程度 个案数 小学 1 初中 2 高中 大学 9 硕士研究生
频数分析步骤: 菜单: Analyze— Descriptive Statistics— Frequencies 命令 实例:对“休闲调查1.sav”中的“文化程度”进行频数分析并输出直方图 实例:数据文件high.sav记录了110名男童的身高资料,变量groupmid代表所在组的组中值,freq代表组段频数,请求出资料的均数、标准差、中位数和四分位间距. 第四节
第四章 SPSS输出窗口的操作和管理 索引输出区:用树型结构形式显示已有分析结果的标题和内容索引的区域。 详解输出区:对各个分析结果的具体详细报告。 两部分用红色右箭头一一对应。 §4.1 索引输出区管理 一. 索引输出区的组成 索引输出区是一棵横向放倒的树。 树根名为Output. 子树 子树项
§4.2 详解输出区管理 一. 分析表格 二. 详解输出区的操作和管理 §4.3 输出窗口中分析结果的存取 保存输出窗口中的内容 二. 索引输出区的操作和管理 §4.2 详解输出区管理 一. 分析表格 二. 详解输出区的操作和管理 §4.3 输出窗口中分析结果的存取 保存输出窗口中的内容 .SPO文件 二. 打开存放磁盘上的输出结果文件 返回
§5.4 交叉分组下的频数分析 交叉分组下的频数分析是对两个变量之间关系进行分析,也称为交叉列联表分析,一般应用于名义水准和顺序水准的变量。 若研究的两变量都是定量数据时,通常使用相关分析或者回归分析的方法研究它们之间的关系。
一.交叉分组下的频数分析的主要任务 1.产生交叉列联表(列联表) 交叉列联表是按两种非定距变量对一组个案进行交叉分组所得的频数分布表。 其主要功能是分析各事物、现象的差异性,如分析一个行变量和一个列变量的差异性。
例:对“休闲调查1.sav”中“性别”和“对闲暇生活的满意度—夫妻共度闲暇时间状况”进行交叉列联表分析。分析“性别”是否对“夫妻共度闲暇时间的满意度”有影响。
交叉列联表的组成: 1.表头 2.行变量 3.列变量 4.层控制变量(三维以上列联表) 5.单元格,包括: (1)观察频数 (2)期望频数 (1)观察频数 (2)期望频数 (3)行百分比 (4)列百分比 (5)总百分比 (6)剩余(观察频数-期望频数) (7)标准化剩余等
思路:若期望频数分布与实际频数分布越一致,则说明其中一个变量对另一变量的影响越小,即两变量相关性越小,越独立。 2.行列变量独立性分析 思路:若期望频数分布与实际频数分布越一致,则说明其中一个变量对另一变量的影响越小,即两变量相关性越小,越独立。 卡方检验法: 检验的零假设为:行列变量之间彼此独立。 检验统计量为: 其中, 表示实际观察频数, 表示期望频数。 服从自由度为(行数-1)×(列数-1)的卡方分布
的值越小,说明两变量 独立的概率越大,所对应的P值越小。 反之,若两变量不独立,则对应的P值越大。 若给定显著性水平 当P值<0.05(或者0.01)时, 拒绝原假设,即认为行列变量不相互独立,否则,即当P值>=0.05(或者0.01)时, 接收原假设,即不能否认行列变量相互独立。
注意: 若交叉列联表中有20%以上单元中的期望频数小于5,则一般不适用于卡方检验。
—Descriptive Statistics —Crosstabs 命令 二.交叉分组下的频数分析的操作步骤 菜单: Analyze —Descriptive Statistics —Crosstabs 命令
例题结论: 第一个表:显示个案的统计数目表。, 对于在“性别和夫妻共度闲暇时间状况”的列联表中,有效的个案数为283个,占个案总数的百分之百,缺失值的个数为0,占个案总数的百分之零。总的个案数为283个。
第二个表:显示交叉列联表。 由“性别和夫妻共度闲暇时间状况”的列联表可知,就总体来讲,有接近一半的被调查者对夫妻共度闲暇时间的满意度认为“不好说”,即持中立态度。认为很不满意的仅占2.5%。而认为“不太满意”、“比较满意”和“很满意”的比例基本一致,各占约16%。
具体来看,283名被调查者中,男女比例基本各占一半,其中男性143人,女性140人。男性中,认为“很不满意”、“不太满意”、“不好说”、“比较满意”、“很满意”的比例分别为:1.4%、13.3%、50.3%、23.1%和11.9 %。而女性中的比例分别为为:3.6%、17.9%、48.6%、10%和20%。即不管男性还是女性,持中立意见的仍为多数,约占各自的50%;而认为很不满意的比例则都很小;认为满意的(包括比较满意和很满意)均约占30%。
第三个表:卡方检验表 由卡方检验统计量可知,在0.05的显著水平下,卡方双尾检验值(即P值)为0.014,小于显著水平,因此有理由认为性别对于夫妻共度闲暇时间状况的满意度所持的看法是一致的。