第三章 SPSS基本统计分析
SPSS的主要分析工具——Analyze菜单 报告--Rports 描述性统计分析--Descriptive Statistics菜单 表格--Tables 均数间的比较--Compare Means菜单 一般线性模型――General Linear Model菜单 相关分析――Correlate菜单 多元线性回归与曲线拟合―― Regression菜单 对数线性模型——Loglinear菜单 聚类分析与判别分析——Classify菜单 因子分析与对应分析——Data Reduction菜单 信度分析与多维尺度分析——Scale菜单 非参数检验――Nonparametric Tests菜单 时间序列分析--Time series
【频数】:频数分析过程,特色是产生频数表(主要针对分类变量) 【描述】:数据描述过程,进行一般性的统计描述(主要针对数值型变量) 描述性统计分析是统计分析的第一步,做好这第一步是下面进行正确统计推断的先决条件。SPSS的许多模块均可完成描述性分析,但专门为该目的而设计的几个模块则集中在【描述统计】菜单中,包括: 【频数】:频数分析过程,特色是产生频数表(主要针对分类变量) 【描述】:数据描述过程,进行一般性的统计描述(主要针对数值型变量) 【探索】:数据探察过程,用于对数据概况不清时的探索性分析 【交叉表】:多维频数分布交叉表分析(列联表分析) 【比率】:比率分析
3.1 频数分析 4.1.1 频数分析的目的和基本任务 1、目的:基本统计分析往往从频数分析开始。通过频数分析能够了解变量取值的状况,对把握数据的分布特征是非常有用的。 2、基本任务 (1)频数分析的第一个基本任务是编制频数分布表。 频数(Frequency):即变量值落在某个区间(或某个类别)中的次数 百分比(Percent):即各频数占总样本数的百分比 有效百分比(Valid Percent):即各频数占有效样本数的百分比,这里有效样本数=总样本-缺失样本数 累计百分比(Cumulative Percent):即各百分比逐级累加起来的结果。最终取值为100。
(2)频数分析的第二个任务是绘制统计图 条形图(Bar Chart):用宽度相同的条形的高度或长短来表示频数分布变化的图形,适用于定序和定类变量的分析。 饼图(Pie Chart):用圆形及圆内扇形的面积来表示频数百分比变化的图形,以利于研究事物内在结构组成等问题。 直方图(Histograms):用矩形的面积来表示频数分布变化的图形,适用于定距型变量的分析。
b 定序 (Ordinal Scale):计次、排序 c 定距(Interval Scale):计次、排序、加减 注:变量的计量尺度: a 定类 (Category Scale):只能计次 b 定序 (Ordinal Scale):计次、排序 c 定距(Interval Scale):计次、排序、加减 d 定比 (Ratio Scale):计次、排序、加减、乘除
3.1.2 频数分析的基本操作 (1)选择菜单【分析】—【描述分析】—【频率】。 (2)将若干频数分析变量选择到【变量】框中。 (3)单击【图表】按钮选择绘制统计图形,在【图表值】框中选择条形图中纵坐标(或饼图中扇形面积)的含义,有【频数】;【百分比】。
离散趋势 分布形态栏 集中趋势栏 输出统计量对话框 输出四分位数,显示25%、50%、75%的百分位数; 输出百分位数: 输出四分位数,显示25%、50%、75%的百分位数; 将数据平均分为所设定的相等等份,可输入2—100 的整数,如键入4则输出第25、50、75百分位数 自定义百分位数,可输入0—100 的整数。 集中趋势栏 离散趋势 分布形态栏 输出统计量对话框
3.1.3 SPSS频数分析的扩展功能 1、计算分位数(Percentile Values) 分位数是变量在不同分位点上的取值。分位点在0-100之间。一般使用较多的是四分位点(Quartiles),即将所有数据按升序排序后平均等分成四份,各分位点依次是25%,50%,75%。于是四分位数便分别是25%,50%,75%点所对应的变量值。此外,还有八分位数、十六分位数等。 SPSS提供了计算任意分位数的功能,用户可以指定将数据等分为n份(Cut points for n equal groups)。还可以直接指定分位点(Percentile)。
2、计算其他基本描述统计量 SPSS频数分析还能够计算其他基本统计量,其中包括描述集中趋势(Central Tendency)的基本统计量、描述离散程度(Dispersion)的基本统计量、描述分布形态(Distribution)的基本统计量等。
控制频数表输出的分类数量。默认为10 Format 对话框 设置频数表输出的格式 选择频数表中排列顺序 多变量框中可设定多变量表格输出的格式 按变量升序排列,此为默认 按变量降序排列 按变量各种取值发生的频数的升序排列 按变量各种取值发生的频数的降序排列 多变量框中可设定多变量表格输出的格式 控制频数表输出的分类数量。默认为10 Format 对话框
3、频数分布表格式(Format)的定义 (1)调整频数分布表中数据的输出顺序(Order by):频数分布表中的内容的输出顺序可以按变量值的升序输出(Ascending values),按变量值的降序输出(Descending values),按频数的升序输出( Ascending counts),按频数的降序输出( Descending counts)。
(2)【多个变量】单选框组: 如果选择了两个以上变量作频数表,则compare variables可以将所有变量的结果在同一个频数表过程输出结果中显示,便于互相比较;organize output by variables则将结果在不同的频数表过程输出结果中显示,每一个变量一张表。
(3)压缩频数分布表(Suppress tables with more than n categories) 如果变量取值的个数或取值区间的个数太多,频数分布表将很庞大,此时可以压缩它。SPSS默认,如果变量取值的个数或取值区间的个数大于10,则不输出相应的频数分布表。应用中可以修改该值。
利用商品房购买意向的调查数据进行频数分析,有以下两个分析目标: 3.1.4 频数分析的应用举例 利用商品房购买意向的调查数据进行频数分析,有以下两个分析目标: 目标一:分析被调查者的户籍状况以及他们认为房价的变化状况。 目标二:分析月住房开销的分布,并对不同居住类型进行比较。
4.2 计算基本描述统计量 3.2.1 基本描述统计量 常见的基本描述统计量有三大类: 刻画集中趋势的统计量 刻画离中趋势的统计量 刻画分布形态的统计量
1、刻画集中趋势的描述统计量 集中趋势是指一组数据向某一中心值靠拢的倾向。 (1)均值(Mean):即算术平均数,是反映某变量所有取值的集中趋势或平均水平的指标。如某企业职工的平均月收入。其计算公式为:
(2)中位数(Median):即一组数据按升序排序后,处于中间位置上的数据值。如评价社会的老龄化程度时,可用中位数。 (3)众数(Mode):即一组数据中出现次数最多的数据值。如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数。
(4)均值标准误差(Standard Error of Mean):描述样本均值与总体均值之间的平均差异程度的统计量。其计算公式为:
2、刻画离散程度的描述统计量 离散程度是指一组数据远离其“中心值”的程度。 如果数据都紧密地集中在“中心值”的周围,数据的离散程度较小,说明这个“中心值”对数据的代表性好;相反,如果数据仅是比较松散地分布在“中心值”的周围,数据的离散程度较大,则此“中心值”说明数据特征是不具有代表性的。
常见的刻画离散程度的描述统计量如下: (1)全距(Range):也称极差,是数据的最大值(Maximum)与最小值(Minimum)之间的绝对离差。 (2)方差(Variance):也是表示变量取值距均值的离散程度的统计量,是各变量值与算数平均数离差平方的算术平均数。其计算公式为:
(3)标准差(Standard Deviation:Std Dev):表示变量取值距离均值的平均离散程度的统计量。其计算公式为: 标准差值越大,说明变量值之间的差异越大,距均值这个“中心值”的离散趋势越大。
3、刻画分布形态的描述统计量 数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡峭程度等。 刻画分布形态的统计量主要有两种: (1)偏度(Skewness):描述变量取值分布形态对称性的统计量。其计算公式为:
当分布为对称分布时,正负总偏差相等,偏度值等于0;当分布为不对称分布时,正负总偏差不相等,偏度值大于0或小于0。偏度值大于0表示正偏差值大,称为正偏或右偏;偏度值小于0表示负偏差值大,称为负偏或左偏。偏度绝对值越大,表示数据分布形态的偏斜程度越大。
众数、中位数和平均数的关系图示 右偏分布 众数 中位数 均值 对称分布 均值 中位数 众数 左偏分布 均值 中位数 众数
(2)峰度(Kurtosis):描述变量取值分布形态陡峭程度的统计量。其计算公式为: 当数据分布与标准正态分布的陡峭程度相同时,峰度值等于0;峰度大于0表示数据的分布比标准正态分布更陡峭,为尖峰分布;峰度小于0表示数据的分布比标准正态分布平缓,为平峰分布。
3.2.2 计算基本描述统计量的操作 (1)选择菜单【分析】-【描述统计】-【描述】,出现如下窗口:
(2)将需计算的数值型变量选择到【变量】框中。 (3)单击【选择】按钮指定计算哪些基本描述统计量,出现如下窗口:
基本统计量 分布 当Variables框中有多个变量时,此框确定其输出顺序: 按Variables框中的排列顺序输出 按各变量的字母顺序输出 按均值的升序排列 按均值的降序排列 Options 对话框
至此,SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中。 在上面窗口中,用户可以指定分析多变量时结果输出的次序(Display Order)。其中,Variable list表示按变量在数据窗口中从左到右的次序输出;Alphabetic表示按字母顺序输出;Ascending Means表示按均值升序输出;Descending Means表示按均值降序输出。 至此,SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中。
3.2.3 计算基本描述统计量的应用举例 1. 利用商品房购买意向的调查数据,对月住房开销变量计算基本描述统计量。 有以下分析目标:计算月住房开销的基本描述统计量,并分别对不同居住类型进行比较 分析:首先按居住类型对数据进行拆分(Split file),然后计算月住房开销的基本描述统计量。
2. 分析月住房开销的数量是否存在不均衡现象。 分析:假设月住房开销的分布服从正态分布,跟据3 原则,异常值通常为3个标准差范围之外的值,可通过对数据的标准化处理来判断。标准化的数学定义为:
通过标准化可以得到一系列新变量值,通常称为标准化值或z分数。计算标准化值可以通过对话框中的复选框【将标准化得分另存为变量(Z)】 来实现,并将结果保存在一个新变量中。该变量的命名规则为字母z+原变量名的前七个字符。 接下来可对新变量进行排序并浏览其标准化值的取值情况,可以发现z分数值得绝对数大于3的样本是存在的。对其分组为三组:zt10<-3, -3<zt10<3, zt10>3并进行频数分析可以发现月住房开销存在一定的不均衡现象。
3.3 交叉分组下的频数分析 3.3.1 目的和基本任务 1、目的:交叉分组下的频数分析又称列联表分析。通过前面的频数分析能够掌握单个变量的数据分布情况,在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,进而分析变量之间的相互影响和关系。对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成。
2、基本任务: (1)根据收集到的样本数据,产生二维或多维交叉列联表; (2)在交叉列联表的基础上,对两两变量间是否存在一定的相关性进行分析。 4.3.2 交叉列联表的主要内容 编制交叉列联表是交叉分组下频数分析的第一个任务。交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表。 例:职工基本情况数据按职称和文化程度编制的二维交叉列联表(见下页表):
上表中的职称变量称为行变量(Row),文化程度称为列变量(Column)。行标题和列标题分别是两个变量的变量值(或分组值)。表格中间是观测频数(Observed Counts)和各种百分比。16名职工中,本科、专科、高中、初中的人数分别为4,4,5,3,构成的分布称为交叉列联表的列边缘分布;高级工程师、工程师、助理工程师、无技术职称的人数分别为3,4,6,3,构成的分布称为交叉列联表的行边缘分布;4个本科学历职工中各职称的人数分别是1,1,2等,这些频数构成的分布称为条件分布,即在行变量(列变量)取值条件下的列变量(行变量)的分布。
在交叉列联表中,除了频数外还引进了各种百分比。例如表中第一行中的33. 3%, 33. 3%, 33 在交叉列联表中,除了频数外还引进了各种百分比。例如表中第一行中的33.3%, 33.3%, 33.3%分别是高级工程师3人中各学历人数所占的比例,称为行百分比(Row percentage),一行的百分比总和为100%;表中第一列的25.0%,25.0%,50.0%分别是本科学历4人中各职称人数所占的比例,称为列百分比(Column percentage),一列的列百分比总和为100%,表中的6.3%,6.3%,12.5%等分别是总人数16人中各交叉组中人数所占的百分比,称为总百分比(Total percentage),所有格子中的总百分比之和也为100%。
3.3.3 交叉分组下的频数分析的基本操作 (1)菜单选【分析】-【描述统计】-【交叉表】,出现窗口如下:
Crosstabs 对话框 显示每一组中各变量的分类条形图。 只输出统计量,不输出多维列联表。 该框中的变量作为分布表中的行变量和列变量。 显示每一组中各变量的分类条形图。 该框中的变量作为控制变量,决定频数分布表中的层,可有多个控制变量。 只输出统计量,不输出多维列联表。
(2)如果进行二维列联表分析,则将行变量选择到Row(s)框中,将列变量选择到Column(s)框中。如果Row(s) 和Column(s)框中有多个变量名,SPSS会将行列变量一一配对后产生多张二维列联表。如果进行三维或多维列联表分析,则将其他变量作为控制变量选到Layer框中。多控制变量间可以是同层次的,也可以是逐层叠加的,可通过Previous或Next按钮确定控制变量间的层次关系。
(3)选择【显示复式条形图】Display clustered bar charts选项,指定绘制各变量交叉分组下频数分布条形图。【取消表格】Suppress tables表示不输出列联表,在仅分析行列变量间关系时可选择该选项。 (4)单击【单元格】Cells按钮指定列联表单元格中的输出内容,窗口如下:
Crosstabs的Cell Display 对话框 选择在列联表中输出的统计量,包括观测量数、百分比、残差 输出观测量的实际数量 如果行和列变量在统计上是独立的或不相关的,那么会在单元格中输出期望的观测值的数量。 输出单元格中观测量的数目占整行全部观测量数目的百分比 输出单元格中观测值的数目占整列全部观测量数目的百分比 输出单元格中观测量的数目占全部观测量数目的百分比 计算非标准化残差 计算标准化残差 计算调整后残差
SPSS默认列联表单元格中只输出观测频数(Observed)。为便于分析,通常还应指定输出Percentage框中的行百分比(Row)、列百分比(Column)、总百分比(Total)。Counts框中的Expected表示输出期望频数;Residuals框中的各个选项表示在各个单元格中输出剩余。其中,Unstandardized为非标准化剩余,定义为观测频数-期望频数;Standardized为标准化剩余,又称Pearson剩余,定义为:
(5)单击【格式】Format按钮指定列联表各单元格的输出排列顺序。【升序】Ascending表示以行变量取值的升序排列,是SPSS默认项;【降序】Descending表示以行变量取值的降序排列。 (6)单击【统计量】Statistics按钮指定用哪种方法分析行变量和列变量间的关系,窗口如下,其中,Chi-Square为卡方检验。
对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务。 3.3.4 交叉列联表行列变量间关系的分析 对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务。 为了理解行、列变量之间的关系,可以从分析两个极端的例子出发: (1)年龄与工资收入的交叉列联表(一) 工 资 收 入 年 龄 段 低 中 高 青 400 500 老 600
(2)年龄与工资收入交叉列联表(二) 表一中表示年龄与工资收入呈正相关关系,表二表示年龄与工资收入呈负相关关系。但大多数情况下,观测频数分散在列联表的各个单元格中,不容易直接发现行列变量之间的关系强弱程度,此时就要借助非参数检验方法。通常用的方法是卡方检验。 工 资 收 入 年 龄 段 低 中 高 青 600 500 老 400
交叉列联表的卡方检验 卡方检验属假设检验的范畴,步骤如下: (1)建立原假设 在列联表分析中卡方检验的原假设为行变量与列变量独立 (2)选择和计算检验统计量 列联表分析卡方检验统计量是Pearson卡方统计量,其数学定义为:
其中,r为列联表的行数,c为列联表的列数; 为观察频数, 为期望频数(Expected Count)。期望频数的计算方法是: 其中,RT是指定单元格所在行的观测频数合计,CT是指定单元格所在列的观测频数合计,n是观测频数的合计。 期望频数的分布反映的是行列变量互不相干下的分布。
例如,具有本科学历的高级工程师的期望频数是0. 75的计算公式是3. 4/16=0 例如,具有本科学历的高级工程师的期望频数是0.75的计算公式是3*4/16=0.75。这里,期望频数可以理解为,总共16个职工的学历分布是25%:25%:31.3%:18.8%,如果遵从这种学历的总体比例关系,高级职称三人的学历分布也应为25%:25%:31.3%:18.8%,于是期望频数为3*25%、3*25%、3*31.3%、3*18.8%。同理可以理解,总共16个职工的职称分布为18.8%:25%:37.5%:18.8%,本科学历4人的期望频数分别为4*18.8%、4*25%、4*37.5%、4*18.8%。
卡方统计量观测值的大小取决于两个因素:第一:列联表的单元格子数;第二:观测频数与期望频数的总差值。在列联表确定的情况下,卡方统计量观测值的大小取决于观测频数与期望频数的总差值。当总差值越大时,卡方值也就越大,实际分布与期望分布的差距越大,表明行列变量之间越相关;反之表明行列变量之间越独立。那么,在统计上卡方统计量的观测值究竟达到什么程度才能断定行列变量不独立呢?由于该检验中的pearson卡方统计量近似服从卡方分布,因此可依据卡方理论找到某自由度和显著性水平下的卡方值,即卡方临界值。
(3)确定显著性水平(Significant Level)和临界值 显著性水平 是指原假设为真却将其拒绝的风险,即弃真的概率。通常设为0.05或0.01。在卡方检验中,由于卡方统计量服从自由度为(行数-1)×(列数-1)的卡方分布,因此,在行列数目和显著性水平确定时,卡方临界值是可唯一确定的。
(4)结论和决策 对统计推断做决策通常有两种方式: 根据统计量观测值和临界值比较的结果进行决策。如果卡方观测值大于临界值,则认为实际分布与期望分布之间的差距显著,可以拒绝原假设,断定列联表的行列变量间不独立,存在相关关系;反之,接受原假设。 根据统计量观测值的概率p值和显著性水平 比较的结果进行决策。如果p值小于等于 ,则认为卡方观测值出现的概率是很小的,拒绝原假设,断定列联表的行列变量间不独立,存在依存关系;反之,接受原假设。
什么是P 值? 是一个概率值; 如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率; 被称为观察到的(或实测的)显著性水平。
双侧检验的P 值 / 2 Z 拒绝 H0值 临界值 计算出的样本统计量 1/2 P 值
左侧检验的P 值 抽样分布 a H0值 临界值 样本统计量 拒绝域 1 - 置信水平 计算出的样本统计量 P 值 Rejection region does NOT include critical value.
右侧检验的P 值 抽样分布 a 置信水平 拒绝域 1 - H0值 临界值 计算出的样本统计量 P 值 Rejection region does NOT include critical value.
利用 P 值进行检验 (决策准则) 若p-值 > ,不拒绝 H0 若p-值 < , 拒绝 H0
3.3.5 交叉分组下的频数分析应用举例 利用商品房购买意向调查数据进行分析,实现以下目标: 1、不同居住类型的被访者未来的购房预期是否一致。
分析:1、该问题列联表的行变量为居住类型,列变量为购房,在列联表中输出各种百分比、期望频数、剩余、标准化剩余,显示各交叉分组下频数分布柱形图,并利用卡方检验方法,对不同居住类型对购房预期的态度是否一致进行分析。
对列联表中行列变量的分析,除上述卡方检验方法之外,SPSS还提供了其他测度变量间相关关系的检验方法,包括: 适用于两定类变量的方法:Nominal框中列出的方法属该类方法。 适用于两定序变量的方法:Ordinal框中列出的方法属该类方法。 适用于一定类变量、一定距变量的方法:Nominal by interval框中的Eta方法属该类方法。 其他方法。
3.4 多选项分析(频数分析和交叉分析) 多选项问题的概念:多选项问题是根据实际调查的需要,要求被调查者从问卷给出的若干个可选答案中选择一个以上的答案。目前,市场研究或许多领域对某事物评价的研究中常常遇到这样的问题。 可以选多个,分为限选和不限选: 限选:如在11种工作种类中,选你喜欢的,最多可选4种(Var1-Var4);求所有人喜欢各种工作的频数或频率。 不限选:如在所列的20种电器中,你家所拥有的电器,不限选(Var1-Var20),求所有被调查家庭拥有各种电器的频数或频率。
3.4.1 多选项问题的分解 多选项二分法及其编码(multiple dichotomies method): 多选项二分法是将多选项问题中的每一个答案设为一个SPSS变量,每个变量值有0或1两个取值,分别表示选择了该答案和不选择该答案。如对下面问题有9个可能的答案,每个可选择的答案由一个变量表示,每个变量的值只能有表明“是”和“否”的两个代码0或者1。 左边的表格为向顾客发放的颜色调查,在选择服装时,您喜欢什么颜色作为主体颜色,在答案的“□”中打“” (可多选) 这是一组问题,每个问题均有两个答案,回答者只能选择其中一种。在建立数据文件时,变量名使用相同的变量主名,后面加以不同序号组成,本组问题的9个变量名可以是color1-color9。而答案的编码规则为:回答“是”变量值为1,回答“否”变量值为0,其他值为缺失值。 编号 调查内容 选 项 1 您喜欢红色吗 □是 □否 2 您喜欢橙色吗 □是 □否 3 您喜欢黄色吗 □是 □否 4 您喜欢绿色吗 □是 □否 5 您喜欢青色吗 □是 □否 6 您喜欢蓝色吗 □是 □否 7 您喜欢紫色吗 □是 □否 8 您喜欢黑色吗 □是 □否 9 您喜欢白色吗 □是 □否
多选项分类法及其编码(multiple category method ):多选项分类法中,首先应估计多选项问题最多可能出现的答案个数;然后为每个答案设置一个SPSS变量,变量取值为多选项问题中的所有可选答案。如上面有关选择服装的主体颜色,您可以选择喜欢的三种,在提供的10种答案前上选择。 1、红 2、橙 3、黄 4、绿 5、青 6、蓝 7、紫 8、黑 9、白 10说不清 这是一个问题,可以有三个答案。在建立数据文件时,要建立三个变量color1-color3表示回答者选择的三个颜色。如选择结果为1、红、6、蓝、8、黑,则变量color1的值为1,变量color2的值为6,变量color3的值为8。
1 3 5 6 如果采用多选二分法则有6个选项,故应设6个变量,运用0-1编码方法编码,即:1,0,1,0,1,1。 如果采用多选分类法,则编码为1,3,5,6,0,0。
编码应为:1,0,1,1,1,0,1,1,0。 或1,3,4,5,7,8,0,0,0。 1经济收入 2专业对口 3发展前途 4地理区位 问题2:择业中考虑的主要因素(多选) 1经济收入 2专业对口 3发展前途 4地理区位 5个人爱好 6风险大小 7劳动强度 8社会福利 9其他 编码应为:1,0,1,1,1,0,1,1,0。 或1,3,4,5,7,8,0,0,0。
问题3:您择业中考虑的主要因素有(限选三项) 1 3 6 1经济收入 2 专业对口 3发展前途 4地理区位 5个人爱好 6风险大小 7劳动强度 8社会福利 9社会地位 10其他 因为限选三项,故应设三个变量,编码依次为1, 3,6。
3.4.2 多选项分析的基本操作 多选项分析在SPSS中是通过Analyze - Multiple Response中的各项功能实现的。 首先将每个题的若干答案组成一个综合变量即变量集(Set),然后对综合变量的各种取值进行分析。只有通过定义多选项变量集,spss才能确定应对哪些变量取相同值的个案数进行累加。 多选项分析在SPSS中是通过Analyze - Multiple Response中的各项功能实现的。 1.Define Sets: (1)从左边的变量中将多选变量集的变量选择到variables in sets框中,建立多选二分变量集或多选分类变量集。 (2)在variables are coded as框中指定多选变量集中的变量是按照那种方法编码的。Dichotomies表示以多选二分法编码,并在counted value中输入用哪个数值来表示选中该选项。categories表示以多选分类法编码,并在range框中输入变量取值的最小值和最大值。
3.Crosstabs:对多选变量集与其他变量集或与原基本变量进行交叉表分析。 (3)为多选项变量集命名,系统会自动在该名字前加字符$。 (4)单击add按钮将定义好的多选项变量集加到mult response sets框中。Spss可以定义多个多选项变量集。 2.Frequencies:对多选变量集进行频数分析。从mult response sets中把待分析的多选项变量集选择到tables for框中; 3.Crosstabs:对多选变量集与其他变量集或与原基本变量进行交叉表分析。
(1)选择列联表的行变量并定义取值范围;(2)选择列联表的列变量并定义取值范围;(3)选择列联表的控制变量并定义取值范围;(4)单击option按钮选择列联表的输出内容和计算方法。Match variable across response sets选项表示,如果列联表的行列变量均为多选项变量集时,第一个变量集的第一个变量与第二个变量集的第一个变量作交叉分组,依次类推。结果中:注意Pct of Responses(占总回答数的%)和Pct of Case(占总个案数% )的区别。
3.4.3多选项分析的应用举例 利用居民储蓄调查数据进行分析,实现以下两个分析目标: 1.分析储户的储蓄目的; 2.分析不同年龄段储户的储蓄目的。
分析 1.为进行多选项分析,首先定义名为cxmd的多选项变量集,其中包括a7_1、a7_2、a7_3三个变量,然后对多选项变量集进行频数分析; 2.对不同年龄段储户储蓄目的进行分析,采用多选项交叉分组下的频数分析。
3.5 探索分析 Explore 1. 分析目的和方法 奇异性:数据过大或过小(找出、分析原因、是否剔除) 分布特征:数据是否来自正态总体 考察方法:统计量和统计图形(箱式图、茎叶图、QQ图) 2. 一般是考察定距变量 3. Analyze + Descriptive Statistics + Explore 分析变量(Dependent List):数值型变量 分组变量(Factor List):分类变量 标识变量(Label Cases by):用某变量的值作为观察值得标识如id
可同时输出基本统计量和图形 只输出基本统计量 只输出图形 Explore 主对话框 选择一个或多个变量进入Dependent框作为分析变量,单击OK可获得分析变量的一系列基本统计量和图形。 此作为分组变量,可以是字符变量,对分析变量的分析将按该变量的观测值进行分组分析。可有多个分组变量,这时会按多个变量的交叉组合进行分组。 该框中的变量作为标识符,在输出诸如异常值时,用该变量进行标识,只允许有一个标识符。 可同时输出基本统计量和图形 只输出基本统计量 只输出图形
输出最大和最小的5个数,且在输出窗口中加以标明。 Statistics对话框 输出基本统计量 均值的置信区间,可键入1—99%的任意值,根据该值算出置信区间的上下限。 给出中心趋势的最大似然比的稳健估计量,当数据分布均匀,且两尾较长,或当数据中存在极端值时,可给出比均值或中位数更合理的估计。 输出最大和最小的5个数,且在输出窗口中加以标明。 输出5%、10%、25%、50%、75%、90%和95%的百分位数。
Statistics子对话框:用于选择需要的描述统计量; descriptives:输出均值、中位数、众数、5%修正均值、估计标准误、方差、标准差、最小值、最大值、全距、四分位差、峰度系数及其标准误、偏度系数及其标准误及指定的均值置信区间; m-estmators:做集中趋势的最大稳健估计,该统计量是利用迭代方法计算出来的,受异常值的影响要小得多。如果该估计量离均值较远,则说明数据可能存在异常值,此时宜用该估计量替代均值以反映集中趋势。一共会输出四种m估计量,其中huber适用于数据接近正态分布时,另三种则适用于数据中有许多异常值的情况; outliers:输出五个最大值和五个最小值。 percentiles:输出第5%、10%、25%、50%、75%、90%、95%分位数。
plots子对话框:用于选择需要的统计图; boxplots复选框:确定箱式图的绘制方式,可以分组绘制(factor levels together),也可以不分组绘制(dependents together),或者不绘制(none) ; descriptive复选框:可以选择绘制茎叶图(stem-and-leaf)和直方图(histogram); normality plot with test:绘制正态分布图(QQ图),并进行变量是否符合正态分布的检验;
茎叶图 (stem-and-leaf) 1.用于显示未分组的原始数据的分布 2.由“茎”和“叶”两部分构成,其图形是由数字组成的 3.以该组数据的高位数值作树茎,低位数字作树叶 4.树叶上只保留一位数字 5.茎叶图类似于横置的直方图,但又有区别: 直方图可观察一组数据的分布状况,但没有给出具体的数值 茎叶图既能给出数据的分布状况,又能给出每一个原始数值,保留了原始数据的信息 6.图的下方会标示出茎宽和实际值的倍数,每行的茎和叶组成的数字再乘以茎宽,即得到实际数据的近似值如茎宽为10,则图中的2.3代表23,同样在图的下方也会标示出每片叶子代表的记录数。
未分组数据—茎叶图
练习 利用居民储蓄调查数据,对一次存款金额变量进行探索性分析。
3.6 比率分析 3.6.1 比率分析的目的和主要指标 比率分析用于对两变量间变量值比率变化的描述分析,适用于数值型变量。 例如根据1999年各地区保险业务情况的数据,分析各地区财产保险业务的保费收入占全部业务保费收入的比例情况。
通常的分析可以生成各个地区财产保险业务的保费收入占全部业务保费收入的比率变量,然后对该比率变量计算基本描述统计量(如均值、中位数、标准差、全距等),进而刻画比率变量的集中趋势和离散程度。 SPSS的比率分析除能够完成上述分析外,还提供了其他相对比描述指标,大致也属于集中趋势描述指标和离散程度描述指标的范畴,具体包括:
(1)加权比率均值(Weighted mean):两变量均值的比,属集中趋势描述指标。 (2)AAD(Average Absolute Deviation)平均绝对离差:是对比率变量离散程度的描述,计算公式为: 其中, 是比率数,M是比率变量的中位数,N为样本数
相对数或平均数计算平均数的计算 相对数(或平均数)用 Y 表示,有 Y=a/b, a、b为总量指标。 求各期 Y的平均一般不能采用简单算术平均法,即 因为各期数据Yi 的对比基础 bi 不同,它们对全期总平均水平的影响作用应轻重有别.
计算公式:1. 分别计算其分子、分母的平均数 2. 对比得 : 上式实质上等于对各期Y加权算术平均。
(3)COD(Coefficient of Dispersion)离散系数:也是对比率变量离散程度的描述,计算公式为: (4)PRD(Price-related Differential)相关价格微分:是比率均值与加权比率均值的比,也是比率变量离散程度的描述。
(5)COV变异系数:用于对比率变量离散程度的描述,分为基于均值的变异系数(Mean centered COV)和中位数的变异系数(Median centered COV )。前者是通常意义下的变异系数,是标准差除以均值;后者定义为:
3.6.2 比率分析的基本步骤 (1)选择菜单Analyze-Descriptive Statistics-Radio,出现窗口
(2)将比率变量的分子选择到Numerator框中,将比率变量的分母选到Denominator框中。 (3)如果做不同组间的比率比较,则将分组变量选择到Group Variable框中。 (4)单击Statistics按钮指定输出哪些关于比率的描述统计量,出现如下窗口:
至此,SPSS将自动计算比率变量,并将相关指标输出到输出窗口中。
报表中的描述性统计分析 (case summaries)过程 Analyze-report-case summary进入。 variables框:选择需要进行分析的变量,可多选; grouping variables框:选择用于分组的变量。如果选择了多个分组变量,则系统会按各个变量的不同取值的交叉组合对汇总变量进行分析。
Display case :用于确定是否输出详细的记录列表,下面的三个复选框用于选择具体的输出方式。 Statistics子对话框用于选择一些常用的统计量。 title子对话框: title框:用于定义输出表格的标题,默认标题为case summaries。 caption框:用于给输出表格加上注解文字。
subheadings for totals:用于选择是否给每个分组均显示所计算统计量的名称; exclude case with missing values listwise:用于选择是否在分析中删除带有缺失值的变量。 missing statistics appear as:用于输出一个字符串,用于在输出结果中表示缺失值。
报表中的描述性统计分析举例 1. 对居民储蓄调查数据中的居民存款金额按照户口和职业进行分类汇总得到均值、中位数及标准差。 分析:可以使用split file过程,然后使用descriptive过程来完成。但是我们用这里的case summary过程一步就能完成。
表格中的描述性统计分析 ( Basic tables过程) 菜单操作:Analyze- tables - Basic tables summaries框:选择需要进行汇总的变量,可以是定类变量也可以是定距变量,可以选入多个,但所有变量只能使用同样的汇总指标。 subgroups框:用于定义分组汇总时的分组情况。
表格中的描述性统计分析 ( Basic tables过程) down框:选入分行汇总变量;表格中的汇总指标按照该变量的不同取值分行输出,可以选入多个。 across框:选入分列汇总变量; separate table框:选入分层汇总变量; all combination :默认选项,所有分组变量按照选入顺序依次嵌套; each separately :所有分组变量分别输出分组统计结果,只是放在同一个表格中。
表格中的描述性统计分析 ( Basic tables过程) statistics子对话框: percentile cutpoint框:选中percentile统计量时可用,用于选择分界百分位点。 format框:用于设置各种统计量的显示格式。 label框:用于设定各种统计量的显示标签,默认为统计量名称,可以更改为中文。 sorting by cell count框 :选择是否按照表中的频数顺序输出。
表格中的描述性统计分析 ( Basic tables过程) layout子对话框:用于设定各种标题/标签的显示方式。 summary variable lables框:用于选择汇总变量标签的显示方式,可以在左侧、顶部和分不同表格输出中选择。 statistics lables框:用于选择统计量标签的显示方式。 group in summary variable dimension 框:如果在前面将汇总变量和分组变量选在了同一方向显示,则可在此处选择是将汇总变量是与各亚组之下还是将分则变量值与汇总变量之下。 lable groups with value lables only框 :如果选中该框,则各分组的变量名标签将被省略,他们将用数值标签或数值本身来表示。
表格中的描述性统计分析 ( Basic tables过程) totals子对话框:选择是否进行汇总以及设定汇总标签。 totals over each group variable框:要求给出每一分组的汇总结果,缺失值将不纳入汇总分析。可在下方的lable框中更改分组汇总标签。 table-margin totals 框:为表格的每一个维度生成汇总结果,缺失值将不纳入汇总分析。 format子对话框:
表格中的描述性统计分析 ( Basic tables过程) format子对话框: empty cell appearance框:选择无频数单元格的表示方式,默认为空,可改为用零表示。 missing statistics appear as 框:选择对缺失值的表示方式,默认为小数点,可更改为十个字符长度内的任意字符串。
表格中的描述性统计分析 ( Basic tables过程) 例如:将收入情况和未来收入情况按照户口和职业进行频数统计。
表格中的描述性统计分析 (general tables过程) Basic tables 过程已经为我们提供了非常强大的制表能力但它只能分别对定量资料或分类资料进行汇总而且对于多选题数据无能为力, general tables则可以解决以上问题。 菜单操作:Analyze- tables - general tables statistics lables appear:选择统计量标签的显示方式。
表格中的描述性统计分析 ( general tables 过程) across the top:每个统计量单独占一列,标签在列顶部显示; down the side:每个统计量单独占一行,标签在行首显示; in the layer:每个统计量单独占一页,标签在页首显示; rows框 :选入行变量,这些变量实际上就是需要进行汇总分析的变量,可选入多个,使用右边的选择框对汇总指标加以定义; columns框 :选入列变量,类似于分组变量,可选多个。 layers框:选入分层汇总变量。
表格中的描述性统计分析 ( general tables 过程) selected variable框组:用于对行/列变量的汇总指标、显示标签、组合方式加以定义。 defines cell:定类变量 is summarized:定距变量 omit lable :在结果中不输出选中的变量名或标签。 〉nest与unnest< :当同一个框中选入多个变量时可用,用于选择和更改变量间的组合方式,前者为嵌套,后者为分别输出。 edit statistics:对行变量需要计算的汇总指标加以定义。 insert total :为选中的行/列/层变量加入一个合计栏
表格中的描述性统计分析 ( general tables 过程) mult response sets子对话框:用于定义多选题变量集。 variables in sets框:选入需要加入同一个多选题变量集的变量列表。 variables are coded as:选择变量集中变量的编码方式。 name框 :输入多选题变量集的名称 lable框 :为相应的多选题变量集定义一个名称标签。 denominator for multiple-response percentages:用于定义计算百分比时是基于受访者人数(respondents)还是基于回答数(responses),默认是基于受访者人数分析。 multi response sets :已定义好的变量集列表,最多可定义20个。
表格中的描述性统计分析 ( general tables 过程) 例如:对收入水平、存款金额和存款目的按照户口和职业进行分析。
表格中的描述性统计分析 ( multiple response tables 过程) 菜单操作:Analyze- custom tables - multiple response tables rows框 :选入行变量,可多选; column框 :选入列变量,可多选; layers框:选入层变量,可多选; multiple response框:列出已定义好的多选题变量集,凡在该框中列出的变量集均可像普通变量一样使用; nesting框:用于确定是否对行/列/层变量进行嵌套显示。
表格中的描述性统计分析 ( multiple response tables 过程) define sets实际上就是general tables过程中的mult response sets子对话框,用于定义多选题变量集。 statistics子对话框: statistics框组用于选择要输出的统计量,默认为频数。选中相应的指标后可在右侧对应的label框中更改标签。 format for counts框:用于选择频数的显示格式; format for percentages框:用于选择百分比的显示格式; statistics label框:用于选择统计量标签的显示方式。
表格中的描述性统计分析 ( tables of frequencies 过程) 菜单操作:Analyze- custom tables - tables of frequencies frequencies for框 :选入希望计算频数的变量; statistics子对话框:count框组:用于选择是否在结果中输出频数,可在下方的各种框中更改标签,显示格式及位数; percents框组:用于选择是否在结果中输出百分比;unweighted counts框组:如果数据是按照频数格式输入,并且已使用了weight cases 过程,可以在这里选择在结果中输出赋权的频数;totals框组:用于选择是否输出合计指标。
表格中的描述性统计分析 ( tables of frequencies 过程) layout子对话框:variable labels单选框组:选择变量标签的显示方式,可以是在列顶端或者是行左侧显示;statistics labels单选框组:选择统计量标签的显示方式, ,可以是在列顶端、行左侧或分层显示;label groups with value label only:在输出中省略各组的变量名标签,但变量值标签仍然有效。 进入希望计算频数的变量,如果他们有变量值得标签,则这些标签必须相同。 例如:对收入情况和未来收入情况按照户口进行分析。
Thank you