基于SPSS的数据分析（上） ——高雅.

Slides:

Advertisements

Similar presentations

庄文忠副教授世新大学行政管理学系 2012/7/6 SPSS 之应用 ( 庄文忠副教授 ) 1 SPSS 的环境与基本操作.

Advertisements

2007 年广州市初中信息技术结业考试海珠区质量分析海珠区教育发展中心范谊 2007 年 9 月 8 日.

第二章 SPSS的基本操作 2-1 SPSS 的簡介 2-2 SPSS 軟體的功能表介紹 2-3 資料的輸入 2-4 資料的分析與輸出結果

吴志强信息管理学院讲座:SPSS使用方法吴志强信息管理学院

SPSS系统教程.

第二章语言测试的功能与分类湖南师范大学外国语学院邓杰教授.

資料概說 1.1 基本名詞介紹 1.2 資料型態 1.3 基本操作商管研究資料分析SPSS的應用 Chapter 1 資料概說.

第五讲非参数统计分析吴成秋南华大学公共卫生学院

How to Use SPSS in Biomedical Data analysis

一、能线性化的多元非线性回归二、多元多项式回归（线性化）

传播学研究：理论与方法戴元光赵士林邢虹文.

人教版五年级数学下册众数.

SPSS统计软件的使用方法基础主讲人：宋振世（闵行校区）电话：

PET-CT-SUVmax与鼻咽癌放疗过程中原发灶径线变化的关系

第1讲 SPSS基础

广告原理与策划 ——主编魏超.

DOE & EXCEL, SPSS application

如何使用 Excel 與SPSS繪製統計圖型

科研数据的种类及处理方法广东省心血管病研究所麦劲壮.

第三篇医学统计学方法. 第三篇医学统计学方法医学统计学方法实习2 主讲人陶育纯医学统计学方法实习2 主讲人陶育纯流行病与卫生统计学教研室

Dr. Hamda Qotba, B.Med.Sc, M.D, ABCM 翻译：acred（DXY）

统计学期末复习

第十七章 SPSS系统在传播学研究中的应用

第七章 SPSS的非参数检验.

第一章敘述統計學.

統計基本觀念壹、資料資料來源：實驗之量測結果，抽樣調查結果，公告資料。一、資料類型

统计软件应用 4 主讲人陶育纯 SPSS统计分析统计软件应用 4 主讲人陶育纯教案.

第四章 SPSS的基本统计分析.

第一讲: 基本流程（1）.

第八章均值比较与检验 2019/1/11.

第十章方差分析.

数据挖掘工具性能比较.

第三篇医学统计学方法. 第三篇医学统计学方法医学统计学方法实习3 主讲人陶育纯医学统计学方法实习3 主讲人陶育纯流行病与卫生统计学教研室

描述性统计学作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)

第七章参数估计 7.3 参数的区间估计.

医学统计学方法实习3 主讲人陶育纯医学统计学方法实习3 主讲人陶育纯

抽样和抽样分布基本计算 Sampling & Sampling distribution

模型分类问题 Presented by 刘婷婷苏琬琳.

5.2 常用统计分布一、常见分布二、概率分布的分位数三、小结.

Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現，(1)請依此數據完成下頁表格之統計值並說明之；(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次各場次ERA

Chapter 1 統計學緒論. Chapter 1 統計學緒論 Study Report 講述一個神奇而美麗的統計很多人或許常常在問：「What is Statistics」－統計是甚麼？統計是製造可信賴的之資料，分析資料的真正意義。有一列火車上有一位統計學家，一位物理學家和一位數學.

成绩是怎么算出来的？ 16级第一学期半期考试成绩班级姓名语文数学英语政治历史地理物理化学生物总分 1 张三1 115

第六章 Excel的应用一、Excel的单元格与区域 1、单元格：H8, D7, IV26等 2、区域：H2..D8, HS98:IT77

第4章 Excel电子表格制作软件 4.4 函数（一）.

統計學簡介許明宗.

统计图表绘制电子工业出版社.

统计软件应用 4 主讲人陶育纯 SPSS统计分析统计软件应用 4 主讲人陶育纯教案.

资料的描述性分析庄文忠副教授世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.

资料的描述性分析庄文忠副教授世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2011/7/11.

可编辑图表汇总修改方法：点击图表内容→“设计”选项卡→编辑数据.

相关与回归非确定关系在宏观上存在关系，但并未精确到可以用函数关系来表达。青少年身高与年龄，体重与体表面积非确定关系：

一测定气体分子速率分布的实验实验装置金属蒸汽显示屏狭缝接抽气泵.

概率统计主讲教师叶宏山东大学数学院.

第4课时绝对值.

第7章基本统计分析 2019/5/14.

第15讲特征值与特征向量的性质主要内容：特征值与特征向量的性质.

§5.2 抽样分布　　确定统计量的分布——抽样分布，是数理统计的基本问题之一．采用求随机向量的函数的分布的方法可得到抽样分布．由于样本容量一般不止2或 3(甚至还可能是随机的)，故计算往往很复杂，有时还需要特殊技巧或特殊工具．　　由于正态总体是最常见的总体，故本节介绍的几个抽样分布均对正态总体而言．

GIS基本功能数据存储与管理数据采集数据处理与编辑空间查询空间查询 GIS能做什么？与分析叠加分析缓冲区分析网络分析

第三节随机区组设计的方差分析随机区组设计资料的总平方和可以分解为三项：（10.10）.

统计软件应用 4 主讲人陶育纯 SPSS统计分析统计软件应用 4 主讲人陶育纯教案.

难点：连续变量函数分布与二维连续变量分布

统计软件应用 4 主讲人陶育纯 SPSS统计分析统计软件应用 4 主讲人陶育纯教案.

第六章 Excel的应用五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行

统计工具的使用方法主讲人陶育纯统计工具的使用方法主讲人陶育纯

回归分析实验课程（实验三）多项式回归和定性变量的处理.

第三章从概率分布函数的抽样 (Sampling from Probability Distribution Functions)

主講人陳陸輝特聘研究員兼主任政治大學選舉研究中心美國密西根州立大學博士

第四章 UNIX文件系统.

SPSS应用初阶（上）主讲人：高雅

学习目标 1、什么是列类型 2、列类型之数值类型.

Presentation transcript:

基于SPSS的数据分析（上） ——高雅

SPSS统计分析软件概述 SPSS for Windows/SPSS for IOS SPSS更新至22.0版本，已推出汉化版 SPSS又名社会科学统计包（Statistical Package for the Social Science），是世界著名的统计分析软件之一。20世纪60年代末，美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS，并成立SPSS公司。 SPSS for Windows/SPSS for IOS SPSS更新至22.0版本，已推出汉化版

主界面介绍

数据分析的基本步骤数据分析的基本步骤 SPSS 明确数据分析目标正确收集数据建立数据文件加工和整理数据选择恰当的统计分析方法进行探索分析读懂统计分析结果建立数据文件加工整理数据数据分析解释分析结果

SPSS讲座大纲一.SPSS数据文件的建立和管理二.SPSS数据的预处理三.基本统计分析四.如何选择正确的统计方法数据分析解释分析结果

SPSS讲座大纲一.SPSS数据文件的建立和管理二.SPSS数据的预处理三.基本统计分析四.如何选择正确的统计方法数据分析解释分析结果

一.SPSS数据文件的建立和管理一.SPSS数据的结构和定义方法变量视图窗口（Variable View）编辑变量名，定义数据类型、列宽、小数位宽、缺失数据、变量名标签、变量值标签、计量尺度等展开： 1.定义用户缺失值 2.变量值标签 3.计量尺度

明显错误以及漏填的数据都可以看做缺失数据用户缺失值可以是1~3个特定的离散值、或者一个封闭区间系统缺失值用“.”表示缺失值（Missing）分为明显错误以及漏填的数据都可以看做缺失数据用户缺失值可以是1~3个特定的离散值、或者一个封闭区间系统缺失值用“.”表示待分析的数据中存在大量的缺失值，会对分析产生重大影响，因此，在数据分析之前通常需要对缺失数据进行必要的处理。如EM法或回归法。

重点计量尺度（Measure）分为定距型数据（Scale）如身高、体重、血压／人数、商品件数定序型数据（Ordinal）如职称等级、文化程度定类型数据（Nominal）如性别、血型、婚姻状况变量类型分为定量变量定性变量连续变量离散变量重点有序变量分类变量

不可逆的过程，转化后标注（values）变量类型的转化：定量变量（连续型／离散型数值）如年龄、BMI 少儿组、青年组、中年组、老年组定性变量（有序多分类变量）正常、超重、肥胖非老年组、老年组定性变量（二分类变量）正常组、超重组不可逆的过程，转化后标注（values）

一.SPSS数据文件的建立和管理二.SPSS数据文件的合并纵向合并数据文件 Data Merge File Add Cases 合并依据：相同的变量名纵向合并数据文件＊表示该变量是当前数据编辑窗口中的变量＋表示该变量是即将合并的文件中的变量 Data Merge File Add Cases

同名变量，作为合并后新数据文件的变量不同变量名若变量名不同，但含义相同： Pair：变量配对 Rename：变量改名

横向合并数据文件 Data Merge File Add Variables 合并依据：相同的变量名，称关键变量两个数据文件必须都按关键变量值升序排序横向合并数据文件＊表示该变量是当前数据编辑窗口中的变量＋表示该变量是即将合并的文件中的变量 Data Merge File Add Variables

所有变量由两个数据文件中的个案共同组成合并后的数据文件关键变量查看个案来源的数据文件若变量名不同，但含义相同： Pair：变量配对 Rename：变量改名

二.SPSS数据的预处理 1.变量排序 2.变量分组 3.数据选取 4.数据分裂 5.计数处理 6.分类汇总

一.变量排序用途操作 Data Sort Cases 1.便于数据浏览，了解数据的取值情况、缺失值数量等； 2.能够快捷找到数据的最大值和最小值，进而可以计算全距，初步把握数据的离散程度； 3.快捷地发现数据的异常值，为进一步明确它们是否对分析产生重要影响等提供帮助操作 Data Sort Cases 制定排序变量到［Sort by］框中，在［Sort Order］框中指定排序方式［Ascending］升序，［Descending］降序

二.变量分组操作 Rransform Recode into Different Variables 将定量变量分组，是对数据进行整理和粗略把握数据分布的重要工具。 1.定量变量转化为定性变量。 2.在数据分组的基础上进行频数分析。例如：将连续型变量（年龄）转换为分类的有序变量（20-30、30-40、40-50、50-60、60-70岁五个组）分组原则：1.依据行业规范；2.组距分组规则组数K=1+ln(n)/ln(2),n为数据个数组距=(max-min)/K 操作 Rransform Recode into Different Variables

插入一个新变量，在变量视图中修改变量名

年龄分组完成！技巧1：可先将待分组变量按升序/降序排列，观察最大值和最小值，在进行分组。技巧2：定义变量值，方便以后查看不同组代表的含义。按键可在变量值与变量值标签间互相切换

三.数据选取操作 Data Select Cases 从已收集的大批量数据（总体）中按照一定的规则抽取部分数据（样本）参与分析，也称样本抽样。目的：1.提高数据分析效率；2.检验模型的需要例如：只想了解某一特定群体的特征，如“住房状况调查数据”，仅对具有本市户口的家庭住房状况进行分析，或者对全部样本的70%的数据进行分析。操作 Data Select Cases 若要选择多分类，可将条件组合，［｜］表示或；［&］表示且

四.数据分裂针对某一变量的部分子集，做亚组分析——Select Cases 针对某一变量的全子集，做亚组分析——Split Cases

五.计数处理操作 Transform Count Values within Cases 对所有个案或满足某条件的部分个案，计算有多少个变量的值落在指定的区间内，并将计算结果存入一个新变量中的过程。步骤： 1.指定哪些变量参与计数，计数结果存入哪个新变量中 2.指定计数区间。例如：分析被调查家庭中有多少比例的家庭对目前的住房满意且近3年不准备购买住房。操作 Transform Count Values within Cases 若要选择多分类，可将条件组合，［｜］表示或；［&］表示且

存放计数结果的变量名参与计数的变量

Analyze Descriptive Statistics Frequencies

六.分类汇总操作 Data Aggregate 确定分类变量和汇总变量： 1.按照哪个变量（如学历、职业、年龄）进行分类； 2.对哪个变量（如基本工资、消费金额、血压）进行汇总，并指定对汇总变量计算哪些统计量（平均数、中位数等）。例如：分析本市户口和外地户口家庭目前人均住房面积的平均值是否有较大差距，未来打算购买住房的平均面积是否有较大差距。操作 Data Aggregate

三.基本统计分析一. 基本描述统计量均值（Mean）中位数（Median）众数（Mode） 1.刻画集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢的倾向。计算刻画集中趋势的描述统计量正是要寻找能够反映数据一般水平的“代表值”或“中心值”。均值（Mean）中位数（Median）众数（Mode）

样本标准差（Standard Deviation : Std Dev）四分位间距（Quartile Interval Range） 2.刻画离散程度的描述统计量离散程度是指一组数据远离其中心值的程度。如果数据紧密地集中在中心值的周围，即数据的离散程度较小，则说明中心值对数据的代表性好；相反，如果数据较松散地分布在中心值周围，即数据的离散程度较大，则表明中心值不具有代表性。样本标准差（Standard Deviation : Std Dev）四分位间距（Quartile Interval Range）全距（Range）

偏度系数（Skewness）峰度系数（Kurtosis） 3.刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称，偏斜程度如何，分布陡缓程度等。偏度系数（Skewness）峰度系数（Kurtosis）

二. 在SPSS中计算基本描述统计量 1.定量资料操作 Analyze Descriptive Statistics Descriptives 例1：利用住房状况问卷调查数据，分析家庭人均住房面积的基本情况

正态分布检验若随机变量X服从均值为μ，标准差为σ的高斯分布，记做X~N(μ,σ2)。均值μ决定了其位置，方差决定了分布幅度。当μ=0，σ=1时，该正态分布又称标准正态分布。特点： 1.关于μ对称，并在μ处取最大值； 2.在正负无穷大时取值为0； 3.在μ±σ处有拐点

正态与非正态分布的统计学应用适用范围：定量资料，如年龄、糖化血红蛋白值、BMI等区别1：正态与非正态分布资料对假设检验要求不同。正态分布一般用参数检验（如T检验等），而非正态分布资料则要求用非参数检验。不合适的检验，有时会影响到检验结果。区别2：正态资料一般采用平均数±标准差表示；非正态资料建议采用四分位数（四分位数间距IQR）表示，必要时提供range。

一图三表定量资料定性资料实验流程图、基线资料表、单因素表、多因素表基线表中的常见问题： 1.基线表中定量资料都采用mean±SD的形式，未必完全妥当； 2.基线数据不充分是中文文章的常见问题基线表一般包括：人口学资料（年龄、性别、BMI…）、现病史、合并症、既往史（既往诊断和治疗状况，药物使用情况、分类、剂量、周期）和危险因素等定量资料正态分布：均值±标准差非正态分布：中位数（IQR）定性资料频数、百分比

例2：分析本市户口和外地户口家庭人均住房面积的基本情况正态分布检验例2：分析本市户口和外地户口家庭人均住房面积的基本情况解决方案一：拆分数据—计算基本描述统计量

Descriptive Statistics Explore 解决方案二： Analyze Descriptive Statistics Explore 样本量>2000 样本量<2000

解读检验结果：两种检验方法（K-S检验和S-W检验）的结果，其实暂时没有所谓的严格标准，在SAS中K-S检验一般适用于样本量>2000，S-W检验用于2000以内的样本。在SPSS中比较复杂，一般样本量50以内采用S-W检验，对于无权重或整数权重，在加权样本大小位于3-5000之间也可以采用。 P >0.05代表服从正态分布。

二. 在SPSS中计算基本描述统计量 2.定性资料 1.频数（Frequency）变量值落在某个区间（或某个类别）中的次数 2.百分比（Percent）各频数占总样本量的百分比 3.统计图柱形图或条形图（Bar Chart）饼图（Pir Chart）直方图（Histograms）

二. 在SPSS中计算基本描述统计量 2.定性资料操作 Analyze Descriptive Statistics Frequencies 例3：利用住房状况问卷调查数据，分析户主的从业状况和目前所住房屋的产权情况。

例4：利用住房状况问卷调查数据，分析人均住房面积的分布情况，并对本市户口和外地户口家庭进行比较。分析思路： 1.先对数据拆分，分别计算本市户口和外地户口的人均住房面积，通过四分位数比较两者分布上的差异。 2.考虑数据跨度较大，应对数据进行分组，（0-10、10-20、20-30、30-40、>40，共5组）绘制频率表和直方图，分析本市户口和外地户口的家庭人居住房面积的情况

四.统计方法那么多，怎么选？三个“3”原则：第一个“3”——数据类型：定量、定性、time-to-event 第二个“3”——组别数量：单组、两组、多组第三个“3”——组间关系：独立、配对、重复测量

定量资料：数据分组 NO 非参数检验正态性检验 YES 组的数目两组多组 P<0.05只能证明多组中至少两组存在显著差异 T检验方差分析受试者来源（受试者是否相同）两两检验：post-hoc检验包括LSD/Bonferrony/Tukey 配对T检验独立样本T检验

定量资料总结：正态资料：非正态资料（非参数检验）：独立T检验、配对T检验、方差分析（ANOVA）、一般线性模（GLM） 2组检验多组检验非正态资料（非参数检验）： Mann-Whitney U检验、Wilcoxon检验、Cruskal-Wallis H检验、Kendall’s W检验 2独立样本 2配对样本多独立样本多配对样本

定性资料：表格类型数据类型及属性四格表一般四格表配对四格表列联表（R*C表） X.Y均为分类变量且属性不同卡方检验 Kappa检验、McNemar检验列联表（R*C表） X.Y均为分类变量且属性不同 X为分类变量、Y为有序变量 X.Y均为有序变量且属性不同 X.Y均为有序变量且属性相同双向无序表单向有序表双向有序表卡方检验、Fisher精确检验秩和检验组间差异：秩和检验 XY相关性：Spearman秩相关线性规律：线性趋势模型一致性检验：Kappa检验

定性资料总结：无序分类资料（计数）：Crosstab（无序——卡方检验）有序等级资料：非参数检验相关分析：Spearman等级相关 Y为二分类独立变量：非条件Logistic回归 Y为二分类配对变量：条件Logistic回归

谢谢大家！