基于SPSS的数据分析(上) ——高雅.

Slides:



Advertisements
Similar presentations
庄文忠 副教授 世新大学行政管理学系 2012/7/6 SPSS 之应用 ( 庄文忠副教授 ) 1 SPSS 的环境与基本操作.
Advertisements

2007 年广州市初中信息技术 结业考试海珠区质量分析 海珠区教育发展中心 范谊 2007 年 9 月 8 日.
第二章 SPSS的基本操作 2-1 SPSS 的簡介 2-2 SPSS 軟體的功能表介紹 2-3 資料的輸入 2-4 資料的分析與輸出結果
吴志强 信息管理学院 讲座:SPSS使用方法 吴志强 信息管理学院
SPSS系统教程.
第二章 语言测试的功能与分类 湖南师范大学外国语学院 邓 杰 教授.
資料概說 1.1 基本名詞介紹 1.2 資料型態 1.3 基本操作 商管研究資料分析SPSS的應用 Chapter 1 資料概說.
第五讲 非参数统计分析 吴成秋 南华大学公共卫生学院
How to Use SPSS in Biomedical Data analysis
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
传播学研究:理论与方法 戴元光 赵士林 邢虹文.
人教版五年级数学下册 众 数.
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
PET-CT-SUVmax与鼻咽癌放疗过程中原发灶 径线变化的关系
第1讲 SPSS基础
广告原理与策划 ——主编 魏超.
DOE & EXCEL, SPSS application
如何使用 Excel 與SPSS繪製 統計圖型
科研数据的种类 及处理方法 广东省心血管病研究所 麦劲壮.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
Dr. Hamda Qotba, B.Med.Sc, M.D, ABCM 翻译:acred(DXY)
统计学期末复习
第十七章 SPSS系统在传播学研究中的应用
第七章 SPSS的非参数检验.
第一章 敘述統計學.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
第四章 SPSS的基本统计分析.
第一讲: 基本流程(1).
第八章 均值比较与检验 2019/1/11.
第十章 方差分析.
数据挖掘工具性能比较.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯 流行病与卫生统计学教研室
描述性统计学 作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)
第七章 参数估计 7.3 参数的区间估计.
医学统计学方法 实习3 主讲人 陶育纯 医学统计学方法 实习3 主讲人 陶育纯
抽样和抽样分布 基本计算 Sampling & Sampling distribution
模型分类问题 Presented by 刘婷婷 苏琬琳.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
Chapter 1 統計學緒論. Chapter 1 統計學緒論 Study Report 講述一個神奇而美麗的統計 很多人或許常常在問:「What is Statistics」-統計是甚麼? 統計是製造可信賴的之資料,分析資料的真正意義。 有一列火車上有一位統計學家,一位物理學家和一位數學.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
第六章 Excel的应用 一、Excel的单元格与区域 1、单元格:H8, D7, IV26等 2、区域:H2..D8, HS98:IT77
第4章 Excel电子表格制作软件 4.4 函数(一).
統計學簡介 許明宗.
统计图表绘制 电子工业出版社.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
资料的描述性分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.
资料的描述性分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2011/7/11.
可编辑图表汇总 修改方法: 点击图表内容→“设计”选项卡→编辑数据.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
第7章 基本统计分析 2019/5/14.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
GIS基本功能 数据存储 与管理 数据采集 数据处理 与编辑 空间查询 空间查询 GIS能做什么? 与分析 叠加分析 缓冲区分析 网络分析
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
难点:连续变量函数分布与二维连续变量分布
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
第六章 Excel的应用 五、EXCEL的数据库功能 1、Excel的数据库及其结构 2、Excel下的数据排序 (1)Excel的字段名行
统计工具的使用方法 主讲人 陶育纯 统计工具的使用方法 主讲人 陶育纯
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
第四章 UNIX文件系统.
SPSS应用初阶(上) 主讲人:高雅
学习目标 1、什么是列类型 2、列类型之数值类型.
Presentation transcript:

基于SPSS的数据分析(上) ——高雅

SPSS统计分析软件概述 SPSS for Windows/SPSS for IOS SPSS更新至22.0版本,已推出汉化版 SPSS又名社会科学统计包(Statistical Package for the Social Science),是世界著名的统计分析软件之一。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,并成立SPSS公司。 SPSS for Windows/SPSS for IOS SPSS更新至22.0版本,已推出汉化版

主界面介绍

数据分析的基本步骤 数据分析的基本步骤 SPSS 明确数据分析目标 正确收集数据 建立数据文件 加工和整理数据 选择恰当的统计分析方法进行探索分析 读懂统计分析结果 建立数据文件 加工整理数据 数据分析 解释分析结果

SPSS讲座大纲 一.SPSS数据文件的建立和管理 二.SPSS数据的预处理 三.基本统计分析 四.如何选择正确的统计方法 数据分析 解释分析结果

SPSS讲座大纲 一.SPSS数据文件的建立和管理 二.SPSS数据的预处理 三.基本统计分析 四.如何选择正确的统计方法 数据分析 解释分析结果

一.SPSS数据文件的建立和管理 一.SPSS数据的结构和定义方法 变量视图窗口(Variable View) 编辑变量名,定义数据类型、列宽、小数位宽、缺失数据、变量名标签、变量值标签、计量尺度等 展开: 1.定义用户缺失值 2.变量值标签 3.计量尺度

明显错误以及漏填的数据都可以看做缺失数据 用户缺失值 可以是1~3个特定的离散值、或者一个封闭区间 系统缺失值 用“.”表示 缺失值(Missing)分为 明显错误以及漏填的数据都可以看做缺失数据 用户缺失值 可以是1~3个特定的离散值、或者一个封闭区间 系统缺失值 用“.”表示 待分析的数据中存在大量的缺失值,会对分析产生重大影响,因此,在数据分析之前通常需要对缺失数据进行必要的处理。如EM法或回归法。

重点 计量尺度(Measure)分为 定距型数据(Scale) 如身高、体重、血压/人数、商品件数 定序型数据(Ordinal) 如职称等级、文化程度 定类型数据(Nominal) 如性别、血型、婚姻状况 变量类型分为 定量变量 定性变量 连续变量 离散变量 重点 有序变量 分类变量

不可逆的过程,转化后标注(values) 变量类型的转化: 定量变量(连续型/离散型数值) 如年龄、BMI 少儿组、青年组、中年组、老年组 定性变量(有序多分类变量) 正常、超重、肥胖 非老年组、老年组 定性变量(二分类变量) 正常组、超重组 不可逆的过程,转化后标注(values)

一.SPSS数据文件的建立和管理 二.SPSS数据文件的合并 纵向合并数据文件 Data Merge File Add Cases 合并依据:相同的变量名 纵向合并数据文件 *表示该变量是当前数据编辑窗口中的变量 +表示该变量是即将合并的文件中的变量 Data Merge File Add Cases

同名变量,作为合并后新数据文件的变量 不同变量名 若变量名不同,但含义相同: Pair:变量配对 Rename:变量改名

横向合并数据文件 Data Merge File Add Variables 合并依据:相同的变量名,称关键变量 两个数据文件必须都按关键变量值升序排序 横向合并数据文件 *表示该变量是当前数据编辑窗口中的变量 +表示该变量是即将合并的文件中的变量 Data Merge File Add Variables

所有变量 由两个数据文件中的个案共同组成合并后的数据文件 关键变量 查看个案来源的数据文件 若变量名不同,但含义相同: Pair:变量配对 Rename:变量改名

二.SPSS数据的预处理 1.变量排序 2.变量分组 3.数据选取 4.数据分裂 5.计数处理 6.分类汇总

一.变量排序 用途 操作 Data Sort Cases 1.便于数据浏览,了解数据的取值情况、缺失值数量等; 2.能够快捷找到数据的最大值和最小值,进而可以计算全距,初步把握数据的离散程度; 3.快捷地发现数据的异常值,为进一步明确它们是否对分析产生重要影响等提供帮助 操作 Data Sort Cases 制定排序变量到[Sort by]框中,在[Sort Order]框中指定排序方式 [Ascending]升序,[Descending]降序

二.变量分组 操作 Rransform Recode into Different Variables 将定量变量分组,是对数据进行整理和粗略把握数据分布的重要工具。 1.定量变量转化为定性变量。 2.在数据分组的基础上进行频数分析。 例如:将连续型变量(年龄)转换为分类的有序变量(20-30、30-40、40-50、50-60、60-70岁五个组) 分组原则:1.依据行业规范;2.组距分组规则 组数K=1+ln(n)/ln(2),n为数据个数 组距=(max-min)/K 操作 Rransform Recode into Different Variables

插入一个新变量,在变量视图中修改变量名

年龄分组完成! 技巧1:可先将待分组变量按升序/降序排列,观察最大值和最小值,在进行分组。 技巧2:定义变量值,方便以后查看不同组代表的含义。 按键可在变量值与变量值标签间互相切换

三.数据选取 操作 Data Select Cases 从已收集的大批量数据(总体)中按照一定的规则抽取部分数据(样本)参与分析,也称样本抽样。 目的:1.提高数据分析效率;2.检验模型的需要 例如:只想了解某一特定群体的特征,如“住房状况调查数据”,仅对具有本市户口的家庭住房状况进行分析,或者对全部样本的70%的数据进行分析。 操作 Data Select Cases 若要选择多分类,可将条件组合,[|]表示或;[&]表示且

四.数据分裂 针对某一变量的部分子集,做亚组分析——Select Cases 针对某一变量的全子集,做亚组分析——Split Cases

五.计数处理 操作 Transform Count Values within Cases 对所有个案或满足某条件的部分个案,计算有多少个变量的值落在指定的区间内,并将计算结果存入一个新变量中的过程。 步骤: 1.指定哪些变量参与计数,计数结果存入哪个新变量中 2.指定计数区间。 例如: 分析被调查家庭中有多少比例的家庭对目前的住房满意且近3年不准备购买住房。 操作 Transform Count Values within Cases 若要选择多分类,可将条件组合,[|]表示或;[&]表示且

存放计数结果的变量名 参与计数的变量

Analyze Descriptive Statistics Frequencies

六.分类汇总 操作 Data Aggregate 确定分类变量和汇总变量: 1.按照哪个变量(如学历、职业、年龄)进行分类; 2.对哪个变量(如基本工资、消费金额、血压)进行汇总,并指定对汇总变量计算哪些统计量(平均数、中位数等)。 例如: 分析本市户口和外地户口家庭目前人均住房面积的平均值是否有较大差距,未来打算购买住房的平均面积是否有较大差距。 操作 Data Aggregate

三.基本统计分析 一. 基本描述统计量 均值(Mean) 中位数(Median) 众数(Mode) 1.刻画集中趋势的描述统计量 集中趋势是指一组数据向某一中心值靠拢的倾向。计算刻画集中趋势的描述统计量正是要寻找能够反映数据一般水平的“代表值”或“中心值”。 均值(Mean) 中位数(Median) 众数(Mode)

样本标准差(Standard Deviation : Std Dev) 四分位间距(Quartile Interval Range) 2.刻画离散程度的描述统计量 离散程度是指一组数据远离其中心值的程度。如果数据紧密地集中在中心值的周围,即数据的离散程度较小,则说明中心值对数据的代表性好;相反,如果数据较松散地分布在中心值周围,即数据的离散程度较大,则表明中心值不具有代表性。 样本标准差(Standard Deviation : Std Dev) 四分位间距(Quartile Interval Range) 全距(Range)

偏度系数(Skewness) 峰度系数(Kurtosis) 3.刻画分布形态的描述统计量 数据的分布形态主要指数据分布是否对称,偏斜程度如何,分布陡缓程度等。 偏度系数(Skewness) 峰度系数(Kurtosis)

二. 在SPSS中计算基本描述统计量 1.定量资料 操作 Analyze Descriptive Statistics Descriptives 例1:利用住房状况问卷调查数据,分析家庭人均住房面积的基本情况

正态分布检验 若随机变量X服从均值为μ,标准差为σ的高斯分布,记做X~N(μ,σ2)。 均值μ决定了其位置,方差决定了分布幅度。 当μ=0,σ=1时,该正态分布又称标准正态分布。 特点: 1.关于μ对称,并在μ处取最大值; 2.在正负无穷大时取值为0; 3.在μ±σ处有拐点

正态与非正态分布的统计学应用 适用范围:定量资料,如年龄、糖化血红蛋白值、BMI等 区别1:正态与非正态分布资料对假设检验要求不同。正态分布一般用参数检验(如T检验等),而非正态分布资料则要求用非参数检验。不合适的检验,有时会影响到检验结果。 区别2:正态资料一般采用平均数±标准差表示;非正态资料建议采用四分位数(四分位数间距IQR)表示,必要时提供range。

一图三表 定量资料 定性资料 实验流程图、基线资料表、单因素表、多因素表 基线表中的常见问题: 1.基线表中定量资料都采用mean±SD的形式,未必完全妥当; 2.基线数据不充分是中文文章的常见问题 基线表一般包括: 人口学资料(年龄、性别、BMI…)、现病史、合并症、既往史(既往诊断和治疗状况,药物使用情况、分类、剂量、周期)和危险因素等 定量资料 正态分布:均值±标准差 非正态分布:中位数(IQR) 定性资料 频数、百分比

例2:分析本市户口和外地户口家庭人均住房面积的基本情况 正态分布检验 例2:分析本市户口和外地户口家庭人均住房面积的基本情况 解决方案一:拆分数据—计算基本描述统计量

Descriptive Statistics Explore 解决方案二: Analyze Descriptive Statistics Explore 样本量>2000 样本量<2000

解读检验结果: 两种检验方法(K-S检验和S-W检验)的结果,其实暂时没有所谓的严格标准,在SAS中K-S检验一般适用于样本量>2000,S-W检验用于2000以内的样本。在SPSS中比较复杂,一般样本量50以内采用S-W检验,对于无权重或整数权重,在加权样本大小位于3-5000之间也可以采用。 P >0.05代表服从正态分布。

二. 在SPSS中计算基本描述统计量 2.定性资料 1.频数(Frequency) 变量值落在某个区间(或某个类别)中的次数 2.百分比(Percent) 各频数占总样本量的百分比 3.统计图 柱形图或条形图(Bar Chart) 饼图(Pir Chart) 直方图(Histograms)

二. 在SPSS中计算基本描述统计量 2.定性资料 操作 Analyze Descriptive Statistics Frequencies 例3:利用住房状况问卷调查数据,分析户主的从业状况和目前所住房屋的产权情况。

例4:利用住房状况问卷调查数据,分析人均住房面积的分布情况,并对本市户口和外地户口家庭进行比较。 分析思路: 1.先对数据拆分,分别计算本市户口和外地户口的人均住房面积,通过四分位数比较两者分布上的差异。 2.考虑数据跨度较大,应对数据进行分组,(0-10、10-20、20-30、30-40、>40,共5组)绘制频率表和直方图,分析本市户口和外地户口的家庭人居住房面积的情况

四.统计方法那么多,怎么选? 三个“3”原则: 第一个“3”——数据类型:定量、定性、time-to-event 第二个“3”——组别数量:单组、两组、多组 第三个“3”——组间关系:独立、配对、重复测量

定量资料: 数据 分组 NO 非参数检验 正态性检验 YES 组的数目 两组 多组 P<0.05只能证明多组中至少两组存在显著差异 T检验 方差分析 受试者来源 (受试者是否相同) 两两检验:post-hoc检验 包括LSD/Bonferrony/Tukey 配对T检验 独立样本T检验

定量资料总结: 正态资料: 非正态资料(非参数检验): 独立T检验、配对T检验、方差分析(ANOVA)、一般线性模(GLM) 2组检验 多组检验 非正态资料(非参数检验): Mann-Whitney U检验、Wilcoxon检验、Cruskal-Wallis H检验、Kendall’s W检验 2独立样本 2配对样本 多独立样本 多配对样本

定性资料: 表格类型 数据类型及属性 四格表 一般四格表 配对四格表 列联表 (R*C表) X.Y均为分类变量且属性不同 卡方检验 Kappa检验、McNemar检验 列联表 (R*C表) X.Y均为分类变量且属性不同 X为分类变量、Y为有序变量 X.Y均为有序变量且属性不同 X.Y均为有序变量且属性相同 双向无序表 单向有序表 双向有序表 卡方检验、Fisher精确检验 秩和检验 组间差异:秩和检验 XY相关性:Spearman秩相关 线性规律:线性趋势模型 一致性检验:Kappa检验

定性资料总结: 无序分类资料(计数):Crosstab(无序——卡方检验) 有序等级资料:非参数检验 相关分析:Spearman等级相关 Y为二分类独立变量:非条件Logistic回归 Y为二分类配对变量:条件Logistic回归

谢谢大家!