医学统计学 3 主讲人 陶育纯 http://cc.jlu.edu.cn/ms.html http://cc.jlu.edu.cn/ss.html 医学统计学 3 主讲人 陶育纯 2013.4.2
第三讲 课程名称:医学统计学 主要教材: «卫生统计学» 第7版 方积乾 主编 人民卫生出版社 年级、专业:2010级白求恩医学班 方积乾 主编 人民卫生出版社 年级、专业:2010级白求恩医学班 授课时间:2013年4月3日 授课时数:4h 2013.4.2
目录 一、 统计软件的简介 二、 SAS的基本使用方法(自学) 三、 SPSS的基本使用方法★ 四、 Excel的统计分析方法 五、 Android系统的统计应用 2013.4.2
一、SAS简介 一、 统计软件的简介 ㈠ SAS简介 SAS(Statistical Analysis System) 是当今世界上最权威的统计分析系统之一。SAS系统于上世纪六十年代末由美国的North Carolina大学的一 个研究小组开发。1976年成立SAS研究所专门负责产品的研制、生产、销售和培训。1985年首次推出PC版本,以后相继推出升级版本,功能不 断加强,目前最新版本为SAS V9.3。 2013.4.2
www.sas.com 你可以花钱使用SAS,但你不能拥有它! 2013.4.2
Today, SAS is no longer a name of statistical software, it became a symbol of all products in business intelligence and analytical software and services provided by SAS company. 2013.4.2
SAS is the leader in business intelligence and analytical software and services. Customers at 43,000 sites use SAS software to improve performance through insight from data, resulting in faster, more accurate business decisions; more profitable relationships with customers and suppliers; compliance with governmental regulations; research breakthroughs; and better products and processes. Only SAS offers leading data integration, storage, analytics and business intelligence applications within a comprehensive enterprise intelligence platform. Since 1976, SAS has been giving customers around the world THE POWER TO KNOW®. 2013.4.2
Look for the new SAS ads What is Meaning ? 2013.4.2
Gophers burrow through life without seeing the havoc they create. They can’t help having tunnel vision. But you can. With proven business intelligence and analytic software from SAS. 2013.4.2
Another SAS ads 2013.4.2
SAS是一个模块化、集成化的应用软件系统,它可以实现对数据的完全控制和充分利用。主要完成以数据中心的四大任务: •数据访问 •数据管理 •数据呈现 •数据分析 SAS可由许多不同的模块组成来完成不同的任务。对于最基本的、最常用的统计方法放在基本系统模块(BASE)里,不管低版本还是高版本,此模块都包含。 常用的模块有:SAS/BASE(基础)、SAS 2013.4.2
/STAT(统计)、SAS/GRAPH(图形)、SAS /ETS(预测)、SAS/IML(矩阵)、SAS/QC( 质量控制)等。 ① 可靠性高 ② 易用性好 ③ 通用性强 ④ 应用范围广 ㈡ SAS的启动和操作界面 2013.4.2
启动SAS有两种方法:一是通过双击桌面上 的SAS的快捷启动方式图标 ;二是通过 单击“开始”按钮内“程序”下SAS系统程序组 中的 窗口和状态行构成。不同版本的界面稍有不同。 以下图1为SAS 6.12的操作界面,图2为SAS 9.3 的操作界面。 2013.4.2
图 1 2013.4.2
图 2 2013.4.2
SAS程序通过数据步完成SAS数据集(Data Set)的建立工作,此步还可对数据进行加工、 整理和变换。通过过程步调用一个或多个SAS过 数据步(DATA Step) SAS Program 过程步(PROC Step) SAS程序通过数据步完成SAS数据集(Data Set)的建立工作,此步还可对数据进行加工、 整理和变换。通过过程步调用一个或多个SAS过 程(procedure),其作用是对已建立的SAS数据 集进行分析和管理。 2013.4.2
以下是一个SAS程序的样例。 data test2 ; input x y @@ ; d = x - y ; cards ; 3550 2450 2000 2400 3000 1800 3950 3200 3800 3250 3750 2700 3450 2500 3050 1750 ; proc means mean std stderr t prt ; var d ; run ; customer success stories 2013.4.2
SAS主要通过三个基本窗口,即程序编辑窗 口(PROGAM EDITOR,简记PGM)、日志窗口(LOG) 和输出窗口(OUTPUT)进行程序的输入、编辑、运行以及运行过程信息和运行结果的查看、存储。 以下是前述SAS程序样例的运行过程信息和运行结果。 2013.4.2
有关SAS使用方法的参考书如下: 1. SAS for Windows 统计分析系统教程 洪楠等编 电子工业出版社 2001 洪楠等编 电子工业出版社 2001 2013.4.2
薛富波编 北京希望电子出版社 兵器工业出版社 2004 2. Windows SAS 6.12 & 8.0实用统计分析教程 胡良平编 军事医学科学院 2001 3. 分类数据的统计分析及SAS编程 刘勤编 复旦大学出版社 2002 4. 医用统计学中的SAS统计分析 贺佳编 第二军医大学出版社 2002 5. 医用统计学与电脑实验(第二版) 方积乾编 上海科学技术出版社 2001 6. SAS 8.2统计应用教程 薛富波编 北京希望电子出版社 兵器工业出版社 2004 2013.4.2
二、SPSS简介 (即第一章 SPSS for Windows 概述) ㈠ SPSS简介 SPSS(Statistical Package For the Social Sciences) 是当今世界上最权威的统计分析系统之一。SPSS于上世纪七十年代初由美国的Stanford大学的一个研究小组开发,以后成立SPSS公司专门负责产品的研制、生产、销售和培训。SPSS最初是为大型计算机开发的,随着PC的发展与普及,相应地推出PC版本,以后相继推出升级版本,功能不断加强,目前最新版本为IBM SPSS Statistics 21。 2013.4.2
只要你肯花钱, 你就能拥有它! 正式版本的价钱 $ ! 网站提供免费下载Trial版,但只能使用14天。 SPSS的中国网站还可使用。 WWW.SPSS.COM www-01.ibm.com/software/analytics/spss/ 网站提供免费下载Trial版,但只能使用14天。 WWW.SPSS.COM.CN SPSS的中国网站还可使用。 正式版本的价钱 $ ! 又涨了100 $ ! 只要你肯花钱, 你就能拥有它! 2013.4.2
要想免费下载Trial版本, 你必须填写个人信息单。 你还可以下载许多用户手册。 2013.4.2
Provides a powerful set of sophisticated univariate and multivariate analytical techniques that you can apply to real-world problems. Can provide Fisher’s Exact Test method. Enables you to apply more sophisticated models to your data using its wide range of non-linear modelling procedures. 2013.4.2
将来不叫SPSS,也不一定叫 PASW,而可能叫IBM SPSS ! 2013.4.2
http://www-01.ibm.com/software/analytics/spss/products/statistics/ This is the latest information for IBM SPSS software. $2320 ! $6950 ! $4660 ! 2013.4.2
SPSS也是一个模块化、集成化的应用软件系统。它通过基本模块BASE与其它模块相连,完成各种不同的统计分析任务。 SPSS公司已于2000年正式将英文全称更改为Statistical Product and Service Solutions,意为“统计产品与服务解决方案”,标志着SPSS的战略方向正在做出重大调整。 SPSS也是一个模块化、集成化的应用软件系统。它通过基本模块BASE与其它模块相连,完成各种不同的统计分析任务。 SPSS最突出的特点就是操作界面极为友好,输出结果美观漂亮,它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的 2013.4.2
Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。是非专业统计人员的首选统计软件。 SPSS是世界上最早采用图形菜单驱动界面的 统计软件。它采用类似Excel表格的方式输入与管 理数据,数据接口较为通用,能方便的从其他数 据库中读入数据。其统计过程包括了常用的、较 为成熟的统计方法,完全可以满足非统计专业人 士的工作需要。输出结果十分美观,存储为专用 的SPO格式,可以转存为HTML格式和文本格式。 2013.4.2
SPSS Inc. is a leading worldwide provider of predictive analytics software and solutions. Today SPSS has more than 250,000 customers worldwide, served by more than 1,200 employees in 60 countries. SPSS has become a leader in predictive analytics technologies through a combination of commitment to innovation and dedication to customers. You will find SPSS customers in virtually every industry, including telecommunications, banking, finance, insurance, healthcare, manufacturing, retail, consumer packaged goods, higher education, government, and market research. 2013.4.2
PASW (formerly SPSS) is a computer program used for statistical analysis. Before 2009 it was called SPSS, but in 2009 it was re-branded as PASW (Predictive Analytics SoftWare). The company announced July 28, 2009 that it was being acquired by IBM for US$1.2 billion. 2013.4.2
启动SPSS有两种方法:一是通过双击桌面上 的SPSS的快捷启动方式图标 ;二是通过 单击“开始”按钮内“程序”下SPSS系统程序组 中的 窗口和状态行构成。不同版本的界面稍有不同。 以下图3为SPSS 13.0的数据管理界面,图4为分析 结果的操作界面。 2013.4.2
图 3 2013.4.2
图 4 2013.4.2
与SAS不同,SPSS主要通过操作菜单来完成统计分析任务。 SPSS把所有的统计分析功能分门别类地以命令、对话框和选择项的形式放到菜单中。用户使用统计功能只需点击鼠标就可轻松完成,而不必费心编程。SPSS还提供了通过“粘贴”按钮自动生成程序内容的先进、方便功能。 SPSS也必须首先建立数据集才可进行统计分 2013.4.2
析。通过在一个类似Excel表格的界面里建立包括变量在内数据文件。以下通过《卫生统计学》第四版的第十三章回归与相关中的例13 析。通过在一个类似Excel表格的界面里建立包括变量在内数据文件。以下通过《卫生统计学》第四版的第十三章回归与相关中的例13.1资料,演示一下在SPSS 10.0中进行直线回归分析的操作过程及分析结果。 例13.1 某研究者为探讨女性的年龄与收缩压的关系,收集了某地12名妇女的年龄与收缩压数据见下表。试求年龄与收缩压的直线回归方程。 2013.4.2
首先在SPSS的数据编辑窗口(Data Editor)中建立年龄与收缩压的数据集。 2013.4.2
以下是年龄与收缩压的变量设置窗口。 2013.4.2
以下是选择绘制年龄与收缩压的散点图的菜单项。 2013.4.2
以下是绘制年龄与收缩压的散点图的对话框。 2013.4.2
以下是年龄与收缩压的散点图的输出结果。 2013.4.2
以下是选择进行年龄与收缩压的直线回归分析的菜单项。 2013.4.2
以下是进行年龄与收缩压的直线回归分析的对话框。 2013.4.2
以下是年龄与收缩压的直线回归分析的输出结果1。 2013.4.2
以下是年龄与收缩压的直线回归分析的输出结果2。 t = 6.320, P < 0.001. 有关SPSS使用方法的参考书如下: 1. SPSS 与统计分析 宇传华 主编 电子工业出版社 2007.2 2013.4.2
2. 医学统计学与SPSS 软件应用 王彤 主编 北京大学医学出版社 2008.8 3. SPSS统计分析基础教程 王彤 主编 北京大学医学出版社 2008.8 3. SPSS统计分析基础教程 张文彤 等编 高等教育出版社 2004 4. SPSS统计分析高级教程 张文彤 等编 高等教育出版社 2004 5. SPSS在医学科研中的应用 王乐三 主编 化学工业出版社 2007.7 2013.4.2
二、 SAS的基本使用方法(自学) 参见“SAS的基本使用方法.PPT”课件 2013.4.2
一、SPSS基础知识 三、 SPSS的基本使用方法★ ㈠ SPSS的常用名词和术语 1. 常数(constant) 在运行中保持不变的数据。如、e等。 2. 变量(variable) 变化数据的代表。SPSS对变量有如下规定: ⑴ 变量名最多由8个字符组成(12.0以前版本),首字符必 须为字母或@, 其后可以是字母、数字、下划线、句点、 $,#,但不允许把句点(.)作为变量名的尾字符。 2013.4.2
10.0版本以上可以取汉字变量名;12.0版本开始支持长 文件名,允许最长64个字符,但单词之间不允许以空格 分隔。 SAS统计分析 10.0版本以上可以取汉字变量名;12.0版本开始支持长 文件名,允许最长64个字符,但单词之间不允许以空格 分隔。 ⑵ 变量有数值型与字符型。SPSS提供的8种类型中,前 七种均视为数值型。 ⑶ 变量名不区分大小写字母。 ⑷ 变量名不能使用SPSS的关键字。有: AND、OR、 NOT、ALL、TO、BY、EQ、GE、GT、 LE、LT、 NE、WITH。 ⑸ 变量名必须唯一,不允许重复。 2013.4.2 教案
3. 表达式(expression) 4. 关键字(keywords) 用运算符和括号把常数、变量和函数按一定的规则连 接起来的有意义的式子。如: COMPUTE y=sin(x). COMPUTE x=x+1. SPSS用 ** 代表乘方运算符。 4. 关键字(keywords) SPSS定义的用于标识命令、子命令、函数、运算符和 其它设定的特殊词汇。 5. 样品(case) 是组成数据文件的基本单元。又称记录(record)或观 测( observation )。 2013.4.2
㈡ SPSS的常用函数 6. 缺失值(missing value) 1. 算术函数(Arithmetic Functions) 指统计中不合格项(因缺失或遗漏)或给出规定值以 外的数值。SPSS有系统缺失值和用户缺失值两种。SPSS 用句点(.)代表缺失值。 ㈡ SPSS的常用函数 SPSS 12.0共提供12种类型177个常用函数(function)。 1. 算术函数(Arithmetic Functions) ABS(X) 取绝对值函数 RND(X) 四舍五入取整函数 TRUNC(X) 取整函数(小数点后数字舍去) 2013.4.2
2. 统计函数(Statistical Functions) SUM(X) 求和函数 SQRT(X) 平方根函数 EXP(X) ex LG10(X) lgx LN(X) lnx SIN(X) 正弦函数 COS(X) 余弦函数 等等 2. 统计函数(Statistical Functions) SUM(X) 求和函数 SD(X) 求标准差函数 MEAN(X) 求算术平均数函数 2013.4.2
4. 日期和时间函数(Date and Time Functions) CTIME.DAYS(timevalue) 计算天数 3. 转换函数(Conversion Functions) NUMBER(strexpr,format) 把字符转换成数值 STRING(numexpr,format) 把数值转换成字符 其中format常取f?或f?.?格式,? 代表数字。 4. 日期和时间函数(Date and Time Functions) CTIME.DAYS(timevalue) 计算天数 XDATE.YEAR(datevalue) 返回四位整数年份 CTIME.SECONDS(timevalue) 计算秒数 DATE.DMY(day,month,year). Numeric in date format. Returns a date value corresponding to the indicated day, month, and year. To display this value correctly, assign it a DATE format. The arguments must be integers, with day between 1 and 31, month between 1 and 13, and year a four-digit integer greater than 1582.. (1582年10月 14日及更早的时间在SPSS中是无效的) 参见SPSS数据文件date.sav。 等等 2013.4.2
6. 随机变量函数(Random Variable Functions) 5. 字符串函数(String Functions) LENGTH(strexpr) 计算strexpr的长度(包括结尾的空格) LOWER(strexpr) 小写转换函数 等等 6. 随机变量函数(Random Variable Functions) RV.NORMAL(mean, stddev) Numeric. Returns a random value from a normal distribution with specified mean and standard deviation. 7. 缺失值函数(Missing-value Functions) NMISS(X[,…]) 计算变量中的缺失值的个数 其它种类函数略,详情请见SPSS的帮助文件。 2013.4.2
二、SPSS数据录入和数据获取 ㈠ SPSS数据录入 数据文件的结构见图5 。 ① 定义变量。即在变量编辑窗口(Variable View) 定义变量的十大属性Name、Type、Width、Decimals、 Label、Values、Missing、Columns、Align、Measure。 ② 输入数据。即在数据编辑窗口(Data View)录入 原始数据。一列为一个变量,一行为一个记录。 SPSS的数据文件经存储后,其默认的文件名后缀为: “ .sav” 。 2013.4.2
The structure of database variable case One row, one case One column, one variable (index) 图 5 2013.4.2
2013.4.2
2013.4.2
Input the meanings that code number indicates 1-male 2-female sex Input code number Input the meanings that code number indicates 2013.4.2
Discrete missing values — 离散缺失值 2013.4.2
1-male 2-female 1-A 2-B 3-AB 4-O 2013.4.2
2013.4.2
2013.4.2
㈡ SPSS数据获取 方法: ★ SPSS可以调入由其它软件生成的数据文件。如常用的 Excel、dBASE等数据库文件。 File → Open → Data…,在打开的Open File对话框中 打开“文件类型”下拉框,选择外部数据文件相应的文件类型,再找到文件的相应存储位置,即可找到并调入该数据文件。 SPSS可打开的数据文件类型参见图2.8a。 2013.4.2
2013.4.2
图2.8a 2013.4.2
三、SPSS的描述统计分析方法 ㈠ 正态性检验 1. 建立数据文件(见exp5.1.sav) SPSS主要通过Analyze → Nonparametric Tests → 1-Sample K-S…检验(即One-Sample Kolmogorov-Smirnov Test)完成对某变量所有数据的正态性检验。 下面通过对例5.1的数据做正态性检验来讲述操作步骤及结果的判读。 1. 建立数据文件(见exp5.1.sav) 2013.4.2
2013.4.2
输出结果见表5.2,若Asymp. Sig. (2-tailed)的值大于 2. 正态性检验 Analyze →Nonparametric Tests →1-Sample K-S… 打开One-Sample Kolmogorov-Smirnov Test对话框。选择检验变量并选择 Normal(正态分布)选项, OK完成。 3. 结果判读 输出结果见表5.2,若Asymp. Sig. (2-tailed)的值大于 检验水准(0.05),则该变量服从正态分布;反之不服从。 2013.4.2
Uniform —均匀分布 Poisson — 泊松分布 Exponential — 指数分布 被检验变量 当被检验变量的例数小于30时, 选择此项可得到精确检验概率。 2013.4.2
Sig.—Significance,即检验概率P Asymp.—Asymptotic, 近似的 输出结果 Sig.—Significance,即检验概率P Asymp.—Asymptotic, 近似的 检验统计量Z 即检验概率P,若 P>0.05,则服从正态分布。 表 5.2 只有选择Exact选项时才有。 2013.4.2
㈡ 使用Frequencies命令 SPSS可以使用Frequencies命令完成对连续变量数据的频数分布分析,可以绘制直方图(histogram);对离散变量进行频数列表并绘制直条图(Bar chart)或饼图( Pie chart );对数据可以求均数、标准差、最大值、最小值、 标准误、中位数和百分位数等。 方法: Analyze → Descriptive Statistics → Frequencies … 2013.4.2
Bar chart — 条图Pie chart — 饼图Histogram — 直方图 列频数表 任意百分位数的选择 值是组中值 2013.4.2
1. 打开数据文件(见exp5.1.sav) 下面通过对例5.1的数据做基本统计分析来讲述操作步骤及结果的判读。 2. 选择分析变量和基本统计分析项 Analyze →Descriptive Statistics → Frequencies …打开Frequencies对话框,选择检验变量男性红细胞量blood并点击 Statistics …按钮打开Frequencies: Statistics对话框,选择Mean、Sum、Std.deviation、Minimum、Maximum和S.E.mean,点击Continue按钮,点击Charts…按钮打开Frequencies: Charts对话框,选择Histograms并选择 With normal curve选项, 点击Continue按钮,再点击OK按钮完成。 2013.4.2
对于连续变量 不选此项 2013.4.2
3. 结果判读 输出结果见表5.7和图5.9,从图5.9 可见该变量基本服从正态分布。 表 5.7 S 2013.4.2
图 5.9 2013.4.2
SPSS常用的描述统计量的中英文参见表5.3。 2013.4.2
四、Excel的统计分析方法 参见“用Excel作统计分析.xls”文档; 参见《Excel在统计分析中的应用》,刘钢 主编,人民卫生出版社:2002; 参见《Excel与数据分析》,宇传华 颜杰 编著,电子工业出版社:2002; 2013.4.2
五、Android系统的统计应用 C 参见“NewStatisticalToolsforAndroid.PPT” 课件; 参见互联网上相关文献。 C 2013.4.2