第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形.

Slides:



Advertisements
Similar presentations
庄文忠 副教授 世新大学行政管理学系 2012/7/6 SPSS 之应用 ( 庄文忠副教授 ) 1 SPSS 的环境与基本操作.
Advertisements

2007 年广州市初中信息技术 结业考试海珠区质量分析 海珠区教育发展中心 范谊 2007 年 9 月 8 日.
第二章 SPSS的基本操作 2-1 SPSS 的簡介 2-2 SPSS 軟體的功能表介紹 2-3 資料的輸入 2-4 資料的分析與輸出結果
SPSS 軟體與統計應用 Ya-Yun Cheng, How-Ran Guo
第六章 统计表与统计图 第一节 统计表 第二节 统计图 1.
SPSS系统教程.
資料分析 ---敘述統計分析.
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Measures of location and dispersion
第一章 生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系,其涉及哪些内容 1.
Keller: Stats for Mgmt & Econ, 7th Ed 圖表敘述法
传播学研究:理论与方法 戴元光 赵士林 邢虹文.
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
DOE & EXCEL, SPSS application
如何使用 Excel 與SPSS繪製 統計圖型
第三章 资料的统计描述 上一张 下一张 主 页 退 出.
3.1 集中趋势的度量 3.2 离散程度的度量 3.3 偏态与峰态的度量
第一章.
SAS 基础 SAS 功能及历史(略) INSIGHT,Analyst,Program 是统计分析的三种方法
第十七章 SPSS系统在传播学研究中的应用
統計學 授課教師:林志偉 Tel:5021.
Descriptive statistics
Chapter 2 簡單迴歸模型.
SAS  統計程序實作 CONTENTS By DR. Yang , Yi-Chiang /11/11.
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
第 3 章 敘述統計:數值方法.
第七章 SPSS的非参数检验.
第 5 章 樣本資料的數值分布.
Chapter 2 第二章 Presenting Data in Tables and Charts 統計圖及表的應用
Chapter 2 頻率分配.
STATA 7 蘇國賢.
Origin绘图和数据分析 2006年11月.
第一章 敘述統計學.
統計基本觀念 壹、資料 資料來源:實驗之量測結果,抽樣調查結果,公告資料。 一、資料類型
圖表製作 集中指標 0628 統計學.
Tel: 第11章 SPSS在时间序列预测中的应用 周早弘 旅游与城市管理学院
第 4 章 分散量數.
第四章 SPSS的基本统计分析.
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
統計量數 集中趨勢量數 離散趨勢量數 相對位置量數 分配形態量數.
敍述統計學 許明宗.
第 3 章 敘述統計II:數值方法 Part A (3.1~3.2).
Review 統 計 方 法 的 順 序 確定目的 蒐集資料 整理資料 分析資料 推論資料 (變量,對象) (方法:普查,抽樣)
第一次上統計Tutorial 就上手 不是只有上一次嗎.
描述性统计学 作者 Dr. Maria Correa-Prisant 翻译 lvruiqin(DXY)
第四章 抽樣與抽樣分配 4.1 抽樣與抽樣方法 抽樣分配概論 常見的抽樣分配 中央極限定理55
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
EXCEL+ORIGN+SPSS的描述统计
Homework 1(1/2) 本頁表格為派密(Peavy)在07年球季各場次ERA的表現,(1)請依此數據完成下頁表格之統計值並說明之;(2)並與其他三名投手之統計值比較之。(請詳述計算過程) 場次 各場次ERA
Dr. C. Hsieh College of Informatics Kao yuan University
计量资料的统计描述 赵耐青 复旦大学卫生统计教研室.
第二章 经典线性回归模型: 双变量线性回归模型
統計學簡介 許明宗.
资料的描述性分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.
SAS软件应用基础 SAS过程步.
統計學回顧 區國強.
(四)标准差(standard deviation)
第7章 基本统计分析 2019/5/14.
第二章 次數分配表與統計圖 第一節 次數分配表的製作 第二節 統計圖的製作 第三節 次數分配的形狀和性質 第四節 電腦習作.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
生物统计学 Biostatistics 第一章 统计数据的收集与整理
统计工具的使用方法 主讲人 陶育纯 统计工具的使用方法 主讲人 陶育纯
第七章 计量资料的统计分析.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
Statistical Table and Statistical Graph
認識 Excel 與SPSS.
SAS 統計程序實作 PROC GLM 變異數分析 (PROC ANOVA)
SAS 統計程序實作 PROC MEANS (一個母體)
Presentation transcript:

第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形

2.1 描述性统计的基本概念 2.1.1 统计学的基本概念 2.1.2 表示数据位置的统计量 2.1.3 表示数据分散程度的统计量 2.1 描述性统计的基本概念 2.1.1 统计学的基本概念 2.1.2 表示数据位置的统计量 2.1.3 表示数据分散程度的统计量 2.1.4 表示数据分布形状的统计量 2.1.5 其它统计量

2.1.1 统计学的基本概念 1. 总体与样本 总体(population):总体是指所研究对象的全体组成的集合。 2.1.1 统计学的基本概念 1. 总体与样本 总体(population):总体是指所研究对象的全体组成的集合。 样本(sample):样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本容量。容量为n的样本常用n个随机变量X1,X2,…,Xn表示,其观测值(样本数据)则表示为x1,...,xn,为简单起见,有时不加区别。

2. 参数与统计量 参数(parameter):参数是用来描述总体特征的概括性值。如总体平均值(μ)、总体方差(2)、总体比例(π)等。 统计量(statistics):统计量是用来描述样本特征的概括性值。如样本均值( )、样本方差(s2)、样本比例(P)等。

2.1.2 表示数据位置的统计量 如果要用简单的数字来概括一组观测数据x1,...,xn,可以使用“位置统计量”来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。 1. 均值(Mean) 均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:

2. 中位数(Median或Med) 中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为:x(1),...,x(n),然后计算

3. 众数(Mode) 观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中,常需考虑频数,因此众数用得多些。 4. 百分位数(Percentile) 分位数也是描述数据分布和位置的统计量。0.5分位数就是中位数,0.75分位数和0.25分位数又分别称为上、下四分位数,并分别记为Q3和Q1。

2.1.3 表示数据分散程度的统计量 1. 极差(Range)与半极差(Interquartile range) 2.1.3 表示数据分散程度的统计量 1. 极差(Range)与半极差(Interquartile range) 极差就是数据中的最大值和最小值之间的差: 极差 = max{xi} – min{xi} 上、下四分位数之差Q3 – Q1称为四分位极差或半极差,它描述了中间半数观测值的散布情况。 2. 方差(Variance或Var) 方差是由各观测值到均值距离的平方和除以观测量减1:

3. 标准差(Standard deviation或Std Dev) 方差的开方称为标准差: 标准差的量纲与原变量一致。 4. 变异系数(Coefficient of Variation或CV) 变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的:

2.1.4 表示数据分布形状的统计量 1. 偏度(skewness) 偏度和峰度是描述数据分布形状的指标。 2.1.4 表示数据分布形状的统计量 偏度和峰度是描述数据分布形状的指标。 1. 偏度(skewness) 偏度是刻画数据对称性的指标。偏度的计算公式为: 在SAS中: ● 关于均值对称的数据其偏度为0; ● 左侧更为分散的数据,其偏度为负,称为左偏; ● 右侧更为分散的数据,其偏度为正,称为右偏。

2. 峰度(kurtosis) 峰度描述数据向分布尾端散布的趋势。峰度的计算公式为: 利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若 ● 近似于标准正态分布,则峰度接近于零; ● 尾部较正态分布更分散,则峰度为正,称为轻尾; ● 尾部较正态分布更集中,则峰度为负,称为厚尾。

2.1.5 其它统计量 1. 均值的标准误(Std Error Mean或Std Mean或Std error) 2.1.5 其它统计量 1. 均值的标准误(Std Error Mean或Std Mean或Std error) 2. 校正平方和(Corrected sum of squares)

3. 未校正平方和(Uncorrected sum of squares) 4. k阶原点矩 其中A1即为均值 。 5. k阶中心矩

2.2 在SAS中计算统计量 2.2.1 用INSIGHT计算统计量 2.2.2 用“分析家”计算统计量 2.2.3 编程实现描述性统计

2.2.1 用INSIGHT计算统计量 1. 实例数据 INSIGHT可以非常方便地计算各种统计量。 【例2-1】表2-1为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况。 将表2-1中数据通过Excel导入到SAS数据集Mylib.sryzc中,4个变量名分别为:ID、R_ID、Income和Outgo,相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。

家庭编号 地区编号 家庭总收入 家庭总支出 1 2 1794 1550 16 2200 2060 1716 1365 17 2730 2236 3 3410 18 2496 1455 4 1765 1530 19 1760 1040 5 2184 1900 20 2820 2366 6 2050 21 2250 1966 7 2460 22 3170 2400 8 1976 1170 23 1200 1250 9 2850 24 1776 1350 10 4275 2760 25 1980 11 2010 1275 26 2455 2550 12 1810 27 1080 1380 13 3305 28 1986 14 29 3369 2305 15 1970 30 1316

2. 在INSIGHT中打开数据集 在菜单中选择“Solution(解决方案)”→“Analysis(分析)”→“Interactive Data Analysis(交互式数据分析)”,打开“SAS/INSIGHT Open”对话框,在对话框中选择数据集:Mylib.sryzc,单击“Open(打开)”按钮,即可在INSIGHT中打开数据窗口,如图所示。

3. 计算统计量 选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。在数据集sryzc的变量列表中,选择Income为分析变量,选择R_Id,为分组变量。 单击“Output(输出)”按钮,在打开的对话框中包含描述性统计量选项。

选择选项矩统计量和分位数,取消默认的选项:“Box Plot/Mosaic Plot”和“Histogram/Bar Chart”,单击“OK”按钮,即可得到变量Income按“R_Id”分组的各种矩统计量(Moments)和分位数(Quantiles),如图所示。

2.2.2 用“分析家”计算统计量 1. 启动“分析家” 选择主菜单“Solutions(解决方案)”→“Analysis(分析)”→“Analyst(分析家)”,打开“分析家”窗口。 选择主菜单“File(文件)”→“Open By SAS Name”,打开“Select A Member”对话框,选择数据集Mylib.sryzc。

2. 通过Summary Statistics菜单计算描述性统 计量 选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Summary Statistics(汇总统计量)”,打开“Summary Statistics”对话框,选择变量列表中的Income,单击“Analysis”按钮,选定分析变量,如图所示。

单击“Statistics”按钮,打开“Summary Statistics: Statistics”对话框。对话框中列出可以计算的所有统计 量(如右图所示)。 描述性统计量如下图所示。

3. 通过Distributions菜单计算描述性统计量 选择主菜单“Statistics(统计)”→“Descriptive(描述性统计)”→“Distributions(分布)”,打开“Distributions”对话框,选择变量列表中的Income,单击“Analysis”按钮,选定分析变量。 单击“OK”按钮,即可得到关于变量Income的矩统计量和基本统计测度

2.2.3 编程实现描述性统计 SAS提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用FREQ、MEANS和UNIVARIATE这三个过程来计算简单的描述统计量。 FREQ过程常用来计算分类变量取值的频数,而MEANS和UNIVARIATE过程则对数值型变量计算均值、标准差等统计量。

1. FREQ过程 FREQ过程包括多个控制频数输出与检验的语句和选项,格式如下: PROC FREQ DATA = <数据集>; [TABLES <变量1> <变量2> …;] [FORMAT <变量1> <输出格式1>. <变量2> <输出格式2>. …;] RUN; 其中PROC FREQ语句调用FREQ过程,标志FREQ过程的开始; TABLES语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算,可以多次使用。

例如,统计数据集Mylib.sryzc中变量R_Id和Income频数的代码如下: proc freq data = mylib.sryzc; tables R_Id Income; RUN; 显示结果如图所示。

2. MEANS过程 (1) 语法格式 MEANS过程的一般格式: PROC MEANS DATA=<数据集名>[<统计量关键字列表>]; [VAR <分析变量列表>;] [BY <分组变量名>;] [CLASS <分组变量名>;] RUN;

PROC MEANS语句后的选项主要用来指定所要计算的统计量,默认情况下,MEANS过程会给出频数、均数、标准差、最大值和最小值等,其余统计量的计算均需要在选项中指定。 VAR语句引导所要进行分析的所有变量的列表,SAS将对VAR语句所引导的所有变量分别进行描述性统计分析。 BY语句与CLASS语句所指定的分类变量用来进行分组统计,但输出格式不同。

如对数据集Mylib.sryzc中的Income变量计算简单统计量,只要用如下MEANS过程: proc means data = mylib.sryzc; var Income; run; 结果如图2-15所示。

在PROC MEANS语句中使用统计量关键字列表: (2) 使用统计量关键字列表 在PROC MEANS语句中使用统计量关键字列表: proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var Income; run; 结果如图2-16所示。

可以计算的描述性统计量关键字及其含义见下表。 所代表的含义 n 有效数据记录数 range 极差 nmiss 缺失数据记录数 skewness 偏度 mean 均值 kurtosis 峰度 std 标准差 t 分布位置假设检验之t统计量 stderr 标准误 probt 上述t统计量对应的概率值 var 方差 q1 第一四分位数 median 中位数 q3 第三四分位数 mode 众数 qrange 四分位数间距 cv 变异系数 p1 第一百分位数 max 最大值 p5 第五百分位数 min 最小值 p10 第十百分位数 sum 总计 p90 第九十百分位数 sumwgt 加权值总计 p95 第九十五百分位数 css 校正平方和 p99 第九十九百分位数 uss 未校正平方和

(3) 使用CLASS语句和BY语句 使用CLASS语句和BY语句可以分组计算分析变量的描述统计量值,由CLASS语句和BY语句指定的变量在分析中起分组(类)的作用,被称为分类变量。两个语句的区别是: ● 使用BY语句时要求数据集须按BY变量排序,使用CLASS语句无此要求。 ● 使用BY语句时输出按BY变量的每个值分别提供一个表,使用CLASS语句则将所有结果排列在一个表之中。

使用BY语句之前先排序,如下代码可以在上例中按变量R_Id分组统计: proc sort data = mylib.sryzc; by R_Id; run; proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var Income;

使用CLASS语句分组较为简单,如下代码也可以在上例中按变量R_Id分组统计: proc means data = mylib.sryzc n mean median p1 p5 p95 p99 q1 q3 max min; var Income; class R_Id; RUN;

3. UNIVARIATE过程 UNIVARIATE过程的一般格式为: PROC UNIVARIATE DATA = <数据集名> [<统计量关键字列表>]; [VAR <分析变量列表>;] [BY | CLASS <分组变量名>;] [HISTOGRAM <变量名称>/<选项列表>;] [OUTPUT OUT = <数据集名> <统计量关键字> = <自定义变量名>;] RUN;

UNIVARIATE过程和MEANS过程的格式非常相似, 相同的语句和选项其含义也相同,所不同的是某些统计 量只能在UNIVARIATE过程中计算(如众数),而且 UNIVARIATE过程中具有绘图功能。 其中,HISTOGRAM语句用来指示SAS对其后所指定的变量绘制直方图,其后的选项用来指示SAS添加不同类型的拟合图形(如正态分布的分布密度曲线)。

输出包括五个部分。 第一部分是矩统计量,各统计量已在2.1.1中作了介绍。 第二部分为基本的位置和分散程度统计量,位置统计量包括均值、中位数、众数,分散程度统计量包括标准差、方差、极差、四分位间距 第三部分为关于均值等于零的三种检验的结果,包括t检验、符号检验和符号秩检验。 第四部分为各个重要的分位数。 第五部分是观测数据的五个最低值和五个最高值。

2.3 统计图形 2.3.1 定量变量的图形表示 2.3.2 分类变量的图形表示

2.3.1 定量变量的图形表示 1. 直方图 对于数值型变量,常用直方图(histogram)来展示变量取值的分布。将变量取值的范围分成若干区间,在等间隔区间的情况,每个区间的长度称为组距。考察数据落入每一区间的频数与频率,在每个区间上画一个矩形,它的宽度是组距,它的高度可以是频数、频率或密度(频率/组距),在高度是密度的情况,每一矩形的面积恰是数据落入区间的频率,这种直方图可以估计总体的概率密度。

图2-22 密度直方图与频数直方图 SAS软件会根据样本容量在样本取值范围内自动地确定一个分组方式,另外也提供了设定分组的方法。

2. 盒形图 盒形图(boxplot,又称箱图、箱线图、盒子图)是用更为简洁的方法表现数据在数轴上的分布及其特点的图形。 图2-23的左边是根据居民家庭的收入情况所绘的盒形图;右边是分地区情况所绘的盒形图。

3. 散点图 通常得到的数据可能有两个变量,比如家庭的收入和支出情况的数据,这里家庭总收入是一个变量,而家庭总支出是第二个变量。希望通过图形了解收入和支出的关系,这时可以用一个变量为横坐标(如家庭总收入),另一个为纵坐标(这里是家庭总支出)来作图(图2-24)。这种图称为散点图(Scatter Plot)。

4. 线图 线图(Line Plot)用来表示变量间的取值变化情况,有单式和复式两种(图2-25)。 在复式线图中可用不同颜色的实线来标志区别,如图2-25右所示。

2.3.2 分类变量的图形表示 1. 条形图 分类变量也可以通过图形直观地描绘出它们各类的数量和所占比例,常用的有条形图、饼图和马赛克图。 2.3.2 分类变量的图形表示 分类变量也可以通过图形直观地描绘出它们各类的数量和所占比例,常用的有条形图、饼图和马赛克图。 1. 条形图 条形图(Bar Chart)给出分类变量取每个值的频数,如图2-26所示为变量R_ID取值的条形图。

2. 饼图 通常,饼图(Pie Chart)可以对分类变量描述其频数取值的比例,对于数值变量,则像直方图那样应先计算各区间取值的频数,再按比例画出。 图2-27中给出的是家庭支出分组频数的饼图。要注意的是,如果有太多的分组,那么饼图就不那么好看了。

3. 马赛克图 马赛克图(Mosaic Plot)一般不对单个变量作,而是对两个分类变量来作。这种图的好处是直观显示了两个变量每种取值组合的观测个数和比例,如图2-28所示。

2.4 用SAS绘制统计图形 2.4.1 用INSIGHT绘制统计图形 2.4.2 用“分析家”绘制统计图形 2.4.3 编程绘制统计图 2.4.2 用“分析家”绘制统计图形 2.4.3 编程绘制统计图 2.4.4 图形的调整与输出

2.4.1 用INSIGHT绘制统计图形 1. 绘制直方图 INSIGHT模块可以画出多种统计图形,而且图形清晰、美观。 选择菜单“Analyze(分析)”→“Histogram/Bar Chart (Y)(直方图/条形图)”,打开“Histogram/Bar Chart (Y)”对话框。在数据集的变量列表中,选择变量,然后单击“Y”按钮。

单击“Output(输出)”按钮,在打开的对话框中选择“Labels(标签)”选项,如图所示,以便输出的图形显示中文标签名。单击“OK”按钮返回对话框。

单击“OK”按钮,即可得到直方图如图2-30左所示。 单击图形框左下角处的三角形,在打开的菜单中选择“Values(值)”,即可在图中显示频数值,如图2-30右所示。

2. 绘制条形图 INSIGHT模块对分类变量绘制条形图。首先单击R_Id变量名上边的变量作用按钮,在弹出的菜单中选择“Nominal(列名型)”,如图左所示。 选择菜单“Analyze”→“Histogram/Bar Chart (Y)”,打开“Histogram/Bar Chart (Y)”对话框。在数据集的变量列表中选择变量,然后单击“Y”按钮,如图右所示。

单击“Output(输出)”按钮,在打开的对话框中选择“Labels(标签)”选项,单击“OK”按钮返回对话框。 单击“OK”按钮,即可得到条形图如图2-34左所示。如果选择Income_freq(见2.2.2节)作为分析变量,则可以得到图2-34右所示的条形图。

3. 绘制盒形图 选择菜单“Analyze”→“Box Plot/Mosaic Plot (Y)”,可以对区间型变量作盒形图,对分类型变量作马赛克图。打开“Box Plot/Mosaic Plot (Y)”对话框。在数据表sryzc的变量列表中,选择income变量,然后单击“Y”按钮,income变量被选定,如图左所示。 单击“Output”按钮,在打开的对话框中选择“Labels”选项,取消“Y Axis Vertical”如图右所示。

单击“OK”按钮,即可得到盒形图如图2-36左所示。

在“Box Plot/Mosaic Plot (Y)”对话框中选定多个分析变量,可以将多个盒形图画在一个坐标系下,这样便于比较变量的取值情况,如图所示。 图形分析:从图中可以看到支出数据在均值两边的分布近似对称,说明低于和高于平均支出的家庭几乎各占一半;收入数据的二分之一分位数在均值的左边,说明大部分人的收入低于平均收入。另外,10号家庭的收入是一个极端值,它不具有代表性。

4. 绘制马赛克图 选择“Analyze(分析)”→“Box Plot/Mosaic Plot (Y)(盒形图/马赛克图)”命令,可以对分类变量作马赛克图。下面以2.2.2中修改过的数据集sryzc为例,作出R_Id变量和Income_freq变量的马赛克图。

4. 绘制马赛克图 首先将R_Id变量改为“列名型”(参见图2-33左)。 选择菜单“Analyze(分析)”→“Box Plot/Mosaic Plot (Y)(盒形图/马赛克图)”,打开“Box Plot/Mosaic Plot (Y)”对话框。在数据集sryzc的变量列表中,选择R_Id变量,然后单击“Y”按钮,R_Id变量被选定,单击“OK”按钮,得到结果如图2-38所示。

5. 绘制散点图 选择菜单“Analyze”→“Scatter Plot (Y X)”,打开“Scatter Plot (Y X)”对话框。在变量列表中,选择Income,单击“Y”按钮,Income变量被选定为Y轴变量,选择Outgo,单击“X”按钮,Outgo变量被选定为X轴变量,如图左所示。 单击“OK”按钮,即可得到散点图如图右所示。可以看出收入与支出有一定的线性相关关系。

在数据集窗口选中所有1号地区的观测号,图2-40是在散点图中区分两个地区的情况,细点为2号地区,粗点为1号地区。从该图可以看出1号地区比2号地区在收入和支出水平上都要高出许多。

6. 绘制线图 选择菜单“Analyze(分析)”→“Line Plot (Y X)(分布)”,打开“Line Plot (Y X)”对话框。在数据集sryzc的变量列表中,选择ID变量,单击“X”按钮,ID变量被选定为X轴,然后选择Income变量,单击“Y”按钮,如图左所示。单击“OK”按钮,即可得到线图如图右所示。

若在“Line Plot (Y X)”对话框中,将ID变量选定为X轴,选择Income变量和Outgo变量,单击“Y”按钮。单击“Output(输出)”按钮,在打开的对话框中选择“Labels(标签)”选项,如图左所示,以便输出的图形显示中文标签名。两次单击“OK”按钮,得到关于Income变量和Outgo变量的复式线图(图右)。

2.4.2 用“分析家”绘制统计图形 1. 绘制饼图 在“分析家”中打开数据集mylib.sryzc。 2.4.2 用“分析家”绘制统计图形 1. 绘制饼图 在“分析家”中打开数据集mylib.sryzc。 选择主菜单“Graphs”→“Pie Chart”,打开“Pie Chart”对话框,选择变量列表中的Income,单击“Chart”按钮,选定分析变量,如图左所示。所得饼图如图右所示。

2. 绘制条形图 选择主菜单“Graphs”→“Bar Chart”→“Horizontal”,打开“Horizontal Bar Chart”对话框,选择变量列表中的INCOME,单击“Chart”按钮,选定分析变量,选择R_ID变量,单击“Stack By”按钮,再选中3-D选项,如图左所示。单击“OK”按钮,得到水平条形图,如图右所示。

2.4.3 编程绘制统计图 SAS可以把存贮在SAS数据集中的数据以图形的方式形象直观地显示出来。在SAS/GRAPH模块的支持下,SAS可以作散点图、曲线图、直方图、扇形图、三维曲面图、等高线图、地图,等等。

1. GCHART过程 (1) 语法格式 GCHART过程用于绘制直方图、饼形图(扇形图)、三维直方图等表示变量分布的图形。其语法格式为: PROC GCHART DATA = <数据集名>; <图形关键字> <变量名称>/<选项列表> RUN;

GCHART过程可以使用的图形关键字及其所绘制的图形类型见表2-5。 图形关键字后的变量名用以指定进行图形描述时的分组变量,可以是数值型的(此时以各组的组中值为分组的标志),也可以是字符型的。 图形关键字 绘制的图形类型 block 方块图 pie 饼形图 hbar 水平的条形图 pie3d 三维饼形图 hbar3d 水平的三维条形图 donut 环形图 vbar 竖立的条形图 star 星形图 vbar3d 竖立的三维条形图

选项比较重要的有: TYPE = 统计量关键字,表示以图形对变量(SUMVAR所指定的变量)的哪一种统计量进行描述,比如频数(FREQ)、均数(MEAN)、总计(SUM)、频数百分比(PCTN)等; SUBGROUP = 变量名(分组变量),指定要进行分组(各组段内再分组)的变量; SUMVAR = 变量名(数值变量),指定要进行统计计算的变量,也就是“TYPE = 统计量关键字”选项中统计量的计算所依据的变量。

使用VBAR关键字可以画条形图。例如,画出数据集Mylib.sryzc中Income变量的条形图的代码如下: (2) 画条形图(直方图) 使用VBAR关键字可以画条形图。例如,画出数据集Mylib.sryzc中Income变量的条形图的代码如下: proc gchart data = mylib.sryzc; vbar Income; run; 结果如图所示。

可以指定分组的变量,例如在每个区段内再分段,可以用如下代码: 其中绘图用的变量用VBAR语句给出,如果把VBAR改成HBAR则条形方向变为横向。用GCHART绘制的条形图和在INSIGHT中绘制的直方图有所不同,它在横轴标的是区间的中点值,而在INSIGHT中横轴标的是区间的端点值。 可以指定分组的变量,例如在每个区段内再分段,可以用如下代码: proc gchart data = mylib.sryzc; vbar Income / subgroup = R_Id; run; 结果如图所示。

使用BLOCK关键字可以画三维条形图。例如,画出数据集mylib.sryzc中Income变量的三维条形图的代码如下: (3) 画三维条形图 使用BLOCK关键字可以画三维条形图。例如,画出数据集mylib.sryzc中Income变量的三维条形图的代码如下: proc gchart data = mylib.sryzc; block Income/ group = R_Id; run; 结果如图所示。

(4) 画饼形图 使用PIE关键字可以画饼形图,PIE3D关键字可以画三维饼形图。例如,画出数据集mylib.sryzc中Income变量的三维饼形图的代码如下: proc gchart data = mylib.sryzc; PIE3D Income; run; 结果如图所示。

2. 使用GPLOT过程绘制散点图和连线图 通常用散点图和连线图可以表示: ● 一个变量随另一个变量的变化; ● 变量之间的关系; ● 数据值的分布。 (1) GPLOT过程的一般格式 PROC GPLOT DATA = <数据集名>; PLOT <纵轴变量> * <横轴变量> [= <变量>][/<选项>]; [SYMBOLn <选项>;] RUN; 常用的选项见表2-6。

表2-6 PLOT语句的选项 选项 意义 说明 FRAM | NOFRAM 在图形四周加入或不加入边框 缺省为加入 CFRAM = 颜色 边框内的颜色 缺省为白色 AUTOHREF(AUTOVEREF) 在水平(垂直)轴的每个主刻度处加入水平(垂直)参考线 NOAXIS 取消坐标轴及相关的图形元素 CAXIS = 颜色 设定轴的颜色 CTEXT = 颜色 设定与轴相关字符的颜色 HAXIS = 值列举 设定水平轴主刻度的值 VAXIS = 值列举 设定垂直轴主刻度的值

SYMBOL语句用来控制表示点的符号和点间的连线。其中n是不同SYMBOL语句的序号,可以是1-99,缺省为1。选项见表2-7。 意义 取值 V = 符号 表示点使用的符号 plus, x, star, square, diamond, triangle, hash, y, z, paw, point, dot, circle C = 颜色 表示点的符号及连线的颜色 black, red, green, blue, cyan, magenta, gray, pink, orange, brown, yellow CV =颜色 专指点的符号的颜色 H = n<单位> 指名符号的大小 单位有:cell, cm, pct, pt, in POINTLABEL 在点的附近表明Y轴变量的值 i = 连线方式 指明连线的方式 none, join, spline, needle CI = 颜色 专指连线的颜色 L = n n为线型的序号 0 – 空白线,1 - 实线,2 – 虚线 W = n n表示线的宽度

绘制家庭总收入对家庭总支出的散点图,代码如下: (2) 散点图 绘制家庭总收入对家庭总支出的散点图,代码如下: proc gplot data = mylib.sryzc; plot Income*outgo; run; 结果显示了一个GRAPHICS窗口,绘出了以Income为纵轴、以Outgo为横轴的散点图(见图)。

可以在图中按第三个变量分组画出散点图(如图2-48右),代码如下: proc gplot data = mylib.sryzc; plot Income*outgo = r_id; symbol1 color=black v = star; symbol2 color=blue v = dot; run;

为了绘制连线,只要在SYMBOL语句中指定i = join。例如绘制家庭总收入对家庭编号的连线图(图2-49左),代码如下: (3) 连线图 为了绘制连线,只要在SYMBOL语句中指定i = join。例如绘制家庭总收入对家庭编号的连线图(图2-49左),代码如下: proc gplot data = mylib.sryzc; plot Income*id; symbol i=join v=star; run;

也可以分地区绘制家庭总收入对家庭编号的连线图(图2-49右),代码如下: proc gplot data = mylib.sryzc; plot Income*id=r_id; symbol1 color=black i=join v = star; symbol2 color=blue i=join v = dot; run;

2.4.4 图形的调整与输出 在图形中也可以用TITLE语句和FOOTNOTE语句给图形加标题和脚注。 2.4.4 图形的调整与输出 在图形中也可以用TITLE语句和FOOTNOTE语句给图形加标题和脚注。 还可以在图形的标题、标签中使用TrueType字型的汉字,例如: goptions ftext="宋体" htitle=4 cells htext=3 cells; proc gplot data=sasuser.class; title "试验SAS图形的汉字功能"; symbol i=none v=square; plot weight*height; label weight="体重" height="身高"; run; 输出结果见图。其中GOPTIONS中的FTEXT选项指定图形中文本的字体。

为了把GRAPH绘制的图形保存为兼容的图形文件,只要在显示某一页图形输出时,选“File-Export”菜单,在出现的输入文件名的窗口选择适当的文件类型,如BMP、WMF、JPEG、PS,等等。 要打印GRAPH生成的图形,只要选“File-Print”。这样用Windows的打印驱动程序与SAS/GRAPH的图形驱动配合来打印。另外,SAS/GRAPH模块还提供了许多种打印机的独立的驱动程序,可以不依赖于Windows的打印驱动,具体请参考有关资料或帮助。