Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心

Slides:



Advertisements
Similar presentations
庄文忠 副教授 世新大学行政管理学系 2012/7/6 SPSS 之应用 ( 庄文忠副教授 ) 1 SPSS 的环境与基本操作.
Advertisements

《互联网运营管理》系列课程 觉浅网 荣誉出品
第三章及第四章資產負債表的重點整理 取材自1.課本 2.鄭丁旺中會第九版 3.營業員題庫重點.
第二章 SPSS的基本操作 2-1 SPSS 的簡介 2-2 SPSS 軟體的功能表介紹 2-3 資料的輸入 2-4 資料的分析與輸出結果
第9章 市场风险管理.
SPSS 軟體與統計應用 Ya-Yun Cheng, How-Ran Guo
苏炳华 教授 上海第二医科大学 生物统计学教研室
無論你是久坐的生活型態或是愛好運動的人,伸展可讓你身體柔軟,為接下來的動作做好準備,也可以讓運動後的肌肉柔緩放鬆。
走进德国职业教育 郑志刚.
資料概說 1.1 基本名詞介紹 1.2 資料型態 1.3 基本操作 商管研究資料分析SPSS的應用 Chapter 1 資料概說.
Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心
張瓊云藥師 台中榮民總醫院 藥劑部 Mini-CEX運用之經驗分享 中 榮 張瓊云藥師 台中榮民總醫院 藥劑部.
关注降压质量 河北省人民医院 郭艺芳.
高一年级过渡性学习 活动汇报 高一年级组 教科研室 汉滨高中.
基督教的生命觀 國立東華大學資訊管理學系 許芳銘.
謝鎮陽醫師 台南新樓醫院神經內科 成功大學藥學生物科技研究所 2011/04/24
2010临床试验 南方医科大学生物统计学系 2010年7月 广州.
SPSS统计软件的使用方法基础 主讲人:宋振世 (闵行校区) 电 话:
第14章 預存程序 14-1 預存程序的基礎 14-2 建立與執行預存程序 14-3 預存程序的參數傳遞 14-4 預存程序的傳回值
案例总结 社会热点问题分析.
二維品質模式與麻醉前訪視滿意度 中文摘要 麻醉前訪視,是麻醉醫護人員對病患提供麻醉相關資訊與服務,並建立良好醫病關係的第一次接觸。本研究目的是以Kano‘s 二維品質模式,設計病患滿意度問卷,探討麻醉前訪視內容與病患滿意度之關係,以期分析關鍵品質要素為何,作為提高病患對醫療滿意度之參考。 本研究於台灣北部某醫學中心,通過該院人體試驗委員會審查後進行。對象為婦科排程手術住院病患,其中實驗組共107位病患,在麻醉醫師訪視之前,安排先觀看麻醉流程衛教影片;另外對照組111位病患,則未提供衛教影片。問卷於麻醉醫師
自衛消防編組任務職責 講 義 This template can be used as a starter file for presenting training materials in a group setting. Sections Right-click on a slide to add.
医学统计学 8 主讲人 陶育纯 医学统计学 8 主讲人 陶育纯
DOE & EXCEL, SPSS application
主讲:郑颖 中国科学院国家科学图书馆成都分馆 10/21/2008
Chapter 4 流程控制.
性別主流化暨相關法規介紹.
SAS 基础 SAS 功能及历史(略) INSIGHT,Analyst,Program 是统计分析的三种方法
模块七 信息获取与发布 第8章 计算机网络信息的获取与发布.
單元七 非參數法衡量生產力變化之 電腦實習 An Output-orientated VRS Malmquist DEA Example:資料檔(Eg1.dta) Y X1 X2 ………………………………….
第四章 單變量描述性分析 第一節 描述性統計原理 第二節 報告(Reports)
Lotus Domino R7 Designer
SAS  統計程序實作 CONTENTS By DR. Yang , Yi-Chiang /11/11.
次数依变量模型 (Models for Count Outcomes)
第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形.
第五讲 数据的分组、合并与转换.
超声乳化白内障吸除折叠式人工晶状体植入治疗闭角型青光眼合并白内障的临床观察 Clinical study on the management of angle-closure glaucoma with cataract by phacoemulsification with foldable posterior.
第七章 SPSS的非参数检验.
Chapter 2 第二章 Presenting Data in Tables and Charts 統計圖及表的應用
C 程式設計— 控制敘述 台大資訊工程學系 資訊系統訓練班.
R教學 單元5 敘述統計 羅琪老師.
圖表製作 集中指標 0628 統計學.
第14章 竞争市场上的企业 上海杉达学院 国贸系.
Tel: 第11章 SPSS在时间序列预测中的应用 周早弘 旅游与城市管理学院
SPSS-概述與資料處理 輔大統計資訊系 黃孝雲.
数据库应用技术 SQL Server 2005.
第十五课:在医院看病.
第4章 汇编语言程序格式  汇编程序功能  伪操作  汇编语言程序格式  汇编语言程序的上机过程.
SAS软件应用指南 第四章、第五章.
大綱 *專題演講介紹 *大陸醫療的改革與發展 *海報發表文章分享 2012海峽兩岸醫院院長論壇行後報告 ‧台北
EXCEL+ORIGN+SPSS的描述统计
Common Qs Regarding Earnings
SAP Query 建立User Group (SQ03) 建立Infoset (SQ02)
第5章 其他数据库对象.
爬蟲類動物2 Random Slide Show Menu
新媒体环保公益广告现状调查及发展潜力研究
日期和函数 经济实验教学中心 商务数据挖掘中心.
SAS软件应用基础 SAS过程步.
第八章 均值比较与检验 2019/5/10.
國金期末報告 股價指數與匯率之間的動態關係: 以台灣、日本、韓國為例 授課老師:楊奕農 學生:郭俊旻.
唐常杰 四川大学计算机学院 计算机科学技术系
第7章 基本统计分析 2019/5/14.
以西結書.
统计软件应用 2 主讲人 陶育纯 SPSS 统计软件应用 2 主讲人 陶育纯 教案.
進階 WWW 程式設計 -- PHP Array 靜宜大學資訊管理學系 蔡奇偉副教授
Logistic回归 Logistic regression 研究生《医学统计学》.
怎樣把同一評估 給與在不同班級的學生 How to administer the Same assessment to students from Different classes and groups.
SAS 統計程序實作 PROC GLM 變異數分析 (PROC ANOVA)
HTML HELP Workshop 第一組.
SAS 統計程序實作 PROC MEANS (一個母體)
Presentation transcript:

Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心 优化输出和创建新变量 Dr. Baokun Li 经济实验教学中心 商务数据挖掘中心

优化 SAS 输出 TITLE 语句 – 为Proc程序块的输出作标记 LABEL 语句 – 为变量名称作标记 FORMAT 语句 – 为变量的数值作标记

Number of Patients by Clinic 标准输出 The FREQ Procedure Cumulative Cumulative clinic Frequency Percent Frequency Percent ----------------------------------------------------------- A 18 18.00 18 18.00 B 29 29.00 47 47.00 C 36 36.00 83 83.00 D 17 17.00 100 100.00 优化输出 Number of Patients by Clinic Clinical Center clinic Frequency Percent Frequency Percent ---------------------------------------------------------------- Birmingham 18 18.00 18 18.00 Chicago 29 29.00 47 47.00 Minneapolis 36 36.00 83 83.00 Pittsburgh 17 17.00 100 100.00 Output from programs 5 and 6.

Patient Report Headaches 标准输出 The FREQ Procedure Cumulative Cumulative sebl_6 Frequency Percent Frequency Percent ----------------------------------------------------------- 1 70 70.00 70 70.00 2 23 23.00 93 93.00 3 6 6.00 99 99.00 4 1 1.00 100 100.00 优化输出 Patient Report Headaches ------------------------------------------------------------- None 70 70.00 70 70.00 Mild 23 23.00 93 93.00 Moderate 6 6.00 99 99.00 Severe 1 1.00 100 100.00

TITLE 语句 PROC FREQ DATA=tdata; TABLES clinic group sex educ sebl_1 sebl_6; TITLE 'Distribution of Selected Variables'; TITLE2 'on the TOMHS Dataset' ; RUN; TITLE 语句可以放在程序的任何地方。最好是放在过程 步里面 title可随时改变 使用格式为:TITLE(n)‘文字'

Label 语句可以放在数据步或过程步内的任何地方(但不可在中间)。 LABEL clinic = 'Clinical Center'; LABEL group = 'Drug Treatment Group'; LABEL educ = 'Highest Education Attained'; LABEL sebl_1 = 'Patient Report Drowsiness'; LABEL sebl_6 = 'Patient Report Headaches'; Label 语句可以放在数据步或过程步内的任何地方(但不可在中间)。 If in datastep will apply to all procedures. If only a PROC then will apply only to that PROC.

FORMAT brthdate mmddyy10. ; FORMAT clinic $clinic. ; FORMAT group group. ; FORMAT fever headache se. ; 告诉SAS 根据format(格式)显示变量的数值 Format 语句可以放在数据步或过程步内的任何地方 既有内置format (例如日期),也有用户定义的format. 一个format 可用于多个变量 Format以句号结束 (.) 字符型format以$开始

VALUE group 1 = 'Beta Blocker' 2 = 'Calcium Channel Blocker' 如何定义FORMAT PROC FORMAT; VALUE group 1 = 'Beta Blocker' 2 = 'Calcium Channel Blocker' 3 = 'Diuretic' 4 = 'Alpha Blocker' 5 = 'ACE Inhibitor' 6 = 'Placebo'; VALUE gender 1 = 'Men' 2='Women' ; VALUE se 1 = 'None' 2 = 'Mild’ 3 = 'Moderate' 4 = 'Severe'; Format名称并不必是数据集合内一个变量的名称 Format名 Need to distinguish the format name with the variables that are to be formatted.

PROC FORMAT; VALUE $clinic 'A' = 'Birmingham' 'B' = 'Chicago' 'C' = 'Minneapolis' 'D' = 'Pittsburgh' ; 请不要混淆format和将要被格式化的变量 Sas单从PROC FORMAT不能知道你想要格式化哪个变量。你需要用format语句对变量进行格式化。

* 定义的Format没有使用; PROC FREQ; TABLES clinic sebl_6; RUN; ========================================== * 使用了format; FORMAT clinic $clinic. sebl_6 se. ;

INFILE 'd:\data\tomhs3.dat'; Program 6 PROC FORMAT; ... DATA tdata ; INFILE 'd:\data\tomhs3.dat'; INPUT ptid $ clinic $ group sex educ eversmk alcbl sebl_1 sebl_6 ; run; LABEL clinic = 'Clinical Center'; LABEL group = 'Drug Treatment Group'; LABEL educ = 'Highest Education Attained'; LABEL sebl_1 = 'Patient Report Drowsiness'; LABEL sebl_6 = 'Patient Report Headaches'; LABEL alcbl = 'Alcoholic Drinks Per Week'; LABEL eversmk = 'Ever Smoke Cigarettes'; PROC FREQ DATA=tdata; TABLES clinic sebl_6; FORMAT clinic $clinic. sebl_6 se. ;

PROC MEANS DATA=tdata N MEAN STD; VAR alcbl; CLASS eversmk; ; FORMAT eversmk smoke. ; TITLE 'PROC MEANS With Variable and Value Labels'; RUN; The MEANS Procedure Analysis Variable : alcbl Alcoholic Drinks Per Week Ever Smoke N Cigarettes Obs N Mean Std Dev ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ Smoker 48 47 5.3829787 6.4892995 Non-smoker 52 52 3.5384615 4.6292401

需掌握的要点 Format在使用之前需先定义 (PROC FORMAT). FORMAT 语句可应用定义的format. 数据步里的Label 和 format 语句可用于其后的 PROCs 过程步里面的Label 和 format 语句只能用于该过程步 PROC本身

为网络或Word/Excel文件创建HTML 表 ODS LISTING CLOSE; ODS HTML FILE='educ.html'; PROC FREQ DATA=tdata ; TABLES educ; FORMAT educ educ.; TITLE 'HTML Output From PROC FREQ'; RUN; ODS HTML CLOSE; The output will go to the html file rather than the .lst file. This can then be viewed on the web or inserted into word. Can also create RTF files. Note: Run statement is needed here, and ODS statement must be after run.

插入Word的html文件

教育级别变量educ的解释 创建一个新变量 grad1= 1 如果大学毕业 = 2 否则

Program 7 DATA tdata; INFILE '/home/ph5420/data/tomhs.data' ; INPUT @ 1 ptid $10. @ 49 educ 1. @123 sbp12 3. ; * 这样的话,缺失值被变换为2; if educ < 7 then grad1 = 2 ; else if educ >=7 then grad1 = 1 ; * 下面的两种方法结果一样且是正确的; if educ < 7 and educ ne . then grad2 = 2; else if educ >=7 then grad2 = 1; * IN 是SAS的一个特殊函数; if educ IN(1,2,3,4,5,6) then grad3 = 2; else if educ IN(7,8,9) then grad3 = 1;

PROC FORMAT; VALUE grad 1-6 = '< College Graduate' 7-9 = 'College Graduate'; VALUE sbpcat LOW - 119 = '< 120' 120-139 = '120-139' 140-HIGH = '140+' ; 注意: LOW 不包括缺失值

最初的变量值为 1-9 缺失值被变成2 PROC FREQ DATA=tdata; TABLES grad1 grad2 grad3 educ ; FORMAT educ grad.; RUN; grad1 Frequency Percent ---------------------------------- 1 43 43.00 2 57 57.00 grad2 Frequency Percent 1 43 43.43 2 56 56.57 Frequency Missing = 1 grad3 Frequency Percent educ Frequency Percent ----------------------------------------------- < College Graduate 56 56.57 College Graduate 43 43.43 最初的变量值为 1-9 缺失值被变成2

* 把变量sbp12 变换成 3 个级别; if sbp12 = . then sbp12c = . ; else if sbp12 < 120 then sbp12c = 1 ; else if sbp12 < 140 then sbp12c = 2 ; else if sbp12 >=140 then sbp12c = 3 ; With if-then-else definitions SAS stops reading after the first true statement

PROC FREQ DATA=tdata; TABLES sbp12c sbp12; FORMAT sbp12 sbpcat.; RUN; OUTPUT The FREQ Procedure Cumulative Cumulative sbp12c Frequency Percent Frequency Percent ------------------------------------------------------------ 1 36 39.13 36 39.13 2 43 46.74 79 85.87 3 13 14.13 92 100.00 Frequency Missing = 8 sbp12 Frequency Percent Frequency Percent < 120 36 39.13 36 39.13 120-139 43 46.74 79 85.87 140+ 13 14.13 92 100.00

if sbp12 = . then sbp12c = . ; else * 代价惨重的简单错误; if sbp12 = . then sbp12c = . ; else if sbp12 < 120 then sbp12c = 1 ; else if sbp12 < 140 then sbp12 = 2 ; else if sbp12 >=140 then sbp12c = 3 ; PROC FREQ DATA=tdata; TABLES sbp12c; RUN; The FREQ Procedure Cumulative Cumulative sbp12cat Frequency Percent Frequency Percent ƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒƒ 1 36 73.47 36 73.47 3 13 26.53 49 100.00 Frequency Missing = 51 How come no values of 2 and why so many missing?

创建新变量时需知道: 新变量的初始值是缺失值; 2. 缺失值 < 任何值; 3. 数值变量缺失值的指代值为.; 4. 类别变量缺失值的指代值为‘ ’; if sbp = . then ... if clinic = ' ' then ...

如何检查新建立的变量是对的? 显示新变量和原变量 PROC PRINT DATA=temp (OBS=20); VAR educ college ; 在新变量和原变量上运行PROC MEANS,确保两个变量的缺失值个数相同. PROC MEANS DATA=temp; VAR educ college; 在新变量和原变量上运行PROC FREQ. PROC FREQ DATA=temp; TABLES educ college;