SPSS 軟體與統計應用 Ya-Yun Cheng, How-Ran Guo

Slides:

Advertisements

Similar presentations

五脏六腑话养生董飞侠医学博士副教授硕士研究生生导师副主任中医师美国贝勒医学院高级访问学者.

Advertisements

庄文忠副教授世新大学行政管理学系 2012/7/6 SPSS 之应用 ( 庄文忠副教授 ) 1 SPSS 的环境与基本操作.

第二章 SPSS的基本操作 2-1 SPSS 的簡介 2-2 SPSS 軟體的功能表介紹 2-3 資料的輸入 2-4 資料的分析與輸出結果

第六章统计表与统计图第一节统计表第二节统计图 1.

SPSS系统教程.

資料概說 1.1 基本名詞介紹 1.2 資料型態 1.3 基本操作商管研究資料分析SPSS的應用 Chapter 1 資料概說.

張偉豪三星統計服務有限公司執行長 Amos 亞洲一哥

第五讲非参数统计分析吴成秋南华大学公共卫生学院

Dr. Baokun Li 经济实验教学中心商务数据挖掘中心

谷雨节气模板.

按開憂鬱症的結 ---穴位玄機妙用溫嬪容醫師.

第一章生物统计学基本知识 1、明确统计在做什么事情、将用什么样的方式去做。 2、生物统计与统计学的关系，其涉及哪些内容 1.

大规模机器学习算法GBDT及应用王志伟（冰逸）

传播学研究：理论与方法戴元光赵士林邢虹文.

第十一章多变量的可视化分析第一节引言第二节折线图分析法第三节条形图分析法第四节散点图分析法第五节雷达图分析法

第三篇医学统计学方法. 第三篇医学统计学方法医学统计学方法实习1 主讲人陶育纯医学统计学方法实习1 主讲人陶育纯流行病与卫生统计学教研室

SPSS统计软件的使用方法基础主讲人：宋振世（闵行校区）电话：

傷仲永王安石 S 孫子潔.

垃圾食品與肥胖的關係敏盛綜合醫院陳美月營養師.

DOE & EXCEL, SPSS application

統計學郭信霖許淑卿.

如何使用 Excel 與SPSS繪製統計圖型

Chapter 4 流程控制.

医学统计学主讲人：信息部林雪君.

SAS 基础 SAS 功能及历史（略） INSIGHT，Analyst，Program 是统计分析的三种方法

SAS 統計程序實作 CONTENTS By DR. Yang , Yi-Chiang /11/11.

「簡易水土保持申報書」內容及送審流程之探討

第二章 SAS的描述统计功能 2.1 描述性统计的基本概念 2.2 在SAS中计算统计量 2.3 统计图形.

Dr. Baokun Li 经济实验教学中心商务数据挖掘中心

第七章 SPSS的非参数检验.

3.2 Tally Table：將資料分成等距離的組別，再

Chapter 2 第二章 Presenting Data in Tables and Charts 統計圖及表的應用

簡單迴歸模型的基本假設用最小平方法(OLS-ordinary least square)找到一個迴歸式：

Chapter 2 頻率分配.

Origin绘图和数据分析 2006年11月.

第一章敘述統計學.

統計基本觀念壹、資料資料來源：實驗之量測結果，抽樣調查結果，公告資料。一、資料類型

圖表製作集中指標 0628 統計學.

Tel: 第11章 SPSS在时间序列预测中的应用周早弘旅游与城市管理学院

第 4 章分散量數.

第四章 SPSS的基本统计分析.

SPSS-概述與資料處理輔大統計資訊系黃孝雲.

医学统计学 3 主讲人陶育纯医学统计学 3 主讲人陶育纯

第一次上統計Tutorial 就上手不是只有上一次嗎.

以每年參觀Lake Keepit的人數為例

台南某醫學中心門診醫療服務滿意度 The Department Of Health Care Administration

SAS软件应用指南第四章、第五章.

统计学 (第三版) 2008 作者贾俊平统计学.

EXCEL+ORIGN+SPSS的描述统计

资料的描述性分析庄文忠副教授世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.

SAS软件应用基础 SAS过程步.

研究所生物統計課程整合說明課程規劃及修課建議楊奕馨高雄醫學大學藥學系研究所生統課程授課教師

Review of Statistics.

第八章均值比较与检验 2019/5/10.

第7章基本统计分析 2019/5/14.

第二章　次數分配表與統計圖第一節　次數分配表的製作第二節　統計圖的製作第三節　次數分配的形狀和性質第四節　電腦習作.

统计软件应用 2 主讲人陶育纯 SPSS 统计软件应用 2 主讲人陶育纯教案.

统计软件应用 4 主讲人陶育纯 SPSS统计分析统计软件应用 4 主讲人陶育纯教案.

统计软件应用 4 主讲人陶育纯 SPSS统计分析统计软件应用 4 主讲人陶育纯教案.

Logistic回归 Logistic regression 研究生《医学统计学》.

统计工具的使用方法主讲人陶育纯统计工具的使用方法主讲人陶育纯

Multiple Regression: Estimation and Hypothesis Testing

主講人陳陸輝特聘研究員兼主任政治大學選舉研究中心美國密西根州立大學博士

105年教育部熱血老師翻轉學生「教育愛」座談會

Statistical Table and Statistical Graph

認識 Excel 與SPSS.

SAS 統計程序實作 PROC GLM 變異數分析 (PROC ANOVA)

探討台灣環境影響評估在生態調查之有效性 Assessing the Effectiveness of Ecological Survey of Environmental Impact Assessment in Taiwan 李育欣*1、李培芬1、林雨德1.2 1台灣大學生態與演化生物學研究所、2台灣大學生命科學系.

SAS 統計程序實作 PROC NPAR1WAY 無母數檢定

SAS 統計程序實作 PROC MEANS (一個母體)

Presentation transcript:

SPSS 軟體與統計應用 Ya-Yun Cheng, How-Ran Guo 2014.03.25 Department of Environmental and Occupational Health, NCKU 2014.03.25

製造一篇PAPER所需要的統計方法…

Outline 第一章編碼與變數檢視第二章資料轉換 (計算、變更) 第三章資料的合併與篩選與分割第一章編碼與變數檢視第二章資料轉換 (計算、變更) 第三章資料的合併與篩選與分割第四章敘述統計量 (平均值、最大小、變異) 第五章平均數檢定 (T-test, ANOVA) 第六章類別檢定 (Chi-square test) 第七章迴歸分析 (線性、邏輯式) 第八章統計圖 (Graphs)-箱形圖 ROC curve

第一章編碼與變數檢視

資料視窗.sav 資料編輯視窗變數檢視視窗

結果視窗 .spv

進入SPSS之前的準備工作編碼輸入 1-1 數據資料的形式：矩陣式數據要求每一個橫行代表一筆觀察值，縱列按變數排列；成為矩陣格式。

1-2 編碼的概念：根據一定的規格將研究資料轉換成可進行統計分析的數碼資料過程問題：您以為外勞對於台北市的社會秩序是否有影響？（單選） 1□有很大影響 2□有較大影響 3□影響很小 4□沒有影響 4 答案編碼

資料編輯視窗選項數值說明小數變項說明對齊寬度遺漏值測量尺度類型欄變項名稱

1-3 變數檢視（Variable View）＊名稱(Name) 設定變數名稱，在資料檢視視窗會呈現var1、var2，可經由變數檢是視窗做更改，但是變數命名有其原則，如下所示：變數名第一個字必須為英文字(a~z)，其後面才可以連接數字(0~9)、英文字、句點、@、#、_或$等符號變數命名最後一個字絕對不能是句點變數名稱的長度不可超過8個位元(一個中文字為2位元) 空白字或特殊字元(如 !、?、* )嚴禁使用每個變數命名必須唯一性，不能有兩個相同變數名英文大小寫命名皆相同 SPSS的保留字不能當變數名稱，如：ALL NE EQ TO LE LT BY OR GT GE AND NOT WITH

數字 Numeric：數值型變數，其數值可以正、負號逗點 Comma：三位一小撇之貨幣符號點 Dot：其數值前面可有正、負符號當前導字，＊類型(Type) 在此敲擊滑鼠左鍵，即跳出變數類型的對話框數字 Numeric：數值型變數，其數值可以正、負號逗點 Comma：三位一小撇之貨幣符號點 Dot：其數值前面可有正、負符號當前導字，並以一個逗號當小數點，其餘逗點當三位一小撇之貨幣符號科學記號 Scientific notation：變數為數值且以科學記號表現日期 Date：其有效值可以是日期and/or時間貨幣 Dollar：變數為金額，包括$符號自定貨幣 Custom currency：變數為金額，以自定格式顯示字串 String：可用任何中文或英文字母字元；可自行設定，但是必須注意一個中文字母為2位元

點選，即出現Value Labels畫面，即可進行編輯＊寬度(Width) 變數資料內容實際位元長度＊小數(Decimal) 變數內容的小數位數＊註解(Label) 變數內容的註解說明，最大為120個位元＊數值(Value) 給原始值一個標註，最大為60個位元在此敲擊滑鼠左鍵，即跳出變數類型的對話框點選，即出現Value Labels畫面，即可進行編輯【範例】以「性別」這個變數為例 Step1：數值(U)空格中鍵入「1」 Step2：數值註解(E)空格中鍵入「M-男性」 Step3：點選新增(A)按鈕 Step4：數值(U)空格中鍵入「0」 Step5：數值註解(E)空格中鍵入「F-女性」 Step6：點選確定後即完成

＊遺漏(Missing) 用來定義遺失值，若變數為數值變數，則系統預設為None，表不設定使用遺失值以空白代表＊欄(Columns) 編輯視窗中變數顯現出來欄位寬度＊對齊(Align) 輸入內容的對齊方式，分為置左對齊、置中對齊、置右對齊，系統預設為置右對齊

第二章資料轉換

2-1 新觀察值的計算設定目標變數之名稱設定目標變數之數值運算式舊有變數計算按鍵台 SPSS 內建函數

內建函數算數函數─ 統計函數─ ABS()：取絕對值 SUM()：求運算式總和 RND()：取四捨五入 MEAN()：求運算式平均數 TRUNC()：截去小數位數 MOD(X,Y)：將X除以Y後取其餘數 SQRT()：開根號 EXP()：取自然指數函數 LG10()：取以10為底之對數函數 LN()：取以EXP(1)為底之對數函數 ARSIN()：取反正弦函數 ARTAN()：取反正切函數 SIN()：取正弦函數 COS()：取餘弦函數統計函數─ SUM()：求運算式總和 MEAN()：求運算式平均數 SD()：求運算式標準差 VARIANCE()：求運算式變異數 CFVAR()：求運算式變異係數 MIN()：求運算值的最小值 MAX()：求運算值的最大值

【範例】由於國文成績過低，所以設定原始成績開根號且乘以１０之後為最後國文成績【範例】由於國文成績過低，所以設定原始成績開根號　　　　且乘以１０之後為最後國文成績 Step1：轉換→計算 Step2 Step3 執行step1~step3出來的結果

2-1-2 計算日期與年齡

2-2 重新編碼- 將已存在的數值變數或短字串變數的值加以重新編碼 2-2 重新編碼- 將已存在的數值變數或短字串變數的值加以重新編碼 Step1：轉換→重新編碼→成不同變數

Step2：把「性別」移至　數值變數(V)->輸出變數框中 Step3：設定輸出之新變數的名稱→變更(C)→舊值與新值(O)

Step4：先勾選　輸出變數為字串(B)→ 舊值數值框中鍵入１→新值數值鍵入male→新增(A) 舊值數值框中鍵入２→新值數值鍵入female→新增(A) →繼續→確定

執行Step1~Step4的結果

Because the arsenic levels were divided into three categories, two dummy variables p=0.001 p=0.001 p=0.001

第三章資料的合併與篩選與分割 (Merge & Select & Cut)

3-1 資料檔之合併(Merge) 【範例】兩個資料檔做水平合併 Step1：資料→合併檔案→新增變數

Step2：匯入資料2檔案 Step3：按確定即可。 SPSS自動將兩個檔案有不同的變數名稱放在右邊的　　　框中，左邊的框中有「姓名」是因為兩個檔案皆有姓名這個變數，　　　所以在合併檔案的過程將其排除

3-1 資料檔之合併(Merge) 【範例】多對多合併 *(排序、寬度一致)*

3-1 資料檔之合併(Merge) 【範例】多對多合併 *(以小博大)*

3-2資料之篩選(Select) 【範例】篩選後只留下性別為男性的觀察值 Step1：資料→選擇觀察值

Step2：點選如果滿足設定條件(C)→若(I)

Step3：把「性別」移至右邊框中並且運算=1，此代表我們只挑選當性別為1時的觀察值

執行Step1~Step3的結果，發現第5、7、10比的觀察值已被暫時刪除，當跑其他分析時並不會讀到這三筆觀察值，換言之，只讀得到「性別」為男性的觀察值

3-2資料之篩選(Select)- 篩選資料另存新檔

3-3資料之分割(Cut)- 分割檔案、比較群組

第四章敘述統計量 (Descriptive Statistics)

4-1 次數分配表(Frequencies) 目的：求得資料之次數分配表及一些特徵量數，或繪製資料支圓餅圖、長條圖或直方圖等點選：分析(A)→描述性統計(E)→次數分配表(F)

次數分配表裡有三個次指令，分別為統計量(S)、圖表(C)、格式(F)

圖表(C)：其功能在執行所輸出之統計圖，SPSS提供長條圖(Bar charts)、圓形圖(Pie charts)、直方圖(Histograms)，其中直方圖還可進一步界定SPSS印出常態分配曲線。而各圖形之呈現方式，可以選擇次數(Frequencies)或百分比(Percentages) 格式(F)：其功能在設定輸出報表之格式順序依據(Order by)：選擇資料呈現時排序的方式多重變數(Multiple variance)：若處理變數有多個時，在列印統計量時，選擇將多格變數列印在同一表中以作比較，或分開列表

4-2 描述性統計量(Descriptive) 目的：可求得資料中之數值變數之敘述統計量點選：分析(A)→描述性統計(E)→描述性統計量(D)

【範例】計算英文成績的平均數、變異數、偏態係數 Step1：分析(A)→描述性統計(E)→描述性統計量(D)

Step2：將英文成績移至變數(V)框中→點選選項(O) Step3：點選平均數(M)、變異數(V)、偏態(W)→點選繼續→確定

執行Step1~Step3的結果如下表十個人英文成績平均為49分，變異數為419.111代表成績差異大較分散，偏態係數為-0.15代表這組資料為左偏

LINE Durbin-Watson (D-W) 來檢定有無自我一階相關的問題，即殘差是否為獨立。

柯-史兩樣本檢定（The Kolmogorov-Smirnov Test）是將柯-史單一樣本檢定擴展使用，主要是檢定兩個獨立樣本的累積觀察次數的分配是否一致。若是，則樣本可能來自同一個母體反之，則否。 K-S檢定(Kolmogorov-Smirnov goodness-of-fit test). ▪ H0: 誤差項遵循常態分配. ▪ H1: 誤差項未遵循常態分配

第五章均數檢定 (Compare Means)

【範例】現在想依「性別」作為分層之依據，求 5-1 分群之統計量(Means) 【範例】現在想依「性別」作為分層之依據，求出男女生數學成績之平均數與變異數 Step1：分析(A)→比較平均數法(M)→平均數(M)

Step2：將數學成績移至依變數清單(D)，將性別移至自變數清單(D)→點選選項(O)

Step3：將左邊的平均數與變異數移至右邊格統計量(C)框中 →繼續→確定 Step1~Step3即出現下表之結果男性平均為66.14分，女性平均為44.67分，整體來說男性數學成績比女性好，此外，根據變異數可看出男性成績比起女性較為集中

5-2 單一母體平均數檢定 (One-Sample T Test) 【範例】檢定國文成績：國文平均成績 50 Step1：分析(A)→比較平均數法(M)→單一樣本T檢定(S)

Step2：將國文成績移至檢定變數(T)框中，檢定值(V)框中輸入50→點選選項(O) Step3：信賴區間設定95% →繼續→確定

執行Step1~Step3結果如下報表，依據題意得知此題為單尾檢定，判別t值=1.31 0，所以單尾P-Value=1- =0.8885。在顯著水準95%之下，不拒絕，國文成績 50

5-3 兩獨立母體平均數檢定(Independent-Sample T Test) 【範例】檢定男生與女生數學平均成績相等 Step1：分析(A)→比較平均數法(M)→獨立樣本T檢定(T)

Step2：將數學成績移至檢定變數(T)框中，性別移至分組變數(G)框中→點選定義組別(D) Step3：組別1(1)鍵入1，組別2(2)鍵入2→繼續→確定

執行Step1~Step3之後得到下表由於平均數差異檢定有一個很重要的基本假設─變異數同質性，因此進行T檢定前會先對二組樣本之變異數是否同質進行檢定。下表左半部就是對二組樣本進行同質行性檢定的結果， F值為0.196(P-Value=0.67)不顯著，代表二組樣本變異數相等，於是右半部的報表則看第一列的數據，反之，變異數不相等則看右部第二列的數據。此例題我們看第一列之數據，發現t值之P-Value值不顯著，因此不拒絕，代表男生與女生數學平均相等

PAIRE T TEST

ANOVA test

第六章類別卡方檢定

無原始數據情況下

Chisq square for trend test in SAS data b; input exposure disease no; cards; 0 0 6 0 1 38 1 0 7 1 1 34 2 0 13 2 1 30 ; proc print; run; proc freq; weight no; table exposure * disease / chisq trend; run; proc logistic; class exposure (REF='0')/PARAM=REF; model disease (EVENT='1')=exposure /RISKLIMITS;

第七章迴歸分析檢定

SEX變數p<0.001 βSEX=11.474 95%CI=8.634~14.314

HG變數p=0.059 OR=1.693 95%CI=0.981~2.925

Dummy var.

第八章統計圖 (Graphs)- ROC curve 箱型圖 Box-Plot

常用統計圖種類 10. 誤差條圖(error bar) 1. 莖葉圖(stem-and-leaf) 11. 散佈圖(scatter) 3. 折線圖(line) 4. 區域圖(area) 5. 圓餅圖(pie) 6. 高低圖(high-low) 7. 柏拉圖(Pareto) 8. 管制圖(control) 9. 箱型圖(boxplot) 10. 誤差條圖(error bar) 11. 散佈圖(scatter) 12. 直方圖(histogram) 13. P-P plot 14. Q-Q plot 15. sequence chart 16. ROC 曲線圖 17. 時間序列圖統計圖 73

ROC 曲線在醫界研究 A B 傳統ROC分析已經廣泛使用於診斷評估測試中，但是它的限制在於分成兩個結果用ROC曲線(Receiver Operating Characteristic Curve)來評估診斷測是在醫界已經行之多年；1971年，Lusted把ROC曲線的觀念引介給醫學界，指出ROC曲線是以「X軸與Y軸分別代表偽陽性(FPF)診斷與真陽性(TPF)診斷」的點狀圖 B 75

學者對ROC 曲線之研究與整理 1 2 3 ROC曲線下的面積做為診斷工具分辨能力的指標這個面積（大於0，小於1）代表強迫二選一（two- alternative-forced-choice）的情形下，診斷工具猜對有病者、無病者的機率 3 ROC曲線的用處之一，是提供研究者找出一個較好的反折點(cut-off point)，使診斷工具的敏感度與精確度能有合理的平衡 76

ROC曲線 77

ROC曲線相關傳統的ROC將測試結果分成兩類：Positive(陽性) and Negative(陰性)，如果測試結果的數值很接近陽性或陰性的邊界時，將會被完全接受，或是拒絕 ROC認為"可以知道每一個人真實的檢驗結果"這個觀念為基礎，一般稱之為黃金標準(Gold Standard)。但是在醫學上，一般認為可以做為「黃金標準」的長期追蹤、組織切片檢查、造影攝影術和屍體解剖，除了最後一項外，其他檢驗無法確定是絕對正確，所以黃金標準又稱之為「參考標準」黃金標準將受檢驗的人分為兩類：Diseased(有病)與Non- diseased(沒病)，而黃金標準有時候並不是那麼精測的測試，所以可以導入Fuzzy的觀念加以改進且說明統計圖 78

ROC 曲線資料考量檢定變數為數值變數；它們通常是由判別分析的機率、logistic 迴歸、或任意尺度上的分數所組成，此尺度上會表示定等級者會落在某一類別或其他類別的「信賴強度」；狀態變數可以是任何類型的變數，但要指出受試者所屬的真實類別；狀態變數的值會指出哪一個類別應視為正向資料假設等級者尺度上數值的增加，代表相信受試者屬於某類別的程度加深，則尺度上數值的減少，則代表相信受試者屬於其他類別的程度增加；使用者必須選擇正向；同時假設已知各受試者屬於真的類別假設 79

ROC 曲線選項 1 2 3 分類：讓您指定在進行正向分類時，是否要加入或排除分割值檢定方向：讓您指定與正向類別相關之尺度的方向區域標準誤差的參數：讓您指定估計曲線下區域之標準誤的方法；可用的方法有非參數式 (nonparametric) 和雙負指數；同時您還可以設定信賴區間的等級。有效範圍為 50.1% 到 99.9%。統計圖 80

ROC 曲線在SPSS操作步驟分析→ROC曲線統計圖 81

ROC 曲線在SPSS操作步驟選取欲檢定變數&狀態變數並設定狀態變數值選定檢定方向&選擇雙負指數勾選欲選取之項目統計圖 82

ROC 曲線在SPSS輸出統計圖 83

Thank you for your attention! ~ The END ~ Discussion (05/27) 實機操作分析實例