第九章 區別分析與邏輯迴歸 9-1 區別分析 (Discriminate Analysis)

Slides:



Advertisements
Similar presentations
第十八章 判别分析 Discriminant Analysis. Content Fisher discriminant analysis Maximum likelihood method Bayes formula discriminant analysis Bayes discriminant.
Advertisements

©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
單元九:單因子變異數分析.
第二章 SPSS的基本操作 2-1 SPSS 的簡介 2-2 SPSS 軟體的功能表介紹 2-3 資料的輸入 2-4 資料的分析與輸出結果
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
SPSS系统教程.
南台科技大學 萬金生教授 九十八年六月十二日
第五讲 非参数统计分析 吴成秋 南华大学公共卫生学院
多元统计分析 何晓群 中国人民大学出版社 2017/3/4 中国人民大学六西格玛质量管理研究中心.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
SPSS軟體與多變量分析 南台科技大學企管系 呂金河.
How to Use SPSS in Biomedical Data analysis
医学统计学 8 主讲人 陶育纯 医学统计学 8 主讲人 陶育纯
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
17 類別資料的分析  學習目的.
第一章 统计学及其基本概念 南京财经大学统计学系.
回归分析 线性回归 Logistic回归 对数线性模型
STATISTICA統計軟體的應用 第二講:廻歸與ANOVA
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
Analysis of Variance 變異數分析
平均值檢定 4.1 檢定之原理 4.2 各種平均值之檢定 商管研究資料分析SPSS的應用 Chapter 4 平均值檢定.
第六章 平均數比較 6-1 平均數比較(各種 T Test 的應用) 6-2 Means 平均數分析 6-3 單一樣本 T 檢定
次数依变量模型 (Models for Count Outcomes)
Ch7:一般線性模式 GLM.
Regression for binary outcomes
第七章 SPSS的非参数检验.
REGRESSION FOR ORDINAL OUTCOMES 「順序尺度依變項」的迴歸模型
Stochastic Relationships and Scatter Diagrams
衛生署公佈台灣地區約有5000人是屬單腳肢體殘障。已知台灣地區約有2,300萬人口。求台灣地區人民的平均腳數?
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
欢迎访问 下载课件和数据 2018/11/30 中国人民大学六西格玛质量管理研究中心.
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
第六章 因子分分析 §6.1 因子分析的基本理论 §6.2 因子载荷的求解 §6.3 因子分析的步骤与逻辑框图 §6.4 因子分析的上机实现
楊志強 博士 多變量分析在測驗暨量表編製之應用 楊志強 博士
Tel: 第11章 SPSS在时间序列预测中的应用 周早弘 旅游与城市管理学院
Discriminant Analysis
第十二章 典型相關 12-1 典型相關 12-2 典型相關分析的基本假設 12-3 典型涵數的估計 12-4 典型涵數的選擇
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
4 統計分析程序的選擇.
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
第十一章 相關研究法.
指導老師: 蘇明俊 老師 組長:潘翠娥 組員:張惠雅 葉麗華
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
第9章 方差分析 介绍 1、方差分析的概念 2、方差分析的过程.
香港快樂指數 2007 何濼生教授 嶺南大學公共政策研究中心.
第捌章 敘述研究法 一、調查研究法(survey method) 二、相關研究法(co relational studies)
相關統計觀念復習 Review II.
介绍: 1、主成分分析与因子分析的概念 2、主成分分析与因子分析的过程
第 一 章 多元迴歸分析.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.
Review of Statistics.
第八章 均值比较与检验 2019/5/10.
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
第7章 基本统计分析 2019/5/14.
Altman’s Z Score Model 線型區別模型
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
统计软件应用 4 主讲人 陶育纯 SPSS统计分析 统计软件应用 4 主讲人 陶育纯 教案.
Logistic回归 Logistic regression 研究生《医学统计学》.
统计工具的使用方法 主讲人 陶育纯 统计工具的使用方法 主讲人 陶育纯
Multiple Regression: Estimation and Hypothesis Testing
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
实习二 方差分析 流行病与卫生统计学系
Presentation transcript:

第九章 區別分析與邏輯迴歸 9-1 區別分析 (Discriminate Analysis) 9-2 邏輯迴歸 (Logistic Regression)

9-1 區別分析(Discriminate Analysis) 9-1-1 區別分析介紹   區別分析適用於依變數是非計量,自變數是計量的情形,如下圖:         Y = X1+X2+X3+….+Xk (非計量, 例如: 名目)   (計量)

區別函數(Discriminant Function) Discriminant Function (HAIR et. al. 1998, P244) Zjk= a + W1X1k + W2X2k+……+ WnXnk Zjk = 區別函數j對物件k的區別Z分數 a = 截距 (intercept), 也通稱為常數 Wi = 對每個變數I的區別權重 Xjk = 自變數i, 對於物件k

我們以幾何圖形的解釋,如下圖:   我們有2組資料Ⅰ和Ⅱ, 其資料分佈如上圖, 分別映射mapping到Z軸,Z1為區別函數的分數(稱為Z score), 其分界點為兩組平均數的中心,可以得到最佳的區別效果, 也就是我們需要的區別函數。(Ⅱ組落入Ⅰ組(陰暗處))誤判數量和Ⅰ組落入Ⅱ組誤判數量都較低) 若是分界點落在別處,如下圖: Ⅱ組落入Ⅰ組和Ⅰ組落入Ⅱ組的誤判數量都會增加,最好的情形,則會與兩組平均數的中心相同,不會更好。

評估組別以進行分類 (研究問題)區別分析的應用 1. 使用身高, 體重來區分性別 2. 使用客戶的性別、收入、教育程度來區別客戶是否會購買產品 3. 使用客戶的職業、收入、資產、負價…等資料來區別客戶是否有還 款能力 4. 動、植物分類 5. 商品等級分類 6. 政治:使用年齡、教育程度、議題立場、政黨傾向…等,對己表態 的選民作區別分析,以進行未表態者的投票意向的預測 7. 風險評估:使用公司的財務資料、企業主的個人資料…等,以區別 分析建立起信用評估模式,用來判定未來企業申貸者的標準。

9-1-2 區別分析範例   我們想了解某顧問公司提供 技術(變數Tech),服務(變數Serv)和管理(變數Manage),在客戶滿意度(變數satis)中,高滿意度,中滿意度和低滿意度的區別情形,除了可以預測新客戶的滿意度外,更可以提供顧問公司的改善方向。 實務操作如下: 1. 按 Analyze  Classify  Discriminant 2. 在Discriminant Analysis 視窗,選取 satis 變數 3. 選取 satis 變數,按 >,再按 Define Range,在 Minimum輸入1, Maximum輸入3 4. 按Continue,回到 Discriminant Analysis 視窗,選取 Tech,Serv, Manage 變數 5. 按 >,選取 Tech,Serv,Manage 變數到 Independents 6. 按 Statistics ,選取所有統計量 7. 按 Continue,回到 Discriminant Analysis 視窗 8. 按Classify ,選取 All groups equal,Within-group,Summary table 和 Leave-one-out classification 9. 按Continue,回到 Discriminant Analysis 視窗 10. 按OK,出現報告結果

報表分析結果如下: Tests of Equality of Group Means 組別平均數的相等性檢定, 也就是應用單變量變異數進行分析, F值愈大, Wiks’ Lambda 值會愈小, 代表平均數的差異值愈大, 從上表比較得知不同的整體滿意度在Tech(技術), Serv(服務)和 Manage(管理) 的F值都達顯著 sig:p=0.000, 分別是技術 = 32.104, 服務 = 14.564, 管理=20.330。

Box's Test of Equality of Covariance Matrices Analysis 1 Box's Test of Equality of Covariance Matrices Test Results Tests null hypothesis of equal population covariance matrices. Box共變異矩陣相等性檢定的測試結果, 非常重要的判定值, 我們需要的是P值20.05, 未達顯著, 用來確認各組的組內變異數矩陣是否相等, 以符合區別分析的假設前題, 從上表得知 Box’s M = 20.227 F = 1.634 Sig:P=.075 代表未達顯著, 接受虛無假設, 表示各組的組內變異數矩陣是相等, 可以繼續進行區別分析。

Summary of Canonical Discriminant Functions Eigenvalues a First 2 canonical discriminant functions were used in the analysis. 典型的區別函數摘要表, Function為區別函數, 有1和2, 以第一個區別函數為例, Eigenvalue為特徵值 = .635, % of Variance 解釋變異量 = 68.5, Cumulative % 為累積解釋變異量=68.5, Canonical Correlation 典型相關係數值 = .623, 區別函數的特徵愈大, 代表函數愈有區別力 Wilks' Lambda Wilk’s Lambda 1thorough 2代表函數1和函數 2在三個組別的差異程度, X=106.196, P = .000達顯著水準, 2代表排除函數1後, 單獨函數 2在三個組別的差異程度, X= 36.369, P = .000達顯著水準, 總合上述的結果是有2個區別方程式可以有效地解釋整體滿意度(依變數)的變異量。

Standardized Canonical Discriminant Function Coefficients 標準化典型區別函數係數, 代表自變數對依變數的貢獻程度, 係數值愈大, 代表影響力愈大, 從上表中的值, 我們可以整理出2個標準化典型區別函數如下: 第一個區別函數F1 = .879×技術+.207×服務-.629×管理 第二個區別函數F2 = .366×技術-.653×服務+.410×管理 Structure Matrix Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. * Largest absolute correlation between each variable and any discriminant function 結構矩陣的結果與標準化典型區別函數的結果相同, 結構矩陣中的值較大, 代表的影響力也較大

Canonical Discriminant Function Coefficients Unstandardized coefficients 典型的區別函數係數, 這裏是尚未標準化的係數, 較不常用 Functions at Group Centroids Unstandardized canonical discriminant functions evaluated at group means 各組形心(Centroid)的函數, 其係數是由平均數X未標準化的區別函數係數而得, 係數值愈大, 代表愈能區別能力愈強

Classification Statistics Classification Processing Summary 分類摘要表, 處理的有146個, 其它遺漏值….為0個, 輸出為146個。 Prior Probabilities for Groups 組別的事前機率值, 我們之前選用All groups equal 選項, 所以, 每個組別的事前機率均相同為.333, 若是選用 Compute from sample size, 則會以各組樣本占總樣本的比率進行計算。

Classification Function Coefficients Fisher's linear discriminant functions 分類的函數係數是用來判定收集的樣本是屬於於那一組, 我們整理分類函數如下: 分類函數CF1 = .295×技術+.309×服務+.157×管理-25.985 分類函數CF2 = .202×技術+.311×服務+.200×管理-22.617 分類函數CF3 = .236×技術+.262×服務+.224×管理-23.639 我們將收集樣本的值代入分類函數CF1, CF2和CF3, 計算得最大值, 就歸屬於那一組會形成下面的分類結果。

Classification Results(b,c) a Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b 73.3% of original grouped cases correctly classified. c 71.2% of cross-validated grouped cases correctly classified.

分類結果, 可以看出原始(Original)為1的, 分類到第1組的有43, 正確率為79.6% 原始組別可以正確分類的有73.3%, 交叉驗證可以正確分類的有71.2%。 區別分析結果整理: 區別分析 (Discriminate Analysis):在已知的樣本分類,建立判別標準(區別函數),以判定新樣本應歸類於那一群中。 在本範例中,我們找到分類函數結果如下: 分類函數CF1 = .295×技術+.309×服務+.157×管理-25.985 分類函數CF2 = .202×技術+.311×服務+.200×管理-22.617 分類函數CF3 = .236×技術+.262×服務+.224×管理-23.639 分類結果: 原始(Original)為1的, 分類到第1組的有43, 正確率為79.6%

9-2 邏輯迴歸 (Logistic Regression) 9-2-1 邏輯迴歸 (Logistic Regression)介紹   邏輯迴歸 (Logistic Regression),邏輯迴歸適用於依變數(dependent variable), 為名義二分變數, 自變數(Independent variable) 為連續變數如下: Y = X1+ X2+X3+…. (名義二分變數) (連續變數)

邏輯迴歸的檢定   我們在SPSS軟體輸出報表可以查看X:Chi-square值和 Hosmer-Lemeshow Test, 在Omnibus Test of Model Coefficient 報表中的 Chi-square 值達顯著(P0.05)時, 代表至少有一個自變數可以有效地解釋依變數。而Hosmer-Lemeshow檢定Chi-square 值達不顯著, (P>0.05)代表模式的適配度良好, 另外, 我們也可以查看Model Summary的Cox&Snell R square值, 值愈高代表有較佳的模式適配度(Hair,1998)。 注意:我們需要的Hosmer-Lemeshow檢定和Omnibus檢定的顯著性判定值, 正好相反。

9-2-2 邏輯迴歸 (Logistic Regression)範例: 政府對於中小企業提供的服務項目如下: C23:經營管理 C24:電腦化管理的輔導 C25:策略聯盟 C26:免費資訊系統的診斷 C27:人才培訓 C28:法律咨詢 C29:軟體種類查詢 C30:政府法令諮詢 C31:融資資款 C32:經費補助   在使用政府提供的服務後, 對於政府服務的內容滿意度調查, 0代表80分以下, 1代表80分(含)以上, 我們想知道中小企業對於政府提供服務的內容, 有那些是影響高滿意度的項目。

實務操作 1. 開啟範例檔 logic.sav, 按Analyze  Regression  Binary Logic 2. 開啟 LogisticRegression 視窗, 點選 A2 3. 點選 A2 後, 按  ,將A2選入依變數 Dependent 4. 點選 共變數 c23 ~ c32 5. 選共變數 c23 ~ c32 後, 按  ,將c23 ~ c32選入共變數 Covaritates 6. 按 Options,點選 Classigication plots , Hosmer-Lemeshow goodness-of-fit,Correlations of estimates 和Iteration history 7. 按 continue,回到 Logistic Regression 視窗 8. 按 OK,出現報表結果

Classification Table(a,b) 報表分析結果如下: Block 0: Beginning Block Iteration History(a,b,c) a Constant is included in the model. b Initial -2 Log Likelihood: 176.996 c Estimation terminated at iteration number 3 because parameter estimates changed by less than .001. 這是運算的疊代歷程, 共計3次, 計算參數估計值變動小於0.01時, 就會停止疊代 Classification Table(a,b) b The cut value is .500 表中的0為低意願度, 1為高意願度, 分配表中, 低滿意度重新分配為高意願, 高意願度重新分配還是高意願度, 分類正確百分比為70.5

Block 1: Method = Enter 採用Enter強迫方式輸入計算 Omnibus Tests of Model Coefficients 整體模式檢定的結果Chi-square=136.666, 自由度=10, P=0.000<0.05達顯著水準, 表示在10個預測變項至少有一個自變項可以有效地解釋依變項(整體意願)之結果 Model Summary a Estimation terminated at iteration number 9 because parameter estimates changed by less than .001. 模式摘要表 Cox&Snell R square = 0.608 Nagelkerke Rsquare = 0.865都表示依變項和自變項具有高度關連, 由於邏輯迴歸的依變項並非連續變項, 所以無法代表為解釋能力

Hosmer and Lemeshow Test 整體適配度採Hosmer and Lemeshow Test檢定, P=0.884>0.05為不顯著, 代表模式適配度良好, 依變數可以被自變數有效地預測 Contingency Table for Hosmer and Lemeshow Test

Classification Table(a) a The cut value is .500 分類表, 0代表低意願度, 1代表高意度, 表中依意願度被有效地預測有40位, 正確率達93%, 高意願度被有效地預測有97位, 正確率達94.2%, 整體的預測正確率達93.8%。 Variables in the Equation a Variable(s) entered on step 1: c23, c24, c25, c26, c27, c28, c29, c30, c31, c32.

變數在方程式中的值, 其中只有 C24 = 電腦化管理的輔導 C28=法律諮詢 C32=經費補助 達顯著水準(P0.05), 因此 C24=電腦化管理的輔導 C18=法律諮詢 可以有效地預測中小企業有意願採用資訊系統

Correlation Matrix 以上表變數參數估計的相關矩陣

我們整理邏輯迴歸分析的結果如下: 政府對於中小企業提供的服務項目有 C23:經營管理 C24:電腦化管理的輔導 C25:策略聯盟 也是有效地協助中小企業有意願採用資訊系統。