Download presentation
Presentation is loading. Please wait.
1
第九章 區別分析與邏輯迴歸 9-1 區別分析 (Discriminate Analysis)
9-2 邏輯迴歸 (Logistic Regression)
2
9-1 區別分析(Discriminate Analysis) 9-1-1 區別分析介紹
區別分析適用於依變數是非計量,自變數是計量的情形,如下圖: Y = X1+X2+X3+….+Xk (非計量, 例如: 名目) (計量)
3
區別函數(Discriminant Function)
Discriminant Function (HAIR et. al. 1998, P244) Zjk= a + W1X1k + W2X2k+……+ WnXnk Zjk = 區別函數j對物件k的區別Z分數 a = 截距 (intercept), 也通稱為常數 Wi = 對每個變數I的區別權重 Xjk = 自變數i, 對於物件k
4
我們以幾何圖形的解釋,如下圖: 我們有2組資料Ⅰ和Ⅱ, 其資料分佈如上圖, 分別映射mapping到Z軸,Z1為區別函數的分數(稱為Z score), 其分界點為兩組平均數的中心,可以得到最佳的區別效果, 也就是我們需要的區別函數。(Ⅱ組落入Ⅰ組(陰暗處))誤判數量和Ⅰ組落入Ⅱ組誤判數量都較低) 若是分界點落在別處,如下圖: Ⅱ組落入Ⅰ組和Ⅰ組落入Ⅱ組的誤判數量都會增加,最好的情形,則會與兩組平均數的中心相同,不會更好。
5
評估組別以進行分類 (研究問題)區別分析的應用 1. 使用身高, 體重來區分性別
2. 使用客戶的性別、收入、教育程度來區別客戶是否會購買產品 3. 使用客戶的職業、收入、資產、負價…等資料來區別客戶是否有還 款能力 4. 動、植物分類 5. 商品等級分類 6. 政治:使用年齡、教育程度、議題立場、政黨傾向…等,對己表態 的選民作區別分析,以進行未表態者的投票意向的預測 7. 風險評估:使用公司的財務資料、企業主的個人資料…等,以區別 分析建立起信用評估模式,用來判定未來企業申貸者的標準。
6
9-1-2 區別分析範例 我們想了解某顧問公司提供 技術(變數Tech),服務(變數Serv)和管理(變數Manage),在客戶滿意度(變數satis)中,高滿意度,中滿意度和低滿意度的區別情形,除了可以預測新客戶的滿意度外,更可以提供顧問公司的改善方向。 實務操作如下: 1. 按 Analyze Classify Discriminant 2. 在Discriminant Analysis 視窗,選取 satis 變數 3. 選取 satis 變數,按 >,再按 Define Range,在 Minimum輸入1, Maximum輸入3 4. 按Continue,回到 Discriminant Analysis 視窗,選取 Tech,Serv, Manage 變數 5. 按 >,選取 Tech,Serv,Manage 變數到 Independents 6. 按 Statistics ,選取所有統計量 7. 按 Continue,回到 Discriminant Analysis 視窗 8. 按Classify ,選取 All groups equal,Within-group,Summary table 和 Leave-one-out classification 9. 按Continue,回到 Discriminant Analysis 視窗 10. 按OK,出現報告結果
7
報表分析結果如下: Tests of Equality of Group Means
組別平均數的相等性檢定, 也就是應用單變量變異數進行分析, F值愈大, Wiks’ Lambda 值會愈小, 代表平均數的差異值愈大, 從上表比較得知不同的整體滿意度在Tech(技術), Serv(服務)和 Manage(管理) 的F值都達顯著 sig:p=0.000, 分別是技術 = , 服務 = , 管理=20.330。
8
Box's Test of Equality of Covariance Matrices
Analysis 1 Box's Test of Equality of Covariance Matrices Test Results Tests null hypothesis of equal population covariance matrices. Box共變異矩陣相等性檢定的測試結果, 非常重要的判定值, 我們需要的是P值20.05, 未達顯著, 用來確認各組的組內變異數矩陣是否相等, 以符合區別分析的假設前題, 從上表得知 Box’s M = F = 1.634 Sig:P=.075 代表未達顯著, 接受虛無假設, 表示各組的組內變異數矩陣是相等, 可以繼續進行區別分析。
9
Summary of Canonical Discriminant Functions
Eigenvalues a First 2 canonical discriminant functions were used in the analysis. 典型的區別函數摘要表, Function為區別函數, 有1和2, 以第一個區別函數為例, Eigenvalue為特徵值 = .635, % of Variance 解釋變異量 = 68.5, Cumulative % 為累積解釋變異量=68.5, Canonical Correlation 典型相關係數值 = .623, 區別函數的特徵愈大, 代表函數愈有區別力 Wilks' Lambda Wilk’s Lambda 1thorough 2代表函數1和函數 2在三個組別的差異程度, X= , P = .000達顯著水準, 2代表排除函數1後, 單獨函數 2在三個組別的差異程度, X= , P = .000達顯著水準, 總合上述的結果是有2個區別方程式可以有效地解釋整體滿意度(依變數)的變異量。
10
Standardized Canonical Discriminant Function Coefficients
標準化典型區別函數係數, 代表自變數對依變數的貢獻程度, 係數值愈大, 代表影響力愈大, 從上表中的值, 我們可以整理出2個標準化典型區別函數如下: 第一個區別函數F1 = .879×技術+.207×服務-.629×管理 第二個區別函數F2 = .366×技術-.653×服務+.410×管理 Structure Matrix Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions Variables ordered by absolute size of correlation within function. * Largest absolute correlation between each variable and any discriminant function 結構矩陣的結果與標準化典型區別函數的結果相同, 結構矩陣中的值較大, 代表的影響力也較大
11
Canonical Discriminant Function Coefficients
Unstandardized coefficients 典型的區別函數係數, 這裏是尚未標準化的係數, 較不常用 Functions at Group Centroids Unstandardized canonical discriminant functions evaluated at group means 各組形心(Centroid)的函數, 其係數是由平均數X未標準化的區別函數係數而得, 係數值愈大, 代表愈能區別能力愈強
12
Classification Statistics
Classification Processing Summary 分類摘要表, 處理的有146個, 其它遺漏值….為0個, 輸出為146個。 Prior Probabilities for Groups 組別的事前機率值, 我們之前選用All groups equal 選項, 所以, 每個組別的事前機率均相同為.333, 若是選用 Compute from sample size, 則會以各組樣本占總樣本的比率進行計算。
13
Classification Function Coefficients
Fisher's linear discriminant functions 分類的函數係數是用來判定收集的樣本是屬於於那一組, 我們整理分類函數如下: 分類函數CF1 = .295×技術+.309×服務+.157×管理-25.985 分類函數CF2 = .202×技術+.311×服務+.200×管理-22.617 分類函數CF3 = .236×技術+.262×服務+.224×管理-23.639 我們將收集樣本的值代入分類函數CF1, CF2和CF3, 計算得最大值, 就歸屬於那一組會形成下面的分類結果。
14
Classification Results(b,c)
a Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b 73.3% of original grouped cases correctly classified. c 71.2% of cross-validated grouped cases correctly classified.
15
分類結果, 可以看出原始(Original)為1的, 分類到第1組的有43, 正確率為79.6%
原始組別可以正確分類的有73.3%, 交叉驗證可以正確分類的有71.2%。 區別分析結果整理: 區別分析 (Discriminate Analysis):在已知的樣本分類,建立判別標準(區別函數),以判定新樣本應歸類於那一群中。 在本範例中,我們找到分類函數結果如下: 分類函數CF1 = .295×技術+.309×服務+.157×管理-25.985 分類函數CF2 = .202×技術+.311×服務+.200×管理-22.617 分類函數CF3 = .236×技術+.262×服務+.224×管理-23.639 分類結果: 原始(Original)為1的, 分類到第1組的有43, 正確率為79.6%
16
9-2 邏輯迴歸 (Logistic Regression) 9-2-1 邏輯迴歸 (Logistic Regression)介紹
邏輯迴歸 (Logistic Regression),邏輯迴歸適用於依變數(dependent variable), 為名義二分變數, 自變數(Independent variable) 為連續變數如下: Y = X1+ X2+X3+…. (名義二分變數) (連續變數)
17
邏輯迴歸的檢定 我們在SPSS軟體輸出報表可以查看X:Chi-square值和 Hosmer-Lemeshow Test, 在Omnibus Test of Model Coefficient 報表中的 Chi-square 值達顯著(P0.05)時, 代表至少有一個自變數可以有效地解釋依變數。而Hosmer-Lemeshow檢定Chi-square 值達不顯著, (P>0.05)代表模式的適配度良好, 另外, 我們也可以查看Model Summary的Cox&Snell R square值, 值愈高代表有較佳的模式適配度(Hair,1998)。 注意:我們需要的Hosmer-Lemeshow檢定和Omnibus檢定的顯著性判定值, 正好相反。
18
9-2-2 邏輯迴歸 (Logistic Regression)範例:
政府對於中小企業提供的服務項目如下: C23:經營管理 C24:電腦化管理的輔導 C25:策略聯盟 C26:免費資訊系統的診斷 C27:人才培訓 C28:法律咨詢 C29:軟體種類查詢 C30:政府法令諮詢 C31:融資資款 C32:經費補助 在使用政府提供的服務後, 對於政府服務的內容滿意度調查, 0代表80分以下, 1代表80分(含)以上, 我們想知道中小企業對於政府提供服務的內容, 有那些是影響高滿意度的項目。
19
實務操作 1. 開啟範例檔 logic.sav, 按Analyze Regression Binary Logic
2. 開啟 LogisticRegression 視窗, 點選 A2 3. 點選 A2 後, 按 ,將A2選入依變數 Dependent 4. 點選 共變數 c23 ~ c32 5. 選共變數 c23 ~ c32 後, 按 ,將c23 ~ c32選入共變數 Covaritates 6. 按 Options,點選 Classigication plots , Hosmer-Lemeshow goodness-of-fit,Correlations of estimates 和Iteration history 7. 按 continue,回到 Logistic Regression 視窗 8. 按 OK,出現報表結果
20
Classification Table(a,b)
報表分析結果如下: Block 0: Beginning Block Iteration History(a,b,c) a Constant is included in the model. b Initial -2 Log Likelihood: c Estimation terminated at iteration number 3 because parameter estimates changed by less than .001. 這是運算的疊代歷程, 共計3次, 計算參數估計值變動小於0.01時, 就會停止疊代 Classification Table(a,b) b The cut value is .500 表中的0為低意願度, 1為高意願度, 分配表中, 低滿意度重新分配為高意願, 高意願度重新分配還是高意願度, 分類正確百分比為70.5
21
Block 1: Method = Enter 採用Enter強迫方式輸入計算 Omnibus Tests of Model Coefficients 整體模式檢定的結果Chi-square= , 自由度=10, P=0.000<0.05達顯著水準, 表示在10個預測變項至少有一個自變項可以有效地解釋依變項(整體意願)之結果 Model Summary a Estimation terminated at iteration number 9 because parameter estimates changed by less than .001. 模式摘要表 Cox&Snell R square = Nagelkerke Rsquare = 0.865都表示依變項和自變項具有高度關連, 由於邏輯迴歸的依變項並非連續變項, 所以無法代表為解釋能力
22
Hosmer and Lemeshow Test
整體適配度採Hosmer and Lemeshow Test檢定, P=0.884>0.05為不顯著, 代表模式適配度良好, 依變數可以被自變數有效地預測 Contingency Table for Hosmer and Lemeshow Test
23
Classification Table(a)
a The cut value is .500 分類表, 0代表低意願度, 1代表高意度, 表中依意願度被有效地預測有40位, 正確率達93%, 高意願度被有效地預測有97位, 正確率達94.2%, 整體的預測正確率達93.8%。 Variables in the Equation a Variable(s) entered on step 1: c23, c24, c25, c26, c27, c28, c29, c30, c31, c32.
24
變數在方程式中的值, 其中只有 C24 = 電腦化管理的輔導 C28=法律諮詢 C32=經費補助 達顯著水準(P0.05), 因此 C24=電腦化管理的輔導 C18=法律諮詢 可以有效地預測中小企業有意願採用資訊系統
25
Correlation Matrix 以上表變數參數估計的相關矩陣
26
我們整理邏輯迴歸分析的結果如下: 政府對於中小企業提供的服務項目有 C23:經營管理 C24:電腦化管理的輔導 C25:策略聯盟
也是有效地協助中小企業有意願採用資訊系統。
Similar presentations