SPSS軟體與多變量分析 南台科技大學企管系 呂金河
§1 主成分分析 目的:將原來多個有相關的變數,藉由原變數的線性組合,“簡化”成較少個數的新變數(主成份),這些新變數彼此不相關,且希望能解釋大部分原始資料中的變異,而這幾個主成份可用來代表原始資料的較簡化的綜合性指標,以做進一步分析應用。
例如 (1)分析某公司的財務健康狀況,分析師找出了100種財務比率的資料,如何將這100種比率“簡化”成少數幾個(約3種)綜合指標,可由原100種變數的線性組合呈現。 (2)學期末各科考試成績,設有國、英、數、理、化、史、地七科,如何將七科成績(原始資料)“化簡”成一個綜合數字(主成份),用來“代表”學生的全部成績? (3)品管工程師想由一堆製程變數的量測資料,導出少數幾個主要的綜合指標,以顯示製程是否in control
方法:將一組行為變數 (或稱構面函數) 減縮為指標變數Yi,Yi為 的線性組合,希望第一主成分Y1是此線性組合中變異數最大者 2. Var(Yi)= λi ,其解釋總變異的百分比為 此值表示 Yi的解釋(總變異的)能力 3. 用陡坡圖或保留特徵值大於1者,決定要保留使用的主成分個數,若Y1已解釋60%以上,即可認定Y1為總指標,足以代表k個行為變數 (或認為前幾個主成分能解釋70%以上,即算滿意結果)
4. 用loading (負荷) = Corr(Xi,Yj) ≧0.5者,解釋Yj的意義 (命名) 5.主成分Yj互為獨立,故可取主成分計分(Score)為新變數,再做迴歸或區別分析,可避免原Xi共線性 (高度線性相關) 的問題 6.用相關矩陣所得Y1的主成分計分,可轉換成 N(0,1)的CDF,稱為百分位序,可用以顯示個案 (各觀察點) 在總指標上的相對強度,以比較個案間的差異
例1:用下列資料求消費者物價指數(Consumer Price Index(CPI)) SPSS操作: 點選分析 資料縮減 因子 在對話框將Bread、Burger等物價變數移入變數 按描述統計量,勾選未轉軸之統計量,相關矩陣的係數 繼續 按萃取,勾選方法為主成份,分析用相關矩陣,顯示未旋轉因子解陡坡圖,萃取特徵值 繼續 按分數,勾選因素儲存或變數,方法為迴歸方法 繼續 確定
§2典型相關分析 目的:: 1.求兩組變數{X1, X2, …, Xp}與{Y1, Y2, …, Yq}之間的相關,尋找X變數的線性組合Wi與Y變數的線性組合Vi,Wi, Vi分別為X, Y的第i個典型變數(canonical variate),使得 (1) W1, V1為X, Y變數的所有線性組合中,相關係數最大者 (2) W2, V2與W1, V1 互為獨立,且W2, V2 為滿足此條件的線性組合中,相關係數最大者。 (3) Wi, Vi與前所有個典型變數Wj, Vj互為獨立,且為滿足此條件的線性組合中,相關係數最大者。 2.典型變數最多min(p, q)對,但相關係數可能只有m < min(p, q)個顯著,應決定需要至少多少個典型相關,才能適當描述兩組變數X, Y的關聯。
例如:(1)健康部門想知道住家品質,如房屋型態,冷暖氣條件,自來水的提供,廚房及衛浴設備,與微小和嚴重疾病發生數,無力工作天數間的關連大小。 (2)研究人員想知道個人的生活型態及飲食習慣是否對其健康有影響,健康情況可用一些相關變數如高血壓,體重,焦慮,緊張水準等量測。 (3)行銷經理想知道購買的產品型態與消費者生活型態及個性是否有關連。 二組變數若能分出其中一組為自變數或預測變數(predictor),另一組為因變數或準則變數(criterion),則典型相關可以看出自變數是否影響因變數。
方法: 1. 的特徵向量a,得典型變數 的特徵向量b,得典型變數 。兩者特徵值ρ2相等,即為典型相關係數ρ,向量a,b為典型權重,大於0.3 者具有解釋能力。 2. 用Wilk ‘s Lambda(Λ)檢定是否所有 ,即 作總檢定。用Likelihood ratio(概似比)檢定,檢定是否第m + j個之後的ρ為0 (註 ),以決定應保留幾組典型變數( 則不保留)
3.計算W與X的相關係數稱為W的典型負荷,得典型結構矩陣,用以解釋W的意義 (命名)。V的命名,亦由V與Y的典型負荷量 (值者) 決定 4.計算W與Y的相關係數,及V與X的相關係數,進一步說明彼此的相關大小與方向 5. 計算自我相關係數,為典型負荷值的平方的平均值,用以表示典型變數所解釋的共有變異量的比例,即自我解釋的能力。
6. 計算重疊指數(Index of Redundancy)R. I 6. 計算重疊指數(Index of Redundancy)R.I.,此為自我相關係數乘以典型相關係數的乘積。 如同複迴歸的R2(判定係數),R.I.是衡量典型相關中一組變數被另一組變數解釋的變異百分比。R.I.<0.05者表示解釋力不足,該典型變數不予考慮。 7. 若X, Y能分出X為自變數,Y為因變數,則可用的複歸估計式,直接看Xi與Yj的關係情況。
例:用消費情境變數(飲用習慣 滿足胃口 換用品牌 享受氣氛)與產品強度變數(口味偏好、產品形象、競爭優勢)作典型相關析,以決定廣告策略及廣告訴求重點。
SPSS程式須用語法寫出程式以執行典型相關分析。 manova 飲用習慣 滿足胃口 換用品牌 享受氣氛 with 口味偏好、產品形象、競爭優勢 /Discrim raw stan estim corr rotate (varimax) alpha(0.05) /print signif(eign dimenr hypoth) /noprint signif(mult univ) param(estim) /error within+residual /design.
3 區別(判別)分析 目的: (1)指出能最佳分辨出二群或多群的變數。 (2)利用這些有分辨力的變數,導出一個方程式或函數,以形成一個新變數或指標,用來簡約的呈現群間的差別。 (3)利用這些有分辨力的變數或新指標,導出一種規則,用來判別一個新觀察點應歸屬那一群。
例如: (1)國稅局(IRS)想找出在查稅時,能分辨出逃稅與未逃稅的兩群人的重要變數,再將此類變數合成一個指標,以此簡約的方法,呈現二群間的差別。然後用此指標,預測某人報稅時是否逃稅。 (2)醫藥研究員想對有心臟病的兩群人,找出二者顯著不同的決定性變數,然後用這些變數的值,來預測某一病人是否會得心臟病。 (3)行銷經理想找出能成功顯示品牌購買者與未購買者二者不同的突出特質,再利用這些資訊,以預測潛在顧客購買的意向
方法: 1.利用兩母體t檢定或單因子變異數分析指出哪些自變數,具有區別能力(i.e.各群的均值應不等),亦可用逐次區別分析 (常用Wilks法),指出具較佳分辨力的變數 2. 利用Wilk’s Λ 檢定各群的均值向量是否不等,(此表示自變數向量具有總體區別能力) 3.利用Box’s M檢定各群的變異數矩陣是否相等
4.計算典型區別函數 (Canonical discriminant functions) (求群間變異數矩陣B,與群內變異數矩陣W相除的 矩陣的特徵值λi所對應的特徵向量γi,即為第i個典型區別函數的係數向量) 由特徵值的Wilks’ Lambda檢定,判定要選幾個區別函數 標準化係數常用來評估自變數在該區別函數的重要性 (但自變數間共線性強時, 應避用之) 用loading(結構矩陣係數)來解釋區別函數的意義 (取值>0.3者)或命名。
用區別函數的值 (區別計分) ,判定觀察值應歸屬哪一群 (分兩群時,切割點C常取兩群區別計分平均值 、 的加權平均 ) 5.計算分類函數 (classification functions) 第i群的分類函數 將觀察值x,帶入 ,其值最大時,x就歸屬該群 計算事後機率 ,其值最大時,x就歸屬該群 計算分類結果 (摘要表) 及誤判率 (或命中率) 常與集群分析共同使用,即在集群分析後,用區別分析來鑑定分群之效度
例3: 以Y = 偏好廠牌,X1=年齡,X2=所得,X3=產品認知為自變數做區別分析,以預測偏好口味。 SPSS操作: 點選分析 分類 判別 在對話框將偏好廠牌移到分組變數,並將年齡、所得和產品認知移到自變數 按統計量,勾選描述性統計量的單變量ANOVA、Box’s M檢定、平均數、Fisher’s判別函數係數、未標準化 繼續 若點選 ”使用逐步迴歸分析方法” 則按方法 勾選方法中的Wilks’ lambda值 繼續 按分類,勾選事前機率的設定及顯示的摘要表或Leave-one-out分類方法 繼續 按儲存,勾選儲存預測的組群及其他 繼續 確定
§4 集群分析 目的:集群分析的目的是要將觀察點分群,使得每群內元素對集群變數而言,同質性高,期能掌握集群結構。因此群聚分析的步驟如下: (1)量測相似性 (2)決定分群的技巧(層次法或非層次法)(hierarchical or nonhierarchical) (3)決定分群技巧的分群方式(層次法中的重心法,華德法等) (4)決定分群的群數 (5)群聚解的解釋
例如: (1)投資銀行的財務分析師想指出最值得接收的公司群名單。 (2)行銷經理想指出可以用來檢測市場情況的相似城市的名單。 (3)某候選人的競選活動經理想指出對某重要議題有相似觀點的選民群集
方法: 1.分群的方法分為層次法(含單一連結法、完全連結法、平均(中心)連結法、華德法等)與非層次法(K-means法)二大類。分群的基本原則是同質的個案集成一群,而同質性的衡量對分析性變數,用距離(含歐氏距離、馬氏距離、市街距離等),對分類性變數,用相似性 (含匹配相似量數、Jaccard相似比等)衡量。 2.先用層次法分群,用華德法等樹狀圖的高度對分群個數畫陡坡圖,跳躍量最大處的右端點即為最適分群個數,或用R2、半偏R2等決定分群個數。 3.用層次法決定分群個數(可用層次法分群的各群中心值為初始種子),再做K-means法決定最後的分群 4. 由1-way ANOVA,若各變數在各群的均值差異顯著,則可由其均值大小對各分群命名。
例4:27種食品的營養資料,今用單一聯結,完全聯結,重心法,華德法做層次法群聚分析,以決定最合理的分群,再用此分群的重心為初始seeds,進行非層次法群聚分析,以得最佳分群。
SPSS操作 先做層次法: 點選分析 分類 階層集群分析法 在對話框上,將5個分群變數右移至變數(V)欄 按統計量,勾選群數凝聚過程,及近似性矩陣 繼續 按圖形,勾選樹狀圖及方向 繼續 按方法,集群方法選Ward 's法,測量選區間的歐基里得直線距離平方 繼續 確定 再做非層次法(K-means法): 點選分析 分類 K平均數集群 在對話框上,將5個分群變數右移至變數(V)欄 集群個數鍵入 3 若要自訂初始種子,則按中心點,勾選起始中心點讀入來源,按檔案,選取起始種子存檔的檔名,按開啟 按儲存,勾選各集群組員與集群中心點的距離 繼續 按選項,勾選各集群初始的中心,ANOVA摘要表,各觀察值的集群資訊 繼續 確定 在ANOVA表的各變數若差異顯著,則由各群在各變數平均值的大小,對集群命名