單元十一、交叉分析表 國立高雄餐旅學院 沈瑞棋
建立交叉分析表 市場調查或民意調查,常用交叉分析表來探討兩個類別變數之間關聯性(例如:地理區別與政黨支持度、性別與偏好政黨之關聯性、教育程度與使用品牌之關聯性、品牌與購買原因、等)。 開啟『政黨傾向.sav』,該檔案為調查1000位受訪者之資料,其中變數『政黨傾向』、 『居住地區』欄內代表政黨傾向及居住地理區域,其代碼意義可執行『公用程式/變數』來查知。 執行『分析/描述性統計/交叉分析』,選取『政黨傾向』變數,按 鈕將其選至右側之『列』方塊中 。 選取『居住地區』按 鈕,將其選至右側之『直行』方塊中。 按 鈕,設定要顯示『觀察值』及『直行』之百分比,(縱向總計為分母之百分比)。 按續繼鈕回上一層對話方塊,再按確定,即可求得結果。
百分比 交叉表百分比有三種: 橫列 :求橫向總計為分母之百分比。 直行:求以直行(縱向)總計為分母之百分比。 總和:求以總樣本數為分母之百分比。 三種選擇可以同時並存,不過方便寫報告,通常僅使用一種即可,有時,由於解釋時通常以百分比來進行說明,因此也經常省略其『觀察值』,只顯示某一百分比而己。
卡方檢定 對於單選題之交叉表,通常需要進行卡方檢定。以前面政黨傾向交叉地區別的資料為例,其虛無假設(H0)與對立假設(H1)為: 假設=0.05。傳統之作法,係先計算卡方值,其運算公式如下:也就是讓每一格觀察值減去其期望值,求其值的平方,再除以其期望值,將這些值逐一加總起來,即為卡方值。
卡方值 交叉表內的每一格的期望值的算法如下: 欄的%(邊際機率值) 列的%(邊際機率值) 總樣本數。 如以第一列、第一欄為例,其期望值計算如下: 45 % 22.8% 1000=102.6 將其卡方值計算出之後,本例計算所得之卡方值為32.743。 再計算自由度。自由度計算之方法如下示: (r-1)(c-1) 其中r為交叉表的列數、 c為交叉表的欄數 最後查卡方分配臨界值:依自由度及值(顯著水準)由卡方表中查知其臨界界值為25。 本例算出之自由度為(4-1) (6-1)=3 5= 15, 我們所計算得到之卡方值32.47325,所以應拒絕虛無假設(政黨傾向與居住地區無關)。也就是說,政黨支持率會隨地區別不同而有顯著差異。
利用SPSS來計算卡方值 利用SPSS來計算卡方值,不僅會算出卡方值之外,還會顯示出此卡方值之顯著性。不需經過查表,即可判斷出檢定結果。 於建立交叉表的過程中,選按統計量鈕,選擇要求得『卡方統計量』,按繼續鈕,回上一層對話方塊,再按確定鈕,則除了顯示原交叉表之外,還可獲致卡方檢之結果:其卡方值為32.743,顯著性(雙)尾。 判斷檢定結果,只須看此顯著性是否小於指定的顯著水準()之值。 若顯著性小於指定的顯著水準():表示交叉表兩個變數間存在有顯著的關聯。 本例其顯著性為0.005 =0.05,所以拒絕政黨傾向與地區別無關之虛無假設。而接受對立假設:結論是政黨支持度與居住地區存有顯著的關係。
判讀並解釋(一) 判讀表內那一個百分比較值得注意並解釋,於求縱向百分比之表內,應以橫向進行觀察,找出該列幾個較高之百分比即可,若該列之總百分比太低,也可以不予分析。 分析時,先從最右邊之總百分比,做一總體的概述: 整體言:受訪者中,以無政黨傾向者居最高(28.1%)。 有明顯政黨傾向之受訪者中,以民進黨的支持度(22.8%)最高、依序為國民黨(20.4%)、親民黨(19.6%)、台聯(5.5%)、新黨(3.6%)。 然後,對各欄之數字高低,依序說明如下: 經由卡方檢定,其顯著性0.005=0.05,所以拒絕政黨傾向與地區別無關之虛無假設。也就是政黨支持度與居住地區別存在有顯著關係。
判讀並解釋(二) 最後,才對橫向進行觀察,各該列的較高之百分比進行說明: 以地區別來看,北區主要是支持國民黨與親民黨(22.4%與20.2%),中區是親民黨(21.5%)與民進黨(21.5%)略勝於國民黨(18.5%),南區是民進黨獨大(31.7%),東區則還是國民黨(30%)與親民黨(20%)的天下。 最後,才對橫向進行觀察,各該列的較高之百分比進行說明: 以支持的政黨來看,民進黨之支持者主要集中於南區,國民黨與親民黨等泛藍之支持者主要集中於北區與東區。 另居最多數之無政傾向者,也是以北部多於中區與南區,這些人才是將來各政黨爭取之主要對象。
應注意下列事項 使用卡方檢定進行分析時,應注意下列事項: 卡方檢定僅適用於類別資料(名目變數,如:性別、地區、政黨傾向、宗教信仰、等)。 各儲存格之期望次數不應少於5。通常要有80%以上的儲存格期望次數5,否則會影響其卡方檢定的效果。若有期望次數小於5時,可將其分組作合併以縮減組數,使每組次數變大後,可消除部份期望值次數小於5之情況。 SPSS之卡方檢定結果,會於最低下計算期望值5之儲存格比例。
縮減組數 無論是文字或數字於交叉表中,均是將不重複出現之內容視為一個類別,去求算交叉表之相關統計數字。當碰上重複性較低之數字,很可能每一個數值均是唯一,而產生幾乎無法縮減其類別。 例如:開啟『運動時間.sav』檔以『分析/描述性統計/交叉表』求性別對運動時間之交叉表。其結果有很多種運動時間係獨立存在,產生一列內容。由於組數太多,於資料分析時並無多大作用。較理想之方式為:將每次運動時間分組,以縮減其組數。 縮減組數的方法: 執行『轉換/重新編碼/成不同變數』。將每次運動時間分為0~30、31~60、61~90、91~120、121~五組。將『重新編碼』結果安排到『時間分組』,再以『時間分組』與『性別』重新作交叉分析表。
縮減組數 由交叉分析表中可知:期望值個數5之儲存格比例為10%,並未超過20%。表格無須再行合併以縮減組別。 卡方值為11.312,自由度為4,其顯著水準0.023=0.05。所以,應拒絕運動時長短與性別無關的虛無假設。 由交叉表知:全體受訪者運動時間主要以91~120分鐘最多佔30.4%。經交叉分析後,可發現男性之運動時間主要以91~120分鐘最多(33.9%);而女性之運動時間以0~30分鐘最多(33.9%)。 就相對而言:在較長之運動時間部份的比例,男性明顯高過女性,而在短的運動時間上則明顯的女性高過於男性。可見男性之運動時間普遍較女性來得長一點。
縮減類別 進行交叉分析表時,通常要有80%以上的儲存格期望值次數5,否則會影響卡方檢定的效果。若有期望次數小於5時,可將其合併。 例如開啟『手機.sav』檔之資料,以『手機廠牌』交叉『性別』後,其結果為: 因為將無手機者(其『手機廠牌』=0)納入分析,所以資料並不正確,而且一些廠牌的出現次數並不高。此外,其卡方檢定之結果:顯示期望次數5者佔50%,超過20%。所以必須將組數進行縮減。 其方法如下所示:
縮減類別 執行『轉換/重新編碼/成不同變數』先將答案為5~9者合併為『9.其他』(因其次數較小),存入另一新變數『廠牌分組』。以縮減其組數,並將『廠牌分組』答案為0者設定為遺漏值,將其排除。 續以『廠牌分組』 與『性別』重新作一次交叉表分析 :得到之交叉表的期望值個數5之儲存格比例為0%,表格無須再行合併以縮減組別。 由卡方值為6.033自由度為4顯著水準0.197=0.05可知,無法拒絕使用手機廠牌與性別無關之虛無假設。 寫報告時,對於卡方檢定結果顯示兩變數間無關之交叉分析表,僅須就其最右側之欄的百分比進行解釋即可。 整體而言:受訪者所使用之手機廠牌,主要以Nokia最高(42.9%)、其次為Motorola(20.2%)、再其次為Sagen(12.6%)與Ericsson(11.8%)。由於兩者無關,就不必再對交叉結果進行說明了。通常在報告中也會省略此交叉表,僅敘述一下其檢定結果並不顯著即可。