Presentation is loading. Please wait.

Presentation is loading. Please wait.

第六章 兩變數關聯分析 (Association)

Similar presentations


Presentation on theme: "第六章 兩變數關聯分析 (Association)"— Presentation transcript:

1 第六章 兩變數關聯分析 (Association)
第一節 兩變數關聯分析原理 第二節 SPSS的Correlate分析 第三節 相關分析範例 第四節 SPSS的Crosstabs分析 第五節 Crosstabs的應用範例

2 學習目標 認識計算兩變數「關聯分析」的「關聯係數」種類。 探討「相關」與「關連」及「相關分析」與「關聯分析」的差異。
了解相關係數的計算原理及公式。 了解其它關聯係數的計算原理與公式。 認識卡方檢定的適用情況。 認識SPSS的Correlation程序與介面如何操作。 認識SPSS的各種Correlate應用實例。 認識SPSS的Crosstabs程序與介面如何操作。 認識SPSS的各種Crosstabs應用實例。 探討SPSS的Crosstabs如何解釋及如何應用於民意調查。

3 第一節 兩變數關聯分析原理 一、關聯方析的統計量 二、相關分析原理 三、交叉表的卡方檢定原理

4 一、兩變數關聯分析原理 本節將介紹兩變數關聯分析(Analysis of Association)的原理,包括衡量兩變數關聯程度的統計量數。
將兩變數間的關聯(association)情形加以數量化所得之指標稱為關聯量數(Measures of Association)。 大家最熟悉的皮爾遜積差相關(Pearson Product-Moment Correlation)或稱Pearson相關係數,僅是用來衡量計量變數間關聯程度之一種指標。 單獨一種量數無法包括各種不同的關聯型態。

5 表6-1 兩變數之尺度及其適用的關聯係數

6 關聯係數應用的情況(1/2) 在實際應用上,仍以Pearson相關係數與Chi-Square卡方值最為常見。
本章主要介紹兩個探討變數間關聯強度之程序,分別為Correlate和Crosstabs。 Correlate可用於區間或比例尺度與順序尺度測量之變數;Crosstabs可用於各種尺度之變數,但通常若為計量的區間與比例尺度則採Correlate。 Crosstabs也可計算Pearson積差相關,但因此時變數之可能值太多,所得到的列聯表意義不大,故以Correlate處理較為恰當。

7 關聯係數應用的情況(2/2) 兩計質變數,如名目尺度一定要採用Crosstabs。若為順序尺度,通常亦以Correlate來分析變數之相關;當然也可採用Crosstabs,但若是5×5則產生的表格即太大了,建議還是採用Correlate較為恰當,若是3×3的情況,則可採 Crosstabs程序來分析。 對任何電腦統計軟體與程序而言,系統無法知道使用者所輸入之數值資料是何種尺度,系統提供了各種統計量與程序來供使用者選擇。至於應使用何種統計量或程序,端視使用者對資料與統計之理解而定。

8 二、相關分析原理(1/3) 相關(Correlation)是用以檢驗兩個變數線性關係的統計技術。兩個連續變數的關聯情形,除了用散佈圖的方式來表達,還可用相關係數(coefficient of correlation)來衡量。 線性關係(Linear Relationship)乃指兩個連續變數之間的關係,可以被一條最具代表性的直線來表達其存在的關聯情形。 相關係數是一個標準化的關聯係數,其原理是先計算出兩個變數的共變量,再除去兩個變數的不同分散情形與單位差異(即標準差)加以標準化。

9 相關分析原理(2/3) 相關係數介於-1至1之間。 相關程度的大小並非與r係數大小成絕對正比,相關係數的大小須經顯著性檢定來證明是否顯著。
不能直接由相關係數的大小來判斷其是否達顯著水準,因相關係數為t分配,SPSS會自動檢定相關係數是否達到顯著水準。

10 相關分析原理(3/3) 斯皮爾曼等級相關(Spearman Rank-Order Correlation)計算
此係數的符號為rs(rho)應用於順序變數線性關係之描述。 淨相關 如果兩個連續變數之間的關係,可能受到其他變數的干擾之時,可以利用控制的方式,將第三變數的效果進行統計的控制。 在計算兩個連續變數X1與X2的相關之時,將第三變數(X3)與兩個相關變數的相關與予以排除之後的純淨相關,以 來表示。

11 三、交叉表的卡方檢定原理 若是單一的分類變數,分成r類,可得到次數分配表。
若是兩個類別變數,則可進行交叉表分析並進行卡方(Chi-Square, )檢定。 若變數一分為r類,變數二分為c類,可得r×c交叉表(Cross-tabulation)或稱交叉分析表,列聯表(Contingency table)。

12 分類變數卡方檢定的類型 (1/2) 分類變數的分析,SPSS提供了無母數檢定(NPAR)、對數模式(LOGLINEAR)與交叉列聯表(CROSSTABS)三種程序來進行卡方檢定 。 適合度檢定(good-of-fit test):某一個變數是否與某個理論分配或母群分配相符合。 同質性檢定(test for homogeneity):或稱齊一性檢定,檢定不同母群體,在某一個變數的反應是否具有顯著差異。

13 分類變數卡方檢定的類型 (2/2) 獨立性檢定(test of independence):同時檢測兩個類別變數之間的關係時,其目的在於檢測從樣本得到的兩個變數的觀察值是否具有特殊的關聯 。 多重列聯表分析(multiple contingency in table Analysis):探討三個或三個以上類別變數之間是否具有關聯(非獨立)或無關(獨立)。需另外購置Advanced Model,進入Analysis→「對數線性」模組,選擇其中的「模式選擇」功能來執行,故本書不擬討論。

14 適合度檢定 理論或母群體的分配狀況,可以統計的期望值來表現;卡方統計原理,則是取觀察值與期望值相比較。
當卡方值愈大,代表統計量與理論值的差異愈大,一旦卡方值大於某臨界值,即可獲得顯著的統計結論。 Oi:第i組樣本觀察次數;Ei:期望次數(或理論次數);k:組數;m:估計之參數個數。

15 交叉分析表

16 獨立性檢定 其檢定的卡方統計量   :估計之理論次數,     。 各細格(Cell)之期望次數或理論次數最好不得小於5,處理方法有細格合併法、增加樣本數、去除樣本法與Yate‘s校正(correlation for continuity)公式。 當太多細格的次數小於5,將會造成卡方檢定的偏誤,故建議最好不要分成太多細格,建議不要超過16個細格。 的表格已是最大極限。

17 同質性檢定 同質性檢定是與獨立性檢定不同之處,在於同質性檢定係針對二個或多個獨立母體分配列總和和行總合係事先決定;
而獨立性檢定之列總和及行總和是隨機的,而非事先決定樣本大小。

18 關聯係數 以0至1的係數來反應類別變數之間的的關聯情形,分為底下三種的係數。 Phi(φ)相關係數:為交叉表 的轉換 。
C列聯係數:亦為列聯表 的轉換。 Cramer‘s V係數:當樣本數較大時,可減緩關聯係數萎縮的問題。

19 第二節 相關分析(Correlate) 一、Bivatiate程序的操作步驟 二、Bivatiate程序的語句與結果輸出
四、Partial程序的操作步驟 五、Partial程序的結果輸出與解釋 六、Distances程序的操作步驟 七、Distances程序的結果輸出

20 圖6-1 Correlate選單 Distances牽涉到第十章的集群分析與第十一章的多元尺度法。

21 Bivatiate程序的操作步驟 「兩變數相關分析」(Bivariate)程序可算出Pearson相關係數,以及Spearman‘s rho與Kendall’s tau-b及其顯著水準。Pearson相關係數是一種線性關聯的量數。 在計算相關係數之前,請先確認其線性關係及篩選可能會造成誤差的偏離值。 Pearson相關係數會假設每對變數都是常態分配。 如果資料不是常態分配,或已依類別排序,請選擇 Kendall's tau-b或Spearman's rho,以便測量兩個等級排列變數之間的關聯。

22 圖6-2 Bivariate Correlations對話框

23 圖6-3 Bivariate Correlations: Options子對話框

24 遺漏值處理方式的比較 成對方式排除(Exclude cases pairwise):若成對變數中,其中一個或兩個變數有遺漏值,則分析時會排除此觀察值。 完全排除遺漏值(Exclude cases listwise):如果任何變數的觀察值中,含有遺漏值,它們就會從所有相關係數中排除,故計算係數的有效觀察值個數會最少。 SPSS系統處理遺漏值的預設方法是pairwise法,這意謂著某些變數之相關係數值會較其它變數之相關係數值使用更多的觀察值。 但listwise法只有在同一個觀察值之所有變數值不是遺漏值時,才會使用那一個觀察值。

25 遺漏值處理範例 n V1 V2 V3 1 12 8 . 2 9 3 16 23 4 18 7 5 11 33 6 22 若使用listwise法,只有第六筆,即只有1筆觀測集被納入分析。 若使用預設的pairwise法,則V1與V2採用第1、6筆,V1與V3採用第3、5、6筆,V2與V3採用第5、6筆來計算相關係數。

26 圖6-4 Bivariate輸出結果-相關係數

27 圖6-5 Bivariate輸出結果-Spearman等級相關係數
Nonparametric Correlations

28 具有With的Correlate的語法 在 Bivariate的視窗介面中,只能建立一個行與列為相同變數的相關係數矩陣。
如果想計算一組變數與另一組變數的相關係數,則必須到Syntax視窗中輸入程序指令,並用 WITH副子令來完成。 沒有WITH的Bivariate程序較適用檢定一組變數間的彼此相關;但具有 WITH的Bivariate程序,則適用於兩組變數間的相關。 CORRELATIONS /VARIABLES=電腦能力 每週上機時間 WITH 期初成績 期中成績 期末成績 /PRINT=TWOTAIL NOSIG /MISSING=PAIRWISE .

29 圖6-6 Bivariate輸出結果-WITH副指令

30 Correlate的Matrix語法 SPSS有幾種不同的SPSS檔案型態。
例如:CORRELATES可產生相關係數矩陣的資料檔,此資料檔可以做為區別分析、因素分析、主成份分析、迴歸分析、MDS和其他程序的輸入。 在 CORRELATIONS加上副指令/MATRIX OUT(*) 在此檔案中,有兩個系統變數ROWTYPE_與VARNAME_,兩者皆為文字變數。 除了CORRELATIONS會產生相關係數矩陣外,還有RELIABILITY、MANOVA與REGRESSION會產生N、MEAN、STDDEV、CORR值的矩陣;FACTOR會產生CORR與FACTOR值的矩陣;PROXIMITIES、CLUSTER與ALSCAL會產生PROX(相似性)值的矩陣等。

31 圖6-7 Bivariate程序產生的相關係數矩陣

32 表6-2 五個電腦變數間的 相關係數表

33 表6-3 電腦能力、上機時間與電腦成績間的相關係數表
表6-3 電腦能力、上機時間與電腦成績間的相關係數表 在圖6-4中,電腦能力與其它變數的相關係數為負,為何在表6-2與表6-3卻變成是正的? 此乃因電腦能力之編碼方式,為避免造成誤解與不必要的解釋,故可以一律將負號改為正號。 電腦能力為三點的順序尺度,嚴格來講,不可以與其它計量變數進行Pearson相關分析,不過,就使用習慣而言,還是可將電腦能力當計量尺度,而直接與其它計量變數進行Pearson相關分析。

34 結果解釋與報告撰寫 從表6-2可知電腦能力與上機時間高度相關,亦即可能是電腦能力愈高的學生,愈有上機的意願,故上機時間較多。
電腦能力及上機時間皆與期初成績及期中成績達顯著相關,但與期末成績雖然是正相關,但卻未達顯著水準。 原來電腦能力較差與上機時間較短的同學,可以經由後天與整學期的努力,而在期末成績也有很好的表現。 電腦能力與期末成績的相關係數高達.509,但為何未達顯著水準,此乃因相關係數值及顯著水準與樣本數有很大的關係,當樣本數高達100個以上時,相關係數值會變小,但這並不表示其相關程度變小,此時,相關係數只要.200以下,就有可能達到.05的顯著水準。

35 圖6-8 Partial Correlations 對話框

36 圖6-9 Partial程序輸出結果 當把電腦能力當作控制變數時,可知上機時間與期初成績、期中成績、期末成績三者皆變成沒有顯著相關,故上機時間就沒有解釋能力了。

37 Distances程序的操作步驟 距離(Distances)程序可用來計算兩個體間的距離,(此可做為第十章集群分析與第十一章多元尺度法的輸入資料)。 圖6-10 Distances對話框

38 圖6-11 Distances: Dissimilarity Measures子對話框

39 圖6-12 PROXIMITIES程序輸出的觀察值距離矩陣

40 圖6-13 PROXIMITIES程序輸出的變數距離矩陣
在圖6-10中,除可計算Cases間距離,也可計算變數間距離。 如勾選Between Variables,則可得到圖6-13的結果輸出。

41 第三節 相關分析範例 一、「規模」與「CRM實施程度」的相關分析 二、個人基本資料與3GL行動通訊之關係 三、治安滿意度之影響因素研究

42 表6-4 四個規模變數間的 相關係數表

43 表6-5 七個CRM互動實施 程度變數間的相關係數表

44 表6-6 CRM影響因素與CRM互動介面實施程度關係之檢定分析表

45 表6-7 計量的個人基本資料與關鍵因素及採用意願的相關分析表
表6-7 計量的個人基本資料與關鍵因素及採用意願的相關分析表

46 相關分析的結果解釋 年齡層愈輕者對於採用意願的各項關鍵因素愈積極。 在教育程度對採用意願的關鍵因素方面的影響,均未達顯著水準。
在年收入對個人的創新影響達顯著水準且為負相關。 年齡愈長者大部分薪水較高,對於個人的創新較不講究。在年收入對公司補助與否方面,大部分年收入較少者屬愈年輕,愈希望公司能補助其手機帳單費用。 年收入較高者大部分年齡較大,對於3G科技產品的採用意願較低。

47 治安滿意度之影響因素研究 滿意度與居民數及全般刑案為負相關,且達顯著水準,滿意度也與強盜犯罪率與搶奪犯罪率雖然未達到顯著相關,但有負相關的現象 台北縣、桃園縣、臺中市、臺北市、高雄市及高雄縣等六縣市強盜案件發生數占臺閩地區總數56.09%,顯示人口較多及都市化較高之縣市,強盜案件較多。 故這六個縣市的居民對治安相當不滿意,特別是台中市與台北縣。 治安滿意度與刑案破案率與警政支出占政府支出比率達顯著正相關,這表示警政單位如果能加強破案率還是能提升治安滿意度。

48 表6-8 治安滿意度與影響因素之相關分析表

49 第四節 SPSS的Crosstabs分析 利用「交叉表」(Crosstabs)程序,形成二因子和多因子的交叉分析表格,並為二因子表格提供數種檢定和關聯測量。 Crosstabs程序最適合用來計算分類或名目變數的交叉表,以及變數間關聯之計算。 計量變數最好能事先轉換為分類變數(使用COMPUTE或RANK),再進行Crosstabs程序。 第四章的次數分配表(Frequencies)程序可用於資料輸入或編碼的錯誤的檢查。 有時採用次數分配表亦可能無法發現資料輸入錯誤,但卻可以用列聯表找出來。例如:性別變數(男、女)與懷孕變數(是、否),兩變數之列聯表不應該出現男性懷孕的現象。

50 圖6-18 Crosstabs對話框

51 圖6-19 Crosstabs: Cell Display子對話

52 圖6-20 Crosstabs: Statistics子對話框
如果表格中只有兩個列和兩個行,選擇卡方檢定後,可計算Pearson卡方值、概似比卡方值、Fisher’s精確檢定(Exact text),以及Yates’修正卡方檢定。

53 6-21Crosstabs: Table Format子對話框

54 交叉分析表

55 統計量與卡方檢定結果

56 相關係數的計算與檢定(1/2)

57 相關係數的計算與檢定(2/2) 性別與電腦能力分別為名目與順序尺度,故選擇Correlations是不恰當的做法,但為了讓讀者瞭解不同統計量間的異同,特別做此比較。 當把性別與電腦能力皆視為計量尺度時,所計算出的Pearson相關系數為-.600和Spearman等級相關係數為-.609。 但事實上,您絕對不能以相關係數來解說性別與電腦能力呈負相關現象,而是要以交叉分析表的卡方來檢定,兩者不是負「相關」,而是有「關聯」現象。 雖然在本表中也顯示相關係數達顯著水準,但絕對不能選用Correlations來當作兩個計質變數間關聯程度的衡量。

58 結果解釋與報告撰寫 若卡方值達顯著水準,還需交代各細格Row%或Column%與合計的比較,千萬不要只說明每個細格的次數,而是要說明%與全部樣本%的比較才對。 本範例卡方值為6.629達.05的顯著水準,從合計的Row%顯示,全部樣本中,電腦能力優、好與壞的比率分別為33.3%、40.0%與26.7% 。 但從男與女的Row%顯示,女性中電腦能力優的比率為0%遠低於平均比率33.3%,男性卻高達62.5%遠高於平均比率33.3%。 此結果顯示,性別與電腦能力兩者間確實有關聯 。

59 表6-9 性別與看法的交叉分析表

60 第五節 兩變數關聯分析原理 一、民意調查的交叉分析 二、個人基本資料對3G行動手機考慮原則的影響 三、居住地區與信件寄回的交叉分析
第五節 兩變數關聯分析原理 一、民意調查的交叉分析 二、個人基本資料對3G行動手機考慮原則的影響 三、居住地區與信件寄回的交叉分析 四、產業別與CRM導入的交叉分析

61 Crosstabs的應用範例 通常在學術研究中,Total%並不需要列出,且Row%或Column%只要選擇其中一個來展示即可,因為任何表格的Row與Column變數皆可互換,所以無法得到選擇Row%或Column%的通用規則。 至於要何時列出Row%或Column%,則以兩個變數的性質而定,如果兩變數之一是在實驗的控制之下,則稱為預測變數(A),假設此預測變數會引起另一變數的反應,則另一變數稱為準則變數(B)。 若A變數是Row變數,則選用Row%;若A變數是Column變數,則選用Column%百分比。

62 一、民意調查的交叉分析 這些民調中心對外公佈的數據,其所用的統計方法皆相當簡單,主要可分為兩種,第一種是第四章的次數分配表,第二種即為本章本節所探討的交叉分析表。 例如探討政黨傾向(分為泛藍、中立、泛綠三種)與護漁事件(分為贊成、反對、不知道/無意見)的交叉分析、政黨傾向與加稅、政黨傾向與兩岸直航 。 上述皆是典型的叉交分析表應用,且往往只公佈調查的有效樣本及每個交叉表細格的百分比而不是人數。 此乃因Crosstabs的卡方檢定原理,主要是看百分比而不是人數。民調中心也不會公佈卡方檢定的結果。

63 溜鳥俠-性別 在TVBS的調查中,將對此一事件的看法分為「處罰太輕、處罰太重、剛剛好、不知道」四種,結果顯示有77%認為處罰太重、15%認為剛剛好、3%認為太輕、5%不知道。 在本範例中,欲探討性別對看法的影響,故預測變數A是性別,準則變數B是看法。由於A為Row變數,故於表6-10中,只要列出Row變數即可。 表6-10的卡方值的Sig.值.068,已達.1的顯著水準。 交叉分析表顯示女性認為處罰過重的比率較男性為高(80.6%對73.7%) 。

64 表6-10 性別與看法的交叉分析表

65 溜鳥俠-年齡層 表6-11 年齡層與看法的交叉分析表
表6-11的卡方值為50.434,Sig.值為.000,已達.01的顯著水準,表示年齡確實會影響看法。

66 表6-12 是否有台商家人與兩岸直航看法的交叉分析表。
兩岸直航態度調查 表6-12 是否有台商家人與兩岸直航看法的交叉分析表。 表6-12的卡方值為12.624,Sig值為.002,已達.01的顯著水準,表示在大陸是否有家人會影響對兩岸直航的看法。

67 表6-13 性別、婚姻與3G手機考慮原則的交叉分析表

68 二、個人基本資料對3G行動手機考慮原則的影響(1/2)
若將性別與婚姻當作預測變數A,因其為Column變數,故以Column%來說明。 男性考慮「經濟性」的比率(38.3%)略低於平均值,考慮「多功能性」的比率(53.4%)略高平均值,但整體而言,未達顯著水準。 在婚姻方面,未婚者對「多功能性」的比率高於平均值,故卡方檢定達顯著水準。 這表示已婚者比較理性,重視的經濟性,未婚者追求的是感性,更強調多功能性。

69 二、個人基本資料對3G行動手機考慮原則的影響(2/2)
若將性別與婚姻當作準則變數B,因其為Column變數,故以Row%來說明。 在本次調查樣本中,在經濟性原則上,男性與女性的比率分別為45.1%與54.9%、男生及女性的人數比率分別為48.7%與51.3%,各有3.6%的差距;在多功能性上,男性與女性的比率分別為51.0%與49.0%,與男生及女性的人數比率各有2.3%的差距。 同理,在跟隨流行上,未婚與已婚的比率分別為63.8%與36.2%,與總未婚與已婚的人數比率各有高達11.7%的差距。 故整體而言,婚姻與考慮原則達顯著水準,這表示已婚者較未婚者更重視經濟性,而未婚者則較已婚者重視跟隨流行。

70 三、居住地區與信件寄回的 交叉分析 以「遺失信件技術」進行實證研究。
此研究認為,除非需要幫助的人是社會上的歧異份子,否則小鄉鎮居民比大城市居民的利他觀念為高。 這項技術是將貼好郵票、寫好地址的信件故意「遺失」,然後看看信件被寄回的比率。 這些信件寄給三個虛構的人物轉M. J. Davis、轉粉紅豹遊樂廳、轉黑手黨的朋友們。 第一個人是正常的「控制組」(Control);第二個人的職業有問題;而第三個人則是影響社會治安的黑社會份子。

71 表6-14 寄回情況與信封地址的交叉分析表

72 結果解釋 表6-14為不分居住地區的交叉分析表,卡方檢定結果達顯著水準,這表示信封地址對寄回情況有顯著的關係。
表6-15由卡方檢定結果顯示,都市與鄉鎮間具有非常有趣的差異,雖然全面的寄回率兩者相近(都市36.1%、鄉鎮35.2%),但在收信地址間卻有令人驚訝的差異。 居住在鄉鎮的人民,對於黑手黨的信只有2.8%被寄回,而居住在都市裡竟達25.0%。在鄉鎮裡控制組與遊樂廳的寄回率均較都市為高。 檢定結果表示,居住在都市者,信封地址並不會影響其寄回率,但居住在鄉鎮者,信封地址會顯著影響其寄回率。

73 表6-15 分居住地區的寄回情況與信封地址的交叉分析表
表6-15 分居住地區的寄回情況與信封地址的交叉分析表

74 表6-16 產業別與是否導入CRM的交叉分析表 此表顯示在服務業中,已經導入CRM的比率略高於製造業,且正規劃中的比率亦遠高於製造業。


Download ppt "第六章 兩變數關聯分析 (Association)"

Similar presentations


Ads by Google