Keller: Stats for Mgmt & Econ, 7th Ed 卡方檢定 2018年11月24日星期六 第 15 章 卡方檢定 Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.
What to do? 資料類型? 類型數目? 統計方法: 敘述母體 名目 兩個或更多 卡方的適合度檢定 比較兩個母體 卡方的列聯表檢定 比較兩個或更多母體 -- 分析兩個變數之間的關係 一種資料類型… …兩種方法 第15章 卡方檢定
兩個與名目資料有關的統計方法 第一個是應用於資料來自多項實驗(multinomial experiment) 的適合度檢定(goodness-of-fit test)。其中,多項實驗是二項實驗的推廣。 第二個方法使用整理成表的資料,稱為列聯表(contingency table),去決定兩個名目資料母體的分類是否為統計獨立;這個檢定也可以被詮釋為兩個或更多母體的比較。 兩個檢定中,檢定統計量的抽樣分配皆服從在第8 章介紹的卡方分配。 第15章 卡方檢定 第590頁
多項實驗 不像二項實驗只有兩個可能的結果(例: 銅板的正面或反面) ,一個多項實驗具下列的特質: 實驗包括 n 次固定的試驗。 每一次試驗的結果可以被歸類到 k 個類別中的一個,稱為細格或儲存格 (cells)。 每一次的試驗,結果將會落在細格 i 的機率pi 保持固定不變。而且p1 + p2+⋯+ pk = 1 實驗的每次試驗與其他試驗是獨立的。 第15章 卡方檢定 第591頁
卡方的適合度檢定 我們檢定是否有足夠的證據去拒絕 pi 的指定值。 為了說明,我們的虛無假設: H0: p1 = a1, p2 = a2, …, pk = ak 其中 a1, a2, …, ak 是我們想要設定的值。 我們的研究假設: H1: 至少一個 pi 不等於其指定的值 第15章 卡方檢定
範例15.1 有兩家公司,公司 A 與公司 B最近積極執行廣告活動以維持並且儘可能地增加其衣物柔軟精的市場佔有率。這兩家公司具有支配市場的地位。在廣告活動開始之前,公司A的市場佔有率是45% ,而公司B佔有40%的市場,其他競爭者則分享其餘的15%。 第15章 卡方檢定 第592頁
範例15.1 為了決定廣告活動之後這些市場佔有率是否有所改變,公司 A 的行銷經理蒐集了200 位衣物柔軟精顧客的隨機樣本對產品偏好的資料。200 位顧客當中,102 位表明偏好公司 A 的產品,82 位偏好公司 B 的衣物柔軟精,以及其餘16 位偏好其他競爭者之一的產品。在5% 的顯著水準下,分析人員是否能推論在廣告活動之後顧客偏好的程度已經改變? 第15章 卡方檢定 第592頁
範例15.1 我們比較廣告活動前後的市場佔有率是否有差異(例如廣告是否影響到提高市場佔有率)。我們假設參數值等於活動前市場佔有率,即: H0: p1 = .45, p2 = .40, p3 = .15 對立假設是拒絕虛無假設,因此: H1: 至少一個 pi 不等於其指定的值 第15章 卡方檢定 第592頁
範例15.1 檢定統計量 如果虛無假設為真,我們將期望選擇品牌A、品牌B 與其他的顧客人數為200 乘以在虛無假設中指定的比例。也就是, e1 = 200(.45) = 90 e2 = 200(.40) = 80 e3 = 200(.15) = 30 一般而言,每一個細格的期望次數(expected frequency) 可以計算如下 ei = npi 此一表示源自於二項隨機變數的期望值公式,在7.4 節中曾經介紹過。 第15章 卡方檢定 第592-593頁
範例15.1 假若期望次數ei 和觀測次數(observed frequencies) fi 是相當不同的,我們將結論虛無假設是錯的,且我們將拒絕它。 但是,假如期望和觀測次數是相似的,我們將不拒絕虛無假設。 在t- 檢定統計量可用以測量期望次數和觀測次數的相似性。 第15章 卡方檢定 第594頁
卡方的適合度檢定 卡方適合度檢定統計量 : 注意:在大樣本的條件下,此檢定統計量的抽樣分配是近似地 服從自由度為v = k – 1的卡方分配。拒絕域是: 。 觀測次數 期望次數 第15章 卡方檢定 第593頁
範例15.1 下列的表格示範檢定統計量的計算。如同以往,我們透過指定拒絕域或決定 p- 值來判定檢定統計量的大小。 計算 應該會相等 第15章 卡方檢定 第593-594頁
「在5% 的顯著水準之下,有充分的證據推論當廣告活動完成後各比例已經改變。」 詮釋 範例15.1 拒絕域是: 我們的檢定統計量是8.18,大於我們的卡方標準值,我們拒絕H0且支持H1,即 「在5% 的顯著水準之下,有充分的證據推論當廣告活動完成後各比例已經改變。」 第15章 卡方檢定 第594.595頁
必要的條件 卡方檢定統計量被要求樣本大小必須夠大,使得每一個細格的期望值大於等於 5。 假若期望次數小於5,細格應該合併以滿足這個條件。 第15章 卡方檢定 第595頁
辨識卡方適合度檢定的因素 辨識卡方適合度檢定的因素 問題目的:描述一個單一的母體。 資料類型:名目。 類別組數:2或更多。 第15章 卡方檢定 第596頁
卡方的列聯表檢定 卡方的列聯表檢定(Chi-squared test of a contingency table) 用來決定: 是否有足夠的證據去推論兩個名目變數之間是相關的,並且 去推論兩個或多個名目變數母體間是否存在著差異。 要完成這兩個問題引發兩個不同的分類法則。 第15章 卡方檢定 第597頁
範例15.2 MBA 課程對安排各科的上課時問與內容遇到一些問題。該課程的選修課與主修課的需求在前後兩年之間有相當大的變動。 在不知所措的情況下,商學院院長向一位統計教授求助。 這位統計教授相信問題可能是由於學生不同的教育背景和大學學位影響對主修的選擇。 第15章 卡方檢定 第598頁
範例15.2 一開始,他選取一個去年 MBA 學生的隨機樣本,並記錄其大學學位與在研究所課程中所選擇的主修領域。 大學學位包括藝術(B.A.)、工程(B.Eng)、商管(B.B.A.) ,以及其他。 對 MBA 學生而言有三個可能的主修:會計、財務與行銷。這些結果被彙整於下列的交叉分類表(在第 2 章介紹過)。這位統計學家是否可以推論大學學位影響對 MBA 主修的選擇? 第15章 卡方檢定 第598頁
範例15.2 Xm15-02 此資料包含兩行。第一個欄位由整數1、2、3、4構成,表示大學學位的數值 1 = 藝術(B.A.) 3 = 商管(B.B.A.) 2 = 工程(B.Eng.) 4 = 其他 第二個欄位列出MBA 主修的數值 1 = 會計與行銷 2 = 財務 3 = 商管 第15章 卡方檢定 第598頁
辨認 範例15.2 問題的目的是分析兩個變數之間的關係。特別是,我們想要知道一個變數是否與另一個變數有關(是否受另一個變數的影響)。另一種處理這個問題的方法是決定在B.A.、B.Eng.與B.B.A. 之間是否存有差異。也就是, H1: 兩個變數是相依的 虛無假設將指明兩個變數間沒有關聯性: H0: 兩個變數是獨立的 第15章 卡方檢定 第598-599頁
檢定統計量 這個檢定的統計量與用於檢定比例適合度檢定的檢定統計量是同一個。也就是,檢定的統計量是 假如你檢視適合度檢定中描述的虛無假設與上述的虛無假設,你將會發現一個主要的差異。在適合度檢定中,虛無假設列出機率pi 的值。而在列聯表卡方檢定中,虛無假設則敘述兩個變數是獨立的。但是,我們需要機率去計算期望數值ei,它要用來計算檢定統計量的值。 此時,問題立刻就產生了,我們要從哪裡去得到這些機率呢?答案是它們必須在虛無假設為真的設定下由資料計算而得。 第15章 卡方檢定 第599-600頁
範例15.2 第一步要先計算在12個細格內的學生數,此稱為交叉分類表。 第15章 卡方檢定 第600頁
範例15.2 第15章 卡方檢定 第601頁
P(藝術 且 會計)=[P(藝術)][P(會計) ] 範例15.2 如果虛無假設為真(記得我們總開始於這個假設)且兩個名目變數是相依的,例如 P(藝術 且 會計)=[P(藝術)][P(會計) ] 遺憾的是,我們沒有P(藝術)或P(會計)的值。但是,這些機率可以從資料獲得估計值。 第15章 卡方檢定 第600頁
檢定統計量 152位中的61位學生選擇會計做為他的MBA主修。因此,我們估計主修會計的機率為 P(會計) 相同地 P(藝術) 第15章 卡方檢定 第600頁
範例15.2 假設虛無假設為真 P(藝術 和 會計) = (60/152)(61/152) 現在我們有計算期望值的機率。即: E(藝術且會計) = 所有其他的期望值都是以類似的方式決定。 第15章 卡方檢定 第600-601頁
範例15.2 計算 從下表中,我們可以得知次數的觀測值與期望值: 現在我們可以計算檢定統計量的值: 第15章 卡方檢定 第601-602頁 MBA 主修 大學學位 會計 財務 行銷 藝術 31 24.08 13 17.37 16 18.55 工程 8 12.44 8.97 7 9.59 商管 12 15.65 10 11.29 17 12.06 其他 8.83 5 6.37 6.80 第15章 卡方檢定 第601-602頁
範例15.2 點選Add-Ins、Data Analysis Plus,與Contingency Table(Raw Data)。 計算 第15章 卡方檢定
範例15.2 計算 Excel 可以從已經計算出次數的交叉分類表或從原始資料產生卡方統計量。檔案Xm15-02包括使用下列編碼的原始資料。 第15章 卡方檢定 第602.603頁
範例15.2 p- 值為.0227。有強烈的證據推論大學學位與MBA 主修是相關的。 我們可以從兩個部分來詮釋這個檢定。 如果虛無假設為真,則大學學位與MBA 主修是彼此獨立的。亦即,在大學畢業領域之間,沒有選擇MBA主修的差異。 假如對立假設為真,大學學位確實會影響MBA 主修的選擇。 第15章 卡方檢定 第603-604頁
5 法則 在列聯表中,其中若有一個或多個細格的期望數值是小於5 的,我們必須合併某些行與列以滿足5 法則。 注意:使用此方法同時也需要改變自由度。 第15章 卡方檢定 第604頁
辨識因素 辨識列聯表卡方檢定的因素: 問題目的:分析兩個變數間的關係以及比較兩個或更多個母體。 資料類型:名目資料。 第15章 卡方檢定 第605頁
表15.1 名目資料的統計方法 第15章 卡方檢定 第608頁