商用統計學 Chapter 12 類別資料分析
12類別資料分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 由於類別資料在實際生活上常常發生,而卡方檢定其方法亦簡單容 易,因此乃將無母數統計方法中的卡方檢定,獨立於本章說明。
12-1基本概念 . . .類別資料概述. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 所謂類別資料 (Categorical Data),是指根據觀察值 ( 即個體 ) 的屬性,按照不同類別加以分類 ( 分組 ),而各分類 ( 分組 ) 的 個數,乃依計數 ( 或稱點計 ) 方式而得,故又稱為計數 ( 點計 ) 資料 (Count Data)。 如一份「罐裝烏龍茶消費行為」研究,其樣本300人,其部份變數, 如下表所示: 變 數 項 別 人 數 百分比 口 味 一般甜度 180 60% 低 糖 120 40% 購買地點 販 賣 機 24 8% 便利超商 45 15% 大 賣 場 144 48% 雜 貨 店 69 23% 其 他 18 6%
12-1基本概念 . . .類別資料概述. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 在社會科學 ( 尤其是以問卷工具來搜集、整理的資料 ) 裡,我們 常見列表資料,有下列兩種方式: 1. 單分類列聯表 所謂單分類列聯表 (One-Way Contingency Table),是指統計資料 只依單一變數加以分類,如: 一份「罐裝烏龍茶飲料消費行為」研究,其中口味之受測者人數,如下表所示: 研究者可檢定: 假設: 口 味 一般甜度 低 糖 人 數 180 120
12-1基本概念 . . .類別資料概述. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 一份「罐裝烏龍茶飲料消費行為」研究,其購買地點之受測者人數,如下表所示: 研究者可檢定: 假設: 購買地點 販賣機 便利超商 大賣場 雜貨店 其 他 人 數 54 45 114 69 18
12-1基本概念 . . .類別資料概述. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 桂格公司在過去5年對嬰兒奶粉的消費型態調查如下,30% 為重度使用者,40% 為中度使用者,20% 為輕度使用者,10% 為非使用者,今為了解此消費型態是否有改變,乃調查300位嬰兒的使用量,其資料如下: 研究者可檢定: 假設: 使用型態 重度使用者 中度使用者 輕度使用者 非使用者 人 數 85 130 50 35
12-1基本概念 . . .類別資料概述. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2. 雙分類列聯表 所謂雙分類列聯表 (Two-Way Contingency Table),又稱交叉分析 表 (Cross tabulated Table),是指統計資料依兩變數加以分類, 如: 一份「罐裝烏龍茶飲料消費行為」研究,其中性別與口味之受測者人數,如下表所示: 研究者可檢定: 假設: 口 味 性 別 一般甜度 低 糖 男 100 80 女 75 45
12-1基本概念 . . .類別資料概述. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 一份「罐裝烏龍茶飲料消費行為」研究,其中教育程度與促銷方式偏好之受測者人數,如下表所示: 研究者可檢定: 假設: 促銷方式 教育程度 折價券 贈 品 抽獎旅遊 大 學 40 20 高 中 30 國 中 50 60
12-1基本概念 . . .卡方檢定的模式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 就上述樣本資料觀察值加以分類所得之次數分配表,稱為列聯表 (Contingency Table)。表格中若為兩變數分類,包括r列與c行,則 稱為 列聯表或 交叉表。 我們在列聯表所搜集到的是樣本觀察次數,若我們想了解母體 ( 或 理論上母體 ) 的實際資料分配是否也是如此?或接近如此?換言 之,“樣本結果”與“期望結果”是否一致的檢定,即類別資料檢 定的主要內容,而其檢定方法,乃應用卡方檢定方法。 卡方檢定 的模式如下 ( 以單分類列聯表為例 ): 觀察次數:設隨機抽樣樣本大小為n,依某屬性將其分為k類,每類之觀察次數 (Observed Frequency) 設為 ,且 。
12-1基本概念 . . .卡方檢定的模式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 理論次數:依機率 理論計算在下期望所發生的次數,設為 ,稱為期望次數 (Expected Frequency) 或理論次數 (Theoretical Frequency),且 。其中 ( 為虛無假設 下之假設機率值 )。 3. 兩者之關係如下表所示:
12-1基本概念 . . .卡方檢定的模式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. 檢定統計量:以卡方統計量來表示全部觀察次數與期望次數之差 異,即 本式由統計學家Karl Pearson (1857~1936) 於西元1900 年所提出。 當樣本大小夠大時,本式的間斷 分配近似於連續 分配 ( 即 第9章之來自常態母體的 分配 )。所謂樣本大小夠大,是指每 一類別期望次數均大於等於5 ( 即 ),否則須與他組合 併,以滿足此條件。 註:若期望次數小於5 ,則卡方檢定無效率。
12-1基本概念 . . .卡方檢定的模式. . . . . . . . . . . . . . . . . . . . . . . . . . . 5. 自由度的計算:有兩種情況 (1) 。若期望次數可直接在 之假設下算出,則自由度 為 。因為k類,使用一條件式 ,所以自由度少一, 即 。 (2) ( 設m為由樣本觀察值估計之母體母數的數 目 )。若期望次數需要估計m個母體母數後才能算出,則 。 註:自由度之實際計算,我們會詳細在下節例子中說明。
12-1基本概念 . . .卡方檢定的模式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6. 決策:當 時,表示樣本觀察次數與期望次數差異大, 即樣本資料與 下之母體資料差異大,故拒絕 之假設。由於拒 絕域列於 分配的右尾,所以一律採右尾檢定。
12-1基本概念 . . .卡方檢定的模式. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 常見的卡方檢定類型,可分為下列兩形態、四種類型,如下所示:
12-2適合度檢定(一) – 多項式母體比例的檢定 . . .多項式分配. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 所謂多項式母體,即是多項分配 (Multinomial Distribution)。我 們在第五章曾說明間斷分配,其中二項分配是指一實驗分兩類事件 獨立重複試行n次的機率分配,我們若將此觀念延伸,若一實驗分多 類事件獨立重複試行n次的機率分配,即多項分配。換言之,具有多 項實驗的機率分配,即為多項分配,多項實驗具有下列特性: 1. 試行n次且獨立重複實驗。 2. 每次試行皆屬k類中之一類。 3. 每次試行出現第i類的機率為 ,且固定不變,其中 。 4. 設 為n次試行中出現第i類的個數,其中 。 多項式分配之機率分配形態,如下所示:
例題一 巨大工廠生產的產品分A、B、C三級,所占之比例為1:2:1,今隨 機抽取10個,其中A級2個,B級5個,C級3個之機率為何? *解 , ,
12-2適合度檢定(一) – 多項式母體比例的檢定 . . .多項式母體比例的檢定步驟. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 多項式母體比例的檢定步驟,其導出過程,如下所示 ( 設顯著水準 為α): 假設: 2. 樣本統計量:以卡方統計量來表示全部觀察次數與期望次數之差 異,即 式中 ,當n夠大時, 統計量近似卡方分配,其自由度 ,若 ( 期望次數 ) ,必須合併其他類別成為一個, 使其 。
12-2適合度檢定(一) – 多項式母體比例的檢定 . . .多項式母體比例的檢定步驟. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3. 拒絕域: ( 一律採右尾檢定 )。 4. 決策: (1) 若 值落在拒絕域,表示差異顯著,則拒絕 ,接受 。 (2) 若 值落在接受域,表示差異不顯著,則接受 。
例題二 一份「罐裝烏龍茶飲料消費行為」研究,其中口味之受測者人數, 如下表所示: 試檢定消費者對罐裝烏龍茶飲料的偏好比率是否相同 ? *解 試檢定消費者對罐裝烏龍茶飲料的偏好比率是否相同 ? *解 假設: (2) 檢定統計量: 口 味 一般甜度 低 糖 人 數 180 120
例題二 拒絕域: ; (4) 計算: ; (5) 決策:∵ ,差異顯著,∴ 拒絕 ,即消費者對罐裝烏龍茶飲料的偏好比率不同,由資料可知,偏好一般甜度比低糖來的高。
例題二
例題三 一份「罐裝烏龍茶飲料消費行為」研究,其購買地點之受測者人 數,如下表所示: 試檢定購買地點 ( 販賣機:便利超商:大賣場:雜貨店:其他 ) 之受測者人數比率是否為1:2:4:2:1 ?。 *解 假設: (2) 檢定統計量: 購買地點 販賣機 便利超商 大賣場 雜貨店 其 他 人 數 24 45 144 69 18
例題三 拒絕域: 計算:
例題三 (5) 決策:∵ ,落在拒絕域,差異顯著,∴ 拒絕 ,即購買地點 ( 販賣機:便利超商:大賣場:雜貨店:其他 ) 之受測者人數比率不為1:2:4:2:1。
例題四 桂格公司在過去5年對嬰兒奶粉的消費型態調查如下,30% 為重度使 用者,40% 為中度使用者,20% 為輕度使用者,10% 為非使用者, 今為了解此消費型態是否有改變,乃調查300位嬰兒的使用量,其資 料如下: 試檢定消費型態是否改變 ? *解 假設: (2) 檢定統計量: 使用型態 重度使用者 中度使用者 輕度使用者 非使用者 人 數 85 130 50 35
例題四 拒絕域: 計算: ; 決策:∵ ,落在接受域,差異不顯著,∴ 接受 ,即此消費型態沒有改變。
12-3適合度檢定(二) – 母體分配型態的檢定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 我們在作數量資料的統計推論,常須確立母體資料為某一分配型 態,然後隨機抽樣,再針對此一分配型態之母數作推論,尤其是要 確定母體是否為常態分配。若母體不是為常態分配,則必須使用其 他統計方法。 母體分配型態之檢定,其導出過程,如下所示(設顯著水準為 ): 假設: 2. 樣本統計量:
12-3適合度檢定(二) – 母體分配型態的檢定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 式中 ,當n夠大時, 統計量近似卡方分配,其自由度 ,若 ( 期望次數 ) ,必須合併其他類別成為一 個,使其 【詳見例題6】。 3. 拒絕域: (1) 。若期望次數可直接在 之假設下算出,則自由度 為 。因為k 類,使用一條件式 ,所以自由度少一, 即 。 (2) ( 設m為由樣本觀察值估計母體母數的數目 )。 若期望次數需要估計m個母體母數後才能算出,則 【詳見例題9】。
12-3適合度檢定(二) – 母體分配型態的檢定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 母體分配型態的檢定之自由度,常見的情況,茲整理如下表所示 4. 決策: (1) 若 值落在拒絕域,表示差異顯著,則拒絕 ,接受 。 (2) 若 值落在接受域,表示差異不顯著,則接受 。
例題五 擲一個骰子200次,其出現點數次數之資料如下: 試檢定上述資料是否服從於分立均等分配 ? *解 假設: (2) 檢定統計量: 點 數 試檢定上述資料是否服從於分立均等分配 ? *解 假設: (2) 檢定統計量: 點 數 1 2 3 4 5 6 次 數 40 44 34 32 24 26
例題五 拒絕域: (4) 計算:
例題五 (5) 決策:∵ ,落在接受域,差異不顯著, ∴ 接受 ,即資料服從於分立均等分配。 註:分立均等分配,其型態為 。
例題六 玩具商調查100個家庭,設家中子女有10歲以下男孩的個數為X,其 資料如下所示: 試檢定此資料是否符合 、 之二項分配 ? *解 試檢定此資料是否符合 、 之二項分配 ? *解 假設: (2) 檢定統計量: X 1 2 3 家庭個數 18 40 30 12
例題六 拒絕域: 計算: (A) (B) (C)
例題六 (D) (5) 決策:∵ ,落在接受域,差異不顯著,∴ 接受 ,即資料是服從於 , 之二項分配。
例題七 家樂福士林店每日銷售電視機的數量 ( 共50天 ),其資料如下所 示: 試檢定此資料是否符合卜瓦松分配? *解 假設: (2) 檢定統計量: 銷售量 1 2 3 4 5或以上 天 數 25 15 8
例題七 (3) 拒絕域: ( ,見以下說明 ) 計算: ,以 代替未知母數 。查表如下 :
例題七 ∵ 、 、 皆小於5,故與鄰近合併一組;由上表知,共有 3組,即 ,又∵ 以一個估計統計量 代替 ,∴ 。 ∵ 、 、 皆小於5,故與鄰近合併一組;由上表知,共有 3組,即 ,又∵ 以一個估計統計量 代替 ,∴ 。 (5) 決策:∵ ,落在接受域,差異不顯著,∴接受 ,即資料是服從於卜瓦松分配。
例題八 某調查顯示:全家便利商店台中市月營業額如下 ( 單位:萬 ): 試檢定此資料是否符合,之常態分配? *解 假設: 營業額 店 數 店 數 50以下 50~60 24 60~70 64 70~80 120 80~90 73 90~100 19 100以上
例題八 檢定統計量: 拒絕域: (4) 計算:
例題八 (A) ; (B) ……其他類推。 (C) (5) 決策:∵ ,落在拒絕域,差異顯著,∴ 拒絕受 (5) 決策:∵ ,落在拒絕域,差異顯著,∴ 拒絕受 ,即資料不服從於 , 之常態分配 ( 讀者可以第二章長條圖表示,本資料呈左偏型態。)。 註:由於本題已知母數,∴ ,若未知母數,則必須以樣本估計 與 ,即計算 與S,此時 。
12-4列聯表檢定(一) – 獨立性檢定 . . .雙分類列聯表的意義. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 設從一母體隨機抽出n個樣本資料,該樣本資料可依A、B兩變數 ( 或標準 ) 加以分類,如下的次數分配表,稱為雙分類列聯表,又 稱 列聯表。
12-4列聯表檢定(一) – 獨立性檢定 . . .雙分類列聯表的意義. . . . . . . . . . . . . . . . . 12-4列聯表檢定(一) – 獨立性檢定 . . .雙分類列聯表的意義. . . . . . . . . . . . . . . . . 上表中: 1. 表示樣本資料含有 與 兩變數特性的個數。 2. 邊際次數: (1) 列邊際次數: 表示含樣本資料有 特性的次數。 (2) 行邊際次數: 表示含樣本資料有 特性的次數。
12-4列聯表檢定(一) – 獨立性檢定 . . .雙分類列聯表的檢定步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 雙分類列聯表的檢定步驟,其導出過程,如下所示 ( 設顯著水準 為 ): 假設: 2. 檢定統計量: 式中 上式中當樣本大小n夠 大時, 統計量近似卡方分配。
12-4列聯表檢定(一) – 獨立性檢定 . . .雙分類列聯表的檢定步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 註:∵ 當 成立 ( 即A變數與B變數相互獨立 ),則下式成立: (機率乘法法則,詳見第四章) , 。 3. 拒絕域: , 自由度。 註:自由度 ,∵ 每一列都受到的條件式的限制,∴ 自由度喪失r,同理就行而言,喪失c,但其中有一自由度重覆計算 ( 列行交相處 );故加1。
12-4列聯表檢定(一) – 獨立性檢定 . . .雙分類列聯表的檢定步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4. 決策: (1) 若 值落在拒絕域,表示差異顯著,則拒絕 ,接受 。 (2) 若 值落在接受域,表示差異不顯著,則接受 。
12-4列聯表檢定(一) – 獨立性檢定 . . .注意事項. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 各方格的期望次數不應小於5,否則會影響卡方檢定的效果。若 有小於5之方格時,可以將此方格與鄰近組合併。 在 列聯表中,若有一方格之期望次數小於5,則需作Yate‘s的連續性修正 (Yate’s Correction for Continuity),因為其自由度為1,無法與鄰組再合併,否則自由度為0,無法計算。Yate‘s修正公式為 【詳見例題10】 3. 當樣本數非常大 ( 每方格依同比率變大 ) 時,卡方檢定的結果,總易拒絕 、接受 ,因此結論並不可靠【詳見例題11】。
例題九 一份「罐裝烏龍茶飲料消費行為」研究,其中性別與口味之受測者 人數,如下表所示: 試檢定性別與口味偏好是否有關 ? *解 假設: 試檢定性別與口味偏好是否有關 ? *解 假設: 口 味 性 別 一般甜度 低 糖 男 100 80 女 75 45
例題九 檢定統計量: 拒絕域: (4) 計算: 口 味 性 別 一般甜度 低 糖 合 計 男 100(105) 80(75) 180 女 (4) 計算: 口 味 性 別 一般甜度 低 糖 合 計 男 100(105) 80(75) 180 女 75(70) 45(50) 120 175 125 300
例題九 : : : (5) 決策:∵ ,落在接受域,差異不顯著,∴ 接 受 ,即性別不同與口味偏好無關。
例題九
例題十 承上題,若性別與口味之受測者人數,如下表所示: 試檢定性別與口味偏好是否有關 ? *解 假設: 口 味 性 別 一般甜度 低 糖 男 試檢定性別與口味偏好是否有關 ? *解 假設: 口 味 性 別 一般甜度 低 糖 男 25 4 女 15 6
例題十 檢定統計量: 拒絕域: (4) 計算: 口 味 性 別 一般甜度 低 糖 合 計 男 25(23.2) 4(5.8) 29 女 (4) 計算: 口 味 性 別 一般甜度 低 糖 合 計 男 25(23.2) 4(5.8) 29 女 15(16.8) 6(4.2) 21 40 10 50
例題十 ∵ ,∴ 使用Yate‘s修正公式 (5) 決策:∵ ,落在接受域,差異不顯著, ∴ 接受 ,即性別不同與口味偏好無關。
例題十一 一份「罐裝烏龍茶飲料消費行為」研究,其中性別與口味之受測者 人數,如下表所示: 試檢定性別與口味偏好是否有關? 註:本題為【例題9】之樣本數增加5倍。 *解 假設: 口 味 性 別 一般甜度 低 糖 男 500 400 女 375 225
例題十一 檢定統計量: 拒絕域: (4) 計算: 口 味 性 別 一般甜度 低 糖 男 500(525) 400(375) 900 女 (4) 計算: 口 味 性 別 一般甜度 低 糖 男 500(525) 400(375) 900 女 375(350) 225(250) 600 875 625 1,500
例題十一 :
例題十一 (5) 決策:∵ ,落在拒絕域,差異顯著,∴ 拒絕 、接受 ,即性別不同與口味偏好有關 ( 註:∵ 樣本數增加5倍,導致卡方值變大,拒絕 ,這是卡方檢定在使用上的一個限制 )。
例題十二 一份「罐裝烏龍茶飲料消費行為」研究,其中教育程度與促銷方式 偏好之受測者人數,如下表所示: 試檢定教育程度與促銷方式偏好是否有關? *解 假設: 促銷方式 教育程度 折價券 贈 品 抽獎旅遊 大 學 40 20 高 中 30 國 中 50 60
例題十二 檢定統計量: 拒絕域: (4) 計算: 促銷方式 教育程度 折價券 贈品 抽獎旅遊 合計 大 學 40(26.67) 20(30) (4) 計算: 促銷方式 教育程度 折價券 贈品 抽獎旅遊 合計 大 學 40(26.67) 20(30) 40(43.33) 100 高 中 20(18.67) 20(21) 30(30.33) 70 國 中 20(34.67) 50(39) 60(56.33) 130 80 90 300
例題十二 (5) 決策:∵ ,落在拒絕域,差異顯著,∴ 拒絕 ,即教育程度與促銷方式偏好有關 ( 由樣本資料可知,大學程度之受測者偏愛折價券 (40人 ),而國中程度之受測者較偏愛贈品與抽獎旅遊 (50人與60人 ) )。
例題十三 今自台北市、台中市與高雄市各隨機抽樣200人,詢問「是否贊成健 保費調漲」,資料如下: 試檢定台北市、台中市與高雄市居民對「是否贊成健保費調漲」比 例是否相同? *解 本題乃先確立自台北市、台中市與高雄市各抽出200人,其邊際次數 已事先固定,並且從台北市、台中市與高雄市各抽出200人是來自不 同的母體,以檢定贊成與反對比例是否一致,故為齊一性檢定。 地 區 贊成與否 台北市 台中市 高雄市 合 計 贊 成 82 120 95 297 反 對 118 80 105 303 合 計 200 600
例題十三 (1)假設: (2)檢定統計量: 拒絕域: (4) 計算: 地 區 贊成與否 台北市 台中市 高雄市 合 計 贊 成 82(99) (4) 計算: 地 區 贊成與否 台北市 台中市 高雄市 合 計 贊 成 82(99) 120(99) 95(99) 297 反 對 118(101) 80(101) 105(101) 303 合 計 200 600
例題十三 (5) 決策:∵ ,落在拒絕域,差異顯著,∴ 拒絕 ,即台北市、台中市與高雄市對「是否贊成健保費調漲」比例並不相同 ( 由樣本資料可知,而台北市與高雄市贊成比例較低,但台中市贊成比例較高。)
例題十四 聯強公司為了解收入高低與手機品牌偏好是否有關,乃針對高收入 者300人,低收入者300人進行調查,資料如下: 設 ,試檢定高低收入者在這四種品牌偏好比例是否相同? *解 本題乃先確立自高收入者與低收入者各抽出300人,其邊際次數已事 先固定,並且從高收入者與低收入各抽出300人是來自不同的母體, 以檢定手機品牌偏好是否一致,故為齊一性檢定。 品 牌 收 入 A B C D 高收入者 70 50 60 120 低收入者 110
例題十三 (1)假設: (2)檢定統計量: 拒絕域: (4) 計算: 品 牌 收 入 A B C D 合 計 高收入者 70(90) (4) 計算: 品 牌 收 入 A B C D 合 計 高收入者 70(90) 50(60) 60(55) 120(95) 300 低收入者 110(90) 70(60) 50(55) 70(95) 合 計 180 120 110 190 600
例題十四 (5) 決策:∵ ,落在拒絕域,差異顯著,∴ 拒絕 ,即高收入者與低收入者在這四種品牌偏好比例並不相同 ( 由樣本資料可知,低收入者較偏好A品牌,而高收入者較偏好D品牌 )。