第 11 章 雙組樣本的假設檢定
目標 針對兩組獨立母體平均數之間差距,進行假設檢定。 針對兩組母體比例間差距,進行假設檢定。 針對成對或是相依觀測資料平均數間的差距,進行假設檢定。 解相依與獨立樣本之間的差異。
比較兩組母體 本章將進行兩組樣本的假設檢定,亦即選擇兩組隨機樣本來判斷母體平均數是否相等。 假設兩組樣本平均數抽樣分配皆為常態分配,則兩樣本平均數之間差距的分配也是常態分配。 若兩組樣本均包含超過 30 個觀測資料,則使用 z 分配。
比較兩組母體平均數 不需要假設母體的型態。 從獨立母體抽選樣本。
比較兩組母體平均數 兩組樣本間必須沒有任何關聯,亦即兩組樣本互相獨立。 兩組母體的標準差已知,則兩組樣本平均數的差異的檢定統計量為
比較兩組母體平均數 若兩組母體的標準差未知,則用樣本標準差取代母體標準差,因此計算 z 值的公式為:
範例 經理想要知道傳統收費閘口的平均耗費時間,是否比自行掃描收費閘口的平均耗費時間更長,所以經理蒐集了以下的樣本資料。時間計算是從顧客排隊到將物品放入推車為止,因此時間包括排隊與結帳的時間。請問 p- 值是多少?
範例 continued 步驟 1:建立虛無假設與對立假設 。 虛無假設是這兩組樣本的平均結帳時間沒有差異,亦即傳統收費方式與自行掃描收費方式其平均結帳時間的差距 0.2 分鐘是抽樣誤差所導致;對立假設則是傳統收費方式的平均結帳時間較長。以 μs 代表傳統收費方式之母體的平均結帳時間,而以 μu 為自行掃描收費方式之母體的平均結帳時間。虛無假設與對立假設是:
範例 continued 步驟 2:選擇顯著水準。 我們選擇 0.01 的顯著水準。 步驟 3:判斷檢定統計量。 因為兩組母體標準差已知,使用z分配為檢定統計量。
範例 continued 步驟 4:制定決策法則。 由於對立假設為傳統收費方式的平均結帳時間比自行掃描收費方式的平均結帳時間長,因此拒絕域在標準常態分配的右尾上。為了要計算臨界值,將 0.01 視為右尾的面積,因此在z值與臨界值間的面積是 0.49(由0.5-0.01 = 0.49 得到)。接著,查閱附錄 B.1找出機率值最接近 0.49 的值。得知 z 值是 2.33,因此決策法則是:如果計算出來的檢定統計量大於 2.33,則拒絕 H0。詳見圖 11-1:
範例 continued 在顯著水準 0.01 下,單尾檢定的決策法則
範例 continued 步驟 5:對於 H0 做決策,同時解釋結果。使用公式 [11-2] 計算檢定統計量的值。
範例 continued 所計算出來的值是 3.13,比 2.33 還要大,因此決策是拒絕虛無假設並接受對立假設。而傳統收費方式的平均結帳時間與自行掃描收費方式的平均結帳時間之間的差異 0.2 分鐘,並不是因抽樣誤差所致。所以我們可下結論說,自行掃描的收費方式確實比較快。
範例 continued 這個檢定統計量的 p- 值是多少?p- 值是在虛無假設為真下,檢定統計量大於由樣本所得到的實際檢定值的機率,因此想要求出 p- 值,必須找出 z 值大於 3.13 的機率。在附錄 B.1中,無法找出剛好為 3.13 相對應的機率值,最接近的值是 3.09,而其相對應機率是0.499。所以可以說 p- 值小於 0.5-0.499 = 0.001,亦即虛無假設為真的機率值非常低。
兩組母體比例的假設檢定 在前一節中,進行兩組母體平均數的假設檢定。不過有時候也想了解,從兩組母體抽選出來的兩組樣本比例是否相等。
兩組母體比例的假設檢定 聯合比例:混合兩組樣本的比例估計值,稱為母體比例的估計值,其計算公式如下: 其中 X1: 第一組樣本中試行時,成功的次數。 X2 :第二組樣本中試行時,成功的次數。
兩組母體比例的假設檢定 兩組樣本比例的檢定統計量:
範例 Manelli 香水公司最近開發一種新款香水,計畫將它命名為 Heavenly,並上市銷售。經過多次的市場調查指出,Heavenly 具有非常好市場潛力。Manelli 香水公司的銷售部門特別有興趣了解,喜歡這個新香水產品的年輕女性比例與年長女性比例是否不同。這是兩個獨立母體:一個是年輕女性所組成母體,另外一個是由年長女性所組成的母體。每一位受訪女性都聞過 Heavenly 香水,同時指出是否喜歡這個味道並願意購買。
範例 continued 步驟 1:建立 H0 與 H1。在這個例子中,虛無假設是:「喜歡 Heavenly 香水的年輕女性與年長女性,其比例沒有差異。」,將 1 標示為會購買 Heavenly 香水的年輕女性比例,而 2 為會購買 Heavenly 香水的年長女性比例。對立假設是兩個比例不相等。
範例 continued 步驟 2:選擇顯著水準。在這個範例中,使用0.05 顯著水準。 步驟 3:判斷檢定統計量。如果兩組樣本個數夠大,則檢定統計量服從標準常態分配。可以使用公式 [11-3] 計算檢定統計量的值。
範例 continued 步驟 4:制定決策法則。在第 1 個步驟的對立假設中,並沒有指出一個方向,因此是雙尾檢定。為了要計算臨界值,將信賴水準切分為相等的兩部分,並放在z分配的兩尾內。接下來,計算臨界值,也就是 0.5- 0.025(信賴水準的一半)= 0.475。最後,從附錄B.1 中找出最接近 0.475 之機率值。這個機率值相對應的 z 值是1.96,所以兩邊的臨界值分別是 -1.96 與 +1.96。因此,如果計算的檢定統計量落在 +1.96與-1.96 間,則不能拒絕虛無假設,亦即兩樣本比例間的差異是由於抽樣誤差所導致的。將決策法則整理在圖11-2 中。
範例 continued 圖11-2 Heavenly 香水的決策法則
範例 continued 步驟 5:挑選樣本並做決策。在 100 位年輕女性的樣本中,有 19 位喜歡且願意購買 Heavenly 香水。此外,在 200 位年長女性的樣本中,有 62 位喜歡且願意購買 Heavenly 香水。以 p1 表示年輕女性喜歡Heavenly 香水的樣本比例,p2 表示年紀大女性喜歡Heavenly 香水的樣本比例,則:
範例 continued 計算聯合比例 計算檢定統計量的值
範例 continued 計算出來的檢定統計量是-2.21,落在拒絕域中,也就是它在-1.96 的左邊。因此在 0.05 顯著水準下,拒絕虛無假設。換句話說,拒絕年輕女性喜歡 Heavenly 香水的比例等於年長女性喜歡 Heavenly 香水比例的虛無假設,即兩個樣本比例間的差異不太可能是因為抽樣誤差所導致的。為了要計算 p- 值,必須查閱附錄 B.1 以尋找 z 值小於-2.21 或是大於 2.21 的機率。z 值 2.21 相對應的機率值是 0.4864,因此檢定統計量的值小於-2.21 或是大於 2.21 的機率是 p- 值 = 2(0.5-0.4864) = 2(0.0136) = 0.0272。 p- 值 0.0272 小於顯著水準 0.05,因此拒絕虛無假設。結論是年輕女性與年長女性間喜歡且願意購買Heavenly 香水的比例不同。
小樣本條件下的母體平均數檢定 當樣本個數小於 30,則使用 t 分配。 需要符合的假設為: 抽樣的兩組母體皆須服從常態分配。 從兩組獨立母體中,分別抽選樣本。 兩組母體的標準差相等。
小樣本條件下的母體平均數檢定 計算檢定統計量的值需要兩步驟: 1. 計算樣本聯合變異數。 2. 計算 t 值的公式如下所示:
範例 Owens 公司主要從事製造與組裝除草機。現在有兩種組裝與架設除草機引擎的程序,問題是:使用這兩種啟動引擎的平均時間是否有差異?第一種程序由公司員工Herb Welles 所開發(稱為程序 1),而另一種由公司副總裁 William Atkins 所開發(稱為程序 2)。公司決定進行研究組裝引擎時間的評估比較。 現在抽選 5 位員工為樣本,使用程序 1 來組裝引擎;另外再抽選 6 位員工使用程序 2 來組裝引擎,結果如下表所示(以分鐘為單位),請問組裝引擎的平均時間是否有差異?請使用 0.1 顯著水準。
範例 continued
範例 continued 虛無假設是這兩程序間組裝引擎的平均時間沒有差異;對立假設是兩程序啟動組裝的平均時間有差異。 必須的假設: Welles 樣本中的觀測資料與 Atkins 樣本中的觀測資料必須互相獨立。 兩母體分配必須服從常態分配。 兩母體具有相等的標準差。
範例 continued 使用 Welles 與使用 Atkins 方法的平均組裝時間是否有差異?自由度等於總樣本數量減去樣本組數,即 n1 + n2-2。使用 Welles 方法的有 5 位員工,而使用 Atkins 方法的有 6 位員工,因此自由度為 5 + 6-2 = 9。查附錄 B.2 在自由度df = 9、顯著水準為 0.1 的情況下,可得臨界值為 -1.833 與 1.833,決策法則詳見圖 11-3 所示。如果計算出來的檢定統計量落在-1.833 至1.833 的範圍內,則不能拒絕虛無假設。
範例 continued 圖 11-3 自由度為 9 ,且顯著水準為 0.1 之雙尾檢定的拒絕域
範例 continued 步驟 1:計算樣本標準差。
範例 continued 步驟 2:計算聯合樣本變異數。 步驟 3:計算 t 值。
範例 continued 結論是:不拒絕虛無假設,因為-0.662落在-1.833 至 1.833 的區域間。因此可說這兩種方法架設與組裝引擎的平均時間沒有差異。 亦可以使用附錄 B.2 計算 p- 值。首先,先找出自由度為 9 的那一列,以及雙尾檢定的那一行。在此無須考慮正負號,找到機率值最接近 0.662 的 t 值是 1.383,其相對應的顯著水準是 0.2。因此即使使用 20% 的顯著水準,也不能拒絕平均數相等的虛無假設,可以說 p- 值大於 0.2。
Excel (the Pooled t-test) - Example
兩組樣本的假設檢定:相依樣本 相依樣本為成對或相關資料的樣本。 獨立樣本為兩組樣本間完全不相關。 例如: 若你想要買某一廠牌的汽車時,到兩家不同代理商比較價格。 若你希望測量新的減肥藥是否有效,你測量了使用前後的體重。
兩組樣本的假設檢定:相依樣本 檢定統計量的計算公式: 其中,自由度是 n-1, 是成對或相關觀測資料間差異的平均值。 是成對或相關觀測資料間差異的平均值。 sd 是成對或相關觀測資料間差異的標準差。 n 是成對觀測資料的數量。
範例 承 Nickel 貸款公司比較兩家公司在進行資產評估時是否有差異的例子。Nickel 貸款公司選擇了 10 間房屋為樣本,讓兩家公司進行估價。結果如下表所示(以千美元為單位): 在 0.05 顯著水準下,是否可以說這兩家公司的平均估價有差異?
範例 continued 第一個步驟是建立虛無假設與對立假設。由於想要知道在兩家公司的資產估價間是否有差異,而非想了解哪一家的資產估價結果高於另一家,所以判斷本例屬於雙尾檢定。因此這個問題主要是想了解資產估價的樣本差異是否來自於母題平均數為 0 的母體,如果母體平均數的差距是 0,那麼可以說兩公司間的估價沒有差異。虛無假設與對立假設為:
範例 continued 給兩家公司進行估價的樣本房屋有 10 間,所以 n = 10,自由度 df = n-1 = 10-1 = 9。本例屬於雙尾檢定,且顯著水準是 0.05。查閱附錄B.2 以計算臨界值,找出自由度等於 9、雙尾檢定與顯著水準為 0.05 三個條件的交叉點,其值為 2.262。部分附錄 F 的表格請見下頁的表11-2。而決策法則是:如果計算出來的 t 檢定統計量的值小於-2.262 或是大於 2.262 時,必須拒絕虛無假設。詳細的計算過程如下頁表所示:
T分配表
範例 continued
範例 continued 因為 t 檢定統計量的值落在拒絕域中,因此拒絕虛無假設。差異的母體分配之平均值不為 0,可以說這兩家資產評估公司對於房屋的估價有明顯差異,最大的差異在第 3 間與第 8 間房屋的估價。也許可以進一步分析差異的原因。 使用附錄 B.2 以及雙尾檢定的部分來找出 p- 值。在自由度是 9、顯著水準為 0.01 下,找到最接近我們計算的t 值是 3.25。不過計算出來的檢定統計量大於這個值,但是小於 4.781(對應於 0.001 的顯著水準),因此 p- 值小於 0.01。
範例 continued 計算出來的 t 值是 3.3045,且雙尾檢定的 p- 值是 0.00916。因為 p- 值小於 0.05,必須拒絕估價間差異分配的平均數是 0 的虛無假設。事實上,p- 值小於 1%,所以虛無假設為真的機率非常小。
Excel