第 12 章 變異數分析
目標 列出 F 分配的特徵。 進行兩組母體變異數是否相等的假設檢定。 討論變異數分析的一般觀念。 將資料組織、整理成單因子變異數分析表。 進行 3 個或 3 個以上處理的平均數間之假設檢定。 建構處理平均數間差異的信賴區間。
F 分配的特徵 F 分配是一個家族。 家族特定成員是由兩個參數所決定:分子的自由度與分母的自由度。注意到,隨著自由度改變,曲線形狀也隨之改變。
F 分配的特徵 F 分配是連續的。 F 分配不可能為負值。 F 分配是正偏分配。 F 分配是漸近線。
比較兩組母體變異數 F分配使用於進行一個常態母體之變異數是否等於另一個常態母體變異數的假設檢定,以下例子說明之: 兩布條行裁剪機專門產長度相同之鋼條,此二部機器所生產之鋼條平均長度應該相等。吾輩想確認此二部機器所生產鋼條平均長度是否相等,及其變異程度是否相等。 兩種股票之平均投資報酬率可能相同,但也許其中一個報酬率之變異程度很大。隨機選取十支網路股與十支能源股,其中此兩類股票平均報酬率相等,不過網路股變異程度較大。 根據大型報社行銷部門研究發現,男性與女性每天閱讀報紙的平均時間相同,但指出男性每天閱讀報紙的平均時間之變異程度是女性的兩倍。
比較兩組母體變異數 對於雙尾檢定。檢定統計量為: 與 分別代表兩組樣本的變異數。較大變異數放在分母 。 分子的自由度為 n1-1
比較兩組母體變異數 若檢定統計量的值大於臨界值,則拒絕虛無假設。
範例 Lammers Limos 提供從俄亥俄州 Toledo 市中心至底特律 Metro 機場的小巴士接送服務。公司總裁正在考慮兩條路線:一條路線是經由 U.S. 25號公路,另一條路線是經由 I-75 號公路。他想要比較此兩條路徑開車至機場所花費的時間,於是蒐集了下列資料(以分鐘為單位)。使用0.1 顯著水準,比較開車經由這兩條路線到機場的時間變異是否不同?
範例 continued
範例 continued U.S. 25 號公路
範例 continued I-75 號公路
範例 continued 步驟 1:我們從建立虛無假設與對立假設開始。由於想要了解這兩條路徑之變異程度的差異,而非找出哪一條路徑的變異程度較高,可知這個檢定是雙尾檢定。 步驟 2:我們選擇 0.1 顯著水準。
範例 continued 步驟 3:此題的檢定統計量服從 F 分配。 步驟 4:臨界值可以從附錄 B.4 (p. 549)中獲得,將部分機率表格整理成表 12-1。因為這個檢定屬於雙尾檢定,所以單尾內的顯著水準為α/2 = 0.1/2 = 0.05。此外分子的自由度為 n1-1 = 7-1 = 6,分母的自由度為 n2-1 = 8-1 = 7。為了找出臨界值,自水平往表格中(表 12-1 或是附錄 B.4)最上一列找出 0.05 顯著水準與分子自由度為 6 的那一行,接著往下找到分母自由度為 7 的那一列,其交叉點的臨界值是 3.87。因此,決策法則是:如果樣本變異數的比例超過 3.87,則拒絕虛無假設。
範例 continued 表 12-1 F 分配的臨界值,其中 α = 0.05
範例 continued 步驟 5:最後一個步驟是計算兩樣本變異數的比例、檢定統計量的值,並做出關於虛無假設的決策。 最後決策是拒絕虛無假設,因為檢定統計量 F值是 4.23,大於臨界值 3.87。我們的結論是,這兩條路徑在駕駛時間上的變異數有差異。
檢定兩組母體變異數– Excel Example
比較三個或三個以上母體平均數 F分配尚可運用於變異數分析(ANOVA)上,亦就是比較三組或三組以上母體平均數是否相等。但必須有幾點假設: 所有母體皆服從常態分配 所有母體之標準差均相等 所有母體相互獨立
比較三個或三個以上母體平均數 虛無假設為母體平均數相等,對立假設為至少有一個平均數不同。 檢定統計量為 F 分配。 決策法則為:若F統計量大於F分配的臨界值,則拒絕H0。 假設與決策法則: H0: µ1 = µ2 =…= µk H1: 母體平均數並非全相等 拒絕H0 ,若F > F ,k-1,n-k
母體平均數的 ANOVA 檢定 F 分配可運用在變異數分析(ANOVA)的技巧上,亦即比較三組或三組以上的母體平均數是否相等。
變異數分析的步驟 虛無假設為所有的母體平均數均相等。 對立假設為至少有一個平均數不同。 檢定統計量為 F 分配。
變異數分析的步驟 若從 k 組母體抽取樣本,則分子自由度為 k-1。 若總共有 n 個觀測資料,則分母的自由度為 n-k。 檢定統計量的計算公式為: 為每一個處理的平均數與總平均數間差異平方的總和 每個觀測值與處理平均數間差異平方的總和
變異數分析的步驟 SS Total :每個觀測值與總平均數間差異平方的總和。
變異數分析的步驟 SST 為每一個處理的平均數與總平均數間差異平方的總和。 其中 Tc 為行總和,nc 為每一行的觀測資料總和, X 為所有觀測資料總和,以及 n 為觀測資料的組數。
變異數分析的步驟 SSE 每個觀測值與處理平均數間差異平方的總和。 SST = SS total-SSE
範例 Joyce Kuhlman 為某區域金融中心經理。她希望比較三位員工的生產率,也就是衡量他們服務客戶的數量。現在分別隨機選取 4 天,這三位員工服務的客戶數量的資料,如下表所示: 這三位員工服務客戶的平均數量是否有差異?當處理間的平均數有差異時,圖12-1 描繪了其母體的形態。請注意母體服從常態分配,且每組母體的變異數皆相同,但是平均數不相同。
範例 continued 圖 12-1 各處理間平均數有差異的情況
範例 continued 圖 12-2 各處理間平均數相同的情況
範例 最近航空公司改變某些服務,例如班機內餐點及零食,對過重行李也開始收取費用。Brunner 行銷調查公司針對四家航空公司的乘客滿意度做調查,25 道問題的評等皆分為:極佳,好,普通,差。而以上的等級用分數表示為 4,3,2,1。再把這 25 道問題的分數加總,就得到乘客滿意度的指標。分數越高,乘客滿意度就越高。滿分為 100分。 Brunner 行銷調查公司對四家航空公司的乘客做調查,下頁表是樣本資料。在這四家航空公司中,乘客的平均滿意度是否有差異?請使用 0.01 的顯著水準。
範例 continued
範例 continued 步驟 1:建立虛無假設與對立假設 H0:μ1 = μ2 = μ3 = μ4 步驟 2:選擇信賴水準。我們使用 0.01顯著水準。 步驟 3:判斷檢定統計量。檢定統計量服從 F 分配。
範例 continued 步驟 4:制定決策法則。首先必須找出臨界值,查閱附錄 B.4 找出 F 分配的臨界值。為了使用這個表格,必須先求得分子與分母的自由度。分子的自由度等於處理的數量 k,減去 1;分母的自由度等於觀測資料的總數量 n,減去處理的數量 k。本題中,共有 4 個處理及 22個觀測資料。 分子的自由度 = k-1 = 4-1 = 3 分母的自由度 = n-k = 22-4 = 18 查閱附錄 B.4 與 0.01 顯著水準。水平移動找到分子自由度為 3 的那一行,再往下移動找出分母自由度 18 的那一列,得交叉點 5.09 為臨界值。如果檢定統計量 F 的值超過 5.09,則拒絕 H0。
範例 continued 步驟 5:選擇樣本,進行計算,並做出決策。
範例 continued 接下來是 SS total 與 SSE 的詳細計算。
範例 continued 接著,求每個觀測資料與總平均的差異,把差異平方再加總。
範例 continued 最後,把上頁表這些差異做平方再加總,例如,第一個乘客: 仿照公式 [12-2] 把差異平方再加總,得到 SS total 的值。
範例 continued 計算 SSE,先求每個觀測資料與其處理平均的差異。
範例 continued 將上頁表的每個值平方再加總,所得到的值如下表: 所以,SSE 的值是
範例 continued 由於不同處理所產生的差異平方和。公式如下: SST = SS total-SSE 所以,這個範例 SST 的值是 SS total-SSE = 1,485.09-594.41 = 890.68
範例 continued 處理的均方和(mean square for treatments)為 SST 除以其自由度,記為 MST;誤差均方和(mean square for error)等於 SSE 除以其自由度,記為 MSE。而 F 值等於 MST 除以 MSE。 計算出 F 值,並代入 ANOVA 表格,如下表:
範例 continued 計算出的 F 值為 8.99,比臨界值 5.09 大,所以拒絕虛無假設。結論是母體平均數不全相等,也就是這四家航空公司的平均分數不全相同。然而,在此只能說處理的平均數有差異,但無法判定哪幾個處理間的平均數有差異或是多少個處理有差異。
處理平均數的推論 當拒絕平均數均相同的虛無假設時,也許想要了解處理間平均數的差異。 使用信賴區間是最簡單的一種方式。
有關成對處理平均數的推論 其中 t 為自由度n-k MSE = [SSE/(n-k)]下的 t 值。
Confidence Interval for the Difference Between Two Means - Example 承襲上一個範例,請發展一個針對Eastern and Ozark滿意度調查之95%信賴區間。吾輩可以結論其顧客滿意度具有差異嗎? 95%信賴區間自 10.46 至 26.04,兩個極限點皆為正數,因此可以結論這些處理(航空公司)有極大差異,亦就是Eastern與Ozark的旅客之服務滿意度評價迥異。
Excel Example