第 9 章 估計與信賴區間
目標 定義點估計。 定義信賴水準。 在母體標準差已知的情況下,建構母體平均數的信賴區間。 在母體標準差未知的情況下,建構母體平均數的信賴區間。 建構母體比例的信賴區間。 決定抽樣的樣本個數。
點估計與信賴區間 點估計(point estimate):由樣本資料計算的統計量,使用來估計母體參數。 區間估計(interval estimate):某區間會涵蓋母體參數的可能性。 信賴區間(confidence interval):在特定機率下,估計母體參數可能落在的數值範圍。此特定的機率值可以稱為信賴水準。
點估計與信賴區間 決定信賴區間的因素有: 樣本大小 n。 母體資料的離散程度,通常使用 s 估計。 信賴水準。
點估計與信賴區間 若母體標準差σ已知,且樣本個數大於30,我們使用 z 分配。
點估計與信賴區間 若母體近似常態分配而母體標準差未知,且樣本個數小於 30,我們使用 t 分配。在給定信賴係數下,t 分配的值依賴自由度而定。
樣本平均數的標準誤 樣本平均數抽樣分配的標準差可稱為「標準誤」(standard error)。
樣本平均數的標準誤 計算公式為 為樣本平均數的標準誤的符號。 為母體標準差。 n 為樣本大小。
樣本平均數的標準誤 若σ未知,以及 n ≥ 30,樣本標準差表示為s, 可估計母體標準差。計算公式如下:
區間估計 陳述母體參數可能落入的範圍值。 估計母體參數可能落在的數值範圍。 最常使用的信賴水準為 95% 與 99%。
區間估計 95% 信賴區間表示在 100 組樣本所得到的 100 個區間中,約有 95 個區間會涵蓋母體參數。或者,從母體中抽選出來的樣本平均數,其中有 95% 會落在母體平均數加減 1.96 個標準差的範圍內。
區間估計 而 99 % 信賴區間意指,從母體中抽選出來的樣本平均數,有 99% 的樣本平均數會落在母體平均數加減 2.58 個標準差的範圍內。
µ 的 95% 與 99% 信賴區間 母體平均數的 95% 信賴區間為
µ 的 95% 與 99% 信賴區間 母體平均數的 99% 信賴區間為
建構母體平均數 µ 的信賴區間 母體平均數信賴區間的通用計算公式為
範例 美國管理協會希望了解在零售產業中,中階主管的平均收入。現在隨機抽取 256 位中階主管,其平均數為 $45,420、標準差 $2,050。協會想要了解下列幾個問題: 母體平均數是多少?母體平均數的合理估計值是多少? 母體平均數會合理地落在什麼範圍內? 以上答案的意義為何?
範例 continued 因不知道母體平均數是多少,只知道樣本平均數是 $45,420。因此只能使用樣本統計量來估計母體參數,所以樣本平均數 $45,420是未知母體平均數的點估計。 所計算出來的範圍是 $45,169 至 $45,671 間,這兩個數值也可以稱為信賴界限(confidence limits)。因此在 95% 信賴水準(或信賴係數)下,信賴區間是從 $45,169 至 $45,671。±$251 稱為容界誤差(margin of error)。
範例 continued 以上答案的意義為何? 假設我們隨機抽出很多組樣本數為 256 位中階主管的樣本,也許抽選出好幾百組。對於這些每一組樣本,計算其平均數與標準差,之後建立每組相對應的 95% 信賴區間,建構信賴區間的過程如上所示。我們希望所有的信賴區間中,約有 95% 的信賴區間將涵蓋母體平均數,另外約有 5% 信賴區間沒有包含母體平均數μ。然而,某特別信賴區間也許會包含母體平均數,或也許不會包含。
範例 continued
t分配的假設:母體為常態分配或近似常態分配 4. t 分配比標準常態分配更平坦,且離散程度也較大。當樣本數增加時,t 分配就會愈接近標準常態分配。
範例 一個輪胎製造商想要研究公司所生產的輪胎其厚度耗損程度。現在隨機選取行駛了 50,000 英里的 10 個輪胎為樣本,發現輪胎剩餘厚度的樣本平均數為 0.32 英寸、標準差為 0.09 英寸。請建構母體平均數的 95% 信賴區間。如果製造商的結論是:在行駛了 50,000 英里之後,輪胎剩餘厚度的母體平均數仍然是 0.3 英寸。請問這個結論合理嗎?
範例 continued 一開始假設母體分配是常態分配。為了要應用中央極限定理,故需要使用大樣本,也就是樣本數至少在30以上。在這個範例中,樣本數只有10個,因此不能使用中央極限定理。也就是不可以使用公式 [9-1],而必須使用公式 [9-2]:
範例 continued 找出 t 值的第一步,是在信賴區間的那一列找出所要的信賴水準。在此例中,所需之信賴水準是 95%,即對應到標題為 95% 的那一行,並往左邊標示為 df 的那一行移動。所謂的 df 是自由度(degrees of freedom),自由度是將樣本中觀測資料的數量減去 1,在此例中它是10-1 = 9。所以 95% 信賴水準的那一行與自由度9的那一列(p.546),交叉得到 t 值為 2.262。
範例 continued 信賴區間的界限是 0.256 與 0.384。那麼該如何麼解釋這個結果呢? 可以說母體平均數落在這個區間內,製造商可以確認(95% 的信心程度)胎面的平均剩餘厚度仍然在 0.256 至0.384 英寸間。因為 0.3 英寸落在這個區間內,所以母體平均數很可能是 0.3 英寸。
範例 佛羅里達州 Inlet Square 百貨公司的經理,想要估計每一位顧客平均採購金額是多少。下表列示了 20 位顧客採購金額的樣本資料。 請問母體平均數的最佳點估計是多少?計算95% 的信賴區間,並解釋這個結果。如果母體平均數是 $50,這個說法合理嗎?那麼母體平均數為 $60,合理嗎?
範例 continued 百貨公司的經理假設顧客花費金額的母體服從常態分配。不知道母體標準差,所以,必須使用 t 分配以及使用公式 [9-2] 來計算信賴區間。自由度是 n-1 = 20 - 1 = 19。在表格(p.546)中找出自由度為 19、信賴水準為 95% 的交叉點是 2.093,並將這些值帶入公式 [9-2],計算出信賴區間:
範例 continued 所求出的信賴區間是 $45.13 與 $53.57 之間。所以可以說(有 95% 的信心)母體平均數會落在這個區間內。 Inlet Square 的經理猜想母體平均數是 $50 或$60。$50 在信賴區間內,所以母體平均數有可能是 $50。而 $60 沒有在信賴區間內,所以母體平均數不太可能會是 $60。
母體比例的信賴區間 母體比例信賴區間的估計公式為:
範例 Bottle Blowers of America(BBA)工會想要與Teamsters 工會合併。根據 BBA 工會的規章規定,至少要有 ¾ 的會員同意,才可進行合併。現在隨機抽選 2,000 位 BBA 的會員,其中有 1,600 位同意合併的提議。 請問什麼是母體比例的估計值?請建構母體比例的 95% 信賴區間。基於這些樣本資訊,你認為 BBA 的會員是否同意合併案的進行?為什麼?
範例 continued 使用公式 [9-3] 計算樣本比例,計算結果是 0.8: 因此可估計母體中有 80% 的會員同意合併的計畫。使用公式 [9-6] 計算 95% 的信賴區間。對應於 95% 信賴水準的 z 值是 1.96:
範例 continued 信賴區間的上下限是 0.782 與 0.818。因為信賴下限 0.782 大於 0.75,亦即信賴區間包含了超過 75% 的工會會員,所以我們可以說這個合併計畫可能會通過。
有限母體的校正因子 一個有固定上限的母體數目,我們稱之為「有限母體」。 對於一個有限母體,其總數量為 N,以及抽樣的樣本數為 n。
有限母體的校正因子 樣本平均數的標準誤:
有限母體的校正因子 樣本比例的標準誤: 對於有限母體,需進行調整。 若 n/N < 0.05,則可忽視有限母體的校正因子。
範例 賓州 Scandia 地區有 250 個家庭。隨機抽選 40 個家庭,發現這些家庭每年捐獻給教堂的平均金額是 $450、標準差 $75。母體平均數可能是 $445 或是 $425? 母體平均數是多少?母體平均數的最佳估計值是多少? 討論為何必須使用有限母體矯正因子? 請計算平均每年捐獻金額的 90% 信賴區間。信賴區間的上界與下界分別是多少? 解釋信賴區間。
範例 continued 不知道母體平均數,故必須估計之。母體平均數的最佳估計值是樣本平均數 $450。 樣本數占母體數量的比例超過 5%;也就是 n/N = 40/250 = 0.16。因此使用有限母體矯正因子,透過 FPC 去調整信賴區間的標準誤。 母體平均數的信賴區間公式變成
範例 continued 信賴區間的信賴界限是$431.65與$468.35。 母體平均數可能超過 $431.65,但是少於 $468.35。所以母體平均數可能是 $445。但不太可能是 $425。因為 $445 落在這個區間內,而 $425 沒有落在這個區間內。
選擇樣本大小 在此可以考慮下列三個因素,來決定樣本的大小: 信賴水準。 研究者的最大容忍誤差。 母體資料的變異程度。
估計母體平均數所需的樣本數量 其中 : n 是樣本數量 z 為在特定信賴水準下,標準常態分配的值 是母體標準差的估計 是母體標準差的估計 E 為最大的容許誤差
範例 一位在政府機構打工的學生,想要計算議員每月的平均薪資是多少,他估計的最大容忍誤差是 $100,同時使用 95% 的信賴水準。這位學生也發現勞工部門之前也作過一次類似的研究,在該次的研究中,標準差是 $1,000。請問本次研究所需要的樣本數是多少?
範例 continued 最大的容忍誤差 E 是 $100,95% 信賴水準相對應的 z 值是 1.96,同時標準差的估計值是$1,000。將這些值帶入公式 [9-5] 中計算: 計算結果是 384.16,經過無條件進位法處理後是 385。所以在這次研究需要抽選 385 個樣本。
範例 continued 如果這位學生想要增加信賴水準,例如 99%,則必須增加樣本數。99% 信賴水準相對應的z值是 2.58: 經過計算的樣本數為 666。我們也可以看到當信賴水準改變時,樣本大小也會改變──當信賴水準從 95% 提高到 99% 時,樣本數量也增加了281 個。
估計母體比例所需的樣本大小 在進行母體比例的研究時,決定樣本數量的因素也跟上述的因素相同。 其中, p 為過去實驗的估計比例 z 為某特定信賴水準的 z 值 E 為可允許的最大誤差
範例 根據先前的範例,有位學生想要研究擁有私立垃圾掩埋場的城市比例是多少,其母體比例的最大容忍誤差是 0.1,信賴水準是 90%,但是母體比例則無法取得估計值。請問本次研究所需要的樣本數量是多少?
範例 continued 母體比例最大的容忍誤差 E 是 0.1,信賴水準90% 相對應的 z 值是 1.65,但因為沒有母體比例的估計值,所以使用 0.5 來計算。建議的樣本數量是: 因此,這位學生需要抽選 69 個城市為樣本。