第 11 章 假設檢定的介紹
SSA回郵信封信封計畫 聯邦快遞(FedEx)寄發票給顧客要求30天之內付費。目前,付清帳單所需時間的平均數與標準差是24天與6天。財務長相信附上一個回郵信封會縮短付款時間。她計算簡短2天的付款時間以改善現金流量,將能支付信封與郵票的成本。若更進一步地簡短付費時間,將會產生利潤。為了測試她的想法,她隨機選取220位顧客且隨著發票附上一個回郵信封寄出。收到付款所需的天數被記錄下來。這個財務長是否能夠下結論說這項計畫是有利潤的?(解答見P394) Data:Xm11-00
11.1 假設檢定的概念 假設檢定是統計推論的第二個類型。它也有很廣泛 的應用。 假設檢定是對母體的「未知參數」先假定其值,然後利用抽樣的樣本資料來判斷此假定值是否跟母體參數有明顯的差異。 為了解其概念,我們將從假設檢定的非統計應用開始。 第11章 假設檢定的介紹 第378頁
假設檢定的非統計應用 刑事審判是假設檢定的非統計的例子。(無罪推定) 審判中陪審團必須在兩個假設中做決定。虛無假設(null hypothesis)為 H0: 被告是無罪的 對立(alternative) 或研究假設(research hypothesis)為 H1: 被告是有罪的 陪審團並不知道哪一個假設是正確的。他們必須要依據原告 和被告兩方提出的證據做決策。 第11章 假設檢定的介紹 第379頁
假設檢定的非統計應用 在統計的術語宣判被告有罪 等同於拒絕虛無假設且支持對立假設 (rejecting the null hypothesis in favor of the alternative) 也就是,陪審團認為有足夠的證據做出被告有罪的 結論(有足夠的證據支持對立假設)。 第11章 假設檢定的介紹 第379頁
假設檢定的非統計應用 宣判被告無罪如同說 不拒絕虛無假設且不支持對立假設 (not rejecting the null hypothesis in favor of the alternative) 注意陪審團並不是說被告是無罪的,只能說沒有足 夠證據支持對立假設。這是為什麼我們從不說我們 支持虛無假設。 第11章 假設檢定的介紹 第379頁
假設檢定的非統計應用 有兩種可能的錯誤。 型 I 錯誤(Type I error) 發生於當我們拒絕了一個真 個無罪的人被陪審團錯誤地宣判有罪。 型 II 錯誤(Type II error) 被定義成不拒絕一個錯誤 的虛無假設。型 II 錯誤的發生是當一個有罪的被告 被宣判無罪釋放。 第11章 假設檢定的介紹 第379頁
假設檢定的非統計應用 犯型 I 錯誤的機率被表示成 ( 希臘字母alpha) , 它也被稱為顯著水準(significance level)。犯型 II 錯 誤的機率被表示成 ( 希臘字母beta)。 兩種錯誤的機率 和 是反向相關的,意思是試圖 降低其中一個將會造成另外一個的增加。 第11章 假設檢定的介紹 第379頁
假設檢定的非統計應用 - 錯誤的型態 型 I 錯誤(Type I error) 發生於當我們拒絕了一個真實的虛無假設。 型 II 錯誤(Type II error) 發生於當我們不拒絕一個錯誤的虛無假設(例,當H0是錯誤的,而沒有拒絕 H0)。 第11章 假設檢定的介紹 第379-380頁 表4.1
假設檢定的非統計應用 在我們的刑事審判制度,型 I 錯誤被視為是比較嚴 重的。我們試著避免宣判無罪的人有罪。我們寧可 宣告有罪的人無罪。 重的。我們試著避免宣判無罪的人有罪。我們寧可 宣告有罪的人無罪。 美國最高法院法官Holmes:「寧可無罪釋放100個有罪的人,也不願誤判一個無罪的人有罪」。 制度的安排是將犯型 I 錯誤的機率 α 設得很小,藉由將舉證的重擔放在原告( 控方必須證明被告有罪, 辯方無需證明任何事情),且陪審團只有在「證據超過合理的懷疑」時才得以宣判被告有罪。 第11章 假設檢定的介紹 第379頁
假設檢定的非統計應用 假設檢定的重要觀念如下所述: 有兩個假設,為虛無假設與對立假設。 檢定的程序以假定虛無假設為真開始。 過程的目的是要決定是否有足夠的證據去推論對立假設是真的。 有兩種可能的決策: 結論認為有足夠的證據去支持對立假設。 結論認為無足夠的證據去支持對立假設。 第11章 假設檢定的介紹 第380頁
假設檢定的非統計應用 任何檢定皆有兩種可能的錯誤。 型 I 錯誤:拒絕一個真的虛無假設 型 II 錯誤:不拒絕一個錯誤的虛無假設 P ( 型 I 錯誤) = P ( 型 II 錯誤) = 第11章 假設檢定的介紹 第380頁
假設檢定的概念(1) 有兩個假設。一個被稱為虛無假設,另一個被稱為 對立或研究假設。通用的符號表示法: H0: — 「虛無假設」 虛無假設(H0)總是說明母體參數是等於對立假設(H1)中指定的值。 發音為 H “nought” 第11章 假設檢定的介紹 第380頁
假設檢定的概念(1) 再次回想範例10.1 (估計電腦前置期間的平均需求量),我們的管理者不想估計平均需求量,取而代之的是想要知道平均數是否不同於350。我們可以重新表述需求為虛無假設: H0: µ = 350 所以我們的研究假設為: H1: µ ≠ 350 這是我們有興趣去確認的部分... 第11章 假設檢定的介紹 第380-381頁
假設檢定的概念(2) 檢定的程序以假設虛無假設為真開始。 因此,在我們有更近一步的統計證據之前,我們將假定: H0: = 350 (假定為真) 第11章 假設檢定的介紹 第380.381頁
假設檢定的概念(3) 過程的目的是要決定是否有足夠的證據去推論對立 假設是真的。 也就是說,是否有足夠的統計資料,以確定這一假 設是正確的? H1:µ ≠ 350 這是我們有興趣去確認的部分... 第11章 假設檢定的介紹 第380頁
假設檢定的概念(4) 有兩種可能的決策: 結論認為有足夠的證據去支持對立假設。 (換句話說:拒絕虛無假設並且支持對立假設的) 結論認為無足夠的證據去支持對立假設。 (換句話說:不拒絕虛無假設去支持對立假設) 注意:我們不說我們接受虛無假設。 第11章 假設檢定的介紹 第380頁
假設檢定的概念(4) 完成檢定與假設的敘述之後,下一個步驟是自母體中隨機抽取樣本並計算檢定統計量(test statistic)(此範例為樣本平均數)。 假如檢定統計量的值與虛無假設所述不一致,我們拒絕虛無假設並且推論對立假設是真的。 第11章 假設檢定的介紹 第382頁
假設檢定的概念(4) 例如,若我們試圖決定平均數是否大於350,一個很大的 值( 譬如,600) 將提供足夠的證據。 例如,若我們試圖決定平均數是否大於350,一個很大的 值( 譬如,600) 將提供足夠的證據。 假如 的值接近350 ( 譬如,355),我們將說它並沒有提供我們太多推論平均數是大於350 的證據。 第11章 假設檢定的介紹 第382頁
假設檢定的概念(5) 任何檢定皆有兩種可能的錯誤。 型 I 錯誤的發生是當我們拒絕一個真的虛無假設。 型 II 錯誤的發生是當我們無法拒絕一個錯誤的虛無假設。 犯型 I 與型 II 錯誤的機率是: P ( 型 I 錯誤) = P ( 型 II 錯誤) = α 被稱為顯著水準(significance level)。 第11章 假設檢定的介紹 第380頁
錯誤的型態 型 I 錯誤(Type I error) 發生於當我們拒絕了一個真實的虛無假設。 型 II 錯誤(Type II error) 發生於當我們不拒絕一個錯誤的虛無假設(例,沒有拒絕 H0,當它是錯誤的)。 第11章 假設檢定的介紹 第379-380頁 表4.1
11.2 在母體標準差已知下檢定母體平均數 以範例11.1說明假設檢定過程。 某百貨公司的經理想要對公司的信用卡顧客發展一套新的收費系統。 在全面的財務分析之後,她判定只有在平均每月帳上金額高於$170 時,新系統才會符合成本效益。隨機抽出400 個每月帳戶為樣本,帳戶金額的樣本平均數為$178。 該經理知道帳戶金額近似於常態分配,標準差為$65。該經理可否從上述資料做出新系統將會符合成本效益的結論?
範例11.1 這個範例處理百貨公司信用卡帳戶的母體。為了下結論說新系統將會符合成本效益,經理必須證明所有顧客的平均帳戶金額是大於$170。 辨認方法 範例11.1 這個範例處理百貨公司信用卡帳戶的母體。為了下結論說新系統將會符合成本效益,經理必須證明所有顧客的平均帳戶金額是大於$170。 我們設定對立假設來表達這個狀況: H1: µ > 170 (安裝新系統) 虛無假設可以被表達成: H0: µ ≤ 170 (不安裝新系統) 或 H0: µ = 170 (實際上,檢定此虛無假設) 第11章 假設檢定的介紹 第383-384頁
範例11.1 一、 H0: µ ≦ 170 (假定此項為真) H1: µ > 170 (右尾檢定) 二、設定顯著水準 α=0.05 三、由樣本資料計算檢定統計量 已知: n = 400 , = 178 及 σ = 65 檢定統計量為: 第11章 假設檢定的介紹 第頁
範例11.1 四、拒絕域法 由上圖知,檢定的拒絕域為:{z > 1.645}。接下來的 作法:比較檢定統計量z=2.46與拒絕域的臨界值zα=1.645 因為z=2.46 > 1.645,落入拒絕域,所以,拒絕虛無假設H0。
範例11.1 四、p-值法 由上圖知,本檢定的p-值=P(z > 2.46)=0.0069。其次的作法是比較p-值與顯著水準α的大小。 因為本檢定的p-值=0.0069 < α=0.05,所以拒絕H0。
範例11.1 五、結論 因為 H1: µ > 170 獲得支持(因檢定的結果是拒絕H0)。因此,安裝新的收費系統是符合成本效益的。
標準化檢定統計量的意義
範例11.1的檢定統計量和p-值
描述 p- 值 比較 p- 值及顯著水準()的選擇值: 假如 p- 值小於,我們判斷 p- 值夠小去拒絕虛無假設。 例如: 當p- 值 = .0069 < = .05, 我們拒絕 H0 且支持H1。 第11章 假設檢定的介紹 第391頁
範例11.1 電腦軟體 鍵入或匯入資料到某欄。( 開啟Xm11-01) 計算 範例11.1 電腦軟體 鍵入或匯入資料到某欄。( 開啟Xm11-01) 點選增益集、 Data Analysis Plus,與Z-Test: Mean 第11章 假設檢定的介紹 第392頁
計算 範例11.1 第11章 假設檢定的介紹 第392頁
顯著性檢定方法概念的比較 以 P-值檢定時,研究者僅提供拒絕H0的證據強度,而由使用者自行決策 以固定顯著水準a 檢定時,研究者提出拒絕或不拒絕 H0的判決點(臨界點),使用者則僅檢驗資料作出決策 許多統計學家認為統計檢定的結果僅是使用者決策的參考之一 應由資料提供,比拒絕或不拒絕這種簡單結論,更多的資訊
開章範例 SSA 信封計畫 聯邦快遞(FedEx) 寄發票給顧客要求30天之內付費。 帳單上會列出付款地址,且期望顧客使用他們自己的信封寄回他們的付款。 目前,付清帳單所需時間的平均數與標準差分別是24 天與6 天。 財務長(CFO) 相信附上一個回郵 (stamped self addressed, SSA)信封會縮短付款時間。 第11章 假設檢定的介紹 第378頁
開章範例 SSA 信封計畫 她計算減短2 天的付款時間以改善現金流量,將能支付信封與郵票的成本。 若更進一步地減短付費時間,將會產生利潤。 為了測試她的想法,她隨機選取220 位顧客且隨著發票附上一個回郵信封寄出。 收到付款所需的天數被記錄下來。這位財務長是否能夠下結論說這項計畫是有利潤的? 第11章 假設檢定的介紹 第378頁
SSA 信封計畫 這項研究的目的是對平均付款時間推導結論。因此,要被檢定的參數是母體平均數 。 辨識方法 SSA 信封計畫 這項研究的目的是對平均付款時間推導結論。因此,要被檢定的參數是母體平均數 。 我們想知道是否存在足夠的統計證據以顯示母體平均數是少於22 天。因此,對立假設為 H1: μ < 22 虛無假設為 H0: μ = 22 第11章 假設檢定的介紹 第395頁
開章範例 – SSA計畫 一、 H0: μ ≧ 22 (假定此項為真) H1: μ < 22 (左尾檢定) 二、設定顯著水準 α=0.10 三、由樣本資料計算檢定統計量 已知: n = 220 , = 21.63 及 σ = 6 檢定統計量為: 第11章 假設檢定的介紹 第頁
開章範例 – SSA計畫 四、拒絕域法 由上圖知,檢定的拒絕域為:{ }。接下來的作法:比較檢定統計量z=-0.91與拒絕域的臨界值z0.10= -1.28 因為z=-0.91 > -1.28,未落入拒絕域,所以,不能拒絕虛無假設H0。 α=0.10 -1.28 -0.91
開章範例 – SSA計畫 四、p-值法 由上圖知,本檢定的p-值 p- 值 = P(Z < −.91) = 1 - P(Z > .91) =1 - .8186 = .1814 。其次的作法是比較p-值與顯著水準α的大小。 因為本檢定的p-值=0.1814 > α=0.10,所以不能拒絕H0。 P-值 -0.91
開章範例 – SSA計畫 五、結論 因為 H1: µ < 22 並未獲得支持(因檢定的結果是不能拒絕H0)。因此,實施SSA回郵信封計畫並無利潤,因而不可推行。
SSA 信封計畫 手算 拒絕域為: 由Xm11-00資料,我們計算出 和 p- 值 = P(Z < −.91) = 1 - P(Z > .91) =1 - .8186 = .1814 第11章 假設檢定的介紹 第395-396頁
SSA 信封計畫 電腦軟體 點選增益集、 Data Analysis Plus, 與 Z-Estimate: Mean 計算 第11章 假設檢定的介紹
計算 SSA 信封計畫 第11章 假設檢定的介紹 第396頁
雙尾檢定 雙尾檢定被用於當我們想要檢定參數不等於某些值 的研究假設。 第11章 假設檢定的介紹
範例11.2 近年來,數家公司已成立並投入與AT&T 長途電話的競爭。 AT&T 辯稱,平均而言,AT&T 對顧客的收費與其他公司並沒有差別。 假設一個替AT&T 工作的統計實作者認定該公司的居家客戶每月長途電話帳單的平均數與標準差分別是 $17.09 和 $3.87。 第11章 假設檢定的介紹 第397頁
範例11.2 他接著隨機抽取了100 位顧客為樣本,並使用一個首要競爭者的費率重新計算這些顧客上個月的帳單。 假設這個母體的標準差與AT&T 的相同,我們能否下結論說在5% 的顯著水準下,平均AT&T 帳單與首要競爭者之間存在著差異? 第11章 假設檢定的介紹 第397頁
範例11.2 一、 H0: µ = 17.09(假定此項為真) H1: µ ≠ 17.09(雙尾檢定) 二、設定顯著水準 α=0.05 三、由樣本資料計算檢定統計量 已知: n = 100 , = 17.55 及 σ = 3.87 檢定統計量為: 第11章 假設檢定的介紹 第頁
範例11.2 四、拒絕域法 由上圖知,檢定的拒絕域為:{z < -1.96 或 z > 1.96} 。 接下來的作法:比較檢定統計量z= 1.19與拒絕域的臨界值z-0.025= -1.96或z0.025= 1.96 因為z=1.19 > -1.96且z=1.19 < 1.96,未落入拒絕域,所以,不能拒絕虛無假設H0。 1.19
範例11.2 四、p-值法 由上圖知,本檢定的p-值 p- 值 = 2*P(Z > 1.19) =2*0 .1170 = 0.2340 。其次的作法是比較p-值與顯著水準α的大小。 因為本檢定的p-值=0.2340 > α=0.05,所以不能拒絕H0。 P-值 / 2 1.19
範例11.2 五、結論 因為 H1: µ ≠ 17.09並未獲得支持(因檢定的結果是不能拒絕H0)。因此,沒有充足的證據去推論AT&T 的帳單費率與競爭者的有差異。
計算 範例11.2 電腦計算 第11章 假設檢定的介紹
計算 範例11.2 第11章 假設檢定的介紹 第399頁
雙尾檢定與單尾檢定總整理 單尾檢定 (左尾) 雙尾檢定 (右尾) 第11章 假設檢定的介紹
假設檢定與信賴區間估計 範例11.2 LCL=16.79 和UCL=18.31。這個區間包含17.09,我們不能下結論說:有充分證據去推論母體平均數不等於17.09 。 範例11.1 LCL=171.63 和UCL=184.37。這個區間不包含170,我們可以下結論說:有充分證據去推論母體平均數不等於170。
11.3 計算犯型 II 錯誤的機率 了解型 I 與型 II 錯誤之間的關係非常重要。也就是,如何計算犯型 II 錯誤的機率以及如何詮釋其結果。 回顧範例11.1 H0: µ = 170 H1: µ > 170 由於我們的樣本平均數(178)比拒絕域的臨界值(175.34)大,在5%的顯著水準下,我們拒絕 H0 且支持 H1 。 第11章 假設檢定的介紹 第405頁
計算犯型 II 錯誤的機率 一個型 II 錯誤發生於當一個錯誤的虛無假設不能被拒絕。 在範例 11 . 1 中,如果 不是小於 175.34(我們的臨界值),我們將不會拒絕虛無假設。如果我們不拒絕這項虛無假設,我們將不會裝置新的收費系統 。 因此,其發生的機率是型 II 錯誤的機率,它被定義為 β = P( x < 175.34 給定虛無假設為錯) 第11章 假設檢定的介紹 第405頁
範例 11.1(回顧) β = P( < 175.34 給定虛無假設為錯) 虛無假設為錯的情況只告訴我們平均數是不等於 170 。如果我們要計算 β,我們必須為 指定一個數值。假設當平均每月帳上金額是$180 時,則新收費系統所節省的錢變得十分具吸引力,這位經理將後悔沒有裝置新系統。 β = P( < 175.34, 給定 µ = 180), 因此… 第11章 假設檢定的介紹 第405頁
計算犯型 II 錯誤的機率
範例 11.1 (回顧) 原先的假說 新的假設 β = P(X < 175.34,給定 µ = 180) 第11章 假設檢定的介紹 第405.406頁 圖11.9
改變對 的影響 降低顯著水準 ,增加 的值,並且反之亦然。在範例11.1.中使用1%的顯著水準取代5%。 步驟 1: 拒絕域: 降低顯著水準 ,增加 的值,並且反之亦然。在範例11.1.中使用1%的顯著水準取代5%。 步驟 1: 拒絕域: 第11章 假設檢定的介紹 第406頁
改變對 的影響 步驟2:型 II 錯誤的機率是 第11章 假設檢定的介紹 第406頁
改變對 的影響
改變對 的影響 顯著水準 減少,增加 的值,並且反之亦然。 再次細看此圖。我們向右移動拒絕域的臨界值(減少 ) 表示在第二個圖的曲線下方有一個更大的面積 … (反之亦然) 。 第11章 假設檢定的介紹 第406.407頁 圖11.9 & 圖11.10
改變對 的影響
判斷檢定 一個統計的假設檢定有效地被顯著水準()與樣本大小(n)所定義,二者皆由統計實作人員所選定。 如果我們相信型 II 錯誤的成本比較高,而此機率太大,我們有兩種方法降低這個機率 增加 α 的值 和/或 增加樣本大小 n 第11章 假設檢定的介紹 第407頁
判斷檢定 例如,在範例11.1 中,假設我們將樣本大小 n 由400增加到1000 。 步驟 1: 拒絕域 第11章 假設檢定的介紹 第407-408頁
判斷檢定 步驟2:型 II 錯誤的機率是 第11章 假設檢定的介紹 第408頁
比較 在 n = 400 與 n = 1,000
比較 在 n = 400 與 n = 1,000 藉著增加樣本大小,我們降低了型 II 錯誤的機率。 n=400 175.35 173.38 第11章 假設檢定的介紹 第406.408頁 圖11.9 & 圖11.11
發展對統計概念的了解 以 n = 400 與 n = 1,000 計算型 II 錯誤的機率說明了一個極為重要的概念。 藉著增加樣本大小,我們降低了型 II 錯誤的機率。藉著降低型 II 錯誤的機率,我們使得這類的錯誤較少發生。 因此,就長期而言,較大的樣本容許我們製訂較佳的決策。此一發現正中應用統計分析的核心,並且印證了本書的第一句話,「統計學是從資料取得資訊的一種方法」。 第11章 假設檢定的介紹 第409頁
發展對統計概念的了解 貫穿本書,我們介紹各種在會計、財務、行銷、作業管理、人力資源與經濟學上的統計應用方法。 在所有這類的應用中,統計實作人員必須做決策,它涉及到如何將資料轉換為資訊。越多的資訊,就會有越好的決策。 缺乏資訊,則決策必須基於猜測、直覺與運氣。一位有名的統計學家W. Edwards Deming曾經說過:「缺乏資料,你只是另一個具有意見的人。」 第11章 假設檢定的介紹 第409頁
檢定的檢定力= (1 - ) 另一種表達檢定執行好壞的方法是報告它的檢定力(power):當虛無假設為假時,檢定引導我們拒絕虛無假設的機率。因此,一個檢定的檢定力是1 - 。 在一個特定的狀況下,當有一個以上的檢定可以被執行時,我們自然會偏好使用一個正確頻率比較高的檢定。 如果( 給定相同的對立假設、樣本大小與顯著水準) 一個檢定的檢定力高於第二個檢定,則說第一個檢定比第二個更具效率。 第11章 假設檢定的介紹 第409頁
Beta-mean工作簿
Beta-mean工作簿
Beta-mean工作簿
操作特性曲線 (operating characteristic (OC) curve)
操作特性曲線 (operating characteristic (OC) curve)
設定對立假設以定義型 I 和型II錯誤 型 I 錯誤的成本(代價)比較大 H0: µ = 170 H1: µ > 170
安裝沒有成本效益的新系統代價比較高
不安裝具成本效益的新系統代價比較高
11.4 後續學習 統計實作人員經常採用的統計方法 定義 計算 詮釋 測量最困難的部分(在現實生活中或是期末考時)是辨認正確的方法。 第11章 假設檢定的介紹 第414-415頁
後續學習 許多因素可用來辨認正確的方法,但是其中兩個因素特別的重要: 1. 資料的類型 區間、順序和名目 2. 問題的目的 第11章 假設檢定的介紹 第415頁
問題的目的 描述一個母體 比較兩個母體 比較兩個或更多母體 分析兩個變數的關係 分析兩個或更多變數的關係 第11章 假設檢定的介紹 第415-416頁
表11.3 統計推論的導覽:介紹每一種方法的章節 第11章 假設檢定的介紹 第表11.3頁
公式推導 各種因素決定我們感興趣的參數(例:母體平均數 )。 每一個參數有其「最佳」估計量(統計量)(如樣本平均數 。 每一個參數有其「最佳」估計量(統計量)(如樣本平均數 。 的抽樣分配可以表示為: 這個公式表示當σ為已知時μ的檢定統計量。 4. 使用一點點的代數,我們就能從抽樣分配導出信賴區間估計量。 第11章 假設檢定的介紹 第417頁