8.1 卡方適合度檢定 8.2 列聯表 8.3 順序統計量 8.4 百分位數之分配無關信賴區間 8.5 Wilcoxon 檢定 8.6 連串檢定與隨機性檢定 8.7 Kolmogorov-Smirnov 適合度檢定 8.8 重抽樣方法
8.1 卡方適合度檢定 我們現在考慮非常重要的卡方統計量之應用,首先在 1900 年由 Karl Pearson 所提出。如同讀者將會看到的,它是一個適應性很強的檢定統計量而且可用於許多不同種類的檢定上。尤其,其中一個應用容許我們檢定相異的機率模型之適合性,且在此意義下,是Kolmogorov-Smirnov 檢定的一個競爭對手。
Pearson 於是製作一個類似 (式 8.1-1)的式子,以 表示,其中包含 ,且 ,定義為 就像我們論證 具有近似的 分配一般,他論證 近似具有一個自由度為 k - 1 的卡方分配。我們接受 Pearson 的結論,因為證明 超過本書之水準。
現在我們要呈現我們如何利用 近似 這個事實檢定相異的結果之機率的相關假設。令一個實驗具有 k 個互斥且周延的結果 。我們想要檢定是否 等於一個已知數 。也就是說,我們想要檢定假設
為了檢定這樣一個假設,我們將選取一組大小為 n 的樣本;也就是我們獨立地重複此實驗 n 次。我們傾向支持 若 被觀察到出現的次數 與當 為真時 被期望出現的次數 是近似相等的,亦即,當 是「小的」,我們傾向支持 ,因為 的分配近似 ,我們將棄卻 若 ,其中 a 為檢定之顯著水準。
範例 8.1-2 隨機地丟擲 4 枚硬幣,令 X 表正面出現的數目。假設此 4 枚硬幣是互相獨立的且每枚硬幣出現正面的機率為 1/2,X 具有分配 b(4, 1/2)。此實驗重複進行 100 次並觀察到產生 0, 1, 2,3 和 4 個正面的次數分別為 7, 18, 40, 31 和 4。這些試行結果支持假設嗎?也就是說,b(4, 1/2) 是 X 分配之合理模型嗎?要回答此問題,首先我們令 和 。若 當 X 具有 b(4, 1/2) 時,則
8.1-2 (續) 範例 在近似 a = 0.05 之顯著水準下,虛無假設 被棄卻若 的觀察值大於 。若我們使用分別產生 被棄卻若 的觀察值大於 。若我們使用分別產生 的觀察值 之實驗的 100 次試行,則 的計算值為 因為 4.47 < 9.488,假設不被棄卻。亦即,資料支持 b(4, 1/2) 是 X 的一個 合理之機率模型的假設。還記得一個卡方隨機變數的平均數就是它的自由度。在此範例中,平均數為 4 且 的觀察值為 4.47,只比平均數稍大。
範例 8.1-3 令 X 表由鋇 133 在 0.1 秒內放射出的 a 粒子數目。下列是在一個定點以蓋格計數器所取得之 X 的 50 個觀測值: 實驗者想要確定 X 是否具有一個卜瓦松分配。為了檢定 : X 具有卜瓦松分配,我們首先以 50 個觀測值的樣本平均數 來估計 X 的平均數 。然後我們將此實驗的結果集合分割為 ,和 。(注意到 我們將 {0, 1, 2, 3} 結合在一個集合 以及 {8, 9, 10, …} 結合在另一集合 使得當 為真時每個集合的期望結果數目至少為 5。)
範例 8.1-3 (續) 在表 8.1-1 中,資料被分組並且由 X 具有一個平均數 之卜瓦松分配的假設所指定的估計之機率被給出。因為一個參數被估計, 具有一個近似的自由度為 r = 6 - 1 - 1 = 4 之卡方分配。而且,因為 所以 不被棄卻在 5% 顯著水準下,也就是說,只依這些資料我們非常樂於接受 X 具有一個卜瓦松分配之模型。
表 8.1-1:分組的蓋格計數資料
現在讓我們考慮一個連續型隨機變數 W 的分配模型之檢定假設的問題。 也就是說,若 F(w) 是 W 的分配函數,我們希望檢定 其中 是某個已知的連續型分配函數。在 8.7 節中,我們將使用 一個 Kolmogorov-Smirnov 檢定來檢定 。而且,我們已考慮過使用 q-q 圖來處理這種問題。為了利用卡方統計量,我們必須將 W 的可能值集合分割成 k 個子集合。可行的方法之一為:利用點 將區間 [0, 1] 分割成 k 個集合,其中
令 ,且 ;以及 。令 表 W 的觀察值屬於 的次數, ,在 n 次獨立的重複實驗中。則 具有一個以 為參數的多項分配。 而且令 當 W 分配函數 時。我們真正要檢定的 假設是 的一個修正,叫做 此假設將被棄卻若卡方統計量 的觀察值至少等於 。若假設 ,不被 棄卻,我們就不棄卻 。
8.1-4 範例 範例 3.3-3 提供了 105 個打給 911 的電話間隔時間之觀察值。而且也給出 這些資料的一個直方圖,附帶將 = 20 之指數 p.d.f. 重疊其上。我們現在 要使用卡方適合度檢定來看看是否這是資料的一個適當模型。換言之,如果 X 等於打到 911 之電話間隔時間,我們將檢定 X 的分配是平均數為 = 20 之指數分配的虛無假設。表 8.2-1 將資料分成 9 組並給出它們的機率和期望值。利用這些次數和期望值,這卡方適合度統計量為
8.1-4 (續) 範例 表 8.1-2:打到 911 之電話間隔時間的摘要 結合此檢定的 p 值為 0.7905,這表示此機率模型很適合。注意到我們 假設我們知道 = 20。我們亦可令 來執行此檢定,記得我們會損失 1 個自由度。對此範例而言,結果大致相同。
8.2 列聯表 假設 2 個互相獨立的實驗當中的每個可以產生 k 個互斥且周延事件 其中之一。令 8.2 列聯表 假設 2 個互相獨立的實驗當中的每個可以產生 k 個互斥且周延事件 其中之一。令 具有近似的卡方分配且自由度為 k - 1 + k - 1 = 2k - 2
8.2 列聯表 (續) 通常 ,是未知的,而我們希望檢定假設 也就是說, 為結合這 2 個實驗之對應的機率相等之假設。在 8.2 列聯表 通常 ,是未知的,而我們希望檢定假設 也就是說, 為結合這 2 個實驗之對應的機率相等之假設。在 具有一個近似的卡方分配且自由度為 2k - 2 - (k - 1) = k - 1。此處 k - 1自2k - 2 中減去,因為它是被估計的參數之數目。而檢定 之棄卻域則形如
範例 8.2-1 為了檢定 2 種教學法,從 2 群學生中各自隨機選取 50 個學生。到學期末每個學生被一支評分隊伍評定一個等級分數(A, B, C, D 或 F)。資料被記錄如下: 依上表,若對應之機率是相等的之假設 為真,則個別的機率估計值為
8.2-1 (續) 範例 所以 的估計值分別為 6,11, 15, 13 和 5。因此,計算出 Q 值為 當 為真時,Q 有一個近似的卡方分配具自由度 k - 1 = 4,所以 a = 0.05 之棄卻域為 。此處 q = 5.18 < 9.488,所以在顯著水準 5% 下不棄卻 。而且,q = 5.18 的 p 值為 0.268,它大於多數的顯著水準。因此以這些資料而言,我們不能說這 2 種教學法有差別。
我們有興趣於檢定假設 對於所有 x。此假設將被另一個 取代。將數線分割成 k 個互斥集合 。令 且 我們觀察到若 F(x) = G(x) 對於所有 x,則 。我們以限制較輕的假設 取代假設 對於所有 x。也就是說,我們現在必然有興趣於檢定 2 個多項分配之相等性。
令 和 分別表 U 和 V 的獨立觀測數目。對於 ,令 我們進行如前所述之 的檢定。當然,若在近似的顯著水準 a 之下 被棄卻,則以相同的機率 被棄卻。然而若 為真,則 不必為真。所以,若 被接受,可能的較佳說法為我們不棄卻 勝過說 被接受。
8.2-2 範例 各自從 2 個可比較的大廠牌模型中隨機選取 20 輛汽車。所有的 40 輛車被 委以加速的壽命檢定;也就是說,在短時間內它們在非常糟的路上被行駛 許多哩,而且它們的故障時間(以週為單位)被記錄如下: 如果我們使用 23.5, 28.5 和 34.5 為分割點,恰有 40 輛車的 1/4 落入所產生的 4 個集合中的每一個。所以,資料可摘要如下:
8.2-2 (續) 範例 每個 的估計值為 10/40 = 1/4,將它乘以 = 20 得 5。所以,計算的 Q 為 並且其 p 值為 0.0028。所以看起來,這 2 種品牌汽車在加速的壽命檢定下具有不同的壽命長度分配。品牌 U 似乎優於品牌 V。
接著讓我們假設一個隨機實驗產生一個可依 2 個相異的屬性,比如身高和體重,來被分類的結果。假設第一個屬性被指派到 k 個互斥且周延的 事件,設為 當中的唯一一個,以及第二個屬性落入 h 個 互斥且周延的事件,設為 當中的唯一一個。令 的機率定為 具有一個近似的自由度為 kh - 1 的卡方分配,給定 n 夠大。
假設我們想要檢定屬性 A 和 B 之獨立性的假設,就是, 具有一個近似的自由度為 kh - 1 - (k + h - 2) = (k - 1)(h - 1) 之卡方分配,當 為真時。假設 被棄卻若此統計量的計算值超過
8.2-3 範例 取自 University of Iowa 的一組隨機樣本中的 400 名大學生依照學生就讀 學院及他們的性別來被分類。結果被記錄在表 8.2-1 中,稱為一個 k x h 列聯表(contingency table),在本例中,k = 2 且 h = 5。偶然地,這些 資料真的反應了在 Iowa 的大學學院之組成,但它們被微調以使得在本例 中的計算更容易。 表 8.2-1:University of Iowa 之大學生
範例 8.2-3 (續) 我們想要檢定 且 ,即學生就讀學院獨立於學生性別。在 之下,機率的估計值為 以及
範例 8.2-3 (續) 期望數目 被計算如下: 等等。這些值被記錄在表 8.2-1 的括號內。計算的卡方統計量為
8.2-3 (續) 範例 因為自由度等於 (k - 1)(h - 1) = 4,這個 ,我們 棄卻 在 a = 0.01 顯著水準下。而且,因為 q 的首 2 項來自商學院,接著 2 項來自工學院,等等,明顯就讀工學院與護理學院比其它的學院人數和 學生性別有更高的相關性,因為它們對卡方統計量的值貢獻最多。也是有趣的是注意到有個期望數目小於 5,就是 4.75。然而,因為在 q 中的相關項 並沒有貢獻異常的數量給卡方值,它不令我們憂心。
8.2-5 範例 對於某種工作的 2 組工人具有相同的條件。他們的薪水經歷被下列的一個 2 x 5 列聯表所摘要,其中每個薪水範圍之上界不包含在該陳列中: 要以這些資料在 0.05 顯著水準下檢定組別薪水看來是否獨立的,我們計算 而且,p-值為 0.313。所以,依這些有限的資料來看,組別與薪水似乎是 獨立的。
8.3 順序統計量 順序統計量(order statistics)就是隨機樣本的觀察值依照大小從最小排到最大。 8.3 順序統計量 順序統計量(order statistics)就是隨機樣本的觀察值依照大小從最小排到最大。 假若 是一組大小為 n 的隨機樣本觀察,來自於一個連續 型態的分配,我們令隨機變數 表示那組樣本的順序統計量。也就是說,
(續) 8.3 順序統計量 的 p.d.f. 為 值得一提的事為最小的順序統計量之 p.d.f. 為 而最大的順序統計量之 p.d.f. 為
範例 8.3-3 回到範例 8.3-2 中,我們現在畫出順序統計量 的 p.d.f. 之圖形,它們都是取自一個分配具 p.d.f. f(x) = 2x, 0 < x < 1。這些圖形展示在圖 8.3-1 中。個別的 p.d.f. 和它們的平均數如下所示:
範例 8.3-3 (續) 圖 8.3-1:順序統計量的 p.d.f.,f(x) = 2x, 0 < x < 1
記得在定理 5.1-2 中,我們曾證明若 X 有一個連續型態的分配函數 F(x),則 F(X) 會有一個均勻分配在 0 到 1 的區間中。假若 是 n 個獨立觀察值 的順序統計量,則 因為 F 是一個非遞減函數而且等號成立的機率為零。請注意這個排序 可以被視為是相互獨立隨機變數 的一個排序,其中的每一個都是 U(0, 1)。也就是說, 可以想成是 n 個獨立觀察的順序統計量,而那些觀察是從均勻分配而來。因為 U(0, 1) 的分配函數為 G(w) = w, 0 < w < 1,第 r 個有序統計 的 p.d.f. 為
若我們記得第 (100p) 個百分位 就是使得 f(x) 曲線下在 左方的 面積為 p 之值,則前述的討論暗示我們可以令 為 的一個估計量,其中 p = r / (n + 1)。就是因為這個理由,我們定義樣本的第 (100p) 個百分位數為 ,其中 r = (n + 1)p。若 (n + 1)p 不是一個整數,我們使用兩個 相鄰順序統計量 和 的一個加權平均(或是一個平均),其中 r 是在 (n + 1)p 中的最大整數 [ (n + 1)p ]。特別的是,樣本中位數為 當 n 是奇數, 當 n 是偶數。
範例 8.3-5 令 X 等於在一個標示為「1000 公克」的瓶子中肥皂的重量。一組隨機樣本,含有 X 的 n = 12 個觀察值,量測出重量並排序如下: 因為 n = 12 是偶數,樣本中位數為 因此,使用一個加權平均,我們發現第一個四分位數為
8.3-5 (續) 範例 類似的,第 75 個百分位數(即第三個四分位數)為 因為 (12 + 1)(0.75) = 9.75。因為 (12 + 1)(0.60) = 7.8,第 60 個百分位數為
8.4 百分位數之分配無關信賴區間 在 8.3 節中,我們利用順序統計量來定義樣本百分位數,且注意到樣本 8.4 百分位數之分配無關信賴區間 在 8.3 節中,我們利用順序統計量來定義樣本百分位數,且注意到樣本 百分位數可以被用來估計對應的分配百分位數。在這一節中,我們使用 順序統計量來為未知的分配百分位數建立信賴區間。因為在建立這些信賴區間的過程中,我們對於潛在的分配幾乎沒有做任何的假設(除了它是 連續型之外),它們通常被稱為是分配無關信賴區間(distribution-free confidence intervals)。
8.4 百分位數之分配無關信賴區間 (續) 令 是結合一組大小為 n 之隨機樣本的順序統計量, 8.4 百分位數之分配無關信賴區間 令 是結合一組大小為 n 之隨機樣本的順序統計量, 每一個觀察值均來自一個連續的分配,考慮 ,其中 i < j。舉例來說,我們可能希望
8.4-1 範例 一種特殊品種的魚(非洲奈氏鱈,nezumia)自美國東北部海岸捕獲 n = 9 條 ,魚身長度的公分數為 32.5, 27.6, 29.3, 30.1, 15.5, 21.7, 22.8, 21.2,和 19.0。因此,觀察到的順序統計量為 在樣本取得之前,我們知道 從附錄的表 II 可得此答案。因此,m,該種特殊品種魚所有魚身的中位數,的信賴區間 ( = 19.0, = 30.1),有一個 96.1% 的信賴係數。
表 8.4-1:m 的信賴區間的資訊
以上的這個論述可以被用來求出一個連續分配之中位數 m 的一個信賴區間。相同的論述可以被套用到任何的百分位數 。在這個情況中,我們說一個單一試行是成功的假若 X 小於 。因此,每一次獨立試行的成功機率為 。於是,以 i < j,1 - a = 是最少必須有 i 次成功,但是要少於 j 次成功的機率。因此, 一旦樣本已被觀察,且順序統計量已被決定,已知的區間 就可以當做是未知的分配百分位 的一個 100(1 - a )% 信賴區間。
8.4-2 範例 令以下的數字代表在一個特定的母體中 n = 27 個人之收入的隨機觀察值(單位是一百美元)的順序統計量: 假設我們對於估計母體的第 25 個百分位0.25 感興趣。因為 (n + 1)p = 28(1/4) = 7,第 7 個順序統計量,即 = 283,會是 的一個點估計。為了要求出 的一個信賴區間,讓我們以 為中心往上和往下移動到一些順序統計量上 — 譬如說,到 和 。 所伴隨的信賴係數為何?在樣本被取出之前,我們有
範例 8.4-2 (續) 以上的數值是用 Minitab 計算出來的。對於常態近似,我們使用 W,它是 b(27, 1/4) 具平均數 27/4 = 6.75 和變異數 81/16。因此, 所以, 是 的一個 82.01%(或近似 81.49%)信賴區間。請注意我們也可以選擇其它的區間,像是 ,而它們會有不同的信賴係數。研究人員必須選擇想要的信賴係數,然後取得適當的順序統計量,一般來說它們都是對稱於第 (n + 1)p 個順序統計量。
8.5 Wilcoxon 檢定 符號檢定的一個主要的缺點就是它並沒有考慮到差 的大小。我們現在討論一個 Wilcoxon 檢定(Wilcoxon test),它有考慮到差 的大小。然而,除了假設隨機變數 X 是連續的之外,我們也必須假設 X 的 p.d.f. 是對稱於中位數,如此才能求出這個新統計量的分配。因為有連續性的假設,所以在往後的討論中,沒有兩個觀察值是相等的,而且沒有觀察值等於中位數。
8.5 Wilcoxon 檢定 (續) 我們感興趣於檢定假設 ,其中 是某給定的常數。以我們的隨機樣本 ,我們對絕對值 我們感興趣於檢定假設 ,其中 是某給定的常數。以我們的隨機樣本 ,我們對絕對值 排序,以大小遞增的順序來 排。也就是說,對於 , 我們令 表示 在 之中的排名。請注意 是首 n 個正整數,1, 2, …, n 的一個排列。 現在,對於每一個 ,我們把差 的符號結合它;也就是說, 假若 > 0,我們使用 ,但是假若 < 0,我們使用 。Wilcoxon 統計量 W 就是這 n 個符號排名的總和。
8.5-2 範例 假設 n = 10 條棘臀魚的長度為 我們將檢定 相對於對立假設 。因此,我們有 所以,Wilcoxon 統計量等於 我們將檢定 相對於對立假設 。因此,我們有 所以,Wilcoxon 統計量等於 順便說一句,此一正的答案看起來似乎合理,因為這 10 個長度中小於 3.7 的個數是 3,它是使用在符號檢定中的統計量。
當 為真時, 因此,一個負號配給 的排名 的機率為 1/2。而且,這 n 個符號指派是獨立的,因為 是相互獨立的。除此之外, W 是一個總和,運算元包含整數 1, 2, …, n,但是每一個都有一個正的 符號或是負的符號。因為潛在的分配是對稱的,直覺地來想,似乎 W 和以下的隨機變數有相同的分配
其中 是獨立的而且 也就是說,V 是一個包含整數 1, 2, …, n 的和,而且這些整數會藉由獨立的符號指派而收到它們的代數符號。
幸運的是,然而,就算 並非具完全相同分配的隨機變數, 它們的和 V 仍然有一個近似的常態分配。為了獲得 V(或 W)的這個常態近似,我們可以使用由李亞普諾夫(Liapounov)所提出之中央極限定理的一個更為廣泛的型式,使得以下的標準化隨機變數 會在當 為真時近似 N(0, 1)。我們接受這個定理而不去證明它;因此 我們可以使用這個常態分配來近似一些像是 的機率,當樣本大小 n 夠大時。下一個範例說明這個近似。
範例 8.5-3 W 或 V 的動差生成函數為 使用一個電腦代數系統(computer algebra system, CAS)像是 Maple,我們可以展開 M(t) 並求出 的係數,它會等於 P(W = k)。在圖 8.5-1,我們已經繪出 W 的分配的一個機率直方圖,而且和它畫在一起的是近似的 之 p.d.f.,左方是 n = 4(一個不太好的近似) 而右方是 n = 10。有件重要的事就是請注意在機率直方圖中的矩形寬度 為 2,所以「連續性的半單位修正」現在變成一個單位的修正。
圖 8.5-1:Wilcoxon 分配
8.5-4 範例 令 m 為一個連續對稱分配的中位數。為了檢定假設 相對於 對立假設 ,我們取得一組大小 n = 16 的隨機樣本。在一個近似的顯著水準 a = 0.05 之下, 被棄卻當計算出的 W = w 使得 即
範例 8.5-4 (續) 表 8.5-1:和 160 之間差的絕對值的排序
範例 8.5-5 我們考慮一些配對資料,它們是在學期初和學期末所量測之體脂肪百分比。令 m 等於差 x - y 的中位數。我們將使用 Wilcoxon 統計量來檢定虛無假設 相對於對立假設 。因為在這裡有 n = 25 個非零的差,我們棄卻 當 或,等價的說,當
8.5-5 (續) 範例 在一個近似 a = 0.05 顯著水準下。26 個差為 表 8.5-2 列出排序後的非零絕對值,原來是負的那些值我們有畫底線。 排名寫在每一個觀察之下。請注意在平手的情況下,我們給出那些平手 量測原來排名的平均。 表 8.5-2:體脂肪百分比之變化絕對值的排序
範例 8.5-5 (續) Wilcoxon 統計量的值為 因為 51 < 122.27,我們不棄卻虛無假設。這個檢定的近似 p-值為
由 Wilcoxon 所衍生出的另一個方法可檢定兩個連續分配的相等性,它使用了觀察值的大小。就這個檢定而言,我們假設個別的分配函數 F 和 G 有相似的形狀。為了要以該檢定繼續做下去,我們合併樣本組 和 並以遞增大小的順序做排列。指派 排名 給那些排序後的值。若有平手的情況,我們把先前伴隨於那些平手值的原來排名做平均後再指派給那些平手值。 令 W 等於 的排名和。假若 Y 的分配被移動到 X 分配的右方,那麼 Y 的值會傾向大於 X 的值,而 W 通常會大於當 F(z) = G(z) 時的預期。若 和 為個別的中位數,則檢定 相對於 的臨界域型式為 。同理,若對立假設為 ,則臨界域的型式為 。
近似 N(0, 1)。
範例 8.5-6 A 公司和 B 公司都有製造肉桂香料罐頭,各隨機選擇出 = 8 和 = 8 罐,並量測其內容物重量,得到以下的 X 和 Y 之觀察值: 檢定 相對於 的臨界域型式為 。 因為 ,在一個近似 a = 0.05 的顯著水準下,棄卻 當 即
範例 8.5-6 (續) 表 8.5-3:肉桂重量的背對背莖葉圖 數值均乘以
範例 8.5-6 (續) 表 8.5-4:合併排序後的樣本
8.6 連串檢定與隨機性檢定 假設隨機變數 X 和 Y 為連續的,而且分別有分配函數 F(x) 和 G(y),在這個前提下,我們描述另一個可以檢定假設 的檢定。 這個新的檢定也可以被用來做隨機性的檢定。在這兩種應用中,我們需要連串(runs)的概念,我們現在來定義之。 令隨機變數 R 等於在 個 X 的觀察值和 個 Y 的觀察值之結合排序中之連串數目。我們將求出當 時 R 的分配,然後描述一個可以 檢定 是否成立的檢定。
8.6 連串檢定與隨機性檢定 (續) 一個基於連串數的檢定可以被用來檢定假設 。該假設 8.6 連串檢定與隨機性檢定 一個基於連串數的檢定可以被用來檢定假設 。該假設 被棄卻當觀察到的連串數 r 太小。也就是說,臨界域的型式為 ,其中常數 c 被決定來產生想要的顯著水準,藉由使用 R 的 p.d.f.。連串檢定(run test)對於兩分配之所在位置的差異和兩分配之分散程度的差異都很敏感。
範例 8.6-1 令 X 和 Y 分別等於大一女生和大一男生的體脂肪百分比,具分配函數 F(x) 和 G(y)。我們將使用連串檢定來檢定假設 相對於對立假設 (也就是說,對立假設就是陳述 X 分配是在 Y 分配的右邊)。對 X 和 Y 各做 10 個觀察值,並排序如下
範例 8.6-1 (續) 臨界域的型式為 。為了決定 c 的值,我們使用公式(8.6-1)和公式(8.6-2),用 。在附錄中的表 I 對於估算這些機率非常的有用。我們有
8.6-1 (續) 範例 這 6 個機率的和為 9470/184,756 = 0.051,所以我們可以把我們的臨界域 定義為 ,在一個顯著水準 a = 0.051 之下。為了決定回合數,我們排序結合的樣本並在相鄰的 x 值和相鄰的 y 值下畫上底線: 我們看到回合數為 r = 6,所以我們棄卻虛無假設。請注意這個檢定的 p-值為
當 和 頗大時(譬如說,每一個至少等於 10),R 可以用一個常態分配的隨機變數來近似。也就是說,我們可以證明 近似於 N(0, 1)。檢定虛無假設 的臨界域型式為 ,其中 a 是想要的顯著水準。
範例 8.6-2 我們使用常態近似來計算範例 8.6-1 的顯著水準和 p-值。以 , 以臨界域 ,用連續性的半單位修正,近似的顯著水準為
8.6-2 (續) 範例 請注意這個值和在範例 8.6-1 中所給定的 a = 0.051,比較起來還算不錯。 因為 r = 6,近似的 p-值,在一個常態近似的假設下,為 它接近在範例 8.6-1 中所給定的 p-值。
8.7 Kolmogorov-Smirnov 適合度檢定 在這一節中,我們討論一個檢定,它考慮在一個假設的分配函數和一個 經驗分配函數之間的適合度(goodness of fit)。在這裡,經驗分配函數 是用它的順序統計量來給定的。令 為一組大小為 n 的 隨機樣本 的順序統計觀察值。當沒有兩個觀察值是相等時,經驗分配函數被定義為 在這個情況中,經驗分配函數在每一個觀察的發生處都有一個大小為 1/n 的跳躍。假若有 個觀察等於 ,那麼在 的發生處會有一個大小為 的跳躍。在任何的情況中, 就只是小於或等於 x 的樣本觀察值 佔全體觀察值的比例值。
8.7 Kolmogorov-Smirnov 適合度檢定 (續) 8.7 Kolmogorov-Smirnov 適合度檢定 因為經驗分配函數會收斂到理論分配函數,基於經驗分配函數 和 一個假設分配函數 的靠近程度來建立一個適合度檢定 ,是一個合理的做法。我們將使用 Kolmogorov–Smirnov 統計量,它被定義為 也就是說, 是所有的配對點差 的最小上界。
範例 8.7-2 對於一個具平均到達率 的卜瓦松程序,隨機變數 W,它代表等到第 a 個抵達所需的等待時間,有一個伽瑪分配。W 的 p.d.f.為 一個蓋格計數器(Geiger counter)被設定來記錄觀察到鋇 133 釋放出 = 100 個 a 粒子所需要的等待時間秒數 W。有人宣稱每一秒鐘的數量為 一個具 = 14.7 的卜瓦松分配,因此, = 0.068。我們將檢定虛無假設
範例 8.7-2 (續) 其中 f(t) 是伽瑪 p.d.f.,具參數 = 0.068 和 a = 100。基於 25 個觀察值,在 a = 0.10 之下, 被棄卻若 0.24。25 個觀察值的經驗分配函數和理論分配函數我們畫在圖 8.7-2 中。對於這些資料(習題 3.5-6), = 0.123, 因此 沒有被棄卻。 圖 8.7-2: :X 具有一個伽瑪分配
範例 8.7-3 來自於一個未知分配的一組大小為 n = 15 的隨機樣本產生樣本值如下:3.88, 3.97, 4.03, 2.49, 3.18, 3.08, 2.91, 3.43, 2.41, 1.57, 3.78, 3.25, 1.29, 2.57 和 3.40。現在, 我們將未知分配函數 F(x) 的一個 90% 信賴帶畫在圖 8.7-3 中。 圖 8.7-3:一個未知分配函數 F(x) 的一個 90% 信賴帶
8.8 重抽樣方法 雖然我們通常不知道基本分配,但是在這個示範中,我們指出它是柯西(Cauchy)型態的,因為第一次的示範,有一些基本的概念我們想要複習或介紹。柯西的 p.d.f. 為 其分配函數為
8.8 重抽樣方法 (續) 假若我們想要產生某些 X 值它們有這個分配,我們令 Y 具有均勻分配 U(0, 1) 然後定義 X 為 8.8 重抽樣方法 假若我們想要產生某些 X 值它們有這個分配,我們令 Y 具有均勻分配 U(0, 1) 然後定義 X 為 或相當於,
事實上,最大概度估計量可藉由極大化 而得,它是一個極好的估計量,但是它需要很難的數值方法方能計算出來。用一個高等的理論可證明出,在一個柯西分配的情況中,一個截尾平均數,其求法就是先排序樣本組,丟掉最小的 3/8 = 37.5% 樣本和丟掉最大的 3/8 = 37.5% 樣本,平均中間的 25%,它的效果幾乎和最大概度估計量一樣好,但是計算起來卻是容易許多。這個截尾平均數通常表示為 ;我們則使用 的簡化表示,在這裡 = 4.96。對於這組樣本,它的表現好像沒有中位數那麼好;但是,就大部分的樣本組而言,它會有較佳的表現。截尾平均數通常非常的有用,在許多時候,我們會使用一個較小的截尾百分比。舉例來說,在運動事件像是溜冰和跳水中,通常裁判們的最低分和最高分會被剔除。
(a) 截尾平均數的直方圖 (b) N(0, 1) 分位數對截尾平均數分位數
以上重抽樣程序被稱為是拔靴法(bootstrapping)。由此拔靴法,我們可以獲得有關於基本分配的某些概念,假若樣本組取自於經驗分配;並希望該樣本組是取自於基本分配,因為基本分配是由經驗分配來近似。若樣本組是取自於一種柯西型態的分配,則樣本平均數 的分配並不是常態,但是 的 近似分配卻是常態。從圖 8.8-1(a) 截尾平均數的直方圖我們可以看出正是 如此。這項推論也被圖 8.8-1(b) 的 q–q 圖所支持,其中縱軸是一個標準常態分配的分位數,橫軸是那 1000 個 值的分位數:該圖非常接近一條直線。
我們現在已經示範了拔靴法,它讓我們可以用大量的計算來取代高深的理論,來做出關於基本分配特性的統計推論。這個方法正變得愈來愈重要,因為我們會面臨一些並不滿足特定基本假設之複雜的資料組。舉例來說,考慮 的分配,其中隨機樣本組是來自於一個指數分配,該 分配的 p.d.f. 為 ,具平均數 = 1。一開始我們不用 重抽樣法,但是我們將模擬當樣本大小 n = 16 時 T 的分配,藉由從這個已知的指數分配取出 N = 1000 組隨機樣本。在這裡
所以 Y = F(X) 意味著 且 X 具有該給定的指數分配,具 = 1,只要 Y 有均勻分配 U(0, 1) 即可。使用電腦,我們選取 n = 16 個 Y 值,決定出對應的 n = 16 個 X 值,最後,計算 的值 ─ 譬如說, 。我們一次又一次地重複這個程序,所以不只獲得 ,而且也得到了 。我們已經完成 這些計算,並展示 1000 個 T 值的直方圖在圖 8.8-2(a) 中。 而且 y 軸是 N(0, 1) 分位數的 q–q 圖我們展示在圖 8.8-2(b) 中。直方圖和 q–q 圖都證明在這個情況中 T 的分配是往左邊偏移的。
(a) 1000 個 T 觀察值 (b) 縱軸:N(0, 1) 分位數;橫軸:T 分位數 圖 8.8-2:來自一個指數分配的 T 觀察值
在先前的示範中,我們已經知道基本分配。現在讓我們從平均數 = 1 的指數分配那兒取得樣本,但是把每一個 X 加上一個值 。因此,我們將嘗試估計該新的平均數 + 1。作者知道 的值,但是讀者在這個時候並不知道。這組隨機樣本的 16 個觀察值為
(a) 1000 個 T 觀察值 (b) 縱軸:N(0, 1) 分位數;橫軸:T 分位數 圖 8.8-3:來自一個經驗分配的 T 觀察值