第十六章 無母數統計 陳順宇 教授 成功大學統計系
無母數方法 母體分配未知而且樣本數不是很大, 或我們想推論的是百分位數(如中位數) 就需要利用本章的無母數方法
無母數統計的優點有: 1.對母體的假設少, 不需要假設母體是什麼分配。 2.對小樣本資料,或是有偏斜分配的母體 做推論較合適。
3.可以分析分類資料或順序資料。 4.檢定時是以等級(Rank)為主要統計量,
無母數統計分析的缺點有: 1.檢定力較弱 判錯機率比已知母體分配判錯機率大。 2.對某些較複雜的模式如有交互作用的 多因子設計無法做檢定。
3. 處理方式不一, 無母數檢定查表的表格很多
16.1 中位數的符號檢定 符號檢定(Sign Test)是用來 檢定母體中位數是否等於某特定值, 它也可以用來檢定 16.1 中位數的符號檢定 符號檢定(Sign Test)是用來 檢定母體中位數是否等於某特定值, 它也可以用來檢定 兩組母體的中位數是否相等。
1.一組樣本的中位數檢定:
所謂“符號檢定” 以正號,負號的個數 當統計量做為檢定的基礎。
令 n'=n-S0 即n'表將資料中等於M0的資料去掉後的樣本數。
S+,S -,S0分別為 xi>M0 , xi<M0 , xi=M0 的個數
(1)左尾符號檢定
S+的抽樣分佈是二項分配,即 S+~B(n,0.5)
例16.1、 某投資者認為去年上市股票的 投資報酬率有一半以上不到8%, 為了證實他的說法, 隨機從上市股票中抽取10家, 得到下列的報酬率。 7.1, 13.5, 5.2, 4.2, 6.4, 10.3, 5.7, 5.4, 6.3, 7.5
試問在顯著水準a=0.05下, 此投資者的說法是否正確。
由題意知本題為檢定
因10家報酬率都沒有等於8的情況, 而大於8的有13.5、10.3兩個數據, 故S+=2 , S - =8。
無證據說去年上市股票投資報酬率有一半以上不到8%
(2)右尾符號檢定
棄卻域
例16.2、 某人懷疑台南市某路口中午12點的 噪音有一半以上的時間噪音超過70分貝, 隨機選15天,在該路口量測噪音, 結果得到下列數據 75, 58, 80, 73, 78, 68, 73, 75, 72, 70, 67, 77, 78, 74, 76
試問在顯著水準a=0.05下, 是否有足夠證據證明他的說法是對的。
有足夠證據說此路口噪音 有一半機會超過70分貝
3. 雙尾符號檢定
棄卻域 S ≦ c
符號檢定(雙尾)
例16.3、 已知某年全國申報所得稅的 年收入中位數是72萬元, 某人想知道家電零售商申報所得稅 是否與全國人民收入中位數是否一致? 收集到8戶家電零售商的所得稅
資料如下(單位:萬元): 65, 78, 92, 80, 45, 58, 102, 83 試以符號檢定法檢定家電零售商的 所得稅申報中位數是否等於72萬元。
雙尾檢定
沒有證據說家電零售商的 所得稅申報中位數不等於72萬元
2. 二組成對資料中位數之比較 令 di=xi - yi 再以一組資料的符號檢定法做檢定, 其中M0=0。
例16.4、 政策經說明會後是否有正面效果 設20人參加說明會, 說明會前 問其對政策贊成度(0~5,5表非常贊成), 說明會後 再填一次贊成度,得到下列資料
試問此說明會是否有正面效果?
di = xi - yi -2 -2 0 1 -2 -1 2 2 0 1 0 -2 -1 -2 -3 -1 1 3 1 0
左尾檢定
尚無證據說說明會有效果
16.2 符號等級檢定 以符號檢定中位數問題時, 只考慮正負號個數, 不討論數值大小, 此種方式簡單但有損失資訊的遺憾,
威爾卡森(Wilcoxon) 提出一種不但考慮符號 也考慮等級(大小)的檢定法,稱為 符號等級檢定(Sign Rank Test), 又稱威爾卡森檢定(Wilcoxon Test), 它也是用來檢定中位數等於某數M0問題。
例16.5、(例16.1續) 試求例16.1資料的T +,T -
(1)左尾的符號等級檢定
例16.6、(例16.1續) 試以符號等級檢定法做檢定 是否有一半以上股票上市公司 投資報酬率不到8%。
【解】 由例16.5算出T+=15.5, 查附表8,W10,0.05=11, 因 11<15.5 所以H0不顯著, 即沒有證據說有一半以上股票上市公司投資報酬率不到8%。
(3)雙尾符號等級檢定
例16.7、(例16.3續) 試以符號等級檢定法, 檢定家電零售商申報 所得稅中位數是否為72萬。
本數n大時
例16.8、(例16.4續) 以符號等級檢定法, 檢定說明會是否有效果。
如查表 n = 16, = 0.05單尾得 W16,0.05 = 36, 因 T + = 53.5 > 36, 故H0不顯著, 即無證據說說明會有效果
如以常態分配求P值
P值的近似值
沒有證據說說明會有正面效果
16.3 兩組獨立樣本之檢定問題( M-W 檢定) 兩組有相同的分配形狀且獨立的母體,本節將檢定其分配是否相等問題
圖16.1 兩組相同分配形狀 但中心點不同之母體
檢定
M-W Mann與Whitney(M-W)提出 U統計量 Tx= x 組資料在混合排序後的等級和 Ty= y 組資料在混合排序後的等級和
在小樣本(n2 10且n1 n2 )
當n1 , n2大時
z~N(0,1)
左尾檢定
例16.9、 某公司有A , B兩條生產線生產啞鈴, 目標值是12磅, 公司老板想知道兩生產線 產品重量有無差異, 隨機由A、B線各抽 n1=9,n2=10個產品,
量測其重量(單位:磅) 8.08 8.05 7.93 7.98 8.12 8.04 8.11 8.07 7.95 8.03 8.13 8.02 7.96 7.99 7.88 8.14 8.06 7.81 7.91
試利用M-W檢定A生產線的平均重量 是否大於B生產線的平均重量, (假設兩生產分配形狀相同)
因0.2001>0.05 沒有證據說A生產線的平均重量 大於B生產線的平均重量
例16.10、再以例16.9做說明, 試以常態分配近似值檢定A生產的 平均重量是否大於B生產(右尾)
16.4 三組以上母體之比較 (K-W檢定) 在無母數方面與一因子變異數分析類似的檢定方法是 K-W檢定(Kruskal-Wallis Test), K-W檢定不需要假設母體是常態分配, 適用於非常態母體或樣本數不大的資料,
1.多組獨立樣本的K-W檢定
K-W
例16.11、 統味公司生產A、B、C三種口味的水餃, 經理想知道這三種口味水餃的 銷售量有無差異? 隨機各選7個銷售商店
銷售一個月後,得到其銷售量資料如下(單位:百包)
檢定三種口味水餃銷售量有無顯著差異?
三組資料混合排序後算出等級
2. 多組相關樣本的FR檢定
例16.12、(例16.11續) 再以水餃口味為例, 如果三種口味都在同樣的7個商店銷售, 試問三種口味銷售量是否有顯著差異?
三種口味水餃銷售量 有顯著不同
圖16.3 無母數位置的檢定
隨機性檢定(連檢定) 一組資料如果是隨機排列 則它應是很亂的次序, 當資料有“圖案”排列, 如一直上升 或一直下降 或有系統的上升下降交互排列, 就表示資料沒有隨機性。
下列三組資料的排列 (1) 3, 5, 6, 7, 13, 15, 20, 21, 23, 30, 32, 25, 19, 17 (2) 5, 3, 7, 6, 15, 13, 23, 21, 17, 20, 25, 19, 32, 30 (3) 23,13, 15, 17, 3, 5, 32, 7, 20, 25, 6, 20, 23, 21
第一組資料 此排列是前11個數據愈來愈大的現象,而後3個數據下降, 因此不是“隨機”的排列;
第二組資料 有規則(或稱圖案)地幾乎是 一大一小排列, 也不是“隨機”;
第三組資料 可能是隨機的
隨機性 隨機性要求在很多統計分析方法中 是 一項很重要的假設條件, 例如我們常說隨機取樣 意思是資料間沒有任何趨勢或圖案
t檢定, F檢定, ANOVA 迴歸分析 都有隨機性假設。 如何檢查一組資料的隨機性呢?
例16.13、設n1 =2,n2 =4, 試求R的分配
P(R=2)= 0.1333 P(R=3)= 0.2667 P(R=4)= 0.4 P(R=5)= 0.2
連數的機率, 分成偶數與奇數
連檢定的虛無假設與對立假設
第一組數據排列 3, 5, 6, 7, 13, 15, 20, 21, 23, 30, 32, 25, 19, 17 上升以1表示,下降以0表示 1 1 1 1 1 1 1 1 1 1 0 0 0
連數R=2 (10個1連在一起為第1連, 3個0連在一起為第二連), 查表n1=3,n2=11, 得 P值=0.007<0.025, 故顯示此數列不是隨機的
第二組資料 5, 3, 7, 6, 15, 13, 23, 21, 17, 20, 25, 19, 32, 30 0 1 0 1 0 1 0 0 1 1 0 1 0
此組資料排列也不是隨機的 有6個1 (n1=6),7個0 (n2=7), 連數R=11, 查表得P(R6,711) = 0.992, 因此連數太多, 其P值為 1 P(R6,711) = 10.992 = 0.008 < 0.025,
第三組 0 1 1 0 1 1 0 1 1 0 1 1 0 有5個1(n1=5),8個0 (n2=7), 而連數R = 9, 查表得P(R5,89) = 0.902, P值 = 0.092 > 0.025, 所以此組資料是隨機的。
例16.14、 設有一組12筆的資料如下: 0.2, 0.5, -0.3, -0.5, -0.8, 1.2, 0.7, 0.2, 1.6, 0.9, 0.8, -0.3 (1)試以此組資料的正負號 做隨機性連檢定(a=0.05)。 (2)試以此組資料上升、下降做判斷, 做隨機性連檢定(a = 0.05)。
2. 大樣本的連檢定 (n1 >10 , n2 >10)
當連數為 R=r 時, 其P值為 P(|z| |z*|)
例16.15、 設某次會議依到達會場時間先後簽名,共有18位男生,14位女生出席, 資料如下(男生以M,女生以F表示): M M M M M M F F F M M M M M F FF F F M M F F F M M M M M F F F 試問到達會場男女生次序是否隨機?
n1 =18 , n2 =14
16.6 K-S檢定 我們常假設一組資料 來自“某種分配的母體”, 對於這樣的說法,如何驗證,
樣本分配函數
檢定
Kolmogorov-Smirnov 檢定統計量
棄卻域為 D > c c =Dn,a
例16.16、 隨機從班上抽出12位學生的考試成績,得到下列資料: 68, 53, 64, 75, 46, 57, 85, 70, 65, 69, 82, 72 試利用K-S檢定此組資料是否常態分配?
平均數為 67.1667, 標準差是11.2882
將資料依大小排序 46 53 57 64 65 68 69 70 72 75 82 85
圖16.5 樣本分配函數與 理論分配函數圖
無證據說此組資料不是常態分配
第十六章 摘要
1. 了解使用無母數統計的時機與優缺點
2. 學習一組或兩組相關資料的 符號檢定、 符號等級檢定, 並了解小樣本查表與大樣本的近似值之檢定公式
3. 學習二組或多組獨立樣本的 M-W檢定法與K-W檢定法, 並與一般t檢定、ANOVA做比較
4. 了解資料隨機性的重要與 如何利用連檢定檢查資料是否有隨機性
5. 了解資料常態性的重要與 如何利用各種統計方法(包括圖解與分析), 檢查一組資料是否取自常態分配母體 尤其要明瞭圖解的常態機率圖與分析的K-S檢定之優點