第七章 抽樣與抽樣分配
所謂的抽樣,是指從一個母體中抽出一組樣本,利用此樣本來推估 母體特性的一種方法或程序,而我們所抽出的樣本是否能夠具體的 代表整個母體,與我們所使用的抽樣方法有關。一般而言,抽樣的 方法可以分為兩種,一種是隨機抽樣,另一種則是非隨機抽樣。由 隨機抽樣所抽出的樣本都具有隨機性,亦即每組樣本被抽出的機率 皆相同,而且所抽出的樣本是互相獨立的;至於非隨機抽樣則沒有 這個特性。在此我們僅介紹隨機抽樣的部分。 隨機抽樣所抽出的樣本,稱之為隨機樣本。常見的隨機抽樣方法有 簡單隨機抽樣法(Simple Random Sampling)、分層隨機抽樣法 (Stratified Random Sampling)、部落抽樣法(Cluster Sampling)以及 系統抽樣法(Systematic Sampling)。
7.1 常見的抽樣方法 在這一節中我們所討論的是隨機性的抽樣法,常見的有以下四種: 簡單隨機抽樣、分層隨機抽樣、部落抽樣以及系統抽樣,以下便將 這四種方法加以說明。
7.1.1 簡單隨機抽樣法 設從含有N個元素的母體中,隨機抽取個為一組樣本,而每一個樣本 被抽出的機會均相同,此種抽樣的方法,稱之為簡單隨機抽樣法; 而按此種方法所抽出的樣本,則稱之為簡單隨機抽樣樣本。在採用 此種抽樣方法時,依其抽取的樣本放回或不放回,又可分為抽樣放 回(sampling with replacement)與抽樣不放回(sampling without replacement)兩種。這兩者在抽樣的時候,樣本出現的機率並不相同。 當我們採取抽樣放回的方式時,每組樣本出現的機率為,而當我們 採用抽樣不放回的方式時,其每組樣本出現的機率則為,然而當母 體相當大的時候,兩者均可視為獨立的狀況,也就是說不管樣本放 回或是不放回,對於下一次抽取並不會造成影響。
7.1.2 分層隨機抽樣法 分層隨機抽樣法就是指將整個母體分成若干個不重疊之部份母體, 此部份母體稱之為層,每個層與層之間互相排斥。例如將班上個同 學的身高依160公分以下、160~170公分、170公分以上三種層次分 為三個不同的部份母體,而每個母體的個數分別為、與,然後在每 一層中各別抽取一簡單隨機樣本,其樣本數分別為、與。若將各層 的樣本數加總起來,便為總樣本。由上述的例子,我們不難看出層 內的變異較小,而層與層之間的變異則較大。然而當我們在採用分 層隨機抽樣法時,要如何來決定每一層內到底要抽出幾個樣本呢? 一般而言,最常用的方法是「比例配置法」,以下便加以說明。
【例7.1】 某個研究機構想要研究大學教育的問題,於是想要在台灣地區以隨 機抽樣法選取1200名大學生作為樣本。倘若已知全省大學各年級之 總人數及其學業平均成績的資料如下表所示: 試問倘若以分層比例抽樣法來選取樣本,則各年級應該抽取多少名 學生?
解: 首先我們先求出台灣地區大學生之總個數N N=25,000+21,000+18,000+16,000=80,000 令n1,n2,n3與n4分別表示依分層比例抽樣法所應該抽取之大一、大二、大三與大四的學生人數。則根據(7.1)式我們可以求出 因此,倘若以分層比例抽樣法來選取樣本時,則應該選取大一的 學生375位,大二的學生315位,大三的學生270位以及大四的學 生240位。
7.1.3 部落抽樣法 部落抽樣法是將整個母體依其標準分成若干個部落(部落內的每個元 素彼此間的差異較大,而部落與部落間的差異較小),然後任取數個 部落為隨機樣本,而被抽中之部落內的每個元素皆為調查的對象。 例如人口調查,以家庭為抽樣單位,被選中的家庭其全部成員皆必 須接受調查。採用部落抽樣法的誤差通常較大,然而因為可以就近 集中調查,可因此而省下不少的時間與調查費用,故此種抽樣法還 是有其可用之處。部落抽樣法與分層抽樣法看似相同,然而實際上, 兩者卻有很大的不同之處,茲將這兩種抽樣方法的差異列表如下:
7.1.4 系統抽樣法 將母體所有的元素依次排列,然後將其分成數個間隔,每隔若干元 素抽取一個,此種抽樣方法稱之為系統抽樣法。此種抽樣方法的優 點便是在使用時非常方便,只需隨機選取出第一個元素之後,每隔 若干個單位之後再抽取一個元素,以此類推,其餘的樣本元素便能 夠決定出來,一直到抽取了所需的樣本個數為止。然而採用此種抽 樣方法時,其所使用的資料應該避免有週期性的現象,否則將會造 成嚴重的偏差。例如在探討冷氣機平均每月的銷售數量時,倘若每 隔12個月抽取一個元素,則所得到的資料都是同一月份的資料,將 無法提供充分的情報,因此在採用此方法時必須加以注意。以下便 將此系統抽樣法的步驟加以說明:
(1) 首先先將所有的N個母體元素依序排列。 個數為 (若k為非整數,則取最接近的整數來代替)。 (3) 採用簡單隨機的抽樣方法從第一個區間的k個元素中,抽出 一 個元素,作為起始點。 (4) 由起始點算起,每隔k個單位抽取一個元素,即為樣本元素, 共取n個元素合成一組樣本。
7.2 抽樣分配 統計量乃為樣本內隨機變數的實數值函數,但此實數值函數不包含 未知參數。統計量本身亦為一隨機變數並以大寫字母表示,如樣本 平均數 ,樣本變異數 ,而以小寫字母表示統計量的計算值或觀察 值,如樣本平均數 ,樣本變異數 。舉個例子來說,假若我們從一 母體中隨機抽出一組樣本 ,則像 等皆為樣本內隨機變數的實數值函數,但這些實數值函數不包含未 知參數,這些皆可稱之為統計量。
但隨機變數並不是統計量,因包含未知參數。當我們在作資料分析 時,主要的目的便是利用統計量來推估母體的某些數值特徵,這些 母體的數值特徵稱為母體參數。一般在統計學上較常使用到的統計 量包含有樣本平均數、樣本變異數、樣本比例等。為了要充分地利 用樣本統計量來對母體的參數作估計,我們必須對每一種可能的樣 本作探討。倘若我們將所有可能的樣本組合都考慮進去,那麼統計 量的機率分配便稱為抽樣分配。
7.2.1 樣本平均數的抽樣分配 倘若我們從一個平均數為 ,標準差為 的母體中,隨機抽出一組 樣本 ,那麼樣本平均數 則為 倘若我們從一個平均數為 ,標準差為 的母體中,隨機抽出一組 樣本 ,那麼樣本平均數 則為 樣本平均數的抽樣分配之期望值與變異數如下: 期望值 變異數
一般來說,當我們在考慮樣本平均數 之抽樣分配的型態時,樣本 大小以及母體本身的分配型態都會影響此統計量之抽樣分配。當這 些因素處於不同的情況之下,則 的抽樣分配將會有所差異,以下 便加以探討在不同的特性因素下, 抽樣分配所呈現的各種型態。
自常態分配母體中抽樣時:
自非常態分配母體中抽樣時:
7.2.2 中央極限定理(Central Limit Theorem;C.L.T) 中央極限定理在統計學中相當地重要,該定理是指從一個具有平均 數與變異數的母體中抽取樣本數為的一組隨機樣本,其樣本平均數 為,則當n趨近無限大時時, 的分配趨近於標準常態分配。 因此,當我們不知母體的分配型態,或是母體本身並非常態分配, 只要樣本個數夠大,我們均可以將其樣本平均數之抽樣分配視為常 態分配,並且我們也可以利用此定理來求有關樣本平均數的某些機 率。
7.3 樣本比例的抽樣分配 在7.2節中我們談到了樣本平均數的抽樣分配,這一節我們將討論另 一種重要的樣本統計量,樣本比例(proportion)的抽樣分配。樣本比 例在統計學上應用也相當廣泛,他可用來推估某種特性(如性別,不 良品,成功)在整個母體中所佔的比例,其定義如下:
上面的(7.5)式中,Y代表不良品,成功或某種特性之觀測值所發生的 次數,例如成功的次數或者男性的人數等,而n則表示樣本的大小, 此時Y的機率分配,則相當於前面章節中所討論到的二項分配。假若 母體為有限母體且抽樣放回,母體比例為p的情況下,樣本比例 的抽樣分配之期望值 變異數
【例7.8】
解:
7.4 與常態分配有關之三種抽樣分配 常態分配在統計學的應用非常地廣泛,然而,除了常態分配之外, 另外還有三種相當重要的抽樣分配:卡方分配、t分配、F分配。我們 將在下面的各小節中分別一一加以介紹。
7.4.1 卡方分配 上面的(7.10)式表示卡方分配的機率密度函數。卡方分配是由“標準 常態”平方和所組成的分配,它主要是用來作適合度檢定,亦即檢定 資料是否符合某種分配,有時也用來求母體變異數的信賴區間與檢 定單一母體的變異數。至於卡方分配的圖形,則如以下圖7.2所示。 卡方分配為右偏的分配曲線,我們由圖中可以看出,當自由度r越大 時,其卡方分配所呈現的圖形會愈趨近於常態分配。
卡方分配的性質: 1.卡方分配之加法性:設X與Y皆為互相獨立之卡方分配,其自由度 各為 及 ,若一統計量 ,則Z為自由度 的卡方 分配。 2.若隨機變數X為具有自由度為r的卡方分配,則 (1)期望值 (2)變異數 . 3.卡方分配是右偏的分配曲線,隨著自由度的增加,其變異數也會跟著 增大。
4. ,其中r表示其自由度,此機率代表 點 的右尾面積為 。舉個例子來說, 表示自由度為 10之卡方分配的數值,比15.987大的機率為10%,而比15.987小 的機率則為90%。
【例7.10】 利用卡方分配表求出下列的卡方值: (a) 自由度=15 , (b) 自由度=28 , (c) 自由度= 5 , 求使得 的卡方值。
解: (a) 從後面附錄的卡方分配表中,我們可以看出 因此我們可以得到
(b) 同(a)小題的查表方法,我們亦可得到 亦即表示說 的機率為0.01 (c) 由題意得知,此卡方分配的自由度為5。 因為 所以 查卡方分配表中, 以及所 對應的卡方值 因此便可以求出 使得的卡方值為12.8325。
7.4.2 t分配 上面的(7.13)式表示t分配的機率密度函數,而此分配的平均數與變 異數分別表示如下: r為自由度且 。
t分配的性質:
【例7.12】
解:
7.4.3 F分配
上面的(7.15)式表示F分配的機率密度函數。若隨機變數X為具有自 由度為r1及r2的F分配,則其 平均數 ; 變異數 ;
F分配之性質: 1. 2. 或 3. 假如 則
【例7.14】 利用F分配表,求出(a) 以及(b) 的值為多少? 解: (a)我們由F分配表可以直接查出 =2.09 (b)
7.4.4 常態分配、卡方分配、t分配以及F分配之歸納 一一地介紹過,這三者在統計學上皆為重要的抽樣分配,而且三者 皆為連續型隨機變數分配。另外,它們還有一個共同的特性:其統 計量所來自的母體分配皆為常態分配。當母體平均數以及母體變異 數已知時,我們可以將卡方分配、t分配、F分配之統計量以定義上 的公式來表示,如下表7-2所示。
然而在一般的情況下,母體平均數以及變異數未知時,常被當作是 統計估計的對象,倘若在這種狀況下,此時則需利用表7-3的公式來 代替。