量化研究與統計分析 抽樣 謝寶煖 台灣大學圖書資訊學系 2006年4月1日
抽樣 自母群體(population)中抽出一個較小的樣本(sample) 然後從樣本的個案收集所需的資料 經由對樣本的研究與了解來推論母群體的情況 要得到有意義的結果,樣本應該取多大?
抽樣的歷程 從母群體中抽取樣本時,必需使樣本具代表性,推論母群體情況時才不致有太大的誤差 樣本的品質與大小同樣重要 選樣本的過程是關鍵 不偏:被選中的機會都一樣 獨立:一個個體被選中,不影響其他個體是否被選中 所以,在抽樣時就是盡量要求能找到一個代表性樣本(representative sample),以減少抽樣誤差(sampling error)
抽樣的歷程 界定母群體 收集名單 決定樣本的大小 設計抽樣方法 同時考慮抽樣誤差和研究代價 容忍的誤差愈小,樣本就要愈大 付出的研究成本愈少,樣本就要酌量減少 設計抽樣方法
抽樣誤差 選取的樣本推論到母群體時產生的誤差稱為 抽樣誤差 抽樣誤差其實不是計算自於樣本統計量和母體參數的差別,因為母體參數是未知而待推估的;抽樣誤差能被估算,是依據該樣本在「抽樣分配」所在的位置,及其意含的機率
抽樣分配 抽樣分配的形成是假設在一個母群體中,不斷抽取大小相同樣本,測量其統計量,所構成的一個分配 從一副撲克牌中任意抽出9張牌,出現紅色牌的情況0到9張都有可能,其中應以出現5張紅牌最為可能,而出現0或9張紅牌的機會最小 抽樣分配集中或分散的程度就是「抽樣誤差」計算的依據 樣本大小是個關鍵,也就是樣本大抽樣誤差較小,反之,樣本數量小抽樣誤差較大
樣本之決定 本調查之母群體為2,989家台北市電腦同業公會之會員 95%之信賴水準 最大誤差小於0.05之條件下樣本數之決定方式為: 設P為本調查之全體對象之任一比例值,p為其估計值,倘要 P(p-P<d)>1- 則樣本數n如下表:
誤差上界 d 信賴水準 1- 樣本數 n 0.05 0.95 0.96 0.97 0.98 0.99 341* 371 407 460 541 0.04 500 591 661 768 0.03 787 842 910 1003 1037
有限母體樣本數之推估公式 當估計最大誤差d=0.05,可靠度至少95%的條件下,其計算公式如下: 本調查之樣本數應為341 公式:
應抽取341家企業為調查樣本 然因考慮到電話訪問不免會遇到打不通的情形,因此本調查以系統抽樣方法,依會員名單順序,每七名抽樣一名,共計抽取427名為本調查之樣本
http://www.surveysystem.com/sscalc.htm
抽樣方法 非機率抽樣法 (non-probability sampling) 機率抽樣法 (probability sampling) 立意抽樣法 偶遇抽樣法 滾雪球抽樣 定額抽樣法 便利取樣 機率抽樣法 (probability sampling) 簡單隨機抽樣 系統隨機抽樣 分層隨機抽樣 集體抽樣法 多段抽樣法
立意抽樣法(Purposive Sampling ) 立意抽樣是根據研究員的主觀判斷以及研究目的而決定的,選取研究者認為最典型的個案。 例如跑到某班國文的課堂中,挑選我們認為最具代表性的學生,調查他們對於公益彩券的看法。樣本是否能具代表性,視乎研究員的主觀判斷是否正確。
偶遇抽樣法 Accidental Sampling 也稱為便利抽樣法(convenience sampling) 純粹以方便為基本著眼點的抽樣方法,樣本之選擇只考慮是否容易得到或容易觀察。 如研究者在街道上,或是其他場所來抽下路人做訪問的工作,雖說這種方式常被使用,但並不是一種適切的抽樣方法,若此項研究的目的,是要了解在某特定時間內,通過某一特定地方的路人特質為何,這種研究方法才具有合理性。選取一些偶然遇見的個案做為樣本。例如在上課教室門口,只要是要進入教室上課的人,我們就進行研究,直至完成所需的樣本數為止。這種抽樣方法很容易進行,但樣本的代表性卻值得懷疑,因為偶然遇見的人和沒有遇到的人可能有所不同。
滾雪球抽樣 Snowballing Sampling 也有些人認為此種抽樣方式其實是偶遇抽樣法的應用。 滾雪球抽樣是在特定母群體中成員難以找到時,最適合採取的抽樣方式。這種抽樣的程序是先蒐集目標母群體的少數成員,同時再向這些成員徵詢資訊,以找出他們剛巧認識的母群體成員。所謂滾雪球,指的是研究對象建議找出其他研究對象的累積過程。由於這種程序會找出代表性成疑的樣本,通常都用於試探性的目的。
定額抽樣法 Quota Sampling 定額抽樣是根據按照母群體的特性,先選定幾個具代表性的類別(如性別、年齡等),從各類別當中先獲知其占母群體的比率,再用偶遇或立意的方式取樣,使該樣本各類型的比例能反應出母群體的特徵。 此種抽樣方式要先從建立一個母群體特質的矩陣開始。例如我們必須知道修習知識管理學程的學生中不同學院、性別、年級等的比例為何,然後用立意或偶遇的方式,從學院、性別、年級等抽取固定比例的個案樣本,合起來可以達到我們的樣本數目即可。定額抽樣法由於包括了各組的個案,其代表性高於立意抽樣或偶遇抽樣。
志願對象抽樣 Volunteer Subjects Sampling 這種抽樣方式和偶遇取樣類似,完全是基於個人的意願接受調查或訪問,如電視或電台節目的「Call in」即是一種典型。
機率抽樣
簡單隨機抽樣 Simple random Sampling 這是最基本,最簡單的的機率抽樣方法。 每個個案被選取的機會是相同的。就好像把各個個案的名字寫在大小相同的紙上,放到一個箱子中,由我們抽取,每個個案都有被抽到的可能,而且機會相同。如平日常見的摸彩或搖獎,在數學上則會利用亂數表來抽取樣本。
系統隨機抽樣 Systematic random Sampling 此種抽樣方式是遵循一個固定規則的取樣方式。通常要先決定樣本的數量(n),然後按母群體的規模(N),來決定抽樣的間距(R=N/n)。將全部的個案排列起來,開始抽樣時,先用隨機的方式來決定起始點(K),抽取第一個樣本,然後將抽得的號碼逐次加上R,即可求得其餘的樣本號碼。K, K+1R, K+2R, ..........., K+(N-1)R。
分層隨機抽樣 Stratified random Sampling 選擇使用此種抽樣方法的理由如下 利用此種方式抽到的樣本,不僅能反映母群體本身的情形,同時還可以反映母群體中次分類或次團體的差異,有助於研究者了解次團體; 此種抽樣方法比簡單隨機抽樣較具有統計精確度。
分層隨機抽樣 分層抽樣方式的特點,乃是由母群體內同質的次集合中取出適當數目的樣本,而非單純地由母群體中取出樣本。 若母體中個體,異質性很高,而且分布不均勻,為使樣本能反應母體的特性,最好利用分層抽樣。分層之後,各層可以有獨立的抽樣設計,或在各層當中隨機抽取若干個體作為樣本。 在分層過程中,側重於選擇重要的「性質」作為分層標準。其原則是「層」與「層」之間要盡可能互斥,或具異質性;但「層」內部所包含的個體應儘可能相似,即層外為異質性,層內為同質性。舉例而言,若我們想對修習知識管理學程的大學生進行分層抽樣,我們可以先依年級加以分類,然後再分別由一年級、二年級、三年級、四年級中,抽出適當數目的樣本。
分層隨機抽樣 又分為兩種 定比分層抽樣法(proportionate stratified random sampling) 採用相同的比例來抽樣 異比分層隨機抽樣(disproportionate stratified random sampling) 則是不同的比例。定比分層抽樣法,將母群體按某些標準分組,然後在每組中按照相同的比例用簡單隨機或系統隨機抽樣法選取個案。異比分層隨機抽樣,即在不同組中用不同的比例來抽樣。所選用的分組標準與研究目的的相關越強越好。換言之,分組以後,要使組與組之間的差別很大,組內的差別則很小。
分層隨機抽樣
集群抽樣法 Cluster Sampling 樣本的選取是以「群」為單位能使樣本較為集中,節省調查或訪問的時間與金錢。分群抽樣的目的和分層抽樣類似,是為了反應母群體結構。 如果母群體中的個案可分為很多集群,我們可以用集群隨機抽樣法,即隨機地抽取若干集群,然後以它們所包括的個案作為研究的樣本。 選取集群時,可用簡單隨機抽樣法,也可以將集群分組以後才隨機抽取,以後者所犯的抽樣誤差比較小。
集群抽樣法 集群抽樣的好處是成本較小,特別適用於大規模的抽樣調查。 以集群抽樣作為抽樣的單位,所犯的抽樣誤差會較大,樣本的代表性通常是比不上用簡單隨機抽樣或分層隨機抽樣法。若每個集群內的個案差異大,而各個集群間差異小,則抽樣誤差會較小。 和分層抽樣最大的不同,在於分群抽樣所產生的「群」具有同質性,而每個群則包括異質性高的個體在內,就像母體的縮影。
集群抽樣法
多段抽樣法 Multi-stage Sampling 上述的各種隨機抽樣法,是可以結合運用的。 先抽取若干集體,然後從所選取的集體中再抽取若干較小的單位。
多段抽樣法 例如調查台北市高中生上網的情形,抽樣時可以分成幾個階段進行: 第一步是先選台北市的某個高中 第二步是選文組、理組的組別 第三步是選擇年級 第四步是選取若干班級 第五步再從各個班級中選取若干個人 在每個階段的抽樣時,可以用簡單隨機抽樣,也可以採用分層隨機抽樣法,在大規模的抽樣調查中,採用多段抽樣可以節省很多研究代價,包括人力、資金和時間。但是,每一個階段的抽樣都會有誤差,經過多個階段才抽出來的樣本,抽差誤差會隨之變大。
Q & A