抽樣計畫 6.1 了解抽樣 6.2 抽樣程序 6.3 樣本大小的決定 6.4 平均數、比率的樣本統計量分配 6.5 信賴區間 6.6 決定樣本大小的公式與應用
6.1 了解抽樣 抽樣的基本觀念 幾乎所有的調查均需依賴抽樣。現代的抽樣技術是基於現代統計學技術及機率理論發展出來的,因此抽樣的正確度相當高,再說即使有誤差存在,誤差的範圍也很容易測知。 抽樣的邏輯是相對單純的。我們首先決定研究的母體 (population),然後再從這個母體中抽取樣本。 樣本要能正確的代表母體,樣本應是母體的縮影,但是這並不是說,母體必須具有均質性 (homogeneity)。 抽樣的結果是否正確與樣本大小 (sample size) 息息相關。 2018/12/31
樣本與母體 在理想上,我們希望能針對母體做調查。 我們從樣本中計算某屬性的值 (又稱統計量,例如,樣本的所得平均),再據以推算母體的參數值 (parameters, 例如母體的所得平均) 的範圍。 我們應從上 (母體) 到下 (樣本或部分母體) 來進行 。 Ex:台北市民對於交通的意見,透過經過SOGO百貨的路人進行調查??? Ex:1936年美國Literary Digest預測藍登會在大選中贏羅斯福,其是根據電話簿及架照登記最為抽樣對象???? 2018/12/31
抽樣的優點 如果設計得週密,抽樣的正確性是相當高的。 此外,在時間及金錢上的節省亦是相當可觀的。 針對整個母體做調查所花的時間,自然比針對樣本的時間還長,而時間是一個相當關鍵性的因素。 Ex:如果調查時間過長???或過快結束 EX:1948年根據蓋洛普民意測驗顯示,杜威將是勝選者,但結果卻是杜魯門獲勝。這個預測的錯誤歸因於調查結果太早結束??? 2018/12/31
6.2 抽樣程序 1.定義母體 以元素、單位、範圍、時間來定義母體 2.確認抽樣架構 決定能夠代表母體的工具,例如電話簿、地圖或城市目錄 步驟 扼要說明 1.定義母體 以元素、單位、範圍、時間來定義母體 2.確認抽樣架構 決定能夠代表母體的工具,例如電話簿、地圖或城市目錄 3.確認抽樣單位 決定抽樣單位 (例如城市街道、公司、家計單位、個人) 4.確認抽樣方法 描述如何抽選樣本單位的方法 5.決定樣本大小 決定從母體元素中所形成樣本的數目 6.擬定抽樣計畫 說明抽選抽樣單位的作業過程 7.選取樣本 說明實地去抽樣的負責單位及工作細節,也就是將抽樣計畫加以落實的過程 2018/12/31
第一步—定義母體 抽樣的第一步就是決定母體,也就是我們所要研究的對象。研究對象又稱為分析單位 (units of analysis)->分析對象的總合稱之為母體 要把母體定義得完整,就必須包括 元素 (element) 母體內成為抽樣目標的實體 抽樣單位 (sampling unit) 範圍 (extent) 時間 (time) 2018/12/31
「過去三年來購買過我們的任何產品的所有公司及政府代理商」 元素: 採購代理商 抽樣單位: 公司及政府代理商 範圍: 購買過我們的任何產品 時間: 過去三年 2018/12/31
「2002年10月15日到10月31日在台北市各超市中所有競爭品牌的價格」 元素: 所有競爭品牌的價格 抽樣單位: 超級市場 範圍: 台北市 時間: 2002年10月15日到10月31日 2018/12/31
第二步—建立抽樣架構 抽樣架構 (sampling frame) 是所有抽樣單位的集合,例如電話簿、地圖、城市目錄、受薪名單、某大學學生註冊名單等。 完美的抽樣架構 要使得『母體元素只能出現一次』 電話簿抽樣??? 機率抽樣與非機率抽樣對抽樣架構之影響 2018/12/31
第三步—確認抽樣單位 抽樣單位是要從母體元素中加以抽取以形成樣本的基本單位。 例如我們要以「13歲以上的男性」做為樣本,我們就可以直接向他們進行抽樣, 在這個例子中,抽樣元素就等於抽樣單位。在理論上抽樣架構就包括了所有在樣本中的個體 (人)。 然而如果我們先抽取家計單位,再就所抽取的家計單位中抽取13歲以上的男性,那麼抽樣單位 (家計單位) 就與抽樣元素 (13歲以上男性) 不同了。 所抽取的抽樣單位是依抽樣架構而定。 2018/12/31
第四步—確認抽樣方法 抽樣即是抽取樣本單位的方法 機率或非機率 (probability or nonprobability) 單一單位或集群單位 (single unit or cluster unit) 非分層或分層 (unstratified or stratified) 相同的單位機率或不同的單位機率 (equal unit probability or unequal unit probability) 單階段或多階段 (single stage or multistage) 2018/12/31
機率或非機率抽樣 機率抽樣: 非機率抽樣: 母體中個體元素被抽取的機率為已知,也就是研究者可以計算出美一個元素被選取的機率 包括簡單隨機抽樣法、系統抽樣法、分層抽樣法以及集群抽樣法 非機率抽樣: 以研究者的判斷來選擇樣本 包括便利抽樣法、配額抽樣法、立意抽樣法、判斷抽樣法 2018/12/31
機率抽樣 簡單隨機抽樣法。 母體中每一個單位被做為樣本單位的機率相同。 如果在抽樣架構中應該在名單內的人被剔除了,或者有些人被登錄二次,則就不稱為隨機了。 在隨機抽樣的過程中,已經被抽取的樣本將不再置回 (或不再出現在原名單中), 因此假設抽樣架構中的人數是1,000人,則每個人被抽取的機率是1/1000,如果已抽取了200人又不再置回的話,剩下被抽取的機率就變成1/800。不重複 (不再置回) 的隨機抽樣稱為簡單隨機抽樣法 (simple random sampling)。 EX:摸採法 或 亂數表 2018/12/31
系統抽樣法。 例如母體8,000人,樣本大小決定為 100 人 則樣本區間為 8000 / 100 = 80 假定從 1 到 80 之中,我們隨機抽出了 15, 則樣本單位的號碼依次為15, 175, 255 .....,直到樣本數達到 100 人時為止。 2018/12/31
分層抽樣法。 先將母體的所有基本單位,以某種基礎(例如,所得收入)分成若干相互排斥的組或層, 然後再分別從各組或各層中以簡單隨機抽樣法抽取樣本。 2018/12/31
集群抽樣法。 在簡單隨機抽樣中,每一個母體元素是個別抽取的,然而我們可以把母體分成若干個群 (也就是說由母體元素組成的群), 然後再在每一群中進行隨機抽樣。這就是集群抽樣法 (cluster sampling)。 Ex: 地區街道抽樣法 集群與分層抽樣有何不同??? 2018/12/31
非機率抽樣法 便利抽樣法。顧名思義,便利抽樣法純粹以便利為基礎的一種抽樣法,樣本的選擇僅考慮到獲得或衡量的便利,譬如說,調查者在水族館前訪問參觀者即是一例。 配額抽樣法。配額抽樣法是做到「樣本多少具有母體的代表性」。首先將母體分為若干個次群體,然後再以先前決定的配額數 (總抽樣數) 來決定每個次群體的配額數 (樣本數),以使得以各類別的樣本數來看,樣本的組成好像是母體組成的縮影。 2018/12/31
配額抽樣法範例 某大學學生 母體人數10000人 各類別樣本數 總配額數為100人 大一 1400 1200 14 12 大二 1300 1100 13 11 大三 1000 10 大四 900 9 研究生 600 400 6 4 2018/12/31
判斷抽樣法。判斷抽樣法顧名思義是靠研究者的判斷來決定樣本。研究者必須對於母體有相當程度的了解,才能夠發揮判斷抽樣法的功用。 立意抽樣法。立意抽樣法是指研究者以某種先前設定的標準來進行抽樣。在這種情況下,即使研究者知道這些樣本不具有母體的代表性,但還是以這些樣本作為研究對象。 Ex:刻意找某些工程師來評估口袋型計算機 判斷抽樣法。判斷抽樣法顧名思義是靠研究者的判斷來決定樣本。研究者必須對於母體有相當程度的了解,才能夠發揮判斷抽樣法的功用。 判斷抽樣法中,有一種方式是雪球抽樣法 (snowball sampling)。 2018/12/31
機率與非機率抽樣的選擇 我們需要哪些類型的資訊——平均數、比率或是預估的總數。例如我們是不是要知道贊成核四建廠的人數比率、贊成評點的平均數以及預估三年後贊成者的人數? 所能容忍的誤差多少?所從事的的這個研究是否需要非常正確的估計母數 (母體中某屬性的值)? 非抽樣誤差可能有多大?母體界定、抽樣架構、選擇、非反應、代理資訊 (surrogate information)、衡量及實驗的誤差可能有多大? 就我們所要衡量的變數而言,母體的均質性如何?這個變數在抽樣單位的變異程度如何? 抽樣錯誤 (或樣本提供的資訊不實) 所造成的代價有多高? 2018/12/31
抽樣誤差 樣本的統計值不能百分之百的代表母體的目數。譬如說,在抽樣時總有可能抽到母體中特殊的單位。而反應誤差純粹是因為詢問或觀察的方法不當所致,在抽樣調查時,發生這項誤差的原因如下: 問卷設計者或資料蒐集者的個人偏差 受測者的社會預期或心理因素 受測者之間在接受觀察或詢問時,是否處於相同的環境 2018/12/31
單一單位或集群單位 在單一單位抽樣法 (single unit sampling) 中,每個抽樣單位是分別被抽取的;在集群抽樣 (cluster sampling) 中,抽樣單位是「成群的人」。 如果抽樣單位是家計單位,則單一抽樣法是以家計為抽取的單位,而集群抽樣法是以城市街道為抽樣單位,而調查訪問的對象是所抽選街道上的家計單位。 2018/12/31
非分層或分層抽樣 母體中的共同屬性,可以用來分成區隔 (segment) 的稱為層 (stratum)。年齡層 (例如35-49歲)、所得層 (例如家庭的年收入在一百萬以上) 等都是層。 分層抽樣法就是將每一層視為是單獨的次母體(subpopulation)。如果家計單位戶長的年齡可以分為「18-34」、「35-49」、「50以上」 這些層,每一層都是獨立的次母體。研究者再分別從這些層中抽取樣本。 2018/12/31
相同的單位機率或不同的單位機率 造成抽樣誤差的主要根源是我們的常識不足,而好的抽樣方法又不是以常識就可以了解的。譬如說,常識告訴我們:好的抽樣方法是每個樣本被抽取的機率是相同的,但是有些抽樣卻是以「不同的單位機率」(樣本被抽取的機率不同) 比較好。 2018/12/31
單階段或多階段抽樣 在抽樣的過程中應該要有幾個階段要看是否能獲得抽樣架構而定。 在實務上,多階段的抽樣是這樣的:先抽取區域,再抽取街道,再就所抽取的街道中利用系統抽樣法以抽取家計單位。 但是,如果我們能夠完整的、正確的獲得家計單位的名錄 (也就是說獲得正確的抽樣架構),就不必經過多階段的過程。 2018/12/31
第五步—決定樣本大小 在有限或無限母體之下,我們可用估計母體平均數或比率的方式,來決定樣本的大小。 如果我們不用這些機率的方式來決定樣本的大小,也可以用非機率的方式,例如所能負擔法 (all you can afford)、同類型研究的樣本平均數 (the average for samples for similar studies) 及每格所需樣本數 (required size per cell)。 當然,我們在決定樣本的大小時,還要考慮到特殊事件、非反應的問題。 2018/12/31
第六步—擬定抽樣計畫 抽樣計畫說明了如何將到目前為止的決策加以落實。 如果研究者決定家計單位是抽樣元素,而街道是抽樣單位,那麼「家計單位」的操作性定義如何?如何告訴訪談員在碰到「受訪者家人和其遠親住在同一棟公寓」時,如何分辨家庭及家計單位?如何教導訪問員在一個街道中如何進行系統抽樣?如果所抽取的房屋無人居住,訪談員應如何處理?如果受訪對象不在家,那麼再度訪問的程序是什麼?家計單位中的人年紀要多大才有資格代表回答問題? 2018/12/31
第七步—選取樣本 抽樣程序的最後一個步驟就是真正的抽取樣本。 這些工作需要負責單位及實地工作者的全力支援,尤其是人員訪談更需如此。 2018/12/31
6.3 樣本大小的決定 決定樣本大小的基本觀念 在抽樣時,我們必須決定要從母體中抽取多少樣本才能夠達成我們的研究目標。 以非機率抽樣的方式所得到的樣本並不能讓我們計算抽樣誤差,並做統計推定,因此本章所討論的重點並不在非機率抽樣這方面。 2018/12/31
「最新民意調查顯示,美國總統布希在紐約州的聲望,從先前的百分之三十三跌到最低點的百分之二十二。這項調查是以電話訪問一千一百五十四位合格選民,誤差率是正負百分之三。」 這個意思是:抽樣1,154位合格選民的結果,布希的聲望是22%;要由這1,154位合格選民推論到全紐約州合格選民的話,布希的聲望會是19%到25%之間,因為抽樣誤差是3%,那麼推論到母群的話就要往上往下調整3%,即19%(22-3)和25%(22+3)。 2018/12/31
台灣選舉頻繁,所以電視新聞、廣播、報紙經常都會出現「最新民意調查發現……」;通常記者在報導這類民意調查時都會交代「這次調查成功訪問了847位成年人……在95%的信心水準下,抽樣誤差在正負3.4個百分點以內。」這句話是什麼意思呢? 2018/12/31
決定樣本大小要考慮兩個因素:信心水準和抽樣誤差。 信心水準(confidence level):信心水準是以百分比來表示,意思是有多大的信心可以樣本來推論母群。通常是設定在95%或99%,。 抽樣誤差(confidence interval):或稱為誤差容忍度,一般在媒體或是學術論文中都是以正負數值來表示,如:抽樣誤差在正負3個百分點以內。 2018/12/31
樣本大小計算器 http://www.surveysystem.com/sscalc.htm 舉個例子來說明,如果想要調查某大學生的金錢觀,根據某大學2003統計年報共有29,830位學生,如果要針對某大學生進行抽樣,在95%信心水準和抽樣誤差在正負3個百分點以內時,必須抽取1,030位學生為樣本。 如果放寬抽樣誤差為5個百分點的話,只要抽取379位學生即可。如果提高信心水準為99%,抽樣誤差一樣是5個百分點的話,必須抽取651位學生;如果信心水準是99%,而抽樣誤差提高到3個百分點以內的話,則必須抽取1,741位學生為樣本。 當母群未知或母群很大時,Population一欄可以直接空白。 如果我想擴大範圍調查全台灣大學生的金錢觀,那我該抽取多少樣本呢?根據教育部網站94學年度大學本科生人數為938,648,在95%信心水準和抽樣誤差在正負3個百分點以內時,必須抽取1,066位學生為樣本;如果我把Population一欄空白,計算得到的樣本數是1,067。 在進行問卷調查時,別忘了還要考慮樣本回收率,再決定該寄發多少份問卷,不然回收率太低的話,還是沒有辦法滿足樣本規模的要求。 2018/12/31
天下不如意事常十之十一、十二。所以呢,就算計算好樣本數再進行抽樣,可是回收率和訪問結果還是可能不能盡如人意,這時通常會根據實際回收結果重新計算抽樣誤差。 接續上面的例子,在95%信心水準和抽樣誤差在正負3個百分點以內時,必須抽取1,030位學生為樣本。如果實際回收的有效問卷是666份,很顯然的抽樣誤差就不可能維持在正負3%以內,所以必須重新計算抽樣誤差。 Sample Size Calculator的第二部分就是計算抽樣誤差,只要選取信心水準,再輸入樣本數和母群大小,就可以計算出新的抽樣誤差為3.75。其中Percentage一項的預設值是50,是要反映樣本的差異或離散情形;舉例來說,如果有99%的學生都回答「是」,只有1%回答「否」,表示樣本的一致性相當高,那麼與樣本大小就沒什麼關係;如果有52%的學生說「是」,而有48%的學生說「否」,那麼誤差的機會就大多了;所以Sample Size Calculator做最悲觀的假設,將Percentage預設為50。 2018/12/31