第 5 章 資料的蒐集和抽樣
蒐集資料的方法 有許多方法用來蒐集或取得統計分析的資料。三種最普遍/常使用的方法是: • 直接觀察 (例,每小時進入銀行的顧客數量) • 實驗 (例,新的製造物品的方法以最小化成本) • 調查 第5章 資料的蒐集和抽樣 第163-164頁
調查 調查向人們徵求資訊;例如:蓋洛普民意測驗;哈瑞斯調查。 回收率(是指被選出的受訪者中,完成調查的人數比例。) 是調查的重要參數之一。 調查可能以多種方式實施,例如: • 個人訪談 • 電話訪談 • 自填式問卷調查 第5章 資料的蒐集和抽樣 第164-165頁
問卷設計 基本問卷設計的要點: 問卷必須儘可能簡短。 問題本身應該用簡短、簡單與清楚的文字陳述。 以簡單的人口統計問題為開端,以協助受訪者快速進入填寫狀況。 使用二分法的問題(是與否)以及選擇題。 謹慎使用開放式問題。 避免使用引導式問題。 先對一小群人進行預試。 準備問卷時,思考你要如何分析回應的答案。 第5章 資料的蒐集和抽樣 第165-166頁
抽樣 統計推論允許我們根據一個比母體小很多的樣本擷取對母體參數的結論。 如果目標母體 ( 我們想推論的母體) 與抽樣母體 ( 實際取樣的母體) 是相同的,則樣本統計量可以和所估計的參數相當接近。 第5章 資料的蒐集和抽樣 第166-167頁
抽樣計畫 我們的目的是介紹三種不同的抽樣計畫: • 簡單隨機抽樣 • 分層隨機抽樣 • 集群抽樣 第5章 資料的蒐集和抽樣 第168-173頁
簡單隨機抽樣 一個簡單隨機樣本(simple random sample )是一個以下述方法抽出的樣本:每一個有相同觀察值個數的樣本皆有均等的機率會被抽出。 第5章 資料的蒐集和抽樣 第169頁
簡單隨機抽樣 範例5.1:一位政府的稅務稽核人員必須抽樣 l,000件申請退稅的案件中的40件進行審查。 如果產生重複的數字,可能使用額外的數字 第5章 資料的蒐集和抽樣 第169頁
分層隨機抽樣 一個分層隨機樣本(stratified random sample)的取得是將母體區分成互斥的群組,或分層,然後從每一分層中抽取隨機樣本。 分層 1 : 性別 男性 女性 分層 2 : 年齡 < 20 20-30 31-40 41-50 51-60 > 60 分層 3 : 職業 專業人員 行政人員 藍領階級 其他 分層的一個優點是除了獲得全部母體的資料外, 我們也可以在每一分層中做推論或比較資料。 第5章 資料的蒐集和抽樣 第171-172頁
分層隨機抽樣 母體以這種方式被分層後,我們可以用簡單隨機抽樣來產生完整的樣本: 如果我們有充足的資源抽取400位民眾的樣本, 我們可以從低收入群組中選取100位 …如果我們要選取1000位民眾的樣本, 我們可以從高收入群組中選取50位 第5章 資料的蒐集和抽樣 第172頁
集群抽樣 一個集群樣本是元素的群組或集群的一個簡單隨機樣本 當發展一份完整的母體成員名單是困難的或耗費成本的情況下,或者當母體元素廣泛的分散在各地時,集群抽樣很有用。 第5章 資料的蒐集和抽樣 第173頁
樣本大小 決定適當的樣本大小將會在第10 與12 章中詳細說明。在那之前,我們可以依賴我們的直覺,它告訴我們樣本越大,我們可以期望越精確的樣本估計。 第5章 資料的蒐集和抽樣 第174頁
抽樣與非抽樣誤差 從母體中取出一個觀測值的樣本時,兩種主要的誤差可能發生: 抽樣誤差與非抽樣誤差。 抽樣誤差(sampling error )是指因樣本觀測值的隨機性所造成樣本與母體間的差異。 唯一可以降低這類誤差期望大小的方法是使用較大的樣本數。 第5章 資料的蒐集和抽樣 第175.176頁
非抽樣誤差 非抽樣誤差(nonsampling error )比抽樣誤差的問題更嚴重,它是由於在取得資料時發生錯誤,或是因為樣本觀測值被不適當的選取。三種非抽樣誤差: • 取得資料時的誤差 • 無回應誤差 • 取樣偏差 取用較大的樣本不會降低非抽樣誤差發生的大小或機率。 第5章 資料的蒐集和抽樣 第176-177頁
取得資料時的誤差 誤差來自於不正確的回應記錄,可能來自於: • 錯誤的設備所造成的錯誤測量。 • 轉換原始資料時所犯的錯誤。 • 名詞誤解而導致記錄不正確的資料,或者 • 敏感問題所做的不正確回應。 第5章 資料的蒐集和抽樣 第176頁
無回應誤差 無回應誤差(nonresponse error)指當無法從樣本成員取得某些調查回應而產生的誤差[或偏差]。此時,所蒐集的樣本觀測值可能不能代表目標母體。 第5章 資料的蒐集和抽樣 第176頁
取樣偏差 取樣偏差(selection bias)發生於一些目標母體的成員無法被選出當成樣本的抽樣計畫。 第5章 資料的蒐集和抽樣 第177頁