Presentation is loading. Please wait.

Presentation is loading. Please wait.

調查研究的抽樣 蔡佳泓 政大選舉研究中心 副研究員 2019/1/17.

Similar presentations


Presentation on theme: "調查研究的抽樣 蔡佳泓 政大選舉研究中心 副研究員 2019/1/17."— Presentation transcript:

1 調查研究的抽樣 蔡佳泓 政大選舉研究中心 副研究員 2019/1/17

2 課程大綱 抽樣原理 信心水準 抽樣方法

3 機率(一) 事件與空間:事件是我們感興趣的,空間是所有可能的事件 一顆骰子的空間有6個事件,兩顆則有36個事件 所有事件發生的機率為1
例如:兩顆骰子擲出3點的機會為{(1,2), (2,1)} 也就是2/36

4 機率(二) 玩百家樂,一次發兩張牌,拿到9點(9+0, 1+8, 2+7, 3+6, 4+5)的機率多高?
{(9,0), (0,9), (1,8), (8,1), (2,7), (7,2), (3,6), (6,3), (4,5), (5,4)}*4=40 其中“0“指{10, J, K, Q}所以{(9,0), (0,9)}*3*4=24 全部為64次 全部可能的牌為52取2,故為1326 所以兩張牌拿到9點的機率約0.048

5 機率(三) 擲兩顆骰子無限次,平均擲出幾點?
平均值X-bar = 1/n[∑Xi] = 1/n [∑nx*x] nx是擲出某一個值X的次數,所以X-bar= ∑[(nx/n)*x]= ∑x*p(x) 所以(2*1/36)+(3*2/36)+(4*3/36)+(5*4/36)+(6*5/36)+(7*6/36)+(8*5/36)+(9*4/36)+(10*3/36)+(11*2/36)+(12*1/36)=7

6 機率(四) 變異數為1/n-1[∑(Xi–X-bar)2]簡化成∑(X–X-bar)2]*[nx/n-1]= ∑(X–X-bar)2]*p(x) 以兩顆骰子的例子而言:[(2-7)2*1/36]+ [(3-7)2 *2/36]+…+ [(12-7)2*1/36]=5.83 所以平均數為7,而標準差為2.41

7 機率(五) 從{1,2,3,4}中抽出兩個數,母體平均數及標準差為何?
共有{(1,2), (1,3), (1,4), (2,3), (2,4), (3,4)}等6種事件 母體平均數為樣本平均數之平均數 E(x-bar)= ∑x-bar*p(x-bar)=( )*1/6=2.5

8 機率(六) 擲硬幣數次,擲出正面的機率為多少?標準差又是多少? 樣本估計值p為x/n ,即正面的次數除以總共擲的次數
標準差為sqrt{[p(1-p)]/n}

9 抽樣原理(1) 有時候我們不可能訪問母體中所有的個體,所以必須進行抽樣。
抽樣一定會有誤差,也就是根據樣本的調查結果跟真實母體之間有一定的差距,稱為抽樣誤差。 抽樣誤差代表一種區間,也就是樣本估計的結果被包含在一定的上下限。

10 抽樣原理(2) 當我們做無數次抽樣之後,所得到的每一個樣本平均值將形成一個常態分布。而這些樣本平均值的離散程度就是樣本標準差。
如果樣本抽的次數夠多,真正的母體平均值μ應該等於所有樣本平均值的平均值加減一定的標準差。 但是我們不可能抽無限次的樣本,只能假定單一抽樣就代表無限次抽樣後的平均值。因此我們對母體平均值的估計就是依照抽樣結果。

11 棣美弗(Abraham De Moivre)
中央極限定理:若一母體變數不論其分配如何,只要有平均數 μ 和一標準差 σ,則 約近似為平均數為 μ 和標準差 的常態分配,而且當樣本數 n 越大時, 的分佈越近似常態分配。 f(z)=[1/sqrt(2π)]*e-z-square/2此為p.d.f機率密度函數,其中z=[(x-μ)/σ] 根據累積密度函數c.d.f求出各個對應z值

12 標準常態分布圖 重要z值0.0 (0.5)—一半的面積在z值等於0處
當z=1,也就是[(x-μ)/σ]=1,x=σ+μ,F(z)=0.841,1-F(z)=0.16,計算兩邊面積得0.32,也就是說z在-1與+1之間的面積為68%

13 二項分配(binomial distribution)
當我們知道某一事件發生比例時,設為p ,平均數即為p ,標準差為sqrt[p(1-p)/n] 根據中央極限定理,n夠大時亦成常態分布 例如,當n=1000,p=0.5 ,標準差為0.015

14 標準常態分布圖

15 抽樣原理(3) 根據上圖,我們知道,68%的樣本平均值會落在μ加減一個標準差的範圍中。如果是μ加減兩個標準差的範圍,則會包含95%的樣本平均值。如果是μ加減三個標準差的範圍,則會包含99%的樣本平均值。 換句話說,68%的樣本平均值加減一個標準差會包含μ 。以此類推。

16 抽樣原理(4) 以上是樣本的估計。而我們可推廣到母體的估計,即E (xi)= E (x-bar)=μ
σ(xi)= σ,σ(x-bar)= σ*sqrt(1/n). s為標準差, 計算方式為sqrt[∑ (xi-x_bar)2/n-1] 。其中xi表示每一個觀察值。 通常一個簡化的公式為設定σ 等於0.5 ,而2個標準差時可以快速計算為1/sqrt(n). 也就是樣本數的開根號的倒數。

17 信心水準與抽樣誤差 剛剛提到的68%或95%或99%通常稱為信心水準。意思為抽許多次樣本後, 有多少比率的樣本是我們確定會以一個特定區間包含母體平均數μ 。 信心水準越高,所需要的區間也就越大, μ的上下限也就差距越大。所以信心水準跟抽樣誤差之間必須取捨。通常我們是用95%信心水準,對應兩個標準誤的抽樣誤差

18 信心水準與抽樣誤差試算 信心水準 68% 95% 99% 標準誤 正負1 正負2 正負3 抽樣誤差 0.5/sqrt(n)
正負1.6% 正負3.3% 正負5%

19 信心水準與抽樣誤差例子1

20 實例2 】(中央社記者程啟峰高雄二十日電)高雄地方法院今天再開庭審理高雄市長選舉當選無效及選舉無效訴訟,傳喚全國公信力民調中心一名工作人員出庭作證,調查走路工案影響選情程度,證人作證說,市長選舉後進行電訪民調時,有兩名選民表示,受走路工案影響原要投黃俊英,後來改投陳菊。

21 信心水準與抽樣誤差注意事項 上述的公式完全不考慮母體大小,只考慮樣本數大小 。 根據上述的公式可以逆向推估需要的樣本。
當母體非常小的時候, 例如低於100 , 抽樣誤差已經沒有意義,可以考慮全查。

22 單純隨機抽樣 將每一個觀察值加以編號 依照亂數表選中一個號碼 每個觀察值應該有同樣的中選機率

23 隨機抽樣應用 利用上列亂數表從700個人中選出10個人來參加比賽,若以第2列第5行為起點,則選出的第2位編號是多少?

24 隨機抽樣應用 第2列第5行→“07”的0開始算 因為總共有700人,是3位數,所以以3個數字為一組,且一組數字的數不能超過700,所以選出來的有74,382,65, 數到有10個人 假如亂數表到最後的一個數字,但是還沒有取完指定的人數的話,就再從頭第1個數開始算

25 隨機抽樣的母體平均值及變異數

26 母體比例的計算 若母體的參數是比例,例如研究計畫繼續升學的學生,那麼計算母體平均數方式為:p=Σyi/n。母體的變異數為[p(1-p)/(n-1)][(N-n)/N]

27 等比例抽樣(PPS) 若樣本分組,計算母體平均數與變異數時需考慮每一組的比例以及被抽到的樣本數 μpps=(1/Nn)*Σ(y i /πi)
V(μpps)=[1/N2n(n-1)]* Σ[(y i /πi)-τpps]2 τpps=(1/n)*Σ(y i /πi)

28 分組 個案數 累積個案數 比例 1 10 1-10 10/150 2 12 11-22 12/150 3 22 23-44 22/150 4 8 45-52 8/150 5 16 53-68 16/150 6 24 69-92 24/150 7 9 93-101 9/150 31 31/150

29 等比例抽樣之應用 若從10組中抽4個,而根據隨機抽樣抽出2,3,5,7等四組。且根據資料,這四組的合格人數為1,3,2,1人
μpps=(1/Nn)*Σ(y i /πi)=1/10(4)[1(150/12)+3(150/22)+2(150/16)+1(150/9)]=1.71 V(μpps)=[1/N2n(n-1)]* Σ[(y i /πi)-τpps]2=.0295

30

31 等距抽樣(1) 把全體總數N除以樣本數n得到K,起始為隨機亂數抽出R,然後每隔K個抽出一個樣本, R, R+K ,R+2K ,R+3K ,一直到R+(n-1)K。 例---從500人之中抽出10位, 每隔50人抽一個樣本,先以亂數表抽出R為12,下一個樣本編號62, 再一個為112, 一直到樣本編號462

32 等距抽樣(2) 如果觀察值本身有分組, 則是依照各組人數從小而大排列, 然後各組內再編號以方便抽出。
假如我們有4800個觀察值如下表,如何抽出16個樣本? 先抽一個亂數6 ,然後每隔300就抽一個。

33 等距抽樣(3) 分組 人數 累積人數 抽出樣本 1 300 6 2 500 800 306,606 3 600 1400 906,1206 4 2200 1506,1806,2106 5 1200 3400 2406,2706,3006,3306 4800 3606,3906,4206,4506 總數 16

34 等距抽樣

35 等距抽樣的問題 若樣本編號有規則可循, 會得到偏差
例如, 學生的學號依地區或成績排列, 那麼要調查學生的居住地或成績就可能有偏差, 因為固定抽到某一地區或成績的學生

36 分層隨機抽樣 先把母群體的所有個體依某些特徵分類,也就是分層,然後在各層之內再進行獨立的隨機抽樣
分層時守著「同層之內同質性取其最大,異層之間異質性取其最大」的原則

37 分層隨機抽樣之估計

38 分層隨機抽樣應用 電視公司在三個鎮得到的資料整理如下 N n Mean SD A 155 20 33.9 5.95 B 62 8 25.12
15.25 C 93 12 19 9.36

39 分層隨機抽樣之計算

40 分層分段抽樣(1) 主動將樣本分成若干層, 原則為層內同質性越大越好, 層外同質性越小越好。
例如: 依照都市化程度分鄉鎮; 依照學院特性分科系; 依照學校特色分學校 。 人數越多的層應該分到越多樣本;在各層之下再分段以簡化抽樣。 每一人的中選機率仍然會相同。抽取率與單位大小成比例的多階段抽樣(probability proportional to size, pps)

41

42 分層分段抽樣(2) 例如調查政大的學生對政大的認同感。
根據資料,博士班學生約834人,碩士班約4,570人, 大學生約9,404人,總共14,808人。 若想抽出樣本1 ,200人,則博士班學生約分配到67人,碩士班約368人, 大學生約765人。

43 分層分段抽樣(3) 學院 個數 累積 中選次數 樣本數 教育 233 國際事務 274 507 理 616 1123 法 642 1765
中選1 153 傳播 791 2556 835 3391 外語 1,118 4509 社科 2,281 6790 中選2 306 2,614 9404 總數 9,404 765

44 分層分段抽樣(4) 先決定要抽出五個學院,K為1880 。
然後抽出起始亂數為1203,落在 法學院。 接下來為文學院,最後是 社科院, 有兩個中選。 每個中選單位必須訪問153人, 共765人。 以傳播學院為例,中選機率公式為(5*2556/9404)*(153/2556)=765/9404。 而博士班以及碩士班中選機率皆同。

45 假設某一層涵蓋以下鄉鎮市 鄉鎮市 永和 161139 * 新店 175331 336470 三重 244979 581449 中和
259824 841273 桃園 161902 中壢 189982 鳳山 197650 板橋 338037 新莊 194592

46 分層分段抽樣應用 每個鄉鎮市抽出同樣數目的樣本
例如永和預計抽出60個樣本,便預計抽出3個里, 每個里20個樣本,假設永和有25個里,假設每個里人口為M,每一人的被抽取率為[4*161139/ ]*[3*M/161139]*[20/M] =60/480874

47 加權 分層抽樣後,要對每一層做加權。加權的權值為:Wi = (Ni/N)╳(n/ni) 。因為:ni = (nNi)/N,即每一層的樣本數等於全部樣本數乘以每一層所佔的比例。 而每一層佔總樣本的比例為權值ni /n ,乘以每一層的平均數(Σxi/ni),相乘後將得到Σxi/n,亦即全部樣本的平均數,也就是對母體平均數的估計。

48 因為ni = (nNi)/N 所以1/ ni = N/(nNi) 所以平均值Σxi/ni = Σxi ╳ N/(nNi) 加權後Wi ╳[Σxi ╳ N/(nNi)]= Σxi ╳ (Ni/N)╳(n/ni) ╳ N/(nNi)= Σxi / ni

49 加權方式 通常我們如果有母體的交叉資料,例如每一個縣市的教育程度或性別,我們可以做「事後加權」。如果沒有的話,我們做「反覆加權」,即先對一個類別做加權,通過檢定後再做下一個加權,一直到全部通過為止。

50 反覆加權 反覆加權的意思為先對某一變數加權,若通過卡方檢驗,儲存資料後,再對另一變數加權,然後再檢驗,然後再對另一變數加權
通常加權的變數為性別、教育程度、年齡、地區等

51 樣本代表性檢定 χ2=Σ[(Oi-Ei)2]/Ei
例如:樣本數1621,其中男性有896人,女性725人,而根據內政部人口統計,男性有 人,女性有 人,可計算男性期望值為1621*0.516=836.4,而女性期望值為1621*0.484=784.6 計算χ2值為8.78,查表後p>=0.05,顯示兩者並不相同,亦即母體與樣本不同

52 加權 男性權值為[ /896]*[1621/ ]=0.934 女性權值為[ /725]*[1621/ ]=1.08

53 電話訪問之抽樣(一) 電話號碼簿抽樣—根據每個縣市之人口比例決定樣本數,再根據電話號碼簿之頁數決定平均每幾頁抽出一個樣本,在那一頁以隨機方式決定那一欄第幾個號碼為中選號碼 抽出中選號碼後可在尾數或後兩位尾數加1或隨機處理,以找到未登記的號碼

54 電話訪問之抽樣(二) 電話號碼由局碼及後面幾位數字組合而成,若已知所有局碼及後面有多少住宅電號,則可進行兩階段抽樣,即先抽出局碼再根據局碼後面的電話號碼數抽樣, 但是中華電信尚未開放此資料 目前台灣估計有2600個局碼,實際訪問所得為700多個

55 抽樣之軟體 SPSS, SAS及Stata皆可進行抽樣,包括隨機抽樣、等距抽樣、分組抽樣、集群抽樣、分層隨機抽樣皆可進行,並且計算樣本之平均數與標準差 EXCEL可進行隨機抽樣

56 這一球是伸卡球的機率是多少?


Download ppt "調查研究的抽樣 蔡佳泓 政大選舉研究中心 副研究員 2019/1/17."

Similar presentations


Ads by Google