調查研究的抽樣 蔡佳泓 政大選舉研究中心 副研究員 2019/1/17.

Slides:



Advertisements
Similar presentations
3 統計 3-1 統計抽樣. 統計的意義  統計工作包括蒐集資料、整理資料分析資料及解釋 意義,也就是讓一堆數字變的有意義。  統計學依理論基礎、統計技術的不同,可分為: 1. 敘述統計 2. 推理統計  統計資料量必須夠多,且必須是正確資料。
Advertisements

©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
撲克牌 的 機率. 一副撲克牌共 52 張,取 5 張 求各種 「牌型」 出現的 機率 先來複習一下 n 個相異物中,取出 k 個,所有可能 的方法共有多少種? 還記得為什麼吧!
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
單元九:單因子變異數分析.
主講人 陳陸輝 特聘研究員兼主任 政治大學選舉研究中心 美國密西根州立大學博士
樞紐分析與資料庫 蕭世斌 Nov 20, 2010.
第二單元之一: 統計估計-點估計.
期望值 變異數 共變異數與相關係數 變異數與共變異數之性質 柴比雪夫不等氏 動差與動差生成函數
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
行銷研究 單元二 行銷研究的程序.
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
抽樣與抽樣分配 7.1 抽樣問題 7.2 簡單隨機抽樣 7.3 點估計 7.4 抽樣分配簡介 7.5 的抽樣分配 7.6 的抽樣分配
17 類別資料的分析  學習目的.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
估計.
5.1 自然對數函數:微分 5.2 自然對數函數:積分 5.3 反函數 5.4 指數函數:微分與積分 5.5 一般底數的指數函數和應用 5.6 反三角函數:微分 5.7 反三角函數:積分 5.8 雙曲函數.
信賴區間估計 (一) Estimation with Confidence Intervals
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
Sampling Theory and Some Important Sampling Distributions
第 7 章 抽樣與抽樣分配.
第 9 章 簡單隨機抽樣與抽樣分配.
第 7 章 抽樣與抽樣分配 Part B ( ).
第 7 章 抽樣與抽樣分配 Part B ( ).
第 7 章 抽樣與抽樣分配 Part B ( ).
計數值抽樣檢驗計劃 (MIL-STD-105E)
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
課程九 迴歸與相關2.
教材 P.264 Point Estimation To estimate the value of a population parameter, we compute a corresponding characteristic of the sample, referred to as a sample.
風險值 Value at Risk (VaR) 區國強.
統計學(上)-常態分配 開南大學 教師:陳裕達 博士.
量化研究與統計分析 抽樣 謝寶煖 台灣大學圖書資訊學系 2006年4月1日.
估計(estimation) 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2018/12/27.
第五章 抽樣與抽樣分配.
單一分配 Uniform distribution
第8章 估計 點估計 區間估計與信賴區間.
第二章 機率概論 2.1 相對次數與機率 樣本空間、事件與隨機變數 抽樣與樣本空間 22
統計學 指導老師: 郭燿禎 Date: 2/14/12.
信心水準與信賴區間的解讀.
第一章 直角坐標系 1-3 函數圖形.
<信賴區間與信心水準的解讀>.
第 7 章 推論方法.
估計與假設檢定.
Definition of Trace Function
小學四年級數學科 8.最大公因數.
微積分網路教學課程 應用統計學系 周 章.
7-2 抽樣分配(sampling distribution)
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
Some Important Probability Distributions
Ogive plot example 說明者:吳東陽 2003/10/10.
Chapter 4 Variability 離散趨勢測量 2019/4/26.
Ch06 抽樣設計.
4- 第四章.
Parameter Estimation and Statistical Inference
MiRanda Java Interface v1.0的使用方法
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
抽樣設計的重點 「抽樣」(smapling)是自母群體中選取部份元素/基本單位(elements)為樣本,並且認為從選取的樣本可得知母群體的特徵。 1.有那些機率抽樣方法?特性為何? 2.有那些非機率抽樣方法?特性為何? 3.抽樣時應考慮那些要素? *
二項分配-Binomial 伯努利試驗(Bernoulli Trial) 每一次試驗皆僅有兩種可能結果,不是成功(S),就是失敗(F)。
Introduction to Basic Statistics
洪秀柱 vs. 蔡英文 首度PK民調 主辦:兩岸政策協會 執行:決策民調中心.
例題 1. 多項式的排列 1-2 多項式及其加減法 將多項式 按下列方式排列: (1) 降冪排列:______________________ (2) 升冪排列:______________________ 排列 降冪:次數由高至低 升冪;次數由低至高.
資料表示方法 資料儲存單位.
Quiz1 繳交期限: 9/28(四).
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
主題四:機率分佈 陳陸輝 政治大學選研中心 研究員兼主任
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
調查研究的概念 蔡佳泓 政大選舉研究中心 副研究員.
快取映射 之直接對映 計算整理.
Presentation transcript:

調查研究的抽樣 蔡佳泓 政大選舉研究中心 副研究員 2019/1/17

課程大綱 抽樣原理 信心水準 抽樣方法

機率(一) 事件與空間:事件是我們感興趣的,空間是所有可能的事件 一顆骰子的空間有6個事件,兩顆則有36個事件 所有事件發生的機率為1 例如:兩顆骰子擲出3點的機會為{(1,2), (2,1)} 也就是2/36

機率(二) 玩百家樂,一次發兩張牌,拿到9點(9+0, 1+8, 2+7, 3+6, 4+5)的機率多高? {(9,0), (0,9), (1,8), (8,1), (2,7), (7,2), (3,6), (6,3), (4,5), (5,4)}*4=40 其中“0“指{10, J, K, Q}所以{(9,0), (0,9)}*3*4=24 全部為64次 全部可能的牌為52取2,故為1326 所以兩張牌拿到9點的機率約0.048

機率(三) 擲兩顆骰子無限次,平均擲出幾點? 平均值X-bar = 1/n[∑Xi] = 1/n [∑nx*x] nx是擲出某一個值X的次數,所以X-bar= ∑[(nx/n)*x]= ∑x*p(x) 所以(2*1/36)+(3*2/36)+(4*3/36)+(5*4/36)+(6*5/36)+(7*6/36)+(8*5/36)+(9*4/36)+(10*3/36)+(11*2/36)+(12*1/36)=7

機率(四) 變異數為1/n-1[∑(Xi–X-bar)2]簡化成∑(X–X-bar)2]*[nx/n-1]= ∑(X–X-bar)2]*p(x) 以兩顆骰子的例子而言:[(2-7)2*1/36]+ [(3-7)2 *2/36]+…+ [(12-7)2*1/36]=5.83 所以平均數為7,而標準差為2.41

機率(五) 從{1,2,3,4}中抽出兩個數,母體平均數及標準差為何? 共有{(1,2), (1,3), (1,4), (2,3), (2,4), (3,4)}等6種事件 母體平均數為樣本平均數之平均數 E(x-bar)= ∑x-bar*p(x-bar)=(1.5+2+2.5+2.5+3+3.5)*1/6=2.5

機率(六) 擲硬幣數次,擲出正面的機率為多少?標準差又是多少? 樣本估計值p為x/n ,即正面的次數除以總共擲的次數 標準差為sqrt{[p(1-p)]/n}

抽樣原理(1) 有時候我們不可能訪問母體中所有的個體,所以必須進行抽樣。 抽樣一定會有誤差,也就是根據樣本的調查結果跟真實母體之間有一定的差距,稱為抽樣誤差。 抽樣誤差代表一種區間,也就是樣本估計的結果被包含在一定的上下限。

抽樣原理(2) 當我們做無數次抽樣之後,所得到的每一個樣本平均值將形成一個常態分布。而這些樣本平均值的離散程度就是樣本標準差。 如果樣本抽的次數夠多,真正的母體平均值μ應該等於所有樣本平均值的平均值加減一定的標準差。 但是我們不可能抽無限次的樣本,只能假定單一抽樣就代表無限次抽樣後的平均值。因此我們對母體平均值的估計就是依照抽樣結果。

棣美弗(Abraham De Moivre) 中央極限定理:若一母體變數不論其分配如何,只要有平均數 μ 和一標準差 σ,則 約近似為平均數為 μ 和標準差 的常態分配,而且當樣本數 n 越大時, 的分佈越近似常態分配。 f(z)=[1/sqrt(2π)]*e-z-square/2此為p.d.f機率密度函數,其中z=[(x-μ)/σ] 根據累積密度函數c.d.f求出各個對應z值

標準常態分布圖 重要z值0.0 (0.5)—一半的面積在z值等於0處 當z=1,也就是[(x-μ)/σ]=1,x=σ+μ,F(z)=0.841,1-F(z)=0.16,計算兩邊面積得0.32,也就是說z在-1與+1之間的面積為68%

二項分配(binomial distribution) 當我們知道某一事件發生比例時,設為p ,平均數即為p ,標準差為sqrt[p(1-p)/n] 根據中央極限定理,n夠大時亦成常態分布 例如,當n=1000,p=0.5 ,標準差為0.015

標準常態分布圖

抽樣原理(3) 根據上圖,我們知道,68%的樣本平均值會落在μ加減一個標準差的範圍中。如果是μ加減兩個標準差的範圍,則會包含95%的樣本平均值。如果是μ加減三個標準差的範圍,則會包含99%的樣本平均值。 換句話說,68%的樣本平均值加減一個標準差會包含μ 。以此類推。

抽樣原理(4) 以上是樣本的估計。而我們可推廣到母體的估計,即E (xi)= E (x-bar)=μ σ(xi)= σ,σ(x-bar)= σ*sqrt(1/n). s為標準差, 計算方式為sqrt[∑ (xi-x_bar)2/n-1] 。其中xi表示每一個觀察值。 通常一個簡化的公式為設定σ 等於0.5 ,而2個標準差時可以快速計算為1/sqrt(n). 也就是樣本數的開根號的倒數。

信心水準與抽樣誤差 剛剛提到的68%或95%或99%通常稱為信心水準。意思為抽許多次樣本後, 有多少比率的樣本是我們確定會以一個特定區間包含母體平均數μ 。 信心水準越高,所需要的區間也就越大, μ的上下限也就差距越大。所以信心水準跟抽樣誤差之間必須取捨。通常我們是用95%信心水準,對應兩個標準誤的抽樣誤差

信心水準與抽樣誤差試算 信心水準 68% 95% 99% 標準誤 正負1 正負2 正負3 抽樣誤差 0.5/sqrt(n) 正負1.6% 正負3.3% 正負5%

信心水準與抽樣誤差例子1

實例2 】(中央社記者程啟峰高雄二十日電)高雄地方法院今天再開庭審理高雄市長選舉當選無效及選舉無效訴訟,傳喚全國公信力民調中心一名工作人員出庭作證,調查走路工案影響選情程度,證人作證說,市長選舉後進行電訪民調時,有兩名選民表示,受走路工案影響原要投黃俊英,後來改投陳菊。

信心水準與抽樣誤差注意事項 上述的公式完全不考慮母體大小,只考慮樣本數大小 。 根據上述的公式可以逆向推估需要的樣本。 當母體非常小的時候, 例如低於100 , 抽樣誤差已經沒有意義,可以考慮全查。

單純隨機抽樣 將每一個觀察值加以編號 依照亂數表選中一個號碼 每個觀察值應該有同樣的中選機率

隨機抽樣應用 51 59 04 00 71 14 84 36 43 30 93 44 77 44 07 48 18 38 28 73 78 80 65 33 28 59 72 04 05 94 20 52 03 80 84 13 利用上列亂數表從700個人中選出10個人來參加比賽,若以第2列第5行為起點,則選出的第2位編號是多少?

隨機抽樣應用 第2列第5行→“07”的0開始算 因為總共有700人,是3位數,所以以3個數字為一組,且一組數字的數不能超過700,所以選出來的有74,382,65,332....數到有10個人 假如亂數表到最後的一個數字,但是還沒有取完指定的人數的話,就再從頭第1個數開始算

隨機抽樣的母體平均值及變異數

母體比例的計算 若母體的參數是比例,例如研究計畫繼續升學的學生,那麼計算母體平均數方式為:p=Σyi/n。母體的變異數為[p(1-p)/(n-1)][(N-n)/N]

等比例抽樣(PPS) 若樣本分組,計算母體平均數與變異數時需考慮每一組的比例以及被抽到的樣本數 μpps=(1/Nn)*Σ(y i /πi) V(μpps)=[1/N2n(n-1)]* Σ[(y i /πi)-τpps]2 τpps=(1/n)*Σ(y i /πi)

分組 個案數 累積個案數 比例 1 10 1-10 10/150 2 12 11-22 12/150 3 22 23-44 22/150 4 8 45-52 8/150 5 16 53-68 16/150 6 24 69-92 24/150 7 9 93-101 9/150 102-111 112-119 31 120-150 31/150

等比例抽樣之應用 若從10組中抽4個,而根據隨機抽樣抽出2,3,5,7等四組。且根據資料,這四組的合格人數為1,3,2,1人 μpps=(1/Nn)*Σ(y i /πi)=1/10(4)[1(150/12)+3(150/22)+2(150/16)+1(150/9)]=1.71 V(μpps)=[1/N2n(n-1)]* Σ[(y i /πi)-τpps]2=.0295

等距抽樣(1) 把全體總數N除以樣本數n得到K,起始為隨機亂數抽出R,然後每隔K個抽出一個樣本, R, R+K ,R+2K ,R+3K ,一直到R+(n-1)K。 例---從500人之中抽出10位, 每隔50人抽一個樣本,先以亂數表抽出R為12,下一個樣本編號62, 再一個為112, 一直到樣本編號462

等距抽樣(2) 如果觀察值本身有分組, 則是依照各組人數從小而大排列, 然後各組內再編號以方便抽出。 假如我們有4800個觀察值如下表,如何抽出16個樣本? 先抽一個亂數6 ,然後每隔300就抽一個。

等距抽樣(3) 分組 人數 累積人數 抽出樣本 1 300 6 2 500 800 306,606 3 600 1400 906,1206 4 2200 1506,1806,2106 5 1200 3400 2406,2706,3006,3306 4800 3606,3906,4206,4506 總數 16

等距抽樣

等距抽樣的問題 若樣本編號有規則可循, 會得到偏差 例如, 學生的學號依地區或成績排列, 那麼要調查學生的居住地或成績就可能有偏差, 因為固定抽到某一地區或成績的學生

分層隨機抽樣 先把母群體的所有個體依某些特徵分類,也就是分層,然後在各層之內再進行獨立的隨機抽樣 分層時守著「同層之內同質性取其最大,異層之間異質性取其最大」的原則

分層隨機抽樣之估計

分層隨機抽樣應用 電視公司在三個鎮得到的資料整理如下 N n Mean SD A 155 20 33.9 5.95 B 62 8 25.12 15.25 C 93 12 19 9.36

分層隨機抽樣之計算

分層分段抽樣(1) 主動將樣本分成若干層, 原則為層內同質性越大越好, 層外同質性越小越好。 例如: 依照都市化程度分鄉鎮; 依照學院特性分科系; 依照學校特色分學校 。 人數越多的層應該分到越多樣本;在各層之下再分段以簡化抽樣。 每一人的中選機率仍然會相同。抽取率與單位大小成比例的多階段抽樣(probability proportional to size, pps)

分層分段抽樣(2) 例如調查政大的學生對政大的認同感。 根據資料,博士班學生約834人,碩士班約4,570人, 大學生約9,404人,總共14,808人。 若想抽出樣本1 ,200人,則博士班學生約分配到67人,碩士班約368人, 大學生約765人。

分層分段抽樣(3) 學院 個數 累積 中選次數 樣本數 教育 233 國際事務 274 507 理 616 1123 法 642 1765 中選1 153 傳播 791 2556 文 835 3391 外語 1,118 4509 社科 2,281 6790 中選2 306 商 2,614 9404 總數 9,404 765

分層分段抽樣(4) 先決定要抽出五個學院,K為1880 。 然後抽出起始亂數為1203,落在 法學院。 接下來為文學院,最後是 社科院, 有兩個中選。 每個中選單位必須訪問153人, 共765人。 以傳播學院為例,中選機率公式為(5*2556/9404)*(153/2556)=765/9404。 而博士班以及碩士班中選機率皆同。

假設某一層涵蓋以下鄉鎮市 鄉鎮市 永和 161139 * 新店 175331 336470 三重 244979 581449 中和 259824 841273 桃園 161902 1003175 中壢 189982 1193157 鳳山 197650 1390807 板橋 338037 1738844 新莊 194592 1923496

分層分段抽樣應用 每個鄉鎮市抽出同樣數目的樣本 例如永和預計抽出60個樣本,便預計抽出3個里, 每個里20個樣本,假設永和有25個里,假設每個里人口為M,每一人的被抽取率為[4*161139/1923496]*[3*M/161139]*[20/M] =60/480874

加權 分層抽樣後,要對每一層做加權。加權的權值為:Wi = (Ni/N)╳(n/ni) 。因為:ni = (nNi)/N,即每一層的樣本數等於全部樣本數乘以每一層所佔的比例。 而每一層佔總樣本的比例為權值ni /n ,乘以每一層的平均數(Σxi/ni),相乘後將得到Σxi/n,亦即全部樣本的平均數,也就是對母體平均數的估計。

因為ni = (nNi)/N 所以1/ ni = N/(nNi) 所以平均值Σxi/ni = Σxi ╳ N/(nNi) 加權後Wi ╳[Σxi ╳ N/(nNi)]= Σxi ╳ (Ni/N)╳(n/ni) ╳ N/(nNi)= Σxi / ni

加權方式 通常我們如果有母體的交叉資料,例如每一個縣市的教育程度或性別,我們可以做「事後加權」。如果沒有的話,我們做「反覆加權」,即先對一個類別做加權,通過檢定後再做下一個加權,一直到全部通過為止。

反覆加權 反覆加權的意思為先對某一變數加權,若通過卡方檢驗,儲存資料後,再對另一變數加權,然後再檢驗,然後再對另一變數加權 通常加權的變數為性別、教育程度、年齡、地區等

樣本代表性檢定 χ2=Σ[(Oi-Ei)2]/Ei 例如:樣本數1621,其中男性有896人,女性725人,而根據內政部人口統計,男性有1085120人,女性有1017825人,可計算男性期望值為1621*0.516=836.4,而女性期望值為1621*0.484=784.6 計算χ2值為8.78,查表後p>=0.05,顯示兩者並不相同,亦即母體與樣本不同

加權 男性權值為[1085120/896]*[1621/2102945]=0.934 女性權值為[1017825/725]*[1621/2102945]=1.08

電話訪問之抽樣(一) 電話號碼簿抽樣—根據每個縣市之人口比例決定樣本數,再根據電話號碼簿之頁數決定平均每幾頁抽出一個樣本,在那一頁以隨機方式決定那一欄第幾個號碼為中選號碼 抽出中選號碼後可在尾數或後兩位尾數加1或隨機處理,以找到未登記的號碼

電話訪問之抽樣(二) 電話號碼由局碼及後面幾位數字組合而成,若已知所有局碼及後面有多少住宅電號,則可進行兩階段抽樣,即先抽出局碼再根據局碼後面的電話號碼數抽樣, 但是中華電信尚未開放此資料 目前台灣估計有2600個局碼,實際訪問所得為700多個

抽樣之軟體 SPSS, SAS及Stata皆可進行抽樣,包括隨機抽樣、等距抽樣、分組抽樣、集群抽樣、分層隨機抽樣皆可進行,並且計算樣本之平均數與標準差 EXCEL可進行隨機抽樣

這一球是伸卡球的機率是多少?