抽樣基本觀念 抽樣詞彙 母體 : 求取資訊的對象全體 e.g.人,動物或事物. 個體 : 母體中的一份子.若母體包含的是人,我們則常稱 這些人為受試(或受訪)對象. 樣本: 母體的一部份,我們蒐集其資訊以便對整個母體 做某些結論 抽樣底冊 : 個體的清單,我們從抽樣底冊中抽取樣本. 變數 : 個體的某種特質,被選入樣本的個體就會被 度量這種特質.
例1:民意調查. 變數 : 人們對有關公共政策的問題的回答. 母體:18歲以上的美國居民,包括非公民甚至非法移民. 樣本:從母體中選出,經由電話訪談的人.其人數在1000至 1500之間. 例2:政府經濟與社會資料. 美國最重要的政府抽樣調查是按月執行的“當前人口調查”, 其所記錄的資料中,有許多資料和16歲以上人口是否就業有關. 母體:所有九千七百萬美國住戶. 個體:住戶(不是個人或家族).一個住戶的組成份子,是所有住在同一個屋子中的人,不論他們之間是何種關係. 每月被訪談的約60,000個住戶.
例3:市場調查 “尼爾森媒體研究”的電視收視率調查服務. 母體:所有九千五百萬戶有電視機的美國住戶. 樣本:約5000個住戶,住戶同意使用個人收視記錄器來記錄 該戶中每個人收視的節目. 例4:社會科學研究. 變數:受訪對象的個人及家庭背景,經驗與習慣,以及對某些主題的態度及意見. 母體:住在美國住戶中的成年人(18歲以上),不包括住在機構裡的成年人:例如監所人犯及住在大學宿舍裡的人,也不包括無法以英語訪談的人. 樣本:約1400個成人,訪談是面對面在受訪者的住所進行.
為什麼要抽樣? 為什麼不做普查含整個母體的樣本? (1)費時又費錢. (2)破壞性的調查. e.g.測試鞭炮的功能. (3)檢查個數太多,影響準確度. 怎樣取得爛樣本? 有偏取樣法 如果設計使得結果總是往某個方向偏,我們就稱這個設計是有偏的. 方便抽樣:從母體抽樣時,選最容易取得的樣本 自發性回應樣本: 對某一訴求自然形成的的回應. e.g.寫應或叩應或意見調查 方便抽樣及自發性回應樣本常常是有偏的.
例5:購物中心訪談. 樣本中“較有錢的,青少年及退休人士”的族群比重 太重. 例6:寫應意見調查. 通常對某一議題有強烈感覺的人,尤其是負面感 覺的比較會不嫌麻煩的去回應
簡單隨機抽樣 避開人為選擇因素 選取n個簡單隨機棒本時,必須使得抽樣底冊中任一個個體,被選中的機率都相同. (1)樣本小時,可將抽樣底冊中的每一個個體標示在 一樣的籤條上,混勻後,隨機抽取n張. (2)樣本大時,則採用隨機數字表
隨機數字表 列出0,1,2,3,4,5,6,7,8及9這些數字,且滿足: (1)表中任一個位置的數字,其為0,1,2,3,4,5,6,7,8或 9中任何一個的機率相同.. (2)不同位置的數字之間是獨立的,即一個位置的數值, 完全不會影響到其他位置的數值. 如何選取SRS 例7: 用兩個步驟選取SRS (1) 編代碼.對抽樣底冊中每個個體指定一個數字代碼. (2) 利用隨機數字來隨機選取代碼.
從樣本看母體參數及統計量 參數是描述母體的固定數字.我們無法知道參數的值. 統計量是描述樣本的數字.一旦取了樣本,統計量的值就知道了,但是換個不同的樣本,統計量的值就可能改變.我們常用統計量來估計未知的參數. 抽樣分佈 抽樣變異:如果我們不斷從同一個母體抽取樣本,樣本統計量的值會隨樣本而變. 抽樣分佈:若我們從同一母體抽許多個樣本,其對應之樣本統計量會具有某種可預測的抽樣變異型態 抽樣分佈就是描述這種型態.
偏差與精確 偏差:樣本統計量老是朝同一個方向偏離母體參數值. 欠精確:如果不斷抽取樣本,在不同樣本之下,同一個統計量計算出來的值差異很大、很分散. 若要減低偏差:利用隨機抽樣即可.若將整個母體列在抽樣底冊,再從中抽取簡單隨機樣本,就會得到不偏估計值,也就是說,以SRS得到的統計量估計母體參數,既不會老是高估,也不會老是低估. 如何增加SRS的精確度:用大一點的樣本.只要樣本取得足夠大,要多精確都可以做到. 從大母體取樣母體大小無所謂只要母體比樣本大得多,隨機樣本的統計量之精確性就和母體大小沒關係.
信賴敘述 根據最近的一項蓋洛普調查,美國人民在望向西元2000年的此時,預期日子會過得更好. 例11:利用抽樣分佈. 了解新聞內容 根據最近的一項蓋洛普調查,美國人民在望向西元2000年的此時,預期日子會過得更好. 有1234位成人被訪問到你認為到西元2000年時,你的生活是否會過得更好? 時,有77答是.此次調查的誤差界限是正負4個百分點.
例12:誤差界限. n=1234, p =950/1234=0.77在所有的樣本當中,有95%的樣本比例 p的值會在真正參數值p的+- 0.04之內." “在95%的信心下,認為到西元2000年生活會更好的成人比例會落在以下的範圍內
信賴敘述 信賴敘述(針對母體而不是針對樣本)包含: (1)誤差界限: 樣本統計量離母體參數多遠. (2)信賴水準: 所有可能樣本中滿足這樣的誤差界限的百分比. 我們對母體所做的結論永遠不會是完全正確的. 如果我們要求95%的信賴水準,則必須接受比95%信心時大的誤差界限. 報告誤差界限時,常使用95%的信賴水準. 想在同樣的信賴水準下要求較小的誤差嗎? 取個大點的樣本就成了.
抽樣的實際 抽樣會發生的誤差 (1)抽樣誤差: 抽樣這個動作造成的誤差. 此誤差 使得樣本結果和普查結果不同. (1)抽樣誤差: 抽樣這個動作造成的誤差. 此誤差 使得樣本結果和普查結果不同. (a)隨機抽樣誤差 : {p} 與p的差距 樣本統計量和母體參數之間的差距,是在 選取樣本時因機遇造成的.信賴敘述中 的誤差界限只包含隨機抽樣誤差. (b)抽樣方法 e.g.自發性回應 (c) 抽樣底冊不完整 (2)非抽樣誤差和“從母體取樣本”這個動作無關.此 誤差即使在普查中也可能出現.
例14:電話抽樣. (1) 以電話簿當抽樣底冊,會有很大的偏差因為在很多大城市 中,未登錄的電話 數目超過登錄的電話數目. (2) 利用隨機撥號(RDD)先從所有區域及前3碼的清單抽樣本, 再以RDD設備用隨機方法取後4碼.(問題:超過3/4的號碼沒 有分發出去;同一住戶擁有一支以上的電話號碼.) (3) 約6%的美國住戶沒有電話. 美國南部住戶沒有電話的比例 是北部住戶的2倍.這些漏列會造成調查結果偏差.一般調查 結果聲明的誤差界限並不包括此誤差. (4) 打第一次電話即有人接聽的住戶中,只有37%為男性.為了 平衡受訪對象的性別,可隨機抽取該住戶的一個成人來訪問 好的電話調查會盡力訪問到所有選出的電話號碼. 即使接 不通也會多次重打. 例15:電腦輔助訪問 電腦可協助:自動跳過不相干的問題;隨機排列問題順序記錄已回答人的資料;安排電訪時間.
非抽樣誤差 (1)處理誤差(計算誤差,輸入誤差) (2)無回應誤差 :無法得到已經被選入樣本中的個體的資料是非抽樣誤差中最嚴重的一種. 最常發生無回應的原因是連絡不上受訪對象或受訪對象拒絕合作. 無回應所造成的偏差,很容易就可超越信賴敘述中描述的隨機抽樣誤差. (3) 回應誤差
例16:普查漏失. (1)每10年,美國普查局會寫問卷到他們地址單上所有住戶單 位. (2) 75%寄回問卷 (3)1990 --- 65%寄回問卷,在紐約市僅有53%寄回問卷. (4)對沒寄回的,再派人去訪問.共6次,仍漏掉1.8%的人口.(包 括3.8%在L.A市及4.6%的黑人.) 建議:對於不寄回的住戶,與其試圖連絡每一戶,不如抽取一個樣本做更強及更迅速的後續動作. 回應誤差:謊報年齡,收入,記錯答案
例17:種族效應.1989年,紐約市以及維吉尼亞州選出第一位黑人州長,實際得票率與民調有相當大的差異.(很多人不願意坦承自己投票給黑人.) 例18:選舉經費補助.(問題的措辭例) 應該立法來禁止利益團體捐款給競選活動,還是團體有權捐款給他們支持的候選人? (1) 自發行性回應: 回答yes的比例99% (2) 隨機樣本,回答yes的比例80% (3) 以較中立的立場來提出這個議題,回答yes的比例60% 使用引導傾向的問題及自發性回應樣本的民調是不需理會的.
相信調查結果之前該問的問題 誰做的調查? 母體是什麼? 樣本是怎樣選取的? 樣本多大? 應答率是多少? 用什麼方式連絡受訪者? 調查是什麼時候做的? 問題是怎麼問的?
其他抽樣設計 可靠的抽樣調查既有賴於統計觀念(隨機抽樣),也有賴於施行技巧(後續動作,問題的措詞,有技巧的訪問). 我們的目標是要從由人組成的很大母體中抽樣時,取SRS是好的統計觀念,但是實際施行太貴了. 這些實際困難的解決方法是用比SRS複雜的抽樣設計,第一步是從地圖抽樣而不是從人抽樣 例19: 根據種族分層。 學生總數 30,000 其中黑人 3,000取500名學生的SRS,每個學生被抽中的機率相同 500/30,000= 1/60 分層樣本,e.g 200名黑人及300名其他學生。
多段樣本 第1階段:從美國的3141個郡中抽取樣本. 第2階段:從第1階段選的每一郡中的鎮或區裡選出一個樣本. 第3階段:用地圖或空中鳥瞰圖當做抽樣底冊,從第2階段得到的每一區中抽出小區域(e.g:街區). 第4階段:從第3階段的每一個街區抽出住戶樣本. 多段抽樣設計可以克服SRS在實施上的障礙,並且可以節省抽樣經費. 前述的電話調查也是使用多段調查. 在多段設計中,每個階段所取的樣本可能是SRS,也可以是系統隨機樣本.e.g:依照地理的順序或數字順序,每隔3個取1個.此法不須底冊,且省時,但須注意其陷阱.e.g:避免全部取到3樓的住戶.
分層樣本 應用於多段抽樣的第一階段 [1] 將抽樣底冊中的個體先分成若干群,叫做層. 分層的標準是,你對於這些層有特別的興趣, [1] 將抽樣底冊中的個體先分成若干群,叫做層. 分層的標準是,你對於這些層有特別的興趣, 或者同一層中的個體有接近的性質。 [2] 每層各取一個SRS,全部就是我們的樣本。 當前人口調查根據人口數將地理區域分層,且在第一階段把所有人口綢密地區全部納入樣本(即普查). 分層樣本有兩點優於SRS: (1)從分層樣本可以得到有關各層的個別資訊。 (2)如果變數值在同一層的個體間較接近,而在 整個母體間差異較大,那麼以同樣大小的樣 本來比,分層樣本得到的估計值更精確。
設計抽樣調查 第一步:決定母體 第二步:明確陳述要估量的變數第三步:建立抽樣底冊 第四步:針對樣本做統計設計 第五步:注意細節
議題:民意調查與政治活動 贊成者:公眾議題的意見調查清楚呈現大眾意見 反對者:問題措辭是否適當,答題者是否謹慎 議題:政治職位候選人的意見調查 贊成者:得到關於選民的可靠資訊使競選總部知 道如何把候選人塑造成能滿足民眾需求 的形象;民主社會不應禁止資訊公開 反對者:預測選舉結果的民調恐會影響選民行為 議題:以隨機取樣的意見做為公共政策的依據
為什麼要隨機選取? 隨機抽取使每個人被選中的機率相同。 美國聯邦法院曾裁定,只有當申請者的需求程度一樣時,才可使用隨機選取。
例20:徵兵抽籤。 徵兵抽籤計劃抽出隨機排序的生日。所有19到25 歲的男性都是這次的抽籤對象,共有366個生日。 年尾生的人似乎傾向於抽到比較前面的徵兵順序。 真正隨機的抽籤是1000次中只會出現不到一次這 樣的結果。 調查發現,塑膠球是一次裝一個月份的,又沒混 合均勻。1月份的生日容易在底下,而12月份的生 日是最後裝進去的,容易在上面。
議題:資訊道德 例21 (漏掉細節) 施行研究的機構必須設立制度審查委員會, 負責事先審查所有的研究計畫,以保護受試對象,使受試對象免於受到可能的傷害。在蒐集資料前,研究中的每一個受試對象都必須在知情的狀況下同意受試。任何個人資料都必須 保密。只有整體的統計結果可以公開。 制度審查委員會知情且同意。 例22 (保密原則) 政府資料庫的使用。在保護個人和提供以後可造福 其他人的知識之間,哪裡才應該是平衡點?
實驗 實驗可以對因果關係提供好的證據。 為什麼要做實驗呢? 這樣我們才可以確實針對我們感興趣的處理,研究其效果。
為什麼要實驗? 觀測和實驗 觀測研究 觀查一些個體,並度量我們感興趣的 變數,但並不試圖影響回應。抽樣調查是一種重要的觀測研究。 觀測研究之目的是描述一個團體或一種狀況。實驗 則刻意地將一些個體做某種處理以觀察他們的反應。 實驗的目的,是要研究是否該處理會使回應有 改變。
例1: 阿斯匹靈和心臟病發作的關係。 醫藥實驗 樣本:2萬2千名醫師 (隨機抽樣) (A組) 一天一顆阿斯匹靈 (B組)一天一顆安慰劑 幾年之後 安慰劑組:共239人曾發作心臟病 阿斯匹靈組:僅有139人曾發作心臟病 證明阿斯匹靈的確可以減少心臟病發作
例2:在美國,於中學修習外國語是否會增加學生 的英文能力。 觀測研究樣本:某高中,所有高三學生結果 修過外國語的學生之英文閱讀及文法的平均成績 遠高於沒修過的學生 此數據無法證明修習另一種語言會增進英文能力 因為學生是自主決定是否要修外國語,本身之英 文本來就較好,不能做有關原因與結果的結論
實驗用語 個體實驗加諸於其上的物體。當個體為人的時候,我們稱其為受試對象。 變數: 個體某一被量的特質。 反應變數:我們想研究其變化的變數,反應變數是一個結果。 解釋變數:可以解釋或造成反應變數變化的變數。 處理:任何加諸於個體的特定實驗條件.若一 個實驗當中有數個解釋變數,則處理是指每個 變數都設定一個特定值後的組合。
例3: 醫師健康研究。 解釋變數: 阿斯匹靈及胡蘿蔔素(可能存在交 互作用) 反應變數:觀察心臟病發作,數種癌症及其他相 關的醫學結果 奇數日:受試對象服用一片白色藥片(可能為阿 斯匹靈或只是安慰劑) 偶數日:服用一個紅色膠囊(胡蘿蔔素或安慰劑)
怎樣會做出爛實驗 交絡 潛在變數是對研究中其他變數間的關係有重要影響、卻沒有被列入研究範圍的變數。 當兩個變數對反應變數的影響混在一起,無法區分時,我們稱這兩個變數是交絡的。交絡的變數可以是解釋變數,也可以是潛在變數
例5: 胃冷凍:治療胃潰瘍的一種療法。 潰瘍病人分成兩組 胃冷凍治療,82人中有34%改善 安慰劑治療,78人中有38%改善 醫學界自此以後取消胃冷凍的療法 對照組是必要的!
隨機化比較實驗 設計實驗的第一目標,是要確定實驗可以顯示解釋變數對於反應變數的影響 例6:鐮行血球性貧血症。結果:基組的劇痛發作次數只有控制組的一半 例7: 節約能源。 反應變數是一整年的用電量實驗設計的邏輯 隨機化比較實驗的邏輯 用隨機化的方法將實驗個體分組,所分出的各組在實施處理之前,應該在各方面都類似。 用比較的設計確保,除了正在實驗的處理外,其他所有因素都會同樣作用在所有的組上。 因此,反應變數的差異必是處理的效用所致。 用足夠多的受試對象處理
實驗設計的原則 要控制潛在變數對反應的影響,最簡單的方法是同時比較好幾個處理。 隨機化:用非人為的隨機方法來指派受試對象到不同的處理組。 重覆:對許多受試對象重覆實驗,以減低結果中的機遇變異。 統計顯著性 我們觀察到的效果如果大到某種程度,光 靠機遇產生這種結果的機率很小時,我們就稱此結果 有統計顯著性。 實驗的施行 設計實驗時,抽樣者必須確實知道需要什麼 資訊,而且將問卷題目出得恰當。
例8: 雙盲實驗。對於每個受試對象得到哪種處理,受試對象和所有工作人員都完全被矇在鼓裡只有統計學家知道整個安排。 實驗室老鼠及兔子。 探討早餐玉米片新產品的營養價值,發現住在上層籠子的老鼠較下層老鼠長的快, 故若將吃新產品的老鼠放在上層,而把吃標準食物的老鼠放在下層,則這個實驗就會有偏差。 實驗發現人類感情對兔子的膽固醇濃度有影響--即受到關愛的兔子膽固醇濃度較低,故 實驗過程中需考慮此因素。
處理夠不夠實際? 例12:挫折的研究。模擬研究與實際狀況的差異學生在實驗室中玩輸遊戲成年工作者在面對真的挫敗時的反應 例13:霍桑效應 當人們知道自己正在被研究時,會改變行為的事實e.g:西方電器公司的霍桑工廠研究發現,只要工人知道有個研究正在進行當中, 任何改變都可增加產量。
我們的結論能推廣到什麼程度? 例14: 第三煞車燈。 實驗中第三煞車燈可將車尾碰撞減少了五成之多,然而 10年之後,保險學會發現車尾碰撞僅減少35% 原因: 實驗之初,大部分車都還沒有煞車燈,10年後,幾乎 所有的車都有第三煞車燈故不再引人注意。
例15:食物和癌症。餵食老鼠大劑量受試化學品而致癌的實驗小劑量是否能使人類致癌實驗是否已夠實際到可以產生有用的資訊?能不能讓人信服?這不是根據統計理論決定, 而是根據實驗者對於實驗主題領域的知識決定。要避免產生隱性偏差所需注意的一些 細節,也依賴主題領域的知識。好的實驗必須結合統計原則及對研究專業領域的了解。
區集設計 例16:男性、女性和廣告:比較同一產品的三支電視廣告的效用。 區集是一組實驗個體或受試對象被認為會影響反應的某些方面很類似。 區集設計當中,將個體隨機指派到各處理去的這個步驟,是在每個區集裡面個別執行的。 區集是另一種形式的控制。藉著把潛在變數引進實驗裡來造成區集,可以控制這些潛在變數(像例16中受試對象的性別)的影響。
配對設計配對設計比較兩種處理,每一個區集只包含兩個個體,這兩個個體要儘可能近似。 配對設計的另一種可能,是每個區集可以只包含一個受試對象,而這個受試對象得要接受兩種處理,一個處理執行完畢,才執行另一個處理。 例17:右手對左手。 慣用右手的人,是否右 手比左手有力? 讓每個受試對象兩隻手都用,這樣我們就可以 對右手、左手做直接的比較。這就是一個配對 設計。 我們沒法把受試對象隨機分組,我們做的,是隨機決定每個受試對象先用哪隻手。
公共政策實驗 近年來,已有許多經過統計設計的實驗被用來檢驗公共政策的改變。 政策實驗的缺點 政策實驗的缺點 公共政策實驗經常會面臨嚴重的 實際困難,使得實驗沒法子好好執行。這類實驗常常 很花錢 ,而且要花很多時間來完成。實驗結果對於公共政策的主要問題 影響很小這些問題是受政治所左右的
例18: 紐澤西福利實驗目的是要檢驗:如果用新的福利給付方法取代舊制,效果如何? 舊制的給付額是固定的,而且一旦接受給付的家庭有了超過某一個很小 數額的額外收入,給付立刻停止。新制則是一種浮動的給付方法,金額隨著家庭收入的增加而遞減。 解釋變數有兩個:最低保證收入、收入增加時福利給付降低的比例。接受檢 驗的有這些變數的八種組合,當時的福利制度就當作控制,因此總共有九個處理。
反應變數很多,包括家庭收入、受雇狀況及家庭穩定度。參加受試的1357個家庭被分成3個區集, 每個區集含400到500個家庭,分區集的標準是依最近收入水準。 使用區集是因為最近的收入有助於 預估以後的收入。 最初抽出的48000戶中結果有27000戶受訪,其中只有3124戶合乎參與實驗的各項條件。當訪問員 回去邀請這些家庭加入實驗時,有425家不見了,又有一些拒絕參加,最後只剩1357戶。
困難:紐澤西福利實驗在實驗還沒真正開 始之前,就花了一大堆時間和錢來找那 1357戶受試家庭。 最後的結果一直到研究開始的9年之後才得 到。到這時候,政治氣候已經不一樣了。 研究所得結果對福利政策毫無影響。