沈冠甫 財務金融系 jackie@uch.edu.tw 統計與生活 沈冠甫 財務金融系 jackie@uch.edu.tw
第壹部:數據來源 第二章:抽樣資料 2.1 導讀 P33 在現實生活中,研究單位或研究者常受限於資金或是時間等等因素,而無法對全體研究對象進行調查,因此常需藉由抽樣的方是由全體研究對象中取得能代表全體研究對象的部分資料,即為樣本。此時的「全體研究對象」即為母體。
2.2 樣本好壞的判斷標準 1.母體有沒有清楚的定義? P33 2.合乎母體定義裡面的每一個個體是否都有一個不等於零的中選機會? P33
2.3 典型的壞樣本 1.便利抽樣 P34 2.自願樣本 P35 3.立意抽樣 P35 4.配額選樣 P36 壞樣本的毛病 P34 1.對調查母體沒有定義清楚 2.母體裡面的個體有些永遠不可能被抽中 1.便利抽樣 P34 2.自願樣本 P35 3.立意抽樣 P35 4.配額選樣 P36
1. 便利抽樣 P34 便利抽樣:碰到誰就問誰的抽樣 例如: 1. 在新光三越的前廣場進行訪問、 2. 對水塘喝水的動物進行調查 便利抽樣:碰到誰就問誰的抽樣 例如: 1. 在新光三越的前廣場進行訪問、 2. 對水塘喝水的動物進行調查 壞處:母體對象沒有定義,而且有些個體不會被抽中
2. 自願樣本 P35 壞處:一個人可以重覆許多次,導致有灌水的問題 自願樣本:自動送上門來的樣本 例如:讀者投書、電話叩應、Yahoo奇摩新聞意見調查 壞處:一個人可以重覆許多次,導致有灌水的問題
3. 立意抽樣 P35 立意抽樣:由研究人員依照本身的主觀判斷去挑樣本 例如: •訪問對核能發電具有專業知識的人士 •只選取熟悉地方事務的里長和村里幹事 •繁星計畫僅訪問高中註冊組的教務人員 壞處:根據專業人士的意見是否足以代表一般人的意見就成為一個很大的問題。
4. 配額選樣 P36 配額選樣:把調查對象依照特徵分類後,根據各類別的百分比,每類立意找人到額滿為止 壞處:在配額之內進行便利抽樣,容易受到訪員主觀選擇受訪者的影響,對於推論的正確性傷害相當大
2.4 好樣本的特性P36 母體有定義 母體裡面的每一個個體都有被抽選機會 ⇒樣本是母體的縮影 ⇒樣本具有代表性 抽取好樣本的方法
簡單隨機抽樣P36 簡單隨機抽樣:母體裡面每一個個體都有相同的機率被抽選成為樣本 例如:調查台北市某個社區內的一千戶居民每個月自來水的平均用量,隨機挑選其中10戶進行調查 Excel建立的隨機亂數表
簡單隨機抽樣P36 利用隨機數字進行簡單隨機抽樣 -自有120位新生的班上抽取5位同學,參加與校長座談 -先將120位新生自1至120編號 -取隨機亂數表中任二列,因有120位新生,故取連續3個數 字代表一組編號 -忽略大於120的數字,取出前5個小於或等於120的數字 列1 051854 388 718 753 003119410 035566 164 列2 879 951 428 278 996 322 803 060092 256 874 →3, 35, 51, 50,與119號參加與校長座談
系統抽樣P36 系統抽樣:每間隔固定的數選取一個樣本 例如:從五百張訂單中抽取十張訂單作為樣本, 自第一列隨機抽取一個小於等於500的數字, 第一個選定的樣本是第51號的訂單, 之後每隔五十號(500/10)選取一個調查樣 本,分別為編號051、101、151、201、251、 301、351、401、451、001等十張訂單
分層隨機抽樣P37 分層隨機抽樣:根據母體之中每一個個體的特性,分成幾種類型,稱為「層」,然後 每層再用機率抽樣方式抽取樣本 例如:估計某個小學全體學生的平均身高,首先根據性別分成男、女兩層,然後每層中各自隨機選取樣本。
分層隨機抽樣 原因:可得各層訊息,而且樣本分配較均勻,提高估計準確度。
集體抽樣P37 集體抽樣:先將母體區分為許多個不同的集體,然後隨機抽取少數集體當成樣本,中選的集體全部調查 例如:某市教育局想瞭三年級數學新教學方法的成效,在該市隨機抽取十個小學當成樣本學校。其中五個小學採用新教學方法,另外五個小學採用因前教學方法。上完一學年後,使用同一份試卷進行測試與比較。
2.5 抽樣設計的基本概念P39 1.決定調查的母體 2.從母體中抽取樣本 3.確保樣本能正確的代表母體 目標:樣本是母體的縮影
母體參數與樣本統計量P39 母體參數:描述母體資料的數字(未知) 樣本統計量:描述樣本資料的數字,是根據樣本資料計算出來的一個值(已知) 母體參數:描述母體資料的數字(未知) 樣本統計量:描述樣本資料的數字,是根據樣本資料計算出來的一個值(已知) 母體參數VS 樣本統計量
例子:臺大學生有汽車駕駛執照P39 例子:臺大學生的上網時間P40 母體參數:臺灣大學學生有汽車駕駛執照者的比例 樣本統計量:抽取1000人的樣本中,有580人有汽車駕駛執照,由樣本估計出來的值為58% 例子:臺大學生的上網時間P40 母體參數:臺灣大學的學生每週平均上網時間 樣本統計量:抽取1000人的樣本中,每週平均上網時間是24.3小時,由樣本估計出來的值為24.3小時
偏差與變異性 2.6樣本提供的資訊-母體的縮影P40 偏差:當我們取得很多套樣本時,樣本統計量會朝同一方向偏離母體參數 變異性:當我們取得很多套樣本時,樣本統計量的值散開程度的大小
例子:槍手打靶 母體參數:靶上的中心 樣本統計量:發射的子彈 偏差:發射的子彈都往同一個方向偏離靶心 變異性:發射的子彈在靶上分散的程度
偏差VS 變異性
抽樣誤差 抽樣誤差:母體參數跟樣本統計量的差距, 包括系統誤差和隨機誤差 系統誤差:導致樣本統計量有所偏差 隨機誤差:造成樣本統計量分散
抽樣誤差
偏差大變異性小 偏差小變異性大 偏差大變異性大 偏差小變異性小
處理偏差和變異性的問題 降低偏差:重覆利用簡單隨機抽樣,將這些樣本統計值平均起來會很接近真實的結果 減少變異性:取得大一點的樣本,雖然每次的結果會不相同,但是差距不會很大
信賴係數 誤差界限:樣本統計量距離母體參數有多遠 信賴水準:如果經過重複抽樣,有多少百分比的信心,真正值會落在誤差界限內。
例子:臺灣民眾抽菸比例 臺灣地區18歲以上民眾的吸菸率是22%,此次調查在百分之九十五的信賴水準下,誤差界限在正負三個百分點以內。 誤差界限:19%到25%的範圍 信賴水準:有百分之九十五的信心這個區間會 含著母體的真正參數值
實例應用:2001年國民健康訪問調查 母體:2000年臺灣地區全體人民 樣本:採用多段分層抽樣設計 目的:瞭解國人健康狀況與醫療服務利用情形
國民健康訪問調查:分層隨機抽樣
國民健康訪問調查:樣本選取
樣本具有母體的代表性
個人健康狀態
個人健康狀態(性別)
醫療服務利用
飲酒狀況
吸菸狀況
嚼檳榔狀況
統計人物小傳 C.I.Bliss (1899~1979)
致死劑量 在生物及毒物學中,「半致死劑量(50% lethal dose, 常簡寫為LD-50)」是大家耳熟能詳的名詞,意思是某藥劑的施用量,若達到半致死劑量就會造成目標生物群體中半數死亡。半致死劑量的觀念就是由C.I. Bliss 所提出,為了估計半致死劑量,他發展出原創性的「機率單位分析(Probit analysis)」方法,他的這項發明對近代藥物學及毒物學的發展有深遠的影響。
統計結緣 •Bliss原是一位昆蟲學家,在大學畢業後進入美國農業部做殺蟲劑的研究。 •期間友人曾介紹他一本費雪所寫的「研究工作者的統計方法」。 •啟發他對實驗設計的興趣,為了想進一步了解書中背後的理論,繼續研讀其他費雪所寫的數學論文,並根據費雪書中的方法著手進行殺蟲劑實驗。
殺蟲劑實驗 Bliss發現有趣的現象。 •無論施用多高劑量的殺蟲劑,試驗後還是會有一些昆蟲活下來。 •無論施用多少量的殺蟲劑,最終還是會有幾隻昆蟲死亡。
總結 評估樣本的標準 抽樣方法 –簡單隨機抽樣 –系統抽樣 –分層隨機抽樣 –集體隨機抽樣 抽樣誤差 –系統誤差 –隨機誤差 實例