第一章、統計的基本概念 國立高雄餐旅大學 沈瑞棋副教授
統計的基本概念 統計學是從資料擷取資訊的一種方法,也 是一種工具。 狹義的統計學是指以數字表示的事實(fact) 或資料(data)。 廣義的統計學是指搜集、整理、表現、分 析解釋資料,並藉科學的統計推論方法, 在不確定情況下,由樣本資料所獲得的結 果,來推論母體的性質與事實。 也就是如何(How)、何時(When)及為何 (Why)要採用統計程序來做出適切決策的 一門學科。
1-1統計學的分類 統計學依討論的內容可以分成: 敘述統計學(descriptive statistics) 包括資料搜集、整理、呈現、分析解釋資料等步驟,僅就統計資料本身特性的描述,並不將其意義推廣至更大的範圍。通常以數值、表格、圖形來描述資料的特性。 推論統計學(inferential statistics) 依據樣本資料所獲得的結果,將分析結果一般化進而推論至母體,或由樣本統計量推論到母體參數的方法,則屬於推論統計的範疇。
1-2統計專有名詞 母體(population) 母體參數(parameter) 樣本(sample) 統計量(statistic) 由具某些共同特質的元素或個體所組成的群體, 是研究人員所要研究觀察的全體對象所形成的集 合。 母體參數(parameter) 是描述母體特性的統計測量數,一般簡稱為參數 或母數。 樣本(sample) 由母體中抽取部份元素而組成的集合,是母體的 一部份。從母體中所抽取的這些元素就稱為樣本。 統計量(statistic) 是描述樣本資料特性的統計測量數,簡稱統計量, 用來推論母體參數。
母體與樣本間的關係
1-2統計專有名詞 普查(census) 抽樣(sampling) 實驗(experiment) 搜集整個母體資料所進行的調查。 如何從母體抽出樣本的一種程序或方法,目的在於以 有效的方法抽出一組具有代表性的樣本,藉以精確地 推論母體的一些特性。常用的有隨機抽樣與非隨機抽 樣,隨機抽樣可以分為簡單隨機抽樣、系統抽樣、部 落抽樣、分層抽樣、分段抽樣等。 實驗(experiment) 對影響母體特性的某些因素或其他因素加以控制的資 料蒐集方法稱為實驗。 實驗時會刻意對某些個體加上某項處理(treatment),以 期能夠觀察其反應。實驗的目的是要研究,是否該特 定處理會使反應改變。
1-3統計的功用 使得資料變成有意義的資訊。 處理不確定的問題。 分析各種變項之間的關係。 預測。
1.4統計方法的實施步驟 蒐集資料 審查整理呈現資料 分析解釋資料 統計推論 針對研究對象、目的進行資料蒐集。在蒐集時應考慮 是否有現成合用的資料,蒐集的成本費用如何,蒐集 的方式,資料涵蓋的範圍等。 審查整理呈現資料 蒐集到的資料應先審核是否完整、正確、合理與一致, 然後利用敘述統計學所介紹的方法進行分類整理,並 以文字圖形表格的方式將所獲得的結果呈現出來。 分析解釋資料 根據整理的結果加以分析研究,探討各數值間的相互 關係並加以比較。 統計推論 根據步驟所得的結果,來推論母體參數並下結論或做 建議。
1-5資料的分類 依取得資料的方式 依資料的屬性 依資料的發生時間 依資料的數學性質 依資料的對象範圍 依資料的型態 依資料的來源 初級資料(一手資料) 次級資料(二手資料) 依資料的屬性 質性(類別)的資料 數量(量化)資料 依資料的發生時間 橫斷面資料(靜態資料) 時間數列資籵(動態資 料) 依資料的數學性質 離散 (間斷)資料 連續資料 依資料的對象範圍 普查資料 抽樣資料 依資料的型態 分組資料 未分組資料 依資料的來源 內部資料 外部資料
1-6統計資料的衡量尺度 名義尺度 順序尺度 衡量類別資料的類別型稱為名目尺度又稱為類別 尺度。 只區分資料數值之類別,沒有大小、順序及比率 之關係。 不可以作四則運算。 順序尺度 衡量有重要、強弱、好壞程度等級順序之資料的 稱為順序尺度。 此數值具順序意義,但數值間的距離無意義(無相 等的衡量單位),亦即順序尺度只問數量間的相對 次序,而不問其間差距之多寡。
1-6統計資料的衡量尺度 區間尺度 具上述二種量尺的性質,但因衡量的資料無真正 的原點(零點),數值間的差異代表距離的大小,但 不具倍數之關係。 因為無固定的原點,所以其比率(倍數)並無意義。 可以作加、減運算。 比例尺度 具上述三種尺度的性質,因所衡量的數值具真正 原點(零點),因此兩數值間的比值具有意義。 有固定的衡量單位,數值具大小順序的意義,比 例值亦具意義。 可以作四則運算。
四種衡量尺度的比較
(例1):試說明以下變數之測量方法屬於何種測量尺度? 1、紅色(0),白色(2),藍色(4) 2、非常滿意(2),滿意(1),普通(0),不滿 意(-1),非常不滿意(-2) 3、智商(IQ表示) 4、薪資(以元為單位) 解: 1、名目尺度。 2、順序尺度。 3、區間尺度。 4、比例尺度。
下列資料分別屬於何種尺度? 1、冰(-1)、溫(0)、熱(1)。 2、全球各大都市的雨量資料。 3、全球各大都市的氣溫資料。 4、優良(3)、良好(2)、尚可(1)、劣(0)。 5、未婚(1)、已婚(2)、離婚(3)、鰥寡(4)。 6、各種哺乳類動物的智商。 7、果菜市場每日蔬菜到貨量。 8、有車階級(1)、無車階級(0)。 解:1、順序尺度。2、比例尺度。3、區間尺度。4、順序尺 度。5、名目尺度。6、區間尺度。7、比例尺度。8、名目尺 度。
下列何者屬於質的資料?何者屬於數量資料? 1.每個家庭所訂報紙的份數。 2.雜誌依其出版週期(如週刊、雙月刊、季刊、年刊 等)來分類所得的資料。 3.大台北地區國宅空屋率。 4.台灣地區每年稻米生產量。 5.每年外籍勞工來台灣打工的人數。 解: 1.數量資料。 2.質的資料。 3.數量資料。 4.數量資料。 5.數量資料。
何謂“調查”?何謂“實驗”?何謂“觀察”?並舉例說明之。 調查: 是指對影響母體特性的各種因素不做控制的情況 下,進行資料蒐集的方法。 例如人口普查以及國富調查。 實驗: 係指對影響母體特性的某些因素或其他因素加以 控制的資料蒐集方法。 例如一般醫療研究機構對開發出來的新藥品所做的實驗。 觀察: 研究者或其工作人員對某事件利用觀看、查察記 錄,而不與研究對象有任何接觸晤談的資料收集 方法。 例如生物學家觀察美洲豹或非洲象的生態習慣。
例、阿斯匹靈與心臟病 將健康情況、年齡等大致相同的實驗對區分為兩組 (以隨機抽樣的方法)。 一組為實驗組(處理組) 每隔一天一顆阿斯匹靈。 另一組為對照組(控制組) 吃安慰劑(沒有藥效的藥劑) 經過一段時間觀察處理組(吃阿斯匹靈那一組)的心 臟病發作次數,與對照組(吃安慰劑那一組)心臟病 發作次數。如果處理組的發作次數比控制組少,那 麼就可以說:『阿斯匹靈對防止心臟病的發作有效』
1-7 、抽樣的理由
1-8、代表性樣本 什麼是代表樣本 一個代表性樣本是具小偏差與小變異的樣 本。 沒有偏差(bias)與變異性 (variability)很小的樣本。 所謂的偏差是指(大樣本時)利用樣本統計量估計 母體參數時,樣本統計量朝同一個方向偏離母體 參數值的情況。 所謂的變異性是指(大樣本時)樣本統計量的分散 程度。變異性大代表樣本的差異性大。 一個代表性樣本是具小偏差與小變異的樣 本。
偏差與變異性 槍枝性能優良、彈道無偏、準星能夠正確瞄準、射擊技術要好
1-9、 抽樣誤差與非抽樣誤差 估計誤差:母體參數與樣本統計量間的差異稱為估計誤 差。來自兩方面,一是抽樣誤差,另一則是非抽樣誤差。 估計誤差是無法避免,所以只有力求降低此一誤差。 抽樣誤差:是樣本統計量與相對應的母體參數間的差異。此種 差異來自抽樣過程的機遇(chance)、抽樣方法及推論方法的不 同。可經由樣本數目的多少及抽樣的方法(機率法)來控制。 非抽樣誤差:為在記錄、整理資料時所發生的錯誤。非抽樣誤 差可分為處理誤差與回應誤差。 處理誤差:指處理資料時所犯的錯誤,包括計算錯誤、資料輸入錯誤,此種錯誤差無法估計,只有在處理資料時妥善規劃與審核才可避免。一般在統計處理過程大家都假設此種誤差不存在。 回應誤差:是指選定的受訪對象給的資料不正確或是不回應。例如:受訪對象不願誠實回答問題,或對問題不瞭解、隨便猜測、記憶錯誤…等。 無回應:是指無法得到己選定樣本的資料,也就是說無法聯絡上受訪對象,或受訪對象不願意合作。 由於資源有限只有接受抽樣誤差採用抽樣的方法。也就 是在高成本、高精確度的普查方法,與成本低、精確度 較低的抽樣方法間選擇。
圖3.5 抽樣誤差與非抽樣誤差
1-10、機率抽樣法
機率抽樣方法 簡單隨機抽樣: 抽取樣本時,若所有可能抽出的樣本組被抽出的機率均相等, 則稱該抽樣法為簡單隨機抽樣。實施方式可分為三種: 抽籤法、利用亂數表、利用電腦來抽樣。 抽籤法:將母體全部N個個體(或元素)列出名單並加以編號, 再以抽籤方式一個一個逐次抽出。 利用亂數表:抽樣時依亂數表的號碼來抽取樣本。亂數是利 用隨機的方式抽取0,1,2,,9,再集合這些隨機號碼形成的表。 利用電腦來抽樣:利用Excel的抽樣功能及亂數產生器來抽樣。
例 一個母體包含有800個元素,欲從母體中抽 岀50個樣本,試利用亂數表及電腦抽樣的方 法來完成。 先將800個母體元素依序編上號碼001~800。然後 利用亂數表隨意找一數字為起點,然後可以從任 何方向(上下左右均可)開始抽取樣本。 重複出現的樣本,若以抽出不放回抽樣時,己經 抽中的亂數號碼要將之捨棄。 抽出號較800為大時,有兩種選擇: 以選取的號碼減去800為抽樣之號碼。 捨去重新抽取新號碼。
簡單隨機抽樣─亂數表 1 2 3 4 5 6 7 8 9 10 6824 7709 3937 3289 9545 0620 3904 5203 6590 8769 0237 7574 8607 1502 4776 0944 4946 1519 4834 2810 1336 8960 2192 7132 9267 4262 6070 7664 7690 3873 6840 3016 3991 8582 1813 0012 3781 8635 0286 3932 5577 7452 9477 7942 7328 0822 7876 6379 9014 6845 3495 3500 9497 8688 7764 0017 1221 5816 8840 8573 5163 5127 5955 7826 0982 3563 7783 1575 7738 9146 3746 5767 5137 3846 9113 3394 5172 3745 2574 5275 0596 6736 4273 7665 8229 6933 6510 0093 4091 4567 6553 4267 4071 3532 0593 3874 5368 5295 6303 2629
例題 設擬於全班50位同學中,以隨機方式抽 出15位同學接受問卷調查。 練習 可於儲存格B2中輸入: =Randbetween(bottom,top)。 【 Randbetween(下限,上限) 】。 將B2複製至B4。再將B2:B4複製至F2:F4。 練習 大樂透彩券號為1~49,利用Randbetween() 隨機抽6個號碼?
簡單隨機抽樣─用電腦隨機抽樣
簡單隨機抽樣─用電腦隨機抽樣
機率抽樣方法 分層抽樣法: 是將母體依其特性或依調查目的有關的性質分成數個層面 (類或組),母體中每一元素或個體都屬於其中的一個層 (stratum),而且是唯一的一層,這裡所說的層又稱 為副母體(sub–population),它們彼此之間是平行層。 例如部門別、性別、行職業別、鄉村別、年齡別等皆是。再從各層面中隨機抽取樣本的方法。 分層時應將同質性的元素放在同一層,使層內的差異小, 而層間的差異大。如此僅需自各層中抽取較小的樣本就能 獲得具代表全體母體的樣本。 例如:欲調查台灣電子業的研究發展支出的水平,可以根據電子工廠規模大小分成小規模、中規模、大規模三種。再分別自三種規模中隨機抽取廠商,如此可得分層抽樣之隨機樣本。
分層抽樣方法
機率抽樣方法 部落抽樣法: 部落抽樣是先將母體中相鄰的某些群體劃分為N個不 同的部落(cluster),母體中的每一個元素均屬於其 中的一個部落,且唯一的一個部落。再從這些部落 中隨機抽取部落進行普查,又稱為集團抽樣。 部落內的元素的異質性高,而部落間的差異性較小 時,部落抽樣法可以提供較佳的結果。 也就是說當每個部落能夠代表整個母體時,那麼只 要抽取少數幾個部落便足以獲得好的母體參數估計 值。 部落抽樣法主要用於地理區域抽樣,部落內的樣本 較集中,可節省經費與大量的人力。
部落抽樣法
抽樣方法 系統抽樣法: 系統抽樣的步驟 亦可以時間為間隔,通常運用在生產線上。 是自母體自然隨機排列的資料中,每隔一定間隔選取一 個樣本至抽滿n個樣本為止的抽樣方法。 系統抽樣的步驟 將母體的每一單位(元素或個體)編號。 以母體總數樣本數(N/n),計算出樣本區間,若不為整數, 將其四拾五入為整數,假設為k。 可先隨機抽取一個由1至k間的號碼為開始點,假設為b。 然後由起始編號b開始,每隔k (k=N/n)個抽取一樣本。即 被抽選的編號為:b、b+k、b+2k、b+3k、b+4k、。 亦可以時間為間隔,通常運用在生產線上。 若母體名冊完整時,不僅抽樣方便而精確度也與 簡單隨機抽樣一樣。 但個體出現某一規則性或週期性時,不可使用此 種方法,否則抽出的抽樣誤差較大。
機率抽樣方法 系統抽樣法
例題 例如:於總數為1500人(編號1~1500)之母體 中,想要抽出150人為樣本。 先計算其樣本間距 k=1500/150=10。 其次隨機於1~10之中抽選一個號碼為起始 號碼 b,假設b=3。 往後即將起始號3逐次加上10,直至抽得所 有樣本數為止。 所以其結果為3、13、23、、1473、1483、 1493。
機率抽樣方法 分段抽樣法: 將母體按照某些特性或某種分類標準分為幾個部落或層別,先由這些部落或層別中抽出幾個部落或層別,此為第一段。然後再從己抽出的部落或層別,依特性或分類標準再抽部落或層別,此為第二階段,如此依序為之,最後再依隨機或系統或其他方法抽出樣本。 例如:某大學餐廳學生屢有抱怨,學生會為瞭解同學的感受,決定展調查民意,調查方法採分段抽樣法,先由學校隨機選取兩個學院,其次由此二個學院中,隨機抽出六個系,再由6個系中以系統抽樣法,抽出各系學生座號尾號為0的學生,接受問卷調查,以上是三階段系統調查法。
分段抽樣法
1-10、非機率抽樣法 非機率抽樣法有判斷抽樣法、方便抽樣法、滾雪球抽樣法 等。 判斷抽樣法: 統計或調查研究人員依據自己的專長、知識、研究的目的來選取代表性的樣本,此種抽樣方法稱為判斷抽樣法,又稱目的抽樣法。判斷法是主觀的、人為的選樣,因此樣本是否足以代表母體,成為一個問題。 方便抽樣法: 是調查研究人員以現有的或方便取得的方式來抽取樣本的方法。方便抽樣法為非科學的、非客觀的,稱為非隨機樣本。因此,其代表性甚難判斷,誤差也不易估計。 滾雪球抽樣法: 在某些情況下,調查的對象本身稀少,甚至有時候不曉得樣本在何處,例如:有關同性戀的研究,這時可利用己知的少數樣本,再從這些樣本所提供的訊息取得其他樣本,如同滾雪球般越滾滾越多。