Introduction to Basic Statistics Dr. Chih-Chiang Yang cyang@tea.ntptc.edu.tw http://tea.ntptc.edu.tw/~cyang
Quiz 衛生署公佈台灣地區約有5000人是屬單腳肢體殘障。 已知台灣地區約有2,300萬人口。 求台灣地區人民的平均腳數?
Answer 所以,根據統計: 我們發現台灣地區多數人腳的數目超過平均值的!
Quiz 回教國家的1名男子可與4名女子結婚。 已知男生與女生的人數比例約為1:1。 喜歡一夫多妻的台灣男人,應移居回教國家,坐享齊人之福?
Answer 從機率與統計的角度來看 平均四個男生中,就有三個男生是娶不到老婆的!
Quiz 下圖是否有某種明顯的特殊趨勢嗎?
Answer 當X軸與Y軸互換,並拉長X軸的座標尺度時 我們發現:
Terms 統計學(Statistics) :在不確定的情況下,透過資料的蒐集、整理、陳示與分析,再加以解釋與推論,而獲得合理的研判或結論。 母體(Population):研究者所欲研究的全部對象所集合而成的集合。 有限母體(Finite Population) 無限母體(Infinite Population)
樣本(Sample):母群體的部分集合。 母數/參數(Parameter):描述母群體特徵的量。 統計量(Statistic):描述樣本特徵的量。
Types of Statistical Analysis 資料型態 單變量分析(Univariate Analysis) 多變量分析(Multivariate Analysis) 時間序列分析(Times Series Analysis) 估算方法 參數統計(Parametric Statistical Analysis) 無參數統計(Nonparametric Statistical Analysis) 應用領域 教育統計(Statistics in Education) 社會統計( Statistics in Sociology ) 計量經濟(Econometrics) 心理計量(Psychometrics) 生物統計(Biometrics) 品質控制(Statistical Quality Control)
Statistical Methods 敘述統計(Descriptive Statistics):僅就統計資料本身特性的描述。 推論統計(Inferential Statistics):根據樣本資料的分析結果,推論母體的特性。
Descriptive Statistics
圖示統計(Graphical Statistics) 質化資料:橫條圖、縱條圖、圓形圖等 量化資料:直方圖、多邊形圖、點圖、枝葉圖等 統計量數(Statistical Measures) 集中趨勢量數:平均數、中位數、眾數等 變異量數:全距、變異數、標準差等
Inferential Statistics
Sampling Methods 簡單隨機取樣(Simple Random Sampling):母體內的任一樣本單位被抽出的機率皆相同。 分層取樣(Stratified Sampling):將母體分成幾個互斥的層(strata),再於層內進行簡單隨機取樣。層內的樣本單位同質性高;層與層之間異質性高。
集群取樣(Cluster Sampling):將母體分成幾個相似的集群(cluster),再於集群內進行簡單隨機取樣。集群內的樣本單位異質性高;集群與集群之間同質性高。 系統取樣(Systematic Sampling):將母體所有的樣本單位依序排列,然後分成許多間隔,每隔若干單位即取一個樣本。
Sampling Distribution 樣本平均數的抽樣分配(母體變異數已知):Z分配(常態分配)。 中央極限定理(Central Limit Theorem):當樣本數很大時,不論母群體是何種機率分配,樣本平均數的抽樣分配為近似常態分配。 樣本平均數的抽樣分配(母體變異數未知):t分配。 樣本變異數的抽樣分配:χ2 分配。 兩個樣本變異數比例的抽樣分配:F 分配。
Estimation 點估計(Point Estimation):根據樣本資料所求得之單一個估計值,以推估未知的母群體參數。 區間估計(Interval Estimation):根據所求得之點估計量的抽樣分配特質,求出兩個數值以構成一區間,並利用此一區間推估未知的母群體參數範圍。
Hypothesis Testing 先對母群體特性作一描述,然後利用抽出來的隨機樣本來推論該描述的真或偽。 假設種類:虛無假設(H0)與對立假設(H1)。 假設檢定的基本邏輯: 在樣本資料中,找足夠的證據來拒絕H0 ;否則只好接受H0 。 接受H0並不表示H0為真,只是表示樣本資料並沒有充分證據可以拒絕H0 。 若是拒絕H0 ,此檢定稱為顯著性檢定(Significant Testing)。
建立假設的基本精神:若是錯誤拒絕H0,所承受的後果會比較嚴重。 建立假設的實際做法: 任何H0的反面敘述為H1 。 等號一定在H0 。
假設檢定的種類: 雙尾檢定(Two-tailed Test) 單尾檢定(One-tailed Test) 右尾檢定(Upper-tailed Test) 左尾檢定(Lower-tailed Test)
假設檢定的步驟: 設立假設(Hypothesis) 設定信心水準(Set α) 型I誤差(α risk):拒絕H0,但為H0真。 型II誤差(β risk):接受H0,但為H0假。 決定拒絕域與接受域(Reject & Accept Region) 檢定統計量(Test Statistic) 結論(Conclusions)
p value與假設檢定的結論 Reject H0 if P value < α Accept H0 if P value >= α