迴歸分析與軟體應用 林 國 欽 博士 商學與管理研究所 台南科技大學
內容綱要 統計概念與推論分析 迴歸分析 統計軟體應用
統計科學的基本概念 統計為一種量性研究的工具 資料—資訊—知識—智慧 (收集、整理、分析及解釋資料) 從複雜到簡化 從亂中取其規則性
統計分析的應用範疇 數理統計 政府管理 教育統計 生物、醫學、農業 物理、工程 經濟、管理 社會科學 精算學、保險 統計軟體計算
學習統計的基本策略 重視統計在日常生活的應用 看懂圖表 設計問卷 如何抽樣 如何決定樣本數 先講求應用再談理論 如何做實驗設計 如何利用電腦做分析 如何寫報告
常用重要的專有名詞 母(群)體(population): 研究者所欲研究對象的總集合。 母(參)數(parameter): 描述母體的一些未知的量數。 樣本(sample): 從母體取出的一個部分集合。 統計量(statistic): 從樣本求得的已知量數。 抽樣(sampling): 從母體取出樣本的方法。 推論(statistical inference): 根據樣本對母體做出結論。
抽樣的精神 要知道牛肉很老,不一定要吃掉整頭牛。 資料是統計分析的養份。 抽樣必然產生誤差-抽樣誤差。 誤差如水,真象若石, 水落而石出。 水落而石出。 重複做看看,看結果如何?
資料收集的方法 實驗法:實驗設計 控制情境(變數)、提供處 理、隨機分組。 問卷調查法: 操作問卷內容。 田野調查法: 與研究對象長時期觀察。 次級資料分析法: 官方、公司、網路公開資料 等。
資料型態 類別型(categorical) —名目尺度、順序尺度 連續型(continuous) —等距尺度、等比尺度 橫向型(cross-sectional) 縱向型(longitudinal) ※不同型態資料,應用不同統計方法分析
很重要的常態分配(Normal distribution) 英國數學家棣美佛de Moivre (1667-1754)於1733,最早提出常態曲線。德國數學家C. F. Gauss(1777-1855)廣泛的應用常態曲線於重覆測量誤差的分佈。所以常態分配亦稱高斯分配或稱常態曲線為誤差曲線。 ─在大部分的自然現象,均可用常態分配來描述。 ─在傳統統計推論的基本假設中,常要求母體須具備常態分配。
神奇的常態分配函數 高斯(1777-1853)
常態分布是對稱的,平均數和中位數都落在曲線的中間位置。 常態曲線(Normal Curve) 常態分布是對稱的,平均數和中位數都落在曲線的中間位置。 特別性質一 以試算表演練實例 s m 所以常態分布的平均數、中位數和眾數全都一樣。
常態曲線的分割 反曲點落在-s處 反曲點落在一個s處 特別性質二 可用視查法找到分布的標準差。 從中心點往兩測離開,圖形降得非常快, 以試算表演練實例 可是在兩側尾巴部分,離中心愈遠,曲線就降的愈慢。
標準差決定曲線的形狀 特別性質三 以試算表演練實例 s s m 平均數定位中心點 σ 愈大曲線分怖愈低闊
眾數 s m-3s m-2s m-s m m+s m+2s m+3s 尖峰點 中位數 等面積點 標準差 -3 2 3 -2 -1 1 平均數 以試算表演練實例 s 標準差 -3 2 3 -2 -1 1 m-3s m-2s m-s m m+s m+2s m+3s 平均數 平衡點
中央極限定理 (Central Limit Theorem) 不論母體為何種分配,只要樣本 數取得夠大,樣本平均數的分配 近似常態分配。 從常態分配所衍生的重要分配如下: t-分配 (W. S. Gosset,1876-1937) 卡方分配 (K. Pearson,1857-1936) F-分配 (R. A. Fisher,1890-1962)
現代統計學之奠基者 卡爾‧皮爾森(Karl Pearson) 每個分配都能用四個數值來衡量: 平均數—觀察值散佈的中央值。 變異數—觀察值偏離平均數的情形。 偏度—觀察值在平均數兩側堆積程度。 峰度—觀察值偏離平均數的速度。
統計推論--假設檢定 聶曼(J. Neyman) 、皮爾森 (E. Pearson) 2個假設、2個決策、 2個誤差及2個機率 顯著性檢定─指出效應的產生不是來自隨機機遇的原因。 統計報表中,p-值檢定,應注意下列幾個盲點: 1. 樣本數n愈大或資料有離群值(outlier)時,則p–值會愈小,愈顯著。 2.統計顯著性並不表示有實務顯著性。詳細觀察資料本身結構及散佈圖或找出母數的信賴區間是很有必要的步驟。
相關分析與迴歸分析 (Like Father Like Son) 相聯性(association):兩變數間, 若其中一個變數會隨著另一個變 數的改變而改變時,稱兩變數有 相聯性。 相關分析 相關並不代表因果關係─兩變數間的 關聯性,有時來自潛在變數(lurking variable)的影響。變數間的交絡 (compound)現象(效應混合難辨),無 法對因果關係作出正確的結論。從散 佈圖中的趨勢圖形斜率多少可了解兩 母體的相關程度。
變數的相關實例
相關係數 皮爾森相關係數(Pearson’s r),以r表示。 r值界於-l和l之間的量數,正值顯示變數之間有正相關,負值顯示負相關。|r|值顯示兩變數之間相關的強度。 ※當變數屬類別型時,史皮爾曼相關係數(Spearman’s r)可取代之。
變數間關聯分析之統計方法
迴歸分析 (Regression Analysis) 「迴歸」一詞源於1885,英國優生學家高登(Sir F. Galton ,1822-1911)所寫的論文“Regression towards mediocrity in hereditary stature” ---向中間值迴歸。 ※發現指紋俱唯一性的第一人
迴歸分析三大功能 做描述用--當迴歸模型建立後,描述自變數(X)如何影響因變數(Y) 。 做控制用—控制剛好與預測相反,先控制Y,再求如何輸入X。
迴歸模型的演進
類別自變數的迴歸分析(Categorical Independent Variables)
結語與建議 迴歸模型殘差假設的檢驗 (residuals analysis) 自變數共線性的問題 (multi-collinearity) [主成份分析(principle complement)、脊迴歸(ridge regression)] 非線性模型的考慮 (nonlinear models) 變數轉換的考慮 (variables transformation) 應用無參數模型 (nonparametric regression) 模型適合度檢驗 (goodness-of-fit test)
謝謝聆聽
References 1. D. Salsburg 著 葉偉文 譯 “統計改變了世界-The Lady Tasting Tea” 天下出版。 2. R. Rao 著 石堅‧李竹渝 譯 “統計與真理─怎樣運用偶然性” ,九章出版社。 3. 唐麗英,王春和 著 “Statistica –基礎統計分析”,儒林出版社。 4.林國欽, “統計軟體與應用”講義。 5.數學報告:數學家~~高斯 http://www.nhltc.edu.tw/~chchang/homework/90/social2/3.htm 6.林惠玲,陳正倉 著“應用統計學”3rd.,雙葉書廊。 7.D. Freedman , R. Pisani, R. Purves, and A. Adhikari. Statistics 2nd. New York: W. W. Norton & Company.