第十八章 簡單線性迴歸模型 18.1 前言 18.2 簡單線性迴歸模型 18.3 簡單線性迴歸模型的估計量 18.4 簡單線性迴歸模型的驗証 18.1 前言 18.2 簡單線性迴歸模型 18.3 簡單線性迴歸模型的估計量 18.4 簡單線性迴歸模型的驗証 18.5 迴歸模型的殘差分析
18.1 前言 本章介紹「簡單線性迴歸模型」的理論,主要從 「為什麼」的觀點來探討,其包括簡單線性迴歸的模 型、模型的估計、模型的驗証等。文中也強調並敘述 利用線性迴歸分析技術所應注意的課題。雖然本章是 針對簡單線性迴歸模型的理論,但其理念亦可用到 「複線性迴歸模型」。「複線性迴歸模型」將另闢章 節討論。
18.2 簡單線性迴歸模型 簡單線性迴歸模型是假設『依變數 Y 之期望值為自變數 X 之線 性函數』,即所有 Yi 之期望值均落在一直線上,此稱之為『迴歸 線性假設(The linearity of regresssion)或迴歸共線假設』。 《圖18.2-1》簡單線性迴歸模型
18.3 簡單線性迴歸模型的估計量 簡單線性迴歸分析的目的,是要瞭解是否能用自 變數 X 來解釋依變數 Y ,亦即變數 X 和 Y 的關係是 否密切,而足以適當地用一種線性方程式來表示。換 言之,即是要求出一條經過這 n 個點(資料對)的最 適線性方程式 (稱之為線性迴歸方程式或迴歸直線), 爾後用它,即可由變數 X 的值求出 Y 的值。 一般求出此線性迴歸方程式的方法是利用最小平 方法:即是利用這 n 個點,求出未知參數 α 和 β 的估 計量,分別表示為α 和 β。
18.4 簡單線性迴歸模型的驗証 18.4.1 首先確立依變數,並找出適當的自變數 依變數是要被預測的變數,也是迴歸問題的中心, 由於依變數的結果無法事先預知,因此必須利用其他 變數(因素)來解釋它。 要找出適當的變數,首先必須要確立此變數與依 變數是否有因果關係?因果關係愈強愈佳。 除了因果關係的考慮外,下一步即要選擇關係密 切者。這可利用第十六章的圖示法來判斷,若圖形顯 示兩個變數成「非水平的狹窄帶狀」關係時,此變數 應是一適當的自變數,而且圖形愈狹窄愈佳。
18.4.2 求出簡單線性迴歸方程式 將所收集到的資料代入(1)式中,求出截距 a 和斜 率 b,即可獲得簡單線性迴歸方程式。 .....(1) 簡單線性迴歸方程式:
1 2 18.4.3 檢定參數(理論的截距和斜率) 斜率的檢定 截距的推論檢定 虛無假設:β=0 對立假設:β≠0 虛無假設:α=0 對立假設:α≠0 2
1 2 18.4.4 判定簡單線性迴歸模型的適合性 模型適合性的檢定 判定係數 虛無假設:迴歸模型不適合 (解釋能力極低或斜率為零) 對立假設:迴歸模型適合 (解釋能力高或斜率不為零) 1 判定係數 若「迴歸變異」愈趨近於「總變 異」,則表示依變數的變化能由 迴歸模型來解釋,此時表示此迴 歸模型極合適。「迴歸變異」與 「總變異」的比值稱為判定係數 ,表為 R2,0≤R2≤1。 2
18.4.5 檢定模型的假設 如果可以獲得合適的線性迴歸方程式,但此迴歸 模型是否滿足各項的假設呢?因為迴歸模型的建立是 根基於這些假設。顯然,若其偏離假設太遠,則此迴 歸模型就有問題,所以有必要去檢視這些假設是否成 立。這些假設的檢視稱為殘差分析,請見本章18.5節 的討論。
1 2 18.4.6 利用簡單線性迴歸模型作預測 在某特定值時之期望值的預測 在某特定值時之個別反應值的預測 (1-r)% 的信賴區間的估計值為: 1 《圖18.4-1》個別反應值的預測圖示 在某特定值時之個別反應值的預測 (1-r)% 的信賴區間的估計值為: 2
18.5 迴歸模型的殘差分析 判定假設的正確性,先假定「迴歸模型的假設是正確,然後 再利用現有的資料去驗証其正確性」。此現有的資料就是殘差, 因為所有變化的資料均在殘差內,所以利用分析殘差的結果來判 斷假設的正確性是合理可行的,此謂之「殘差分析」。 但必須知道「即使所有的假設均通過驗証,也不能完全斷言 迴歸模式是正確無誤,而僅能表示以現有的資料,並不能判定其 不合理」。 要分析殘差以驗証假設,可用圖示法來分析: A. 繪殘差次數分配圖,判定是否為常態分配。 B. 依收集資料的順序,繪殘差點圖。 C. 繪殘差 ei 與迴歸估計值 yi 的對應圖。 D. 繪殘差 ei 與自變數 X(即 xi)的對應圖。
1 2 3 18.5.1 殘差相關變數和意義 未標準化的預測量(估計量:PRED) 估計量為 ,i=1、2、...、n 估計值為 ,i=1、2、...、n 1 Leverage 值(Hat 矩陣對角元素 h i:LEVER) 2 預測值的標準差(SPERED) 3
4 5 6 7 標準化的預測量(ZPRED) 未標準化的殘差(RESID) 標準化殘差(ZRESID) Studentized殘差(SRESID) 7
8 9 10 調整的預測量(ADJPRED) 刪除型殘差(Deleted residual:DRESID) 估計量為 ,i=1、2、...、n 估計值為 ,i=1、2、...、n 8 刪除型殘差(Deleted residual:DRESID) 估計量為 ,i=1、2、...、n 估計值為 ,i=1、2、...、n 9 Studentized 刪除型殘差(SDRESID) 估計量為 ,i=1、2、...、n 估計值為 ,i=1、2、...、n 10
11 12 13 Mahalanobis距離(MAHAL) Cook-距離(COOK) Durbin-Watson 統計量(DW:DURBIN) 13
18.5.2 驗証常態分配 要驗証誤差變數是否具常態分配,可繪殘差次數 分配圖,由該圖可概略判斷母群體的誤差變數是否是 常態分配?且其平均數(期望值)是否為零。 另一種方法是利用「常態點圖(normal plot)」, 將每個殘差分別描繪在圖上。若誤差變數是常態分配, 則圖上點之連線應近似一直線。
1 2 3 18.5.3 驗証變異數(標準差)相等 繪標準化殘差次數分配圖 繪殘差 ei 與迴歸估計值 yi 的對應圖 《圖18.5-1》標準常態分配機率圖 繪標準化殘差次數分配圖 1 繪殘差 ei 與迴歸估計值 yi 的對應圖 2 繪殘差 ei 與自變數 X 的對應圖 3
18.5.4 驗証線性假設 若自變數只有一個,則可繪依變數和自變數的散佈圖, 檢視此圖是否近似直線。若否,就不應該以此兩變數作 簡單迴歸分析。 繪「殘差 ei 與迴歸估計值 yi 的對應圖」和「殘差 ei 與 自變數 X 的對應圖」。與【18.5-3節】相同,若圖型顯 示不成一「以零為中心的水平帶狀」時,也表示其關係 並非線性。此時也可利用將依變數轉換的方式處理(如 取對數或開根號等)。 1 2
18.5.5 驗証獨立性 依收集資料的先後順序,繪殘差點圖。若資料是 彼此獨立時,殘差應會隨機散佈在圖上,換言之,殘 差應不會成群出現在零線(即原點)的某一方,否則 表示非獨立。除了圖示法外,亦可利用【18.5-1節】中 的 Durbin-Watson 統計量,或其他無母數分析法,如 「符號檢定(sign-test)」等來檢定獨立性,有興趣的 讀者可參考相關書籍。
18.5.6 例外值(Outliers)的處理 《圖18.5-3》殘差的例外值
18.5.7 資料轉換 適合簡單線性迴歸模型。 1 簡單線性迴歸模型不顯著, 可再加入其他自變數於模型 內(複迴歸分析)。 2
簡單線性迴歸模型雖可用, 但適合度不高,可作對數轉 換或二次曲線模型。 3 簡單線性迴歸模型不適用, 可作開根號轉換或二次曲線 模型。 4