第一章
第 10 章 簡單線性迴歸: 最小平方法
本章綜覽 變異數分析不適合用來說明當某變數變動一單位時,另一變數變動的情形。本章將介紹另一種方法:迴歸分析 (regression analysis)。 迴歸分析: 以數學和統計方法來確認一組變數中的系統性部分,並依此解釋過去的現象和預測未來。 介紹單一變數的簡單線性迴歸模型 (simple linear regression model)、最小平方法及其代數性質、衡量迴歸模型好壞的配適度指標等。
簡單線性迴歸模型 簡單線性迴歸模型:利用一個線性模型來捕捉 {(Xi,Yi),i=1,..,n} 這組雙變量隨機變數中 Yi 的系統性部分g(Xi)。 利用條件均數:E(Y|X ) = g(X)=α+βX, 其中α,β為未知參數,需要我們去估計。 可以將 Y 表示為 Y = α+βX + U, 其中 U 代表不能由 α+βX 所描述的 Y 行為,亦即 Y 與線性模型之間的誤差。
簡單線性迴歸模型 迴歸模型中的變數 Y 稱作應變數 (dependent variable 或 regressand) 變數 X 稱作解釋變數 (explanatory variable 或 regressor)。 參數 α 和 β 稱作迴歸係數 (regression coefficient)。 α: 截距項, β: 斜率。 線性迴歸中的「線性」二字是指模型為參數 (而非變數) 的線性函數。 α+βX2 , α+βlogX 是線性迴歸模型。 α+ X β不是線性迴歸模型。
最小平方法 估計迴歸係數最常用的方法之一就是普通最小平方(ordinary least squares) ,又簡稱為最小平方法。 最小平方法的「認定條件」是: Xi , i=1,2,…,n 之值不為常數。 除了上述認定條件之外,本章亦不對 (Xi, Yi) 的隨機機制作任何限制。
最小平方法 找α 和 β 使模型誤差 Ui 的平方和極小。採用誤差平方和是為了避免正負誤差之間互相抵銷。 目標函數如下: 最小平方法所找的就是使誤差平方和 (或其平均) 最小的那條直線。 如果目標函數改變 (如 Ui 的絕對值之和),就會產生不同的迴歸線。
簡單線性迴歸模型 Y X 可能的迴歸線 誤差
最小平方法 為使目標函數之值最小,必須解出以下的一階條件 (first order condition)。 這兩個一階條件又稱作標準方程式 (normal equations)。
最小平方法 可從標準方程式中求出 α 和 β 的解,稱作最小平方估計式 (ordinary least squares estimator,簡稱 OLS estimator),一般以 若 Xi 為常數, ,則 根本無法計算,這是為什麼需要「認定條件」的原因。
最小平方法 將最小平方估計式 代入設定的線性模型就可得到一條截距為 ,斜率為 的直線, 稱作估計的迴歸線 (estimated regression line)。 斜率係數估計式 衡量 X 的邊際效果:當 X 變動一單位時,估計的迴歸線會預測應變數 Y 將變動 個單位。 截距係數 則表示當 X 為 0 時,估計的迴歸線所預測的應變數 Y 。 將樣本中的變數 Xi 代入估計的迴歸線,即可求得估計的應變數。
最小平方法 應變數 Yi 與估計所得到的應變數 之間的差距稱為最小平方法的第 i 個殘差 (residual)。 估計的應變數之實現值稱為配適值 (fitted value),殘差的實現值稱為殘差值 (residual value)。
最小平方法的代數性質 在 Yi=α+βXi+Ui 的典型模型設定下,最小平方法的殘差具有以下三種性質: 以上的三條式子為一階條件的結果。 在典型模型設定下,給定一組樣本觀察值之後,估計的迴歸線必然通過 這一點。
簡單線性迴歸模型之比較
配適度的衡量 不同的解釋變數可能都適合描述應變數 Y 的系統性部分。如果可以衡量迴歸線的配適度(goodness of fit),就可以選擇配適度較高的迴歸線來描述應變數的系統性部分。所以配適度的衡量指標就可以作為比較不同迴歸模型的基準。 例如:用坪數來解釋房價的配適度比用房間數來解釋房價的配適度高時,則前者是比較好的模型。
配適度的衡量-- 平方和的分解 以下為不受資料衡量單位影響的配適度指標的推導過程: 上式中第一項稱為總平方和 (TSS),第二項為迴歸平方和 (RSS),第三項為殘差平方和 (ESS)。
配適度的衡量-- 平方和 總平方和: 應變數 Yi 在樣本平均數周圍之總變動量。 殘差平方和: 最小平方法殘差的總變動量,即是迴歸模型無法捕捉的變動量。
配適度的衡量-- 自由度 由於總平方和的計算中用到了樣本平均數,等於在資料中加了一個限制條件, 故總平方和的自由度為 n-1。 總平方和自由度與殘差平方和自由度之差即為迴歸平方和之自由度,此處為 1。
配適度的衡量-- 判定係數 判定係數(coefficient of determination):線性迴歸中最常用的配適度指標。它衡量迴歸模型所能捕捉的變動量佔 Yi 總變動量中的比例,通常以 R2 來代表。 判定係數又分成置中的與非置中的判定係數兩種。
配適度的衡量-- 判定係數的性質 R2 愈高代表迴歸模型所能捕捉到應變數的變動量佔總變動量的比例愈高,故配適度較佳。 當 R2=1,迴歸平方和等於總平方和,此時迴歸模型沒有任何殘差,稱作完全配適 (perfect fit)。 當 R2=0 ,殘差平方和等於總平方和,此時迴歸模型對應變數並無任何解釋能力。 若欲利用判定係數來比較不同模型的配適能力,這些模型必須有相同的應變數。
配適度的衡量-- 判定係數的性質 Yi 的位置和比例變動均不會影響置中的判定係數。 Xi 單獨的變動對置中的或非置中的判定係數均無影響。 計算簡單線性迴歸模型的配適度也就是衡量應變數與解釋變數之間的線性關聯度。
實例分析 欲分析廣告費用 (X) 如何影響公司的營業額 (Y)。取得一組 10 家公司的年營業額和年度廣告費用的樣本資料如右表。
實例分析 設立模型為有截距項的迴歸模型,則
實例分析 下圖為估計的迴歸線圖,可驗證估計的迴歸線確實通過平均值的 (11.17,62.5)。
實例分析 根據估計的迴歸線也可以計算出配適值與殘差值。
實例分析 當公司年營業額與年度廣告費用增加或衡量單位改變時, 利用最小平方法所得到的估計值與置中的判定係數綜合於下表。 不論資料發生位置變動或比例改變,置中的判定係數都不受影響。