第 六 章 預測變數及迴歸模型的選擇
預測變數的選取 如何將模式精簡而又能使模式有很好的預測能力,是作資料分析所面對的重要課題。 在選擇與準則變數有關的預測變數時,常會選到重疊性(共線性)高的預測變數,因此,模式中重疊性預測變數的排除,也是討論的重點。
好的模式的條件 一個好的模式,基本上除了殘差圖要滿足隨機性外,同時也要符合「擬合性高」的要求。 一個好的模式應該具有: (1)R2 要大(或SSE要小)。 (2)MSE要小。 (3)Cp值要小(或儘量接近 p,其中 p 為模式 中參數的個數)。
好的模式的條件(續) R2 要大 將所有的預測變數都放入模式時,R2 最大,但付出的代價是:模式複雜且解釋困難。
好的模式的條件(續) MSE要小 當模式中放入越多的預測變數時,R2 會越來越大,但相對的模式也會越複雜(參數個數 p 增加)。如何在模式擬合度(R2 大)與簡化模式(p 小)的程度之間取得平衡?統計上通常以調整後的 Ra2 作判斷。 Ra2 = 1 – ( 1 - R2 ) × [( n – 1 ) / (n – p )]
好的模式的條件(續) MSE要小 其中,p 為參數的個數。 Ra2 是對參數個數 p 作懲罰的工作,p 越大會對 Ra2 越不利。所以除非由於 p 增加後使 R2 也增加很大,不然,p 增加時, Ra2 可能不升反降,此時,即應減少模式中預測變數的個數。
好的模式的條件(續) Cp值要小 Cp值的定義為: Cp = SSEq / σ2 – ( n – 2q ) 其中, σ2 是考慮全部的預測變數都放在複迴歸模式內時 σ2 的估計值,而 SSEq 是考慮 q - 1 個預測變數時,複迴歸模式的殘差平方和,n 是觀察的樣本個數。當考慮全部的預測變數都放在複迴歸模式內時(即 q = p ),則 SSEq = ( n – p )MSE = ( n – p )σ2,故 Cp = p ︿ ︿ ︿
Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + β5X5i + εi 最佳模式的選取 通常選取「最佳」模式的方式有二種: 一種是跑完所有的迴歸式再作比較,選出最佳的模式。 另一種是逐步選取法,它不需要跑完所有的迴歸式,可節省時間,但也可能會錯失「最佳」的模式。 Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + β5X5i + εi
所有迴歸式的比較選取法 若考慮的預測變數有 p 個,則所有可以選取的迴歸模式就有 2p – 1個。 跑出所有的迴歸模式後,可以分別將所有的 R2 對 p 畫散佈圖,並將每一個 p 對應的最大的 R2 連成一直線,以圖形觀察之。
所有迴歸式的比較選取法 Yi = β0 + β1X1i + εi Yi = β0 + β1X2i + εi Yi = β0 + β1X1i + β2X2i + εi Yi = β0 + β1X1i + β2X3i + εi Yi = β0 + β1X1i + β2X4i + εi Yi = β0 + β1X1i + β2X5i + εi Yi = β0 + β1X2i + β2X3i + εi Yi = β0 + β1X2i + β2X4i + εi Yi = β0 + β1X2i + β2X5i + εi Yi = β0 + β1X3i + β2X4i + εi Yi = β0 + β1X3i + β2X5i + εi Yi = β0 + β1X4i + β2X5i + εi
所有迴歸式的比較選取法 Yi = β0 + β1X1i + β2X2i + β3X3i + εi …… Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + εi Yi = β0 + β1X1i + β2X2i + β3X3i + β4X4i + β5X5i + εi
所有迴歸式的比較選取法 亦可分別將每一種預測變數個數對應的MSE 畫散佈圖,並將每一種預測變數個數對應的 MSE 之最小者連成一直線。 也可畫 Cp 值對放入模式之預測變數個數的散佈圖及其最低點的連線。分別就圖形觀察之。
所有迴歸式的比較選取法 一般而言,以 R2 、MSE 及 Cp 值作判斷,所選到的最佳模式不一定相同。 以 R2 大作為判斷準則時,先找出幾個 R2 較佳的模式。以 MSE 小作為判斷準則時,先找出幾個MSE較佳的模式。而以 Cp 值小作為判斷準則時,也找出幾個 Cp 較佳的模式。 最後再從這三組中找出共同者,作為最後模式選擇的參考。
逐步迴歸選取法 向前選取法(Forward Selection) 所謂向前選取法是選取進入模式的預測變數越選越多,每一個步驟都是選取「剩餘」解釋能力最強的一個預測變數進入模式,但其解釋能力也要通過事先訂好的門檻。 (常用的門檻為 Fin = 4,或顯著水準 α = 0.05)
逐步迴歸選取法 向前選取法(Forward Selection) 開始時,模式中沒有任何預測變數。 第一步驟:在所有 p - 1 個預測變數中 ,選取對準則變數 y 最有解釋能力的變數進入模式,其選取的方式是找 F 值最大者,亦即找變數 xk,其Fk 值是所有 p -1 個 F 值中最大者。 Fk = MSR(xk) / MSE(xk)
逐步迴歸選取法 向前選取法(Forward Selection) 第二步驟:選取除了 xk 之外剩下的 p - 2 個預測變數中偏 F 值最大且通過門檻的預測變數。 Fj|k = MSR(xj | xk) / MSE(xj,xk) 其中,Fj|k 表示模式中已經含有 xk ,再選入 xj 時的偏 F 值。
逐步迴歸選取法 向前選取法(Forward Selection)
向前選取法應注意事項 選入模式的預測變數會越來越多,每一步驟只選取一個預測變數進入模式。 一個預測變數一旦被選入模式中,就一直留在模式內,不再退出。 每一步驟選入模式內的預測變數必須滿足二個條件:一是其偏 F 值是所有偏 F 值中最大的,一是其偏 F 值必須大於設定的門檻 Fin,通常 Fin 訂為 4(這是一般套裝軟體的內設值)。
向前選取法應注意事項 向前選取法最後選定的預測變數個數未必會包含全部的預測變數。 以向前選取法所得的「最佳」模式與跑所有迴歸式的比較選取法所得的「最佳」模式可能會不同。 各種套裝軟體跑完向前選取法後通常都會有摘要表,一般只要看此表就可以了。
向前選取法摘要表 Summary of Forward Selection Procedure for Dependent Variable Y Variable Number Partial Model Step Entered In R**2 R**2 C(p) F Prob>F 1 X4 1 0.5292 0.5292 668.4476 53.9482 0.0001 2 X3 2 0.1582 0.6874 430.3167 23.7945 0.0001 3 X5 3 0.1927 0.8802 139.8639 73.9720 0.0001 4 X2 4 0.0653 0.9455 42.7440 53.9060 0.0001 5 X1 5 0.0255 0.9710 6.0000 38.7440 0.0001
逐步迴歸選取法 向後選取法(Backward Selection) 向後選取法選取預測變數的過程和向前選取法相反。 開始時,全部的預測變數都放在模式內,然後再將解釋能力差的(偏 F 值較小的)變數逐一去掉,直到所有放在模式中的預測變數其偏 F 值都大於預設的門檻 Fout (通常用 3.99 )時才停止。
向後選取法應注意事項 每一個預測變數一旦從模式中去除,就不再進入模式。 每一個步驟只能去除一個預測變數,即使同時有二個預測變數的偏 F 值小於 Fout ,也只能去最小的那一個變數。 向後選取法最後所得的模式可能與向前選取法所得的模式不同。 向後選取法所選出被剔除的預測變數,有可能是與準則變數 y 相關係數最高的,其可能的原因是預測變數之間的共線性所造成的。
逐步迴歸選取法 逐步選取法(Stepwise Selection) 逐步選取法結合「向前選取法」與「向後選取法」而成 開始時,以向前選取法選入一個預測變數;而後每當選入一個新的預測變數時,就利用向後選取法,看看在模式中已存在的預測變數有無偏 F 值小於 Fout 的變數。如果有,則偏 F 值最小的預測變數就會被排除在模式之外,接著再進行向前選取;如果沒有,則繼續向前選取 重複輪流使用向前、向後選取的步驟,直到沒有預測變數可以再被選進來,也沒有預測變數應該被剔除掉時即停止。
世界盃預測模式 起床看錶法:每 256 ( 1/28 ) 人中即有一人會連續「猜中」八場。 因為它的預測結果神準,所以是個好模式。 但因為這種模式背後沒有理論依據,它的結果其實只是因為「機遇」造成的。 沒有理論依據,純靠機遇而得到的結論,不具有「重複性」,所以不可靠。
世界盃預測模式 「逐步迴歸」有點像是「暴力法」,所得到的結論其實是靠「運氣」。 統計上「肯定」的結論,只是基於「機率分配」的結論:因為得到這樣的結果純靠「機遇」而發生的機率很低,所以具有「統計顯著性」。 如果沒有理論依據,所得到的模型可能在理論上難以解釋 (符號相反、遺漏關鍵變數、包括非必要變數)。
「好的」模型應具有的性質 可識別性(identifiability):對於給定的一組資料,所估計的參數值必須是唯一的。 配適程度(goodness of fit):模型中所包含的解釋變數應儘可能地解釋反應變數的變化。 理論一致性(theoretical consistency):模型中自變數的係數符號應和理論相一致。 預測能力(predictive power):對模型有效性的唯一檢定就是將預測值與經驗值相比較。 精簡性(parsimony):模型應儘可能簡單。
模型設定偏誤的類型 模型的設立應儘可能簡單,包括理論上建議的關鍵變數,而將次要的影響因素納入誤差項。 常見的模型設定偏誤如下: 遺漏相關變數 包括不必要的變數 採用了錯誤的函數形式 測量誤差
模型遺漏相關變數的後果 模型中剩餘變數的係數估計通常是偏誤和不一致的。 誤差變異數的估計也是不正確的,估計量的標準誤也是偏誤的。 因此,常用的假設檢定過程是無效的。
模型包含無關變數的後果 仍可以得到實際模型係數不偏的和一致的估計值。估計的誤差變異數是正確的。 標準的假設檢定過程仍然是有效的。 模型中包括多餘變數的主要問題是估計係數的變異數會變大,因而對真實參數的機率推論就沒那麼精確了。 因為信賴區間變寬,也就更容易接受虛無假設
模型函數形式錯誤的後果 由於缺乏很好的理論基礎,因此如果選擇了錯誤的函數形式,則估計的係數可能是真實參數的偏誤估計值。
應變數測量誤差的後果 OLS 估計量是不偏的。 OLS 估計量的變異數也是不偏的。 但是估計量的變異數比沒有測量誤差時來得大,因為應變數中的誤差加入到了誤差項了。
解釋變數測量誤差的後果 OLS 估計量是偏誤的。 OLS 估計量也是不一致的。即使樣本數夠大, OLS 估計量仍然是偏誤的。
模型中相關變數的診斷 Yi = β0 + β1X1i + β2X2i + β3X3i + εi 如果經濟理論表明所有這 3 個 X 變數都對 Y 有影響,那麼就應該把它們都納入模型。 即使實證檢定發現一個或多個解釋變數的係數是統計不顯著的,這種情況下不會產生非相關變數的問題。
模型中相關變數的診斷 Yi = β0 + β1X1i + β2X2i + β3X3i + εi 有時候僅僅是為了避免遺漏變數偏差,模型中會納入一些「控制變數」。 如果控制變數是統計不顯著的,該控制變數即是多餘的變數,則從模型中刪除這些控制變數並不會顯著改變點估計值或假設檢定的結果。如果控制變數是統計顯著的,則該控制變數很可能屬於模型。
模型中相關變數的診斷 在進行設定檢定時,頭腦中要有一個「真正」的模型。有了這個模型,就可以透過 t 檢定或 F 檢定來判定一個或多個變數是否真正相關。 在建立模型過程中,不能重複使用 t 檢定和 F檢定,也就是說,不能一開始 Y 和 X1 相關,因為 β1 在統計上是顯著的;接著將模型加入X2 變數 ,如果 β2 是統計顯著的,就把這個變數保留在模型中。這樣的過程稱為逐步迴歸 ︿ ︿
模型中相關變數的診斷 不建議採用這種「資料探戡」的策略,即對所有可能的模型一一嘗試,希望從中至少找出一個與資料配適良好的模型。 因為如果說從一開始 X2 就屬於模型的話,則早該將之納入模型。在初始迴歸中排除 X2 將會犯遺漏相關變數的錯誤,並且會帶來嚴重的後果。 建立模型必須以理論為指導。
如何建立理論上正確的模型 首先根據理論或調查以及以前的實務經驗,建立一個自認為抓住了問題本質的模型。 然後對這個模型進行實證檢定,得到迴歸結果之後,就根據「好的」模型的衡量標準進行事後分析。 到了這個階段,才能知道所選的模型是否恰當。
判斷模型是否恰當的參考標準 R2 和調整後的 Ra2 估計的 t 值 與事前預期相比,估計係數的符號
選擇模型的基本準則 模型選擇的重點不在 R2 ,而是考慮進入模型中的解釋變數之間的相關性(即理論基礎)、解釋變數係數的預期符號、統計顯著性以及類似彈性係數這樣的測量工具。 避免僅僅根據 R2 值選擇模型。 建立模型不僅需要正確的經濟理論,合適可用的資料、對各種模型統計性質的完整理解以及經驗判斷。而實務經驗來自於不斷地實踐。
預測變數取捨的依據 在實務中,計量經濟學家在選擇進入模型的變數個數、模型的函數型式以及關於模型所含變數的機率性質的假設時,必須做出一些自己的判斷。 為作經驗分析而選擇「正確」模型在一定程度上涉及一些嘗試與糾錯的過程。
預測變數取捨的依據 上述說明了為甚麼模型的選擇必須有一些經濟學的理論基礎,以及模型的修改必須有一些經濟學方面的理由 (不建議用「資料探戡」)。 純粹地為配適而配適的模型很難在事前的理論上站得住腳。在模型建立過程中,要以經濟理論為依據,並充分利用以往的工作經驗。 一但建立起模型,就不要隨意地從模型中刪除某個解釋變數。
模型建構的方法 simple – to – general:即向前選取解釋變數的方法,將解 釋變數一個一個加入模型中。不建議採用這種方法,因 為模型中遺漏解釋變數,其參數估計式是偏誤的。 general – to – simple:即向後選取解釋變數的方法,先將 全部解釋變數均納入模型中,再逐一將解釋能力不顯著 的解釋變數 (即該解釋變數前面的參數經檢定後,不顯著 不為 0) 刪除。建議採用此法。 stepwise:逐步選取解釋變數的方法。此法將向前選取法 和向後選取法併用。不建議採用此法。 44
Nested Testing Structures 若是 nested structure,則在檢定哪一條迴歸式較佳時,即是以 F-test 檢定右邊的限制條件。若 H0 為真,則短的迴歸式較好。 45
迴歸模型設定的檢定----RESET 檢定 模型 Yi = β1 + β2X2i + β3X3i + εi 是否設定錯誤,RESET 檢 定方法如下: 以 OLS 估計迴歸模型 Yi = β1 + β2X2i + β3X3i + εi 後,求得 樣本內的預測值 ĉi。 將 ĉi2 和 ĉi3 項加入解釋變數,重新估計迴歸模型 Yi = β1 + β2X2i + β3X3i + 1ĉi2 + 2ĉi3 +εi 聯合檢定 H0 : 1 = 2 = 0 H1 : 1 ≠ 0 or 2 ≠ 0 接受 H0 代表未能檢測出迴歸模型的設定有錯誤; 拒絕 H0 代表迴歸模型設定錯誤。 46
迴歸模型設定的檢定----RESET 檢定 若H0 : 1 = 2 = 0 為真,則模型 Yi = β1 + β2X2i + β3X3i + εi 。 以 OLS 對此模型跑迴歸,得出殘差平方和為 SSER。 若H0 : 1 = 2 = 0 不為真,則模型為: Yi = β1 + β2X2i + β3X3i + 1ĉi2 + 2ĉi3 +εi 。以 OLS 對此模 型跑迴歸,得出殘差平方和為 SSEU。 聯合檢定 H0 : 1 = 2 = 0 H1 : 1 ≠ 0 or 2 ≠ 0 檢定統計量為: 接受 H0 代表未能檢測出迴歸模型的設定有錯誤; 拒絕 H0 代表迴歸模型設定錯誤。 47
Many-Degrees-of-Freedom Test: The Encompassing Test H1 : qi = + β log mi + εi H2 : qi = + β + εi 要檢定 H1 或 H2 二種模型設定何者較佳, encompassing test 的方法如下: 先將原先的模型重新設立一個包含所有解釋變數的擴大 模型如下,再以 OLS 跑迴歸,估計 β1 和 β2 : 48
Many-Degrees-of-Freedom Test: The Encompassing Test H1 : H0 : β2 = 0 (1) H2 : H0 : β1 = 0 (2) 檢定第 (1)式,若不能拒絕 H0 : β2 = 0 ;檢定第 (2)式,若 拒絕 H0 : β1 = 0 ,則 H1 : qi = + β log mi + εi 較佳; 檢定第 (2)式,若不能拒絕 H0 : β1 = 0 ;檢定第 (1)式,若 拒絕 H0 : β2 = 0 ,則 H2 : qi = + β + εi 較佳。 檢定第 (1)式,若不能拒絕 H0 : β2 = 0 ;檢定第 (2)式,若 不能拒絕 H0 : β1 = 0 ;或檢定第 (1)式,若拒絕 H0 : β2 = 0 ; 檢定第 (2)式,若拒絕 H0 : β1 = 0 。此二種情況無法判斷。 49
Many-Degrees-of-Freedom Test: The Encompassing Test 結論:不能拒絕 H1 : 21 = 22 =0,而在 5%之下拒絕 H2 : 11 = 12 =0,故知 lin-log 模型較佳。 50
Single-Degree-of-Freedom Test: The J Test 若不能拒絕 H1 : = 1,則以 lin-log 模型為佳; 若不能拒絕 H2 : = 0 ,則以 reciprocal 模型為佳。 但是,上式因參數太多而無法估計。 51
Single-Degree-of-Freedom Test: The J Test 在 H2 : = 0 的假設下,以 OLS 估計迴歸式,並取得 q2i 的預測值。 將此預測值加入在 H1 : = 1 的假設下的迴歸式。 在 H1 : = 1 的假設下,檢定 H0 : 2 = 0,若不能拒絕 H0 : 2 = 0 ,則表示 lin-log 為較佳模型。 52
Single-Degree-of-Freedom Test: The J Test 在 H1 : = 1 的假設下,以 OLS 估計迴歸式,並取得 q1i 的預測值。 將此預測值加入在 H2 : = 0 的假設下的迴歸式。 在 H2 : = 0 的假設下,檢定 H0 : 1 = 0,若不能拒絕 H0 : 1 = 0 ,則表示 reciprocal 為較佳模型。 53
The Encompassing Test and The J Test The encompassing test 通常是 F-test,而 J test 則永遠都是 t-test。 在採用此二種檢定方法時,所有四種可能的結果都可能 會發生,即同時拒絕 H1 和 H2 、同時不拒絕 H1 和 H2 ; 拒絕 H1 而不拒絕 H2 、不拒絕 H1 而拒絕 H2 。 這是有限樣本的問題。在大樣本時,會有漸近一致性。 54
模型選擇準則 其中,R2 越大越好;AIC 和 BIC 均越小越好。 55
函數型式—Box-Cox 轉換 以下二式,哪一式是較好的函數型式? 注意:因為應變數不同,所以先前的方法不能用。 56
函數型式—Box-Cox 轉換 雖然經濟學家對於哪些變數應該包含在一特定的關係之 中,通常會有相當強的先驗資訊,但對於其精確的函數 型式,卻通常只有相當少的資訊。 由 Box-Cox 於 1964 年首度引入的 Box-Cox 轉換,已因 Zarembka 於 1968、1974 年將其作為以資料來決定哪一 個函數型式是最合適的,而在經濟學界廣受歡迎。 所謂「由資料決定函數型式」的意思是說,函數的型式 應該由對函數參數的估計值來定義。 57
函數型式—Box-Cox 轉換 58
函數型式—Box-Cox 轉換 當 = 0 時,z() = ln z,因此 (12.5.4) 式 ( 沒有下標,所 以是相同的) 會與 (12.5.2) 式相同。 59
函數型式—Box-Cox 轉換 當 = 1 時,z() = z - 1,因此 (12.5.4) 式可改寫成 (12.5.5) 式,而 (12.5.5) 式其實等於 (12.5.1) 式。 60
函數型式—Box-Cox 轉換 如果轉換的參數對每個變數都不同 ( 有下標,所以是不 同的) ,則在估計 (12.5.6) 式時會更有彈性: 但是增加彈性並非沒有代價。在這個模型中,如果沒有 大量的觀察值,則要想可靠地估計所有的參數就會有困 難。 61
如何檢定: J 為限制式個數 J 為限制式個數 62
White Robust 修正異質變異數 先以 OLS 跑原始迴歸,得出殘差,存殘差平方。 H0 : 無異質變異 v.s. H1 : 有異質變異。 檢定統計量為: n R2 ~X2(k) 其中 k 為輔助迴歸中迴歸變數的個數。 63
White Robust 修正異質變異數 原始迴歸: Yi = β1 + β2X2i + β3X3i + εi 。 先以 OLS 跑原始迴歸,得出殘差,存殘差平方。 將原始迴歸的解釋變數加入平方項 (及交叉相乘項) ,以 殘差平方對常數項及全部解釋變數跑 OLS,稱輔助迴歸。 輔助迴歸: Yi = β1 + β2X2i + β3X3i + β4X2i2 + β5X3i2 + β6X2i X3i + εi 。 從輔助迴歸中,得出 R2。 檢定統計量為: n R2 ~X2(k) 64
假性迴歸 (spurious regressions) 兩個隨機漫步模型 yt = yt-1 + t 與 xt = xt-1 + t, t 與 t 獨立,因此, yt = yt-1 + t 與 xt = xt-1 + t 應為獨立 (無關) 的時間序列。迴歸 yt = + xt + t 在直覺上應該會接受 H0: = = 0 的虛無假設。但執行迴歸 yt = + xt + t 的 t 檢定,拒絕 H0: = 0 的機率約為 75% 而非 5%,產 生錯誤的統計推論,此即所謂假性迴歸的問題。 因為迴歸 yt = + xt + t 的誤差項 t 不是定態的時間序 列,若直接將非定態的變數進行迴歸分析,可能產生假 性迴歸的問題。也就是說傳統的 t 檢定和 F 檢定會產生 過度拒絕 H0 的結果,因而產生錯誤的統計推論。 65
假性迴歸 與 共整合 yt 與 xt 均為隨機漫步的時間序列 I(1),且 t = yt - - xt 亦為 I(1),表示 yt 與 xt 為無關的隨機漫步。若將 yt 對 xt 跑迴歸, yt = + xt + t ,則會有虛假迴歸的問題。 yt 與 xt 均為隨機漫步的時間序列 I(1),但 t = yt - - xt 為 I(0),則表示 yt 與 xt 為共整合。此時若將 yt 對 xt 跑迴 歸, yt = + xt + t ,則所得出的結果是有意義的。 yt 與 xt 均為隨機漫步,分別代表兩個醉漢的足跡;若 yt 與 xt 為共整合,表示兩個醉漢以一段繩子綁住後的足跡, 兩個醉漢的足跡雖是隨機漫步,但又不會相距太遠。 66