第 七 章 共線性 與 偏相關
多重共線性的意義 對準則變數 Y,我們在尋找影響它的預測變數 Xi 時,通常會找與 Y 的相關係數高的變數。 以這種方法找到很多的預測變數,但這些預測變數彼此之間可能有高度的相關,造成迴歸模式出現一些難以解釋的不合理現象,此種問題稱為「多重共線性」( multicollinearity )。
Y = β0 + β1X1 + β2X2 + … + βp-1Xp-1 + ε 多重共線性的意義 「多重共線性」( multicollinearity )原先的涵意是指一個迴歸模型中的一些或全部解釋變數彼此之間存在有一種「完全」或「準確」的線性關係;後來也用來指解釋變數彼此之間所具有「高度相關」的情形 。 Y = β0 + β1X1 + β2X2 + … + βp-1Xp-1 + ε λ0 *1+ λ1X1 + λ 2X2 + … + λ p-1Xp-1 = 0 = β0 * (X0= 1)
完全共線性的意義 X1 X2 X2* 10 50 52 15 75 18 90 97 24 120 129 30 150 152 (-5) * X1 + 1 * X2 = 0
虛擬變數陷阱 Yi = β0 + β1Xi + i Yi = β0 + δD1+ γD2 + β1Xi + i 1,若為男性 0,若為男性 D1 = D2 = 0,若為女性 1,若為女性 會產生完全共線性的問題
虛擬變數陷阱 X0=1 D1 D2 1 1 * 1 +(-1) * D1 + (-1) * D2 = 0
虛擬變數的個數 一般的原則是:如果模型有共同的截距項,且屬質變數 (類別變數) 有 m 種分類,則需引入 ( m-1 ) 個虛擬變數。 如果不符合這條原則,則會陷入虛擬變數陷阱,即「完全共線性」。
完全多重共線性的估計問題 β1 的意義:在 X2 保持不變的情況下, X1 每改變一單位時 Y 的平均值的變量。 但如果 X1 和 X2 具有完全共線性,隨著 X1 改變,X2 也會按一個倍數因子λ改變。 (即 X2= λX1)。 因此,沒有任何方法可以在 X1 變動時讓 X2 保持不變。這意味著沒有任何方法能從所給的樣本中把 X1 和 X2 對 Y 的各自影響分解開來。從實際方面考慮, X1 和 X2 是不可區分的。
完全多重共線性的估計問題 X2 =λX1 代入迴歸式: Y = β1X1 + β2X2 + ε = β1X1 + β2(λX1 ) + ε = αX1 + ε α = β1 + λβ2 雖然 α 可以用 OLS 唯一地估計出來,卻無法唯一地估計 β1 和 β2 。 α = β1 +λβ2 是一個方程式而有二個未知數。對給定的 α 和 λ ,上式中的β1 和β2 有無窮多組解。即β1 和β2沒有唯一值。 ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿
高度多重共線性的估計問題 此時β1 和 β2 的估計是可能的。 多重共線性是一個程度問題,而不是存在與否的問題。 由於多重共線性針對的是解釋變數為非隨機的情形,因而它是一個樣本特徵,而不是母體特徵。
多重共線性的理論後果 多重共線性並不違反迴歸假設。OLS 仍保持BLUE的性質,其估計的標準誤也是正確的。 多重共線性的唯一影響,是難於得到標準誤小的係數估計值。 理論上,多重共線性、過少的觀測次數以及過小的自變數變異數,實質上是同一問題。 「多重共線性」的問題和「觀測值不夠」的問題類似,在統計上沒有答案。
過小的自變數變異數 身高 * * * * * * * * 10 12 14 15 年齡
過小的自變數變異數 西遊記 身高 差之毫釐,失之千里 史記 失之毫釐,差以千里 * * * * * * * * 10 12 14 15 年齡
較大的自變數變異數 身高 * * * * * * * * 10 12 14 15 年齡
較大的自變數變異數 * 身高 * * * * * * * 10 12 14 15 年齡
多重共線性的理論後果 在近似多重共線性的情形下,OLS估計量仍然是不偏的。但不偏性是一種重複抽樣的性質,即隨著樣本數的增加,估計量的樣本平均數將收斂於母體真正的參數值。但實務中不易得到大量的重複樣本。 共線性並不破壞最小變異數性質。在所有線性不偏估計量中,OLS估計量變異數最小。但這並不意味著在任一給定的樣本中,OLS估計量的變異數相對於估計量的值而言一定是小的。
多重共線性的理論後果 多重共線性本質上是一種樣本現象。即使在母體中諸 X 變數並沒有線性關係,但在具體獲得的樣本中仍可能有線性關係。 當我們設想一個理論或母體迴歸函數時,我們相信所有包含在模型中的 X 變數對 Y 都有各自的獨立影響 (所有的 X 都應放入模型)。 但有可能在任給的一個用以檢定母體迴歸函數的樣本中,一些或全部的 X 變數之間的共線性卻是如此之高,以致我們無法分開它們對 Y 變數的各自影響 (樣本數不夠,效果看不出來)。
多重共線性的實際後果 雖然 OLS 估計量是 BLUE,但有大的變異數和共變異數,故難以做出精確的估計。 因為估計量的變異數大,信賴區間會寬得多,以致更容易接受「虛無假設=0」的假設。 因為估計量的變異數大,以致一個或多個係數的 t 檢定傾向在統計上不顯著。 雖然一個或多個係數的 t 檢定在統計上不顯著,整體的配適程度 R2 仍可能非常高。
多重共線性的實際後果 OLS 估計量及標準誤對資料的微小變化很敏感,即趨於不穩定。 迴歸係數的正負符號和理論上應有的正負符號可能相反。 難以評估各個解釋變數對 R2 的貢獻。 在出現高度共線性時,對個別迴歸項的檢定是不可靠的。這時要用整體的 F 檢定來察看 Y 是否與諸個迴歸項有關。
多重共線性的偵測 R2 值高而個別的 t 檢定不顯著。 迴歸項之間有高度的兩兩相關。 計算條件指數 ( condition index,CI )。 當 10<CI <30 表示有中強度的多重共線性;CI>30 表示有嚴重的多重共線性。 變異數膨脹因子(Variance Inflating Factor,VIF) 當VIF>10 時,視為具有高度共線性。
多重共線性的補救措施 刪除變數: 在極端多重共線性的情況下,去掉一個高度共線的變數常常會使另一個原來不顯著的變數變成具統計顯著性。 但從模型中刪除一個變數,可能導致模型設定偏誤。 多重共線性雖有礙於對模型參數的準確估計,但刪除變數對參數真實值的估計會產生偏誤。 建議不要僅僅因為共線性很嚴重,就從一個經濟上可行的模型中刪除變數。
多重共線性的補救措施 變數代換: 對原始資料做一階差分或做比率變換。 補充新樣本:由於多重共線性是樣本特性,故有可能在關於同樣變數的另一樣本中共線性沒有第一個樣本那麼嚴重。有時只需增大樣本數就可以減輕共線性的問題。 其他方法:因素分析、主成份分析、脊迴歸。 重新考慮模型:
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
多重共線性問題
偏 相 關 兩變數相關不一定有因果關係,如何解決這種具有高度相關的假象呢? 可利用尋找與此兩變數都有相關的第三個變數,再以此兩變數對這第三個變數作線性迴歸,然後各求出其殘差值,再計算二組殘差的相關係數。 這樣所算出的相關係數,就稱為去除第三個變數影響後這二個變數之間的偏相關係數。
偏 相 關 X 與 Y 看似相關性很高,其實二者可能都是受 到 Z 的影響,欲知去掉 Z 的影響之後,X 與 Y 的相關還有多大,這種相關在統計上稱為偏相 關,以符號 r ( X,Y | Z ) 表示。 X:飲料消耗量 Y:小兒麻痺人數 Z:溫度
如何計算 X 與 Y 的偏相關 (1)先作 X (飲料消耗量) 對 Z (溫度) 的迴歸, 求出其迴歸方程式,並分別計算其殘差。 (2)再作 Y (小兒麻痺人數) 對 Z (溫度) 的迴歸, 求出其迴歸方程式,並分別計算其殘差。 (3)求算二項殘差的相關係數,此即 X (飲料消 耗量) 與 Y (小兒麻痺人數) 的偏相關係數。 (4)對此相關係數作檢定,以判斷 X (飲料消耗 量) 與 Y (小兒麻痺人數) 是否相關。