第 七 章 共線性 與 偏相關.

Slides:



Advertisements
Similar presentations
工職數學 第四冊 第一章 導 數 1 - 1 函數的極限與連續 1 - 2 導數及其基本性質 1 - 3 微分公式 1 - 4 高階導函數.
Advertisements

©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
第 6 章 複迴歸之一.
單元九:單因子變異數分析.
實驗規劃--實驗因子設定, 效標選定與受測者選定
Chapter 2 簡單迴歸模型.
多元線性迴歸與逐步迴歸 主持人:謝邦昌 教授.
圓的一般式 內容說明: 由圓的標準式展出圓的一般式.
圓的一般式 內容說明: 由圓的標準式展出圓的一般式.
第16章 複迴歸.
資料分析:相關和迴歸 第十八章 「行銷研究人員必須持續檢視消費者認知和最終 購買決策之間的關係,因此,相關和迴歸技術為行
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
17 類別資料的分析  學習目的.
第十四章 複相關與複迴歸分析 陳順宇 教授 成功大學統計系.
認識倍數(一) 設計者:建功國小 盧建宏.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
估計.
迴歸分析 主講人:童超塵 實驗室網址 永久: 實驗室網址 永久: 目前:
Ch7:一般線性模式 GLM.
Regression for binary outcomes
REGRESSION FOR ORDINAL OUTCOMES 「順序尺度依變項」的迴歸模型
第14章 迴歸分析與複迴歸分析  本章的學習主題  1.使用迴歸分析的時機 2.最小平方法在迴歸分析上的意義 3.迴歸分析的假設
第三章 迴歸模式之評估與修訂.
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
Chapter 8 異質性.
第 7 章 複迴歸之二.
Discriminant Analysis
相關與迴歸 Correlation and Regression
第 14 章 簡單線性迴歸.
第 六 章 預測變數及迴歸模型的選擇.
複迴歸分析-2 Multiple Regression.
第十一章 相關研究法.
1.3 在整除性問題之應用 附加例題 3 © 文達出版 (香港 )有限公司.
Chapter 3 複迴歸分析: 估計.
統計學 指導老師: 郭燿禎 Date: 2/14/12.
第十章 順序資料之假設檢定 10.1 順序資料檢定概論 10.2 符號檢定 10.3 符號秩檢定(成對樣本檢定)
第 五 章 複迴歸分析.
第一章 直角坐標系 1-3 函數圖形.
數學 近似值 有效數值.
估計與假設檢定.
第一章.
Definition of Trace Function
第 一 章 多元迴歸分析.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
信度分析 (11/7~11/13) 1.何謂『信度』 2.信度分析步驟.
第 15 章 複迴歸 © 滄海書局.
Chapter 1 多變量統計方法介紹. Chapter 1 多變量統計方法介紹 變數資料之類型 以衡量尺度分類 以變數的角色分類 名目尺度(nominal scale ) 序列尺度(ordinal scale) 區間尺度(interval scale) 比率尺度(ratio scale) 以變數的角色分類.
Chapter 9 設定和資料問題之進一步探討.
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
授課內容: 時間序列與橫斷面資料的共用 政治大學行政管理碩士學程共同必修課 課程名稱:社會科學研究方法(量化分析) 授課老師:黃智聰
政治大學東亞所選修--計量分析與中國大陸研究黃智聰
上課大綱 迴歸係數的區間估計與假設檢定 統計顯著性與經濟顯著性 迴歸模型中的點預測與區間預測 配適度分析(變異數分析)
第一章.
Chapter 4 迴歸分析. Chapter 4 迴歸分析 迴歸分析原理 迴歸分析的目的在於找出一條最能夠代表所有觀測資料(樣本點)的函數(迴歸估計式),用這個函數代表應變數和自變數之間的關係 多變量分析—管理上的應用.
第 2 章 迴歸分析的推論.
第 四 章 迴歸分析應注意之事項.
1-1 隨機的意義– P.1.
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
第十四章名義資料的數字 描述:關連測量 © Copyright 版權所有:學富文化事業有限公司。本光碟內容僅提供教師於教學上使用,非經本公司許可,禁止複製 (給學生)。感謝老師的配合。
Chapter 3 相關與變異數分析. Chapter 3 相關與變異數分析 變數的內涵 屬量變數 屬質變數 當一個變數可以量化、計算,而且其值的大小可以做有意義的比較時,則稱為屬量變數 當一個變數的內容是屬於敘述性的(如:快樂/憂鬱、男/女),則即使我們可以將其量化,這些量化之後的數值不但在邏輯上不能運算,其大小的比較也沒有意義,這種變數即稱為屬質變數.
Linear Regression Analysis 5E Montgomery, Peck & Vining
簡單線性迴歸模型:隨機解釋變數與時間落差分配模型
第一章 直角坐標系 1-3 函數及其圖形.
政治大學財政所與東亞所選修--應用計量分析--中國財政研究 黃智聰
Chapter 1 多變量統計方法介紹. Chapter 1 多變量統計方法介紹 變數資料之類型 以衡量尺度分類 以變數的角色分類 名目尺度(nominal scale ) 序列尺度(ordinal scale) 區間尺度(interval scale) 比率尺度(ratio scale) 以變數的角色分類.
11621 : Small Factors ★★☆☆☆ 題組:Problem Set Archive with Online Judge
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

第 七 章 共線性 與 偏相關

多重共線性的意義 對準則變數 Y,我們在尋找影響它的預測變數 Xi 時,通常會找與 Y 的相關係數高的變數。 以這種方法找到很多的預測變數,但這些預測變數彼此之間可能有高度的相關,造成迴歸模式出現一些難以解釋的不合理現象,此種問題稱為「多重共線性」( multicollinearity )。

Y = β0 + β1X1 + β2X2 + … + βp-1Xp-1 + ε 多重共線性的意義 「多重共線性」( multicollinearity )原先的涵意是指一個迴歸模型中的一些或全部解釋變數彼此之間存在有一種「完全」或「準確」的線性關係;後來也用來指解釋變數彼此之間所具有「高度相關」的情形 。 Y = β0 + β1X1 + β2X2 + … + βp-1Xp-1 + ε λ0 *1+ λ1X1 + λ 2X2 + … + λ p-1Xp-1 = 0 = β0 * (X0= 1)

完全共線性的意義 X1 X2 X2* 10 50 52 15 75 18 90 97 24 120 129 30 150 152 (-5) * X1 + 1 * X2 = 0

虛擬變數陷阱 Yi = β0 + β1Xi + i Yi = β0 + δD1+ γD2 + β1Xi + i 1,若為男性 0,若為男性 D1 = D2 = 0,若為女性 1,若為女性 會產生完全共線性的問題

虛擬變數陷阱 X0=1 D1 D2 1 1 * 1 +(-1) * D1 + (-1) * D2 = 0

虛擬變數的個數 一般的原則是:如果模型有共同的截距項,且屬質變數 (類別變數) 有 m 種分類,則需引入 ( m-1 ) 個虛擬變數。 如果不符合這條原則,則會陷入虛擬變數陷阱,即「完全共線性」。

完全多重共線性的估計問題 β1 的意義:在 X2 保持不變的情況下, X1 每改變一單位時 Y 的平均值的變量。 但如果 X1 和 X2 具有完全共線性,隨著 X1 改變,X2 也會按一個倍數因子λ改變。 (即 X2= λX1)。 因此,沒有任何方法可以在 X1 變動時讓 X2 保持不變。這意味著沒有任何方法能從所給的樣本中把 X1 和 X2 對 Y 的各自影響分解開來。從實際方面考慮, X1 和 X2 是不可區分的。

完全多重共線性的估計問題 X2 =λX1 代入迴歸式: Y = β1X1 + β2X2 + ε = β1X1 + β2(λX1 ) + ε = αX1 + ε α = β1 + λβ2 雖然 α 可以用 OLS 唯一地估計出來,卻無法唯一地估計 β1 和 β2 。 α = β1 +λβ2 是一個方程式而有二個未知數。對給定的 α 和 λ ,上式中的β1 和β2 有無窮多組解。即β1 和β2沒有唯一值。 ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿ ︿

高度多重共線性的估計問題 此時β1 和 β2 的估計是可能的。 多重共線性是一個程度問題,而不是存在與否的問題。 由於多重共線性針對的是解釋變數為非隨機的情形,因而它是一個樣本特徵,而不是母體特徵。

多重共線性的理論後果 多重共線性並不違反迴歸假設。OLS 仍保持BLUE的性質,其估計的標準誤也是正確的。 多重共線性的唯一影響,是難於得到標準誤小的係數估計值。 理論上,多重共線性、過少的觀測次數以及過小的自變數變異數,實質上是同一問題。 「多重共線性」的問題和「觀測值不夠」的問題類似,在統計上沒有答案。

過小的自變數變異數 身高 * * * * * * * * 10 12 14 15 年齡

過小的自變數變異數 西遊記 身高 差之毫釐,失之千里 史記 失之毫釐,差以千里 * * * * * * * * 10 12 14 15 年齡

較大的自變數變異數 身高 * * * * * * * * 10 12 14 15 年齡

較大的自變數變異數 * 身高 * * * * * * * 10 12 14 15 年齡

多重共線性的理論後果 在近似多重共線性的情形下,OLS估計量仍然是不偏的。但不偏性是一種重複抽樣的性質,即隨著樣本數的增加,估計量的樣本平均數將收斂於母體真正的參數值。但實務中不易得到大量的重複樣本。 共線性並不破壞最小變異數性質。在所有線性不偏估計量中,OLS估計量變異數最小。但這並不意味著在任一給定的樣本中,OLS估計量的變異數相對於估計量的值而言一定是小的。

多重共線性的理論後果 多重共線性本質上是一種樣本現象。即使在母體中諸 X 變數並沒有線性關係,但在具體獲得的樣本中仍可能有線性關係。 當我們設想一個理論或母體迴歸函數時,我們相信所有包含在模型中的 X 變數對 Y 都有各自的獨立影響 (所有的 X 都應放入模型)。 但有可能在任給的一個用以檢定母體迴歸函數的樣本中,一些或全部的 X 變數之間的共線性卻是如此之高,以致我們無法分開它們對 Y 變數的各自影響 (樣本數不夠,效果看不出來)。

多重共線性的實際後果 雖然 OLS 估計量是 BLUE,但有大的變異數和共變異數,故難以做出精確的估計。 因為估計量的變異數大,信賴區間會寬得多,以致更容易接受「虛無假設=0」的假設。 因為估計量的變異數大,以致一個或多個係數的 t 檢定傾向在統計上不顯著。 雖然一個或多個係數的 t 檢定在統計上不顯著,整體的配適程度 R2 仍可能非常高。

多重共線性的實際後果 OLS 估計量及標準誤對資料的微小變化很敏感,即趨於不穩定。 迴歸係數的正負符號和理論上應有的正負符號可能相反。 難以評估各個解釋變數對 R2 的貢獻。 在出現高度共線性時,對個別迴歸項的檢定是不可靠的。這時要用整體的 F 檢定來察看 Y 是否與諸個迴歸項有關。

多重共線性的偵測 R2 值高而個別的 t 檢定不顯著。 迴歸項之間有高度的兩兩相關。 計算條件指數 ( condition index,CI )。 當 10<CI <30 表示有中強度的多重共線性;CI>30 表示有嚴重的多重共線性。 變異數膨脹因子(Variance Inflating Factor,VIF) 當VIF>10 時,視為具有高度共線性。

多重共線性的補救措施 刪除變數: 在極端多重共線性的情況下,去掉一個高度共線的變數常常會使另一個原來不顯著的變數變成具統計顯著性。 但從模型中刪除一個變數,可能導致模型設定偏誤。 多重共線性雖有礙於對模型參數的準確估計,但刪除變數對參數真實值的估計會產生偏誤。 建議不要僅僅因為共線性很嚴重,就從一個經濟上可行的模型中刪除變數。

多重共線性的補救措施 變數代換: 對原始資料做一階差分或做比率變換。 補充新樣本:由於多重共線性是樣本特性,故有可能在關於同樣變數的另一樣本中共線性沒有第一個樣本那麼嚴重。有時只需增大樣本數就可以減輕共線性的問題。 其他方法:因素分析、主成份分析、脊迴歸。 重新考慮模型:

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

多重共線性問題

偏 相 關 兩變數相關不一定有因果關係,如何解決這種具有高度相關的假象呢? 可利用尋找與此兩變數都有相關的第三個變數,再以此兩變數對這第三個變數作線性迴歸,然後各求出其殘差值,再計算二組殘差的相關係數。 這樣所算出的相關係數,就稱為去除第三個變數影響後這二個變數之間的偏相關係數。

偏 相 關 X 與 Y 看似相關性很高,其實二者可能都是受 到 Z 的影響,欲知去掉 Z 的影響之後,X 與 Y 的相關還有多大,這種相關在統計上稱為偏相 關,以符號 r ( X,Y | Z ) 表示。 X:飲料消耗量 Y:小兒麻痺人數 Z:溫度

如何計算 X 與 Y 的偏相關 (1)先作 X (飲料消耗量) 對 Z (溫度) 的迴歸, 求出其迴歸方程式,並分別計算其殘差。 (2)再作 Y (小兒麻痺人數) 對 Z (溫度) 的迴歸, 求出其迴歸方程式,並分別計算其殘差。 (3)求算二項殘差的相關係數,此即 X (飲料消 耗量) 與 Y (小兒麻痺人數) 的偏相關係數。 (4)對此相關係數作檢定,以判斷 X (飲料消耗 量) 與 Y (小兒麻痺人數) 是否相關。