第 八 章 迴歸分析假設條件 之檢定及補救措施 2018/11/28
迴歸分析的假設條件 條件常態分配 變異數同質性 殘差獨立性(無自我相關) 2018/11/28
條件常態分配 對於預測變數的各個水準,反應變數均呈現常態分配。 迴歸模式中的常態分配指的是條件常態分配,即給定 x 值後 y 的分配是常態分配,至於全部的 y 值是否為常態分配並不是要求的條件。 迴歸分析對常態分配的假設也與 t 檢定、F 檢定一樣具有穩健性(Robust),也就是說,當資料偏離常態不是很嚴重時,仍可接受常態分配的假設條件成立。 2018/11/28
誤差項 i 的常態假設 誤差項 i 的平均值為零,即 E(i ) =0 誤差項 i 的變異數相等,即 Var(i ) =σ2 誤差項 i 之間無自我相關,即 Cov(i ,j) =0 , i≠j 誤差項 i 服從常態分配,即 i ~ ~N(0, σ2) i.i.d 2018/11/28
為何需要條件常態分配的假設 ︿ ︿ 因為 OLS 估計量 β0 和 β1 都是 i 的線性函數,而按假設 i 是隨機的,因此,OLS 估計量的抽樣分配或機率分配將依賴於 i 假設的機率分配。 因為必須知道這些估計量的機率分配,方能對它們的母體值進行推論,所以為了假設檢定,必須先對 i 的機率分配作出假設。 2018/11/28
為何需要條件常態分配的假設 因為 誤差項 i 代表沒有納入迴歸模型的其他所有影響因素,而在這些影響因素中,每種因素對 Y 的影響都很微弱。 常態變數的線性函數仍服從常態分配。 2018/11/28
為何需要條件常態分配的假設 由於 Yi = β0 + β1Xi + i , 而因為 β0 和 β1 是常數,Xi 也是給定的值,所以 Yi 是 i 的線性組合。 因此,若 i ~ N (0, σ2), 則 Yi ~ N ( β0+β1Xi , σ2) 2018/11/28
為何需要條件常態分配的假設 ︿ ︿ ︿ ︿ 因為 β0 和 β1 是 Yi 的線性組合,所以β0 和 β1 也是常態分配。 因此, β0 ~ N (β0 , σ02), β1 ~ N ( β1 , σ12) 有了殘差項的常態分配假設,才能推出 β0 和β1 的抽樣分配,也才能做迴歸參數的假設檢定 ︿ ︿ ︿ ︿ 2018/11/28
條件常態分配的診斷方法 畫殘差值的直方圖 畫殘差值的常態機率圖 殘差值之偏態與峰度的檢定 Shapiro-Wilk (W)檢定 Kolmogorov-Smirnov (D) 檢定 Jarque-Bera (J-B) 檢定 2018/11/28
畫殘差值的直方圖 次數 -3σ -2σ -1σ 0 1σ 2σ 3σ 殘差 2018/11/28
畫殘差值的常態機率圖 在 X 軸上標出 OLS 殘差值,在 Y 軸上標出如果服從常態分配變數所對應的期望值。 若殘差值的常態機率圖呈現從左下到右上之 450 線,則資料符合常態分配。 2018/11/28
畫殘差值的常態機率圖 殘差期望值 殘差值 次數 殘差 -3σ -2σ -1σ 0 1σ 2σ 3σ * * * * * * * * * * -3σ -2σ -1σ 0 1σ 2σ 3σ 殘差 殘差值 2018/11/28
畫殘差值的常態機率圖 殘差期望值 殘差值 次數 殘差 -3σ -2σ -1σ 0 1σ 2σ 3σ * * * * * * * * * * -3σ -2σ -1σ 0 1σ 2σ 3σ 殘差 殘差值 2018/11/28
條件常態分配的檢定 殘差值之偏態與峰度 若殘差值之偏態(Skewness)與峰度(Kurtosis)之絕對值均小於 2,則誤差項呈現常態分配。 若殘差值之偏態(Skewness)與峰度(Kurtosis)之絕對值均大於 2,則誤差項不是常態分配。 2018/11/28
條件常態分配的檢定 Shapiro-Wilk (W) 假如樣本數小於或等於2,000,SAS是採用Shapiro-Wilk (W) 統計檢定。 理論上,W 檢定統計量介於 0 與 1 之間。 當 W 檢定統計量愈小時(即愈接近 0 時),愈容易拒絕虛無假設,即殘差值不符合常態分配。 當 W 檢定統計量愈大時(即愈接近 1 時),愈不容易拒絕虛無假設,即殘差值符合常態分配。 2018/11/28
Kolmogorov-Smirnov (D) 條件常態分配的檢定 Kolmogorov-Smirnov (D) 假如樣本數大於2,000,SAS是採用 Kolmogorov-Smirnov (D)統計檢定。 理論上,當 D 檢定統計量愈大時,愈容易拒絕虛無假設,即殘差值不符合常態分配之統計前提。 當 D 檢定統計量愈小時,愈不容易拒絕虛無假設,即殘差值符合常態分配之統計前提。 在數值的精確性上, Shapiro-Wilk (W)統計檢定法較Kolmogorov-Smirnov (D)統計檢定法精確。 2018/11/28
條件常態分配的檢定 Jarque-Bera 檢定 常態性的 J-B 檢定是一項漸近或大樣本檢定,它仍以 OLS 殘差為依據。 此檢定法先計算 OLS 殘差的偏態和峰度,再使用下列檢定統計量,其中S代表偏態,K代表峰度: 在殘差項為常態分配的虛無假設下,Jarque & Bera 證明了上式所給的 JB 檢定統計量漸近地遵循自由度為 2 的 X2 分配。 2018/11/28
對原始資料做 Box-Cox 變數變換 Y* = Yλ 違反常態分配假設的處理 H0:資料符合常態分配 H1:資料不符合常態分配 對原始資料做 Box-Cox 變數變換 Y* = Yλ 改用對數線性模型或其他非線性模型 2018/11/28
變異數的同質性 對於預測變數的各個水準,反應變數的變異數是同質的,即具有相同的變異數 σ2。 「同質性」指的是不論甚麼樣的 X 值,Y 分配的變異數均相等。 2018/11/28
異質變異數的後果 OLS 估計量仍是線性的和不偏的。 OLS 估計量不再具有最小變異數,即不再是有效的,即使對大樣本也是如此。 建立在 t 分配和 F 分配之上的信賴區間和假設檢定是不可靠的。 ︿ 2018/11/28
異質變異數的診斷方法 畫殘差圖 White 的一般異質性變異數檢定 其他異質性變異數檢定方法 2018/11/28
異質變異數的殘差檢定 殘差的變異數隨 x 增大而增大 採用加權最小平方法估計及檢定 2018/11/28
異質變異數的殘差檢定 殘差的變異數隨 x 增大而變小 採用加權最小平方法估計及檢定 2018/11/28
White 的一般異質性變異數檢定 假設有如下模型: Yi = β0 + β1X1i + β2X2i + i 設立虛無假設和對立假設如下: H0:變異數是同質的 H1:變異數是異質的 2018/11/28
White 的一般異質性變異數檢定 (1) 用 OLS 估計原始迴歸式並求得殘差。 (2) 對殘差取平方,然後用 OLS 跑下式輔助迴歸 ei 2= A0 + A1X1i + A2X2i + A3X1i2 + A4X2i2 + A5X1i X2i+ vi (3)求輔助迴歸式的 R2 值,在不存在異質變異數的虛無假設下,White 證明出 n × R2 會服從卡方分配,自由度為輔助迴歸式中解釋變數的個數。 n × R2 ~ X2k-1 2018/11/28
White 的一般異質性變異數檢定 (4) -(1) 若檢定統計量 n × R2 的值大於顯著水準 α 之下 X2k-1 的臨界值,或者檢定統計量 n × R2 所對應的 p 值小於 0.05,則拒絕虛無假設,表示殘差項具有異質變異數。 (4) -(2) 若檢定統計量 n × R2 的值小於顯著水準 α 之下 X2k-1 的臨界值,或者檢定統計量 n × R2 所對應的 p 值大於 0.05,則不拒絕虛無假設,表示殘差項不具有異質變異數。 2018/11/28
異質性變異數的處理 若檢定結論不拒絕虛無假設,表示並無充分證據顯示殘差項具有異質變異數,則原始迴歸式只要用 OLS 估計即可。 若檢定結論為拒絕虛無假設,表示有充分證據顯示殘差項具有異質變異數,此時應採用 White 的方法修正估計量的標準誤,或用加權最小平方法來估計原始迴歸式,或是重新設定模型,例如以對數形式估計模型。 2018/11/28
異質性變異數的處理 加權最小平方法:σi2 已知時 考慮以下迴歸模型: Yi = β0 + β1X1i + i var( i ) = σi2 假設誤差變異數 σi2 已知,則以其標準差 σi 為權數,對原始迴歸模型做如下的變換: Yi 1 X1i i = β0 ( ) + β1 ( ) + σi σi σi σi 2018/11/28
異質性變異數的處理 加權最小平方法:σi2 已知時 令 vi = ( i / σi ) var (vi) = var ( i / σi ) = ( 1/ σi2 ) var ( i ) = ( 1/ σi2 ) (σi2 ) = 1 變換後的誤差項 vi 是同質變異的,因此,變換後的模型不存在異質變異數的問題,可以用 OLS 方法進行估計。 2018/11/28
異質性變異數的處理 加權最小平方法:σi2 未知時 考慮以下迴歸模型: Yi = β0 + β1X1i + i var( i ) = σ2 Xi 假設誤差變異數 σi2 未知,只知道誤差變異數和 Xi 成比例,則以 Xi 的平方根為權數,對原始迴歸模型做如下的變換: i Yi 1 X1i = β0 + β1 ( ) + ( ) √Xi √Xi √Xi √Xi 2018/11/28
異質性變異數的處理 加權最小平方法:σi2 未知時 令 vi = ( i / ) var (vi) = var ( i / ) = ( 1/ ( ) 2 ) var ( i ) = ( 1/ Xi ) (σ2 Xi) = σ2 變換後的誤差項 vi 是同質變異的,因此,變換後的模型不存在異質變異數的問題,可以用 OLS 方法進行估計。 √Xi √Xi √Xi 2018/11/28
White 異質性變異數調整標準誤 在存在異質性變異數的情況下,OLS 估計量仍是不偏的,但卻不具最小變異性,因此是無效的。 在異質性變異數的情況下,以 OLS 得到的估計量的標準誤和 t 統計量都是偏誤的。 White 建立了一種估計方法,利用這種方法得到的迴歸係數的估計量標準誤考慮了異質變異數的存在,因而可以使用 t 檢定和 F 檢定。 White 的方法論是建立在大樣本基礎之上的,其 OLS 估計量是漸近有效的,即對大樣本是有效的 2018/11/28
殘差項的獨立性 「獨立性」指的是前一個誤差不會影響後一個誤差,也就是資料具有相同的分配且獨立(誤差項不具有自我相關)。 檢定方法: 畫殘差圖 Durbin-Watson d 檢定 其他誤差項自我相關檢定方法 (連檢定) 2018/11/28
殘差有自我相關的後果 OLS 估計量仍是線性的和不偏的。 OLS 估計量不再具有最小變異數,即不再是有效的,即使對大樣本也是如此。 建立在 t 分配和 F 分配之上的信賴區間和假設檢定是不可靠的。 通常計算的 R2 不能測度真實的 R2 。 ︿ 2018/11/28
殘差自我相關的診斷方法 畫殘差圖 Durbin-Watson d 檢定 其他誤差項自我相關檢定方法 (連檢定) 2018/11/28
殘差項自我相關的殘差檢定 殘差有趨勢項 2018/11/28
加入趨勢項 Yi = β0 + θT + β1X1i + i 2018/11/28
殘差項自我相關的殘差檢定 殘差項有二次項 2018/11/28
加入二次項 Yi = β0 + θT + β1X1i + β2X21i + i 2018/11/28
殘差項自我相關的殘差檢定 殘差項自我相關 改用時間數列分析的方法 2018/11/28
Durbin-Watson 自我相關檢定基本假設 (2)解釋變數 X 是非隨機變數,即在重複抽樣中 變數 X 的值是固定的。 (3)誤差項的生成機制是: εi = ρεi -1 + vi -1<ρ <1 (4)解釋變數中不包含反應變數的落後項。 Yi = β0 +β1X1i + β2Yi-1 + i 2018/11/28
Durbin-Watson 自我相關檢定步驟 (1)進行 OLS 迴歸並獲得殘差 ei 。 (2)依公式計算檢定統計量 d 值。 (3)根據樣本數及解釋變數的個數,從 D-W 表中 查出對應的臨界 dL 和 dU。 (4)按照 D-W 判定規則表中的規則進行決策判斷 2018/11/28
Durbin-Watson 自我相關檢定判定規則 拒絕H0 正自我相關 拒絕H0* 負自我相關 無法判斷 無法判斷 不拒絕H0或 H0* 無正負自我相關 0 dL dU 2 4-dU 4-dL 4 2018/11/28
Durbin-Watson 自我相關檢定判定規則 虛無假設 統計量 判斷 結果表示 無正自我相關 0<d<dL 拒絕 有正自我相關 dL≦d≦dU 無法判斷 其他方法 無負自我相關 4-dL<d<4 有負自我相關 4-dU≦d≦4-dL 無正或負 自我相關 dU<d<4-dU 不拒絕 2018/11/28
D-W 檢定落入無法判定域之修訂 (1) H0:ρ=0 對 H1:ρ>0。若估計的 d<dU, 則在顯著水準 α 上拒絕 H0:ρ=0,表示具 有統計上顯著的正相關。 (2) H0:ρ=0 對 H1:ρ<0。若估計的 (4- d)<dU,則在顯著水準 α 上拒絕 H0:ρ=0,表示具有統計上顯著的負相關。 (3) H0:ρ=0 對 H1:ρ≠0。若估計的 d<dU或 (4- d)<dU,則在顯著水準 2α 上拒絕 H0:ρ=0,表示具有統計上顯著的自我相關 2018/11/28
違反殘差獨立性的補救措施 (1) 盡力查明自我相關是純粹自我相關,而不是 模型設定偏誤造成的 (加入趨勢項或二次項)。 (1) 盡力查明自我相關是純粹自我相關,而不是 模型設定偏誤造成的 (加入趨勢項或二次項)。 (2) 若是純粹自我相關,則可對原模型做適當的 變換 ( 廣義最小平方法 GLS )。 (3) 在大樣本之下,用 Newey-West 的 HAC 法, 以得到 OLS 估計量在對自我相關加以修正之 後的標準誤 ( 類似 White 的方法 )。 (4) 若是小樣本,而且 ρ<0.3,則用 OLS 即可 2018/11/28
違反殘差獨立性的補救措施 改用時間數列分析的方法 2018/11/28