第14章 迴歸分析與複迴歸分析 本章的學習主題 1.使用迴歸分析的時機 2.最小平方法在迴歸分析上的意義 3.迴歸分析的假設 1.使用迴歸分析的時機 2.最小平方法在迴歸分析上的意義 3.迴歸分析的假設 4.各種R²與偏判定 5.報表的分析與管理上的意涵 6.逐步迴歸 7.迴歸分析SPSS軟體操作實例說明
14.1 迴歸分析的基本統計概念 一般來說,我們利用迴歸分析是想瞭解: 1. 能否找出一個線性方程式,用來說明一組預測變數( Xi )與準則變數( Y )的關係。 2. 瞭解這個方程式的預測能力如何?即其關係強度有多大。 3. 探討整體關係是否達到顯著水準? 4. 在解釋準則變數的變異時,是否只採用某些預測變數即具有足夠的預測力。
14.2 相關分析的基本概念 在研究行銷問題時,變數與變數之間有時會呈現線性相關 14.2 相關分析的基本概念 在研究行銷問題時,變數與變數之間有時會呈現線性相關 例如過去許多研究均顯示廠商之市場佔有率與其獲利能力有很高的線性相關,如圖14—1所示: Y 獲 利 能 力 (%) X:市場佔有率 (%)
14.2 相關分析的基本概念 由圖14-1可知,當市場佔有率增加時,獲利能力(Y)也會跟著增加,即是代表X與Y之間有很高的相關,通常我們用皮爾森(Pearson)相關係數來表示兩個變數間之相關係數,計算公式如下: 2 ) ( )( Y X r - å = 相關係數為一標準化之數字,其值不受變項特性的影響,其數值是介於-1至+1之間。
14.3 簡單迴歸與複迴歸 一般而言,迴歸模式的型態為: Y=α + β1X1 + β2X2 + …… .+ βmXm + ε 14.3 簡單迴歸與複迴歸 一般而言,迴歸模式的型態為: Y=α + β1X1 + β2X2 + …… .+ βmXm + ε 其中,α與β為迴歸母數(j=1, 2, ……, m),ε為誤差項。 而在迴歸分析中,如果預測變數(Xi)只有一個,則稱之為簡單迴歸分析。如果預測變數有二個以上,則稱為多元迴歸或複迴歸分析。 Y = a + b1X1 (簡單迴歸) Y = a + b1X1 +b2X2+……+bmXm (複迴歸)
14.4 迴歸分析的基本假定 1. 常態性與變異同質性 (normality and equality of variance) 14.4 迴歸分析的基本假定 1. 常態性與變異同質性 (normality and equality of variance) 2. 殘差獨立性(independence) 每個殘差彼此之間是統計獨立的,觀察值之間彼此不會互相影響,若違反此假設,估計量會缺乏效率性。
14.4 迴歸分析的基本假定 3. 直線性(linearity) 即所有抽樣樣本分配的平均數 (μY/X) 均落在母群迴歸線上 14.4 迴歸分析的基本假定 3. 直線性(linearity) 即所有抽樣樣本分配的平均數 (μY/X) 均落在母群迴歸線上 4. ei~N〔 0 ,1 〕 誤差其分配服從平均數為0,變異數為1的常態分配,且各誤差項間彼此獨立
14.4 迴歸分析的基本假定 迴歸方程式滿足迴歸的基本假設,則此迴歸方程式具有線性特性,並稱為線性迴歸。 圖 14 - 2 線性迴歸模型
14.5 最小平方法 或 求取最適合迴歸線的方法即為最小平方法,而最 小平方法即是使各點至此線之平行於Y軸的距離 的平方和變為最小的求解方法 ,即: 或
14. 6 迴歸模式之適合度及判定係數 根據現有的資料建立一個迴歸模式時,必須檢定此模式與資料的符合程度,稱為適合度 (goodness of fit)。檢定適合度最常用的量數是 R² (R- square),或稱判定係數 (coefficient of determination)。
14. 6 迴歸模式之適合度及判定係數 樣本的R2是估計模式適合度的一個最佳估計值,但卻非母群R2的不偏估計值。因此要估計母群的R2時,須加以調整。而且當兩條迴歸式所含的預測變數(Xi)多寡不一時,若只用R2來判別各自的解釋能力有時會有不公平現象,因此應改用修正後的R2 (Adj- R2)會比較正確。
14.7 參數係數 1.一般判定 此即是對預測變數的係數作t檢定,若透過t檢定的結果不等於0,則代表解釋Y的效果很顯著。
14.7 參數係數 2.F檢定 上式F檢定,分子代表模型加入變數X3後,解釋能力提高的部份,而分母則代表加入變數X3後,仍無法解釋的部份。若F值顯著則代表X3變數確實有明顯的解釋效果,可加入迴歸模型中。
14.8 共線性 若迴歸式Y=a+b1X1+b2X2+…..+bmXm+ε,則其共線性是指當某一個自變數與其他的自變數之具有高度相關(例如 X1 與 X2)。 共線性分析可讓我們檢查共線性資料是否存在並評估共線性是否影響參數的建立。
14.8 共線性 1. 共線性的後果: (1) 即使變數不斷的增加,判定係數大小還是難以增加。 (2) 難以分辨個別解釋變數的解釋能力。 (3) 以最小平方法(OLS)求出的估計量雖仍是最佳線性不偏估計量(BLUE),但估計數的變異變大(VIF增加),會使得估計不準。 (4) 由於變數間之相關性,迴歸係數符號有時會錯誤。
14.8 共線性 2.共線程度的判斷: (1) 看相關係數矩陣,若相關係數大於0.5,此兩個變數便有共線性的嫌疑。 (2) 允差(Tolerance value):把單一解釋變數當做被解釋變數,把其他解釋變數當做自變數進行迴歸,將得到判定係數R2,允差為1- R2,允差值越小,代表越有共線性的可能,一般最低要求為允差必須大0.5。 (3) VIF (variance inflation factor):VIF是允差的倒數,即 VIF=1/允差,因此若VIF大於2代表有共線性的可能,一般要求VIF要小於2,只有在探索性研究時才讓VIF<3。
14.8 共線性 3.共線性之解決方法: (1) 刪去有共線性可能的解釋變數,進行迴歸分析。 (2) 就整體模式,將模式直接引用作為預測值計算 之用,而不要去解釋個別變數之迴歸係數。 (3) 直接探討每個解釋變數與被解釋變數之間的相 關係數,而不做整體模式之解釋。
14.9 迴歸的殘差分析 在 Yi=α + βXi + εi 式中,εi稱為誤差(殘差),而誤差項間彼此是否獨立不僅影響了迴歸的基本假設,也影響了迴歸式的好壞。 為了鑑定誤差項是否彼此獨立,可計算杜賓-瓦特森統計值(簡稱DW值) DW=2×(1-r),或者觀察誤差值的分佈型態,或檢查誤差值的正負符號。 實務上,DW值如果介於1.5到2.5之間,即表示誤差項之間並無自我相關現象存在。
14.9 迴歸的殘差分析 ε與X呈隨機分佈,表示迴歸模式與其基本假設並無明顯的違背。 + - ε與X呈隨機分佈,表示迴歸模式與其基本假設並無明顯的違背。 X + - 迴歸方程式非線性,即Y=α+βX不存在,此時我們可用取 、 或 補救。 X 圖 14-3 迴歸殘差分析
14.9 迴歸的殘差分析 εi非獨立,與X有關。X愈大殘差愈大,代表X變數必須經過轉換 + - εi非獨立,與X有關。X愈大殘差愈大,代表X變數必須經過轉換 X + - 變異數非齊一。X愈大殘差往正負兩端迅速擴大,代表X變數必須經過轉換。 X 圖 14-3 迴歸殘差分析
14.10 迴歸模式的調整 y 圖中虛線代表一般無偏誤的觀察值,而實線則代表偏誤值。虛線部份代表實際上應產生的迴歸線,但因偏誤值的原因,而產生實線部份斜率改變的錯誤結果。 x y 若偏誤值的數值太大,更有可能產生如左圖般整條迴歸線完全被扭曲的不良情形。 x 圖 14-4 極端偏誤值影響模型之探討
14.11 複迴歸分析之決定過程 步驟一:複迴歸分析變數的選定 (1)瞭解解釋變數的預測能力。 (2)比較兩組以上解釋變數的預測能力。 步驟二:複迴歸分析之研究設計 (1) 檢定力與樣本大小有關 (2) 解釋變數的固定與隨機效果 (3) 創造額外的變數
14.11 複迴歸分析之決定過程 步驟三:複迴歸分析之假設 在進行複迴歸分析時,最基本的假設包括(1)常態性與變異同質性,(2)殘差獨立性,(3)直線性。 步驟四:估計迴歸模式與評量模式適合度 在推估迴歸模式時,首先要檢視迴歸變量是否符合迴歸假設。
14.11 複迴歸分析之決定過程 步驟五:解釋迴歸變量 迴歸變量之解釋通常利用迴歸係數(β值或Beta值)來解釋,一般是將解釋變數在估計之前先做標準化的動作,以避免每個變數使用不同衡量單位的問題。 步驟六:結果的確認 在利用迴歸模型進行預測時,誤差除了原本樣本的誤差外, 抽樣誤差也可能影響模型之解釋力。
14.11 複迴歸分析之決定過程 在多元迴歸中,我們必須決定預測變數進入迴歸模型之順序,通常有以下幾種方法可供選擇: (1) 強迫進入法(enter) (2) 強迫去除法(remove) (3) 順向選擇法(forward) (4) 反向淘汰法(backward) (5) 逐步選擇法(stepwise)
14.11 複迴歸分析之決定過程 1.用順向選擇法時,第一個進入迴歸方程式的變數是與依變數有最大相關的變數,第一個變數進入模型之後,再以判定係數值 (F) 檢查第二個變數該誰進入,依此類推,直到沒有其他的變數符合選取的標準為止。 2.用反向淘汰法時,先將所有的變數放入迴歸方程式中,然後根據淘汰標準一一將不符合標準的變數加以淘汰。
14.11 複迴歸分析之決定過程 3.逐步選擇法是結合順向選擇法與反向淘汰法二種程序。首先採用順向選擇法,選進與依變數有最大相關的變數,接下來以反向淘汰法檢查此變數是否須加以排除。 為了避免相同的變數重複地被選進或排除,選進的標準必須小於淘汰的標準,或者我們可以說選進變數的F值大於淘汰變數的F值。
14.11 複迴歸分析之決定過程 圖 14 - 5 選擇預測變數之進入程序
14.13 迴歸模型範例(簡單迴歸) Y=1.160-0.144×認同行為 表 14—1 敬畏行為 對工作滿意度之迴歸模式 模式 表 14—1 敬畏行為 對工作滿意度之迴歸模式 模式 未標準化係數 B 之估計值 標準誤 標準化係數Beta 分配 t 顯著性 (常數) 0.744 0.137 — 5.063 0.000 認同行為(AGR1) 0.833 0.029 28.572 R2 0.694 Adj- R2 0.693 F 816.363 D-W 1.889
14.13 迴歸模型範例(複迴歸) Y=0.778+0.789×認同行為+0.050×效法行為 表 14—2 多重動機對行為意圖 之影響 表 14—2 多重動機對行為意圖 之影響 依變數=行為意圖 未標準化係數 B之估計值 標準化係數 之Beta 分配 t 顯著性 VIF (常數) 0.778 - 5.428 0.000 - 認同行為AGR1 0.789 12.818 4.451 0.042 0.050 0.816 0.415 R2 0.695 Adj R2 0.693 F 408.137 P D-W 1.874 效法行為AGR2
14.13 迴歸模型範例(複迴歸) 這個例子中我們可以清楚的發現,在多加入有效的其他兩個自變數後,整個模型對於行為意圖的可解釋變異量(R2)由0.416增加為0.484。此結果顯示行為意圖不但受到多重動機中成就動機的影響,同時也受到從屬動機與權力動機的影響。
14.13 迴歸模型範例(複迴歸)