多元線性迴歸與逐步迴歸主持人：謝邦昌教授.

多元線性迴歸與逐步迴歸主持人：謝邦昌教授

演講主持人謝邦昌教授學歷國立臺灣大學農藝所生物統計組博士主要經歷現任：輔仁大學統計資訊學系暨應用統計所教授
謝邦昌教授學歷國立臺灣大學農藝所生物統計組博士主要經歷現任：輔仁大學統計資訊學系暨應用統計所教授中華資料採礦協會理事長中國統計學社理事曾任：輔仁大學進修成長學院院長輔仁大學總務長中華資料採礦協會秘書長南開大學資訊科學與概率統計顧問輔仁大學統計系系主任多元線性迴歸與逐步迴歸

多元線性迴歸多元線性迴歸與逐步迴歸

迴歸分析原理迴歸分析法是定量預測方法之一。它依據事物內部因素變化的因果關係來預測事物未來的發展趨勢。由於它依據的是事物內部的發展規律，因此這種方法比較精確。測報工作中常用的是一元線性迴歸和多元線性迴歸模型。多元線性迴歸與逐步迴歸

迴歸分析原理迴歸分析(Regression）是一種試圖以一個或多個獨立(自)變數(Independent Variable)來解釋另一個相依(因)變數(Dependent Variable)。獨立變數與相依變數的迴歸分析模型中，一般又分為線性與非線性關係。線性迴歸的程序名稱為Regression選單中的Linear 非線性迴歸，依照影響因變數的自變數是一個或多個分為Curve Estimation(一個自變數)與 Nonlinear Regression(多個自變數)。多元線性迴歸與逐步迴歸

迴歸(Regression)的選單功能多元線性迴歸與逐步迴歸

簡單線性迴歸一元線性迴歸是指事物發展的自變量與應變量之間是單因素間的簡單線性關係。迴歸模型: : 直線的的y截距，常數
: 直線的斜率，迴歸係數 : 實際的y值與直線之間的誤差或離差多元線性迴歸與逐步迴歸

一元迴歸模型概念的立體圖多元線性迴歸與逐步迴歸

多元線性迴歸模型簡介多元迴歸應變數引數 multiple regression multiple linear regression
dependent variable response variable (回應變數) 引數 independent variable explanatory variable(解釋變數) 多元線性迴歸與逐步迴歸

多元迴歸模型多元線性迴歸是指一個應變量與多個自變量之間的線性關係。模型的一般型式為︰若影響依變數y之獨立變數不只一個，而有k個
、運動量（）及睡眠時間（）等三個獨立變數多元線性迴歸是指一個應變量與多個自變量之間的線性關係。模型的一般型式為︰稱此模式為複線性迴歸模式多元線性迴歸與逐步迴歸

線性迴歸的假設線性關係假設(linear relationship)
常態性假設(normality)：Y來自於一個呈常態分配的母群體。誤差項也應呈常態分配。誤差獨立性假設(independence)：不同的X所產生的誤差之間應相互獨立，無相關存在，無自我相關 (non-autocorrelation) 。誤差等分散性假設(homoscedasticity)或稱變異數齊一性。多元共線性假設(multicollinearnality) 多元線性迴歸與逐步迴歸

相關分析、迴歸分析與因果關係的比較相關分析是在探討兩個變數X、Y的線性關係的強度與方向，而迴歸分析是進一步地用一個或多個獨立變數X來解釋相依變數Y。相關係數計算乃屬於對稱性設計。在迴歸係數的計算中，X、Y變數均為不對稱設計。在迴歸模型中，自變數與因變數之間的迴歸模式縱使高度配合，也不能肯定其因果關係，而是要確認自變數與因變數之間的關係是否成立而已。多元線性迴歸與逐步迴歸

最小平方法最小平方法(least square method, LS)
使得樣本點至推估線之離差 (deviation)最小。多元線性迴歸與逐步迴歸

最小平方法估計迴歸方程式： = 該直線的 y 截距 = 該直線的斜率 = 應變數的估計值多元線性迴歸與逐步迴歸

求b0、b1使SSE為最小，以微分法對b0、b1微分，並令其為0。
多元線性迴歸與逐步迴歸

多元線性迴歸分析的一般化模式此一多元迴歸模式可用最小平方法來求迴歸係數可求得迴歸係數的數值。其中， ‘為之轉置矩陣。
其中， ‘為之轉置矩陣。多元線性迴歸與逐步迴歸

迴歸係數的估計殘差平方和(sum of squares for residuals)最小估計值與殘差有下列性質：多元線性迴歸與逐步迴歸

相關係數（ρ）的計算相關係數是指衡量兩變數間線性關係方向與強度大小
一般母體之相關係數未知，而以樣本相關係數估計之，又稱為Pearson相關係數。估計多元線性迴歸與逐步迴歸

多元判定係數 r 為簡單相關係數，R為複相關係數。 0≤R≤1
當只有一個應變數y 與一個引數x 時，R 就等於y 與x 的簡單相關係數之絕對值：R= |ryx | 當有多個引數x1,x2,…,xm 時，R 的值比任何一個引數與應變數的簡單相關係數之絕對值大，即：多元線性迴歸與逐步迴歸

多元判定係數 R2(R square)係數：表示使用X去預測Y時的解釋能力。其反映了由自變數與
應變數所形成的線性迴歸模式的配合度(goodness of fit) 或稱配適度。此度量值將介於0與1之間，其值愈接近1，表示適合度愈佳。 R2必須透過F檢定來判斷其顯著水準。多元線性迴歸與逐步迴歸

多元判定係數 R2為判定係數（coefficient of determination): 代表迴歸模式的配適度及解釋能力，即可解釋變異
（SSR）占總變異（SST）的比例。 Adj- R2(adjusted R2)係數：當自變數個數愈多時，應採用校正後的R2。多元線性迴歸與逐步迴歸

迴歸模式的變異數分解圖多元線性迴歸與逐步迴歸

迴歸模式的變異數誤差平方和(SSE)：最小平方法中所處理的平方和，常被稱為誤差平方和或殘差平方和 (error sum of squares) 總平方和 (SST)：與平均數有關的平方和 (total sum of squares) 迴歸平方和(SSR) ：為度量估計迴歸線上的預測值與的差異多元線性迴歸與逐步迴歸

迴歸模式的變異數 SST、SSR與SSE的關係 SST=SSR+SSE 其中 SST=總平方和 SSR=迴歸平方和 SSE=誤差平方和

迴歸係數檢定 MSR：迴歸均方和（mean square for regression） MSR=SSR/k (k : 預測變項數量，為迴歸自由度） MSE：誤差均方和（mean square for error） SSE/(n-1-k)) （(n-1-k) 為誤差自由度；總自由度為(n-1)）多元線性迴歸與逐步迴歸

迴歸係數檢定多元線性迴歸方程式有效性的統計推論 F-檢定虛無及對立假設
：至少有一個βi不等於0 若拒絕，則存在顯著關係，且該估計迴歸方程式在預測或解釋因變數Y時非常有助益。 F-檢定多元線性迴歸與逐步迴歸

迴歸方程之變異數分析表變異分析表 (Analysis of Variance Table) 多元線性迴歸與逐步迴歸

SPSS的線性迴歸分析多元線性迴歸與逐步迴歸

選取欲分析之應變數選取欲分析之自變數設定篩選自變數的方法，如forward, backward, stepwise, ..等
若欲針對資料中某變數之某一類值之資料作迴歸，則在此輸入篩選處理的分類變數及欲處理類別多元線性迴歸與逐步迴歸

選擇欲計算的各種迴歸分析有關的統計量多元線性迴歸與逐步迴歸

選擇欲繪製的各種迴歸分析有關的統計圖多元線性迴歸與逐步迴歸

選擇欲將何種統計量另存成新變數或SPSS新資料檔

迴歸(Regression)的選單功能設定篩選自變數時的標準；選擇迴歸模式中是否加入截距項；選擇碰到資料有遺失值時的處理方法

範例一 : 某地13歲男童身高，體重，肺活量的實測資料(部分) 身高(cm) 體重(kg) 肺活量(L) 135.1 32 1.75
163.6 46.2 2.75 156.2 37.1 167.8 41.5 145 33 2.5 165.5 49.5 3 153.3 41 160.5 47.2 2.25 147.6 40.5 2 155.1 44.7 143 31.5 160.8 40.4 158.2 37.5 144.5 34.7 156.5 多元線性迴歸與逐步迴歸

範例一: 迴歸分析結果根據某地15名13歲男童的身高(x1)，體重(x2) 和肺活量(y) 建立的迴歸方程為：
表示對所有身高為150cm，體重為32kg的13歲男童，估計平均肺活量為2.143(L)。多元線性迴歸與逐步迴歸

範例一: 變異數分析結果變異數分析平方和自由度平均平方和 F 檢定顯著性迴歸 1.389322 2 0.694661003
殘差 12 總和 14 多元線性迴歸與逐步迴歸

範例一: 估計值與殘差肺活量(y) 估計值殘差 1.75 1.86606 -0.11606 2.75 2.75825 -0.00825
2.5 3 2.25 2

虛擬變數(Dummy Variable) 當迴歸分析在處理類別變數時，不同於計量變數，一般是以虛擬變數的方式來處理。
虛擬變數的設定是當類別變數有K類時，應設K-1個 dummy variable(通常以0或1)來區別資料。例如:原變數性別有男性、女性兩類，故只要設一個虛擬變數D來表示兩類別，若以女性為參考組 (reference group)則將女性設為D=0，此時男性設為D=1。多元線性迴歸與逐步迴歸

指標的量化性別多元線性迴歸與逐步迴歸

指標的量化血型(A，B，AB，O) 啞變數(dummy)又稱指示變數(indicator variables)
x1=0,x2=0,x3=0 表示O型 x1=1,x2=0,x3=0 表示A型 x1=0,x2=1,x3=0 表示B型 x1=0,x2=0,x3=1 表示AB型啞變數(dummy)又稱指示變數(indicator variables) 多元線性迴歸與逐步迴歸

範例二: 血清粘蛋白含量(mg/100mg) 正常人組 I期矽肺組 II期矽肺組 64.26 65.46 1 74.97 2 42.84
65.46 1 74.97 2 42.84 60.63 88.06 52.48 69.73 93.47 48.19 95.10 80.22 80.44 100.67 69.61 97.58 101.14 18.19 95.20 113.52 50.90 96.39 多元線性迴歸與逐步迴歸

資料重整: 設(x1,x2)為(0,0)為正常人組， (1,0)為I期矽肺組，(0,1)為II期矽肺組。

選定變數

範例二:變異數分析結果

範例二:迴歸分析結果

線性迴歸分析與t 檢驗等價線性迴歸分析與變異數分析等價線性迴歸分析與協變異數分析等價迴歸分析適用於：計量資料＝(計量、分類、等級)

逐步迴歸多元線性迴歸與逐步迴歸

主要內容 1 衡量迴歸方程的標準 2 逐步迴歸多元迴歸分析的「逐步迴歸法」，是運用甚為廣泛的複迴歸分析法之一，也是多元迴歸分析報告中出現機率最多的一項預測變項的方法它結合順向選擇法與反向剔除法兩種方式的優點 3 迴歸係數反常的原因 4 嶺迴歸多元線性迴歸與逐步迴歸 49

衡量迴歸方程的標準複相關係數R 調整判定係數R2adj 剩餘標準差多元線性迴歸與逐步迴歸 50

正確的自變數選擇問題有如何選擇正確的自變數保留在迴歸模式中迴歸模式中是否有不重要之變數保留其中迴歸模式中是否有遺漏之變數

變數選擇之方法一般有所有可能迴歸模式法逐步迴歸法判定係數增加法說明如下……
1.前進法(forward-entry procedure) 2.後退法(backward-elimination procedure) 3.逐步向前法(forward stepwise) 4.逐步向後法(backward stepwise) 判定係數增加法說明如下…… 多元線性迴歸與逐步迴歸

所有可能迴歸模式法將所有可能之迴歸模式皆考慮，再依一些準則來選擇變數，準則有： 1.R2:愈大愈好 2.R2adj:愈大愈好
3.Mallow Cp (1)最小的Cp值愈好 (2) Cp愈接近p愈好 4.預測平方和（prediction sum of squares）為去除第i個資料所得之預測值，PRESS愈小愈好多元線性迴歸與逐步迴歸

當自變數增加時，R2必會增加，但自變數之加入是否有效幫助解釋Y的變異，則由R2值是無法確定的。
R2一定隨自變數增加而增加。而自變數增加時，R2adj可能增加，不變或減少，且值可能為負。若自變數的引入後， R2adj增加，則此自變數的引入能增加Y變異的解釋能力。在多變數迴歸分析中，當自變數增加時，R2必同時增加，因此無確定何自變數是否真正有解釋能力。而R2adj可能會減少，不變或增加，可以判定R2adj增加時所對應的自變數為有效解釋能力者，亦可選取各種自變數組合下之模型中具有R2adj最大者為最適之模式。多元線性迴歸與逐步迴歸

X1 X2 X3 X4 Y 13 7 26 19 11.5 16 6 14 10.2 15 11 40 34 19.8 24 10 32 21 8 29 17 13.7 22 39 38 25.3 12 33 21.6 20 9.7 27 22.3 18 14.8 19.1 28 20.7 11.7 19.6 35 23 19.4 20.3 10.6 11.1 25.5 9 18.7 25 41 28.9 19.3 18.3 15.6 36 37 21.5 24.7 31 17.7 15.3 28.3 29.8 類比資料多元線性迴歸與逐步迴歸 55

資料的一切可能回歸(24-1=15個) 多元線性迴歸與逐步迴歸方程中變數 R2 Cp AIC 2 X1 0.36529 0.34413
參數個數方程中變數 R2 Cp AIC 2 X1 X2 354.74 X3 X4 3 X1,X2 331.22 X1,X3 X1,X4 3.82 X2,X3 352.74 X2,X4 325.12 X3,X4 4 X1,X2,X3 331.17 X1,X2,X4 3.93 X1,X3,X4 4.85 X2,X3,X4 321.03 5 X1,X2,X3,X4 5.00 資料的一切可能回歸(24-1=15個) 多元線性迴歸與逐步迴歸 56

逐步迴歸法 1.前進法選定一個標準。 開始方程中沒有自變數(常數項除外)
按自變數對y的貢獻大小由大到小依次挑選進入方程。(假設檢驗的P值越小貢獻越大) 每選入一個變數進入方程，則重新計算方程外各自變數對y的貢獻。 直到方程外變數均達不到入選標準，沒有自變數可被引入方程為止。多元線性迴歸與逐步迴歸

單因素迴歸分析結果 (方程中只含有一個變數)
單因素迴歸分析結果 (方程中只含有一個變數) 方程變數回歸係數標準誤SE t P (1) x1 4.16 0.000 (2) x2 17.98 (3) x3 1.28 0.210 (4) x4 6.52 多元線性迴歸與逐步迴歸 58

X2已經在方程中，增加哪個變數好？方程變數回歸係數標準誤SE t P (5) x2 2.4005610 0.1683429
14.26 0.000 x1 1.44 0.161 (6) 17.27 x3 0.55 0.584 (7) 11.19 x4 1.62 0.117 多元線性迴歸與逐步迴歸 59

X2,X4已經在方程中，增加哪個變數好？方程變數回歸係數標準誤SE t P (8) x2 0.1806877 0.1312330
1.38 0.179 x4 18.17 0.000 x1 18.00 (9) 10.73 1.65 0.109 x3 0.70 0.488 多元線性迴歸與逐步迴歸 60

X2,X4,X1已經在方程中，是否增加X3？方程變數回歸係數標準誤SE t P x2 0.1785982 0.1314174
1.36 0.185 (10) x4 18.12 0.000 x1 17.83 x3 0.96 0.344 多元線性迴歸與逐步迴歸 61

2.後退法選定一個標準 開始將所有變數均放入方程中 按自變數對y的貢獻大小由小到大依序剔除變數。
　選定一個標準 開始將所有變數均放入方程中 按自變數對y的貢獻大小由小到大依序剔除變數。 每剔除一個變數，則重新計算方程內各自變數對y的貢獻。 直到方程內變數均達到入選標準，沒有自變數可被剔除為止。多元線性迴歸與逐步迴歸

單因素迴歸分析結果 (方程中含所有變數) 方程變數迴歸係數標準誤SE t 顯著性 1 (常數) -5.44487 0.42355
0.000 X1 17.833 X2 1.359 0.185 X3 0.964 0.344 X4 18.115 多元線性迴歸與逐步迴歸 63

X3剔除在方程外，還需剔除哪個變數？方程變數迴歸係數標準誤SE t 顯著性 2 (常數) -5.31781 0.40200
0.000 X1 18.000 X2 1.377 0.179 X4 18.169 多元線性迴歸與逐步迴歸 64

X2,X3剔除在方程外，還需剔除哪個變數？方程變數迴歸係數標準誤SE t 顯著性 3 (常數) -5.11036 0.37841
0.000 X1 42.266 X4 52.481 多元線性迴歸與逐步迴歸 65

3.逐步迴歸法逐步迴歸分析法綜合向前法與向後法，先依向前法逐步納入最具預測能力的預測變項，但每納入一個預測變項便利用向後法檢驗在方程中的所有變項，任何未達顯著的變項將被淘汰，依此原則交叉進行檢測。多元線性迴歸與逐步迴歸

(1)逐步向前法區別於前進法每選入一個變數，都要對已在模型中的變數進行檢驗，對低於剔除標準的變數要逐一刪除，然後再考慮選變數。
(2)逐步向後法區別於後退法每剔除一個變數，都要對在模型外的變數進行檢驗，對符合入組標準的變數要逐一選入，然後再考慮剔變數。多元線性迴歸與逐步迴歸

範例三: 22筆胎兒及外形指標 NO. 身長(cm) 頭圍(cm) 體重(g) 胎兒受精齡(周) x1 x2 x3 Y 1 13.0 9.2
50 13 2 18.7 13.2 102 14 3 21.0 14.8 150 15 4 19.0 13.3 110 16 5 22.8 16.0 200 17 6 26.0 18.2 330 18 7 28.0 19.7 450 19 8 31.4 22.5 20 9 30.3 21.4 550 21 10 29.2 20.5 640 22 11 36.2 25.2 800 23 12 37.0 26.1 1090 24 37.9 27.2 1140 25 41.6 30.0 1500 26 38.2 27.1 1180 27 39.4 27.4 1320 28 39.2 27.6 1400 29 42.0 29.4 1600 30 43.0 31 41.1 33 31.0 2050 35 49.0 34.8 2500 36 68

設定篩選自變數的方法，選擇向前法多元線性迴歸與逐步迴歸

SPSS輸出結果多元線性迴歸與逐步迴歸

利用“向前法”分析結果方程迴歸係數標準誤 t 顯著性 1 (常數) 14.6857 0.6236 23.5491 0.0000 體重
0.0097 0.0005 排除的變數 Beta 進偏相關共線性統計量身高 0.0382 0.4550 0.1081 頭圍 0.1680 0.3124 0.1032 多元線性迴歸與逐步迴歸

方程迴歸係數標準誤 t 顯著性 2 (常數) 9.7900 2.2710 4.3108 0.0004 體重 0.0065 0.0015 4.3252 身高 0.2377 0.1067 2.2269 0.0382 排除的變數 Beta 進偏相關共線性統計量頭圍 0.0008 0.0048 多元線性迴歸與逐步迴歸

y=11.0117+0.0075X3+1.6927X1-2.1588X2 方程迴歸係數標準誤 t 顯著性 3 (常數) 11.0117
1.7184 6.4081 0.0000 體重 0.0075 0.0011 6.5305 身高 1.6927 0.3696 4.5801 0.0002 頭圍 0.5355 0.0008 y= X X X2 y : 胎兒受精齡(周) X1: 身高(cm) X2: 頭圍(cm) X3: 體重(g) 多元線性迴歸與逐步迴歸

設定篩選自變數的方法，選擇向後法多元線性迴歸與逐步迴歸

利用“向後法”分析結果 y=11.0117+0.0075X3+1.6927X1-2.1588X2 方程迴歸係數標準誤 t 顯著性 1
均顯著方程迴歸係數標準誤 t 顯著性 1 (常數) 1.7184 6.4081 0.0000 身高 1.6927 0.3696 4.5801 0.0002 頭圍 0.5355 0.0008 體重 0.0075 0.0011 6.5305 y= X X X2 y : 胎兒受精齡(周) X1: 身高(cm) X2: 頭圍(cm) X3: 體重(g) 多元線性迴歸與逐步迴歸

範例四: IQ_BRAIN CCMIDSA FIQ HC ORDER PAIR SEX TOTSA TOTVOL WEIGHT 6.08
96 54.7 1 2 1005 57.607 5.73 89 54.2 963 58.968 6.22 87 53 1035 64.184 5.8 52.9 1027 58.514 7.99 101 57.8 3 1281 63.958 8.42 103 56.9 2216.4 1272 61.69 7.44 56.6 4 1051 6.84 55.3 1079 6.48 127 53.1 5 1034 62.143 6.43 126 54.8 1709.3 1070 83.009 57.2 6 1689.6 1173 61.236 8.76 6.32 93 7 1067 83.916 88 1104 79.38 7.6 94 55.8 8 1347 97.524 7.62 85 1439 99.792 6.03 97 9 1029 81.648 6.59 114 56.5 1100 88.452 7.52 113 59.2 10 1204 7.67 124 58.5 1160 72.576

設定篩選自變數的方法，選擇逐步迴歸法多元線性迴歸與逐步迴歸

利用“逐步迴歸法”分析結果顯著性最佳,將此變數丟入多元線性迴歸與逐步迴歸排除的變數方程迴歸係數標準誤 t 顯著性 1 (常數)
2.9019 0.0095 CCMIDSA 3.7452 0.0015 排除的變數 Beta 進偏相關共線性統計量 HC 0.1639 0.7234 0.4792 0.1728 0.6245 ORDER 0.0863 0.4762 0.6400 0.1147 0.9941 PAIR 0.2293 1.2706 0.2210 0.2945 0.9274 SEX 0.3069 0.9217 TOTSA 0.4263 2.6133 0.0182 0.5354 0.8863 WEIGHT 0.1549 0.8676 0.3977 0.2059 0.9933 FIQ 0.3538 0.9756 顯著性最佳,將此變數丟入多元線性迴歸與逐步迴歸

均不顯著多元線性迴歸與逐步迴歸排除的變數方程迴歸係數標準誤 t 顯著性 2 (常數) 50.3431 225.0868
0.2237 0.8257 CCMIDSA 3.1756 0.0055 TOTSA 0.3047 0.1166 2.6133 0.0182 排除的變數 Beta 進偏相關共線性統計量 HC 0.0775 0.3829 0.7068 0.0953 0.6054 ORDER 0.1685 1.0791 0.2965 0.2605 0.9585 PAIR 0.2816 1.8801 0.0784 0.4254 0.9148 SEX 0.9170 WEIGHT 0.1394 0.8989 0.3820 0.2193 0.9918 FIQ 0.8914 0.8421 均不顯著多元線性迴歸與逐步迴歸

方程的好壞與入選標準的關係入選標準高(P值小)好嗎？還是入選標準低(P值大)好嗎？多元線性迴歸與逐步迴歸 83

方程的好壞與入選標準的關係不一定！多選幾個標準！比較不同標準下所得結果。多元線性迴歸與逐步迴歸

逐步迴歸的策略先選擇P值較大(0.9),用逐步向前法剔選變數。看哪個變數先進入方程；每個變數進入方程時的P值；哪個變數先進入方程後又被剔除。再選擇P值較小(0.001),用逐步向後法逐個剔除變數。看哪個變數先被剔除方程;每個變數被剔除時的P值;哪個變數先被剔除後又被選入。根據上述結果選擇幾個不同的界值，再用逐步向前法和逐步向後法分別觀察變數進出方程的情況，直至所得方程能得到合理的解釋為止。多元線性迴歸與逐步迴歸 85

迴歸係數反常的原因資料中有離群值或異常數據；自變數的觀察範圍太窄，或變異數太小；樣本含量不夠，或自變數數太多；
自變數間存在複共線性(multicollinearity)。何謂共性線??...... 當自變數彼此不為獨立，而為全部有線性相依或部分變數有線性相依情況即稱為共線性。多元線性迴歸與逐步迴歸

複共線性(Multicollinearity)分析
自變數間相關程度過高，不但迴歸係數會變得不穩定外，迴歸方程式的自變數也會相互削弱各自對因變數的邊際影響，使得本身的迴歸係數變小，於是會出現整體的迴歸方程式顯著(F值與R皆很大)，但個別自變數的迴歸係數(Beta值很小)卻不顯著的現象，使得迴歸分析結果難以解釋，稱為多元共線性或複共線性。複共線性沒有存不存在的問題，而是程度的問題，應盡量消除它。消除複共線性的方法主要有上述的逐步分析法與主成份分析或因素分析法。多元線性迴歸與逐步迴歸

複共線性(Multicollinearity)分析
此外，刪除與因變數相關程度低，但與其它自變數相關高的自變數、或者透過變數轉換、或者增加樣本數，也可降低複共線性。自變數共線性的檢定，容忍值(Tolerance)或變異數膨脹因素(variance inflation factor，VIF) 。 Ri2為某一個自變數被其他自變數當作因變數來預測時，該自變數可以被解釋的比例。 Tolerance＝1－ Ri2 ，亦即Ri2比例愈高，容忍值愈小， VIF＝1/Tolerence＝1/(1－ Ri2) 。由此可知，容忍值愈小，VIF愈大，即預測變數迴歸係數的變異數增加，複共線性愈明顯。多元線性迴歸與逐步迴歸

複共線性對方程的影響迴歸係數的符號與實際不符；迴歸係數的估計值與實際相差太大；迴歸係數的標準誤太大；因而有些重要變數選不進方程；
整個方程有顯著性，而每一個自變數均無顯著性。多元線性迴歸與逐步迴歸

複共線性存在時的處理方法嶺迴歸(ridge regression)
主成分迴歸(principal component regression) M估計(M estimation) 特徵根估計(Eigenvalue estimation) 損失部分資訊，放棄部分精度，尋求更貼近實際的迴歸模型。多元線性迴歸與逐步迴歸

迴歸分析的正確應用若有共線性問題，一般採用的方法如下：多元線性迴歸分析的應用條件引數與因變數的關係是線性的(Linear)；
Cov(ei,ej)=0，即獨立性(Independence)； ei～ N(0, 2)，即正態性(Normality)； Var(ei)= 2，即變異數齊性(Equal variance)；方程與變數的檢驗樣本含量什麼時候可能出現不合理的迴歸結果若有共線性問題，一般採用的方法如下：嶺迴歸主成分迴歸其他穩健迴歸(M估計，特徵根估計) 多元線性迴歸與逐步迴歸

典型相關多元線性迴歸與逐步迴歸

典型相關分析的基本概念典型相關分析(Canonical Correlation)或稱規則相關分析，是用以分析兩組變數間關係的一種技巧。
它是複自變數與複因變數結合的一種技術，因此時兩組變數具有相等地位，故不一定要區分哪一組變數為自變數或因變數。它所描述的是兩組變數組間的整體相關形式，而不是關於兩組變數中個別變數的相關。多元線性迴歸與逐步迴歸

典型相關分析的基本概念規則相關分析在某些特質與主成份分析類似，將規則相關視為一種「雙管的主成份分析」。
典型相關模型的基本假設是兩組變數間為線性關係，還要求各組內的變數之間不能有高度的複共線性。多元線性迴歸與逐步迴歸

典型相關分析的運算原理典型變量、典型相關係數、典型係數：計算兩組變數的相關程度，最直覺的作法乃是分別將兩組變數各自加總，兩個變數的單位不同，結果將會有很大的扭曲。故應改為以「加權」的方式，對每個變數加權後加總，再求其簡單相關。多元線性迴歸與逐步迴歸

典型相關分析的運算原理和，（稱為「典型變量」（ canonical variate，CV）），以使兩個典型變量間所能獲致的最大相關係數達到最大；此相關係數稱為典型相關係數（canonical correlation coefficient，CR），典型相關係數的平方稱為特徵值（eigenvalues）。線性組合的係數是典型係數或典型權重（canonical coefficient or weight），如果對變數進行標準化後再進行上述轉換，得到的典型係數就是標準化典型係數，其類似於標準化迴歸係數，有利於比較各原始變數對典型變量作用的相對大小。多元線性迴歸與逐步迴歸

典型變量的個數典型相關分析建立第一個典型變量的原則，是使所建立的兩個典型變量之間的相關係數最大化。
然後，繼續在兩組變數剩餘的變化中尋找第二個最大的共變部分，形成第二對典型變量，直至典型變量所能解釋的兩組變異數比例愈來愈小。最多可以導出min(k1, k2)個典型相關係數，其中 k1與k2分別為兩組變數之個數。多元線性迴歸與逐步迴歸

典型變量的性質每個典型變量只與另一組對應的典型變量相關，與本組或另一組的所有其他典型變量都不相關。
一個典型相關係數描述的只是兩個典型變量間的相關，而不是兩組變數間的相關故各對典型變量間構成的多維典型相關，千萬不要把一個典型相關係數理解為是兩組變數間的相關，因典型相關有多個維度而不是只有一個。由於這些典型相關係數值是依序遞減的，因此在進行統計檢定以後，往往只有第一組與第二組典型變量達到顯著水準，排除不顯著的維度對於典型相關程度並沒有太大的損失。多元線性迴歸與逐步迴歸

典型負荷係數與交叉負荷係數典型負荷係數（canonical loading）是典型變量與本組每一個變數間的簡單相關係數。
當變數與典型變量間的相關係數愈高，表示共同性愈大，故對典型變量解釋時，重要性也愈高。典型係數是每個變數對典型變量的獨特貢獻，隱含著偏相關的意義，而典型負荷係數是典型變量與變數間的簡單相關。多元線性迴歸與逐步迴歸

重疊指數（redundancy index）
如果一組變數中的部分變異數可以由另一個變量的變異數來解釋或預測，就可說這部分的變異數與另一變量的變異數相疊（redundant with），或可由另一個變量所解釋（explained by）。典型相關係數取平方（），就得到了這一對典型變量間的共同變異數比例，當典型相關係數平方再乘以典型變量對同組（its own）變數的解釋變異數（%）時，這組典型變量才與另一組變數連接起來，就可得到重疊指數。多元線性迴歸與逐步迴歸

重疊指數（redundancy index）
重疊指數相當於複迴歸的，重疊指數係計算一組變數中的變異數，能由另一組變數的典型變量所能解釋的部分。典型相關係數平方只表達同一對典型變量間的關聯，而重疊指數表達的才是典型變量與另一組變數間的關係。多元線性迴歸與逐步迴歸

重疊指數計算原理示意圖重疊指標是典型變量與變數組之間關係的衡量，不能只看典型變量之間的相關（即典型相關係數）程度
尚且需要對這些典型變量對兩組變數的解釋能力進行分析，以正確評價典型相關的意義。多元線性迴歸與逐步迴歸

Correlations Between Set-1 and Set-2 Canonical Correlations
SPSS的CANCORR程序的輸出兩組變數的簡單相關分析 Correlations Between Set-1 and Set-2 Score 1 Score 2 Score 3 Ability Time 0.7218 0.6725 0.4796 典型相關係數 Canonical Correlations 1 0.91 2 0.204 第一個典型相關係數高達0.910，這代表兩組變數間有高度的相關，第二個典型相關係數則只有0.204 。多元線性迴歸與逐步迴歸

Test that remaining correlations are zero:
典型相關係數的檢定輸出為維度遞減檢定（dimension reduction test）的結果，它是以Wilk’s統計量為基礎，並將它轉換為卡方值來進行檢定。 Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 0.165 19.82 6 0.003 2 0.959 0.466 0.792 如果有一行不顯著，即代表以後各行所代表的典型相關均不顯著，發現第一個典型相關係數的檢定達顯著水準，第二個典型相關係數則未達顯著水準。多元線性迴歸與逐步迴歸

Proportion of Variance of Set-1 Explained by Opposite Can.Var
重疊指數分析 Redundancy Analysis:Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 0.805 CV1-2 0.195 Proportion of Variance of Set-1 Explained by Opposite Can.Var Prop Var CV2-1 0.666 CV2-2 0.008 第一個典型相關係數為，第一變量組被本身典型變量解釋比例為0.805，所以第一維度的重疊指數或稱解釋比例為0.666。多元線性迴歸與逐步迴歸

重疊指數分析第二變量組被本身典型變量解釋比例為0.683，所以第二維度的重疊指數或解釋比例為0.566。
Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 0.683 CV2-2 0.206 Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop Var CV1-1 0.566 CV1-2 0.009 第二變量組被本身典型變量解釋比例為0.683，所以第二維度的重疊指數或解釋比例為0.566。多元線性迴歸與逐步迴歸

非線性迴歸多元線性迴歸與逐步迴歸

非線性迴歸非線性迴歸是一種尋找依變數及一組自變數之間關係非線性模式的方法。
不像僅限於估計線性模式的傳統線性迴歸，非線性迴歸尚可用來估計依變數及自變數之間的任意關係模式。這是使用疊代的估計演算法來完成的。對 Y = A + BX**2 形式的簡單多項式模式，我們可藉由定義 W = X**2，並使用傳統方法 (如線性迴歸程序) 就可估計得到的簡單線性模式 Y = A + BW 模式。多元線性迴歸與逐步迴歸

非線性迴歸的資料考量依變數和自變數應該都是數值變數
例如: 宗教、主修課程、或居住地區等類別變數，都必須重新編碼成二元 (虛擬) 變數，或是其他類型的對比變數。多元線性迴歸與逐步迴歸

( b1 + b2 * x + b3 * x **2)/( b4 * x **2)
非線性迴歸的常見模式隨機選取的模式不太可能完美適配您的資料。合適的參數開始值是必要的，而且有些模式會為收斂而要求限制式。名稱模式運算式漸進線迴歸 b1 + b2 *exp( b3 * x ) b1 –( b2 *( b3 ** x )) 密度 ( b1 + b2 * x )**(–1/ b3 ) Gauss b1 *(1– b3 *exp( –b2 * x **2)) 對數修改 ( b1 + b3 * x ) ** b2 對數 Logistic b1 –ln(1+ b2 *exp( –b3 * x )) 逐漸縮小返回的 Metcherlich 法 b1 + b2 *exp( –b3 * x ) Michaelis Menten b1* x /( x + b2 ) 二次方比 ( b1 + b2 * x + b3 * x **2)/( b4 * x **2) Weibull b1 – b2 *exp(– b3 * x ** b4 ) 多元線性迴歸與逐步迴歸

非線性的選單功能多元線性迴歸與逐步迴歸

若要建立模式運算式，請在「模式」欄位中輸入運算式，或是將元件 (變數、參數或函數) 貼入該欄位
適配不佳度：依演算法進行最小化的函數限制：在疊代搜尋解答期間，可允許參數值的限制儲存：將新變數儲存到作用中的資料檔，可用的選項包括「預測值」、「殘差」、「微分」及「適配不佳度函數值」多元線性迴歸與逐步迴歸

「參數」是「非線性迴歸」程序所要估計模式的一部份。「參數」可以是可加性的常數、可乘的係數、指數或用於求函數值的數值。
開始值：為參數指定起始值，以儘可能更接近期望的最終解。不適當的開始值可能導致無法收斂，或是導致收斂至局部解 (非絕對解) 或完全不可能的解。使用前一次分析結果的開始值：如果已從此對話方塊執行過非線性迴歸，就可以選擇此選項，從他們前一次執行時的數值來取得原始值。這樣可讓您在演算法收斂遲滯時仍繼續搜尋 (原始的開始值仍將出現在主要對話方塊的「參數」清單中)。

使用者自訂的適配不佳度函數：必須定義適配不佳度函數，而其和 (遍及所有觀察值) 須依參數值之選擇來進行最小化。
殘差平方和：對殘差平方和進行最小化使用者自訂的適配不佳度函數：必須定義適配不佳度函數，而其和 (遍及所有觀察值) 須依參數值之選擇來進行最小化。多元線性迴歸與逐步迴歸

自助法估計：使用來自原始資料集的重複樣本，估計某個統
計量之標準誤的方法。利用取樣 (取後放回) 來取得與原始資料集一樣大小的許多樣本。估計這些樣本中每一個的非線性方程式。然後計算每個參數估計值的標準誤，做為自助法估計的標準差。來自原始資料集的參數值，會用來做為每個自助法樣本的開始值。循序二次程式設計：供條件限制及未條件限制模式使用。如果指定條件限制模式、使用者定義的損失函數或自助法的話，則 SPSS 會自動使用循序二次程式設計。 Levenberg-Marquardt 方法：未設限模式的預設演算法。如果指定條件限制模式、使用者定義的損失函數或自助法的話，則無法使用 Levenberg-Marquardt 方法。

加權估計多元線性迴歸與逐步迴歸

權重估計在標準線性迴歸模式中，假設研究之母群體中的變異數為常數。當這項假設不成立時 (例如，屬性高的觀察值，會比屬性低的觀察值，出現更多變化) ，使用普通最小平方法 (OLS) 的線性迴歸，就無法提供最佳化模式估計。如果可以從另一個變數預測變化差異的話，「權重估計」程序就可以使用加權最小平方法 (WLS)，來計算線性迴歸模式的係數。在決定迴歸係數時，比較精確的觀察值 (也就是變化較少的觀察值)，其加權值就會變得比較大。「權重估計」程序會檢定加權轉換的範圍，並指出資料最適合使用哪一種。多元線性迴歸與逐步迴歸

權重估計法的資料考量資料依變數和自變數應該都是數值變數。
例如：宗教、主修課程、或居住地區等類別變數，都必須重新編碼成二元 (虛擬) 變數，或是其他類型的對比變數。而加權變數也應該是數值變數，並且跟依變數中的變化有關係。假設對自變數的每個值而言，依變數的分配必須是常態的。依變數和每個自變數之間的關係，應該是線性的，而且所有觀察值應該互不相關。依變數的變異性，可以橫跨數個自變數階層，但是，其差異性必須能夠透過加權變數，加以估計。多元線性迴歸與逐步迴歸

加權估計的選單功能多元線性迴歸與逐步迴歸

將最佳權數存成新變數：把加權變數加入到作用中的檔案。這個變數稱為 WGT_n，其中n是一個選用數字，用來指定變數的專屬名稱。

二階最小平方法多元線性迴歸與逐步迴歸

二階最小平方迴歸標準的線性迴歸模式會假設依變數的錯誤和自變數沒有關係。若不是這種情況 (例如，當變數之間的關係是朝兩個方向作用的)，使用一般的最小平方法 (OLS) 的線性迴歸將不再提供最佳模式預估。二階最小平方迴歸使用和誤差項無關的工具變數來計算有問題的預測數的估計值 (第一階段)，然後使用這些計算後的值來預估依變數的線性迴歸模式 (第二階段)。計算後的值是根據和誤差無關的變數，所以二階模式的結果會是最佳的。多元線性迴歸與逐步迴歸

二階最小平方迴歸資料考量資料依變數和自變數應該都是數值變數。
例如：類別變數都必須重新編碼成二元 (虛擬) 變數，或是其他類型的對比變數。Endogenous 說明變數是可量化的 (不是可分類的)。假設對自變數的每個值而言，依變數的分配必須是常態的。對所有自變數數值而言，依變數分配的變異性，應該都是常數。依變數和每一個自變數的關係應該是線性的。多元線性迴歸與逐步迴歸

二階最小平方法的選單功能多元線性迴歸與逐步迴歸

工具的變數：計算二階最小平方法分析的第一階段中內生變數的預測值。工具變數的個數必須至少與解釋變數一樣多。如果列出的解釋變數與工具變數一樣的話，結果會與「線性迴歸」程序一樣。未指定為工具變數的說明變數將視為 Endogenous 變數。多元線性迴歸與逐步迴歸

最適尺度多元線性迴歸與逐步迴歸

最適尺度類別迴歸是利用替類別指定數值的方式將類別資料量化，以便替轉換變數，產生最佳線性迴歸方程式。
類別迴歸也稱為 CATREG (categorical regression)。標準的線性迴歸分析，會將反應值 (依變數) 和加權預測 (自) 變數間差異的平方和最小化。一般而言，變數都是數值的，而 (名義的) 類別資料則編碼成二元變數，或者對比變數。類別變數被用來區分觀察值組別﹔而技巧估計值，則是用來區分各組別的參數集。其中，估計係數可反應出預測值的改變，對反應值所造成的影響。多元線性迴歸與逐步迴歸

最適尺度的資料考量資料類別變數是以名義方式來測量的。如果是整合資料，或是非次數的對應測量，使用具正相似數值的加權變數。
假設程序中所使用的最大維度值，是根據作用中的列個數、行類別個數，以及相等性限制個數來決定的。如果沒有使用任何相等性限制，而且所有類別都是作用中的話，則最大維度值就是：具最少類別之變數的類別個數，再減掉 1。多元線性迴歸與逐步迴歸

最適尺度類別迴歸可用來說明工作滿意程度，跟工作種類、地理區域和旅遊次數之間的相關性。可能會發現，經理級跟旅遊次數少者，其工作滿意程度較高。而在這個範例下所產生的迴歸方程式，也可用來預測，這三種自變數之任意組合的工作滿意度。多元線性迴歸與逐步迴歸

最適尺度的選單功能多元線性迴歸與逐步迴歸

插補遺漏值或排除帶有此變數中之遺漏值的物件
插補遺漏值：在選取變數上有遺漏值的物件，插補其遺漏值。選取眾數可以次數最多的類別來取代遺漏值。當有多個眾數時，程式將使用類別指標最小的眾數。選取額外類別可以額外類別的相同量化來取代遺漏值。這是表示，在這個變數上有遺漏值的物件，都將視為屬於相同的 (額外) 類別。排除帶有此變數中之遺漏值的物件：在選取變數上有遺漏值的物件，將自分析中排除。這個策略無法用於補充變數。多元線性迴歸與逐步迴歸

補充性物件：鍵入補充性的個體數字，然後按一下新增。不能加權補充
性的分析標 (會忽略指定的權重)。起始組態：如果沒有任何變數被視為名義變數，則選取數值組態。如果至少有一個變數被視為名義變數，則選取隨機組態。條件：指定最大疊代數，以供計算迴歸時使用。也可以選取收斂準則值。如果最後兩個疊代之間的總適合度差異，低於收斂數值，或者已經達到疊代的最大數目的話，迴歸就會停止疊代。多元線性迴歸與逐步迴歸

THANKS

多元線性迴歸與逐步迴歸主持人：謝邦昌教授.

Similar presentations

Presentation on theme: "多元線性迴歸與逐步迴歸主持人：謝邦昌教授."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

多元線性迴歸與逐步迴歸 主持人：謝邦昌 教授.

Similar presentations

Presentation on theme: "多元線性迴歸與逐步迴歸 主持人：謝邦昌 教授."— Presentation transcript:

Similar presentations

About project

反馈

多元線性迴歸與逐步迴歸主持人：謝邦昌教授.

Presentation on theme: "多元線性迴歸與逐步迴歸主持人：謝邦昌教授."— Presentation transcript: