Download presentation
Presentation is loading. Please wait.
1
多元線性迴歸與逐步迴歸 主持人:謝邦昌 教授
2
演講主持人 謝邦昌 教授 學歷 國立臺灣大學農藝所 生物統計組博士 主要經歷 現任:輔仁大學統計資訊學系暨應用統計所 教授
謝邦昌 教授 學歷 國立臺灣大學農藝所 生物統計組博士 主要經歷 現任:輔仁大學統計資訊學系暨應用統計所 教授 中華資料採礦協會 理事長 中國統計學社 理事 曾任:輔仁大學進修成長學院院長 輔仁大學總務長 中華資料採礦協會秘書長 南開大學資訊科學與概率統計顧問 輔仁大學統計系系主任 多元線性迴歸與逐步迴歸
3
多元線性迴歸 多元線性迴歸與逐步迴歸
4
迴歸分析原理 迴歸分析法是定量預測方法之一。它依據事物內 部因素變化的因果關係來預測事物未來的發展趨 勢。由於它依據的是事物內部的發展規律,因此 這種方法比較精確。 測報工作中常用的是一元線性迴歸和多元線性迴 歸模型。 多元線性迴歸與逐步迴歸
5
迴歸分析原理 迴歸分析(Regression)是一種試圖以一個或多個 獨立(自)變數(Independent Variable)來解釋另一 個相依(因)變數(Dependent Variable)。 獨立變數與相依變數的迴歸分析模型中,一般又分 為線性與非線性關係。 線性迴歸的程序名稱為Regression選單中的Linear 非線性迴歸,依照影響因變數的自變數是一個或多 個分為Curve Estimation(一個自變數)與 Nonlinear Regression(多個自變數)。 多元線性迴歸與逐步迴歸
6
迴歸(Regression)的選單功能 多元線性迴歸與逐步迴歸
7
簡單線性迴歸 一元線性迴歸是指事物發展的自變量與應變量之 間是單因素間的簡單線性關係。 迴歸模型: : 直線的 的y截距,常數
: 直線 的斜率,迴歸係數 : 實際的y值與直線 之間的誤差或離差 多元線性迴歸與逐步迴歸
8
一元迴歸模型概念的立體圖 多元線性迴歸與逐步迴歸
9
多元線性迴歸模型簡介 多元迴歸 應變數 引數 multiple regression multiple linear regression
dependent variable response variable (回應變數) 引數 independent variable explanatory variable(解釋變數) 多元線性迴歸與逐步迴歸
10
多元迴歸模型 多元線性迴歸是指一個應變量與多個自變量之間的 線性關係。 模型的一般型式為︰ 若影響依變數y之獨立變數不只一個,而有k個
、 運動量( )及睡眠時間( )等三個獨立變數 多元線性迴歸是指一個應變量與多個自變量之間的 線性關係。 模型的一般型式為︰ 稱此模式為複線性迴歸模式 多元線性迴歸與逐步迴歸
11
線性迴歸的假設 線性關係假設(linear relationship)
常態性假設(normality):Y來自於一個呈常態分配的 母群體。誤差項 也應呈常態分配。 誤差獨立性假設(independence):不同的X所產生的 誤差之間應相互獨立,無相關存在,無自我相關 (non-autocorrelation) 。 誤差等分散性假設(homoscedasticity)或稱變異數齊 一性。 多元共線性假設(multicollinearnality) 多元線性迴歸與逐步迴歸
12
相關分析、迴歸分析與因果關係的比較 相關分析是在探討兩個變數X、Y的線性關係的強 度與方向,而迴歸分析是進一步地用一個或多個 獨立變數X來解釋相依變數Y。 相關係數計算乃屬於對稱性設計。在迴歸係數的 計算中,X、Y變數均為不對稱設計。 在迴歸模型中,自變數與因變數之間的迴歸模式 縱使高度配合,也不能肯定其因果關係,而是要 確認自變數與因變數之間的關係是否成立而已。 多元線性迴歸與逐步迴歸
13
最小平方法 最小平方法(least square method, LS)
使得樣本點 至推 估線之離差 (deviation)最小。 多元線性迴歸與逐步迴歸
14
最小平方法 估計迴歸方程式 : = 該直線的 y 截距 = 該直線的斜率 = 應變數的估計值 多元線性迴歸與逐步迴歸
15
求b0、b1使SSE為最小,以微分法對b0、b1微分, 並令其為0。
多元線性迴歸與逐步迴歸
16
多元線性迴歸分析的一般化模式 此一多元迴歸模式可用最小平方法來求迴歸係數 可求得迴歸係數的數值。 其中, ‘為 之轉置矩陣。
其中, ‘為 之轉置矩陣。 多元線性迴歸與逐步迴歸
17
迴歸係數的估計 殘差平方和(sum of squares for residuals)最小 估計值與殘差有下列性質: 多元線性迴歸與逐步迴歸
18
相關係數(ρ)的計算 相關係數是指衡量兩變數間線性關係方向與強度 大小
一般母體之相關係數 未知,而以樣本相關係數 估計之,又稱為Pearson相關係數 。 估計 多元線性迴歸與逐步迴歸
19
多元判定係數 r 為簡單相關係數,R為複相關係數。 0≤R≤1
當只有一個應變數y 與一個引數x 時,R 就等於y 與x 的簡單相關係數之絕對值:R= |ryx | 當有多個引數x1,x2,…,xm 時,R 的值比任何一個 引數與應變數的簡單相關係數之絕對值大,即: 多元線性迴歸與逐步迴歸
20
多元判定係數 R2(R square)係數: 表示使用X去預測Y時的解釋能力 。其反映了由自變數與
應變數所形成的線性迴歸模式的配合度(goodness of fit) 或稱配適度。 此度量值將介於0與1之間,其值愈接近1,表示適合度愈 佳。 R2必須透過F檢定來判斷其顯著水準。 多元線性迴歸與逐步迴歸
21
多元判定係數 R2為判定係數(coefficient of determination): 代表迴歸模式的配適度及解釋能力,即可解釋變異
(SSR)占總變異(SST)的比例。 Adj- R2(adjusted R2)係數:當自變數個數愈多時,應 採用校正後的R2。 多元線性迴歸與逐步迴歸
22
迴歸模式的變異數分解圖 多元線性迴歸與逐步迴歸
23
迴歸模式的變異數 誤差平方和(SSE): 最小平方法中所處理的平方和,常被稱為誤差平方和或殘 差平方和 (error sum of squares) 總平方和 (SST): 與平均數有關的平方和 (total sum of squares) 迴歸平方和(SSR) : 為度量估計迴歸線上的預測值 與 的差異 多元線性迴歸與逐步迴歸
24
迴歸模式的變異數 SST、SSR與SSE的關係 SST=SSR+SSE 其中 SST=總平方和 SSR=迴歸平方和 SSE=誤差平方和
多元線性迴歸與逐步迴歸
25
迴歸係數檢定 MSR:迴歸均方和(mean square for regression) MSR=SSR/k (k : 預測變項數量,為迴歸自由度) MSE:誤差均方和(mean square for error) SSE/(n-1-k)) ((n-1-k) 為誤差自由度;總自由度為(n-1)) 多元線性迴歸與逐步迴歸
26
迴歸係數檢定 多元線性迴歸方程式有效性的統計推論 F-檢定 虛無及對立假設
:至少有一個βi不等於0 若拒絕 ,則存在顯著關係,且該估計迴歸方程式在 預測或解釋因變數Y時非常有助益。 F-檢定 多元線性迴歸與逐步迴歸
27
迴歸方程之變異數分析表 變異分析表 (Analysis of Variance Table) 多元線性迴歸與逐步迴歸
28
SPSS的線性迴歸分析 多元線性迴歸與逐步迴歸
29
多元線性迴歸與逐步迴歸
30
選取欲分析之應變數 選取欲分析之自變數 設定篩選自變數的方法,如forward, backward, stepwise, ..等
若欲針對資料中某變數之某一類值之資料作迴歸,則在此輸入篩選處理的分類變數及欲處理類別 多元線性迴歸與逐步迴歸
31
選擇欲計算的各種迴歸分析有關的統計量 多元線性迴歸與逐步迴歸
32
選擇欲繪製的各種迴歸分析有關的統計圖 多元線性迴歸與逐步迴歸
33
選擇欲將何種統計量另存成新變數或SPSS新資料檔
多元線性迴歸與逐步迴歸
34
迴歸(Regression)的選單功能 設定篩選自變數時的標準;選擇迴歸模式中是否加入截距項;選擇碰到資料有遺失值時的處理方法
多元線性迴歸與逐步迴歸
35
範例一 : 某地13歲男童身高,體重,肺活量的實測資料(部分) 身高(cm) 體重(kg) 肺活量(L) 135.1 32 1.75
163.6 46.2 2.75 156.2 37.1 167.8 41.5 145 33 2.5 165.5 49.5 3 153.3 41 160.5 47.2 2.25 147.6 40.5 2 155.1 44.7 143 31.5 160.8 40.4 158.2 37.5 144.5 34.7 156.5 多元線性迴歸與逐步迴歸
36
範例一: 迴歸分析結果 根據某地15名13歲男童的身高(x1),體重(x2) 和肺活量(y) 建立的迴歸方程為:
表示對所有身高為150cm,體重為32kg的13歲男 童,估計平均肺活量為2.143(L)。 多元線性迴歸與逐步迴歸
37
範例一: 變異數分析結果 變異數分析 平方和 自由度 平均平方和 F 檢定 顯著性 迴歸 1.389322 2 0.694661003
殘差 12 總和 14 多元線性迴歸與逐步迴歸
38
範例一: 估計值與殘差 肺活量(y) 估計值 殘差 1.75 1.86606 -0.11606 2.75 2.75825 -0.00825
2.5 3 2.25 2
39
虛擬變數(Dummy Variable) 當迴歸分析在處理類別變數時,不同於計量變數,一 般是以虛擬變數的方式來處理。
虛擬變數的設定是當類別變數有K類時,應設K-1個 dummy variable(通常以0或1)來區別資料。 例如:原變數性別有男性、女性兩類,故只要設一個 虛擬變數D來表示兩類別,若以女性為參考組 (reference group)則將女性設為D=0,此時男性設 為D=1。 多元線性迴歸與逐步迴歸
40
指標的量化 性別 多元線性迴歸與逐步迴歸
41
指標的量化 血型(A,B,AB,O) 啞變數(dummy)又稱指示變數(indicator variables)
x1=0,x2=0,x3=0 表示O型 x1=1,x2=0,x3=0 表示A型 x1=0,x2=1,x3=0 表示B型 x1=0,x2=0,x3=1 表示AB型 啞變數(dummy)又稱指示變數(indicator variables) 多元線性迴歸與逐步迴歸
42
範例二: 血清粘蛋白含量(mg/100mg) 正常人組 I期矽肺組 II期矽肺組 64.26 65.46 1 74.97 2 42.84
65.46 1 74.97 2 42.84 60.63 88.06 52.48 69.73 93.47 48.19 95.10 80.22 80.44 100.67 69.61 97.58 101.14 18.19 95.20 113.52 50.90 96.39 多元線性迴歸與逐步迴歸
43
資料重整: 設(x1,x2)為(0,0)為正常人組, (1,0)為I期矽肺組,(0,1)為II期矽肺組。
44
選定變數
45
範例二:變異數分析結果
46
範例二:迴歸分析結果
47
線性迴歸分析與t 檢驗等價 線性迴歸分析與變異數分析等價 線性迴歸分析與協變異數分析等價 迴歸分析適用於: 計量資料=(計量、分類、等級)
多元線性迴歸與逐步迴歸
48
逐步迴歸 多元線性迴歸與逐步迴歸
49
主要內容 1 衡量迴歸方程的標準 2 逐步迴歸 多元迴歸分析的「逐步迴歸法」,是運用甚為 廣泛的複迴歸分析法之一,也是多元迴歸分析 報告中出現機率最多的一項預測變項的方法 它結合順向選擇法與反向剔除法兩種方式的優 點 3 迴歸係數反常的原因 4 嶺迴歸 多元線性迴歸與逐步迴歸 49
50
衡量迴歸方程的標準 複相關係數R 調整判定係數R2adj 剩餘標準差 多元線性迴歸與逐步迴歸 50
51
正確的自變數選擇問題有 如何選擇正確的自變數保留在迴歸模式中 迴歸模式中是否有不重要之變數保留其中 迴歸模式中是否有遺漏之變數
多元線性迴歸與逐步迴歸
52
變數選擇之方法一般有 所有可能迴歸模式法 逐步迴歸法 判定係數增加法 說明如下……
1.前進法(forward-entry procedure) 2.後退法(backward-elimination procedure) 3.逐步向前法(forward stepwise) 4.逐步向後法(backward stepwise) 判定係數增加法 說明如下…… 多元線性迴歸與逐步迴歸
53
所有可能迴歸模式法 將所有可能之迴歸模式皆考慮,再依一些準則來選擇 變數,準則有: 1.R2:愈大愈好 2.R2adj:愈大愈好
3.Mallow Cp (1)最小的Cp值愈好 (2) Cp愈接近p愈好 4.預測平方和(prediction sum of squares) 為去除第i個資料所得之預測值,PRESS愈小愈好 多元線性迴歸與逐步迴歸
54
當自變數增加時,R2必會增加,但自變數之加入是否有效 幫助解釋Y的變異,則由R2值是無法確定的。
R2一定隨自變數增加而增加。而自變數增加時,R2adj可能 增加,不變或減少,且值可能為負。 若自變數的引入後, R2adj增加,則此自變數的引入能增 加Y變異的解釋能力。 在多變數迴歸分析中,當自變數增加時,R2必同時增加, 因此無確定何自變數是否真正有解釋能力。而R2adj可能會 減少,不變或增加,可以判定R2adj增加時所對應的自變數 為有效解釋能力者,亦可選取各種自變數組合下之模型 中具有R2adj最大者為最適之模式。 多元線性迴歸與逐步迴歸
55
X1 X2 X3 X4 Y 13 7 26 19 11.5 16 6 14 10.2 15 11 40 34 19.8 24 10 32 21 8 29 17 13.7 22 39 38 25.3 12 33 21.6 20 9.7 27 22.3 18 14.8 19.1 28 20.7 11.7 19.6 35 23 19.4 20.3 10.6 11.1 25.5 9 18.7 25 41 28.9 19.3 18.3 15.6 36 37 21.5 24.7 31 17.7 15.3 28.3 29.8 類 比 資 料 多元線性迴歸與逐步迴歸 55
56
資料的一切可能回歸(24-1=15個) 多元線性迴歸與逐步迴歸 方程中變數 R2 Cp AIC 2 X1 0.36529 0.34413
參數 個數 方程中變數 R2 Cp AIC 2 X1 X2 354.74 X3 X4 3 X1,X2 331.22 X1,X3 X1,X4 3.82 X2,X3 352.74 X2,X4 325.12 X3,X4 4 X1,X2,X3 331.17 X1,X2,X4 3.93 X1,X3,X4 4.85 X2,X3,X4 321.03 5 X1,X2,X3,X4 5.00 資料的一切可能回歸(24-1=15個) 多元線性迴歸與逐步迴歸 56
57
逐步迴歸法 1.前進法 選定一個標準。 開始方程中沒有自變數(常數項除外)
按自變數對y的貢獻大小由大到小依次挑選進入 方程。(假設檢驗的P值越小貢獻越大) 每選入一個變數進入方程,則重新計算方程外各 自變數對y的貢獻。 直到方程外變數均達不到入選標準,沒有自變數 可被引入方程為止。 多元線性迴歸與逐步迴歸
58
單因素迴歸分析結果 (方程中只含有一個變數)
單因素迴歸分析結果 (方程中只含有一個變數) 方程 變數 回歸係數 標準誤SE t P (1) x1 4.16 0.000 (2) x2 17.98 (3) x3 1.28 0.210 (4) x4 6.52 多元線性迴歸與逐步迴歸 58
59
X2已經在方程中,增加哪個變數好? 方程 變數 回歸係數 標準誤SE t P (5) x2 2.4005610 0.1683429
14.26 0.000 x1 1.44 0.161 (6) 17.27 x3 0.55 0.584 (7) 11.19 x4 1.62 0.117 多元線性迴歸與逐步迴歸 59
60
X2,X4已經在方程中,增加哪個變數好? 方程 變數 回歸係數 標準誤SE t P (8) x2 0.1806877 0.1312330
1.38 0.179 x4 18.17 0.000 x1 18.00 (9) 10.73 1.65 0.109 x3 0.70 0.488 多元線性迴歸與逐步迴歸 60
61
X2,X4,X1已經在方程中,是否增加X3? 方程 變數 回歸係數 標準誤SE t P x2 0.1785982 0.1314174
1.36 0.185 (10) x4 18.12 0.000 x1 17.83 x3 0.96 0.344 多元線性迴歸與逐步迴歸 61
62
2.後退法 選定一個標準 開始將所有變數均放入方程中 按自變數對y的貢獻大小由小到大依序剔除變數 。
選定一個標準 開始將所有變數均放入方程中 按自變數對y的貢獻大小由小到大依序剔除變數 。 每剔除一個變數,則重新計算方程內各自變數 對y的貢獻。 直到方程內變數均達到入選標準,沒有自變數 可被剔除為止。 多元線性迴歸與逐步迴歸
63
單因素迴歸分析結果 (方程中含所有變數) 方程 變數 迴歸係數 標準誤SE t 顯著性 1 (常數) -5.44487 0.42355
0.000 X1 17.833 X2 1.359 0.185 X3 0.964 0.344 X4 18.115 多元線性迴歸與逐步迴歸 63
64
X3剔除在方程外,還需剔除哪個變數? 方程 變數 迴歸係數 標準誤SE t 顯著性 2 (常數) -5.31781 0.40200
0.000 X1 18.000 X2 1.377 0.179 X4 18.169 多元線性迴歸與逐步迴歸 64
65
X2,X3剔除在方程外,還需剔除哪個變數? 方程 變數 迴歸係數 標準誤SE t 顯著性 3 (常數) -5.11036 0.37841
0.000 X1 42.266 X4 52.481 多元線性迴歸與逐步迴歸 65
66
3.逐步迴歸法 逐步迴歸分析法綜合向前法與向後法,先依向 前法逐步納入最具預測能力的預測變項,但每納 入一個預測變項便利用向後法檢驗在方程中的所 有變項,任何未達顯著的變項將被淘汰,依此原 則交叉進行檢測。 多元線性迴歸與逐步迴歸
67
(1)逐步向前法 區別於前進法 每選入一個變數,都要對已在模型中的 變數進行檢驗,對低於剔除標準的變數 要逐一刪除,然後再考慮選變數。
(2)逐步向後法 區別於後退法 每剔除一個變數,都要對在模型外的變 數進行檢驗,對符合入組標準的變數要 逐一選入,然後再考慮剔變數。 多元線性迴歸與逐步迴歸
68
範例三: 22筆胎兒及外形指標 NO. 身長(cm) 頭圍(cm) 體重(g) 胎兒受精齡(周) x1 x2 x3 Y 1 13.0 9.2
50 13 2 18.7 13.2 102 14 3 21.0 14.8 150 15 4 19.0 13.3 110 16 5 22.8 16.0 200 17 6 26.0 18.2 330 18 7 28.0 19.7 450 19 8 31.4 22.5 20 9 30.3 21.4 550 21 10 29.2 20.5 640 22 11 36.2 25.2 800 23 12 37.0 26.1 1090 24 37.9 27.2 1140 25 41.6 30.0 1500 26 38.2 27.1 1180 27 39.4 27.4 1320 28 39.2 27.6 1400 29 42.0 29.4 1600 30 43.0 31 41.1 33 31.0 2050 35 49.0 34.8 2500 36 68
69
多元線性迴歸與逐步迴歸
70
設定篩選自變數的方法,選擇向前法 多元線性迴歸與逐步迴歸
71
SPSS輸出結果 多元線性迴歸與逐步迴歸
72
利用“向前法”分析結果 方程 迴歸係數 標準誤 t 顯著性 1 (常數) 14.6857 0.6236 23.5491 0.0000 體重
0.0097 0.0005 排除的 變數 Beta 進 偏相關 共線性 統計量 身高 0.0382 0.4550 0.1081 頭圍 0.1680 0.3124 0.1032 多元線性迴歸與逐步迴歸
73
方程 迴歸係數 標準誤 t 顯著性 2 (常數) 9.7900 2.2710 4.3108 0.0004 體重 0.0065 0.0015 4.3252 身高 0.2377 0.1067 2.2269 0.0382 排除的 變數 Beta 進 偏相關 共線性 統計量 頭圍 0.0008 0.0048 多元線性迴歸與逐步迴歸
74
y=11.0117+0.0075X3+1.6927X1-2.1588X2 方程 迴歸係數 標準誤 t 顯著性 3 (常數) 11.0117
1.7184 6.4081 0.0000 體重 0.0075 0.0011 6.5305 身高 1.6927 0.3696 4.5801 0.0002 頭圍 0.5355 0.0008 y= X X X2 y : 胎兒受精齡(周) X1: 身高(cm) X2: 頭圍(cm) X3: 體重(g) 多元線性迴歸與逐步迴歸
75
設定篩選自變數的方法,選擇向後法 多元線性迴歸與逐步迴歸
76
SPSS輸出結果 多元線性迴歸與逐步迴歸
77
利用“向後法”分析結果 y=11.0117+0.0075X3+1.6927X1-2.1588X2 方程 迴歸係數 標準誤 t 顯著性 1
均顯著 方程 迴歸係數 標準誤 t 顯著性 1 (常數) 1.7184 6.4081 0.0000 身高 1.6927 0.3696 4.5801 0.0002 頭圍 0.5355 0.0008 體重 0.0075 0.0011 6.5305 y= X X X2 y : 胎兒受精齡(周) X1: 身高(cm) X2: 頭圍(cm) X3: 體重(g) 多元線性迴歸與逐步迴歸
78
範例四: IQ_BRAIN CCMIDSA FIQ HC ORDER PAIR SEX TOTSA TOTVOL WEIGHT 6.08
96 54.7 1 2 1005 57.607 5.73 89 54.2 963 58.968 6.22 87 53 1035 64.184 5.8 52.9 1027 58.514 7.99 101 57.8 3 1281 63.958 8.42 103 56.9 2216.4 1272 61.69 7.44 56.6 4 1051 6.84 55.3 1079 6.48 127 53.1 5 1034 62.143 6.43 126 54.8 1709.3 1070 83.009 57.2 6 1689.6 1173 61.236 8.76 6.32 93 7 1067 83.916 88 1104 79.38 7.6 94 55.8 8 1347 97.524 7.62 85 1439 99.792 6.03 97 9 1029 81.648 6.59 114 56.5 1100 88.452 7.52 113 59.2 10 1204 7.67 124 58.5 1160 72.576
79
設定篩選自變數的方法,選擇逐步迴歸法 多元線性迴歸與逐步迴歸
80
SPSS輸出結果 多元線性迴歸與逐步迴歸
81
利用“逐步迴歸法”分析結果 顯著性最佳,將此變數丟入 多元線性迴歸與逐步迴歸 排除的 變數 方程 迴歸係數 標準誤 t 顯著性 1 (常數)
2.9019 0.0095 CCMIDSA 3.7452 0.0015 排除的 變數 Beta 進 偏相關 共線性統計量 HC 0.1639 0.7234 0.4792 0.1728 0.6245 ORDER 0.0863 0.4762 0.6400 0.1147 0.9941 PAIR 0.2293 1.2706 0.2210 0.2945 0.9274 SEX 0.3069 0.9217 TOTSA 0.4263 2.6133 0.0182 0.5354 0.8863 WEIGHT 0.1549 0.8676 0.3977 0.2059 0.9933 FIQ 0.3538 0.9756 顯著性最佳,將此變數丟入 多元線性迴歸與逐步迴歸
82
均不顯著 多元線性迴歸與逐步迴歸 排除的 變數 方程 迴歸係數 標準誤 t 顯著性 2 (常數) 50.3431 225.0868
0.2237 0.8257 CCMIDSA 3.1756 0.0055 TOTSA 0.3047 0.1166 2.6133 0.0182 排除的 變數 Beta 進 偏相關 共線性統計量 HC 0.0775 0.3829 0.7068 0.0953 0.6054 ORDER 0.1685 1.0791 0.2965 0.2605 0.9585 PAIR 0.2816 1.8801 0.0784 0.4254 0.9148 SEX 0.9170 WEIGHT 0.1394 0.8989 0.3820 0.2193 0.9918 FIQ 0.8914 0.8421 均不顯著 多元線性迴歸與逐步迴歸
83
方程的好壞與入選標準的關係 入選標準高(P值小)好嗎? 還是入選標準低(P值大)好嗎? 多元線性迴歸與逐步迴歸 83
84
方程的好壞與入選標準的關係 不一定! 多選幾個標準! 比較不同標準下所得結果。 多元線性迴歸與逐步迴歸
85
逐步迴歸的策略 先選擇P值較大(0.9),用逐步向前法剔選變數。看 哪個變數先進入方程;每個變數進入方程時的P值 ;哪個變數先進入方程後又被剔除。 再選擇P值較小(0.001),用逐步向後法逐個剔除變 數。看哪個變數先被剔除方程;每個變數被剔除時 的P值;哪個變數先被剔除後又被選入。 根據上述結果選擇幾個不同的界值,再用逐步向前 法和逐步向後法分別觀察變數進出方程的情況,直 至所得方程能得到合理的解釋為止。 多元線性迴歸與逐步迴歸 85
86
迴歸係數反常的原因 資料中有離群值或異常數據; 自變數的觀察範圍太窄,或變異數太小; 樣本含量不夠,或自變數數太多;
自變數間存在複共線性(multicollinearity)。 何謂共性線??...... 當自變數彼此不為獨立,而為全部有線性相依 或部分變數有線性相依情況即稱為共線性。 多元線性迴歸與逐步迴歸
87
複共線性(Multicollinearity)分析
自變數間相關程度過高,不但迴歸係數會變得不穩 定外,迴歸方程式的自變數也會相互削弱各自對因 變數的邊際影響,使得本身的迴歸係數變小,於是 會出現整體的迴歸方程式顯著(F值與R皆很大),但 個別自變數的迴歸係數(Beta值很小)卻不顯著的現 象,使得迴歸分析結果難以解釋,稱為多元共線性 或複共線性。 複共線性沒有存不存在的問題,而是程度的問題, 應盡量消除它。 消除複共線性的方法主要有上述的逐步分析法與主 成份分析或因素分析法。 多元線性迴歸與逐步迴歸
88
複共線性(Multicollinearity)分析
此外,刪除與因變數相關程度低,但與其它自變數 相關高的自變數、或者透過變數轉換、或者增加樣 本數,也可降低複共線性。 自變數共線性的檢定,容忍值(Tolerance)或變異數 膨脹因素(variance inflation factor,VIF) 。 Ri2為某一個自變數被其他自變數當作因變數來預測 時,該自變數可以被解釋的比例。 Tolerance=1- Ri2 ,亦即Ri2比例愈高,容忍值 愈小, VIF=1/Tolerence=1/(1- Ri2) 。 由此可知,容忍值愈小,VIF愈大,即預測變數迴歸 係數的變異數增加,複共線性愈明顯。 多元線性迴歸與逐步迴歸
89
複共線性對方程的影響 迴歸係數的符號與實際不符; 迴歸係數的估計值與實際相差太大; 迴歸係數的標準誤太大;因而有些重要變數選不 進方程;
整個方程有顯著性,而每一個自變數均無顯著性 。 多元線性迴歸與逐步迴歸
90
複共線性存在時的處理方法 嶺迴歸(ridge regression)
主成分迴歸(principal component regression) M估計(M estimation) 特徵根估計(Eigenvalue estimation) 損失部分資訊,放棄部分精度,尋求更貼近實際的 迴歸模型。 多元線性迴歸與逐步迴歸
91
迴歸分析的正確應用 若有共線性問題,一般採用的方法如下: 多元線性迴歸分析的應用條件 引數與因變數的關係是線性的(Linear);
Cov(ei,ej)=0,即獨立性(Independence); ei~ N(0, 2),即正態性(Normality); Var(ei)= 2,即變異數齊性(Equal variance); 方程與變數的檢驗 樣本含量 什麼時候可能出現不合理的迴歸結果 若有共線性問題,一般採用的方法如下: 嶺迴歸 主成分迴歸 其他穩健迴歸(M估計,特徵根估計) 多元線性迴歸與逐步迴歸
92
典型相關 多元線性迴歸與逐步迴歸
93
典型相關分析的基本概念 典型相關分析(Canonical Correlation)或稱規則相關分析,是用以分析兩組變數間關係的一種技巧。
它是複自變數與複因變數結合的一種技術,因此時兩組變數具有相等地位,故不一定要區分哪一組變數為自變數或因變數。 它所描述的是兩組變數組間的整體相關形式,而不是關於兩組變數中個別變數的相關。 多元線性迴歸與逐步迴歸
94
典型相關分析的基本概念 規則相關分析在某些特質與主成份分析類似,將規則相關視為一種「雙管的主成份分析」。
典型相關模型的基本假設是兩組變數間為線性關係,還要求各組內的變數之間不能有高度的複共線性 。 多元線性迴歸與逐步迴歸
95
典型相關分析的運算原理 典型變量、典型相關係數、典型係數:計算兩組 變數的相關程度,最直覺的作法乃是分別將兩組 變數各自加總,兩個變數的單位不同,結果將會 有很大的扭曲。故應改為以「加權」的方式,對 每個變數加權後加總,再求其簡單相關。 多元線性迴歸與逐步迴歸
96
典型相關分析的運算原理 和 ,(稱為「典型變量」( canonical variate,CV)),以使兩個典型變量間所能獲致 的最大相關係數達到最大;此相關係數稱為典型相關係數 (canonical correlation coefficient,CR),典型相關係數 的平方稱為特徵值(eigenvalues)。 線性組合的係數是典型係數或典型權重(canonical coefficient or weight),如果對變數進行標準化後再進行 上述轉換,得到的典型係數就是標準化典型係數,其類似 於標準化迴歸係數,有利於比較各原始變數對典型變量作 用的相對大小。 多元線性迴歸與逐步迴歸
97
典型變量的個數 典型相關分析建立第一個典型變量的原則,是使 所建立的兩個典型變量之間的相關係數最大化。
然後,繼續在兩組變數剩餘的變化中尋找第二個 最大的共變部分,形成第二對典型變量,直至典 型變量所能解釋的兩組變異數比例愈來愈小。 最多可以導出min(k1, k2)個典型相關係數,其中 k1與k2分別為兩組變數之個數。 多元線性迴歸與逐步迴歸
98
典型變量的性質 每個典型變量只與另一組對應的典型變量相關,與本組或 另一組的所有其他典型變量都不相關。
一個典型相關係數描述的只是兩個典型變量間的相關,而 不是兩組變數間的相關 故各對典型變量間構成的多維典型相關,千萬不要把一個 典型相關係數理解為是兩組變數間的相關,因典型相關有 多個維度而不是只有一個。 由於這些典型相關係數值是依序遞減的,因此在進行統計 檢定以後,往往只有第一組與第二組典型變量達到顯著水 準,排除不顯著的維度對於典型相關程度並沒有太大的損 失。 多元線性迴歸與逐步迴歸
99
典型負荷係數與交叉負荷係數 典型負荷係數(canonical loading)是典型變量與本組 每一個變數間的簡單相關係數。
當變數與典型變量間的相關係數愈高,表示共同性愈 大,故對典型變量解釋時,重要性也愈高。 典型係數是每個變數對典型變量的獨特貢獻,隱含著 偏相關的意義,而典型負荷係數是典型變量與變數間 的簡單相關。 多元線性迴歸與逐步迴歸
100
重疊指數 (redundancy index)
如果一組變數中的部分變異數可以由另一個變量 的變異數來解釋或預測,就可說這部分的變異數 與另一變量的變異數相疊(redundant with),或 可由另一個變量所解釋(explained by)。 典型相關係數取平方( ),就得到了這一對典 型變量間的共同變異數比例,當典型相關係數平 方再乘以典型變量對同組(its own)變數的解釋 變異數(%)時,這組典型變量才與另一組變數 連接起來,就可得到重疊指數。 多元線性迴歸與逐步迴歸
101
重疊指數 (redundancy index)
重疊指數相當於複迴歸的 ,重疊指數係計 算一組變數中的變異數,能由另一組變數的典型 變量所能解釋的部分。 典型相關係數平方只表達同一對典型變量間的關 聯,而重疊指數表達的才是典型變量與另一組變 數間的關係。 多元線性迴歸與逐步迴歸
102
重疊指數計算原理示意圖 重疊指標是典型變量與變數組之間關係的衡量,不能只看典型 變量之間的相關(即典型相關係數)程度
尚且需要對這些典型變量對兩組變數的解釋能力進行分析,以 正確評價典型相關的意義。 多元線性迴歸與逐步迴歸
103
Correlations Between Set-1 and Set-2 Canonical Correlations
SPSS的CANCORR程序的輸出 兩組變數的簡單相關分析 Correlations Between Set-1 and Set-2 Score 1 Score 2 Score 3 Ability Time 0.7218 0.6725 0.4796 典型相關係數 Canonical Correlations 1 0.91 2 0.204 第一個典型相關係數高達0.910,這代表兩組變數間有高度的相關,第二個典型相關係數則只有0.204 。 多元線性迴歸與逐步迴歸
104
Test that remaining correlations are zero:
典型相關係數的檢定 輸出為維度遞減檢定(dimension reduction test)的結果,它是以Wilk’s統計量為基礎,並將它轉換為卡方值來進行檢定。 Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 0.165 19.82 6 0.003 2 0.959 0.466 0.792 如果有一行不顯著,即代表以後各行所代表的典型相關均不顯著,發現第一個典型相關係數的檢定達顯著水準,第二個典型相關係數則未達顯著水準。 多元線性迴歸與逐步迴歸
105
Proportion of Variance of Set-1 Explained by Opposite Can.Var
重疊指數分析 Redundancy Analysis:Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 0.805 CV1-2 0.195 Proportion of Variance of Set-1 Explained by Opposite Can.Var Prop Var CV2-1 0.666 CV2-2 0.008 第一個典型相關係數為,第一變量組被本身典型變量解釋比例為0.805,所以第一維度的重疊指數或稱解釋比例為0.666。 多元線性迴歸與逐步迴歸
106
重疊指數分析 第二變量組被本身典型變量解釋比例為0.683,所以第二維度的重疊指數或解釋比例為0.566。
Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 0.683 CV2-2 0.206 Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop Var CV1-1 0.566 CV1-2 0.009 第二變量組被本身典型變量解釋比例為0.683,所以第二維度的重疊指數或解釋比例為0.566。 多元線性迴歸與逐步迴歸
107
非線性迴歸 多元線性迴歸與逐步迴歸
108
非線性迴歸 非線性迴歸是一種尋找依變數及一組自變數之間關 係非線性模式的方法。
不像僅限於估計線性模式的傳統線性迴歸,非線性 迴歸尚可用來估計依變數及自變數之間的任意關係 模式。 這是使用疊代的估計演算法來完成的。 對 Y = A + BX**2 形式的簡單多項式模式,我們 可藉由定義 W = X**2,並使用傳統方法 (如線性 迴歸程序) 就可估計得到的簡單線性模式 Y = A + BW 模式。 多元線性迴歸與逐步迴歸
109
非線性迴歸的資料考量 依變數和自變數應該都是數值變數
例如: 宗教、主修課程、或居住地區等類別變數, 都必須重新編碼成二元 (虛擬) 變數,或是其他類型 的對比變數。 多元線性迴歸與逐步迴歸
110
( b1 + b2 * x + b3 * x **2)/( b4 * x **2)
非線性迴歸的常見模式 隨機選取的模式不太可能完美適配您的資料。 合適 的參數開始值是必要的,而且有些模式會為收斂而 要求限制式。 名稱 模式運算式 漸進線迴歸 b1 + b2 *exp( b3 * x ) b1 –( b2 *( b3 ** x )) 密度 ( b1 + b2 * x )**(–1/ b3 ) Gauss b1 *(1– b3 *exp( –b2 * x **2)) 對數修改 ( b1 + b3 * x ) ** b2 對數 Logistic b1 –ln(1+ b2 *exp( –b3 * x )) 逐漸縮小返回的 Metcherlich 法 b1 + b2 *exp( –b3 * x ) Michaelis Menten b1* x /( x + b2 ) 二次方比 ( b1 + b2 * x + b3 * x **2)/( b4 * x **2) Weibull b1 – b2 *exp(– b3 * x ** b4 ) 多元線性迴歸與逐步迴歸
111
非線性的選單功能 多元線性迴歸與逐步迴歸
112
若要建立模式運算式,請在「模式」欄位中輸入運算式,或是將元件 (變數、參數或函數) 貼入該欄位
適配不佳度:依演算法進行最小化的函數 限制:在疊代搜尋解答期間,可允許參數值的限制 儲存:將新變數儲存到作用中的資料檔, 可用的選項 包括「預測值」、「殘差」、「微分」及「適配 不佳度函數值」 多元線性迴歸與逐步迴歸
113
「參數」是「非線性迴歸」程序所要估計模式的一部份。 「參數」可以是可加性的常數、可乘的係數、指數或用於求函數值的數值。
開始值:為參數指定起始值,以儘可能更接近期望的最終解。 不適當的開 始值可能導致無法收斂,或是導致收斂至局部解 (非絕對解) 或完全不 可能的解。 使用前一次分析結果的開始值:如果已從此對話方塊執行過非線性迴歸, 就可以選擇此選項,從他們前一次執行時的數值來取得原始值。 這樣 可讓您在演算法收斂遲滯時仍繼續搜尋 (原始的開始值仍將出現在主要 對話方塊的「參數」清單中)。
114
使用者自訂的適配不佳度函數:必須定義適配不 佳度函數,而其和 (遍及所有觀察值) 須依參數值 之選擇來進行最小化。
殘差平方和:對殘差平方和進行最小化 使用者自訂的適配不佳度函數:必須定義適配不 佳度函數,而其和 (遍及所有觀察值) 須依參數值 之選擇來進行最小化。 多元線性迴歸與逐步迴歸
115
自助法估計:使用來自原始資料集的重複樣本,估計某個統
計量之標準誤的方法。利用取樣 (取後放回) 來取得與原始 資料集一樣大小的許多樣本。估計這些樣本中每一個的非線 性方程式。然後計算每個參數估計值的標準誤,做為自助法 估計的標準差。來自原始資料集的參數值,會用來做為每個 自助法樣本的開始值。 循序二次程式設計:供條件限制及未條件限制模式使用。如果 指定條件限制模式、使用者定義的損失函數或自助法的話, 則 SPSS 會自動使用循序二次程式設計。 Levenberg-Marquardt 方法:未設限模式的預設演算法。 如果指定條件限制模式、使用者定義的損失函數或自助法 的話,則無法使用 Levenberg-Marquardt 方法。
116
加權估計 多元線性迴歸與逐步迴歸
117
權重估計 在標準線性迴歸模式中,假設研究之母群體中的變異數為 常數。當這項假設不成立時 (例如,屬性高的觀察值,會 比屬性低的觀察值,出現更多變化) ,使用普通最小平方 法 (OLS) 的線性迴歸,就無法提供最佳化模式估計。 如 果可以從另一個變數預測變化差異的話,「權重估計」程 序就可以使用加權最小平方法 (WLS),來計算線性迴歸模 式的係數。 在決定迴歸係數時,比較精確的觀察值 (也就 是變化較少的觀察值),其加權值就會變得比較大。 「權重估計」程序會檢定加權轉換的範圍,並指出資料最 適合使用哪一種。 多元線性迴歸與逐步迴歸
118
權重估計法的資料考量 資料依變數和自變數應該都是數值變數。
例如:宗教、主修課程、或居住地區等類別變數,都必須 重新編碼成二元 (虛擬) 變數,或是其他類型的對比變數 。 而加權變數也應該是數值變數,並且跟依變數中的變 化有關係。 假設對自變數的每個值而言,依變數的分配必須是常態 的。 依變數和每個自變數之間的關係,應該是線性的, 而且所有觀察值應該互不相關。 依變數的變異性,可以 橫跨數個自變數階層,但是,其差異性必須能夠透過加權 變數,加以估計。 多元線性迴歸與逐步迴歸
119
加權估計的選單功能 多元線性迴歸與逐步迴歸
120
將最佳權數存成新變數:把加權變數加入到作用中的檔案。 這個變數稱為 WGT_n,其中n是一個選用數字,用來指定變數的專屬名稱。
多元線性迴歸與逐步迴歸
121
二階最小平方法 多元線性迴歸與逐步迴歸
122
二階最小平方迴歸 標準的線性迴歸模式會假設依變數的錯誤和自變數沒有關 係。若不是這種情況 (例如,當變數之間的關係是朝兩個 方向作用的),使用一般的最小平方法 (OLS) 的線性迴歸 將不再提供最佳模式預估。 二階最小平方迴歸使用和誤差項無關的工具變數來計算有 問題的預測數的估計值 (第一階段),然後使用這些計算後 的值來預估依變數的線性迴歸模式 (第二階段)。 計算後的值是根據和誤差無關的變數,所以二階模式的結 果會是最佳的。 多元線性迴歸與逐步迴歸
123
二階最小平方迴歸資料考量 資料依變數和自變數應該都是數值變數。
例如:類別變數都必須重新編碼成二元 (虛擬) 變 數,或是其他類型的對比變數。Endogenous 說明 變數是可量化的 (不是可分類的)。 假設對自變數的每個值而言,依變數的分配必須 是常態的。對所有自變數數值而言,依變數分配的 變異性,應該都是常數。依變數和每一個自變數的 關係應該是線性的。 多元線性迴歸與逐步迴歸
124
二階最小平方法的選單功能 多元線性迴歸與逐步迴歸
125
工具的變數:計算二階最小平方法分 析的第一階段中內生變數的預測值。 工具變數的個數必須至少與解釋變數 一樣多。如果列出的解釋變數與工具 變 數一樣的話,結果會與「線性迴 歸」程序一樣。 未指定為工具變數的說明變數將視為 Endogenous 變數。 多元線性迴歸與逐步迴歸
126
最適尺度 多元線性迴歸與逐步迴歸
127
最適尺度 類別迴歸是利用替類別指定數值的方式將類別資料量化,以 便替轉換變數,產生最佳線性迴歸方程式。
類別迴歸也稱為 CATREG (categorical regression)。 標準的線性迴歸分析,會將反應值 (依變數) 和加權預測 (自) 變數間差異的平方和最小化。一般而言,變數都是數值的, 而 (名義的) 類別資料則編碼成二元變數,或者對比變數。 類別變數被用來區分觀察值組別﹔而技巧估計值,則是用來 區分各組別的參數集。其中,估計係數可反應出預測值的改 變,對反應值所造成的影響。 多元線性迴歸與逐步迴歸
128
最適尺度的資料考量 資料類別變數是以名義方式來測量的。如果是整 合資料,或是非次數的對應測量,使用具正相似數 值的加權變數。
假設程序中所使用的最大維度值,是根據作用中 的列個數、行類別個數,以及相等性限制個數來決 定的。如果沒有使用任何相等性限制,而且所有類 別都是作用中的話,則最大維度值就是:具最少類 別之變數的類別個數,再減掉 1。 多元線性迴歸與逐步迴歸
129
最適尺度 類別迴歸可用來說明工作滿意程度,跟工作種類、地理區 域和旅遊次數之間的相關性。可能會發現,經理級跟旅遊 次數少者,其工作滿意程度較高。而在這個範例下所產生 的迴歸方程式,也可用來預測,這三種自變數之任意組合 的工作滿意度。 多元線性迴歸與逐步迴歸
130
最適尺度的選單功能 多元線性迴歸與逐步迴歸
131
插補遺漏值或排除帶有此變數中之遺漏值的物件
插補遺漏值:在選取變數上有遺漏值的物件,插補其遺漏值。 選取眾數可以 次數最多的類別來取代遺漏值。當有多個眾數時,程式將使用類別指標最小 的眾數。 選取額外類別可以額外類別的相同量化來取代遺漏值。這是表示, 在這個變數上有遺漏值的物件,都將視為屬於相同的 (額外) 類別。 排除帶有此變數中之遺漏值的物件:在選取變數上有遺漏值的物件,將自分析中排除。這個策略無法用於補充變數。 多元線性迴歸與逐步迴歸
132
補充性物件:鍵入補充性的個體數字,然後按一下新增。不能加權補充
性的分析標 (會忽略指定的權重)。 起始組態:如果沒有任何變數被視為名義變數,則選取數值組態。 如果 至少有一個變數被視為名義變數,則選取隨機組態。 條件:指定最大疊代數,以供計算迴歸時使用。也可以選取收斂準則值。 如果最後兩個疊代之間的總適合度差異,低於收斂數值,或者已經達 到疊代的最大數目的話,迴歸就會停止疊代。 多元線性迴歸與逐步迴歸
133
THANKS
Similar presentations