第16章複迴歸.

第16章複迴歸

前言只用一個預測變項的迴歸方式，稱為簡單迴歸。將多個有用的預測變項納入迴歸方程式內，以增加迴歸的預測力，減少殘差，稱為複迴歸或多元迴歸（multiple regression）。複迴歸只是簡單迴歸的延伸，不過在解釋上稍微複雜些而已。

第一節一般線性模式（1）有p個預測變項X1, …, Xp
Yi = b0 + b1Xi1 + b2Xi2 + … +bpXip + ei, ei ~ N(0, s2) b0，b1， … ，bp為參數；ei服從常態分佈，平均數為0，變異數為s2，且誤差之間彼此獨立。定義Xi0 = 1，則 Yi = b0 Xi0 + b1Xi1 + b2Xi2 + … +bpXip + ei

第一節一般線性模式（2） E(Yi) = b0 Xi0 + b1Xi1 + b2Xi2 + … +bpXip 假設樣本數為n，則
Y1 = b0 X10 + b1X11 + b2X12 + … +bpX1p + e1 Y2 = b0 X20 + b1X21 + b2X22 + … +bpX2p + e2  Yn = b0 Xn0 + b1Xn1 + b2Xn2 + … +bpXnp + en

第一節一般線性模式（3）

第一節一般線性模式（4）

第一節一般線性模式（5） Y是量的變項，X變項可以是量的變項，也可以是質的變項。
如果所有的X變項都是量的變項，那麼稱為複迴歸分析（multiple regression analysis）。如果所有的X變項都是質的變項，就是變異數分析結構模式。如果有的X變項是質的變項，有些是量的變項，就是共變數分析（analysis of covariance）。

第二節迴歸係數的估計與檢定(1) 點估計利用最小平方法估計迴歸線的係數b。也就是要找到一組b的估計式，讓Q最小：

第二節迴歸係數的估計與檢定(2) 令為b的估計式，得 b是b的不偏估計式，可當作b的點估計。
X-1表示X矩陣的反矩陣（inverse matrix）。矩陣乘上反矩陣會等於單位矩陣：XX-1 = I。

第二節迴歸係數的估計與檢定(3) 例子1 利用8歲體重X1和17歲體重X2來聯合預測20歲體重Y，現得到10人資料如表1。求迴歸線。

第二節迴歸係數的估計與檢定(4)

第二節迴歸係數的估計與檢定(5) 因此， 8歲體重X1每增加1公斤，20歲體重期望值就增加2.027公斤。但是17歲體重X2每增加1公斤，20歲體重期望值反而減少0.099公斤。 17歲體重和20歲體重的相關為0.77。

第二節迴歸係數的估計與檢定(6) 區間估計與假設檢定用MSe替代s2

第二節迴歸係數的估計與檢定(7) 針對某個bk而言，是自由度為 n-p-1的t分佈。 bk的（1-a）100%信賴區間是

第二節迴歸係數的估計與檢定(8) 例子2 利用例子1的資料，估計b0、b1、b2的95%信賴區間，並檢定b1和b2是否為0。作法

第二節迴歸係數的估計與檢定(9) 截距、8歲、17歲的標準誤為

第二節迴歸係數的估計與檢定(10) b0、b1、b2的95％信賴區間分別為

第三節預測效果的變異數分析 (1) 複迴歸也可以進行預測效果的變異數分析，以檢定這條迴歸線是否有用。自由度：n-1 自由度：p

第三節預測效果的變異數分析 (2) 當b1= b2 =…= bp = 0，會服從F分佈，如果計算的超過臨界值，就拒絕虛無假設。

第三節預測效果的變異數分析 (2) 例子2 作法承例子1，進行預測效果的變異數分析，計算R2和。
計算X1、X2、Y的平均數分別為28.6、64.5、64.4。利用計算。計算SSe和SST，分別為496.70和。

第三節預測效果的變異數分析 (3) 拒絕虛無假設，而宣稱迴歸線的效果不等於0。 R2 = / = 0.66。

第四節平均數的估計誤差 (1) 對於Xh而言，效標變項的點估計為當母體變異數未知，的（1-a）100%信賴區間是

第四節平均數的估計誤差 (2) 例子3 承例子2，對8歲時體重30公斤，17歲體重50公斤的人而言，他們在20歲時的體重平均數為多少？此母體平均數的95%信賴區間是多少？作法

第四節平均數的估計誤差 (3) 例子3 承例子2，對8歲時體重30公斤，17歲體重50公斤的人而言，他們在20歲時的體重平均數為多少？此母體平均數的95%信賴區間是多少？作法

第四節平均數的估計誤差 (4) 這些人體重平均數的95%信賴區間是

第五節新觀測值的預測 (1) 新觀測值的預測的（1-a）100%信賴區間是「m個」特定的個體的平均數的預測

第五節新觀測值的預測 (2) 例子4 對某一個8歲時體重30公斤，17歲體重50公斤的人而言，他在20歲時的體重為多少？95%信賴區間？對十個8歲時體重30公斤，17歲體重50公斤的人而言，他們在20歲時的體重平均數為多少？此平均數的95%信賴區間？

第五節新觀測值的預測 (3) 作法對那樣的人而言，點估計為66.87公斤，估計變異誤為因此他的體重的95%的信賴區間為
對這樣十人而言，點估計仍為60.27公斤，估計變異誤為他們體重的平均數的95%信賴區間是

第六節標準化迴歸係數 (1) 在眾多的預測變項中，難免各自會使用不同的單位。例如用起薪和年資來預測收入，如果迴歸方程式為
要避免單位不同導致迴歸係數無法直接比較的困擾，可以將所有變項標準化，然後進行複迴歸分析，這些迴歸係數就是標準化迴歸係數。標準化迴歸係數與原先的迴歸係數的關係：

第六節標準化迴歸係數 (2) 例子5 作法計算例子1中8歲和17歲體重的標準化迴歸係數。
= 34.93， = ， = 。b1= 2.027，b2 = 。因此

第七節共線 (1) 在複迴歸分析裡，有些預測變項間可能會有高度的關連，以致造成迴歸方程式可能會與原先的預期不一樣。

第七節共線 (2) 8歲體重預測20歲： 17歲體重預測20歲： 8和17歲體重預測20歲：
8歲的係數和17歲的係數未達0.05顯著水準，表示17歲體重來估計20歲體重是無用的。

第七節共線 (3) 用8歲來預測時，8歲迴歸係數標準誤為0.45。用17歲來預測時，17歲迴歸係數標準誤為0.18。
用8歲和17歲聯合預測時，標準誤分別變為1.67和0.61，為原來標準誤的3.7和3.4倍。標準誤膨脹的主因是預測變項間有高關連：8歲體重與17歲體重的相關高達0.96。預測變項間的高相關，就是所謂的多元共線(multicollinearity)現象。

第七節共線 (4) 為了避免（高度）共線的影響：
1. 將兩個相關過高的預測變項，擇一保留即可。例如用8歲體重預測20歲即可，將17歲捨棄。 2. 分別呈現兩條簡單迴歸線。再看R2，以8歲體重預測，得R2為0.663。加入17歲體重進行聯合預測變為0.664，表示加入17歲並沒有幫助。在方面，以8歲體重單獨預測時，得為0.621。加入17歲體重進行聯合預測後反而變為0.569。

第七節共線 (5) 共線的警訊 1. 迴歸係數正負號與理論不吻合，
2. 加入某一個新的預測變項，會使得原先預測變項的迴歸係數的標準誤大幅的改變，此時應仔細檢測預測變項間的關連。可以用其他所有預測變項來預測某一個預測變項，如果發現R2很大（如大於0.8），則存在著高度共線，可將這一個預測變項刪除。

第七節共線 (6) 選定適當的預測變項 1. 預測變項要和效標變項的關連越高越好 2. 預測變項間的相關越小越好。

第八節多項式迴歸方程式 (1) 一個量的變項X來預測Y，且採用多項式迴歸模式（polynomial regression model）：
第八節多項式迴歸方程式 (1) 一個量的變項X來預測Y，且採用多項式迴歸模式（polynomial regression model）：通常先將原始分數減去平均數後所形成的離均差，加以平方或立方等。這樣可以避免各個預測變項（如一次方項、二次方項、三次方項等）的相關過高，以致產生所謂的共線。經由此離均差所得到的迴歸方程式，必須再還原回原始分數的方程式，以利解釋。

第八節多項式迴歸方程式 (2) 例子6 作法以表1的8歲體重來預測20歲體重，進行迴歸分析，迴歸方程式為兩次方：
第八節多項式迴歸方程式 (2) 例子6 以表1的8歲體重來預測20歲體重，進行迴歸分析，迴歸方程式為兩次方：作法 8歲體重平均數為28.6。令8歲體重的離均差為x= X-28.6，並計算x2。

第八節多項式迴歸方程式 (3) 將x看成X1，x2看成X2，求得R2為0.73，為0.66。參數估計值和標準誤為：
第八節多項式迴歸方程式 (3) 將x看成X1，x2看成X2，求得R2為0.73，為0.66。參數估計值和標準誤為： = x x2 x和x2迴歸係數的標準誤為0.43和0.06。一次方的直線迴歸線就夠用了。

第八節多項式迴歸方程式 (4) 轉換為原始量尺

第八節多項式迴歸方程式 (5) 如果用原始量尺，求得R2為0.73，為0.66。這和用離均差的結果一樣。參數估計值為：
第八節多項式迴歸方程式 (5) 如果用原始量尺，求得R2為0.73，為0.66。這和用離均差的結果一樣。參數估計值為： = – 2.99X X2 X係數的標準誤為3.54，X2係數的標準誤為0.06。因此X和X2係數均未達0.05顯著水準。和離均差量尺的結果相比，可以發現一次方係數的標準誤從原先的0.43變為現在的3.54。這導致原始量尺的X的係數無法拒絕虛無假設。 x和x2的相關為0.22，X和X2的相關為0.99。

第八節多項式迴歸方程式 (6)

第九節預測變項的選擇 (1) 選取預測變項 1. 「反向消除法」（backward deletion），納入所有預測變項，逐一刪除沒有預測效果的變項。 2. 「順向選擇法」（forward selection），選一個最重要的預測變項，逐一納入次重要的變項。 3. 「逐步迴歸法」（stepwise regression），跟順向選擇法類似，在加入新變項之前，還要檢驗已經在迴歸方程式中舊變項是否變得不重要。

第九節預測變項的選擇 (2) 預測效果的假設檢定 1. 該變項的迴歸係數的t檢定 2. R2差異的F檢定。
加入該變項後的模式稱為擴大模式（full model），加入前的模式稱為縮減模式（reduced model）：

第九節預測變項的選擇 (3) 階層原則（hierarchy principle）：如果保留高次方的變項（如X2），其他低次方的變項（如X和常數項）就要保留。同理，如果要刪除低次方的變項（如X），就要連高次方的變項（如X2和其他更高階的變項）一起刪除。源於同一個質變項的虛擬變項（dummy variable）必須同進同出

第九節預測變項的選擇 (4) 例子7 作法比較二次方的迴歸方程式的預測效果是否顯著的比一次方（簡單線性）迴歸方程式為佳。
用一次方來預測得 = 0.66，r = 1。用二次方得 = 0.73，f = 2。這兩個模式的預測效果沒有顯著差異。

第16章複迴歸.

Similar presentations

Presentation on theme: "第16章複迴歸."— Presentation transcript:

Similar presentations

About project

Feedback

Войти

Auth with social network:

第16章 複迴歸.

Similar presentations

Presentation on theme: "第16章 複迴歸."— Presentation transcript:

Similar presentations

About project

Feedback

第16章複迴歸.

Presentation on theme: "第16章複迴歸."— Presentation transcript: