第16章 複迴歸.

Slides:



Advertisements
Similar presentations
第 6 章 複迴歸之一.
Advertisements

單元九:單因子變異數分析.
實驗規劃--實驗因子設定, 效標選定與受測者選定
Chapter 2 簡單迴歸模型.
第9章 假設檢定.
应用回归分析 信计学院统计系 沈菊红.
1.1 利用平方差及完全平方的恆等式 分解因式 A 利用平方差的恆等式 B 利用完全平方的恆等式 目錄.
資料分析:相關和迴歸 第十八章 「行銷研究人員必須持續檢視消費者認知和最終 購買決策之間的關係,因此,相關和迴歸技術為行
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
第 8 章 一組樣本 單變項推論方法.
Keller: Stats for Mgmt & Econ, 7th Ed 簡單線性迴歸和相關分析
第11章 線性相關.
17 類別資料的分析  學習目的.
第十四章 複相關與複迴歸分析 陳順宇 教授 成功大學統計系.
本章重點: 1.迴歸分析及相關分析的意義及方法 2.利用最小平方法來估計迴歸方程式 3.相關分析與迴歸分析的關係
迴歸分析 主講人:童超塵 實驗室網址 永久: 實驗室網址 永久: 目前:
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
第六章 平均數比較 6-1 平均數比較(各種 T Test 的應用) 6-2 Means 平均數分析 6-3 單一樣本 T 檢定
Ch7:一般線性模式 GLM.
Simple Linear Regression -4
REGRESSION FOR ORDINAL OUTCOMES 「順序尺度依變項」的迴歸模型
第14章 迴歸分析與複迴歸分析  本章的學習主題  1.使用迴歸分析的時機 2.最小平方法在迴歸分析上的意義 3.迴歸分析的假設
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
Regression and Correlation
第 14 章 簡單迴歸.
第 7 章 複迴歸之二.
相關與迴歸 Correlation and Regression
第 14 章 簡單線性迴歸.
十字交乘法 多項式乘積: (X + 3)×(X+2) =X2 +2X +3X + 6 =X2+ 5X + 6 因式分解:
謝寶煖 台灣大學圖書資訊學系 量化研究與統計分析 迴歸分析 謝寶煖 台灣大學圖書資訊學系
複迴歸分析-2 Multiple Regression.
第十一章 相關研究法.
第8章 估計 點估計 區間估計與信賴區間.
Chapter 3 複迴歸分析: 估計.
複迴歸分析-1 Multiple Regression.
統計學 指導老師: 郭燿禎 Date: 2/14/12.
第十章 順序資料之假設檢定 10.1 順序資料檢定概論 10.2 符號檢定 10.3 符號秩檢定(成對樣本檢定)
第 五 章 複迴歸分析.
第 7 章 推論方法.
估計與假設檢定.
第一章.
Definition of Trace Function
第 一 章 多元迴歸分析.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
第 15 章 複迴歸 © 滄海書局.
大綱:加減法的化簡 乘除法的化簡 去括號法則 蘇奕君 台灣數位學習科技股份有限公司
小數除法.
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
第7章 回归分析.
上課大綱 迴歸係數的區間估計與假設檢定 統計顯著性與經濟顯著性 迴歸模型中的點預測與區間預測 配適度分析(變異數分析)
第一章.
Chapter 4 迴歸分析. Chapter 4 迴歸分析 迴歸分析原理 迴歸分析的目的在於找出一條最能夠代表所有觀測資料(樣本點)的函數(迴歸估計式),用這個函數代表應變數和自變數之間的關係 多變量分析—管理上的應用.
第 2 章 迴歸分析的推論.
反矩陣與行列式 東海大學物理系‧數值分析.
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
例題 1. 多項式的排列 1-2 多項式及其加減法 將多項式 按下列方式排列: (1) 降冪排列:______________________ (2) 升冪排列:______________________ 排列 降冪:次數由高至低 升冪;次數由低至高.
第 12 章  變異數分析.
Linear Regression Analysis 5E Montgomery, Peck & Vining
第一章 直角坐標系 1-3 函數及其圖形.
第 1 章 單一預測變數線性迴歸.
4-1 變數與函數 第4章 一次函數及其圖形.
政治大學財政所與東亞所選修--應用計量分析--中國財政研究 黃智聰
解下列各一元二次方程式: (1)(x+1)2=81 x+1=9 或 x+1=-9 x=8 或 x=-10 (2)(x-5)2+3=0
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
第 七 章 共線性 與 偏相關.
ABC ( )已知 ,則下列哪些是x6-7x5-8x4 的因 式?(複選) (A) x+1 (B) 2x+2 (C) x3(x+1)
Presentation transcript:

第16章 複迴歸

前言 只用一個預測變項的迴歸方式,稱為簡單迴歸。將多個有用的預測變項納入迴歸方程式內,以增加迴歸的預測力,減少殘差,稱為複迴歸或多元迴歸(multiple regression)。 複迴歸只是簡單迴歸的延伸,不過在解釋上稍微複雜些而已。

第一節 一般線性模式(1) 有p個預測變項X1, …, Xp Yi = b0 + b1Xi1 + b2Xi2 + … +bpXip + ei, ei ~ N(0, s2) b0,b1, … ,bp為參數;ei服從常態分佈,平均數為0,變異數為s2,且誤差之間彼此獨立。 定義Xi0 = 1,則 Yi = b0 Xi0 + b1Xi1 + b2Xi2 + … +bpXip + ei

第一節 一般線性模式(2) E(Yi) = b0 Xi0 + b1Xi1 + b2Xi2 + … +bpXip 假設樣本數為n,則 Y1 = b0 X10 + b1X11 + b2X12 + … +bpX1p + e1 Y2 = b0 X20 + b1X21 + b2X22 + … +bpX2p + e2  Yn = b0 Xn0 + b1Xn1 + b2Xn2 + … +bpXnp + en

第一節 一般線性模式(3)

第一節 一般線性模式(4)

第一節 一般線性模式(5) Y是量的變項,X變項可以是量的變項,也可以是質的變項。 如果所有的X變項都是量的變項,那麼稱為複迴歸分析(multiple regression analysis)。 如果所有的X變項都是質的變項,就是變異數分析結構模式。 如果有的X變項是質的變項,有些是量的變項,就是共變數分析(analysis of covariance)。

第二節 迴歸係數的估計與檢定(1) 點估計 利用最小平方法估計迴歸線的係數b。也就是要找到一組b的估計式,讓Q最小:

第二節 迴歸係數的估計與檢定(2) 令 為b的估計式,得 b是b的不偏估計式,可當作b的點估計。 X-1表示X矩陣的反矩陣(inverse matrix)。矩陣乘上反矩陣會等於單位矩陣:XX-1 = I。

第二節 迴歸係數的估計與檢定(3) 例子1 利用8歲體重X1和17歲體重X2來聯合預測20歲體重Y,現得到10人資料如表1。求迴歸線。

第二節 迴歸係數的估計與檢定(4)

第二節 迴歸係數的估計與檢定(4)

第二節 迴歸係數的估計與檢定(5) 因此, 8歲體重X1每增加1公斤,20歲體重期望值就增加2.027公斤。但是17歲體重X2每增加1公斤,20歲體重期望值反而減少0.099公斤。 17歲體重和20歲體重的相關為0.77。

第二節 迴歸係數的估計與檢定(6) 區間估計與假設檢定 用MSe替代s2

第二節 迴歸係數的估計與檢定(7) 針對某個bk而言, 是自由度為 n-p-1的t分佈。 bk的(1-a)100%信賴區間是

第二節 迴歸係數的估計與檢定(8) 例子2 利用例子1的資料,估計b0、b1、b2的95%信賴區間,並檢定b1和b2是否為0。 作法

第二節 迴歸係數的估計與檢定(9) 截距、8歲、17歲的標準誤為

第二節 迴歸係數的估計與檢定(10) b0、b1、b2的95%信賴區間分別為

第三節 預測效果的變異數分析 (1) 複迴歸也可以進行預測效果的變異數分析,以檢定這條迴歸線是否有用。 自由度:n-1 自由度:p

第三節 預測效果的變異數分析 (2) 當b1= b2 =…= bp = 0, 會服從F分佈,如果計算的 超過臨界值,就拒絕虛無假設。

第三節 預測效果的變異數分析 (2) 例子2 作法 承例子1,進行預測效果的變異數分析,計算R2和 。 計算X1、X2、Y的平均數分別為28.6、64.5、64.4。利用 計算 。計算SSe和SST,分別為496.70和1480.40。

第三節 預測效果的變異數分析 (3) 拒絕虛無假設,而宣稱迴歸線的效果不等於0。 R2 = 983.72/1480.40 = 0.66。

第四節 平均數的估計誤差 (1) 對於Xh而言,效標變項 的點估計為 當母體變異數未知, 的(1-a)100%信賴區間是

第四節 平均數的估計誤差 (2) 例子3 承例子2,對8歲時體重30公斤,17歲體重50公斤的人而言,他們在20歲時的體重平均數為多少?此母體平均數的95%信賴區間是多少? 作法

第四節 平均數的估計誤差 (3) 例子3 承例子2,對8歲時體重30公斤,17歲體重50公斤的人而言,他們在20歲時的體重平均數為多少?此母體平均數的95%信賴區間是多少? 作法

第四節 平均數的估計誤差 (4) 這些人體重平均數的95%信賴區間是

第五節 新觀測值的預測 (1) 新觀測值的預測 的(1-a)100%信賴區間是 「m個」特定的個體的平均數的預測

第五節 新觀測值的預測 (2) 例子4 對某一個8歲時體重30公斤,17歲體重50公斤的人而言,他在20歲時的體重為多少?95%信賴區間?對十個8歲時體重30公斤,17歲體重50公斤的人而言,他們在20歲時的體重平均數為多少?此平均數的95%信賴區間?

第五節 新觀測值的預測 (3) 作法 對那樣的人而言,點估計為66.87公斤,估計變異誤為 因此他的體重的95%的信賴區間為 對這樣十人而言,點估計仍為60.27公斤,估計變異誤為 他們體重的平均數的95%信賴區間是

第六節 標準化迴歸係數 (1) 在眾多的預測變項中,難免各自會使用不同的單位。例如用起薪和年資來預測收入,如果迴歸方程式為 要避免單位不同導致迴歸係數無法直接比較的困擾,可以將所有變項標準化,然後進行複迴歸分析,這些迴歸係數就是標準化迴歸係數。 標準化迴歸係數與原先的迴歸係數的關係:

第六節 標準化迴歸係數 (2) 例子5 作法 計算例子1中8歲和17歲體重的標準化迴歸係數。 = 34.93, = 264.28, = 164.49。b1= 2.027,b2 = -0.099。因此

第七節 共線 (1) 在複迴歸分析裡,有些預測變項間可能會有高度的關連,以致造成迴歸方程式可能會與原先的預期不一樣。

第七節 共線 (2) 8歲體重預測20歲: 17歲體重預測20歲: 8和17歲體重預測20歲: 8歲的係數和17歲的係數未達0.05顯著水準,表示17歲體重來估計20歲體重是無用的。

第七節 共線 (3) 用8歲來預測時,8歲迴歸係數標準誤為0.45。 用17歲來預測時,17歲迴歸係數標準誤為0.18。 用8歲和17歲聯合預測時,標準誤分別變為1.67和0.61,為原來標準誤的3.7和3.4倍。 標準誤膨脹的主因是預測變項間有高關連:8歲體重與17歲體重的相關高達0.96。預測變項間的高相關,就是所謂的多元共線(multicollinearity)現象。

第七節 共線 (4) 為了避免(高度)共線的影響: 1. 將兩個相關過高的預測變項,擇一保留即可。例如用8歲體重預測20歲即可,將17歲捨棄。 2. 分別呈現兩條簡單迴歸線。 再看R2,以8歲體重預測,得R2為0.663。加入17歲體重進行聯合預測變為0.664,表示加入17歲並沒有幫助。在 方面,以8歲體重單獨預測時,得為0.621。加入17歲體重進行聯合預測後反而變為0.569。

第七節 共線 (5) 共線的警訊 1. 迴歸係數正負號與理論不吻合, 2. 加入某一個新的預測變項,會使得原先預測變項的迴歸係數的標準誤大幅的改變, 此時應仔細檢測預測變項間的關連。可以用其他所有預測變項來預測某一個預測變項,如果發現R2很大(如大於0.8),則存在著高度共線,可將這一個預測變項刪除。

第七節 共線 (6) 選定適當的預測變項 1. 預測變項要和效標變項的關連越高越好 2. 預測變項間的相關越小越好。

第八節 多項式迴歸方程式 (1) 一個量的變項X來預測Y,且採用多項式迴歸模式(polynomial regression model): 第八節 多項式迴歸方程式 (1) 一個量的變項X來預測Y,且採用多項式迴歸模式(polynomial regression model): 通常先將原始分數減去平均數後所形成的離均差, 加以平方或立方等。這樣可以避免各個預測變項(如一次方項、二次方項、三次方項等)的相關過高, 以致產生所謂的共線。經由此離均差所得到的迴歸方程式,必須再還原回原始分數的方程式,以利解釋。

第八節 多項式迴歸方程式 (2) 例子6 作法 以表1的8歲體重來預測20歲體重,進行迴歸分析,迴歸方程式為兩次方: 第八節 多項式迴歸方程式 (2) 例子6 以表1的8歲體重來預測20歲體重,進行迴歸分析,迴歸方程式為兩次方: 作法 8歲體重平均數為28.6。令8歲體重的離均差為x= X-28.6,並計算x2。

第八節 多項式迴歸方程式 (3) 將x看成X1,x2看成X2,求得R2為0.73, 為0.66。參數估計值和標準誤為: 第八節 多項式迴歸方程式 (3) 將x看成X1,x2看成X2,求得R2為0.73, 為0.66。參數估計值和標準誤為: = 61.85 + 1.64x + 0.08x2 x和x2迴歸係數的標準誤為0.43和0.06。一次方的直線迴歸線就夠用了。

第八節 多項式迴歸方程式 (4) 轉換為原始量尺

第八節 多項式迴歸方程式 (5) 如果用原始量尺,求得R2為0.73, 為0.66。這和用離均差的結果一樣。參數估計值為: 第八節 多項式迴歸方程式 (5) 如果用原始量尺,求得R2為0.73, 為0.66。這和用離均差的結果一樣。參數估計值為: = 81.17 – 2.99X + 0.08X2 X係數的標準誤為3.54,X2係數的標準誤為0.06。因此X和X2係數均未達0.05顯著水準。 和離均差量尺的結果相比,可以發現一次方係數的標準誤從原先的0.43變為現在的3.54。這導致原始量尺的X的係數無法拒絕虛無假設。 x和x2的相關為0.22,X和X2的相關為0.99。

第八節 多項式迴歸方程式 (6)

第九節 預測變項的選擇 (1) 選取預測變項 1. 「反向消除法」(backward deletion),納入所有預測變項,逐一刪除沒有預測效果的變項。 2. 「順向選擇法」(forward selection),選一個最重要的預測變項,逐一納入次重要的變項。 3. 「逐步迴歸法」(stepwise regression),跟順向選擇法類似,在加入新變項之前,還要檢驗已經在迴歸方程式中舊變項是否變得不重要。

第九節 預測變項的選擇 (2) 預測效果的假設檢定 1. 該變項的迴歸係數的t檢定 2. R2差異的F檢定。 加入該變項後的模式稱為擴大模式(full model),加入前的模式稱為縮減模式(reduced model):

第九節 預測變項的選擇 (3) 階層原則(hierarchy principle):如果保留高次方的變項(如X2),其他低次方的變項(如X和常數項)就要保留。同理,如果要刪除低次方的變項(如X),就要連高次方的變項(如X2和其他更高階的變項)一起刪除。 源於同一個質變項的虛擬變項(dummy variable)必須同進同出

第九節 預測變項的選擇 (4) 例子7 作法 比較二次方的迴歸方程式的預測效果是否顯著的比一次方(簡單線性)迴歸方程式為佳。 用一次方來預測得 = 0.66,r = 1。用二次方得 = 0.73,f = 2。 這兩個模式的預測效果沒有顯著差異。