複迴歸分析-2 Multiple Regression
學習主題 解釋複迴歸模式 複習簡單迴歸的重要觀念 殘差分析 檢定整個模型的顯著性 檢定個別變數的影響 檢定部分模型 電腦報表使用及詮釋 As a result of this class, you will be able to...
學習目標 複習 ----- 今日內容 ---- 複迴歸分析- 1 複迴歸分析- 2 複迴歸分析- 1 今日內容 ---- 複迴歸分析- 2 As a result of this class, you will be able to...
複習 複迴歸分析- 1 解釋複迴歸模式 複習簡單迴歸的重要觀念 殘差分析 檢定整個模型的顯著性 檢定個別變數的影響 電腦報表使用及詮釋 複迴歸分析- 1 解釋複迴歸模式 複習簡單迴歸的重要觀念 殘差分析 檢定整個模型的顯著性 檢定個別變數的影響 電腦報表使用及詮釋 As a result of this class, you will be able to...
今日內容 複迴歸分析- 2 檢定部分模型 模型的應用 電腦報表使用及詮釋
迴歸模式之種類 This teleology is based on the number of explanatory variables & nature of relationship between X & Y. 27
F 建立線性複迴歸模式之步驟 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 進入統計推論的前提 4. 評估模式 5. 利用模式做預測及估計 F
Population Y-intercept 一般線性複迴歸模式 某個變數和其它變數之間的線性關係 Population Y-intercept Population slopes 隨機誤差(Random error) 相依或反應變數(response variable ) 獨立或預測變數(predictor variables) 11
一般線性複迴歸模式 母體真實關係 代表獨立變數 的貢獻 可為其他變數的函數 例如:
母體複迴歸模式 觀測值 Bivariate model 期望值 12
樣本複迴歸模式 Bivariate model 13
例二 參數估計 你是大型連鎖超商的行銷經理,認為活力棒(高能量補充品)為有潛力的產品,想找出產品價格(cent分)和店內促銷(元)對活力棒銷售量(次數/週)的影響,分別在34家連鎖店收集資料如下:
例二 資料
例二的模型 考慮模型如下: 表price 表promotion
參數估計電腦報表 b0 b1 b2
係數之詮釋 1. 斜率 (b1) 2. 斜率 (b2) 3. 截距 (b0) 在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售次數(Y), 可期望(平均)增加53.2次, 2. 斜率 (b2) 在售價不變情形下,店內促銷經費(X2)每增加 百元的銷售次數(Y), 可期望(平均)增加361.3次, 3. 截距 (b0) b0亦無具體意義, Y-intercept is difficult to interpret. How can you have any responses with no circulation?
比較不同模型的估計值 表price 表promotion
迴歸模型適用前滿足之假設Linear Regression Model Assumptions 1. 隨機誤差機率分配的平均數為0 2. 隨機誤差機率分配的變異數為固定常數s2 3. 隨機誤差機率分配為常態分配 4. 任何隨機誤差間均相互獨立 i.i.d:獨立且為完全相同之分配
隨機誤差機率分配示意圖Error Probability Distribution f( e ) Y X 1 X 2 X 91
建立線性複迴歸模式之步驟 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 進入統計推論的前提 4. 評估模式 5. 利用模式做預測及估計
評估複迴模式之步驟 1. 檢視變異測量(決定係數coefficient of determination及模型估計的標準誤) 2. 殘差分析(residual analysis) 3. 檢定參數顯著性 整個模式 個別係數 部分模式
隨機誤差變異量 Random Error Variation ^ 1. 真實的Y與預估的Y 間的差異變異情形 2. 根據迴歸模型所測得的標準誤 模型估計的標準誤 3. 受到下列因素的影響 模型選定的正確性 各個參數估計的正確性
迴歸模型變異量的示意圖Variation Measures 模型未能解釋的差異 (Yi - Yi) ^ Yi 未考慮迴歸前的差異(Yi -Y) ^ 模型已解釋的差異(Yi -Y) 78
迴歸模型變異量的量測Measures of Variation in Regression 1. 總變異量 (SST或SSy) 觀察值Yi與平均數Y差異的平方和 2. 經由模型可解釋的變異量 (SSR) 平均數Y與預估值Yi間差異的平方和 模型仍未解釋之隨機變異量 (SSE) 其他未能考慮到的因素所產生的變異量 觀察值Yi與預估值Yi間差異的平方和 ^ ^
判定係數 (Coefficient of Multiple Determination) 1. Y 變異量被所有X變數同時解釋到之比例 R2 = 解釋到的變異 = SSR 總變異量 SST 2. 模式中的X變數增多則R2增大 僅以 Y 值計算 SST,SST不變但SSE變小 比較不同模式時, 利用R2值有缺點(Xs共相關) SSR is sum of squares regression (not residual; that SSE). 27
調整的判定係數 (Adjusted Coefficient of Multiple Determination) 考慮自變數的個數和樣本數大小調整後的判定係數 比 R2 為小 比較不同模型時較為有用
範例二的判定係數 R2=0.7577 銷售量的總變異有 75.77%可由售價和促銷經費所解釋 =0.7421 比 R2 為小 銷售量的總變異有 75.77%可由售價和促銷經費所解釋 =0.7421 比 R2 為小 模型估計的標準誤=Se= 638.07
其他模型的變異測量 SST不變
其他模型的判定係數 R2較小
評估複迴模式之步驟 1. 檢視變異測量(決定係數coefficient of determination及模型估計的標準誤) 2. 殘差分析(residual analysis) 3. 檢定參數顯著性 整個模式 個別係數 部分模式
殘差分析 Residual Analysis 目的 檢驗預測變數Xi與所對應的反應變數Y是否為線性關係,亦即檢測模式的適切性(pattern) 評估是否合乎線性迴歸成立的假設 偵測離群值或影響點 進階問題 使用殘差的繪圖分析 殘差 繪製殘差圖 殘差的直方圖,莖葉圖或常態機率圖
範例二的殘差分析
所有殘差值 殘差較大
殘差 vs. promotion
殘差 vs. price
殘差 vs.預測值
常態機率圖 表示殘差很有可能為常態 或沒有不為常態的證據
評估複迴模式之步驟 1. 檢視變異測量(決定係數coefficient of determination及模型估計的標準誤) 2. 殘差分析(residual analysis) 3. 檢定參數顯著性 整個模式 個別係數 部分模式
檢定整體模式之顯著性 1. 檢定所有X變數對Y變數的效果 2. 使用F 檢定統計量(test statistic) 3. 假設 3. 假設 H0: 1 = 2 = ... = k = 0 所有X變數均不影響Y Ha: 至少有一個j不為 0 j=1…k 至少有一個X影響Y Less chance of error than separate t-tests on each coefficient. Doing a series of t-tests leads to a higher overall Type I error than .
變異數分析ANOVA表 ANOVA變異數分析表 變異數分析表(ANOVA Table) df SS MS F Significance F Regression k SSR MSR =SSR/k MSR/MSE P-value of the F Test Residuals n-k-1 SSE MSE =SSE/(n-k-1) Total n-1 SST
範例二的ANOVA TABLE P值 K=2 X變數的個數 n-k-1
範例二整體模型的檢定 H0: 1 = 2 = 0 H1: At least one i 0 F F = .05 df = 2 and 31 Critical Value(s): Test statistic: Decision: Conclusion: F 48.477 (Excel Output) Reject at = 0.05 = 0.05 There is evidence that at least one independent variable affects Y F 3.32
評估複迴模式之步驟 1. 檢視變異測量(決定係數coefficient of determination及模型估計的標準誤) 2. 殘差分析(residual analysis) 3. 檢定參數顯著性 整個模式 個別係數 部分模式
檢定個別變數 檢定個別變數 Xi 對 Y的效果,嚴格說來,為其他變數已在模型中時, Xi對 Y的邊際效果 使用t 檢定統計量(test statistic) Hypotheses: H0: i = 0 (Xi 不影響Y) H1: i 0 (Xi 對Y有影響)
t Test Statistic Excel Output: Example t Test Statistic for X1 (price) t Test Statistic for X2 (promotion)
t Test : Example Solution = 0.05,促銷經費不變下,價格是否對銷售量有影響? H0: 1 = 0 H1: 1 0 df = 31 Critical Value(s): Test Statistic: Decision: Conclusion: t Test Statistic = -7.7664 Reject H0 at = 0.05 Reject H Reject H .025 .025 There is evidence of a significant effect of price on sales. t -2.0395 2.0395
t Test : Example Solution = 0.05,價格不變下,促銷經費是否對銷售量有影響? H0: 2 = 0 H1: 2 0 df = 31 Critical Value(s): Test Statistic: Decision: Conclusion: t Test Statistic =5.273 Reject H0 at = 0.05 Reject H Reject H .025 .025 There is evidence of a significant effect of promotion on sales. t -2.0395 2.0395
Confidence Interval Estimate for the Slope 1係數的信賴區間 -67.1925 1 -39.2421 在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售次數(Y), 在95%的信心水準下,可期望(平均)增加39.2次至67.2次
Confidence Interval Estimate for the Slope 2係數的信賴區間 2.216 2 5.5011 在店內售價不變情形下,促銷經費(X2) 每增加一百元,銷售次數(Y), 在95%的信心水準下,可期望(平均)增加221.6次至501次
一組獨立變數的貢獻 Let Xs(Xk-m+1,Xk-m+2,…,Xk) be the subset of independent variables of interest 考慮兩個模式如下: 完整模式(Full Model) 簡化模式(Reduce Model)
一組獨立變數的貢獻 Let Xs be the subset of independent variables of interest Measures the contribution of the subset xs in explaining SST
一組獨立變數的貢獻: Example Let Xs be X1 and X3 From ANOVA section of regression for From ANOVA section of regression for
檢定部分模式 檢驗一組獨立變數Xs 在模式中對y的貢獻 Null hypothesis: Alternative hypothesis: 當其他變數已在模式中,加入該組變數並未有效改善模式 Alternative hypothesis: 當其他變數已在模式中, 加入該組變數其中至少有一個可顯著改善模式
檢定部分模式 計算F統計量 比較兩個迴歸模式 One regression includes everything —完整模式 (continued) 計算F統計量 比較兩個迴歸模式 One regression includes everything —完整模式 Another regression includes everything except the portion to be tested —簡化模式
偏F檢定(Partial F Test) Hypotheses: H0 : 亦即, H1 : 亦即,至少有一i0, i =k-m+1,…,k
偏F檢定(Partial F Test) Test Statistic: with df = m and (n-k-1) m = # of variables in the subset Xs
個別變數 的貢獻 Let Xk be the independent variable of interest 個別變數 的貢獻 Let Xk be the independent variable of interest 完整模式(Full Model) 簡化模式(Reduce Model)
個別變數 的貢獻 Let Xk be the independent variable of interest 個別變數 的貢獻 Let Xk be the independent variable of interest SSR(Xk|all others except Xk) =SSR(all)-SSR(all others except Xk) Measures the contribution of Xk in explaining the total variation in Y (SST)
個別變數 的貢獻 Measures the contribution of in explaining SST 個別變數 的貢獻 From ANOVA section of regression for From ANOVA section of regression for Measures the contribution of in explaining SST
Coefficient of Partial Determination of 偏判定係數 當其他變數不變的情形下,反應變數的變異可由Xk解釋的百分比
Coefficient of Partial Determination for (continued) Example: Two Independent Variable Model
Venn Diagrams and Coefficient of Partial Determination for Bars = promotion Price
Partial F Test For Contribution of A Single Hypotheses: H0 :當其他變數已在模式中, 加入該變數並未有效改善模式 H1 :當其他變數已在模式中, 加入該變數可顯著改善模式 亦即 H0: k = 0 (Xk 不影響Y) H1: k 0 (Xk對Y有影響)
偏F檢定(Partial F Test) Test Statistic: Note: With df = 1 and (n-k-1) m = 1 here Note:
檢定整體模式之顯著性 1. 檢定所有X變數對Y變數的效果 2. 使用F 檢定統計量(test statistic) 3. 假設 3. 假設 H0: 1 = 2 = ... = k = 0 所有X變數均不影響Y Ha: 至少有一個j不為 0 j=1…k 至少有一個X影響Y Less chance of error than separate t-tests on each coefficient. Doing a series of t-tests leads to a higher overall Type I error than .
偏F檢定(Partial F Test) Test Statistic: with df = k and (n-k-1) k = # of variables in the subset Xs(all variables)
Testing Portions of Model: 範例二 H0: X2 (promotion) does not improve model with X1 (price) included H1: X2 does improve model = .05, df = 1 and 31 Critical Value = 4.17 (For X1 and X2) (For X1) Conclusion: Reject H0; X2 does improve model
t Test : Example Solution = 0.05,價格不變下,促銷經費是否對銷售量有影響? t2=27.8 H0: 2 = 0 H1: 2 0 df = 31 Critical Value(s): Test Statistic: Decision: Conclusion: t Test Statistic =5.273 Reject H0 at = 0.05 Reject H Reject H .025 .025 There is evidence of a significant effect of price on sales. t -2.0395 2.0395
Coefficient of Partial Determination for (continued) Example: Two Independent Variable Model
範例四 研究房子坪數受收入,人口數及教育程度的影響,隨機抽取10戶資料如下:
範例四-估計複迴歸模型 考慮模型如下: 表人數 表收入 表教育程度
參數估計電腦報表 b0 b1 b2 b3
範例四-檢定整體模式 H0: 1 = 2 = 3 =0 H1: At least one i 0 P值為0.0018,故在 = 0.05時,拒絕虛無假設
範例四-檢定個別變數 檢定其他變數已在模型中時, Xk對是否還需要放入模式? Hypotheses: H0: k = 0 (Xk 不影響Y) H1: k 0 (Xk對Y有影響) 使用t 檢定統計量(test statistic)或偏F檢定
範例四-檢定個別變數 (t檢定) 在 = 0.05時,當X1和X3已 在模式內時, 在 = 0.1時,當X1和X3已在模式內時,
範例四-檢定個別變數 (偏F檢定)
範例四-檢定部分模式 檢定X1變數已在模型中時, X2 ,X3是否還需要放入模式? Hypotheses: 使用偏F檢定 H1: At least one j 0 使用偏F檢定
範例四-檢定部分模式 (偏F檢定)
範例四-檢定部分模式 (偏F檢定) 檢定統計量值 臨界值為 故不論 = 0.05或 = 0.1均拒絕虛無假設 表示X1變數已在模型中時, 加入X2或X3可改善 模式
範例四-檢定部分模式 檢定X2變數已在模型中時, X1 ,X3是否還需要放入模式? Hypotheses: 使用偏F檢定 H1: At least one i 0 使用偏F檢定
範例四-檢定部分模式 (偏F檢定)
範例四-檢定部分模式 (偏F檢定) 檢定統計量值 臨界值為 故不論 = 0.05或 = 0.1均不拒絕虛無假設 表示X2變數已在模型中時, 加入X1或X3無法顯著改善模式
主要模型的比較 Y對x1,x2 ,x3作迴歸 Y對x1 ,x2作迴歸 Y對x2作迴歸
Y對x1 ,x2作迴歸的殘差 殘差較大
Y對x1 ,x2作迴歸的殘差
範例五 收集某公司12位員工的年齡和工作年資及薪資,資料如下:
範例五 Y對x1,x2作迴歸
範例五 Y對x1,x2作迴歸 F=10.438, p值=0.0045, 整體模式顯著 t=-0.3379, p值=0.7432, 1不顯著 b1=-0.7958,和常理不合 b2=2.8889
範例五 Y對x1作迴歸
範例五 Y對x2作迴歸
範例五 Y對x1,x2作迴歸 Y對x1作迴歸 r=0.8078 Y對x2作迴歸 r=0.8336 x1,x2相關係數 r=0.98277
範例五 共線性(Multicollineararity) 模式中獨立變數之間相關性太高,造成一些不合理的現象,故變數的選取要非常小心
使用迴歸模型 Using Regression Models 1. 在特 定x值時,使用的種類 點估計﹕平均Y值、個別y值 平均Y值的區間估計、個別y值的區間預測 估計或預測些什麼? 在特定xp值時,Y的期望平均 =E(Yp|xp) 即在母體迴歸線上的某特定點xp下,Yp的平均反應在特定xp值時,預期出現的個別Y
預測的示意圖 What Is Predicted | 115
E(Yp|Xp) 的信賴區間Confidence Interval Estimate of Mean Yp
個別特定點估計的預測區間Prediction Interval of Individual Response Note the 1 under the radical in the standard error formula. The effect of the extra Syx is to increase the width of the interval. This will be seen in the interval bands. 注意!多出了1 122
影響信賴區間寬度的因素Factors Affecting Interval Width 1. 信賴水準的選擇Level of confidence (1 - a) 信賴水準增加則信賴區間寬度也隨之變寬 2. 資料距離迴歸線的散布情形 (Se) Se加大,信賴區間寬度也隨之增加 3. 樣本數Sample size 樣本數減少則信賴區間寬度會隨之增加 4. 特定點Xp至自變數平均數 X的距離 距離越遠則信賴區間寬度將隨之增加 獨立變數X的變異程度 越大則信賴區間寬度將隨之減少
全域信賴區間估計形成之信賴帶Hyperbolic Interval Bands Note: 1. As we move farther from the mean, the bands get wider. 2. The prediction interval bands are wider. Why? (extra Syx) 124
範例二-估計和預測 例如:當x1=79,x2=400時, 為 平均值E(Y)的估計區間 個別值 Y的預測區間
想一想 若有一家超市其x1=39且x2=800,可預測其銷售量嗎?
例二 資料
你答對了嗎? A:不可以 所給定的變數值,已經超過原先資料觀察的範圍,模式可能已經不適用
資料標準化後的迴歸
標 準化的資料
Y對x1,y對z1的迴歸 Y=3.7577+1.922x1 y=o.808z1
Y對x2,y對z2的迴歸 Y=49.641+2.072x1 y=o.833z1
Y對x1 x2,y對z1 z2 的迴歸 bi* bi
結論 偏F檢定為檢驗模型的一般化程序 變數選取的問題 –注意共線性 使用模型的注意事項 資料標準化前後,迴歸模式的解釋 關於各種模式的意義及如何進一步選擇的問題-後續討論 As a result of this class, you will be able to...