第 15 章 複迴歸 © 滄海書局
第 15 章 複迴歸 複迴歸模型 最小平方法 複判定係數 模型假設 顯著性檢定 利用迴歸方程式進行估計與預測 定性自變數 殘差分析
複迴歸模型 複迴歸模型 y = 0 + 1x1 + 2x2 + . . . + pxp + 複迴歸方程式 估計複迴歸方程式 E(y) = 0 + 1x1 + 2x2 + . . . + pxp y = b0 + b1x1 + b2x2 + . . . + bpxp ^
最小平方法 最小平方法準則 計算相關係數 計算迴歸係數 b0, b1, b2, . . . bp 的公式涉及矩陣代數。我們將運用統計軟體處理其計算式。 係數的解釋 係數 bi 代表當其他自變數固定不變時,xi 變動一單位, y 的變動量。 ^
複判定係數 SST, SSR 與 SSE 的關係 SST = SSR + SSE 複判定係數 R 2 = SSR/SST 調整複判定係數 ^
模型假設 誤差項 的假設 誤差項 是平均數為零的隨機變數。 對所有自變數而言, 的變異數恆等於2 。 值相互獨立。 誤差 為反應值 y 與 y 的期望值 0 + 1x1 + 2x2 + . . . + pxp 之間的離差之常態分配隨機變數。
顯著性檢定: F 檢定 假設 H0:1 = 2 = . . . = p = 0 Ha:至少有一個參數不為0 檢定統計量 F = MSR/MSE 拒絕法則 若 F > F,則拒絕 H0 其中,F 是由分子自由度為 p,分母自由度為 n - p – 1 的 F 分配,查表可得。
若 t < -t 或 t > t,則拒絕 H0 假設 H0: i = 0 Ha: i 0 檢定統計量 拒絕法則 若 t < -t 或 t > t,則拒絕 H0 其中, t 係根據自由度 n - p – 1 的 t 分配而得。
顯著性檢定:多重共線性 我們以多重共線性這個名詞來表示自變數之間的相關。 當自變數之間是高度相關(亦即|r | > 0.7 ),它無法明確地分辨此特殊的自變數在相依變數之上的影響。 迴歸模型中應該避免高度相關的自變數。
利用迴歸方程式進行估計與預測 估計迴歸方程式中 y 的平均數及個別 y 的預測值所用的程序,與含一自變數的迴歸分析情況類似。 我們將給定的一組x1, x2, . . . , xp 值代入估計迴歸方程式裡,再以對應的 y 值作為點估計值。 y 的平均數及個別 y 區間估計的公式超出本書討論之範圍。 複迴歸分析的統計軟體通常可提供區間估計值。 ^
範例 巴特勒貨運公司(Butler Trucking Company)所面臨的問題作為介紹複迴歸分析的範例。巴特勒貨運公司位於南加州,主要業務為區域性的貨運服務。為使工作排程更理想,管理階層想對駕駛員的每日行駛總時數做估計。
駕駛指派 x1 = 行駛哩數 y = 行駛時間(小時) 範例 巴特勒貨運公司的原始資料 駕駛指派 x1 = 行駛哩數 y = 行駛時間(小時) 1 100 9.3 2 50 4.8 3 100 8.9 4 100 6.5 5 50 4.2 6 80 6.2 7 75 7.4 8 65 6.0 9 90 7.6 10 90 6.1
範例 複迴歸模型 假設簡單線性迴歸模型 y = β0+β1x1+ε 其中, y = 總行駛時數 x1 = 行駛哩程數
範例 複迴歸方程式 運用 E( ) = 0,可得 E( y ) = 0 + 1x1 估計複迴歸方程式 為了估計β0與β1,用最小平方法建立如下的估計迴歸方程式。 y = b0 + b1x1 ^
範例 解0, 1 的估計值 輸入資料 輸出 x1 y 100 9.3 50 4.8 . . 90 6.1 Minitab軟體 解 複迴歸 100 9.3 50 4.8 . . 90 6.1 Minitab軟體 解 複迴歸 問題 b0 = b1 = …等等
範例 Minitab 電腦報表 The regression equation is Time = 1.27 + 0.0678 Miles Predictor Coef Stdev t-ratio p Constant 1.274 1.401 0.91 0.390 Miles 0.06783 0.01706 3.98 0.004 s = 1.002 R-sq = 66.4% R-sq(adj) = 62.2%
範例 Minitab 電腦報表(continued) Analysis of Variance SOURCE DF SS MS F P Regression 1 15.871 15.871 15.81 0.004 Error 8 8.029 1.004 Total 9 23.900
範例 F 檢定 假設 H0: 1 = 2 = 0 Ha: 1及2至少有一個不為0 拒絕法則 對於 = 0.01,自由度為 2, 17時: F0.01 = 9.55, 若 F > 9.55,則拒絕 H0。 統計檢定量 F = MSR/MSE = 10.8/0.328 = 32.9 結論 由於32.9 > 9.55,所以拒絕 H0。
範例 個別顯著性的 t 檢定 假設 H0: i = 0 Ha: i 0 拒絕法則 對於 = 0.01,自由度為7的情況下,t0.005 = 3.449,若 t > 3.449,則拒絕 H0。 統計檢定量 結論 由於 6.18 > 3.449,所以拒絕 H0: 1 = 0,同理, 由於 4.18 > 3.499,所以拒絕 H0: 2 = 0。
定性自變數 但是在很多情況裡,我們必須處理的變數是定性的,例如,性別(男、女)、付款方式(信用卡、現金、支票)等等。 例如, x2 可代表性別,其中 x2 = 0 表示男性而 x2 = 1表示女性。 在此情況下,我們稱 x2 為虛擬變數或者是指示變數。 若定性變數有 k 個水準,則必須定義 k - 1 個虛擬變數,每個虛擬變數的值不是 0 就是 1 。 例如, 變數有 A, B 及 C 三種水準,即分別以 x1 和 x2 為 (0, 0), (1, 0) 和 (0,1) 來表示。
範例 強生公司在佛羅里達州的南部提供濾水系統的維修服務。客戶需要維修服務時就會與強生公司聯絡。為了評估服務時間與服務成本,該公司的經理人想要預測客戶每次服務的維修時間。因此,以小時為單位的維修時間是應變數。根據經理人的判斷,維修時間與兩種因素有關,分別是本次叫修與上次叫修的時間間隔,以及濾水器的維修問題類型是機械問題或是機電問題。
範例 顧客編號 距離上次叫修 維修問題類型 維修所需時 時間(月)(x1) (x2) 間(小時)(y) 1 2 1 2.9 1 2 1 2.9 2 6 0 3.0 3 8 1 4.8 4 3 0 1.8 5 2 1 2.9 6 7 1 4.9 7 9 0 4.2 8 8 0 4.8 9 4 1 4.4 10 6 1 4.5 * x2 = 0 如果維修問題的類型屬於機電型, x2 = 1 如果維修問題的類型屬於機械型。
範例 複迴歸方程式 E(y ) = 0 + 1x1 + 2x2 估計複迴歸方程式 y = b0 + b1x1 + b2x2 其中 1 如果維修問題的類型屬於機械型 附註:x2稱為虛擬變數或指示變數 ^
範例 Minitab 電腦報表 The regression is Salary = 0.930 + 0.388 Months + 1.26 Type Predictor Coef Stdev t-ratio p Constant 0.9305 0.4670 1.99 0.087 Months 0.38762 0.06257 6.20 0.000 Type 1.2627 0.3141 4.02 0.005 s = 0.4590 R-sq = 85.9% R-sq(adj) = 81.9%
範例 Minitab電腦報表 (continued) Analysis of Variance SOURCE DF SS MS F P Regression 2 9.0009 4.5005 21.36 0.001 Error 7 1.4751 0.2107 Total 9 10.4760
殘差分析 第 i 個觀察值的殘差 yi - yi 第 i 個觀察值的標準化殘差 其中 ^ ^ ^ ^
殘差分析 偵測離群值 離群值是指與其他資料相比較不尋常的觀察值。 Minitab 將標準化殘差 < -2 或 > +2 的觀察值視為離群值。 有時候標準化殘差可能沒有大到讓我們可以偵測出離群值的存在。 我們可以使用Student化刪除殘差來取代原來的標準化殘差的計算方式。 |第 i 個觀察值的Student化刪除殘差| 將大於|第 i 個觀察值的標準化殘差|。
End of Chapter 15