第 16 章迴歸分析：模型建立.

第 16 章迴歸分析：模型建立

統計實例蒙聖托公司已是美國最大的化學製品公司之一，製造超過 1,000 種以上的化學產品，種類繁多，從工業化學品
到人工跑道上的合成化學品都有。蒙聖托公司的營養化學品部門專門產銷一種用於家禽及牛、豬飼料中的甲硫胺酸添加劑。蒙聖托公司利用迴歸分析法，建立家禽體重 (y) 與飼料中的甲硫胺酸添加量 (x) 之間的關係。迴歸分析的結果，使蒙聖托公司得以決定最適當的甲硫胺酸添加量。本章中，我們將討論如何建立曲線模型。此外，也會介紹利用不同的工具來判定哪些自變數可能導致最佳的迴歸分析結果。 2 第16章迴歸分析：模型建立第668頁

第16章迴歸分析：模型建立 16.1 一般線性模型 16.2 增加或刪減變數的判斷 16.3 分析大型問題的第一步 16.4 變數選擇程序
第16章迴歸分析：模型建立 16.1 一般線性模型 16.2 增加或刪減變數的判斷 16.3 分析大型問題的第一步 16.4 變數選擇程序 16.5 實驗設計的複迴歸方法 16.6 自身相關與杜賓—華生檢定 3 第16章迴歸分析：模型建立第頁

16.1 一般線性模型含 p 個自變數的一般線性模型(general linear model)
一般線性模型含 p 個自變數的一般線性模型(general linear model) 每個自變數 zj(j＝1, 2, ... , p) 都是 x1, x2, ... , xk (所蒐集資料的變數)的函數。 4 第16章迴歸分析：模型建立第669頁

一般線性模型在某些情況中，每個自變數 z 也可能僅是一個 x1 變數的函數。最簡單的情況是，當我們蒐集一個變數 x1 的資料，並使用直線關係來估計 y。在這種情況中 z1＝x1，式(16.1)變成這種模型被稱為一個預測變數的簡單一階模型 (simple first-order model with one predictor variable)。 5 第16章迴歸分析：模型建立第669頁

曲線關係的模型建立為了說明曲線關係，令 z1＝x1 及 z2＝，可得到模型如下。
此模型稱為一個預測變數的二階模型 (second-order model with one predictor variable)。 6 第16章迴歸分析：模型建立第670頁

曲線關係的模型建立(實例) 雷諾公司的問題。
雷諾公司製造工業用度量衡及實驗儀器。管理者想調查業務員的任職時間及銷售成績 (實驗室用天平的銷售量) 間的關係。表 16.1 是隨機抽取的 15 位業務員的銷售數目與任職月數的資料，圖 16.1 則是散佈圖。 7 第16章迴歸分析：模型建立第669頁表16.1

曲線關係的模型建立(實例) 8 第16章迴歸分析：模型建立第670頁圖16.1

曲線關係的模型建立(實例) 散布圖顯示銷售數目與任職月數可能存在曲線關係。進一步討論如何為雷諾公司建立曲線關係的模型之前，我們先來看看圖 16.2 的 Minitab 電腦輸出報表，對應於簡單一階模型的估計迴歸方程式如下 Sales＝111＋2.38 Months 其中 Sales＝業務員售出的實驗室用天平的個數 Months＝業務員的任職月數圖16.3是標準化殘差圖。 9 第16章迴歸分析：模型建立第669頁

曲線關係的模型建立(實例) 雖然電腦報表顯示，業務員的任職月數與銷售數目之間有顯著關係 (p 值是 0.000)，且線性關係能夠解釋銷售數目的變異達 78.1% (R-sq＝78.1%)，但標準化殘差圖告訴我們，應以曲線關係來建立迴歸模型。 12 第16章迴歸分析：模型建立第669頁

Sales＝45.3＋6.34 Months－0.0345 MonthsSq
曲線關係的模型建立(實例) 要建立相對應的估計迴歸方程式，需將表 16.1 的原始資料及第二個自變數 (業務員任職時間的平方) 輸入軟體中。圖 16.4 即對應於二階模型的 Minitab 電腦統計報表，估計迴歸方程式為 Sales＝45.3＋6.34 Months－ MonthsSq 其中 MonthsSq＝業務員任職月數的平方圖 16.5 是對應的標準化殘差圖，它顯示先前的曲線圖已經移動了。 13 第16章迴歸分析：模型建立第670頁

曲線關係的模型建立(實例) 在 0.05 的顯著水準下，電腦報表顯示整個模型是顯著的 (F 檢定的 p 值是 0.000)，即業務員的任職月數與銷售數目之間有顯著關係；同時，對應於 MonthsSq 的 t 檢定之 p 值 (＝0.002) 小於 0.05，顯示加入的新變數 MonthsSq 對已有 Months 在內的模型而言，仍是顯著的。由 R-sq(adj)＝88.6% 來看，代表二階模型的適合度也很理想，更重要的是，這個例子告訴我們，要處理迴歸分析中的曲線關係是容易的事。 16 第16章迴歸分析：模型建立第670頁

交互作用如果資料集包含 y 及兩個自變數 x1, x2 的觀察值，則可以建立包含兩個預測變數的完整二階模型。所得到的模型是
在這個二階模型中，變數 z5 = x1x2用來解釋兩個變數共同作用的可能效果。此種效果為交互作用(interaction)。 17 第16章迴歸分析：模型建立第672頁

交互作用(實例) 泰勒個人用品公司對新推出的洗髮精所做的調查。
管理者相信，銷售價格及廣告費用是影響銷售量的最重要因素。泰勒公司決定以 3 種價格 ($2.00, $2.50, $3.00) 在 24 個試賣點試賣，配合 2 種廣告費用支出：$50,000 與 $100,000，調查兩變數 (價格與廣告費用支出) 對銷售量的影響。銷售量的觀察值如表 16.2 所示。 18 第16章迴歸分析：模型建立第672頁

交互作用(實例) 19 第16章迴歸分析：模型建立第672頁表16.2

交互作用(實例) 表 16.3 為表 16.2 的彙總，對應於單價 $2.00，廣告費用 $50,000 平均銷售量是 461,000；對應於單價 $2.00，廣告費用 $100,000 的平均銷售量是 808,000。換句話說，在單價為 $2.00 時，廣告費用 $100,000 與 $50,000 的平均銷售量差異為808,000－461,000＝347,000。同理，當單價為 $2.50 時，兩種廣告費用下的平均銷售量差異為 646,000－364,000＝282,000；而單價為 $3.00 時，平均銷售量差異為375,000－332,000＝43,000。由此可知，不同廣告支出下的平均銷售量差異是依銷售單價而定。換言之，當單價較高時，廣告對銷售量的幫助會降低。這樣的觀察結果證實在銷售與廣告之間是有交互作用的。 20 第16章迴歸分析：模型建立第672頁

交互作用(實例) 21 第16章迴歸分析：模型建立第673頁表16.3

交互作用(實例) 為了提供有關交互作用的另一種觀點，圖 16.6 顯示了 6 種銷售單價與廣告費用組合下的平均銷售量。圖形也顯示，廣告對銷售量的影響係依產品價格而定；這正是兩變數間有交互作用的另一個顯著證明。當兩個變數間有交互作用時，我們不能單獨研究一個變數對 y 的影響。換言之，我們必須考慮到兩個變數的聯合效應對 y 的影響，才能得到有意義的結論。 22 第16章迴歸分析：模型建立第頁

交互作用(實例) 23 第16章迴歸分析：模型建立第673頁圖16.6

交互作用為了說明交互作用的效應，我們運用以下的迴歸模型其中： y = 銷售量(千) x1 = 單價($)
24 第16章迴歸分析：模型建立第674頁

交互作用為了建立估計迴歸方程式，我們使用包含三個自變數 ( z1, z2, z3 ) 的一般線性模型。其中 :
y= Sales = 銷售量(千) z1 = x1 (單價) = 產品的單價($) z2 = x2 (AdvExp) =廣告費用($1000) z3 = x1x2 (PriceAdv) =交互作用項(單價×AdvExp) 25 第16章迴歸分析：模型建立第674頁

交互作用(實例) 圖 16.7 是泰勒個人用品公司之交互作用模型的 Minitab 電腦報表。所得到的估計迴歸方程式是
sales＝−276＋175 Price＋19.7 AdvExp－6.08 PriceAdv 由於對應於 PriceAdv 的 t 檢定之 p 值是0.000，故結論為在已知單價及廣告費用的線性效應下，交互作用是顯著的。因此，迴歸分析的結果顯示，廣告對銷售量的影響的確會依單價而定。 26 第16章迴歸分析：模型建立第674頁

交互作用(實例) 27 第16章迴歸分析：模型建立第675頁圖16.7

應變數的轉換通常可以藉著應變數的尺度轉換來修正變異數不等的問題。
大多數的電腦統計軟體都提供以 10 或 e＝ ⋯ (自然對數)為底的對數轉換。另一種解決變異數不等的方法是以 1/y 而非 y 作為應變數。此種形式的轉換稱為倒數轉換 (reciprocal transformation)。 28 第16章迴歸分析：模型建立第676頁

應變數的轉換(實例) 為了說明應變數的轉換，我們以表 16.4 的資料為例，這是一個有關 12 輛汽車重量及其耗油率 (每加侖汽油可行駛哩程數) 的資料。散佈圖如圖 16.8，顯示兩個變數間有負的線性關係。 29 第16章迴歸分析：模型建立第675頁表16.4

應變數的轉換(實例) 30 第16章迴歸分析：模型建立第675頁圖16.8

應變數的轉換(實例) 我們以簡單一階模型來表示兩個變數的關係。Minitab 電腦輸出報表如圖 16.9；所得到的估計迴歸方程式是
MPG＝56.1－ Weight 其中 MPG＝每加侖汽油可行駛哩程數 Weight＝車重(磅) 此模型是顯著的 (F 檢定的 p 值為 0.000)，且適合度良好 (R-sq＝93.5%)。但是，我們看到圖 16.9 顯示第 3 個觀察值的標準化殘差過大 31 第16章迴歸分析：模型建立第675頁

應變數的轉換(實例) 圖是對應於一階模型的標準化殘差圖。殘差圖中所顯示的模式並非水平帶狀，即不支持迴歸模型中有關誤差項的假設；殘差的變異似乎隨著的增加而變大。換言之，殘差模式顯示了變異數不等的情況。既然顯著性檢定所根據的假設無法成立，任何有關估計迴歸方程式的統計顯著性的結論，也就沒有意義了。 33 第16章迴歸分析：模型建立第676頁

應變數的轉換(實例) 對每加侖汽油行駛哩程數進行自然對數轉換，並以此建立每加侖汽油行駛哩程數的對數對車重的估計迴歸方程式。Minitab 電腦輸出報表如圖所示，每加侖汽油行駛哩程數的對數在報表中表示為 LogeMPG，對應的標準化殘差圖請參見圖16.12。圖的殘差圖中已看不到圖的現象；此外，也沒有觀察值被認為有過大的殘差。以每加侖汽油行駛哩程數的對數作為應變數的迴歸模型，在統計上具有顯著性，而且適合度良好。因此，建議使用以下的估計迴歸方程式。 LogeMPG＝4.52－ Weight 35 第16章迴歸分析：模型建立第677頁

應變數的轉換(實例) 如果要估計重達 2,500 磅之車輛的耗油率，我們可先求出對應的每加侖汽油行駛哩程數的對數值。
LogeMPG ＝ 4.52 － (2500) ＝然後再求 e 的次方，可得 26.2 哩，這就是每加侖的行駛哩程數。 38 第16章迴歸分析：模型建立第677頁

內在為線性的非線性模型不為一次方的參數 (β0, β1, ... ,βp) 的模型稱為非線性模型。
在指數模型的情況，我們可以進行變數轉換，以便運用式 (16.1) 的一般線性模型來進行迴歸分析。指數模型的迴歸方程式如下許多非線性模型都可轉換為線性模型，但此類模型在商業或經濟的運用上有限。 39 第16章迴歸分析：模型建立第678頁

內在為線性的非線性模型(實例) 例如，某產品的銷售額 y 與廣告費用 x (單位：$1,000)的關係為以下的指數模型。
E(y)＝500(1.2)x 因此，若 x＝1，E(y)＝500(1.2)1＝600；若 x＝2，E(y)＝500(1.2)2＝720；若 x＝3，E(y)＝500(1.2)3＝864。請注意此例的 E(y) 並非以定量而是固定的百分比，20%，增加。 40 第16章迴歸分析：模型建立第678頁

內在為線性的非線性模型(實例) 在式 (16.7) 的兩邊取對數，就可以將非線性模型轉換為線性模型
log E(y)＝logβ0＋x logβ1 若令 y' ＝log E(y) ,β0' ＝logβ0, β1' ＝logβ1，式(16.8) 可改寫為 y'＝β ' ＋β1' x 41 第16章迴歸分析：模型建立第678頁

內在為線性的非線性模型(實例) 很顯然的，我們可運用簡單線性迴歸的公式來建立β0'與β1'的估計值。將估計值以b0'與b1'表示，因此可得到以下的估計迴歸方程式若想求得某 x 值的原始應變數 y 的預測值，可將 x 值代入式 (16.9) 並計算；然後再取的反對數，即為 y 的預測值或期望值。 42 第16章迴歸分析：模型建立第678頁

增加或刪減變數的判斷模型中只有 x1 一個自變數時的誤差平方和(模型中包含 x1, x2兩個自變數時的誤差平方和)我們可以利用 F 檢定來判定此減少量是否顯著。下列的 F 統計量可用來檢定x的加入是否具有統計顯著性。此 F檢定的分子自由度為加入模型中的自變數個數，分母的自由度則為 n－p－1。 43 第16章迴歸分析：模型建立第頁

增加或刪減變數的判斷(實例) 以巴特勒貨運公司的例子來說明此種檢定的用法
該公司想以兩個自變數行駛哩程數及送貨批數來建立可以預測行駛時間的估計迴歸方程式。如果只考慮行駛哩程數 x1 一個自變數時，利用最小平方法得到的估計迴歸方程式如下所示 44 第16章迴歸分析：模型建立第682頁

增加或刪減變數的判斷(實例) 從第15章得知，此模型的誤差平方和SSE＝8.029。如果模型中加入第二個自變數 ── 送貨批數，以 x2 表示，得到的估計迴歸方程式如下此模型的誤差平方和 SSE＝2.299。 45 第16章迴歸分析：模型建立第682頁

增加或刪減變數的判斷(實例) 以 SSE(x1)表示模型中只有 x1 一個自變數時的誤差平方和，SSE(x1, x2)表示模型中包含 x1, x2 兩個自變數時的誤差平方和。因此，加入 x2 以後，SSE減少量等於我們可以利用 F 檢定來判定此減少量是否顯著。 46 第16章迴歸分析：模型建立第682頁

增加或刪減變數的判斷(實例) F 統計量的分子是加入新變數後的 SSE 減少量除以加入的變數個數。因此，只有一個變數 x2 加入時，F 統計量的分子就是上式代表模型中每增加一個變數時，對應的 SSE減少量。F 統計量的分母是包含所有自變數時的誤差均方。在巴特勒貨運公司的例子中，自變數有 x1 與 x2 兩個，所以 p＝2 且 47 第16章迴歸分析：模型建立第682頁

增加或刪減變數的判斷(實例) 我們可得到 F 統計量如下所示
請參見附錄 B 表 4，在 α ＝0.05 時，F0.05＝5.59。由於 F＝ F0.05＝5.59，因此可以拒絕虛無假設；換言之，在僅含 x1 一個自變數的模型中加入第二個自變數x2，的確會使得誤差平方和顯著減少。 48 第16章迴歸分析：模型建立第683頁

一般情況考慮下列含 q 個自變數的複迴歸模型，其中 q＜p
將一組自變數 xq+1, xq+2, , xp加入模型中，可以得到含 p 個自變數的模型如下 49 第16章迴歸分析：模型建立第683頁

一般情況為了檢定增加 xq+1, xq+2, . . . , xp是否為統計顯著，虛無與對立假設如下 F 統計量
H0 : βq+1 = βq+2 = … = βp =0 Ha :一個以上的參數不為 0 50 第16章迴歸分析：模型建立第684頁

一般情況將所得的 F 值與 Fα比較， Fα的分子自由度為 p－q，分母自由度為 n－p－1。
51 第16章迴歸分析：模型建立第684頁

一般情況(實例) 假定有一個包含 30 個觀察值的迴歸問題。一包含自變數 x1, x2 與 x3 的模型之誤差平方和為 150；另一包含自變數 x1, x2, x3, x4 與 x5 的模型的誤差平方和則為 100。加入的兩個自變數 x4 與 x5 是否會造成誤差平方和顯著減少？首先，注意到總平方和 SST 的自由度是 30－1＝29，完整模型的迴歸平方和的自由度為 5 (即完整模型中所含自變數的個數)。因此，完整模型的誤差平方和的自由度為 29－5＝24。所以，MSE (完整模型)＝100/24 ＝ 4.17。因此，F 統計量為 52 第16章迴歸分析：模型建立第684頁

一般情況(實例) 將所求得的 F 值與分子自由度 2，分母自由度 24 的 F 值做比較，在 0.05 的顯著水準下，附錄 B 表 4 顯示 F0.05＝3.40。由於 F＝6.00 > 3.40，故可下結論，加入 x4, x5 所造成誤差平方和的減少，具有統計上的顯著性。 53 第16章迴歸分析：模型建立第684頁

p 值的使用 p 值也可用以決定複迴歸模型中是否應增加或刪減自變數。與 F檢定相關的 p 值可以藉由由顯著水準α 比較其顯著性。
p 值不易由 F分配表中直接決定，若藉由電腦軟體如 Minitab 或 Excel 的幫忙，則較為簡單。 54 第16章迴歸分析：模型建立第685頁

p 值的使用(實例) 在巴特勒貨運公司的例子中，F 統計量為 6.00 (由F＝6.00 與 F0.05＝3.40 相比)，我們可以說加入 x4和 x5 具統計顯著性。與 F 值 ( F＝0.06，分子自由度 2，分母自由度 24) 相關的 p 值為 0.008。由於 p值＝0.008＜α＝0.05，加入兩個自變數具有統計上的顯著性。 55 第16章迴歸分析：模型建立第685頁

分析大型問題的第一步我們提供另一個新的問題，其包括 8 個自變數及 25 組觀察值。這些資料是經由德州基督教大學行銷系的大衛‧克雷文 (David W. Cravens) 教授所同意使用的，我們稱此資料集為克雷文資料。 56 第16章迴歸分析：模型建立第688頁

分析大型問題的第一步 57 第16章迴歸分析：模型建立第689頁表16.5

分析大型問題的第一步各變數的定義 58 第16章迴歸分析：模型建立第689頁表16.6

分析大型問題的第一步圖是使用 Minitab 所得到的相關矩陣，Sales 與 Time 的樣本相關係數為 0.623，Sales 與 Poten 的樣本相關係數為 0.598，以此類推。 59 第16章迴歸分析：模型建立第689頁圖16.13

分析大型問題的第一步觀察得知 Time 與 Accounts 的相關係數為 0.758，因此，如果 Accounts 已經被放入迴歸模型中作為自變數，再放入變數 Time 並不能增加太多的解釋。在 15.4 節曾介紹過多重共線性，說明了經驗法則──如果任兩自變數的樣本相關係數絕對值大於 0.7，多重共線性就可能造成問題。所以，在克雷文問題中，如果可能，應該避免將 Time 與 Accounts 同時放入迴歸模型中。而 Change 與 Rating 的樣本相關係數為 0.549，也值得進一步觀察。 60 第16章迴歸分析：模型建立第690頁

分析大型問題的第一步檢查一下 Sales 與各個自變數間的樣本相關係數，可以很快地找出哪些自變數是好的預測變數。由於 Sales 與 Accounts 的樣本相關係數達 0.754，Accounts 是 Sales 最好的單一預測變數。僅含一個自變數時，樣本相關係數的平方就是判定係數，所以，Accounts 可以解釋 (0.754)2(100)，即 56.85% 之 Sales 的變異。次重要的自變數為 Time, Poten 與 AdvExp 的樣本相關係數各約為 0.6。 61 第16章迴歸分析：模型建立第690頁

分析大型問題的第一步雖然可能會有多重共線性的問題，但仍先考慮建立一個含上述所有自變數的估計迴歸方程式。Minitab 電腦報表如圖 16.14，含 8 個自變數的複迴歸模型的調整複判定係數為 88.3%。但請注意，在 α ＝0.05 的顯著水準下，p 值欄 (對個別參數進行 t 檢定所得的 p 值) 顯示只有 Poten, AdvExp 及 Share 三個自變數是顯著的，因此，將只對使用這三個變數的結果做進一步的分析。圖就是只用這三個變數所得到的迴歸分析結果，看到調整複判定係數為 82.7%，雖然小於含 8 個自變數的情形，但此係數值也很高。 62 第16章迴歸分析：模型建立第690頁

分析大型問題的第一步 63 第16章迴歸分析：模型建立第690頁圖16.14

分析大型問題的第一步 64 第16章迴歸分析：模型建立第691頁圖16.15

分析大型問題的第一步在既有的資料下，如何找出最佳的估計迴歸方程式呢？一種方法是將所有可能的迴歸都計算一次，若以克雷文資料為例，可以建立 8 個含一個自變數的估計迴歸方程式 (各對應於一自變數)，28 個含兩個自變數的估計迴歸方程式 (由 8 個自變數中一次取兩個自變數的可能組合數)，以此類推。所以，克雷文資料共計可建立255 個含一個或以上自變數的估計迴歸方程式。 65 第16章迴歸分析：模型建立第690頁

16.4 變數選擇程序逐步迴歸前向選擇後向消去最佳子集迴歸替代法，即每次增加或刪減一個變數，並評估新的迴歸模型，一
變數選擇程序逐步迴歸前向選擇後向消去替代法，即每次增加或刪減一個變數，並評估新的迴歸模型，一直到無法找出更好的模型為止。不是一次處理一個變數，而是含不同自變數集合的迴歸模型。最佳子集迴歸 66 第16章迴歸分析：模型建立第691頁

逐步迴歸逐步迴歸程序首先要決定是否要刪減模型中已有的自變數，首先，對模型中每個自變數計算其 F 統計量及 p 值。
判定在 α 顯著水準下是否應該刪去自變數表示為 Alpha to remove。如果沒有自模型中刪去任何變數，逐步迴歸程序就開始檢查是否要增加變數。 67 第16章迴歸分析：模型建立第692頁

逐步迴歸 No No Yes Yes 下一程序自變數的計算每個尚未加入模型 p值< alpha 中之變數的F值及p值
to enter ? 計算每個尚未加入模型中之變數的F值及p值 No No 對應的最大p 值之自變數將自模型中刪去 Yes 自變數的 p值> alpha to remove ? Yes 停止計算加入模型中之變數的F值及p值對應的最小p值之自變數就被加入模型中下一程序沒有自模型中刪去任何變數 68 第16章迴歸分析：模型建立

逐步迴歸圖是以 Minitab 的逐步迴歸程序處理克雷文資料得到的結果，Alpha to remove 與 Alpha to enter 的值都設定為 0.05。由 Minitab 的逐步迴歸程序所得到的估計迴歸方程式如下： 􀀇 = Accounts AdvExp Poten Share 請注意圖的結果顯示，在經過 4 個步驟以後，s = 由最佳單一自變數模型 (使用Accounts) 時的881，減少到454。R-sq 值也由56.85% 增加到 90.04%。估計迴歸方程式的調整後 R-sq 值為 88.05%。 69 第16章迴歸分析：模型建立第692頁

逐步迴歸 70 第16章迴歸分析：模型建立第693頁圖16.16

逐步迴歸總而言之，逐步迴歸的每個步驟中，先考慮是否自模型中刪減變數，如果不必刪減任何自變數，再考慮是否增加自變數。由於逐步迴歸的性質使然，可能會有自變數在這個步驟被放入模型中，到了下一步驟被刪減，之後又被放入模型中。當沒有變數增加或刪減時，逐步迴歸程序即停止。 71 第16章迴歸分析：模型建立第692頁

前向選擇前向選擇從沒有自變數開始。每次只加入一個自變數，判定模型中是否加入變數的程序與逐步迴歸類似，差異在於一旦將變數加入模型中，就不再刪減。如果每一個自變數的 p 值小於Alpha to enter，前向選擇程序即停止。 72 第16章迴歸分析：模型建立第692頁

前向選擇從沒有自變數開始計算每個尚未加入模型中之變數的F值及 p值自變數的 p值< alpha Yes 對應的最小 p 值之自
to enter ? 對應的最小 p 值之自變數就被加入模型中 Yes No 停止 73 第16章迴歸分析：模型建立

前向選擇以 Minitab 的前向選擇程序求得估計迴歸方程式如下：
􀀇 = Accounts AdvExp Poten Share 因此，以克雷文資料而言，前向選擇程序 (Alpha to enter 設定為 0.05) 與逐步迴歸所建立的模型是相同的。 74 第16章迴歸分析：模型建立第692頁

後向消去後向消去程序由包含所有自變數的模型開始。
每次只刪減一個自變數，程序步驟和逐步迴歸類似，與逐步迴歸的差異在於一旦將變數刪減，就不可能再被放入模型中。如果每一個自變數的 p 值大於 Alpha to remove，後向消去程序即停止。 75 第16章迴歸分析：模型建立第693頁

後向消去由包含所有自變數的模型開始計算每個尚未加入模型中之變數的F值及p值自變數的 p值 > alpha Yes
to remove ? 對應的最大 p 值之自變數將自模型中刪去 Yes No 停止 76 第16章迴歸分析：模型建立

後向消去以 Minitab 的後向消去程序求得克雷文資料的估計迴歸方程式如下 (Alpha to remove 設定為 0.05)：
= Time Poten AdvExp+ 259 Share 將前向選擇與後向消去兩種程序所得的模型做個比較，可以看到兩個模型中都包含 AdvExp, Poten 與 Share。但是後向消去模型中包含 Time，並沒有前向選擇模型中所包含的 Accounts。 77 第16章迴歸分析：模型建立第693頁

後向消去前向選擇與後向消去是建立迴歸模型的兩個極端；前向選擇從沒有自變數開始，一次加入一個自變數；後向消去則從包含所有自變數開始，逐次刪減自變數。兩種方法可能會得到相同的迴歸模型，但也可能不同，特別是使用克雷文資料時，兩種方法可能會得到不同的迴歸模型。何種模型會得到比較好的結果仍無定論，問題分析者需自行判斷。接下來再介紹另一種模型建立的方法──最佳子集迴歸，分析者可在做最後選擇時，擇優而行。 78 第16章迴歸分析：模型建立第693頁

最佳子集迴歸逐步迴歸、前向選擇與後向消去都是一次刪減或增加一自變數，以致於無法保證可以找到含特定個自變數的最佳迴歸模型。
某些電腦統計軟體會提供最佳子集迴歸程序，此種方法可以找到含特定個自變數的最佳迴歸模型，而 Minitab 也有此種功能，圖就是對克雷文資料進行最佳子集迴歸所得到的部分電腦報表。此報表判別兩個最佳單一自變數估計迴歸方程式，兩個最佳二變數方程式以及兩個最佳三變數方程式等。用來決定這些自變數的最佳迴歸模型的判斷準則是判定係數 (R-sq)。 79 第16章迴歸分析：模型建立第694頁

最佳子集迴歸 80 第16章迴歸分析：模型建立第694頁圖16.17

最佳子集迴歸例如，在考慮單一自變數時，Accounts 的 R-sq＝56.8%，為最理想的單一自變數估計迴歸方程式；AdvExp, Accounts 的 R-sq＝77.5%，是最佳的二變數估計迴歸方程式；至於 Poten, AdvExp, Share 的 R-sq＝84.9%，則是最佳的三變數估計迴歸方程式。以克雷文資料而言，當模型中含 Time, Poten, AdvExp, Share, Change, Accounts 六個自變數時的調整判定係數 (Adj. R-sq) 最大，其值為 89.4%。但是，最佳的四變數 (Poten, AdvExp, Share 和 Accounts) 迴歸模型的調整判定係數為 88.1% 與 89.4% 相差無幾。在其他情況不變時，愈簡單的模型是愈受歡迎的。 81 第16章迴歸分析：模型建立第694頁

最後的選擇到目前為止，對克雷文資料所做的分析，可說是為選擇最後的模型做了良好的準備，但在決定最後的選擇之前，還有更多的分析必須進行。如第 14 章及第 15 章所介紹的，我們必須仔細地做殘差分析，希望模型的殘差圖近似水平帶狀。假設殘差分析的結果並未顯示異常，而且我們想用最佳子集程序來選擇模型。最佳子集程序已經顯示了最佳的四變數模型中包含 Accounts, AdvExp, Poten, Share 等自變數。此結果正好與逐步迴歸程序所得到的結果相同。表 16.7 有助於我們做最後的決定，表中顯示包含一個到四個自變數的數種模型。 82 第16章迴歸分析：模型建立第頁

最後的選擇從表 16.7 可以看出，僅含 AdvExp 和 Accounts 的模型是良好的，因為其調整判定係數為 75.5%，而含四個自變數的模型只改善了 12.6 個百分點。如果市場潛力 (Poten) 不易衡量，僅含 Accounts 和 AdvExp 兩個自變數的簡單模型是不錯的選擇。假若已經有資料，而且又希望對銷售額的預測能夠更準確，則含四個自變數的模型會更理想。 83 第16章迴歸分析：模型建立第695頁表16.7

16.5 實驗設計的複迴歸方法運用複迴歸方程式的虛擬變數來解釋變異數分析和實驗設計問題。
16.5 實驗設計的複迴歸方法運用複迴歸方程式的虛擬變數來解釋變異數分析和實驗設計問題。運用複迴歸分析的結果來進行三個母體平均數差異ANOVA檢定。 95 第16章迴歸分析：模型建立第697頁

實驗設計的複迴歸方法 (實例) Chemitech 公司開發了一種新型的過濾系統於市政供水上。這些組件的的新過濾系統將向多個供應商購買，而Chemitech 公司在南卡羅來納州哥倫比亞市的工廠將其零件組裝。Chemitech 公司提出三種不同的組裝方法，稱為方法 A、B 和 C。Chemitech 公司的經理要確定哪些組裝方法能使每個星期生產出最多的過濾系統。隨機選取了 15 個員工，三種組裝方法每種隨機分配 5 個員工。每個員工的單位組裝數量顯示於表 16.8。 96 第16章迴歸分析：模型建立第698頁表16.9

實驗設計的複迴歸方法 (實例) 我們可以用虛擬變數來探討員工使用的組裝方法和每個星期單位生產數量(y)的關係
E(y) = 每個星期單位生產數量的期望值 = β0 + β1A + β2B 方法A E(y) = β0 + β1(0) + β2(0) = β0 方法B E(y) = β0 + β1(1) + β2(0) = β0 + β1 97 第16章迴歸分析：模型建立第698頁

實驗設計的複迴歸方法 (實例) 每種組裝方法的每個星期單位平均組裝數量的最佳估計值如下方法 E(y)的估計值 A B C
b0 + b1 = = 62 b0 = = 66 b0 = 52 98 第16章迴歸分析：模型建立第頁

實驗設計的複迴歸方法 (實例) 99 第16章迴歸分析：模型建立第699頁表16.10

實驗設計的複迴歸方法 (實例) 100 第16章迴歸分析：模型建立第699頁圖16.18

實驗設計的複迴歸方法 (實例) 如果三個平均數沒有差異，則組裝方法A的E(y)–組裝方法C的E(y) = 0
組裝方法B的E(y)–組裝方法C的E(y) = 0 101 第16章迴歸分析：模型建立第699頁

實驗設計的複迴歸方法 (實例) 既然β0等於組裝方法C的 E(y) ，而且β0 + β1等於組裝方法A的 E(y) ，第一個差異等於(β0 + β1) - β0 = β1 再者， β0 + β2等於組裝方法B的 E(y) ，所以第二個差異等於 (β0 + β2) - β0 = β2 因此，結論是，如果 β1 = 0 且β2 = 0，則三5種方法沒有差異。 102 第16章迴歸分析：模型建立第700頁

實驗設計的複迴歸方法 (實例) 平均數差異檢定的虛無假設可以建立為要檢定迴歸關係顯著性的虛無假設，我們使用F 檢定來檢定整體顯著性。
H0: β1 = β2 = 0 要檢定迴歸關係顯著性的虛無假設，我們使用F 檢定來檢定整體顯著性。 103 第16章迴歸分析：模型建立第700頁

實驗設計的複迴歸方法 (實例) 由於 F 的觀察值大於臨界值，我們可以拒絕虛無假設 H0：β1＝ β 2＝0，因此我們的結論是三種組裝方法的平均數不相同。用 p 值的方法，因為 p 值＝0.004＜α＝0.05，所以結論同樣拒絕H0： β 1＝ β 2 ＝0。 106 第16章迴歸分析：模型建立第700頁

16.6 自身相關與杜賓—華生檢定在商業及經濟問題的迴歸研究中，常要花一段時間來蒐集資料。
自身相關與杜賓—華生檢定在商業及經濟問題的迴歸研究中，常要花一段時間來蒐集資料。假設我們以 yt 表示在時間 t 時的 y 值，yt 與時間 t 以前的 y 值有關是很常見的情況。稱此種情形為資料間自身相關 (或稱序列相關) 。 84 第16章迴歸分析：模型建立第701頁

自身相關與杜賓—華生檢定正自身相關時，若某時段的殘差為正，則可預期下個時段的殘差亦為正。
負自身相關時，若某時段的殘差為正，則可預期下個時段的殘差也將為負，依此類推。 85 第16章迴歸分析：模型建立第702頁

自身相關與杜賓—華生檢定 86 第16章迴歸分析：模型建立第702頁圖16.19

自身相關與杜賓—華生檢定當自身相關存在時，那麼迴歸模型的假設之一「誤差項彼此獨立」就不成立。
當自身相關存在時，則我們對迴歸模型所做的統計推論可能會產生嚴重的誤差。利用杜賓—華生統計量來找出自身相關。 87 第16章迴歸分析：模型建立第702頁

自身相關與杜賓—華生檢定假定 ε 並不彼此獨立，且相關的形式如下。
et = r et-1 + zt 其中 ρ 為絕對值小於1的參數， zt 為相互獨立的常態分配隨機變數，其平均數為 0，變異數為σ2 若 ρ ＝0，則誤差項不相關，且平均數為 0，變異數為σ2 。此時，沒有自身相關存在，且迴歸假設是成立的。杜賓－華生檢定運用殘差來判定 ρ 是否為0。 88 第16章迴歸分析：模型建立第702頁

自身相關與杜賓—華生檢定杜賓－華生檢定統計量第 i 項殘差表示為 89 第16章迴歸分析：模型建立第702頁

自身相關與杜賓—華生檢定杜賓－華生檢定統計量杜賓—華生統計量的範圍由0到4。
如果接續的殘差值都很接近 (正自身相關)，杜賓—華生統計量將較小。如果接續的殘差值差距都很大 (負自身相關)，則杜賓—華生統計量將會較大。其值為2時，表示自身相關不存在。 90 第16章迴歸分析：模型建立第703頁

自身相關與杜賓—華生檢定有待檢定的虛無假設為檢定自身相關是否存在的對立假設為無自身相關存在存在正自身相關存在負自身相關
存在正自身相關或負自身相關 91 第16章迴歸分析：模型建立第703頁

自身相關與杜賓—華生檢定圖顯示，如何運用表的下界與上界來進行自身相關檢定。圖 A 為正自身相關檢定的情形，若 d < dL，其結論是沒有證據顯示正自身相關存在；若dL ≤ d ≤ dU，表示統計檢定未獲明顯結論；若 d > dU，則其結論是沒有證據顯示正自身相關存在。 92 第16章迴歸分析：模型建立第頁圖16.20

自身相關與杜賓—華生檢定圖 B 為負自身相關檢定的情形。若 d > 4－dL，其結論為負自身相關存在；若4－dU ≤ d ≤ 4－dL，則表示統計檢定未獲明顯結論；若 d < 4－dU，其結論是沒有證據顯示負自身相關存在。 93 第16章迴歸分析：模型建立第頁圖16.20

自身相關與杜賓—華生檢定圖 C 為雙尾檢定的情形。若 d < dL 或 d > 4－dL，則拒絕 H0 虛無假設，結論是存在自身相關；若 dL ≤ d ≤ dU 或 4－dU ≤ d ≤ 4－dL，則表示統計檢定未獲明顯結論；若 dU < d < 4－dU，結論是沒有證據顯示自身相關存在。 94 第16章迴歸分析：模型建立第頁圖16.20

End of Chapter 16

第 16 章迴歸分析：模型建立.

Similar presentations

Presentation on theme: "第 16 章迴歸分析：模型建立."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第 16 章 迴歸分析：模型建立.

Similar presentations

Presentation on theme: "第 16 章 迴歸分析：模型建立."— Presentation transcript:

Similar presentations

About project

反馈

第 16 章迴歸分析：模型建立.

Presentation on theme: "第 16 章迴歸分析：模型建立."— Presentation transcript: