Download presentation
Presentation is loading. Please wait.
1
第 16 章 迴歸分析:模型建立
2
統計實例 蒙聖托公司已是美國最大的化學製品 公司之一,製造超過 1,000 種以上的 化學產品,種類繁多,從工業化學品
到人工跑道上的合成化學品都有。 蒙聖托公司的營養化學品部門專門產 銷一種用於家禽及牛、豬飼料中的甲硫胺酸添加劑。 蒙聖托公司利用迴歸分析法,建立家禽體重 (y) 與飼料中的甲硫胺酸添加量 (x) 之間的關係。迴歸分析的結果,使蒙聖托公司得以決定最適當的甲硫胺酸添加量。 本章中,我們將討論如何建立曲線模型。此外,也會介紹利用不同的工具來判定哪些自變數可能導致最佳的迴歸分析結果。 2 第16章 迴歸分析:模型建立 第668頁
3
第16章 迴歸分析:模型建立 16.1 一般線性模型 16.2 增加或刪減變數的判斷 16.3 分析大型問題的第一步 16.4 變數選擇程序
第16章 迴歸分析:模型建立 16.1 一般線性模型 16.2 增加或刪減變數的判斷 16.3 分析大型問題的第一步 16.4 變數選擇程序 16.5 實驗設計的複迴歸方法 16.6 自身相關與杜賓—華生檢定 3 第16章 迴歸分析:模型建立 第 頁
4
16.1 一般線性模型 含 p 個自變數的一般線性模型(general linear model)
一般線性模型 含 p 個自變數的一般線性模型(general linear model) 每個自變數 zj(j=1, 2, ... , p) 都是 x1, x2, ... , xk (所蒐集資料的變數)的函數。 4 第16章 迴歸分析:模型建立 第669頁
5
一般線性模型 在某些情況中,每個自變數 z 也可能僅是一個 x1 變數的函數。最簡單的情況是,當我們蒐集一個變數 x1 的資料,並使用直線關係來估計 y。 在這種情況中 z1=x1,式(16.1)變成 這種模型被稱為一個預測變數的簡單一階模型 (simple first-order model with one predictor variable)。 5 第16章 迴歸分析:模型建立 第669頁
6
曲線關係的模型建立 為了說明曲線關係,令 z1=x1 及 z2= ,可得到模型如下。
此模型稱為一個預測變數的二階模型 (second-order model with one predictor variable)。 6 第16章 迴歸分析:模型建立 第670頁
7
曲線關係的模型建立(實例) 雷諾公司的問題。
雷諾公司製造工業用度量衡及實驗儀器。管理者想調查業務員的任職時間及銷售成績 (實驗室用天平的銷售量) 間的關係。 表 16.1 是隨機抽取的 15 位業務員的銷售數目與任職月數的資料,圖 16.1 則是散佈圖。 7 第16章 迴歸分析:模型建立 第669頁 表16.1
8
曲線關係的模型建立(實例) 8 第16章 迴歸分析:模型建立 第670頁 圖16.1
9
曲線關係的模型建立(實例) 散布圖顯示銷售數目與任職月數可能存在曲線關係。進一步討論如何為雷諾公司建立曲線關係的模型之前,我們先來看看圖 16.2 的 Minitab 電腦輸出報表,對應於簡單一階模型的估計迴歸方程式如下 Sales=111+2.38 Months 其中 Sales= 業務員售出的實驗室用天平的個數 Months= 業務員的任職月數 圖16.3是標準化殘差圖。 9 第16章 迴歸分析:模型建立 第669頁
10
曲線關係的模型建立(實例) 10 第16章 迴歸分析:模型建立 第670頁 圖16.2
11
曲線關係的模型建立(實例) 11 第16章 迴歸分析:模型建立 第670頁 圖16.3
12
曲線關係的模型建立(實例) 雖然電腦報表顯示,業務員的任職月數與銷售數目之間有顯著關係 (p 值是 0.000),且線性關係能夠解釋銷售數目的變異達 78.1% (R-sq=78.1%),但標準化殘差圖告訴我們,應以曲線關係來建立迴歸模型。 12 第16章 迴歸分析:模型建立 第669頁
13
Sales=45.3+6.34 Months-0.0345 MonthsSq
曲線關係的模型建立(實例) 要建立相對應的估計迴歸方程式,需將表 16.1 的原始資料及第二個自變數 (業務員任職時間的平方) 輸入軟體中。圖 16.4 即對應於二階模型的 Minitab 電腦統計報表,估計迴歸方程式為 Sales=45.3+6.34 Months- MonthsSq 其中 MonthsSq= 業務員任職月數的平方 圖 16.5 是對應的標準化殘差圖,它顯示先前的曲線圖已經移動了。 13 第16章 迴歸分析:模型建立 第670頁
14
曲線關係的模型建立(實例) 14 第16章 迴歸分析:模型建立 第671頁 圖16.4
15
曲線關係的模型建立(實例) 15 第16章 迴歸分析:模型建立 第672頁 圖16.5
16
曲線關係的模型建立(實例) 在 0.05 的顯著水準下,電腦報表顯示整個模型是顯著的 (F 檢定的 p 值是 0.000),即業務員的任職月數與銷售數目之間有顯著關係;同時,對應於 MonthsSq 的 t 檢定之 p 值 (=0.002) 小於 0.05,顯示加入的新變數 MonthsSq 對已有 Months 在內的模型而言,仍是顯著的。由 R-sq(adj)=88.6% 來看,代表二階模型的適合度也很理想,更重要的是,這個例子告訴我們,要處理迴歸分析中的曲線關係是容易的事。 16 第16章 迴歸分析:模型建立 第670頁
17
交互作用 如果資料集包含 y 及兩個自變數 x1, x2 的觀察值,則可以建立包含兩個預測變數的完整二階模型。所得到的模型是
在這個二階模型中,變數 z5 = x1x2用來解釋兩個變數共同作用的可能效果。 此種效果為交互作用(interaction)。 17 第16章 迴歸分析:模型建立 第672頁
18
交互作用(實例) 泰勒個人用品公司對新推出的洗髮精所做的調查。
管理者相信,銷售價格及廣告費用是影響銷售量的最重要因素。泰勒公司決定以 3 種價格 ($2.00, $2.50, $3.00) 在 24 個試賣點試賣,配合 2 種廣告費用支出:$50,000 與 $100,000,調查兩變數 (價格與廣告費用支出) 對銷售量的影響。銷售量的觀察值如表 16.2 所示。 18 第16章 迴歸分析:模型建立 第672頁
19
交互作用(實例) 19 第16章 迴歸分析:模型建立 第672頁 表16.2
20
交互作用(實例) 表 16.3 為表 16.2 的彙總,對應於單價 $2.00,廣告費用 $50,000 平均銷售量是 461,000;對應於單價 $2.00,廣告費用 $100,000 的平均銷售量是 808,000。換句話說,在單價為 $2.00 時,廣告費用 $100,000 與 $50,000 的平均銷售量差異為808,000-461,000=347,000。 同理,當單價為 $2.50 時,兩種廣告費用下的平均銷售量差異為 646,000-364,000=282,000;而單價為 $3.00 時,平均銷售量差異為375,000-332,000=43,000。由此可知,不同廣告支出下的平均銷售量差異是依銷售單價而定。換言之,當單價較高時,廣告對銷售量的幫助會降低。這樣的觀察結果證實在銷售與廣告之間是有交互作用的。 20 第16章 迴歸分析:模型建立 第672頁
21
交互作用(實例) 21 第16章 迴歸分析:模型建立 第673頁 表16.3
22
交互作用(實例) 為了提供有關交互作用的另一種觀點,圖 16.6 顯示了 6 種銷售單價與廣告費用組合下的平均銷售量。圖形也顯示,廣告對銷售量的影響係依產品價格而定;這正是兩變數間有交互作用的另一個顯著證明。當兩個變數間有交互作用時,我們不能單獨研究一個變數對 y 的影響。換言之,我們必須考慮到兩個變數的聯合效應對 y 的影響,才能得到有意義的結論。 22 第16章 迴歸分析:模型建立 第 頁
23
交互作用(實例) 23 第16章 迴歸分析:模型建立 第673頁 圖16.6
24
交互作用 為了說明交互作用的效應,我們運用以下的迴歸模型 其中: y = 銷售量(千) x1 = 單價($)
24 第16章 迴歸分析:模型建立 第674頁
25
交互作用 為了建立估計迴歸方程式,我們使用包含三個自變數 ( z1, z2, z3 ) 的一般線性模型。 其中 :
y= Sales = 銷售量(千) z1 = x1 (單價) = 產品的單價($) z2 = x2 (AdvExp) =廣告費用($1000) z3 = x1x2 (PriceAdv) =交互作用項(單價×AdvExp) 25 第16章 迴歸分析:模型建立 第674頁
26
交互作用(實例) 圖 16.7 是泰勒個人用品公司之交互作用模型的 Minitab 電腦報表。所得到的估計迴歸方程式是
sales=−276+175 Price+19.7 AdvExp-6.08 PriceAdv 由於對應於 PriceAdv 的 t 檢定之 p 值是0.000,故結論為在已知單價及廣告費用的線性效應下,交互作用是顯著的。因此,迴歸分析的結果顯示,廣告對銷售量的影響的確會依單價而定。 26 第16章 迴歸分析:模型建立 第674頁
27
交互作用(實例) 27 第16章 迴歸分析:模型建立 第675頁 圖16.7
28
應變數的轉換 通常可以藉著應變數的尺度轉換來修正變異數不等的問題。
大多數的電腦統計軟體都提供以 10 或 e= ⋯ (自然對數)為底的對數轉換。 另一種解決變異數不等的方法是以 1/y 而非 y 作為應變數。此種形式的轉換稱為倒數轉換 (reciprocal transformation)。 28 第16章 迴歸分析:模型建立 第676頁
29
應變數的轉換(實例) 為了說明應變數的轉換,我們以表 16.4 的資料為例,這是一個有關 12 輛汽車重量及其耗油率 (每加侖汽油可行駛哩程數) 的資料。散佈圖如圖 16.8,顯示兩個變數間有負的線性關係。 29 第16章 迴歸分析:模型建立 第675頁 表16.4
30
應變數的轉換(實例) 30 第16章 迴歸分析:模型建立 第675頁 圖16.8
31
應變數的轉換(實例) 我們以簡單一階模型來表示兩個變數的關係。Minitab 電腦輸出報表如圖 16.9;所得到的估計迴歸方程式是
MPG=56.1- Weight 其中 MPG= 每加侖汽油可行駛哩程數 Weight= 車重(磅) 此模型是顯著的 (F 檢定的 p 值為 0.000),且適合度良好 (R-sq=93.5%)。但是,我們看到圖 16.9 顯示第 3 個觀察值的標準化殘差過大 31 第16章 迴歸分析:模型建立 第675頁
32
應變數的轉換(實例) 32 第16章 迴歸分析:模型建立 第676頁 圖16.9
33
應變數的轉換(實例) 圖 是對應於一階模型的標準化殘差圖。殘差圖中所顯示的模式並非水平帶狀,即不支持迴歸模型中有關誤差項的假設;殘差的變異似乎隨著 的增加而變大。換言之,殘差模式顯示了變異數不等的情況。既然顯著性檢定所根據的假設無法成立,任何有關估計迴歸方程式的統計顯著性的結論,也就沒有意義了。 33 第16章 迴歸分析:模型建立 第676頁
34
應變數的轉換(實例) 34 第16章 迴歸分析:模型建立 第676頁 圖16.10
35
應變數的轉換(實例) 對每加侖汽油行駛哩程數進行自然對數轉換,並以此建立每加侖汽油行駛哩程數的對數對車重的估計迴歸方程式。Minitab 電腦輸出報表如圖 所示,每加侖汽油行駛哩程數的對數在報表中表示為 LogeMPG,對應的標準化殘差圖請參見圖16.12。 圖 的殘差圖中已看不到圖 的現象;此外,也沒有觀察值被認為有過大的殘差。以每加侖汽油行駛哩程數的對數作為應變數的迴歸模型,在統計上具有顯著性,而且適合度良好。因此,建議使用以下的估計迴歸方程式。 LogeMPG=4.52- Weight 35 第16章 迴歸分析:模型建立 第677頁
36
應變數的轉換(實例) 36 第16章 迴歸分析:模型建立 第677頁 圖16.11
37
應變數的轉換(實例) 37 第16章 迴歸分析:模型建立 第677頁 圖16.12
38
應變數的轉換(實例) 如果要估計重達 2,500 磅之車輛的耗油率,我們可先求出對應的每加侖汽油行駛哩程數的對數值。
LogeMPG = 4.52 - (2500) = 然後再求 e 的 次方,可得 26.2 哩,這就是每加侖的行駛哩程數。 38 第16章 迴歸分析:模型建立 第677頁
39
內在為線性的非線性模型 不為一次方的參數 (β0, β1, ... ,βp) 的模型稱為非線性模型。
在指數模型的情況,我們可以進行變數轉換,以便運用式 (16.1) 的一般線性模型來進行迴歸分析。 指數模型的迴歸方程式如下 許多非線性模型都可轉換為線性模型,但此類模型在商業或經濟的運用上有限。 39 第16章 迴歸分析:模型建立 第678頁
40
內在為線性的非線性模型(實例) 例如,某產品的銷售額 y 與廣告費用 x (單位:$1,000)的關係為以下的指數模型。
E(y)=500(1.2)x 因此,若 x=1,E(y)=500(1.2)1=600;若 x=2,E(y)=500(1.2)2=720;若 x=3,E(y)=500(1.2)3=864。請注意此例的 E(y) 並非以定量而是固定的百分比,20%,增加。 40 第16章 迴歸分析:模型建立 第678頁
41
內在為線性的非線性模型(實例) 在式 (16.7) 的兩邊取對數,就可以將非線性模型轉換為線性模型
log E(y)=logβ0+x logβ1 若令 y' =log E(y) ,β0' =logβ0, β1' =logβ1,式(16.8) 可改寫為 y'=β ' +β1' x 41 第16章 迴歸分析:模型建立 第678頁
42
內在為線性的非線性模型(實例) 很顯然的,我們可運用簡單線性迴歸的公式來建立β0'與β1'的估計值。將估計值以b0'與b1'表示,因此可得到以下的估計迴歸方程式 若想求得某 x 值的原始應變數 y 的預測值,可將 x 值代入式 (16.9) 並計算 ;然後再取 的反對數,即為 y 的預測值或期望值。 42 第16章 迴歸分析:模型建立 第678頁
43
增加或刪減變數的判斷 模型中只有 x1 一個自變數時的誤差平方和(模型中包含 x1, x2兩個自變數時的誤差平方和)我們可以利用 F 檢定來判定此減少量是否顯著。 下列的 F 統計量可用來檢定x的加入是否具有統計顯著性。此 F檢定的分子自由度為加入模型中的自變數個數,分母的自由度則為 n-p-1。 43 第16章 迴歸分析:模型建立 第 頁
44
增加或刪減變數的判斷(實例) 以巴特勒貨運公司的例子來說明此種檢定的用法
該公司想以兩個自變數行駛哩程數及送貨批數來建立可以預測行駛時間的估計迴歸方程式。如果只考慮行駛哩程數 x1 一個自變數時,利用最小平方法得到的估計迴歸方程式如下所示 44 第16章 迴歸分析:模型建立 第682頁
45
增加或刪減變數的判斷(實例) 從第15章得知,此模型的誤差平方和SSE=8.029。如果模型中加入第二個自變數 ── 送貨批數,以 x2 表示,得到的估計迴歸方程式如下 此模型的誤差平方和 SSE=2.299。 45 第16章 迴歸分析:模型建立 第682頁
46
增加或刪減變數的判斷(實例) 以 SSE(x1)表示模型中只有 x1 一個自變數時的誤差平方和,SSE(x1, x2)表示模型中包含 x1, x2 兩個自變數時的誤差平方和。因此,加入 x2 以後,SSE減少量等於 我們可以利用 F 檢定來判定此減少量是否顯著。 46 第16章 迴歸分析:模型建立 第682頁
47
增加或刪減變數的判斷(實例) F 統計量的分子是加入新變數後的 SSE 減少量除以加入的變數個數。因此,只有一個變數 x2 加入時,F 統計量的分子就是 上式代表模型中每增加一個變數時,對應的 SSE減少量。F 統計量的分母是包含所有自變數時的誤差均方。在巴特勒貨運公司的例子中,自變數有 x1 與 x2 兩個,所以 p=2 且 47 第16章 迴歸分析:模型建立 第682頁
48
增加或刪減變數的判斷(實例) 我們可得到 F 統計量如下所示
請參見附錄 B 表 4,在 α =0.05 時,F0.05=5.59。由於 F= F0.05=5.59,因此可以拒絕虛無假設;換言之,在僅含 x1 一個自變數的模型中加入第二個自變數x2,的確會使得誤差平方和顯著減少。 48 第16章 迴歸分析:模型建立 第683頁
49
一般情況 考慮下列含 q 個自變數的複迴歸模型,其中 q<p
將一組自變數 xq+1, xq+2, , xp加入模型中,可以得到含 p 個自變數的模型如下 49 第16章 迴歸分析:模型建立 第683頁
50
一般情況 為了檢定增加 xq+1, xq+2, . . . , xp是否為統計顯著,虛無與對立假設如下 F 統計量
H0 : βq+1 = βq+2 = … = βp =0 Ha :一個以上的參數不為 0 50 第16章 迴歸分析:模型建立 第684頁
51
一般情況 將所得的 F 值與 Fα比較, Fα的分子自由度為 p-q,分母自由度為 n-p-1。
51 第16章 迴歸分析:模型建立 第684頁
52
一般情況(實例) 假定有一個包含 30 個觀察值的迴歸問題。一包含自變數 x1, x2 與 x3 的模型之誤差平方和為 150;另一包含自變數 x1, x2, x3, x4 與 x5 的模型的誤差平方和則為 100。加入的兩個自變數 x4 與 x5 是否會造成誤差平方和顯著減少? 首先,注意到總平方和 SST 的自由度是 30-1=29,完整模型的迴歸平方和的自由度為 5 (即完整模型中所含自變數的個數)。因此,完整模型的誤差平方和的自由度為 29-5=24。所以,MSE (完整模型)=100/24 = 4.17。因此,F 統計量為 52 第16章 迴歸分析:模型建立 第684頁
53
一般情況(實例) 將所求得的 F 值與分子自由度 2,分母自由度 24 的 F 值做比較,在 0.05 的顯著水準下,附錄 B 表 4 顯示 F0.05=3.40。由於 F=6.00 > 3.40,故可下結論,加入 x4, x5 所造成誤差平方和的減少,具有統計上的顯著性。 53 第16章 迴歸分析:模型建立 第684頁
54
p 值的使用 p 值也可用以決定複迴歸模型中是否應增加或刪減自變數。 與 F檢定相關的 p 值可以藉由由顯著水準α 比較其顯著性。
p 值不易由 F分配表中直接決定,若藉由電腦軟體如 Minitab 或 Excel 的幫忙,則較為簡單。 54 第16章 迴歸分析:模型建立 第685頁
55
p 值的使用(實例) 在巴特勒貨運公司的例子中,F 統計量為 6.00 (由F=6.00 與 F0.05=3.40 相比),我們可以說加入 x4和 x5 具統計顯著性。與 F 值 ( F=0.06,分子自由度 2,分母自由度 24) 相關的 p 值為 0.008。由於 p值=0.008<α=0.05,加入兩個自變數具有統計上的顯著性。 55 第16章 迴歸分析:模型建立 第685頁
56
分析大型問題的第一步 我們提供另一個新的問題,其包括 8 個自變數及 25 組觀察值。這些資料是經由德州基督教大學行銷系的大衛‧克雷文 (David W. Cravens) 教授所同意使用的,我們稱此資料集為克雷文資料。 56 第16章 迴歸分析:模型建立 第688頁
57
分析大型問題的第一步 57 第16章 迴歸分析:模型建立 第689頁 表16.5
58
分析大型問題的第一步 各變數的定義 58 第16章 迴歸分析:模型建立 第689頁 表16.6
59
分析大型問題的第一步 圖 是使用 Minitab 所得到的相關矩陣,Sales 與 Time 的樣本相關係數為 0.623,Sales 與 Poten 的樣本相關係數為 0.598,以此類推。 59 第16章 迴歸分析:模型建立 第689頁 圖16.13
60
分析大型問題的第一步 觀察得知 Time 與 Accounts 的相關係數為 0.758,因此,如果 Accounts 已經被放入迴歸模型中作為自變數,再放入變數 Time 並不能增加太多的解釋。 在 15.4 節曾介紹過多重共線性,說明了經驗法則──如果任兩自變數的樣本相關係數絕對值大於 0.7,多重共線性就可能造成問題。 所以,在克雷文問題中,如果可能,應該避免將 Time 與 Accounts 同時放入迴歸模型中。而 Change 與 Rating 的樣本相關係數為 0.549,也值得進一步觀察。 60 第16章 迴歸分析:模型建立 第690頁
61
分析大型問題的第一步 檢查一下 Sales 與各個自變數間的樣本相關係數,可以很快地找出哪些自變數是好的預測變數。由於 Sales 與 Accounts 的樣本相關係數達 0.754,Accounts 是 Sales 最好的單一預測變數。僅含一個自變數時,樣本相關係數的平方就是判定係數,所以,Accounts 可以解釋 (0.754)2(100),即 56.85% 之 Sales 的變異。次重要的自變數為 Time, Poten 與 AdvExp 的樣本相關係數各約為 0.6。 61 第16章 迴歸分析:模型建立 第690頁
62
分析大型問題的第一步 雖然可能會有多重共線性的問題,但仍先考慮建立一個含上述所有自變數的估計迴歸方程式。Minitab 電腦報表如圖 16.14,含 8 個自變數的複迴歸模型的調整複判定係數為 88.3%。但請注意,在 α =0.05 的顯著水準下,p 值欄 (對個別參數進行 t 檢定所得的 p 值) 顯示只有 Poten, AdvExp 及 Share 三個自變數是顯著的,因此,將只對使用這三個變數的結果做進一步的分析。圖 就是只用這三個變數所得到的迴歸分析結果,看到調整複判定係數為 82.7%,雖然小於含 8 個自變數的情形,但此係數值也很高。 62 第16章 迴歸分析:模型建立 第690頁
63
分析大型問題的第一步 63 第16章 迴歸分析:模型建立 第690頁 圖16.14
64
分析大型問題的第一步 64 第16章 迴歸分析:模型建立 第691頁 圖16.15
65
分析大型問題的第一步 在既有的資料下,如何找出最佳的估計迴歸方程式呢?一種方法是將所有可能的迴歸都計算一次,若以克雷文資料為例,可以建立 8 個含一個自變數的估計迴歸方程式 (各對應於一自變數),28 個含兩個自變數的估計迴歸方程式 (由 8 個自變數中一次取兩個自變數的可能組合數),以此類推。所以,克雷文資料共計可建立255 個含一個或以上自變數的估計迴歸方程式。 65 第16章 迴歸分析:模型建立 第690頁
66
16.4 變數選擇程序 逐步迴歸 前向選擇 後向消去 最佳子集迴歸 替代法,即每次增加或刪減一個 變數,並評估新的迴歸模型,一
變數選擇程序 逐步迴歸 前向選擇 後向消去 替代法,即每次增加或刪減一個 變數,並評估新的迴歸模型,一 直到無法找出更好的模型為止。 不是一次處理一個變數,而是含 不同自變數集合的迴歸模型。 最佳子集迴歸 66 第16章 迴歸分析:模型建立 第691頁
67
逐步迴歸 逐步迴歸程序首先要決定是否要刪減模型中已有的自變數,首先,對模型中每個自變數計算其 F 統計量及 p 值。
判定在 α 顯著水準下是否應該刪去自變數表示為 Alpha to remove。 如果沒有自模型中刪去任何變數,逐步迴歸程序就開始檢查是否要增加變數。 67 第16章 迴歸分析:模型建立 第692頁
68
逐步迴歸 No No Yes Yes 下一 程序 自變數的 計算每個尚未加入模型 p值< alpha 中之變數的F值及p值
to enter ? 計算每個尚未加入模型 中之變數的F值及p值 No No 對應的最大p 值 之自變數將自模 型中刪去 Yes 自變數的 p值> alpha to remove ? Yes 停止 計算加入模型中之 變數的F值及p值 對應的最小p值之自 變數就被加入模型中 下一 程序 沒有自模型中刪去 任何變數 68 第16章 迴歸分析:模型建立
69
逐步迴歸 圖 是以 Minitab 的逐步迴歸程序處理克雷文資料得到的結果,Alpha to remove 與 Alpha to enter 的值都設定為 0.05。由 Minitab 的逐步迴歸程序所得到的估計迴歸方程式如下: = Accounts AdvExp Poten Share 請注意圖 的結果顯示,在經過 4 個步驟以後,s = 由最佳單一自變數模型 (使用Accounts) 時的881,減少到454。R-sq 值也由56.85% 增加到 90.04%。估計迴歸方程式的調整後 R-sq 值為 88.05%。 69 第16章 迴歸分析:模型建立 第692頁
70
逐步迴歸 70 第16章 迴歸分析:模型建立 第693頁 圖16.16
71
逐步迴歸 總而言之,逐步迴歸的每個步驟中,先考慮是否自模型中刪減變數,如果不必刪減任何自變數,再考慮是否增加自變數。由於逐步迴歸的性質使然,可能會有自變數在這個步驟被放入模型中,到了下一步驟被刪減,之後又被放入模型中。當沒有變數增加或刪減時,逐步迴歸程序即停止。 71 第16章 迴歸分析:模型建立 第692頁
72
前向選擇 前向選擇從沒有自變數開始。 每次只加入一個自變數,判定模型中是否加入變數的程序與逐步迴歸類似,差異在於一旦將變數加入模型中,就不再刪減。 如果每一個自變數的 p 值小於Alpha to enter,前向選擇程序即停止。 72 第16章 迴歸分析:模型建立 第692頁
73
前向選擇 從沒有自變數開始 計算每個尚未加入模型 中之變數的F值及 p值 自變數的 p值< alpha Yes 對應的最小 p 值之自
to enter ? 對應的最小 p 值之自 變數就被加入模型中 Yes No 停止 73 第16章 迴歸分析:模型建立
74
前向選擇 以 Minitab 的前向選擇程序求得估計迴歸方程式如下:
= Accounts AdvExp Poten Share 因此,以克雷文資料而言,前向選擇程序 (Alpha to enter 設定為 0.05) 與逐步迴歸所建立的模型是 相同的。 74 第16章 迴歸分析:模型建立 第692頁
75
後向消去 後向消去程序由包含所有自變數的模型開始。
每次只刪減一個自變數,程序步驟和逐步迴歸類似,與逐步迴歸的差異在於一旦將變數刪減,就不可能再被放入模型中。 如果每一個自變數的 p 值大於 Alpha to remove,後向消去程序即停止。 75 第16章 迴歸分析:模型建立 第693頁
76
後向消去 由包含所有自變數的 模型開始 計算每個尚未加入模型 中之變數的F值及p值 自變數的 p值 > alpha Yes
to remove ? 對應的最大 p 值之自 變數將自模型中刪去 Yes No 停止 76 第16章 迴歸分析:模型建立
77
後向消去 以 Minitab 的後向消去程序求得克雷文資料的估計迴歸方程式如下 (Alpha to remove 設定為 0.05):
= Time Poten AdvExp+ 259 Share 將前向選擇與後向消去兩種程序所得的模型做個比較,可以看到兩個模型中都包含 AdvExp, Poten 與 Share。但是後向消去模型中包含 Time,並沒有前向選擇模型中所包含的 Accounts。 77 第16章 迴歸分析:模型建立 第693頁
78
後向消去 前向選擇與後向消去是建立迴歸模型的兩個極端;前向選擇從沒有自變數開始,一次加入一個自變數;後向消去則從包含所有自變數開始,逐次刪減自變數。兩種方法可能會得到相同的迴歸模型,但也可能不同,特別是使用克雷文資料時,兩種方法可能會得到不同的迴歸模型。何種模型會得到比較好的結果仍無定論,問題分析者需自行判斷。接下來再介紹另一種模型建立的方法──最佳子集迴歸,分析者可在做最後選擇時,擇優而行。 78 第16章 迴歸分析:模型建立 第693頁
79
最佳子集迴歸 逐步迴歸、前向選擇與後向消去都是一次刪減或增加一自變數,以致於無法保證可以找到含特定個自變數的最佳迴歸模型。
某些電腦統計軟體會提供最佳子集迴歸程序,此種方法可以找到含特定個自變數的最佳迴歸模型,而 Minitab 也有此種功能,圖 就是對克雷文資料進行最佳子集迴歸所得到的部分電腦報表。 此報表判別兩個最佳單一自變數估計迴歸方程式,兩個最佳二變數方程式以及兩個最佳三變數方程式等。用來決定這些自變數的最佳迴歸模型的判斷準則是判定係數 (R-sq)。 79 第16章 迴歸分析:模型建立 第694頁
80
最佳子集迴歸 80 第16章 迴歸分析:模型建立 第694頁 圖16.17
81
最佳子集迴歸 例如,在考慮單一自變數時,Accounts 的 R-sq=56.8%,為最理想的單一自變數估計迴歸方程式;AdvExp, Accounts 的 R-sq=77.5%,是最佳的二變數估計迴歸方程式;至於 Poten, AdvExp, Share 的 R-sq=84.9%,則是最佳的三變數估計迴歸方程式。以克雷文資料而言,當模型中含 Time, Poten, AdvExp, Share, Change, Accounts 六個自變數時的調整判定係數 (Adj. R-sq) 最大,其值為 89.4%。但是,最佳的四變數 (Poten, AdvExp, Share 和 Accounts) 迴歸模型的調整判定係數為 88.1% 與 89.4% 相差無幾。在其他情況不變時,愈簡單的模型是愈受歡迎的。 81 第16章 迴歸分析:模型建立 第694頁
82
最後的選擇 到目前為止,對克雷文資料所做的分析,可說是為選擇最後的模型做了良好的準備,但在決定最後的選擇之前,還有更多的分析必須進行。如第 14 章及第 15 章所介紹的,我們必須仔細地做殘差分析,希望模型的殘差圖近似水平帶狀。假設殘差分析的結果並未顯示異常,而且我們想用最佳子集程序來選擇模型。 最佳子集程序已經顯示了最佳的四變數模型中包含 Accounts, AdvExp, Poten, Share 等自變數。此結果正好與逐步迴歸程序所得到的結果相同。表 16.7 有助於我們做最後的決定,表中顯示包含一個到四個自變數的數種模型。 82 第16章 迴歸分析:模型建立 第 頁
83
最後的選擇 從表 16.7 可以看出,僅含 AdvExp 和 Accounts 的模型是良好的,因為其調整判定係數為 75.5%,而含四個自變數的模型只改善了 12.6 個百分點。如果市場潛力 (Poten) 不易衡量,僅含 Accounts 和 AdvExp 兩個自變數的簡單模型是不錯的選擇。假若已經有資料,而且又希望對銷售額的預測能夠更準確,則含四個自變數的模型會更理想。 83 第16章 迴歸分析:模型建立 第695頁 表16.7
84
16.5 實驗設計的複迴歸方法 運用複迴歸方程式的虛擬變數來解釋變異數分析和實驗設計問題。
16.5 實驗設計的複迴歸方法 運用複迴歸方程式的虛擬變數來解釋變異數分析和實驗設計問題。 運用複迴歸分析的結果來進行三個母體平均數差異ANOVA檢定。 95 第16章 迴歸分析:模型建立 第697頁
85
實驗設計的複迴歸方法 (實例) Chemitech 公司開發了一種新型的過濾系統於市政供水上。這些組件的的新過濾系統將向多個供應商購買,而Chemitech 公司在南卡羅來納州哥倫比亞市的工廠將其零件組裝。Chemitech 公司提出三種不同的組裝方法,稱為方法 A、B 和 C。Chemitech 公司的經理要確定哪些組裝方法能使每個星期生產出最多的過濾系統。 隨機選取了 15 個員工,三種組裝方法每種隨機分配 5 個員工。每個員工的單位組裝數量顯示於表 16.8。 96 第16章 迴歸分析:模型建立 第698頁 表16.9
86
實驗設計的複迴歸方法 (實例) 我們可以用虛擬變數來探討員工使用的組裝方法和每個星期單位生產數量(y)的關係
E(y) = 每個星 期單位生產數量的期望值 = β0 + β1A + β2B 方法A E(y) = β0 + β1(0) + β2(0) = β0 方法B E(y) = β0 + β1(1) + β2(0) = β0 + β1 97 第16章 迴歸分析:模型建立 第698頁
87
實驗設計的複迴歸方法 (實例) 每種組裝方法的每個星期單位平均組裝數量的 最佳估計值如下 方法 E(y)的估計值 A B C
b0 + b1 = = 62 b0 = = 66 b0 = 52 98 第16章 迴歸分析:模型建立 第 頁
88
實驗設計的複迴歸方法 (實例) 99 第16章 迴歸分析:模型建立 第699頁 表16.10
89
實驗設計的複迴歸方法 (實例) 100 第16章 迴歸分析:模型建立 第699頁 圖16.18
90
實驗設計的複迴歸方法 (實例) 如果三個平均數沒有差異,則 組裝方法A的E(y)–組裝方法C的E(y) = 0
組裝方法B的E(y)–組裝方法C的E(y) = 0 101 第16章 迴歸分析:模型建立 第699頁
91
實驗設計的複迴歸方法 (實例) 既然β0等於組裝方法C的 E(y) ,而且β0 + β1等於組裝方法A的 E(y) ,第一個差異等於(β0 + β1) - β0 = β1 再者, β0 + β2等於組裝方法B的 E(y) ,所以第二個差異等於 (β0 + β2) - β0 = β2 因此,結論是,如果 β1 = 0 且β2 = 0,則三5種方法沒有差異。 102 第16章 迴歸分析:模型建立 第700頁
92
實驗設計的複迴歸方法 (實例) 平均數差異檢定的虛無假設可以建立為 要檢定迴歸關係顯著性的虛無假設,我們使用F 檢定來檢定整體顯著性。
H0: β1 = β2 = 0 要檢定迴歸關係顯著性的虛無假設,我們使用F 檢定來檢定整體顯著性。 103 第16章 迴歸分析:模型建立 第700頁
93
實驗設計的複迴歸方法 (實例) 由於 F 的觀察值大於臨界值,我們可以拒絕虛無假設 H0:β1= β 2=0,因此我們的結論是三種組裝方法的平均數不相同。 用 p 值的方法,因為 p 值=0.004<α=0.05,所以結論同樣拒絕H0: β 1= β 2 =0。 106 第16章 迴歸分析:模型建立 第700頁
94
16.6 自身相關與杜賓—華生檢定 在商業及經濟問題的迴歸研究中,常要花一段時間來蒐集資料。
自身相關與杜賓—華生檢定 在商業及經濟問題的迴歸研究中,常要花一段時間來蒐集資料。 假設我們以 yt 表示在時間 t 時的 y 值,yt 與時間 t 以前的 y 值有關是很常見的情況。 稱此種情形為資料間自身相關 (或稱序列相關) 。 84 第16章 迴歸分析:模型建立 第701頁
95
自身相關與杜賓—華生檢定 正自身相關時,若某時段的殘差為正,則可預期下個時段的殘差亦為正。
負自身相關時,若某時段的殘差為正,則可預期下個時段的殘差也將為負,依此類推。 85 第16章 迴歸分析:模型建立 第702頁
96
自身相關與杜賓—華生檢定 86 第16章 迴歸分析:模型建立 第702頁 圖16.19
97
自身相關與杜賓—華生檢定 當自身相關存在時,那麼迴歸模型的假設之一「誤差項彼此獨立」就不成立。
當自身相關存在時,則我們對迴歸模型所做的統計推論可能會產生嚴重的誤差。 利用杜賓—華生統計量來找出自身相關。 87 第16章 迴歸分析:模型建立 第702頁
98
自身相關與杜賓—華生檢定 假定 ε 並不彼此獨立,且相關的形式如下。
et = r et-1 + zt 其中 ρ 為絕對值小於1的參數, zt 為相互獨立的常態分配隨機變數,其平均數為 0,變異數為σ2 若 ρ =0,則誤差項不相關,且平均數為 0,變異數為σ2 。此時,沒有自身相關存在,且迴歸假設是成立的。 杜賓-華生檢定運用殘差來判定 ρ 是否為0。 88 第16章 迴歸分析:模型建立 第702頁
99
自身相關與杜賓—華生檢定 杜賓-華生檢定統計量 第 i 項殘差表示為 89 第16章 迴歸分析:模型建立 第702頁
100
自身相關與杜賓—華生檢定 杜賓-華生檢定統計量 杜賓—華生統計量的範圍由0到4。
如果接續的殘差值都很接近 (正自身相關),杜賓—華生統計量將較小。 如果接續的殘差值差距都很大 (負自身相關),則杜賓—華生統計量將會較大。 其值為2時,表示自身相關不存在。 90 第16章 迴歸分析:模型建立 第703頁
101
自身相關與杜賓—華生檢定 有待檢定的虛無假設為 檢定自身相關是否存在的對立假設為 無自身相關存在 存在正自身相關 存在負自身相關
存在正自身相關或負自身相關 91 第16章 迴歸分析:模型建立 第703頁
102
自身相關與杜賓—華生檢定 圖 顯示,如何運用表 的下界與上界來進行自身相關檢定。圖 A 為正自身相關檢定的情形,若 d < dL,其結論是沒有證據顯示正自身相關存在;若dL ≤ d ≤ dU,表示統計檢定未獲明顯結論;若 d > dU,則其結論是沒有證據顯示正自身相關存在。 92 第16章 迴歸分析:模型建立 第 頁 圖16.20
103
自身相關與杜賓—華生檢定 圖 B 為負自身相關檢定的情形。若 d > 4-dL,其結論為負自身相關存在;若4-dU ≤ d ≤ 4-dL,則表示統計檢定未獲明顯結論;若 d < 4-dU,其結論是沒有證據顯示負自身相關存在。 93 第16章 迴歸分析:模型建立 第 頁 圖16.20
104
自身相關與杜賓—華生檢定 圖 C 為雙尾檢定的情形。若 d < dL 或 d > 4-dL,則拒絕 H0 虛無假設,結論是存在自身相關;若 dL ≤ d ≤ dU 或 4-dU ≤ d ≤ 4-dL,則表示統計檢定未獲明顯結論;若 dU < d < 4-dU,結論是沒有證據顯示自身相關存在。 94 第16章 迴歸分析:模型建立 第 頁 圖16.20
105
End of Chapter 16
Similar presentations