Download presentation
Presentation is loading. Please wait.
1
Chapter 15 複迴歸
2
複迴歸模型 複迴歸分析:研究一個應變數y與兩個以上自變數之間的關係 迴歸模型與迴歸方程式:
1.複迴歸模型(multiple regression model):用來描述應變數y與自變數x1、x2…及誤差項間關係的方程式。公式為 y=β0+β1x1+β2x2+….+βpxp+ε
3
2.複迴歸方程式(multiple regression equation):描述y的平均數與自變數x1.x2…xp間關係的方程式,其公式為
E(y)=β0+β1x1+β2x2+….+βpxp 估計迴歸方程式 以簡單隨機樣本來計算樣本統計量b0.b1…bp,並以這些統計量作為參數β0,β1…的點估計值,由此可導出估計迴歸方程式,其公式為:
4
^ y=b0+b1x1+b2x2+…+bpxp , 其中, b0.b1…bp為β0,β1…βp的估計值 下圖為複迴歸的估計過程。
5
以b0,b1,b2…bp為β0,β1,β2…βp的估計值
複迴歸模型 y=β0+β1x1+β2x2+….+βpxp+ε 複迴歸方程式 E(y)=β0+β1x1+β2x2+….+βpxp β0,β1…βp為未知數 樣本資料 x1.x2…xp.y 計算估計迴歸方程式 y=b0+b1x1+b2x2+….+bpxp b0,b1,b2…bp為樣本統計量 ^ 以b0,b1,b2…bp為β0,β1,β2…βp的估計值
6
最小平方法 最小平方法準則 minΣ(yi-yi)2, 其中,yi=第i個應變數的觀察值 yi=第i個應變數的估計值
應變數的估計值是利用估計迴歸方程式算出的 最小平方法使用樣本資料,得使殘差平方和最小的組合b0.b1. b2…bp ^ ^
7
Ex:巴特貨運公司 巴特公司的管理階層想對駕駛員的每日行駛總時數做估計。 起初管理者相信每日行駛總時數與行駛里程數密切相關,於是隨機抽取10筆駕駛紀錄,如表1,資料集的散佈圖如圖1。 檢視散佈圖後,管理階層假設簡單的線性迴歸模式y=β0+β1x1+ε應可用來描述總行駛時數(y)與行駛里程數(x)間的關係。為估計β0與β1,用最小平方法建立了y=b0+b1x1的估計迴歸方程式 ^
8
表1 巴特公司的原始資料 X1=行駛里程數 100 50 80 75 65 90 y=行駛時間(小時) 9.3 4.8 8.9 6.5
表1 巴特公司的原始資料 X1=行駛里程數 100 50 80 75 65 90 y=行駛時間(小時) 9.3 4.8 8.9 6.5 4.2 6.2 7.4 6.0 7.6 6.1 駕駛 1 2 3 4 5 6 7 8 9 10
9
˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ ˙ y 總行駛時間(小時) x 圖1 巴特公司的原始資料散佈圖 行駛里程數 10 9 8 7 6 5 4
圖1 巴特公司的原始資料散佈圖 y 10 ˙ 總行駛時間(小時) ˙ 9 ˙ 8 ˙ 7 ˙ ˙ ˙ ˙ 6 5 ˙ ˙ 4 x 50 60 70 80 90 100 行駛里程數
10
下圖為運用Minitab軟體對表1資料做簡單線性迴歸後所得之統計報表
The regression equation is Time = Miles 含一個自變數的Minitab 電腦報表 Predictor Coef SE Coef T P Constant Miles S= R-sq=66.4% R-sq (adj)=62.2% Analysis of Variance SOURCE DF SS MS F P Regression Residual Error Total
11
在0.05的顯著水準下,F值為15.81,p值為0.004 結論:行駛里程數與行駛時間的關係是顯著的;即行駛里程數越長時,行駛所需的時間也越長。 判定係數為66.4% 此線性效果可解釋66.4%的行駛時間之變異數
12
巴特公司又蒐集送貨批數的資料如下(包含兩個自變數行駛里程數[x1]與送貨批數[x2]
駕駛 1 2 3 4 5 6 7 8 9 10 X1=行駛里程數 100 50 80 75 65 90 X2=送貨批數 4 3 2 y=行駛時間(小時) 9.3 4.8 8.9 6.5 4.2 6.2 7.4 6.0 7.6 6.1
13
含兩個自變數的Minitab電腦報表 The regression equation is Time = Miles Deliveries Predictor Coef SE Coef T P Constant Miles S= R-sq=90.4% R-sq (adj)=87.6% Analysis of Variance SOURCE DF SS MS F P Regression Residual Error Total
14
以下探討上式中,b1=0.0611與b2=0.923兩個係數的涵義
上表提到估計迴歸方程式為: y= = x x2 以下探討上式中,b1=0.0611與b2=0.923兩個係數的涵義 在迴歸方程式中,包含一個自變數與包含兩個自變數得到的b1不相等 ^
15
在簡單線性迴歸中, b1指自變數變動一個單位時,應變數的變動量;複迴歸中, bi係數表當其他自變數固定不變時,xi變動一單位,應變數的變動量
以巴特公司為例, b1 =0.0611,代表當送貨批數(x2)固定時,行駛距離(x1)增加一哩,則行駛時間預期增加0.0611小時 b2=0.923表當行駛里程數固定,送貨次數增加一次,行駛時間預期增加0.923小時
16
SST,SSR與SSE的關係 SST=SSR+SSE 其中 SST=總平方和=Σ(yi - y)2
SSR=迴歸造成的平方和=Σ(yi - y)2 SSE=誤差造成的平方和=Σ(yi - yi)2 ^ ^
17
含兩個自變數的巴特勒貨運公司例子中 SST= SSR= SSE=2.299 含一個自變數的巴特勒貨運公司例子中 SST= SSR= SSE=8.029 →兩個例子中的SST是相等的,因為SST與y 無關。 在含兩個變數的情況中,加入第二個自變數的SSR增加,而SSE減少。此表示估計迴歸方程式的適合度提高了。 ^
18
複判定係數 (Multiple Coefficient of Determination )
複判定係數可解釋為估計迴歸方程式所能解釋的應變數之變異量。 若將複判定係數乘上100,代表了可由估計迴歸方程式所解釋的y的變異百分比。 SSR SST
19
含兩個自變數的巴特勒貨運公司例子中 R2 = / 23.9 = 0.904 →行駛時間y的變異有90.4%可用來解釋含 行駛哩程數及送貨批數兩個自變數的迴歸方程式。 含一個自變數的巴特勒貨運公司例子中 R2 = 0.664 →以行駛哩程數作為迴歸方程式解釋了行駛時間66.4%的變異。 →一般而言,迴歸模型中的自變數個數增加時,R2也會提高(本例:66.4%→90.4%)。
20
調整複判定係數 (Adjusted Multiple Coefficient of Determination )
Ra = 1-( 1 - R2 ) 在巴特勒貨運公司例子中 Ra = 1-( ) = 0.88 n - 1 2 n-p-1 10 -1 2
21
模型假設 複迴歸模型 y =β0+β1x1+β2x2+….+βpxp+ε 關於誤差項ε的假設
(1)誤差項ε是平均數或期望值為零的隨機變數;亦即E(ε)=0 E(y) =β0+β1x1+β2x2+….+βpxp
22
關於誤差項ε的假設 (2)對所有自變數x1,x2,…, xp而言,ε的變異數恆等於σ2。 (3)ε值相互獨立。
某一特定自變數值的誤差大小與另一組值 的誤差大小無關。 (4)誤差ε為反應值y與給定β0+β1x1+β2x2+….+βpxp的y的期望值間的離差之常態分配隨機變數。
23
含兩個自變數的複迴歸方程式的圖形 y 當X1=X1* , X2=X2* 時的y值 當X1=X1* , X2=X2* 時 的E(y)值 β0
● 當X1=X1* , X2=X2* 時 的E(y)值 β0 ε 對應於E(y) =β0+β1x1+β2x2的平面 ● X2* X1* ● X2 (X1*,X2*) X1 相對於X1=X1* , X2=X2* 的點
24
15.5 顯著性檢定 簡單線性迴歸中,t檢定與F檢定會得到相同的結論。但在複迴歸中,t檢定與F檢定則有不同的結果。
1.在複迴歸中, F檢定用來判定應變數與所有自變數所成的集合間是否有顯著關係,所以我們稱F檢定為總體顯著性(overall significance)的檢定。 2.如果F檢定的結果是顯著的,再利用t檢定來檢定模型中個別自變數的顯著性,所以我們稱t檢定為個別顯著性(individual significance)的檢定。
25
F檢定 15.4節所定義的複迴歸模型如下。 F檢定的虛無與對立假設如下。 y=β0+β1x1+β2x2+…+βpxp+ε
H0 : β0=β1=β2=…=βp=0 Ha : 至少有一個參數不等於0
26
SSR p MSR= (15.12) SSE n-p-1 MSE= (15.13) MSE可作為誤差項ε之變異數σ2的不偏估計量。如果虛無假設H0 : β0=β1=β2=…=βp=0為真, MSR也是σ2的不偏估計量,所以MSR/MSE會接近1。反之,如果H0為假, MSR會高估σ2,所以MSR/MSE就會變大。 至於MSR/MSE多大時才要拒絕H0?我們運用的觀念如下:如果H0為真,且有關迴歸模型的諸項假設皆為真, MSR/MSE的抽樣分配是分子自由度為p,分母自由度為n-p-1的F分配。
27
範例:巴特勒貨運公司 H0 : β1=β2=0 Ha : β1與β2至少有一個不為0
圖15.6是以行駛哩程數(x1)及送貨批數(x2)為兩個自變數的Minitab統計報表。 在變異數分析的部分可以看到,MSR=10.8且MSE=0.328。運用式(15.14)可以得到檢定統計量為 10.8 0.328 F= = 32.9
28
請注意報表中的F值為32. 88,與我們使用四捨五入後的MSR與MSE所做的計算有些許差異。統計報表的變異分析表(圖15
請注意報表中的F值為32.88,與我們使用四捨五入後的MSR與MSE所做的計算有些許差異。統計報表的變異分析表(圖15.6)的最後一欄,在α=0.01的顯著水準下,因為p值=0<α=0.01,故可拒絕H0 : β1=β2=0。 也可以利用在α=0.01的顯著水準下,由附錄B表4可以看到分子自由度為2,分母自由度為7時,F 0.01 =9.55。由於32.88 >9.55,拒絕H0 : β1=β2=0,而可以說行駛時間y與兩個自變數行駛哩程數及送貨批數的複迴歸關係是顯著的。
29
誤差均方也可作為誤差項ε之變異數σ2的不偏估計量。
圖15.6可以看到σ2的估計值是MSE =0.328。MSE的平方根也就是誤差項之標準差的估計值。我們稱這個標準差為估計值的標準差,以s表示。因此,我們可以得到 請注意估計值的標準差也出現在圖15.6的Minitab報表中。 s = MSE = =0.573
30
表15.3是變異數分析(ANOVA)的通式,我們可以利用這張表來做複迴歸模型的F檢定。統計檢定量F出現在最後一欄,我們可以將之與分子自由度為p,分母自由度為n-p-1的Fα做比較,以決定是否要拒絕虛無假設。 藉由回顧圖15.6中,巴特勒貨運公司的Minitab統計報表,我們見到Minitab 的變異數分析表包含這些資訊。此外, Minitab也提供相當於F檢定的p值。
31
圖15.6 含行駛哩程數(x1)及送貨批數(x2) 兩個自變數 的巴特勒貨運公司Minitab的電腦報表
The regression equation is Time = Miles Deliveries Predictor Coef SE Coef T P Constant Miles Deliveries S= R-sq=90.4% R-sq (adj)=87.6% Analysis of Variance SOURCE DF SS MS F P Regression Residual Error Total
32
表15.3 含p個自變數的複迴歸模型之ANOVA表
變異來源 迴歸項 誤差項 總變異 平方和 SSR SSE SST 自由度 p n-p-1 n-1 均方 F值 SSR p MSR MSE MSR= F= SSE n-p-1 MSE=
33
在t檢定中,sbi是bi的標準差的估計值,以巴特勒貨運公司來進行t檢定。圖15.6 的統計報表中有t值的部分:
運用式(15.15),可以得到與檢定β1與β2兩個參數有關的檢定統計量。 b1 = b2 =0.9234 sb1 = sb2=0.2211 t = / =6.18 t =0.9234/0.2211=4.18
34
請注意這兩個t值在Minitab報表中都有提供,在α=0. 01且自由度為n-p-1=10-2-1=7的情況下,參照附錄B表2,t0
35
多重共線性 複迴歸問題中的許多自變數間常有某種程度的相關。
在複迴歸分析中,我們以多重共線性(multicollinearity)這名詞來表示自變數之間的相關。 在巴特勒貨運公司問題略作修改,將x2由原先的送貨批數改為消耗的汽油數,顯然x1(行駛哩程數)與x2是相關的。我們可以合理推論x1與x2為高度相關的自變數。
36
假定我們得到方程式y= β0+β1x1+β2x2,且F檢定顯示迴歸為顯著。然後進行t檢定以判斷是否β1≠0時,無法拒絕H0 : β1=0。此種情形是否意味著行駛時間與行駛哩程數無關呢?答案是未必。其可能意味著:當x2已在模型中時,x1對於y值的決定並無顯著的貢獻。
37
總之,多重共線性可能製造的難題是,當整個複迴歸程式的F檢定為顯著時,對個別參數的顯著性做t檢定後,個別參數的檢定結論卻可能無一為顯著不等於0。
兩個自變數的簡單相關係數大於+0.7或小於-0.7是潛在多重共線性的警惕法則。 當自變數為高度相關,則不可能區分出個別自變數對應變數的效果。
38
利用估計迴歸方程式進行估計與預測 在巴特公司的例子中,假設要用含x1(行駛哩程數)及x2(送貨批數)的估計迴歸方程式來求得兩種估計:
1.建立行駛100哩與運送2批貨物的所有卡車之平均行駛時間的信賴區間估計 2.建立行駛100哩與運送2批貨物的某一特定卡車之行駛時間的預測區間估計
39
巴特公司問題中95%信賴與預測區間估計值 信賴區間 預測區間 下限 2.414 3.368 4.157 5.500 6.520 7.362
上限 5.656 6.548 7.607 8.683 9.510 10.515 下限 3.146 4.127 4.815 6.258 7.385 8.135 上限 4.924 5.789 6.948 7.926 8.645 9.742 X1值 50 100 X2值 2 3 4
40
可看到個別的y值其區間預測值的範圍比y的期望值區間預測值還寬
將條件帶入估計迴歸方程式可得以下列式: y= (100)+0.923(2)=7.09 可看到個別的y值其區間預測值的範圍比y的期望值區間預測值還寬 此差異反應了:在給定的x1與x2值之下,預測所有卡車的平均行駛時間較預測特定卡車的行駛時間來的準確 ^
41
定性自變數 (qualitative independent variable)
至目前為止所討論的都是定量自變數(如:學生人數、送貨批數等) 定性自變數如性別(男、女)、付款方式(信用卡、現金、支票等)
42
Ex:強生濾水器公司 強生公司有提供濾水器系統的維修服務,為評估服務時間與服務成本,該公司經理想預測每次的維修時間。因此,以小時為單位的維修時間是應變數。 根據經理的判斷,維修時間與兩種因素有關。分別為本次與上次叫修的時間間隔,及濾水器的維修問題類型是機械或是機電問題。公司蒐集10次的服務紀錄(見下表)
43
距上次叫修 時間(月) 2 6 8 3 7 9 4 維修問題類型 機電 機械 維修所需時間(小時) 2.9 3.0 4.8 1.8 4.9 4.2 4.4 4.5 服務紀錄 1 2 3 4 5 6 7 8 9 10
44
利用Minitab得到的統計報表如下頁圖所示,而其估計迴歸方程式為:
只用x1預測y所建立的迴歸模型如下: y=β0+β1x1+ε 利用Minitab得到的統計報表如下頁圖所示,而其估計迴歸方程式為: y= x1 ^
45
含一個自變數的強生公司電腦報表 The regression equation is Time = 2.15+0.304 Months
Predictor Coef SE Coef T P Constant Months S= R-sq=53.4% R-sq (adj)=47.6% Analysis of Variance SOURCE DF SS MS F P Regression Residual Error Total
46
在α=0.05的顯著水準下,以x1自變數的報表中可看出 t 檢定的p值為0.016,此表示x1與維修所需時間的關係是顯著的。
為了將維修問題的類型放進模型中,定義以下變數: x2= 0 如果維修問題類型屬於機械類 1 如果維修問題類型屬於機電類
47
在迴歸分析中,稱x2為虛擬變數(dummy variable)或是指示變數(indicator variable)
迴歸模形變成: y=β0+β1x1+β2x2+ε 新的估計迴歸方程式如下: y = x1+1.26x2 在0.05的顯著水準下,F檢定的p值為0.001:迴歸的關係是顯著的(修正後資料報表見下頁) ^
48
含兩個自變數的強生公司電腦報表 The regression equation is Time = Months+1.26 Type Predictor Coef SE Coef T P Constant Months Type S= R-sq=85.9% R-sq (adj)=81.9% Analysis of Variance SOURCE DF SS MS F P Regression Residual Error Total
49
在虛擬變數存在的情況下,如何解釋參數β0、β1、β2 ?
先看x2=0的情況(維修問題類型屬於機械問題) 以E(y 機械型)來表示已知維修問題的類型所需的平均維修時間 E(y 機械型)=β0+β1x1+β2(0)=β0+β1x1 E(y 機電型)=β0+β1x1+β2(1) =(β0+β2)+β1x1
50
上面兩式,不論是機械型還是機電型所需的維修時間都是x1的線性函數。(兩方程式的斜率皆為β1)
機械型維修問題的截距為β0;機電型維修問題的截距為β0+β 兩式的截距差為β2 : β2代表兩種不同維修類型所需的時間之期望值的差距 β2若為正,機電型維修時間會大於機械型,反之亦然
51
β2若為0,兩種問題的維修時間相同,即問題的類型與維修所需的時間無關聯 運用估計迴歸方程式: 當x2=0,y=0.93+0.388x1
由以上可知,平均而言,機電型問題的維修較機械型所需的時間多了1.26小時 ^ ^
52
將維修問題依虛擬變數表示之資料 距上次叫修 時間(月) 2 6 8 3 7 9 4 維修問題類型 1 維修所需時間(小時) 2.9 3.0
維修所需時間(小時) 2.9 3.0 4.8 1.8 4.9 4.2 4.4 4.5 服務紀錄 1 2 3 4 5 6 7 8 9 10
53
依上頁表所得之維修資料散佈圖 y 5 維修所需的時間(小時) 4 3 2 1 x1 1 2 3 4 5 6 7 8 9 10
E ● 5 E E,M E 維修所需的時間(小時) ● ● ● ● 4 ^ y= X1(機電型) M 3 ● E,E ● M 2 ● M=機械型問題 M ^ y= X1(機械型) 1 E=機電型問題 x1 1 2 3 4 5 6 7 8 9 10 距離上次叫修的時間(月)
54
更複雜的定性變數 若定性變數有個k可能的值,則必須定義k-1個虛擬變數 每個虛擬變數的値非0即1
EX:某影印機製造商將某一州分成A.B.C三個營業區,欲用迴歸分析來預測每週影印機的銷售額。
55
由於銷售地區有三個,故必須要3-1=2個虛擬變數來代表這三個地區
解題: 由於銷售地區有三個,故必須要3-1=2個虛擬變數來代表這三個地區 1 地區B x1 = 0 其他 1 地區C x2 = 0 其他
56
經上述定義,可以得到下列x1、x2及其所代表的地區別的資料如下:
對應地區A的觀察值是x1=0,x2=0,以此類推 地區別 x x2 A B C
57
以虛擬變數建立的銷售期望值之迴歸方程式可表達如下:
E(y)=β0+β1x1+β2x2 為解釋參數β0、β1、β2 ,以下有三個迴歸方程式的變化型: E(y 地區A)=β0+β1(0)+β2(0)=β0 E(y 地區B)=β0+β1(1)+β2(0)=β0+β1 E(y 地區C)=β0+β1(1)+β2(1)=β0+β1+β2
58
因此, β0是地區A銷售量的平均數(或期望值)
β1是地區A、B平均銷售量的差異 β2則是地區A、C平均銷售量的差異 (重點提示:當定性變數有K個水準時,在迴歸分析必須用到K-1個虛擬變數!!)
59
殘 差 分 析 第 i 個觀察值的標準化殘差 yi - yi Syi - yi Syi – yi = 第 i 個殘差的標準差 ^ 其中 ^
60
殘 差 分 析 第 i 個殘差的標準差 Syi – yi = S 1 - hi S = 估計值的標準差 hi = 第 i 個觀察值的槓桿作用
^ 其中 S = 估計值的標準差 hi = 第 i 個觀察值的槓桿作用
61
表15.7這些值是由Minitab統計報表中得到的,其預測值是利用估計迴歸方程式 y=-0.869+0.0611x1+0.923x2求得的。
圖15.10是運用了表15.7所提供的資料而建立之標準化殘差對預測值的殘差圖。 →所有的標準化殘差都落在-2與+2之間,因此不需要質疑「誤差項ε為常態分配」的假設,其所建立的迴歸模型應是合理的。 ^
62
表15.7巴特勒貨運公司問題的殘差與標準化殘差 行駛 哩程數 (x1) 送貨批數 (x2) 行駛時間 (y) 預測時間 (y) 殘差
^ ^ 100 50 80 4 3 2 9.3 4.8 8.9 6.5 4.2 6.2 … … … … … …
63
圖15.10巴特勒貨運公司的標準化殘差圖 標準化殘差 ^ y 2 1 -1 -2 4 5 6 7 8 9 ● ● ● ● ● ● ● ● ●
● ● ● -1 ● ● -2 ^ y 4 5 6 7 8 9
64
偵 測 離 群 值 離群值(outlier)是指與其他資料相比較不尋常的觀察值→不遵循由其他資料所建立的模式或類型。
Minitab對離群值的界定是一個觀察值的標準化殘差若是小於-2或大於+2,就屬於離群值。 →用這個標準檢視表15.7巴特勒公司的資料,可以發現在該資料集中並沒有離群值存在。
65
偵 測 離 群 值 在計算標準化殘差的分母Syi – yi時會用到S,S如果增加,標準化殘差值會因為分母變大而使整個值變小。
→即使標準化殘差值本來可能是太大的,但是在分母變大的情況下,可能會使標準化殘差沒有大到讓我們偵測出離群值的存在。 →我們使用Student化刪除殘差來取代原來的標準化殘差的計算方式。 ^
66
Student化刪除殘差與離群值 將資料集中的第i個觀察值刪除,然後以剩下的n-1個觀察值來建立新的估計迴歸方程式,用S(i)來表示新估計值的標準差。 我們用S(i)而非S來計算修正過的Syi – yi ,再用來計算第i個觀察值的標準化殘差←稱為Student化刪除殘差。 可以偵測到原來使用標準化殘差時偵測不到的離群值。 ^
67
使用Minitab所得的巴特勒公司的Student化刪除殘差如表15.8。
t分配可以用來判定Student化刪除殘差是否指出離群值。 我們以p表示自變數的個數,n表示觀察值的變數,所以若是刪除了第i個觀察值,觀察值的個數應為n-1,誤差平方和的自由度變成(n-1)-p-1。
68
在0.05的顯著水準下,t分配表中自由度為6的t0.025=2.447。
以巴特勒公司為例(n=10,P=2) 誤差平方和的自由度=9-2-1=6 在0.05的顯著水準下,t分配表中自由度為6的t0.025=2.447。 假定第i個Student化刪除殘差小於-2.447或大於+2.447→第i個觀察值是離群值。 表15.8中的Student化刪除殘差都不符合此範圍→該資料集中沒有離群值。 刪去 一個觀察值
69
表15.8巴特勒貨運公司的Student化刪除殘差
行駛 哩程數 (x1) Student化刪除殘差 送貨批數 (x2) 行駛時間 (y) 標準化殘差 100 50 80 4 3 2 9.3 4.8 8.9 6.5 4.2 6.2 … … … … …
70
具影響力的觀察值 Minitab軟體運用經驗法則,將hi>3(p+1)/n作為界定觀察值是否具有強烈影響力的標準。
在巴特勒公司的例子中(n=10,P=2),如果槓桿作用大於3(2+1)/10=0.9→該觀察值具強烈影響力。 表15.9並沒有符合此一標準的槓桿作用→在此資料集裡,並沒有具影響力的觀察值。
71
表15.9巴特勒貨運公司的槓桿作用值及其庫克距離
行駛 哩程數 (x1) 送貨批數 (x2) 行駛時間 (y) 槓桿作用 (hi) 庫克距離度量 (Di) 100 50 80 4 3 2 9.3 4.8 8.9 6.5 4.2 6.2 … … … … …
72
使用庫克距離度量 來判定具影響力的觀察值 使用槓桿作用來判定具影響力的觀察值可能產生的問題是:被認為具高槓桿作用值的觀察值未必對所求得的估計迴歸方程式具影響力。 表15.10 xi yi hi
73
以Minitab所得的估計迴歸方程式如下: y =18.2+1.39x
將觀察值x=15 , y=39自資料集刪除,再由剩下的7個觀察值建立新的估計迴歸方程式如下: y= x →雖然槓桿作用的判定告訴我們第8個觀察值是具有影響力的觀察值,但去掉這個觀察值後所得到的新方程式與原方程式並無太大差別。 在某些情況中,若是僅用槓桿作用來判定具影響力的觀察值,是有可能誤判的。 ^ ^
74
圖15.11 資料集的散佈圖 y x 40 35 使用所有資料建立的估計迴歸方程式 y=18.2+1.39x 30 ^ 25
● 35 使用所有資料建立的估計迴歸方程式 y= x 30 ^ ● 25 ● ● ● 註:去除觀察值(15,39)後所得到的估計迴歸方程式 y= x ● ● 20 ● ^ 15 x 5 10 15
75
庫克距離度量 (Cook’s distance measure)
^ (yi - yi)2 hi Di = (p - 1)s2 (1- hi)2 其中 Di = 第i個觀察值的庫克距離度量 yi - yi = 第i個觀察值的殘差 hi = 第i個觀察值的槓桿作用 p = 自變數的數目 s = 估計值的標準差
76
庫克距離度量運用了第i個觀察值的槓桿作用hi及殘差(yi - yi)來判定觀察值是否具影響力。
如果殘差以及(或者)槓桿作用很大,庫克距離度量將很大→該觀察值具影響力。 根據經驗法則,如果第i個觀察值的庫克距離度量Di>1,即代表該觀察值具影響力,值得進一步研究。 ^
77
15.9羅吉斯迴歸 範例:Sim百貨的郵件促銷 每本型錄中提供消費超過$200以上即可使用的$50折價券。由於型錄成本昂貴, Sim所以公司希望給予高機率會消費的顧客。
78
管理者認為顧客在Sim百貨的年度開銷和其是否使用Sim的信用卡,可幫助預測是否收到型錄而會使用折價券消費$200的兩個自變數。
Sim隨機取樣50位Sim信用卡會員與50位沒有Sim信用卡的顧客進行試驗。前10位收到型錄的顧客資料顯示如表15.11。
79
表15.11 Sim百貨的樣本資料 顧客 1 2 3 4 5 6 7 8 9 10 年度開銷($1,000) 2,291 3,215
2,135 3,924 2,528 2,473 2,384 7,076 1,182 3,345 Sim信用卡 1 消費與否 1
80
若顧客來店消費則編碼為1,反之為0。 信用卡使用資訊以1代表顧客使用Sim信用卡,反之為0。 消費欄中, 1代表其樣本消費$200且使用$50折價券。 可考慮利用表15.11資料所建立的複迴歸模式來幫助預測是否收到型錄會引起消費行為。 用年度開銷和Sim信用卡作為自變數,消費行為作為應變數。 此例顯示發展羅吉斯迴歸的情境。
81
羅吉斯迴歸方程式 和普通迴歸方程式有諸多類似。其要求一個應變數y和一個或多個自變數。在複迴歸分析中,y的平均數或期望值E(y)是參照複迴歸方程式。 E(y)=β0+β1x1+β2x2+…+βpxp (15.26) 羅吉斯迴歸方程式 β0+β1x1+β2x2+…+βpxp (15.27) e E(y)= β0+β1x1+β2x2+…+βpxp 1+e
82
若應變數的值為0或1,則式(15.27)中, E(y)的值提供給定特定集合y=1下,自變數x0,x1,…,xp的機率。因為E(y)是以機率來解釋,因此羅吉斯迴歸方程式(logistic regression equation)如下。 以E(y)解釋羅吉斯迴歸機率 E(y)= P(y=|x0,x1,…,xp) (15.28)
83
假定模式僅包含一個自變數x和模式參數值β0= -7和β1=3,則羅吉斯迴歸方程式為
圖15.12顯示式(15.29)的曲線圖。圖呈S型。 E(y)值由0到1,其S曲線使式(15.29)理想地配適模型應變數等於1的機率。 β0+β1x1 -7+3x e e E(y)= P(y=1|x) = = (15.29) β0+β1x1 -7+3x 1+e 1+e
84
圖15.12 參數值β0= -7和β1=3的羅吉斯迴歸方程式圖示
圖 參數值β0= -7和β1=3的羅吉斯迴歸方程式圖示 1.0 0.6 0.4 0.2 0.0 0.8 E(y) 自變數(x)
85
估計羅吉斯迴歸方程式 因此, y提供當給定自變數的特殊集合值時, y =1的機率估計值。 我們回到sim的例子。變數如下。 ^
y= (y=|x0,x1,…,xp)的估計值 b0+b1x1+b2x2+…+bpxp e = (15.30) b0+b1x1+b2x2+…+bpxp 1+e 因此, y提供當給定自變數的特殊集合值時, y =1的機率估計值。 我們回到sim的例子。變數如下。
86
因此,我們根據兩自變數選擇羅吉斯迴歸方程式
0 測試期間顧客沒有消費 1 測試期間顧客有消費 y= x1=在sim百貨的年度開銷($1,000) 顧客沒有sim信用卡 顧客有sim信用卡 x2= 因此,我們根據兩自變數選擇羅吉斯迴歸方程式 β0+β1x1+β2x2 e (15.31) E(y)= β0+β1x1+β2x2 1+e
87
使用樣本資料(表15. 11)與圖15. 13,其中b0=-2. 1464,b1=0. 3416,b2=1
可使用式(15.32)來估計會消費的特殊客戶類型。例如,欲估計每年消費2,000且沒有sim信用卡的顧客機率,將x1=2,x2=0代入式(15.32) x x2 e y= (15.32) x x2 1+e
88
欲估計去年消費$2,000且具有sim信用卡的顧客機率,將x1=2,x2=1代入式(15.32)
(2) (0) ^ e y= (2) (0) 1+e = = e 0.2315 1.2315 =0.1880 1+e
89
此機率接近0.41 ,顯示當客戶具有sim信用卡時,購買機率較高。然而在延伸其結論前,我們需要驗證其統計顯著性。
(2) (1) ^ e y= (2) (1) 此機率接近0.41 ,顯示當客戶具有sim信用卡時,購買機率較高。然而在延伸其結論前,我們需要驗證其統計顯著性。 1+e 0.6945 1.6945 e = = =0.4099 1+e
90
圖15.13 以Sim百貨為例的部分羅吉斯迴歸報表 Logistic Regression Table Odds 95%CI
Predictor Coef SE Coef Z P Ratio Lower Upper Constant Spending Card Log-Likelihood= Test that all slopes are zero :G=13.628, DF=2, P-Value=0.001
91
顯著性檢定 H0:β1=β2=0 Ha:至少有一個參數不為0 利用G檢定統計值來檢視總體顯著性。如果虛無假設為真,則G的樣本分配可依據卡方分配,其以如果虛無假設為真,則G的樣本分配可依據卡方分配,其自由度等於模型中自變數的個數。 參考圖15.13,我們可以看見G值為13.628,自由度為2,p值為0.001。因此在任何的顯著水準α≧0.001下,拒絕虛無假設和推論總體模式是顯著的結論。
92
顯著性檢定 利用Z檢定用來判斷在總體模式顯著的情況下各別自變數是否顯著。
如果虛無假設為真,估計係數值以除以其標準誤來產生一標準常態機率分配。 H0:βi=0 Ha:βi≠0
93
在相同形式下,我們也拒絕H0:β2=0。因為對應Z值為2.47的p值為0.013 。因此在α=0.05的顯著水準下,兩自變數都是顯著的。
假設在α=0.05下檢驗Sim模型自變數的顯著性。自變數x1的Z值為2.66而對應的p值為0.008。因此在α=0.05的顯著水準下,拒絕H0:β1=0。 在相同形式下,我們也拒絕H0:β2=0。因為對應Z值為2.47的p值為0.013 。因此在α=0.05的顯著水準下,兩自變數都是顯著的。
94
管理上的使用 表15.12顯示年度開銷從$1000到7000,有或沒有Sim信用卡的顧客之估計機率。
我們已算出P(y=1|x1=2,x2=1)=0.4099和P(y=1|x1=2,x2=0)= ,這些機率指出,每年消費$2000的顧客如擁有Sim信用卡將增加使用折價券的機會。 表15.12顯示年度開銷從$1000到7000,有或沒有Sim信用卡的顧客之估計機率。
95
表15.12 Sim百貨估計機率值 年度開銷 $ $ $ $ $ $ $7000 有 無 信用卡
96
在表15.12估計的機率值中,以下為促銷策略 具有Sim信用卡的顧客:寄給去年消費超過$2000的每位顧客 沒有Sim信用卡的顧客:寄給去年消費超過$6000的每位顧客 沒有Sim信用卡而會消費的顧客,年度開銷為$5000的機率為 。因此, Sim公司或許會修正其策略將去年消費超過$5000但無Sim信用卡的顧客也包括在內。
97
解釋羅吉斯迴歸方程式 有利於事件發生的勝算(odds in favor of event occurring)定義為事件發生的機率除以事件未發生的機率。在羅吉斯迴歸的事件中y永遠等於1。 給定自變數一特殊集合值,有利於y=1的勝算計算如下: P(y=1|x1,x2,…,xp) P(y=1|x1,x2,…,xp) 勝算= = P(y=0| x1 ,x2,…,xp) 1-P(y=1|x1,x2,…,xp) (15.33)
98
勝算比(odds ratio)測量自變數增加一單位對於勝算的影響。勝算比為y=1於給定自變數增加一單位的勝算(odds1)除以y=1於給定自變數不變的情況下之勝算(odds2) 。
勝算比= (15.34)
99
例如,假設我們比較顧客購買的勝算,每年消費$2000且擁有sim信用卡(x1=2,x2=1)及每年消費$2000且沒有sim信用卡(x1=2,x2=0) 。我們有興趣解釋自變數x2增加一單位的效果。在此例 P(y=1|x1 =2 ,x2 = 1) Odds1= Odds0= 1-P(y=1|x1 =2 ,x2 = 1) P(y=1|x1 =2 ,x2 = 0) 1-P(y=1|x1 =2 ,x2 = 0)
100
0.4099 Odds1的估計值= = Odds0的估計值= = 0.1880 0.6946 0.2315 估計勝算比= = 3
101
不論其他自變數以何種常數值表示,當保持所有其他自變數不變時即可計算各自變數的勝算比。
推論:去年消費$2000且具有Sim信用卡的顧客消費之估計勝算是去年消費$2000且沒有Sim信用卡的顧客的3倍。 不論其他自變數以何種常數值表示,當保持所有其他自變數不變時即可計算各自變數的勝算比。
102
每個自變數在羅吉斯迴歸方程式中能表示為 以Sim自變數x1為例, x1的估計勝算比為 勝算比=e x2的估計勝算比為
β1 勝算比=e b1 0.3416 估計勝算比=e = e =1.41 b2 1.0987 估計勝算比=e = e =3
103
自變數的勝算比代表當保持其他自變數不變時,某自變數變動一單位的勝算改變。
假定欲知改變超過一單位(假設c單位)的效果,在Sim的例子中,我們想要比較每年消費$5000(x1=5)的顧客之勝算和每年消費$2000(x2 =2)的顧客消費之勝算。
104
結果指出每年消費$5000的顧客之估計勝算是每年消費$2000的顧客消費之估計勝算的2.79倍。
在此例中, c =5-2=3且其估計的勝算比為 結果指出每年消費$5000的顧客之估計勝算是每年消費$2000的顧客消費之估計勝算的2.79倍。 cb1 3(0.3416) 1.0248 e = e = e =2.79
105
如果勝算比為1,則兩事件的勝算相同。 如果我們認為某自變數事件發生有正面的效果,則勝算比會大於1。
106
Logit轉換 觀察y=1的有利勝算和羅吉斯迴歸方程式中的指數e之間的有趣關係,顯示如下
此方程式顯示y=1有利勝算的自然對數是自變數的線性函數。此線性函數稱為Logit ,以g( x1,x2,…,xp )標示。 ln(勝算)=β0+β1x1+β2x2+…+βpxp
107
以g(x1,x2,…,xp )替代式(15.27)中的β0+β1x1+β2x2+…+βpxp,可寫出羅吉斯迴歸方程式如下
logit g(x1,x2,…,xp )=β0+β1x1+β2x2+…+βpxp (15.35) g(x1,x2,…,xp ) e E(y) = (15.36) g(x1,x2,…,xp ) 1+e
108
一旦估計出羅吉斯迴歸方程式中的參數,將可計算logit的估計值。
^ g(x1,x2,…,xp )=b0+b1x1+b2x2+…+bpxp (15.37)
109
因此就估計的logit方面,估計的迴歸方程 式如下
b0+b1x1+b2x2+…+bpxp e ^ (y) = b0+b1x1+b2x2+…+bpxp 1+e ^ g(x1,x2,…,xp ) e = ^ g(x1,x2,…,xp ) 1+e (15.38)
110
以Sim百貨為例,估計的logit如下 估計的logit ^ g(x1,x2)= x x2
111
以及估計的迴歸方程式為 g(x1,x2) e (y) = g(x1,x2) 1+e -2.1464+0.3416x1+1.0987x2 e
^ g(x1,x2) e ^ (y) = ^ g(x1,x2) 1+e x x2 e = x x2 1+e
Similar presentations