Chapter 14 Simple Linear Regression
Regression terminology 應變數(dependent variable): the variable being predicted 被預測的變數。 自變數(independent variable): the variable being used to predict the value of the dependent variable 用來預測應變數的變數。 例:分析廣告費用對銷售額的影響,以銷售額為應變數(y) ,廣告費用則是用來預測銷售額的自變數(x)。
Regression terminology 迴歸分析(regression analysis): 用來發展描述兩變數間關係之方程式。 簡單線性迴歸(simple linear regression) : 僅牽涉到單一自變數與單一應變數,而且兩變數間的關係近似一條直線。 複迴歸分析(multiple regression analysis ): 牽涉兩個以上自變數的迴歸分析。
Simple Linear Regression Model 教材14.1 Simple Linear Regression Model Blackman’s breakfast 是一家在12個縣市均有連鎖的早餐店。其最成功的據點均鄰近中小學校園。 管理者相信,早餐店的每季銷售額(y)與學生人口(x)有正向的關係。換言之,鄰近學生人數多的校園分店比起學生人數少的校園分店應有更高的銷售量。 每間分店有其x值(學生人數)及其對應之y值(每季銷售額),描述此y與x及誤差項關係之方程式,稱為迴歸模型(regression model)。 Back
Simple Linear Regression Model y = βo + β1x + ε x 應變數 常數 自變數 誤差項 係數
Simple Linear Regression Equation Blackman’s breakfast 所有連鎖早餐店構成的母體可以視為是針對某個特定的x值(學生人數)而形成的次母體。 例:某個次母體是由座落在學生人數3000人學校旁的Blackman’s breakfast 連鎖早餐店所構成。對於這個次母體之銷售額y會有一個y的分配。每個y分配都有自己的平均數或期望值E(y)。
Simple Linear Regression Equation E(y) = βo + β1x Figure 14.1 Possible regression lines E(y) E(y) E(y) Slope β1>0 β0 Slope β1<0 Slope β1=0 β0 β0 x x x 正線性關係 負線性關係 無關係
Estimated Simple Linear Regression Equation 計算樣本統計量(以bo 和 b1表示)作為參數βo和 β1的估計值。 y = bo + b1x ^
Figure 14.2 簡單線性迴歸的估計過程 Sample Data: x y x1 y1 x2 y2 ‧ ‧ xn yn ‧ ‧ xn yn Regression Model y = βo + β1x + ε Regression Equation E(y) = βo + β1x Unknown Parameters βo ,β1 Estimated Regression Equation y = bo + b1x Sample Statistics bo, b1 bo and b1 provide estimates of βo and β1 ^
Least Squares Method 最小平方法 教材14.2 Least Squares Method 最小平方法 最小平方法是利用樣本資料算出估計迴歸方程式的一種程序。 以Blackman’s breakfast為例 假定資料來自10間鄰近中小學校園的分店 xi是學生人數(單位:千人) yi為每季銷售額(單位:$1000)
Figure 14.3 Scatter Diagram of Blackman’s breakfast散佈圖 ● 180 ● 每季銷售額 ● ● 140 ● ● ● 100 ● ($1000) ● 60 ● 20 2 6 10 14 18 22 26 學生人數(千人)
Least Squares Method 最小平方法 對第i個餐廳而言,估計迴歸方程式為: yi = bo + b1xi 其中 yi =第i間早餐店每季銷售額的估計值($1000) bo= 估計回歸線之y截距 b1=估計回歸線之斜率 xi =第i間早餐店鄰近校園的學生人數(千人) ^
Least Squares Method 最小平方法 Least Squares Criterion minΣ(yi - yi)2 其中 yi=應變數之第i個觀察值的實際值 yi =應變數之第i個觀察值的估計值 ^ ^
Least Squares Method 最小平方法 估計迴歸方程式的斜率與y截距 xi(yi) =自(應)變數的第i個觀察值 x(y) =自(應)變數的平均數 n =觀察值的個數 Σxiyi-(ΣxiΣyi)/n Σ(xi-x)(yi-y) or = b1= Σ(xi-x)2 Σxi2-(Σxi)2/n bo= y - b1x 其中
Least Squares Method 最小平方法 求算Blackman’s breakfast的最小平方估計迴歸方程式: x = = 14 y = =130 b1= = = 5 bo= y - b1x = 130 - 5(14) = 60 → y = 60 + 5x Σxi Σyi n n Σ(xi-x)(yi-y) 2840 Σ(xi-x)2 568 ^
Figure 14.4 Graph of the estimated regression equation for Blackman’s breakfast ● 180 ● 每季銷售額 ^ y = 60 + 5x ● ● 140 ● ● ● 100 ● ($1000) ● 60 ● 20 2 6 10 14 18 22 26 學生人數(千人)
判定係數(coefficient of determination) 判定係數:作為估計迴歸方程式之適合度的衡量指標 第i個殘差(i th ) :應變數之觀測值yi與估計值yi間的差距,殘差為yi-yi 誤差平方和(sum of squares due to error):殘差值之平方和是最小平方法中欲使其最小的數值,記為SSE SSE=Σ(yi-yi)2 ^ ^ ^
總平方和(total sum of squares,SST):使用樣本平均數估計樣本中的誤差項平方和 SST=Σ(yi-yi)2 迴歸平方和(sum of squares due to regression,SSR):為衡量迴歸線上y與y的差距所計算的平方值 SSR=Σ(yi-yi)2 以上三個平方和間的關係是統計上的重要結果: SST=SSR+SSE ^ ^
以之前的亞曼披薩屋為例,計算出10間餐廳的SSE=1530,SST=15730,可得出SSR為15730-1530=14200 若每個應變數都剛好在估計迴歸線上,估計迴歸方程式將提供完美的配適 此時,每個yi-yi=0,使SSE=0 由此可知,完美的配適: 1.SSR=SST 2.SSR/SST=1 ^
SSR/SST的值會介於0到1之間 評估迴歸方程式的適合度,此比例稱“判定係數”,以r2表示 r2=SSR/SST 就亞曼的例子而言,其判定係數為14200/15730=0.9027 結論:以估計迴歸方程式y=60+5x預估銷售額時,可解釋總平方和的90.27%
^ y = 60 + 5x 亞曼披薩屋之估計迴歸線與y = y 線的差距 每季銷售額 學生人數(千人) ^ y10 – y10 ● ^ y10 – y10 180 y10 – y ● ^ y10 - y 每季銷售額 ^ y = 60 + 5x ● ● 140 ● ● ● y = y = 130 100 ● ($1000) ● 60 ● 20 2 6 10 14 18 22 26 學生人數(千人)
相關係數(correlation coefficient) 相關係數可用來衡量x與y變數間線性的強度 必介於-1與+1之間 樣本相關係數: rxy=(sign of b1) coefficient of determination =(sign of b1) r2 其中,b1=估計迴歸方程式y =b0+b1x之斜率 ^
若方程式是正斜率(b1>0),則樣本相關係數符號亦為正;反之亦然 承亞曼屋之例,該方程式之判定係數為0.9027,可得其樣本相關係數為+ 0.9027 =+ 0.9501 結論:x與y存在高度線性正相關 判定係數的應用較樣本相關係數廣泛,是由於樣本相關係數只解釋兩變數間線性關係,但判定係數可解釋非線性關係或兩個以上獨立變數的關係
模型假設 在進行迴歸分析時,我們是先假設自變數與應變數間的關係適合此模型 檢定關係的顯著性是決定假設模型是否合適的一個重要步驟 迴歸分析中的顯著性檢定是根據下列有關誤差項ε的假設而來的:
關於迴歸模型分析中誤差項ε的相關假設: y=β0+β1x+ε 1.誤差項ε為平均數或期望值為0的隨機變數;即E(ε)=0 既然β0與β1為常數, E(β0)=β0且E(β1)=β1,因此,對已知的x值,y值之期望值為E(y) =β0+β1x 2.對所有x值而言,ε之變異數(表示為σ2)均相同 對特定x值所對應的y值,變異數等於σ2。且對所有x值而言,此值均相同
3. ε值是互相獨立的 特定x值之ε與其他x值之ε是不相關的,因此特定x值對應之y值亦與任何其他x值對應之y值無關 4.誤差項ε為來自常態分配的隨機變數 因y為ε之線性函數,故y亦為來自常態分配的隨機變數
迴歸模型的假設 E(y) =β0+β1x 圖A 當x=20時,y之分配 當x=30時,y之分配 當x=10時,y之分配 當x=10時的E(y) 當x=0時的E(y) β0 x= 0 x=10 E(y) =β0+β1x x=20 當x=30時的E(y) x=30 當x=20時的E(y) ps. 對每個x值而言,y分配之形狀相同 x
圖A為模型假設及其涵義 在圖中, E(y)值隨著x值而變。而不管x值為何,ε與y之機率分配均為具相同變異數的常態分配 在特定點的誤差項ε之值,視y的實際值大於或小於E(y)而定
顯著性檢定 E(y)=β0+β1x →若β1=0,y的平均數與x無關,則x與y不 存在線性相關。 →若β1≠0,可說此兩變數是相關的。 →為檢定是否存在顯著的迴歸關係,必須進行β1是否為0的假設檢定
σ2 的估計值 ^ SSE =Σ(yi - yi)2 =Σ(yi - b0 - b1xi)2 誤差均方(σ2 的估計值) s2 = MSE = →這是σ2的不偏估計值 SSE n - 2
σ2 的估計值 為了估計σ,我們取s2的平方根,算出的s 值稱為估計值的標準誤。 估計值的標準誤 S = MSE = SSE n - 2
t 檢定 簡單線性迴歸模型y=β0+ β1x+ε →若x和y呈線性相關,可知β1≠0。 t 檢定的目的就在確認是否可獲得β1≠0的結論。 我們運用樣本資料檢定關於參數β1的假設: H0:β1 =0 Ha:β1≠0
t 檢定 b1的抽樣分配 期望值:E(b1) = β1 →b1的期望值等於β1,故b1為β1的不偏估計值 標準差: σb1 = 分配形式:常態 σ Σ(xi - x)2
t 檢定 由於σ值未知,所以用s值來估計σ,再求出σb1的估計值,記作 sb1。 b1的估計標準差 sb1 = s Σ(xi - x)2
利用 t 檢定檢驗簡單線性迴歸的顯著性 H0:β1 =0 Ha:β1≠0 檢定統計量 t = 拒絕法則 b1 P值法:若p≦α,則拒絕H0 臨界值法:若t ≦ -tα/2或t ≧ tα/2 ,則拒絕H0 其中, tα/2係依自由度n-2之t分配求得 b1 sb1
→由t分配表可得,自由度為n-2=8時,t值為3.355的右尾面積是0.005。 檢定亞曼披薩屋的變數間是否有顯著關係: 顯著水準是α=0.01,雙尾檢定 檢定統計量 t = = = 8.62 →由t分配表可得,自由度為n-2=8時,t值為3.355的右尾面積是0.005。 →由於此檢定為雙尾檢定,我們將此值加倍後,可知與t=8.62相對應的p < 0.005*2=0.01 →reject H0 β1≠0 ,學生人數與銷售額存在顯著的關係 b1 5 sb1 0.5803
β1的信賴區間 β1的信賴區間形式如下: b1 ± tα/2 sb1 若要對亞曼披薩屋的β1建立99%的信賴區間,查表可得,對應於α=0.01以及n-2=8的自由度,t = 3.355 → β1的99%信賴區間估計值是 b1 ± tα/2 sb1 =5 ± 3.355(0.5803)=5 ± 1.95 或 3.05到6.95
β1的信賴區間 以 t 檢定做顯著性檢定時,檢定的假設是: H0:β1 =0 Ha:β1≠0 →學生人數與銷售額間有統計上的顯著關係。
F 檢定 如果只有一個自變數,在檢定迴歸關係顯著性時,F檢定與t檢定的結論相同。
F 檢定 σ2的兩個估計值 (1)誤差均方MSE= (2)若H0:β1 =0為真 迴歸均方 MSR= = SSE n - 2 SSR SSR 迴歸自由度 自變數個數
利用 F 檢定檢驗簡單線性迴歸的顯著性 Ha:β1≠0 檢定統計量 F = 拒絕法則 P值法:若p≦α,則拒絕H0 臨界值法:若F≧ Fα ,則拒絕H0 其中, Fα係依分子自由度為1,分母自由度為n-2之F分配求得 MSR MSE
Figure14.5 簡單線性迴歸的ANOVA表的一般形式 變異來源 平方和 自由度 均方 F MSR SSR 迴歸項 SSR 1 MSR= F= 1 MSE SSE n - 2 MSE= 誤差項 SSE n - 2 總和 SST n - 1
→根據F分配表,分子自由度為1,分母自由度為n-2=8時,F=11.26的右尾面積是0.01。 →F=74.25的右尾面積小於0.01 檢定統計量 →根據F分配表,分子自由度為1,分母自由度為n-2=8時,F=11.26的右尾面積是0.01。 →F=74.25的右尾面積小於0.01 →P<0.01=α Reject H0 學生人數與銷售額間存在顯著關係 MSR 14200 F = = = 74.25 MSE 191.25
Figure14.6 亞曼的披薩屋的ANOVA表 變異來源 平方和 自由度 均方 F 14200 14200 =14200 迴歸項 14200 1 1 191.25 =74.25 1530 =191.25 8 誤差項 1530 8 總和 15730 9
解釋顯著性檢定時的注意事項 拒絕H0:β1 =0並得到x和y存在顯著關係的結論,並不等於認定x與y間有因果關係。
Figure14.7 非線性關係之線性近似的例子 y 實際關係 ^ y = b0+ b1x x x之最小值 x之最大值 可觀察到的x範圍
運用最小平方法,我們獲得估計的簡單線性迴歸方程式。 14.6利用估計迴歸方程式進行估計與預測 運用最小平方法,我們獲得估計的簡單線性迴歸方程式。 若結果顯示x與y間在統計上有顯著關係,而且估計迴歸方程式的適合度甚佳,則利用此估計迴歸方程式應該有助於進行估計與預測。
點估計 ˆ 在披薩屋一例中,估計迴歸方程式y=60+5x是學 生人數x與每季銷售額y間關係的估計。利用此 估計迴歸方程式來求算特定x值所對應y的平均 數之點估計值或者預測對應已知x值之單獨y值。 因此,對所有鄰近學生人數為10,000人(x= 10) 之校園的餐廳而言,平均每季銷售額的點估計 為y=60+5 (10) =110,即$110,000。 ˆ
區間估計 第一種型態的區間估計,信賴區間(confidence interval),係對一已知x值所對應之y平均數做區間估計。 第二種型態的區間估計,預測區間(prediction interval),則用於對一已知x值所對應之個別y值做區間估計。
Y之平均數的信賴區間估計 xp=自變數x的特定值或已知值 yp=對應於已知xp值的應變數y值 E(yp)=對應於已知xp值的應變數y值的平均數或期望值 ˆ yp= b0+ b1 xp=E(yp)的點估計值,當x=xp 通常,我們不能期望yp恰等於E(yp)。如果希望推論 有關yp與實際每季平均銷售額E(yp)的接近程度,則必 須估計yp的變異數。 ˆ ˆ ˆ
Syp=s2[ + ] Syp=s + ˆ 再給定的xp下,估計yp之變異數時的公式,記作Syp ,表示如下。 ( xP – x )2 Σ ( xi – x )2 1 n ̂ (14.22) ̂ Yp標準差的估計值為式(14.22)的平方根,公式如下。 (xP - x)2 Σ (xi - x)2 Syp=s + 1 n (14.23) ̂
14.5節披薩屋的計算結果顯示s=13.829。由於xp=10,x= 14以及Σ (xi- x)2=568,所以可由式(14.23)得到 Syp= + 1 10 (10-14)2 568 ̂ =13.829 .1282 =4.95
^ Yp ± ta/2sYp E(yp) 的信賴區間 其中,信賴係數為1-α,而ta/2則是自由度 n-2的t分配下之t值。 (14.24) 其中,信賴係數為1-α,而ta/2則是自由度 n-2的t分配下之t值。 使用(14.24)求算學生人數10,000人之校園的所有披薩屋平均每季銷售額的95%信賴區間時,需知道對應於a/2=0.025與自由度為n-2=10-2=8之值。
查附錄B的表2,可得 t0. 025=2. 306。因此,yp=110 與邊際誤差ta/2sYp=2. 306(4. 95)=11 ^ ^
Syp=s + =s √ 當xp=x 時,式(14.23)之yp的估計標準差將最小。此時,yp之估計標準差將變為 ^ ^ Syp=s + =s √ 1 n (x - x)2 Σ (xi - x)2 1 n ̂ 每當xp=x時,可得y之平均數的最佳或最精確估計值。而當xp偏離x愈遠時,y之平均數的信賴區間將變得愈寬。此情況表示於圖14.8。
圖14.8 已知學生人數x下,平均每季銷售額y的 信賴區間 ̂ y ̂ 220 上限 y=60+5x 200 ̂ 180 每季銷售額 下限 160 140 120 ($1,000) 信賴區間 上下限依 xp而定 100 80 60 當xp=x時, 信賴區間之 寬度為最小 40 X=14 20 x 0 2 4 6 8 10 12 14 16 18 20 22 24 26 學生人數(千人)
個別y值的預測區間估計 為了建立預測區間,我們必須先決定x= xp時,以yp估計個別y值時的變異數。此變異數係由下列兩部分所組成。 ^ 1. 個別y值相對於平均數E(yp)的變異數,此變異數的估計值已知為s2。 2. 利用yp估計E(yp)所產生的變異數,此變異數的估計值為syp。 ^ 2 ^
Yp個別值的變異數估計式,記作sind,可表示為 2 Yp個別值的變異數估計式,記作sind,可表示為 2 ^ sind =s2+ syp =s2+ s2[ + ] (xP - x)2 Σ (xi - x)2 1 n = s2 [1 + + ] (xP - x)2 Σ (xi - x)2 1 n (14.25) 因此, Yp個別值的標準差估計值為 sind = s 1 + + (xP - x)2 Σ (xi - x)2 1 n (14.26)
校園的某個餐廳每季銷售額預測值所對應的 估計標準差如下。 以披薩屋為例,鄰近學生人數10,000人之 sind = 13.829 1 + + (10-14)2 568 =13.829 1.1282 =14.69
yp的預測區間 ^ Yp ± ta/2 sind 其中,信賴係數為1-α,而ta/2則是自由度n-2的t分配查表而得。 (14.27) 其中,信賴係數為1-α,而ta/2則是自由度n-2的t分配查表而得。 利用t0.025=2.306與sind=14.69,可求得鄰近學院之披薩屋每季銷售額的95%預測區間。
^ 因為Yp =110,邊際誤差ta/2sind=2.306(14.69) =33.875 , 95%預測區間是 以美元來表示,預測區間為$76,125至$143,875。 注意,個別餐廳之預測區間較鄰近學生人數10,000人之校園的所有餐廳平均銷售額的信賴區間($98.585 至$121.415)寬。 110± 33.875
此一差異表示預測y之平均數將可較預測個別值更為準確。 在自變數xp=x時,信賴區間估計與預測區間估計的精準度都最高。 信賴區間與較寬之預測區間的一般情況顯示於圖14.9。
圖14.9 在已知學生人數x下,每季銷售額y 的信賴與預測區間 ̂ ̂ 220 y=60+5x 200 信賴 區間 上下限 預測區間更寬 ̂ 每季銷售額 180 160 140 ($1,000) 120 100 80 預測區間上下限 60 當xp=x時,兩種 區間之寬度為最窄 40 X=14 20 x 0 2 4 6 8 10 12 14 16 18 20 22 24 26 學生人數(千人)
殘差分析:驗證模型假設 殘差分析可幫助判定迴歸分析所作假設是否適當 第i個觀察值的殘差: yi-yi ,其中yi是應變數的第i個觀察值 , ^ ^
決定x與y間的關係是否顯著之t檢定與F檢定,及信賴區間與預測區間估計都是以下列假設為基礎: 1.E(ε)=0 2. ε之變異數,表示為σ2,對所有x值均相同 3. ε值互相獨立 4.誤差項ε服從常態分配 殘差分析多圖形檢查為基礎
以下為本次將會討論的殘差圖: 1.對應自變數x的殘差圖 2.對應應變數y預測值的殘差圖 3.標準化殘差圖 4.常態機率圖 ^
對應x值的殘差圖 以自變數x為橫軸,對應的殘差值為縱軸的圖 以下為三個迴歸研究的殘差圖: ^ y - y x 殘差 良好模式 圖A ● ● ● ● ● ● ● ● ● ● ● x 圖A
^ y - y x ^ y - y x 殘差 殘差 變異數不為常數 圖B 迴歸模式不適當 圖C ● ● ● ● ● ● ● ● ● ● ● ● 變異數不為常數 ● ● ● ● ● ● ● ● x 圖B ● ^ y - y ● ● ● ● ● ● ● ● ● 殘差 ● 迴歸模式不適當 ● ● ● ● ● ● ● x 圖C
對所有的x值而言,ε之變異數均相等的假設成立且此迴歸模型可充分表達兩變數間的關係,則殘差圖呈現類似水平帶狀的圖形,即圖(A) 對所有的x值而言,ε之變異數不完全相同(如x值較大,對迴歸線的變異較大) ,此時ε的變異數固定的假設不成立,如圖(B) 或圖(C) ,可得結論為:假設的模型不適合表示變數間的關係 考慮使用曲線迴規模型或複迴歸模型
披薩屋範例--對應自變數x的殘差圖 ^ y - y x 殘差 ● ● ● ● ● ● ● ● +20 +10 -10 ● -20 ● 2 4 ● ● ● -10 ● ● -20 ● x 2 4 6 8 10 12 14 16 18 20 22 24 26
對應y值的殘差圖 ^ 對簡單線性迴歸而言,對應y的殘差圖與對應x的殘差圖提供相同的訊息。
^ 披薩屋範例—相對於預測值y的殘差圖 ^ y - y x 殘差 ● ● ● ● ● ● ● ● +20 +10 -10 ● -20 ● ● ● ● -10 ● ● -20 ● x 60 80 100 120 140 160 180
√ 標準化殘差 標準化殘差(standardized residual):將每個殘差除以其標準差即可得 第i個殘差的標準差 syi -yi=s 1-hi ,其中, syi –yi=第i個殘差的標準差 s=估計值的標準誤 hi= + √ ^ ^ 1 (xi-x)2 n Σ(xi-x)2
標準化殘差圖可了解誤差項ε為常態分配的假設是否適當,若此假設成立,標準化殘差的分配應如同來自標準常態分配 ^ yi –yi 第i個觀察值的標準化殘差: 標準化殘差圖可了解誤差項ε為常態分配的假設是否適當,若此假設成立,標準化殘差的分配應如同來自標準常態分配 在檢視標準化殘差圖時,95%的標準化殘差應會落在-2與+2之間 syi –yi ^
披薩屋範例—相對於自變數x的標準化殘差圖 ^ y - y 標準化殘差 ● +2 ● ● ● +1 ● ● ● -1 ● ● -2 ● x 2 4 6 8 10 12 14 16 18 20 22 24 26
常態機率圖 常態分數:在平均數0、標準差1的常態分配中重複抽樣,每組樣本的最小值的隨機變數稱一階統計量。且實驗已證明樣本大小為10的隨機樣本,其一階統計量的期望值為-1.55,此期望值即稱為常態分數。 先將標準化殘差排序,此時最小的標準化殘差應接近最小的常態分數,並在圖上以點表示,若標準化殘差趨近常態分配,資料點應聚在過原點的45度直線附近。此即為常態機率圖。
披薩屋範例—常態機率圖 ^ y - y 標準化殘差 常態分數 +2 +1 -1 -2 -2 -1 +1 +2 ● ● ● ● ● ● ● ● ● ● -1 ● -2 -2 -1 +1 +2 常態分數
殘差分析:離群值及具影響力的觀察值 離群值(outlier) : (1)指不符合其餘資料所表現的趨勢之資料 點,代表值得懷疑或須經仔細檢查的觀察值。 (2)它可能是錯誤的資料→應被更正 可能意味模型的假設不成立→考慮其他模型 可能僅是偶爾發生的不尋常值→應被保留
有一個離群值的資料集 y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 離群值 ● ● ● ● ● x
偵測離群值 檢視散佈圖 y 80 ● 60 ● ● ● 40 ● ● ● ● ● 20 ● x 1 2 3 4 5 6
偵測離群值 標準化殘差 (1)如果一個觀察值大幅偏離其他資料所呈現的圖形,則所對應的標準化殘差的絕對值將很大。 (2)許多電腦軟體會自動標示出標準化殘差的絕對值很大的觀察值。
Minitab報表:有離群值的資料集之迴歸分析 The regression equation is Y=65-77.3X Predictor Coef SE Coef T P Constant 64.958 9.258 7.02 X -7.331 2.608 -2.81 0.023 S=12.67 R-sq=49.7% R-sq(adj)=43.4% Analysis of Variance SOURCE DF SS MS F P Regression 1 1268.2 1268.2 7.9 0.023 Residual Error 8 1284.3 160.5 Total 9 2552.5 Unusual Observations Obs X Y Fit SE Fit Residual St Resid 2.67R 4 3 75 42.97 4.04 32.03
偵測具影響力的觀察值 有時候,一個或以上的觀察值對結果有重大影響。 如果只有一個自變數,可藉由散佈圖確認具影響力的觀察值→可能是一個離群值,或其所對應的x值遠離平均數;或因上述兩個原因同時存在而造成。
資料集中具有影響力的觀察值 y 具有影響力的觀察值 (高槓桿點) ● ● ● ● ● ● ● ● ● ● x
第 i 個觀察值的槓桿作用 ( xi - x )2 1 hi = + n Σ( xi - x )2 → 一個觀察值的槓桿作用是藉由其自變數的 值距離平均數多遠來決定。 → xi距離平均數x愈遠,第i個觀察值的槓桿作用愈高。
第7個觀察值(70,100)具極端x值→高槓桿點 槓桿作用如下: 有高槓桿觀察值 的資料集 xi yi 10 15 20 25 70 125 130 120 115 110 100 第7個觀察值(70,100)具極端x值→高槓桿點 槓桿作用如下: ( x7 - x )2 1 h7 = + n Σ( x7 - x )2 1 ( 70 - 24.286 )2 + = = 0.94 7 2621.43
有高槓桿觀察值的資料集之散佈圖 y x 高槓桿觀察值 10 25 40 55 70 85 130 120 110 100 ● ● ● ● ●
有高槓桿觀察值的資料集之Minitab輸出報表 The regression equation is Y=127-0.425X Predictor Coef SE Coef T P Constant 127.466 2.961 43.04 X -0.42507 0.09537 -4.46 0.007 S=4.883 R-sq=79.9% R-sq(adj)=75.9% Analysis of Variance SOURCE DF SS MS F P Regression 1 473.65 473.65 19.87 0.007 Residual Error 5 119.21 23.84 Total 6 592.86 Unusual Observations Obs X Y Fit SE Fit Residual St Resid 1.91X 7 70 100 97.71 4.73 2.29
在簡單線性迴歸的例子中,Minitab視 hi>6/n是擁有高槓桿作用的點。 既然h7 = 0.94 >0.86,Minitab認為第7個觀察值是高槓桿點。 →在報表底部單獨印成一行,且在右邊註記X。
受到高殘差質與高槓桿作用的相互影響的具影響力觀察值可能很難被偵測出來。 →有某些診斷程序可同時考慮兩項因素以決定何種是具影響力的觀察值。 第15章將討論此種稱為庫克D ( Cook’s D )的統計量。