Presentation is loading. Please wait.

Presentation is loading. Please wait.

第 14 章 簡單線性迴歸.

Similar presentations


Presentation on theme: "第 14 章 簡單線性迴歸."— Presentation transcript:

1 第 14 章 簡單線性迴歸

2 本章內容 14.1 簡單線性迴歸模型 14.2 最小平方法 14.3 判定係數 14.4 模型假設 14.5 顯著性檢定
14.1 簡單線性迴歸模型 14.2 最小平方法 14.3 判定係數 14.4 模型假設 14.5 顯著性檢定 14.6 利用估計迴歸方程式進行估計與預測 14.7 殘差分析:驗證模型假設 14.8 殘差分析:離群值及具影響力的觀察值

3 14.1 簡單線性迴歸模型 迴歸模型與迴歸方程式 估計迴歸方程式 第14章 簡單線性迴歸 第 頁

4 簡單線性迴歸模型 迴歸術語 例如 應變數 (dependent variable):想預測的變數。
自變數 (independent variable):用來預測應變數數值的變 數。 例如 在分析廣告費用對銷售額的影響時,行銷經理要預測的是 銷售額,所以銷售額為應變數;廣告費用則是用來預測銷 售額之自變數。以統計符號而言,y 表示應變數,而 x 表 示自變數。 第14章 簡單線性迴歸 第501頁

5 簡單線性迴歸模型 簡單線性迴歸:僅牽涉到單一自變數與單一應變數 ,而且兩變數間的關係近似直線。這種類型稱為簡 單線性迴歸 (simple linear regression)。 複迴歸分析:牽涉兩個或以上自變數的迴歸分析稱 為複迴歸分析 (multiple regression analysis) 。 第14章 簡單線性迴歸 第501頁

6 簡單線性迴歸模型 描述 y 與 x 及誤差項之關係的方程式,稱為迴歸 模型(regression model) 。 簡單線性迴歸模型
b0 及 b1為迴歸模型的參數 (parameter)。 ϵ 則為一隨 機變數,稱為誤差項。 y = b0 + b1x + ϵ 第14章 簡單線性迴歸 第501頁

7 簡單線性迴歸模型 簡單線性迴歸方程式 簡單線性迴歸方程式的圖形是一條直線 E(y) = 0 + 1x B0 為迴歸線的 y 截距
E(y)為對應特定 x 值之 y 的期望值或平均數。 E(y) = 0 + 1x 第14章 簡單線性迴歸 第502頁

8 簡單線性迴歸模型 正線性關係 E(y) x 迴歸線 截距 b0 斜率 b1 為正 第14章 簡單線性迴歸 第502頁

9 簡單線性迴歸模型 負線性關係 E(y) x 截距 b0 迴歸線 斜率 b1 為負 第14章 簡單線性迴歸 第502頁

10 簡單線性迴歸模型 無關係 E(y) x 迴歸線 截距 b0 斜率 b1 為 0 第14章 簡單線性迴歸 第502頁

11 估計的簡單線性迴歸方程式 估計簡單線性迴歸方程式 估計迴歸方程式的圖形被稱為估計迴歸線(estimated regression line)
b0 為 y 截距 b1 為斜率 是 E(y) 的點估計量 第14章 簡單線性迴歸 第503頁

12 估計迴歸方程式 第14章 簡單線性迴歸 第503頁

13 評註 不能將迴歸分析解釋為建立變數間因果關係的程 序,它僅能指出變數間如何相關及其相關的程度 。任何關於因果關係的結論,都必須根據最瞭解 該相關應用的人士的判斷而定。 簡單線性迴歸的迴歸方程式是 E(y) = β0 +β1x 。 進階的教科書在討論迴歸分析時常將迴歸方程式 寫成 E(y│x) = β0 +β1x,以強調迴歸方程式是在 已知特定 x 值下得到 y 的平均值。 第14章 簡單線性迴歸 第503頁

14 14.2最小平方法 最小平方法 (least squares method) 是利用樣本資料 算出估計迴歸方程式的方法。 最小平方法準則
其中 yi =應變數之第 i 個觀察值的實際值 =應變數之第 i 個觀察值的估計值 第14章 簡單線性迴歸 第 頁

15 最小平方法 估計迴歸方程式的斜率與 y 截距 其中 xi = 自變數的第 i 個觀察值 yi = 應變數的第 i 個觀察值
= 自變數的平均數 = 應變數的平均數 n = 觀察值的個數 第14章 簡單線性迴歸 第506頁

16 最小平方法實例 以亞曼披薩屋為例,說明最小平方法。假定資料來自 10 間 鄰近大學校園的分店。對於樣本中第 i 個觀察值或第 i 間餐 廳而言,xi 為學生人數 (單位:千人);yi 為每季銷售額 (單 位:$1000)。10 間餐廳之 xi 與 yi 值彙整於表 14.1。 我們可看到餐廳 1 之 x1=2 且 y1=58;即其鄰近學生人數為 人之校園且每季銷售額為 $58,000。餐廳 2 之 x2=6 且 y2=105,表示它鄰近學生人數為 6000 人之校園且每季銷售 額為 $105,000。銷售額最大的是餐廳 10,其鄰近學生人數 為 26,000 人之校園,每季銷售額為 $202,000。 第14章 簡單線性迴歸 第504頁

17 最小平方法實例 第14章 簡單線性迴歸 第504頁

18 最小平方法實例 圖 14.3 為表 14.1 之資料的散布圖,學生人數為橫軸,每季 銷售額為縱軸。迴歸分析的散布圖 (scatter diagrams) 係將 自變數 x 之值置於橫軸,應變數 y 之值置於縱軸繪製而成 。散布圖讓我們能由圖形來觀察資料,並得到變數間可能 關係的初步結論。 靠近學生人數愈多之校園餐廳,每季銷售額似乎愈高。再 者,由這些資料可發現學生人數與每季銷售額的關係近似 直線;的確,x 與 y 間似乎存在正向的直線關係。因此,我 們選擇簡單線性迴歸模型來表示學生人數與每季銷售額的 關係。這個選擇的接下來的任務即是利用表 14.1 的樣本資 料來決定估計簡單線性迴歸方程式中 b0 和 b1 的值。 第14章 簡單線性迴歸 第504頁

19 最小平方法實例 第14章 簡單線性迴歸 第505頁

20 最小平方法實例 對第 i 間餐廳而言,估計迴歸方程式為
其中 = 第 i 間餐廳每季銷售額的估計值 ($1000) b0= 估計迴歸線之 y 截距 b1= 估計迴歸線之斜率 xi= 第 i 間餐廳鄰近校園的學生人數 (千人)  以 yi 表示餐廳 i 每季銷售額的觀察 (實際) 值,而以式 (14.4) 中之 表示餐廳 i 銷售額的預測值,樣本中每間餐廳均有銷 售額的實際觀察值 yi 與估計值 。為了使估計迴歸線能非常 配適這些資料,我們希望銷售額的實際觀察值與預測值的 差距是小的。 第14章 簡單線性迴歸 第 頁

21 最小平方法實例 求算亞曼披薩屋的最小平方估計迴歸方程式時所需之部分 計算列於表 14.2。在此例子中,因有10 間餐廳 (觀察值), 故 n = 10。我們先計算 與 。 計算亞曼披薩屋之估計迴歸方程式中的斜率與截距 第14章 簡單線性迴歸 第 頁

22 最小平方法實例 第14章 簡單線性迴歸 第506頁

23 最小平方法實例 利用最小平方法得到的估計迴歸方程式為 圖14.4為此方程式的散布圖。
估計迴歸方程式的斜率 (b1=5) 為正,表示當學生人數 增加時,銷售額亦會增加。事實上,我們可得到結論 是(銷售額單位為 $1000,學生人數單位為千人):學生 人數每增加 1000 人,每季期望銷售額可提高 $5000; 換言之,我們預期每名學生可增加 $5 的銷售額。 第14章 簡單線性迴歸 第507頁

24 最小平方法實例 第14章 簡單線性迴歸 第507頁

25 最小平方法實例 如果我們相信最小平方估計迴歸方程式能適當地描 述 x 與 y 的關係,則利用估計迴歸方程式預估已知 的 x 值所對應的 y 值似乎是很合理的。例如,如果 我們要預測鄰近學生人數為 16,000 人校園的餐廳 的每季銷售額,可計算如下 因此,我們將預期此餐廳每季的銷售額為 $140,000 。 第14章 簡單線性迴歸 第 頁

26 評註 最小平方法提供可使應變數之實際觀測值 yi 與其估 計值 的差距平方和為最小之估計迴歸方程式,此 最小平方準則即是選擇可提供「最佳配適」(the best fit) 之方程式。若使用其他不同準則,例如, 使 yi 與 之絕對差距的總和為最小,將得到不同方 程式。實務上,最小平方法是最廣為使用的方法。 第14章 簡單線性迴歸 第508頁

27 14.3 判定係數 相關係數 第14章 簡單線性迴歸 第514頁

28 14.3 判定係數 SST、SSR 與 SSE 間的關係 SST = SSR + SSE 其中 SST = 總平方和 SSR = 迴歸平方和
第14章 簡單線性迴歸 第 頁

29 判定係數實例 我們為亞曼披薩屋的例子建立估計迴歸方程式 =60+5x 以近似學生人數 x 與每季銷售額 y 之間的線性關係。接下 來的問題是:此估計迴歸方程式與這些資料到底有多配適 ? 表 14.3 是亞曼披薩屋的誤差平方和計算過程。例如,對餐 廳 1 而言,自變數與應變數之值各為 x1 = 2 和 y1 = 58,利 用估計迴歸方程式,我們發現餐廳 1 的估計銷售額是 = (2) = 70。因此,對餐廳 1 而言,使用 估計 y1 而產 生的誤差是 y1- = 58-70 = −12 。誤差項的平方 (−12)2 = 144 列於表 14.3 的最後一欄。計算樣本中每一餐廳的殘差 項並取平方後,加總得到 SSE = 1530。因此,SSE = 可以用來衡量估計迴歸方程式 = x 預測銷售額時會 發生的誤差。 第14章 簡單線性迴歸 第514頁

30 判定係數實例 第14章 簡單線性迴歸 第515頁

31 判定係數實例 第14章 簡單線性迴歸 第515頁

32 判定係數實例 第14章 簡單線性迴歸 第516頁

33 判定係數實例 若已知其中兩個平方和,就可輕易求得第三個平方 和。以亞曼披薩屋為例,已知 SSE=1530 且 SST =15,730,因此求出式 (14.11) 中之 SSR,可得迴歸 平方和為 SSR=SST-SSE=15,730-1530=14,200 完美的配適 (a perfect fit):SSE = 0 最差的配適:SSR=0 且 SSE=SST 時 第14章 簡單線性迴歸 第516頁

34 判定係數 判定係數 其中 SSR = 迴歸平方和 SST = 總平方和 r2 = SSR/SST 第14章 簡單線性迴歸 第517頁

35 判定係數實例 亞曼披薩屋之例子的判定係數為
我們將判定係數以百分比表示時,r2 可被解釋為總平 方和中可由估計迴歸方程式解釋的百分比。就亞曼披 薩屋的例子而言,我們可得到的結論是:以估計迴歸 方程式 =60+5x 來預估銷售額時,可解釋總平方和 的 90.27%。 換言之,每季銷售額之變異的 90.27% ,可由學生人數 與銷售額間的線性關係來解釋。我們應該很高興發現 ,估計迴歸方程式能有如此好的配適度。 第14章 簡單線性迴歸 第517頁

36 樣本相關係數 其中 b1 = 估計迴歸方程式 之斜率
若估計迴歸方程式為正斜率 (b1>0),則樣本相關係數 之符號亦為正;但當估計迴歸方程式為負斜率時 (b1< 0),那麼樣本相關係數之符號則為負。 第14章 簡單線性迴歸 第517頁

37 樣本相關係數實例 以亞曼披薩屋為例,估計迴歸方程式 =60+5x 的判定係數值為 。既然估計迴歸方程式是正 斜率,由式 (14.13) 可知樣本相關係數為 =+0.9501。由於樣本相關係數 rxy= +0.9501,所 以我們可得到的結論是 x 與 y 間存在高度線性正相 關。 第14章 簡單線性迴歸 第517頁

38 評註 在建立最小平方估計迴歸方程式與計算判定係數 時,我們並未做任何對誤差項 ε 的機率假設,也 沒有對 x 與 y 間關係的顯著性進行統計檢定。r2 較大,只表示最小平方線與資料間的配適程度較 高;也就是說觀察值較接近最小平方線。然而, 僅使用 r2,我們無法得到 x 與 y 間的關係是否具 統計顯著性的結論。只能在考量樣本大小與最小 平方估計量之近似抽樣分配的特性後,方可獲得 上述結論。 第14章 簡單線性迴歸 第518頁

39 評註 從實務的觀點而言,社會科學的典型資料,判定 係數只要達 0.25 即被認為是相當有用的。但物 理與生命科學之資料,常可發現 0.60 甚至更大 的判定係數;事實上,有些案例的判定係數可能 在 0.90 以上。在商業的運用上,r2 差異甚大, 端視每個應用的特性而定。 第14章 簡單線性迴歸 第518頁

40 14.4 模型假設 y = β0 + β1x + ϵ 第14章 簡單線性迴歸 第521頁

41 關於迴歸模型中誤差項 ϵ 的相關假設 誤差項 ϵ 為隨機變數,平均數或期望值為 0;即 E(ϵ) = 0。
對所有 x 值而言, ϵ 之變異數 (表示為 σ2) 均相同 。 ϵ 值是互相獨立的。 誤差項 ϵ 為常態分配的隨機變數。 第14章 簡單線性迴歸 第521頁

42 關於迴歸模型中誤差項 ϵ 的相關假設 涵義 既然 β0 與 β1 為常數,E(β0) = β0 且 E(β1) =β1 ;因此 ,對已知的 x 值,y 之期望值為 E(y) = β0 + β1x 回歸線 y 的變異數變異數等於 σ2。而且對所有 x 值 此值均相同。 特定 x 值之 ϵ 與其他 x 值不相關的,因此特定 x 值對 應之 y 值亦與任何其他 x 值對應之 y 值無關。 因 y 為 ϵ 之線性函數,故對所有 x 值而言,y 亦為來 自常態分配的隨機變數。 第14章 簡單線性迴歸 第521頁

43 模型假設 第14章 簡單線性迴歸 第522頁

44 14.5 顯著性檢定 σ 2 的估計值 t 檢定 β1 的信賴區間 F 檢定 解釋顯著性檢定時的注意事項
第14章 簡單線性迴歸 第 頁

45 顯著性檢定 為檢定是否存在顯著的迴歸關係,我們必須進行 β1是否 為 0 的假設檢定。 兩種普遍被使用的檢定: t 檢定 F 檢定 與
有兩種常用的檢定方法,都必須先估計迴歸模型中ε的 變異數 σ2。 第14章 簡單線性迴歸 第521頁

46 σ2 的估計值 MSE 之值可做為 σ 2 的估計值,所以亦記作符號 s2 。 誤差均方 (σ 2 的估計值) 其中
第14章 簡單線性迴歸 第522頁

47 σ2 的估計值 為了估計 σ,我們取 s2 的平方根 所算出之 s 值稱為估計值的標準誤 (standard error of the estimate)。 估計值的標準誤 第14章 簡單線性迴歸 第523頁

48 b1 的抽樣分配 14.3 節已算出亞曼披薩屋的 SSE=1530,因此 這是 σ2 的不偏估計值。
第14章 簡單線性迴歸 第 頁

49 b1 的抽樣分配 期望值 標準差 分配形式:常態 第14章 簡單線性迴歸 第523頁

50 b1 的抽樣分配 b1 的估計標準差 第14章 簡單線性迴歸 第524頁

51 t 檢定 假設檢定 檢定統計量 第14章 簡單線性迴歸 第524頁

52 t 檢定 拒絕法則 其中,tα/2係依自由度 n −2 之 t 分配求得。 p 值法: 若 p 值 ≤ α,則拒絕 H0
若 t ≤ –tα/2 或若 t ≥ tα/2, 則拒絕 H0 臨界值法: 第14章 簡單線性迴歸 第524頁

53 t 檢定實例 假設亞曼披薩屋使用另 外 10 家不同餐廳組成之樣 本的銷售資料,此新樣本的迴歸分析得到新的估計 迴歸方程式,類似先前的估計迴歸方程式 =60+ 5x。然而,我們是否可得到完全相同的方程式 (截 距恰為 60,斜率恰為 5) 則非常值得懷疑。事實上 ,最小平方估計量 b0 與 b1 是有自己抽樣分配的樣 本統計量。 以亞曼披薩屋為例,s=13.829,因此利用表 的結果,可得: 做為 b1 的估計標準差。 第14章 簡單線性迴歸 第 頁

54 t 檢定實例 1. 建立假設檢定 2. 界定顯著水準 α = 0.01 3. 選擇統計檢定量 4. 宣告拒絕法則 拒絕 H0
1. 建立假設檢定 2. 界定顯著水準 α = 0.01 3. 選擇統計檢定量 4. 宣告拒絕法則 拒絕 H0 若 p 值 ≤ 0.01 或 | t | > (自由度為 10 – 2 = 8) 第14章 簡單線性迴歸 第 頁

55 t 檢定實例 t 值為 的右尾面積是 0.005。因此,對應於檢定統計量 t=8.62 的右尾面積必小於 0.005。由於此檢定為雙尾檢定, 我們將此值加倍後,可得到結論為與 t=8.62 相對應的 p 值 必小於 2(0.005)=0.01。Excel 顯示 p 值是 0.000。由於 p 值 <α = 0.01,所以拒絕 H0,結論是 β1 不等於 0。統計證據 已足夠讓我們得到以下的結論:學生人數與每季銷售額存 在顯著的關係。 5. 計算統計檢定量的值 6. 決定是否拒絕 H0 第14章 簡單線性迴歸 第524頁

56 β1 的信賴區間 我們可以以 t 分配利用 β1 的 95% 信賴區間來檢定 假設檢定
如果 β1 的檢定值並不在 β1的信賴區間內,則拒絕 H0 第14章 簡單線性迴歸 第525頁

57 β1 的信賴區間 β1 的信賴區間的形式如下: 信賴係數是1 − α , tα/2 是右尾面積為 α/2的 t 值,t 分配的自由度是 n − 2。 邊際誤差 b1是 點估計量 第14章 簡單線性迴歸 第525頁

58 β1 的信賴區間實例 例如,我們若要對亞曼披薩屋的 β1 的 99% 信賴區 間。由附錄 B 的表 2 可知,對應於 α =0.01及 n − 2=10 − 2=8 的自由度,t0.005=3.355。 因此,β1的 99% 信賴區間估計值是 或者是 3.05 到 6.95。 第14章 簡單線性迴歸 第525頁

59 β1 的信賴區間實例 在 α =0.01 的顯著水準下,我們也可以用 99% 信 賴區間對亞曼披薩屋的假設檢定提出結論。由於 β1 的假設值為 0,並不在信賴區間 3.05 到 6.95 之間 ,我們可以拒絕虛無假設 H0,得到的結論是:學 生人數與每季銷售額間的確有統計上的顯著關係。 一般而言,信賴區間可以用來檢定任何有關β1 的雙 尾檢定。如果 β1 的假設值落在信賴區間,就不拒 絕 H0,否則就拒絕 H0。 第14章 簡單線性迴歸 第525頁

60 F 檢定 假設檢定 統計檢定量 F = MSR/MSE 第14章 簡單線性迴歸 第526頁

61 F 檢定 拒絕法則 其中,Fα係依分子自由度為 1,分母自由度為 n-2的 F 分配求得。 p 值法: 若 p 值 ≤ α,則拒絕 H0
臨界值法: 若 F ≥ Fα,則拒絕 H0 第14章 簡單線性迴歸 第526頁

62 F 檢定實例 1. 建立假設檢定 2. 界定顯著水準 α = 0.01 3. 選擇統計檢定量 F = MSR/MSE 拒絕 H0
1. 建立假設檢定 2. 界定顯著水準 α = 0.01 3. 選擇統計檢定量 F = MSR/MSE 拒絕 H0 若 p 值 ≤ 0.01 或 F ≥ (自由度為 10 – 2 = 8) 4. 宣告拒絕法則 第14章 簡單線性迴歸 第 頁

63 F 檢定實例 5. 計算統計檢定量的值 F = MSR/MSE = 14,200/191.25=74.25 6. 決定是否拒絕 H0
5. 計算統計檢定量的值 F = MSR/MSE = 14,200/191.25=74.25 6. 決定是否拒絕 H0 F=74.25 的右尾面積必然小於 0.01。因此,我們亦可得到 p 值必小於 0.01 的結論。Excel 軟體顯示 p 值=0.000。因 p 值小於 α=0.01,故拒絕 H0 且可得到以下結論:學生人數與每季銷售額間存在顯著關係。 第14章 簡單線性迴歸 第 頁

64 F 檢定實例 第14章 簡單線性迴歸 第527頁

65 F 檢定實例 第14章 簡單線性迴歸 第527頁

66 解釋顯著性檢定時的注意事項 拒絕虛無假設 H0:β1=0 而得到 x 和 y 之間存在顯 著關係的結論,並不等於認定 x 與 y 間有因果關係 。只有分析人員可以根據某些理論上的證據來認定 關係具因果性時,才可確保因果關係的成立。 僅因可拒絕 H0:β1=0 並證明存在統計顯著性,並 不能認定 x 與 y 有線性關係。我們僅能說 x 與 y 有 相互關係,且在樣本中所觀察到的 x 範圍內,線性 關係解釋了大部分 y 的變異。 第14章 簡單線性迴歸 第527頁

67 解釋顯著性檢定時的注意事項 第14章 簡單線性迴歸 第528頁

68 評註 誤差項的相關假設 (14.4 節) 是本節進行顯著性檢 定的必要假設。根據這些假設,我們才能得到 b1 之抽樣分配的特性與之後的 t 檢定與 F 檢定。 不要將統計上的顯著性與實務上的顯著性混為一 談。當樣本數很大時,即使對很小的 b1 值亦可 能得到統計顯著的結果;我們在此情形下,必須 小心判斷此關係是否具實務的顯著性。 第14章 簡單線性迴歸 第528頁

69 評註 我們也可以利用樣本相關係數 rxy 來進行 x 與 y 間線性關係的顯著性檢定。令 ρxy 表示母體相關 係數,則檢定的假設如下:
H0:ρxy = 0 Ha:ρxy ≠ 0 若拒絕 H0,則結論是存在顯著關係。然而,本節介 紹的 t 檢定和 F 檢定的結果,與利用相關係數進 行顯著性檢定的結果相同。因此,已進行 t 檢定 或 F 檢定時,就不需再利用相關係數進行顯著性 檢定。 第14章 簡單線性迴歸 第528頁

70 14.6 利用估計迴歸方程式進行 估計與預測 區間估計 y 的平均數之信賴區間 個別 y 值的預測區間
第14章 簡單線性迴歸 第 頁

71 利用估計迴歸方程式進行估計與預測 E(y*) 的信賴區間 yp 的預測區間
其中,信賴係數為1− α,且 t/2 係由自由度 n − 2 的 t 分配查表而得。 第14章 簡單線性迴歸 第 頁

72 點估計實例 在亞曼披薩屋的例子中,對 x=10 (即 10,000 個學 生) 預測此間餐廳的每季銷售額為 即 $110,000。
第14章 簡單線性迴歸 第531頁

73 E(yp) 的信賴區間實例 x* = 自變數 x 的已知值 y* = 表示依變數 y 的可能值的隨機變數,當 x = x* 時
E(y*) = 依變數 y 的平均數或期望值,當 x = x* 時 = b0 + b1x* = E(y*)的點估計值,以及當 x = x* 時 y* 的個別值之預測量 第14章 簡單線性迴歸 第531頁

74 E(yp) 的信賴區間實例 估計 之變異數時的公式,記作 標準差的估計值,公式如下 第14章 簡單線性迴歸 第532頁

75 E(y*) 的信賴區間實例 求算學生人數 10,000 人之校園的所有亞曼披薩屋平均每季 銷售額的 95% 信賴區間時,需要知道對應於α/2=0.025 與 自由度為 n-2=10-2=8 之值。查附錄 B 的表 2,可得 tα/2 =2.306。 以美元來表示為 $110,000 ± $11,415。因此,當學生人數是 10,000人時,每季平均銷售額的信賴區間估計值為 $98,585 至 $121,415。 110  = $ 至 $ 第14章 簡單線性迴歸 第532頁

76 E(y*) 的信賴區間實例 第14章 簡單線性迴歸 第533頁

77 個別 y 值的預測區間估計實例 第14章 簡單線性迴歸 第534頁

78 個別 y 值的預測區間估計實例 利用 t0.025=2.306 與 spred=14.69,可求得鄰近 Talbot 學院之 亞曼披薩屋的季銷售額的 95%預測區間 以美元來表示,預測區間為 $110,000 ± $33,875或 $76,125 至 $143,875。注意:相較於鄰近學生人數 10,000 人之校園 的所有餐廳平均季銷售額的信賴區間,鄰近 Talbot 學院的 新餐廳的預測區間較寬。此差異反映的是,比起預測 y 的 個別值,預測 y 之平均數會比較準確。 110  = 至 第14章 簡單線性迴歸 第534頁

79 評註 預測區間用來預測對應新的觀察值的應變數 y 的值 。如前述說明如何為鄰近有 10,000 名學生校園的 亞曼新餐廳之季銷售額建立預測區間。x = 10 不在 表 14.1 的亞曼餐廳樣本資料中,這並不意味著不 能為樣本資料中的 x 值建立預測區間。但是,為表 的 10 間餐廳的任何一間建立季銷售額的預測 區間是沒有意義的,因為我們已經知道這 10 家餐 廳的真正銷售額。換言之,對某些新的,或以此例 而言是對於不一定在樣本資料中的某特定 x 值的新 觀察值而言,預測區間才有意義。 第14章 簡單線性迴歸 第535頁

80 14.7 殘差分析:驗證模型假設 x 的殘差圖 的殘差圖 標準化殘差 常態機率圖 第14章 簡單線性迴歸 第 頁

81 殘差分析:驗證模型假設 殘差分析 (residual analysis) 是判定假設之迴歸模 型是否適當的主要工具。
所如果這些關於誤差項 ϵ 的假設有問題的話,有關 迴歸關係顯著性的假設檢定與區間估計的結果就可 能是無效的。 殘差值提供有關 ϵ 的最佳訊息,因此殘差分析是決 定的假設是否恰當的重要步驟。 第 i 個觀察值的殘差 殘差分析大多以圖形檢查為基礎。 第14章 簡單線性迴歸 第538頁

82 殘差分析:驗證模型假設 關於誤差項 ϵ 的假設 E(ϵ)=0。 ϵ 之變異數,表示為 σ2,對所有 x 值均相同。 ϵ 值互相獨立。
誤差項 ϵ 服從常態分配。 第14章 簡單線性迴歸 第538頁

83 殘差分析:驗證模型假設 第14章 簡單線性迴歸 第538頁

84 殘差分析:驗證模型假設 第14章 簡單線性迴歸 第539頁

85 對應 x 值的殘差圖 幾種殘差圖的形式,若對所有的 x 值
ϵ 之變異數均相等的假設成立且此一迴歸模型可充分表達兩變數間的關係,則殘差圖應呈現類似水平帶狀的圖形,如圖 中之圖 A。 ϵ 的變異數並不完全相同,例如,當 x 值較大時,對迴歸線的變異亦較大的話,將會看到類似圖 的圖 B,此時,ϵ 的變異數固定的假設並不成立。 另一種可能的殘差圖如圖 C 所示,此時,可得結論 為:所假設的模型並不適合表示變數間的關係。我們應考慮曲線 (curvilinear) 迴歸模型或複迴歸模型。 第14章 簡單線性迴歸 第539頁

86 對應 x 值的殘差圖 (圖14.11(A)) 良好模式 殘差 x 第14章 簡單線性迴歸 第540頁

87 對應 x 值的殘差圖 (圖14.11(B)) 變異數不為常數 殘差 x 第14章 簡單線性迴歸 第540頁

88 對應 x 值的殘差圖 (圖14.11(C)) 迴歸模式不適當 殘差 x 第14章 簡單線性迴歸 第540頁

89 對應 x 值的殘差圖實例 回到圖 亞曼披薩屋的殘差圖。這些殘差近似 圖 中圖 A 之水平形式,因此我們可以得到的 結論是:此殘差圖並未提供足以對亞曼披薩屋迴歸 模型所做之假設產生質疑的證據。因而,我們對於 結論可以有信心,結論是:亞曼披薩屋的簡單線性 迴歸模型是有效的。 第14章 簡單線性迴歸 第 頁

90 對應 值的殘差圖 另一種殘差圖的橫軸是應變數 的預測值,縱軸是 殘差值。每個殘差值在圖形上以一個點來表示。。
對應 值的殘差圖 另一種殘差圖的橫軸是應變數 的預測值,縱軸是 殘差值。每個殘差值在圖形上以一個點來表示。。 圖 是殘差圖。圖 的形式與對應 x 的殘 差圖相同。此形式讓我們不必質疑模型假設的有效 性。對簡單線性迴歸而言,對應 的殘差圖與對應 x 的殘差圖提供相同訊息。對複迴歸分析而言,由 於出現一個以上的自變數,所以我們較常使用對應 的殘差圖。 第14章 簡單線性迴歸 第541頁

91 對應 值的殘差圖 第14章 簡單線性迴歸 第541頁

92 標準化殘差 大部分電腦軟體提供的殘差圖是使用標準化殘差。 我們在前幾章談過,可以將隨機變數減去平均數再 除以其標準差,即將隨機變數標準化。運用最小平 方法,殘差的平均值是 0 。因此,只要將每個殘差 除以其標準差就可得到標準化殘差 (standardized residual) 。 第14章 簡單線性迴歸 第541頁

93 標準化殘差 第 i 個殘差的標準差 其中 第 i 個觀察值的標準化殘差 s = 估計值的標準誤 第14章 簡單線性迴歸 第 頁

94 標準化殘差 第14章 簡單線性迴歸 第542頁

95 標準化殘差 第14章 簡單線性迴歸 第543頁

96 常態機率圖 另一個決定「誤差項是常態分配」的假設是否有效 的方法為常態機率圖(normal probability plot) 。為 了說明如何繪製常態機率圖,我們先介紹常態分數 (normal scores) 的概念。 假定我們由平均數 0、標準差 1 的常態機率分配中 隨機抽取 10 個值,並將 10 個數由小到大排列,而 且抽樣過程不斷重複。我們現在只考慮每組樣本中 的最小值。表示重複抽樣過程中每組樣本的最小值 的隨機變數稱一階統計量 (first-order statistic)。 第14章 簡單線性迴歸 第543頁

97 常態機率圖 統計學家已證明,對於來自標準常態機率分配,樣 本大小為 10 的隨機樣本而言,一階統計量的期望 值是−1.55。這個期望值稱為常態分數。如果樣本 大小為 10,就有 10 階的統計量,以及 10 個常態 分數 (見表 14.9)。一般而言,如果資料集有 n 個觀 察值,就有 n 階統計量及 n 個常態分數。 第14章 簡單線性迴歸 第543頁

98 常態機率圖實例 我們現在要說明,如何用 10 個常態分數來決定亞曼披薩屋 的標準化殘差是否來自標準常態機率分配。先將表 14.8 的 10 個標準化殘差排序,並將排序後的標準化殘差及常態分 數都列於表 14.10。若常態分配的假設成立,最小的標準化 殘差應該很接近最小的常態分數,次小的標準化殘差應該 很接近次小的常態分數,依此類推。 若以常態分數為橫軸,對應的標準化殘差為縱軸,在圖上 以點表示,如果標準的亞曼披薩屋之常態分數及排序後標 準化殘差趨近常態分配時,資料點應聚集在通過原點呈 45 度的直線附近。此圖形排序後稱為常態機率圖 (normal probability plot) 。 第14章 簡單線性迴歸 第543頁

99 常態機率圖實例 第14章 簡單線性迴歸 第543頁

100 常態機率圖實例 圖 是亞曼披薩屋的常態機率圖。我們要判斷 圖形與 45 度線的偏差,是否足以讓我們認為標準 化殘差不是來自標準常態機率分配。圖 的點 十分靠近 45 度線,因此我們的結論是「誤差項呈 常態分配的假設」是合理的。 通常,點愈靠近 45 度線,支持常態分配假設的證 據就愈強。任何常態機率圖若呈現相當程度的彎曲 ,即為殘差項不是常態分配的證據。利用 Minitab 之類的統計軟體可以輕易得到常態分數與對應的常 態機率圖。 第14章 簡單線性迴歸 第 頁

101 常態機率圖實例 第14章 簡單線性迴歸 第544頁

102 評註 我們用殘差及常態機率圖來驗證迴歸模型的假設是 否成立。如果檢驗的結果顯示,有一個或更多的假 設是有問題的,就應該考慮使用另一個迴歸模型或 者將資料的形式進行轉換。迴歸模型的假設不成立 時,該採取何種修正行動,需要分析人員的良好判 斷,經驗豐富的統計人員的建議是很有價值的。 殘差分析係統計學者用以驗證迴歸模型之假設是否 成立的最主要方法。即使在不違反任何假設之情形 下,亦不意謂此模型就能做出良好的預測。不過, 假如還有統計檢定能支持顯著關係存在的結論且判 定係數很大,則可藉由此估計迴歸方程式做出良好 的估計與預測。 第14章 簡單線性迴歸 第544頁

103 14.9 殘差分析:離群值及具影響力 的觀察值 偵測離群值 偵測具影響力的觀察值 第14章 簡單線性迴歸 第 頁

104 偵測離群值 圖 是有一個離群值 (outlier) 的資料集的散布 圖。所謂離群值是指不符合其餘資料所表現的趨勢 之資料點 (觀察值) 。 離群值代表值得懷疑或須經仔細檢查的觀察值。它 可能是錯誤的資料,若是如此,此資料應被更正。 它們也可能意味著模型的假設不成立;若是如此, 則應考慮其他模型。 最後,它們也可能僅是偶爾發生的不尋常值,在此 情形下,則應該被保留。 第14章 簡單線性迴歸 第546頁

105 偵測離群值 第14章 簡單線性迴歸 第546頁

106 偵測離群值實例 為了說明偵測離群值的過程,我們考慮表 的 資料集;圖 為資料集的散布圖。除了第四個 觀察值 (x4=3, y4=75) 外,其餘資料明顯表現出負 線性相關的形式。 標準化殘差來偵測離群值。如果一個觀察值大幅偏 離其他資料所呈現的圖形 (如圖 的離群值), 則所對應的標準化殘差的絕對值將很大。許多電腦 軟體會自動標示出標準化殘差的絕對值很大的觀察 值。 第14章 簡單線性迴歸 第546頁

107 偵測離群值實例 第14章 簡單線性迴歸 第546頁

108 偵測離群值實例 第14章 簡單線性迴歸 第547頁

109 偵測具影響力的觀察值 圖 是簡單線性迴歸中有具影響力的觀察值 (influential observation) 的例子。此估計迴歸線有 負斜率。然而,若將資料集的具影響力的觀察值剔 除,則估計迴歸線的斜率會由負為正,而且 y 截距 會變小。很明顯地,對於決定估計迴歸線,此觀察 值比起其他觀察值更具影響力。 自變數若擁有極端觀察值時,稱為高槓桿點 (high leverage points) 。圖 14.17的具影響力觀察值就是 高槓桿點。 第14章 簡單線性迴歸 第547頁

110 偵測具影響力的觀察值 第14章 簡單線性迴歸 第548頁

111 偵測具影響力的觀察值 第 i 個觀察值的槓桿作用 111 第14章 簡單線性迴歸 第547頁

112 偵測具影響力的觀察值實例 圖 是表 資料集的散布圖,我們可發現 第 7 個觀察值 (x = 70,y =100) 具極端 x 值,因而 我們預期它將被認定為高槓桿點。 第14章 簡單線性迴歸 第548頁

113 偵測具影響力的觀察值實例 第14章 簡單線性迴歸 第548頁

114 偵測具影響力的觀察值實例 就此觀察值而言,使用式 (14.33) 可計算槓桿作用 如下 第14章 簡單線性迴歸 第548頁

115 評註 一旦高殘差值或高槓桿作用使某個觀察值被認定可 能具有重大影響力,我們就該評估它對估計迴歸方 程式的影響。進階的教科書會討論如何進行此種評 估。然而,若不熟悉這些進階方法,最簡單的程序 乃是在剔除此觀察值前後,各進行迴歸分析程序。 雖然耗費時間,但可看出此觀察值對結果的影響。 第14章 簡單線性迴歸 第548頁

116 End of Chapter 14


Download ppt "第 14 章 簡單線性迴歸."

Similar presentations


Ads by Google