第 14 章 簡單迴歸.

Slides:



Advertisements
Similar presentations
工職數學 第四冊 第一章 導 數 1 - 1 函數的極限與連續 1 - 2 導數及其基本性質 1 - 3 微分公式 1 - 4 高階導函數.
Advertisements

©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
第 6 章 複迴歸之一.
單元九:單因子變異數分析.
Chapter 2 簡單迴歸模型.
圓的一般式 內容說明: 由圓的標準式展出圓的一般式.
期望值 變異數 共變異數與相關係數 變異數與共變異數之性質 柴比雪夫不等氏 動差與動差生成函數
圓的一般式 內容說明: 由圓的標準式展出圓的一般式.
資料分析:相關和迴歸 第十八章 「行銷研究人員必須持續檢視消費者認知和最終 購買決策之間的關係,因此,相關和迴歸技術為行
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
行銷研究 單元二 行銷研究的程序.
Keller: Stats for Mgmt & Econ, 7th Ed 簡單線性迴歸和相關分析
17 類別資料的分析  學習目的.
第 14 章 Logistic迴歸.
5.1 自然對數函數:微分 5.2 自然對數函數:積分 5.3 反函數 5.4 指數函數:微分與積分 5.5 一般底數的指數函數和應用 5.6 反三角函數:微分 5.7 反三角函數:積分 5.8 雙曲函數.
迴歸分析 主講人:童超塵 實驗室網址 永久: 實驗室網址 永久: 目前:
第五章 標準分數與常態分配 第一節 相對地位量數 第二節 常態分配 第三節 偏態與峰度 第四節 常態化標準分數 第五節 電腦習作.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
Simple Linear Regression -2
Simple Linear Regression -4
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
Chapter 14 Simple Linear Regression
11.1單一母體變異數的推論 前幾章中,我們以樣本變異數
第 7 章 複迴歸之二.
單一分配 Uniform distribution
相關與迴歸 Correlation and Regression
第 14 章 簡單線性迴歸.
複迴歸分析-2 Multiple Regression.
第 9 章 假設檢定 Part B ( ).
指導老師: 蘇明俊 老師 組長:潘翠娥 組員:張惠雅 葉麗華
Chapter 3 複迴歸分析: 估計.
複迴歸分析-1 Multiple Regression.
第十四章 單因子變異數分析 14.1 前言 14.2 單因子變異數分析理論 14.3 功能視窗 14.4 範例
統計學 指導老師: 郭燿禎 Date: 2/14/12.
第 13 章 實驗設計與變異數分析 Part A ( ).
第一章 直角坐標系 1-3 函數圖形.
第 7 章 推論方法.
估計與假設檢定.
第一章.
Definition of Trace Function
第 一 章 多元迴歸分析.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
小學四年級數學科 8.最大公因數.
第 15 章 複迴歸 © 滄海書局.
微積分網路教學課程 應用統計學系 周 章.
7-2 抽樣分配(sampling distribution)
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
圓的定義 在平面上,與一定點等距的所有點所形成的圖形稱為圓。定點稱為圓心,圓心至圓上任意一點的距離稱為半徑,「圓」指的是曲線部分的圖形,故圓心並不在圓上.
上課大綱 迴歸係數的區間估計與假設檢定 統計顯著性與經濟顯著性 迴歸模型中的點預測與區間預測 配適度分析(變異數分析)
第一章.
Chapter 4 迴歸分析. Chapter 4 迴歸分析 迴歸分析原理 迴歸分析的目的在於找出一條最能夠代表所有觀測資料(樣本點)的函數(迴歸估計式),用這個函數代表應變數和自變數之間的關係 多變量分析—管理上的應用.
Introduction to Basic Statistics
第 2 章 迴歸分析的推論.
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
第八章 銷售預測(2).
例題 1. 多項式的排列 1-2 多項式及其加減法 將多項式 按下列方式排列: (1) 降冪排列:______________________ (2) 升冪排列:______________________ 排列 降冪:次數由高至低 升冪;次數由低至高.
Linear Regression Analysis 5E Montgomery, Peck & Vining
第一章 直角坐標系 1-3 函數及其圖形.
4-1 變數與函數 第4章 一次函數及其圖形.
政治大學財政所與東亞所選修--應用計量分析--中國財政研究 黃智聰
第十四章:工作抽查 工作抽查:係在隨機時間進行大量觀測以分析工作的方法;其結果可用來有效訂定各操作的適當寬放、衡量機器和人員的操作情形及建立生產的標準時間;其數據的準確性,視觀測次數及隨機觀測所涵蓋的期間而定。 工作抽查的優點:p524。 工作抽查的理論:係依據機率的基本法則;公式如p 及例題14-1。。
單元三:敘述統計 內容: * 統計量的計算 * 直方圖的繪製.
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

第 14 章 簡單迴歸

統計實例 Alliance Data Systems(ADS)公司是 快速崛起的顧客關係管理(customer relationship management, CRM)產 業的一員。 ADS提供的行銷服務之一是設計目 錄及促銷活動。該公司的資料庫中 有超過一億名消費者的購買習慣紀錄,ADS可以利用資料庫來找出最可能對直接郵寄型錄的促銷活動感興趣的顧客名單。 Analytical Development Group運用迴歸分析建立模型,模型可用來衡量及預測消費者對直接郵寄型錄的促銷活動的反應。 本章就要介紹如何建立此類估計迴歸方程式。

第14章 簡單迴歸 14.1 簡單線性迴歸模型 14.2 最小平方法 14.3 判定係數 14.4 模型假設 14.5 顯著性檢定 第14章 簡單迴歸 14.1 簡單線性迴歸模型 14.2 最小平方法 14.3 判定係數 14.4 模型假設 14.5 顯著性檢定 14.6 利用估計迴歸方程式進行估計與預測 14.7 電腦解答 14.8 殘差分析:驗證模型假設

14.1 簡單線性迴歸模型 迴歸術語 例如 應變數 (y):想預測的變數 自變數 (x):用來預測應變數之數值的變數 14.1 簡單線性迴歸模型 迴歸術語 應變數 (y):想預測的變數 自變數 (x):用來預測應變數之數值的變數 例如 在分析廣告費用對銷售額的影響時,行銷經理要預測的是銷售額,所以銷售額為應變數;廣告費用則是用來預測銷售額之自變數。以統計符號而言,y 代表應變數,而 x 代表自變數。

簡單線性迴歸模型 簡單線性迴歸:僅牽涉到單一自變數與單一應變數,而且兩變數間的關係近似一條直線。這種類型稱為簡單線性迴歸(simple linear regression)。 複迴歸分析:牽涉兩個以上自變數的迴歸分析稱為複迴歸分析(multiple regression analysis)

簡單線性迴歸模型 描述y與x及誤差項之關係的方程式,稱為迴歸 模型(regression model) 簡單線性迴歸模型 其中: y = b0 + b1x +e 其中: b0 及 b1為迴歸模型的參數(parameter), e 則為一隨機變數,稱為誤差項。

簡單線性迴歸模型 簡單線性迴歸方程式 E(y) = 0 + 1x b0為迴歸線的 y 截距 b1 為斜率 簡單線性迴歸方程式的圖形是一條直線 b0為迴歸線的 y 截距 b1 為斜率 E(y)為對應特定 x 值之 y 的期望值或平均數。

簡單線性迴歸模型 正線性關係 E(y) x 迴歸線 截距 b0 斜率 b1 為正

簡單線性迴歸模型 負線性關係 E(y) x 截距 b0 迴歸線 斜率 b1 為負

簡單線性迴歸模型 無關係 E(y) x 迴歸線 截距 b0 斜率 b1 為 0

估計的簡單線性迴歸方程 估計的簡單線性迴歸方程 估計迴歸方程式的圖形被稱為估計迴歸線 b0 為 y 截距 b1 為斜率 是E(y)的點估計量

估計過程 樣本資料 迴歸模型 x y y = b0 + b1x +e 迴歸方程式 x1 y1 E(y) = b0 + b1x . . 未知參數 b0, b1 樣本資料 x y x1 y1 . . xn yn b0 和 b1分別作為 b0 和 b1的估計值 估計 迴歸方程式 樣本統計量 b0, b1

14.2 最小平方法 最小平方法 其中: yi =應變數之第 i 個觀察值的實際值 ^ yi =應變數之第 i 個觀察值的估計值

最小平方法 估計迴歸方程式的斜率與 y 截距

最小平方法 估計迴歸方程式的斜率與 y 截距 其中: xi =自變數的第 i 個觀察值 yi =應變數的第 i 個觀察值 _ n =觀察值的個數

最小平方法(實例) 以亞曼披薩屋為例說明最小平方法。假定資料來自10間鄰近大學校園的分店。對於樣本中第 i 個觀察值或第 i 間餐廳而言,xi 為學生人數(單位:千人);yi為每季銷售額(單位:$1,000)。10間餐廳之 x 與 y 值彙整於表14.1。 我們可看到餐廳1之 x1=2且 y1=58;即其鄰近學生人數為2,000人之校園且每季銷售額為$58,000。餐廳2之 x2=6且 y2=105,表示它鄰近學生人數為6,000人之校園且每季銷售額為$105,000。銷售額最大的是餐廳10,其鄰近學生人數為26,000人之校園,每季銷售額為$202,000。

最小平方法(實例)

最小平方法(實例) 圖14.3為表14.1之資料的散佈圖(scatter diagram),學生人數為橫軸,每季銷售額為縱軸。迴歸分析的散佈圖係將自變數 x 之值置於橫軸,應變數 y 之值置於縱軸繪製而成。散佈圖讓我們能由圖形來觀察資料,並得到變數間可能關係的初步結論。 靠近學生人數愈多之校園的餐廳,每季銷售額似乎愈高。再者,由這些資料可發現學生人數與每季銷售額的關係近似直線;的確,x與y間似乎存在正向的直線關係。因此,我們選擇簡單線性迴歸模型來表示學生人數與每季銷售額的關係。這個選擇的下個步驟即是利用表14.1的樣本資料來決定估計的簡單線性迴歸方程式中b0和b1的值。

最小平方法(實例) 對第 i 個餐廳而言,估計迴歸方程式為 其中  = 第i間餐廳每季銷售額的估計值($1,000) b0= 估計迴歸線之 y 截距 b1= 估計迴歸線之斜率 xi= 第 i 間餐廳鄰近校園的學生人數(千人)  以yi表示餐廳 i 每季銷售額的觀察(實際)值,而以式(14.4)中之 表示餐廳 i 之估計銷售額,如此樣本中每間餐廳均有銷售額的實際觀察值 yi與估計值 。為了使估計迴歸線能非常配適這些資料,我們希望yi與 間的差距很小。

最小平方法(實例) 求算亞曼披薩屋的最小平方估計迴歸方程式時所需之部分計算列於表14.2。在此例子中,因有10間餐廳(觀察值) 計算亞曼披薩屋之估計迴歸方程式中的斜率與截距

最小平方法(實例)

最小平方法(實例) 利用最小平方法得到的估計迴歸方程式為 圖14.4為此方程式的散佈圖。 利用最小平方法得到的估計迴歸方程式為 圖14.4為此方程式的散佈圖。 估計迴歸方程式的斜率(b1=5)為正,表示當學生人數增加時,銷售額亦會增加。事實上,我們可得到結論為(銷售額單位為$1,000,學生人數單位為千人):學生人數每增加1,000人,每季期望銷售額可提高$5,000;換言之,我們預期每名學生可增加 $5的銷售額。

最小平方法(實例) 如果我們相信最小平方估計迴歸方程式能適當地描述x與y的關係,則利用估計迴歸方程式預估已知的x值所對應的y值似乎是很合理的。例如,如果我們要預測鄰近學生人數為16,000人校園的餐廳的每季銷售額,可計算如下 因此,我們將預期此餐廳每季的銷售額為$140,000。

14.3 判定係數 SST、SSR與SSE間的關係 SST = SSR + SSE 其中: SST = 總平方和 SSR = 迴歸平方和 14.3 判定係數 SST、SSR與SSE間的關係 SST = SSR + SSE 其中: SST = 總平方和 SSR = 迴歸平方和 SSE = 誤差平方和

判定係數(實例) 在亞曼披薩屋的例子中,我們建立估計迴歸方程式 =60+5x以近似學生人數x與每季銷售額y之間的線性關係。接下來的問題是:此估計迴歸方程式與這些資料到底有多配適?

判定係數(實例)

判定係數(實例)

判定係數(實例) 若已知其中兩個平方和,我們就可輕易求得第三個平方和。以亞曼披薩屋為例,已知SSE=1530且SST=15730,因此解式(14.11)中之SSR,可得迴歸平方和為 SSR=SST-SSE=15730-1530=14200 完美的配適(a perfect fit):SSE = 0 最差的配適:SSR=0且SSE=SST時

判定係數 判定係數 r2 = SSR/SST 其中: SSR = 迴歸平方和 SST = 總平方和

判定係數(實例) 對亞曼披薩屋之例子而言,判定係數為 我們將判定係數以百分比表示時,r2可被解釋為總平方和中可由估計迴歸方程式解釋的百分比。就亞曼披薩屋的例子而言,我們可得到的結論是:「以估計迴歸方程式 =60+5x來預估銷售額時,可解釋總平方和的90.27%」。 換言之,每季銷售額之變異的90.27% 可由學生人數與銷售額間的線性關係來解釋。我們應該很高興發現估計迴歸方程式能有如此好的配適度。

樣本相關係數 其中: b1 = 估計迴歸方程式 若估計迴歸方程式為正斜率(b>0),則樣本相關係數之 符號亦為正;但當估計迴歸方程式為負斜率時(b<0), 那麼樣本相關係數之符號則為負。

樣本相關係數(實例) 以亞曼披薩屋為例,估計迴歸方程式 =60+5x的判定係數值為0.9027。既然估計迴歸方程式是正斜率,由式(14.13)可知樣本相關係數為 。由於樣本相關係數 rxy=0.9501,所以我們可得到的結論是x, y間存在高度線性正相關。

14.4 關於迴歸模型中誤差項ε的相關假設 1. 誤差項ε為平均數或期望值為0的隨機變數 14.4 關於迴歸模型中誤差項ε的相關假設 1. 誤差項ε為平均數或期望值為0的隨機變數 2. 對所有x值而言,ε之變異數(表示為σ2)均相同。 3. ε值是互相獨立的。 4. 誤差項ε為來自常態分配的隨機變數。

關於迴歸模型中誤差項ε的相關假設 涵義 1. 與 為常數 1.  與  為常數 2. 對特定x值所對應的 y 值,變異數等於σ2。而且對所有 x  值而言,此值均相同。 3. 特定 x 值之ε與其他 x 值之ε是不相關的,因此,特定 x值對應之 y 值亦與任何其他 x 值對應之 y 值無關。 4. 因 y 為ε之線性函數,故 y 亦為來自常態分配的隨機變數。

14.5 顯著性檢定 為檢定是否存在顯著的迴歸關係,我們必須進行β1是否 為 0 的假設檢定。 兩種普遍被使用的檢定: t 檢定 F 檢定 14.5 顯著性檢定 為檢定是否存在顯著的迴歸關係,我們必須進行β1是否 為 0 的假設檢定。 兩種普遍被使用的檢定: t 檢定 F 檢定 與 有兩種常用的檢定方法,都必須先估計迴歸模型中 e 的 變異數 s 2 。

顯著性檢定 s 2 的估計值 誤差均方(MSE)可作為 s 2 的估計值,所以亦記 作符號 s2。 s 2 = MSE = SSE/(n - 2) 其中:

顯著性檢定 s 的估計值 為了估計 s ,我們取 s 的平方根 所算出之 s 值稱為估計值的標準誤(standard error of the estimate) 

s 2 的估計值(實例) 14.3節已算出亞曼披薩屋的SSE=1530,因此 這是σ2的不偏估計值。

b1 的抽樣分配 期望值 標準差 分配形式: 常態 b1 的估計標準差

顯著性檢定: t 檢定 假設檢定 檢定統計量

顯著性檢定: t 檢定 拒絕法則 拒絕 H0 若 p-值 ≤ a 或 t ≤ -t或 t ≥ t 其中: t 係依自由度 n - 2 之 t 分配求得

顯著性檢定: t 檢定(實例) 假設亞曼披薩屋使用另10家不同餐廳組成之樣本的銷售資料,此一新樣本的迴歸分析得到一個新的估計迴歸方程式,類似先前的估計迴歸方程式 =60+5x。然而,我們是否可得到完全相同的方程式(截距恰為60,斜率恰為5)是非常值得懷疑的。事實上,最小平方估計量b0與b1是擁有自己抽樣分配的樣本統計量。 以亞曼披薩屋為例,s=13.829,因此,利用表14.2的結果: 作為b1的估計標準差。

顯著性檢定: t 檢定(實例) 1. 建立假設檢定 2. 界定顯著水準 a = 0.05 3. 選擇統計檢定量 拒絕 H0 1. 建立假設檢定 2. 界定顯著水準 a = 0.05 3. 選擇統計檢定量 拒絕 H0 若 p-值 ≤ 0.05 或 |t| > 3.355 (自由度為10-2=8) 4. 宣告拒絕法則

顯著性檢定: t 檢定(實例) 5. 計算統計檢定量的值 6. 決定是否拒絕 H0 t = 3.355 的右尾面積是0.005。 5. 計算統計檢定量的值 6. 決定是否拒絕 H0 t = 3.355 的右尾面積是0.005。 因此,對應於檢定統計量 t=8.62的右尾面積必小於0.005。 由於此檢定為雙尾檢定,我們將此值加倍後,可得到結論 為與t=8.62相對應的p值必小於0.005​×2=0.01。 Minitab或Excel顯示p值是0.000。由於p值<α =0.01,所 以拒絕H0,所得結論是 β不等於0。統計證據已足夠讓我 們得到以下的結論:學生人數與銷售額存在顯著的關係。

1 的信賴區間 我們可以以 t 分配利用1 的95%信賴區間來檢定 假設檢定 若1 的檢定值並不在1的信賴區間內,則拒絕H0

1 的信賴區間 1 的信賴區間的形式如下: 信賴係數是1- α ,t 是右尾面積為 tα/2的 t 值, t 分配的自由度是n-2。 是 邊際誤差 1 的信賴區間的形式如下: b1是 點估計量 信賴係數是1- α ,t 是右尾面積為 tα/2的 t 值, t 分配的自由度是n-2。

1 的信賴區間(實例) 例如,我們若要對亞曼披薩屋的 β1 建立99% 信賴區間。由附錄B的表2可知,對應於 α =0.01以及n-2=10-2=8的自由度,t0.005=3.355。 因此,β1的99% 信賴區間估計值是 b1± tα/2sb1=5 ± 3.355(0.5803)=5 ± 1.95 或者是3.05到6.95。

1 的信賴區間(實例) 在 α =0.01的顯著水準下,我們也可以用99% 信賴區間對亞曼披薩屋的假設檢定提出結論。由於 β1的假設值為0,並不在信賴區間3.05到6.95之間,我們可以拒絕虛無假設H0,得到的結論是,學生人數與銷售額間的確有統計上的顯著關係。 一般而言,信賴區間可以用來檢定任何有關 β1的雙尾檢定。如果 β1的假設值落在信賴區間,就不拒絕H0,否則就拒絕H0。

顯著性檢定: F 檢定 假設檢定 統計檢定量 F = MSR/MSE

顯著性檢定: F 檢定 拒絕法則 拒絕 H0 若 p-值 ≤ a 或 F ≥ F 其中: 係依分子自由度為1,分母自由度為n-2 的F分配求得。

顯著性檢定: F 檢定(實例) 1. 建立假設檢定 α = 0.05 2. 界定顯著水準 3. 選擇統計檢定量 F = MSR/MSE 1. 建立假設檢定 α = 0.05 2. 界定顯著水準 3. 選擇統計檢定量 F = MSR/MSE 4. 宣告拒絕法則 拒絕 H0 若 p-值 ≤ 0.05 或 F ≥ 74.24 (自由度為10-2=8)

顯著性檢定: F 檢定(實例) 5. 計算統計檢定量的值 F = MSR/MSE = 14200/191.25=74.25 6. 決定是否拒絕 H0 F=74.25的右尾面積必然小於0.01。 因此,我們亦可得到p值必小於0.01的結論。Minitab或Excel軟體顯示p值=0.000。因p值小於 α=0.01,故拒絕H0且可得到以下結論:「學生人數與銷售額間存在顯著關係」。

顯著性檢定: F 檢定(實例)

解釋顯著性檢定時的注意事項 拒絕虛無假設H0:β1=0並得到 x 和 y 存在顯著關係的結論,並不等於認定 x 與 y 間有因果關係。只有分析者人員可以根據某些理論上的證據來認定關係具因果性時,才可確保因果關係的成立。 僅因可拒絕H0:β1=0並證明存在統計顯著性,並不 能認定 x 與 y 有線性關係。我們僅能說 x 與 y 有相互 關係,且在樣本中所觀察到的 x 範圍內,線性關係解 釋了大部分 y 的變異。

解釋顯著性檢定時的注意事項

解釋顯著性檢定時的注意事項(實例)

14.6 利用估計迴歸方程式進行估計與預測 E(yp) 的信賴區間 yp 的預測區間 其中: 14.6 利用估計迴歸方程式進行估計與預測 E(yp) 的信賴區間 yp 的預測區間 其中: 信賴係數為1- α,且t/2係由自由度 n-2的 t 分配查表而得。

點估計(實例) 在亞曼披薩屋的例子中,對 x=10(即10,000個學生)預測此間餐廳的每季銷售額為 即$110,000。 ^ y =600 + 5(10) = 110

E(yp) 的信賴區間(實例)

E(yp) 的信賴區間(實例) 求算學生人數10,000人之校園的所有亞曼披薩屋平均每季銷售額的95%信賴區間,需要知道對應於α/2=0.025與自由度為n-2=10-2=8之值。查附錄B的表2,可得 tα/2 =2.306。 110  11.415 = $98.585 至 $121.415 以美元來表示,所有鄰近學生人數10,000人之校園的餐廳平均每季銷售額的95% 信賴區間為 $110,000 ± $11,415。因此,當學生人數是10,000人時,每季平均銷售額的信賴區間估計值為 $98,585至 $121,415。

個別y值的預測區間估計(實例)

Prediction Interval for yp 利用 t=2.306與 s=14.69,可求得鄰近Talbot學院之亞曼披薩屋每季銷售額的95% 預測區間 110  33.875 = 79.125 至 143.875 以美元來表示,預測區間為 $110,000 ± $33,875或 $76,125至 $143,875。注意,個別餐廳之預測區間較鄰近學生人數10,000人之校園的所有餐廳平均銷售額的信賴區間($98,585至 $121,415)寬。此一差異表示預測y之平均數將可較預測個別值更為準確。

14.7 電腦解答

14.8 殘差分析:驗證模型假設 如果這些關於誤差項 ε 的假設有問題的話,有關迴歸關 係顯著性的假設檢定與區間估計的結果就可能是無效的。 14.8 殘差分析:驗證模型假設 如果這些關於誤差項 ε 的假設有問題的話,有關迴歸關 係顯著性的假設檢定與區間估計的結果就可能是無效的。 殘差值提供有關ε的最佳訊息,因此殘差分析是決定ε 的假設是否恰當的重要步驟。 第 i 個觀察值的殘差 殘差分析大多以圖形檢查為基礎。

殘差分析:驗證模型假設 關於誤差項 ε 的假設 1. E(ε)=0。 2. ε 之變異數,表示為 σ2,對所有 x 值均相同 3. ε 值互相獨立。 4. 誤差項 ε 服從常態分配。

殘差分析:驗證模型假設(實例)

對應x值的殘差圖 幾種殘差圖的形式,若對所有的x值而言 ε 之變異數均相等的假設成立且此一迴歸模型可充分表達兩變數間的關係,則殘差圖應呈現類似水平帶狀的圖形,如圖14.12中之圖A。 ε 的變異數並不完全相同,例如,當x值較大時,對迴歸線的變異亦較大的話,將會看到類似圖14.12的圖B,此時,ε 的變異數固定的假設並不成立。 另一種可能的殘差圖如圖C所示,此時,可得結論為「所假設的模型並不適合表示變數間的關係」。我們應考慮曲線(curvilinear)迴歸模型或複迴歸模型。

對應x值的殘差圖(圖14.12(A)) 良好模式 殘差 x

對應x值的殘差圖(圖14.12(B)) 變異數不為常數 殘差 x

對應x值的殘差圖(圖14.12(C)) 迴歸模式不適當 殘差 x

對應x值的殘差圖(實例) 回到圖14.11亞曼披薩屋的殘差圖。這些殘差近似圖14.12中圖A之水平形式,因此我們可以得到的結論是「此殘差圖並未提供足以對亞曼披薩屋迴歸模型所做之假設產生質疑的證據」。因而,我們對於結論「亞曼例子的簡單線性迴歸模型是有效的」可以有信心。

對應 值的殘差圖 另一種殘差圖的橫軸是應變數 的預測值,縱軸是殘差值。每個殘差值在圖形上以一個點來表示。 對應 值的殘差圖 另一種殘差圖的橫軸是應變數 的預測值,縱軸是殘差值。每個殘差值在圖形上以一個點來表示。 圖14.13是殘差圖。我們發現圖14.13的形式與對應 x 的殘差圖相同。此形式讓我們不必質疑模型假設的有效性。對簡單線性迴歸而言,對應 y 的殘差圖與對應 x 的殘差圖提供相同的訊息。對複迴歸分析而言,由於出現一個以上的自變數,所以我們較常使用對應 y 的殘差圖。

標準化殘差 大部分電腦軟體提供的殘差圖是使用標準化殘差。我們在前幾章談過,可以將隨機變數減去平均數再除以其標準差,即將隨機變數標準化。運用最小平方法,殘差的平均值是0。因此,只要將每個殘差除以其標準差就可得到標準化殘差(standardized residual)。

標準化殘差

標準化殘差(實例)

標準化殘差(實例)

常態機率圖 另一個決定「誤差項是常態分配」的假設是否有效的方法是常態機率圖(normal probability plot)。為了說明如何繪製常態機率圖,我們先介紹常態分數(normal score)的概念。 假定我們由平均數0、標準差1的常態分配中隨機抽取10個值,並將10個數由小到大排列,而且抽樣過程不斷重複。我們現在只考慮每組樣本中的最小值。表示重複抽樣過程中每組樣本的最小值的隨機變數稱一階統計量(first-order statistic)。

常態機率圖 統計學家已證明,對於來自標準常態分配,樣本大小為10的隨機樣本而言,一階統計量的期望值是−1.55。這個期望值稱為常態分數。如果樣本大小為10,就有10階的統計量,以及10個常態分數(見表14.9)。一般而言,如果資料集有n個觀察值,就有n階統計量及n個統計分數。

常態機率圖(實例) 我們現在要說明,如何用10個常態分數來決定亞曼披薩屋的標準化殘差是否來自標準常態分配。先將表14.8的10個標準化殘差排序,並將排序後的標準化殘差及常態分數都列於表14.10。若常態分配的假設成立,最小的標準化殘差應該很接近最小的常態分數,次小的標準化殘差應該很接近次小的常態分數,依此類推。 若以常態分數為橫軸,對應的標準化殘差為縱軸,在圖上以點表示,如果標準化殘差趨近常態分配時,資料點應聚集在通過原點呈45度的直線附近。此圖形稱為常態機率圖(normal probability plot)。

常態機率圖(實例)

常態機率圖(實例) 圖14.15是亞曼披薩屋的常態機率圖。我們要判斷圖形與45度線的偏差是否足以讓我們認為標準化殘差不是來自標準常態機率分配。圖14.15的點十分靠近45度,因此,我們的結論是「誤差項呈常態分配的假設」是合理的。 通常,這些點愈靠近45度線,支持常態分配假設的證據就愈強。任何常態機率圖若呈現相當程度的彎曲,即為殘差項不是常態分配的證據。利用Minitab之類的統計軟體可以輕易得到常態分數與對應的常態機率圖。

14.9 殘差分析: 離群值及具影響力的觀察值 圖14.16是有一個離群值(outlier)的資料集的散佈圖。所謂離群值是指不符合其餘資料所表現的趨勢之資料點(觀察值)。 離群值代表值得懷疑或須經仔細檢查的觀察值。它可能是錯誤的資料,若是如此,此資料應被更正。它們也可能意味模型的假設不成立;若是如此,則應考慮其他模型。 最後,它們也可能僅是偶爾發生的不尋常值,在此情形下,則應該被保留。

殘差分析:離群值及具影響力的觀察值

偵測離群值(實例) 考慮表14.11的資料集;圖14.17為資料集的散佈圖。除了第四個觀察值(x4=3, y4=75)外,其餘資料明顯表現出負線性關係的形式。 標準化殘差也常被用來偵測離群值。如果一個觀察值大幅偏離其他資料所呈現的圖形(如圖14.16的離群值),則所對應的標準化殘差的絕對值將很大。許多電腦軟體會自動標示出標準化殘差的絕對值很大的觀察值。 圖14.18是運用Minitab對表14.11的資料進行迴歸分析後得到的結果。

偵測離群值(實例)

偵測離群值(實例)

偵測離群值(實例)

偵測離群值(實例)

偵測具影響力的觀察值 圖14.20是簡單線性迴歸中有具影響力的觀察值(influential observation)的例子。這個估計迴歸線有負斜率。然而,若將具影響力的觀察值由資料集中剔除,則估計迴歸線的斜率會由負變為正,而且 y 截距會變小。很明顯地,對於決定估計迴歸線,此觀察值比起其他觀察值更具影響力。將資料集的其他觀察值剔除時,對估計迴歸線的影響很小。 自變數若擁有極端的觀察值時被稱為高槓桿點(high leverage point)。圖14.20的具影響力的觀察值就是一個高槓桿點。

偵測具影響力的觀察值

偵測具影響力的觀察值(實例) 圖14.21是表14.12資料集的散佈圖,我們可發現第7個觀察值(x=70, y=100)具極端x值。因而,我們預期它將被認定為高槓桿點。

偵測具影響力的觀察值(實例)

偵測具影響力的觀察值(實例) 就此觀察值而言,使用式(14.33)可計算槓桿作用如下 在簡單線性迴歸的例子中,Minitab視hi>6/n是擁有高槓桿作用的點。就表14.12的資料集而言,6/n=6/7=0.86。既然h7=0.94>0.86,Minitab認為第7個觀察值是高槓桿點。 圖14.22顯示此資料集的迴歸分析的Minitab報表。第7個觀察值(x=70, y=100)被認為是有重大影響力的點,在報表底部單獨印成一行,且在右邊註記X。

偵測具影響力的觀察值(實例)

End of Chapter 14