Chapter 14 Simple Linear Regression

Slides:

Advertisements

Similar presentations

第8章非线性回归 8.1 可化为线性回归的曲线回归 8.2 多项式回归 8.3 非线性模型 8.4 本章小结与评注.

Advertisements

MINITAB Minitab 培训 Minitab Training.

计量经济学第五章异方差性.

張偉豪三星統計服務有限公司執行長 Amos 亞洲一哥

人群健康研究的统计方法预防医学系指导教师：方亚电话：

數據挖掘課程王海深圳國泰安教育技術股份有限公司.

Chapter 15 複迴歸.

双变量关联性分析.

16.1 曲線配適曲線配適藉由數學方程式來描述兩個變數間的關係線性方程式關係 y＝a＋bx.

应用回归分析信计学院统计系沈菊红.

前言 MINITAB 是为质量改善、教育和研究应用领域提供统计软件和服务的先导。是一个很好的质量管理和质量设计的工具软件，更是持续质量改进的良好工具软件。 MINITAB 统计软件为质量改善和概率应用提供准确和易用的工具。MINITAB 被许多世界一流的公司所采用，包括通用电器、福特汽车、通用汽车、3M、霍尼韦尔、LG、东芝、诺基亚、以及.

Chapter 3 預測.

變異數分析 (Analysis-of-Variance簡稱ANOVA)

11. Pearson’s Correlation & Simple Linear Regression

§9.3 线性回归分析一. 什么是回归分析相关分析研究变量之间相关的方向和相关的程度，但是相关分析不能指出变量间相互关系的具体形式，也无法从一个变量的变化来推测另一个变量的变化情况。回归分析则是研究变量之间的数量变化规律的一种方法。

多元迴歸 Multiple Regression

Chapter 8 Liner Regression and Correlation 第八章直线回归和相关

第四章测试效度及其验证方法（一）湖南师范大学外国语学院邓杰教授.

第8章回归分析本章教学目标：了解回归分析在经济与管理中的广泛应用；掌握回归分析的基本概念、基本原理及其分析应用的基本步骤；

單因子實驗設計 (Singlefactor experiments)

Analysis of Variance 變異數分析

Chapter 2 簡單迴歸模型.

第 14 章複迴歸與相關分析.

Differential Equations (DE)

第十二章相关与回归分析第一节相关关系及种类第二节定类变量的相关分析第三节定序变量的相关分析第四节定距变量的相关分析

第十章兩母體之假設檢定 Inferences Based on Two-Samples:

优化试验设计与数据分析第五章回归分析方法本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。

課程九迴歸與相關1.

第六章正态条件下回归的推论.

一元线性回归（二）.

Stochastic Relationships and Scatter Diagrams

第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation

十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )

簡單迴歸模型的基本假設用最小平方法(OLS-ordinary least square)找到一個迴歸式：

计量软件实验：EViews软件应用基本回归模型.

第 13 章實驗設計與變異數分析.

統計學報告冷飲糖度調查，香煙漲價調查指導老師：蘇明俊老師運管二乙組員:李冠毅林緯彬

第四章相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.

統計方法的概念與應用一、認識統計（statistics）、測驗（test）、測量（measurement）與評價（evaluation）

4 統計分析程序的選擇.

十、變方分析 (Analysis of Variance) (Chapter 10)

線性相關與直線迴歸基本概念線性相關：兩個連續變項的共變關係，且有線性關係。所謂的線性關係乃指兩個變項的關係可以被一條最具

第四章测试效度及其验证方法（一）湖南师范大学外国语学院邓杰教授.

Linear Regression 一元线性回归分析.

庄文忠副教授世新大学行政管理学系相关分析与简单回归分析庄文忠副教授世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/4/7.

MyLibrary ——数字图书馆的个性化服务

方差分析方差分析的概念单因素方差分析有交互作用的双因素方差分析无交互作用的双因素方差分析.

Liner regression analysis

第3章預測 2019/4/11 第3章預測.

迴歸分析行銷、財務、人資研究.

第三篇医学统计学方法. 第三篇医学统计学方法医学统计学方法 6 主讲人陶育纯医学统计学方法 6 主讲人陶育纯流行病与卫生统计学教研室

指導老師:蘇明俊組員: 陳柔安潘依蓮張壹凱

課程十迴歸3.

Simple Regression (簡單迴歸分析)

第 5 章簡單線性迴歸之矩陣方法.

社会研究方法第7讲：社会统计2.

导入新课在《数学3》中，我们对两个具有线性相关关系的变量利用回归分析的方法进行了研究，其步骤为: 画散点图求回归直线方程

第二章经典线性回归模型：双变量线性回归模型

第四章迴歸分析應注意之事項.

簡單線性迴歸在研讀完本章之後，您應當能夠了解與熟悉: CHAPTER 11 目標 1.繪製散佈圖(Scatter Diagram)。

两个变量的线性相关琼海市嘉积中学梅小青.

資本結構影響因素之探討以上市公司為例指導老師：包倩華老師組員：張安琪連婉君.

Logistic回归 Logistic regression 研究生《医学统计学》.

第四章多组资料均数的比较七年制医疗口腔《医学统计学》

Multiple Regression: Estimation and Hypothesis Testing

第 1 章單一預測變數線性迴歸.

簡單迴歸分析與相關分析莊文忠副教授世新大學行政管理學系計量分析一(莊文忠副教授) 2019/8/3.

Presentation transcript:

Chapter 14 Simple Linear Regression

Regression terminology 應變數(dependent variable): the variable being predicted 被預測的變數。自變數(independent variable): the variable being used to predict the value of the dependent variable 用來預測應變數的變數。例：分析廣告費用對銷售額的影響，以銷售額為應變數(y) ，廣告費用則是用來預測銷售額的自變數(x)。

Regression terminology 迴歸分析(regression analysis): 用來發展描述兩變數間關係之方程式。簡單線性迴歸(simple linear regression) : 僅牽涉到單一自變數與單一應變數，而且兩變數間的關係近似一條直線。複迴歸分析(multiple regression analysis ): 牽涉兩個以上自變數的迴歸分析。

Simple Linear Regression Model 教材14.1 Simple Linear Regression Model Blackman’s breakfast 是一家在12個縣市均有連鎖的早餐店。其最成功的據點均鄰近中小學校園。管理者相信，早餐店的每季銷售額(y)與學生人口(x)有正向的關係。換言之，鄰近學生人數多的校園分店比起學生人數少的校園分店應有更高的銷售量。每間分店有其x值(學生人數)及其對應之y值(每季銷售額)，描述此y與x及誤差項關係之方程式，稱為迴歸模型(regression model)。 Back

Simple Linear Regression Model y = βo + β1x + ε x 應變數常數自變數誤差項係數

Simple Linear Regression Equation Blackman’s breakfast 所有連鎖早餐店構成的母體可以視為是針對某個特定的x值(學生人數)而形成的次母體。例：某個次母體是由座落在學生人數3000人學校旁的Blackman’s breakfast 連鎖早餐店所構成。對於這個次母體之銷售額y會有一個y的分配。每個y分配都有自己的平均數或期望值E(y)。

Simple Linear Regression Equation E(y) = βo + β1x Figure 14.1 Possible regression lines E(y) E(y) E(y) Slope β1＞0 β0 Slope β1＜0 Slope β1=0 β0 β0 x x x 正線性關係負線性關係無關係

Estimated Simple Linear Regression Equation 計算樣本統計量(以bo 和 b1表示)作為參數βo和 β1的估計值。 y = bo + b1x ^

Figure 14.2 簡單線性迴歸的估計過程 Sample Data: x y x1 y1 x2 y2 ‧ ‧ xn yn ‧ ‧ xn yn Regression Model y = βo + β1x + ε Regression Equation E(y) = βo + β1x Unknown Parameters βo ,β1 Estimated Regression Equation y = bo + b1x Sample Statistics bo, b1 bo and b1 provide estimates of βo and β1 ^

Least Squares Method 最小平方法教材14.2 Least Squares Method 最小平方法最小平方法是利用樣本資料算出估計迴歸方程式的一種程序。以Blackman’s breakfast為例假定資料來自10間鄰近中小學校園的分店 xi是學生人數(單位：千人) yi為每季銷售額(單位：＄1000)

Figure 14.3 Scatter Diagram of Blackman’s breakfast散佈圖 ● 180 ● 每季銷售額 ● ● 140 ● ● ● 100 ● (＄1000) ● 60 ● 20 2 6 10 14 18 22 26 學生人數(千人)

Least Squares Method 最小平方法對第i個餐廳而言，估計迴歸方程式為： yi = bo + b1xi 其中 yi =第i間早餐店每季銷售額的估計值(＄1000) bo= 估計回歸線之y截距 b1=估計回歸線之斜率 xi =第i間早餐店鄰近校園的學生人數(千人) ^

Least Squares Method 最小平方法 Least Squares Criterion minΣ(yi - yi)2 其中 yi=應變數之第i個觀察值的實際值 yi =應變數之第i個觀察值的估計值 ^ ^

Least Squares Method 最小平方法估計迴歸方程式的斜率與y截距 xi(yi) =自(應)變數的第i個觀察值 x(y) =自(應)變數的平均數 n =觀察值的個數 Σxiyi-(ΣxiΣyi)/n Σ(xi-x)(yi-y) or = b1= Σ(xi-x)2 Σxi2-(Σxi)2/n bo= y - b1x 其中

Least Squares Method 最小平方法求算Blackman’s breakfast的最小平方估計迴歸方程式： x = = 14 y = =130 b1= = = 5 bo= y - b1x = 130 - 5(14) = 60 → y = 60 + 5x Σxi Σyi n n Σ(xi-x)(yi-y) 2840 Σ(xi-x)2 568 ^

Figure 14.4 Graph of the estimated regression equation for Blackman’s breakfast ● 180 ● 每季銷售額 ^ y = 60 + 5x ● ● 140 ● ● ● 100 ● (＄1000) ● 60 ● 20 2 6 10 14 18 22 26 學生人數(千人)

判定係數(coefficient of determination) 判定係數:作為估計迴歸方程式之適合度的衡量指標第i個殘差(i th ) :應變數之觀測值yi與估計值yi間的差距，殘差為yi-yi 誤差平方和(sum of squares due to error):殘差值之平方和是最小平方法中欲使其最小的數值，記為SSE SSE=Σ(yi-yi)2 ^ ^ ^

總平方和(total sum of squares，SST):使用樣本平均數估計樣本中的誤差項平方和 SST=Σ(yi-yi)2 迴歸平方和(sum of squares due to regression，SSR):為衡量迴歸線上y與y的差距所計算的平方值 SSR=Σ(yi-yi)2 以上三個平方和間的關係是統計上的重要結果: SST=SSR+SSE ^ ^

以之前的亞曼披薩屋為例，計算出10間餐廳的SSE=1530，SST=15730，可得出SSR為15730-1530=14200 若每個應變數都剛好在估計迴歸線上，估計迴歸方程式將提供完美的配適此時，每個yi-yi=0，使SSE=0 由此可知，完美的配適: 1.SSR=SST 2.SSR/SST=1 ^

SSR/SST的值會介於0到1之間評估迴歸方程式的適合度，此比例稱“判定係數”，以r2表示 r2=SSR/SST 就亞曼的例子而言，其判定係數為14200/15730=0.9027 結論:以估計迴歸方程式y=60+5x預估銷售額時，可解釋總平方和的90.27%

^ y = 60 + 5x 亞曼披薩屋之估計迴歸線與y = y 線的差距每季銷售額學生人數(千人) ^ y10 – y10 ● ^ y10 – y10 180 y10 – y ● ^ y10 - y 每季銷售額 ^ y = 60 + 5x ● ● 140 ● ● ● y = y = 130 100 ● (＄1000) ● 60 ● 20 2 6 10 14 18 22 26 學生人數(千人)

相關係數(correlation coefficient) 相關係數可用來衡量x與y變數間線性的強度必介於-1與+1之間樣本相關係數: rxy=(sign of b1) coefficient of determination =(sign of b1) r2 其中，b1=估計迴歸方程式y =b0+b1x之斜率 ^

若方程式是正斜率(b1>0)，則樣本相關係數符號亦為正；反之亦然承亞曼屋之例，該方程式之判定係數為0.9027，可得其樣本相關係數為+ 0.9027 =+ 0.9501 結論:x與y存在高度線性正相關判定係數的應用較樣本相關係數廣泛，是由於樣本相關係數只解釋兩變數間線性關係，但判定係數可解釋非線性關係或兩個以上獨立變數的關係

模型假設在進行迴歸分析時，我們是先假設自變數與應變數間的關係適合此模型檢定關係的顯著性是決定假設模型是否合適的一個重要步驟迴歸分析中的顯著性檢定是根據下列有關誤差項ε的假設而來的:

關於迴歸模型分析中誤差項ε的相關假設: y=β0+β1x+ε 1.誤差項ε為平均數或期望值為0的隨機變數；即E(ε)=0 既然β0與β1為常數， E(β0)=β0且E(β1)=β1，因此，對已知的x值，y值之期望值為E(y) =β0+β1x 2.對所有x值而言，ε之變異數(表示為σ2)均相同對特定x值所對應的y值，變異數等於σ2。且對所有x值而言，此值均相同

3. ε值是互相獨立的特定x值之ε與其他x值之ε是不相關的，因此特定x值對應之y值亦與任何其他x值對應之y值無關 4.誤差項ε為來自常態分配的隨機變數因y為ε之線性函數，故y亦為來自常態分配的隨機變數

迴歸模型的假設 E(y) =β0+β1x 圖A 當x=20時，y之分配當x=30時，y之分配當x=10時，y之分配當x=10時的E(y) 當x=0時的E(y) β0 x= 0 x=10 E(y) =β0+β1x x=20 當x=30時的E(y) x=30 當x=20時的E(y) ps. 對每個x值而言，y分配之形狀相同 x

圖A為模型假設及其涵義在圖中， E(y)值隨著x值而變。而不管x值為何，ε與y之機率分配均為具相同變異數的常態分配在特定點的誤差項ε之值，視y的實際值大於或小於E(y)而定

顯著性檢定 E(y)=β0+β1x →若β1=0，y的平均數與x無關，則x與y不存在線性相關。 →若β1≠0，可說此兩變數是相關的。 →為檢定是否存在顯著的迴歸關係，必須進行β1是否為0的假設檢定

σ2 的估計值 ^ SSE =Σ(yi - yi)2 =Σ(yi - b0 - b1xi)2 誤差均方(σ2 的估計值) s2 = MSE = →這是σ2的不偏估計值 SSE n - 2

σ2 的估計值為了估計σ，我們取s2的平方根，算出的s 值稱為估計值的標準誤。估計值的標準誤 S = MSE = SSE n - 2

t 檢定簡單線性迴歸模型y=β0+ β1x+ε →若x和y呈線性相關，可知β1≠0。 t 檢定的目的就在確認是否可獲得β1≠0的結論。我們運用樣本資料檢定關於參數β1的假設： H0：β1 =0 Ha：β1≠0

t 檢定 b1的抽樣分配期望值：E(b1) = β1 →b1的期望值等於β1，故b1為β1的不偏估計值標準差： σb1 = 分配形式：常態 σ Σ(xi - x)2

t 檢定由於σ值未知，所以用s值來估計σ，再求出σb1的估計值，記作 sb1。 b1的估計標準差 sb1 = s Σ(xi - x)2

利用 t 檢定檢驗簡單線性迴歸的顯著性 H0：β1 =0 Ha：β1≠0 檢定統計量 t = 拒絕法則 b1 P值法：若p≦α，則拒絕H0 臨界值法：若t ≦ -tα/2或t ≧ tα/2 ，則拒絕H0 其中， tα/2係依自由度n-2之t分配求得 b1 sb1

→由t分配表可得，自由度為n-2=8時，t值為3.355的右尾面積是0.005。檢定亞曼披薩屋的變數間是否有顯著關係：顯著水準是α=0.01，雙尾檢定檢定統計量 t = = = 8.62 →由t分配表可得，自由度為n-2=8時，t值為3.355的右尾面積是0.005。 →由於此檢定為雙尾檢定，我們將此值加倍後，可知與t=8.62相對應的p < 0.005*2=0.01 →reject H0 β1≠0 ，學生人數與銷售額存在顯著的關係 b1 5 sb1 0.5803

β1的信賴區間 β1的信賴區間形式如下： b1 ± tα/2 sb1 若要對亞曼披薩屋的β1建立99%的信賴區間，查表可得，對應於α=0.01以及n-2=8的自由度，t = 3.355 → β1的99%信賴區間估計值是 b1 ± tα/2 sb1 =5 ± 3.355(0.5803)=5 ± 1.95 或 3.05到6.95

β1的信賴區間以 t 檢定做顯著性檢定時，檢定的假設是： H0：β1 =0 Ha：β1≠0 →學生人數與銷售額間有統計上的顯著關係。

F 檢定如果只有一個自變數，在檢定迴歸關係顯著性時，F檢定與t檢定的結論相同。

F 檢定 σ2的兩個估計值 (1)誤差均方MSE= (2)若H0：β1 =0為真迴歸均方 MSR= = SSE n - 2 SSR SSR 迴歸自由度自變數個數

利用 F 檢定檢驗簡單線性迴歸的顯著性 Ha：β1≠0 檢定統計量 F = 拒絕法則 P值法：若p≦α，則拒絕H0 臨界值法：若F≧ Fα ，則拒絕H0 其中， Fα係依分子自由度為1，分母自由度為n-2之F分配求得 MSR MSE

Figure14.5 簡單線性迴歸的ANOVA表的一般形式變異來源平方和自由度均方 F MSR SSR 迴歸項 SSR 1 MSR= F= 1 MSE SSE n - 2 MSE= 誤差項 SSE n - 2 總和 SST n - 1

→根據F分配表，分子自由度為1，分母自由度為n-2=8時，F=11.26的右尾面積是0.01。 →F=74.25的右尾面積小於0.01 檢定統計量 →根據F分配表，分子自由度為1，分母自由度為n-2=8時，F=11.26的右尾面積是0.01。 →F=74.25的右尾面積小於0.01 →P＜0.01=α Reject H0 學生人數與銷售額間存在顯著關係 MSR 14200 F = = = 74.25 MSE 191.25

Figure14.6 亞曼的披薩屋的ANOVA表變異來源平方和自由度均方 F 14200 14200 =14200 迴歸項 14200 1 1 191.25 =74.25 1530 =191.25 8 誤差項 1530 8 總和 15730 9

解釋顯著性檢定時的注意事項拒絕H0：β1 =0並得到x和y存在顯著關係的結論，並不等於認定x與y間有因果關係。

Figure14.7 非線性關係之線性近似的例子 y 實際關係 ^ y = b0+ b1x x x之最小值 x之最大值可觀察到的x範圍

運用最小平方法，我們獲得估計的簡單線性迴歸方程式。 14.6利用估計迴歸方程式進行估計與預測運用最小平方法，我們獲得估計的簡單線性迴歸方程式。若結果顯示x與y間在統計上有顯著關係，而且估計迴歸方程式的適合度甚佳，則利用此估計迴歸方程式應該有助於進行估計與預測。

點估計 ˆ 在披薩屋一例中,估計迴歸方程式y=60+5x是學生人數x與每季銷售額y間關係的估計。利用此估計迴歸方程式來求算特定x值所對應y的平均數之點估計值或者預測對應已知x值之單獨y值。因此，對所有鄰近學生人數為10,000人(x= 10) 之校園的餐廳而言，平均每季銷售額的點估計為y=60+5 (10) =110，即$110,000。 ˆ

區間估計第一種型態的區間估計，信賴區間(confidence interval)，係對一已知x值所對應之y平均數做區間估計。第二種型態的區間估計，預測區間(prediction interval)，則用於對一已知x值所對應之個別y值做區間估計。

Y之平均數的信賴區間估計 xp=自變數x的特定值或已知值 yp=對應於已知xp值的應變數y值 E(yp)=對應於已知xp值的應變數y值的平均數或期望值 ˆ yp= b0+ b1 xp=E(yp)的點估計值，當x=xp 　通常，我們不能期望yp恰等於E(yp)。如果希望推論有關yp與實際每季平均銷售額E(yp)的接近程度，則必須估計yp的變異數。 ˆ ˆ ˆ

Syp=s2[ + ] Syp=s + ˆ 再給定的xp下，估計yp之變異數時的公式，記作Syp ，表示如下。 ( xP – x )2 Σ ( xi – x )2 1 n ̂ (14.22) ̂ Yp標準差的估計值為式(14.22)的平方根，公式如下。 (xP - x)2 Σ (xi - x)2 Syp=s + 1 n (14.23) ̂

14.5節披薩屋的計算結果顯示s=13.829。由於xp=10，x= 14以及Σ (xi- x)2=568，所以可由式(14.23)得到 Syp= + 1 10 (10-14)2 568 ̂ =13.829 .1282 =4.95

^ Yp ± ta/2sYp E(yp) 的信賴區間其中，信賴係數為1-α，而ta/2則是自由度 n-2的t分配下之t值。 (14.24) 其中，信賴係數為1-α，而ta/2則是自由度 n-2的t分配下之t值。使用(14.24)求算學生人數10,000人之校園的所有披薩屋平均每季銷售額的95%信賴區間時，需知道對應於a/2=0.025與自由度為n-2=10-2=8之值。

查附錄B的表2，可得 t0. 025=2. 306。因此，yp=110 與邊際誤差ta/2sYp=2. 306(4. 95)=11 ^ ^

Syp=s + =s √ 當xp=x 時，式(14.23)之yp的估計標準差將最小。此時，yp之估計標準差將變為 ^ ^ Syp=s + =s √ 1 n (x - x)2 Σ (xi - x)2 1 n ̂ 每當xp=x時，可得y之平均數的最佳或最精確估計值。而當xp偏離x愈遠時，y之平均數的信賴區間將變得愈寬。此情況表示於圖14.8。

圖14.8 已知學生人數x下，平均每季銷售額y的信賴區間 ̂ y ̂ 220 上限 y=60+5x 200 ̂ 180 每季銷售額下限 160 140 120 ($1,000) 信賴區間上下限依 xp而定 100 80 60 當xp=x時，信賴區間之寬度為最小 40 X=14 20 x 0 2 4 6 8 10 12 14 16 18 20 22 24 26 學生人數(千人)

個別y值的預測區間估計為了建立預測區間，我們必須先決定x= xp時，以yp估計個別y值時的變異數。此變異數係由下列兩部分所組成。 ^ 1. 個別y值相對於平均數E(yp)的變異數，此變異數的估計值已知為s2。 2. 利用yp估計E(yp)所產生的變異數，此變異數的估計值為syp。 ^ 2 ^

Yp個別值的變異數估計式，記作sind，可表示為 2 Yp個別值的變異數估計式，記作sind，可表示為 2 ^ sind =s2+ syp =s2+ s2[ + ] (xP - x)2 Σ (xi - x)2 1 n = s2 [1 + + ] (xP - x)2 Σ (xi - x)2 1 n (14.25) 因此， Yp個別值的標準差估計值為 sind = s 1 + + (xP - x)2 Σ (xi - x)2 1 n (14.26)

校園的某個餐廳每季銷售額預測值所對應的估計標準差如下。以披薩屋為例，鄰近學生人數10,000人之 sind = 13.829 1 + + (10-14)2 568 =13.829 1.1282 =14.69

yp的預測區間 ^ Yp ± ta/2 sind 其中，信賴係數為1-α，而ta/2則是自由度n-2的t分配查表而得。 (14.27) 其中，信賴係數為1-α，而ta/2則是自由度n-2的t分配查表而得。利用t0.025=2.306與sind=14.69，可求得鄰近學院之披薩屋每季銷售額的95%預測區間。

^ 因為Yp =110，邊際誤差ta/2sind=2.306(14.69) =33.875 ， 95%預測區間是以美元來表示，預測區間為$76,125至$143,875。注意，個別餐廳之預測區間較鄰近學生人數10,000人之校園的所有餐廳平均銷售額的信賴區間($98.585 至$121.415)寬。 110± 33.875

此一差異表示預測y之平均數將可較預測個別值更為準確。在自變數xp＝x時，信賴區間估計與預測區間估計的精準度都最高。信賴區間與較寬之預測區間的一般情況顯示於圖14.9。

圖14.9 在已知學生人數x下，每季銷售額y 的信賴與預測區間 ̂ ̂ 220 y=60+5x 200 信賴區間上下限預測區間更寬 ̂ 每季銷售額 180 160 140 ($1,000) 120 100 80 預測區間上下限 60 當xp=x時，兩種區間之寬度為最窄 40 X=14 20 x 0 2 4 6 8 10 12 14 16 18 20 22 24 26 學生人數(千人)

殘差分析:驗證模型假設殘差分析可幫助判定迴歸分析所作假設是否適當第i個觀察值的殘差: yi-yi ,其中yi是應變數的第i個觀察值 , ^ ^

決定x與y間的關係是否顯著之t檢定與F檢定,及信賴區間與預測區間估計都是以下列假設為基礎: 1.E(ε)=0 2. ε之變異數,表示為σ2,對所有x值均相同 3. ε值互相獨立 4.誤差項ε服從常態分配殘差分析多圖形檢查為基礎

以下為本次將會討論的殘差圖: 1.對應自變數x的殘差圖 2.對應應變數y預測值的殘差圖 3.標準化殘差圖 4.常態機率圖 ^

對應x值的殘差圖以自變數x為橫軸,對應的殘差值為縱軸的圖以下為三個迴歸研究的殘差圖: ^ y - y x 殘差良好模式圖A ● ● ● ● ● ● ● ● ● ● ● x 圖A

^ y - y x ^ y - y x 殘差殘差變異數不為常數圖B 迴歸模式不適當圖C ● ● ● ● ● ● ● ● ● ● ● ● 變異數不為常數 ● ● ● ● ● ● ● ● x 圖B ● ^ y - y ● ● ● ● ● ● ● ● ● 殘差 ● 迴歸模式不適當 ● ● ● ● ● ● ● x 圖C

對所有的x值而言，ε之變異數均相等的假設成立且此迴歸模型可充分表達兩變數間的關係，則殘差圖呈現類似水平帶狀的圖形，即圖(A) 對所有的x值而言，ε之變異數不完全相同(如x值較大，對迴歸線的變異較大) ，此時ε的變異數固定的假設不成立，如圖(B) 或圖(C) ，可得結論為:假設的模型不適合表示變數間的關係考慮使用曲線迴規模型或複迴歸模型

披薩屋範例--對應自變數x的殘差圖 ^ y - y x 殘差 ● ● ● ● ● ● ● ● +20 +10 -10 ● -20 ● 2 4 ● ● ● -10 ● ● -20 ● x 2 4 6 8 10 12 14 16 18 20 22 24 26

對應y值的殘差圖 ^ 對簡單線性迴歸而言，對應y的殘差圖與對應x的殘差圖提供相同的訊息。

^ 披薩屋範例—相對於預測值y的殘差圖 ^ y - y x 殘差 ● ● ● ● ● ● ● ● +20 +10 -10 ● -20 ● ● ● ● -10 ● ● -20 ● x 60 80 100 120 140 160 180

√ 標準化殘差標準化殘差(standardized residual):將每個殘差除以其標準差即可得第i個殘差的標準差 syi -yi=s 1-hi ，其中， syi –yi=第i個殘差的標準差 s=估計值的標準誤 hi= + √ ^ ^ 1 (xi-x)2 n Σ(xi-x)2

標準化殘差圖可了解誤差項ε為常態分配的假設是否適當，若此假設成立，標準化殘差的分配應如同來自標準常態分配 ^ yi –yi 第i個觀察值的標準化殘差: 標準化殘差圖可了解誤差項ε為常態分配的假設是否適當，若此假設成立，標準化殘差的分配應如同來自標準常態分配在檢視標準化殘差圖時，95%的標準化殘差應會落在-2與+2之間 syi –yi ^

披薩屋範例—相對於自變數x的標準化殘差圖 ^ y - y 標準化殘差 ● +2 ● ● ● +1 ● ● ● -1 ● ● -2 ● x 2 4 6 8 10 12 14 16 18 20 22 24 26

常態機率圖常態分數:在平均數0、標準差1的常態分配中重複抽樣，每組樣本的最小值的隨機變數稱一階統計量。且實驗已證明樣本大小為10的隨機樣本，其一階統計量的期望值為-1.55，此期望值即稱為常態分數。先將標準化殘差排序，此時最小的標準化殘差應接近最小的常態分數，並在圖上以點表示，若標準化殘差趨近常態分配，資料點應聚在過原點的45度直線附近。此即為常態機率圖。

披薩屋範例—常態機率圖 ^ y - y 標準化殘差常態分數 +2 +1 -1 -2 -2 -1 +1 +2 ● ● ● ● ● ● ● ● ● ● -1 ● -2 -2 -1 +1 +2 常態分數

殘差分析：離群值及具影響力的觀察值離群值(outlier) ： (1)指不符合其餘資料所表現的趨勢之資料點，代表值得懷疑或須經仔細檢查的觀察值。 (2)它可能是錯誤的資料→應被更正可能意味模型的假設不成立→考慮其他模型可能僅是偶爾發生的不尋常值→應被保留

有一個離群值的資料集 y ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● 離群值 ● ● ● ● ● x

偵測離群值檢視散佈圖 y 80 ● 60 ● ● ● 40 ● ● ● ● ● 20 ● x 1 2 3 4 5 6

偵測離群值標準化殘差 (1)如果一個觀察值大幅偏離其他資料所呈現的圖形，則所對應的標準化殘差的絕對值將很大。 (2)許多電腦軟體會自動標示出標準化殘差的絕對值很大的觀察值。

Minitab報表：有離群值的資料集之迴歸分析 The regression equation is Y=65－77.3X Predictor Coef SE Coef T P Constant 64.958 9.258 7.02 X -7.331 2.608 -2.81 0.023 S=12.67 R-sq=49.7％ R-sq(adj)=43.4％ Analysis of Variance SOURCE DF SS MS F P Regression 1 1268.2 1268.2 7.9 0.023 Residual Error 8 1284.3 160.5 Total 9 2552.5 Unusual Observations Obs X Y Fit SE Fit Residual St Resid 2.67R 4 3 75 42.97 4.04 32.03

偵測具影響力的觀察值有時候，一個或以上的觀察值對結果有重大影響。如果只有一個自變數，可藉由散佈圖確認具影響力的觀察值→可能是一個離群值，或其所對應的x值遠離平均數；或因上述兩個原因同時存在而造成。

資料集中具有影響力的觀察值 y 具有影響力的觀察值 (高槓桿點) ● ● ● ● ● ● ● ● ● ● x

第 i 個觀察值的槓桿作用 ( xi - x )2 1 hi = + n Σ( xi - x )2 → 一個觀察值的槓桿作用是藉由其自變數的值距離平均數多遠來決定。 → xi距離平均數x愈遠，第i個觀察值的槓桿作用愈高。

第7個觀察值(70,100)具極端x值→高槓桿點槓桿作用如下：有高槓桿觀察值的資料集 xi yi 10 15 20 25 70 125 130 120 115 110 100 第7個觀察值(70,100)具極端x值→高槓桿點槓桿作用如下： ( x7 - x )2 1 h7 = + n Σ( x7 - x )2 1 ( 70 - 24.286 )2 + = = 0.94 7 2621.43

有高槓桿觀察值的資料集之散佈圖 y x 高槓桿觀察值 10 25 40 55 70 85 130 120 110 100 ● ● ● ● ●

有高槓桿觀察值的資料集之Minitab輸出報表 The regression equation is Y=127－0.425X Predictor Coef SE Coef T P Constant 127.466 2.961 43.04 X -0.42507 0.09537 -4.46 0.007 S=4.883 R-sq=79.9％ R-sq(adj)=75.9％ Analysis of Variance SOURCE DF SS MS F P Regression 1 473.65 473.65 19.87 0.007 Residual Error 5 119.21 23.84 Total 6 592.86 Unusual Observations Obs X Y Fit SE Fit Residual St Resid 1.91X 7 70 100 97.71 4.73 2.29

在簡單線性迴歸的例子中，Minitab視 hi＞6/n是擁有高槓桿作用的點。既然h7 = 0.94 ＞0.86，Minitab認為第7個觀察值是高槓桿點。 →在報表底部單獨印成一行，且在右邊註記X。

受到高殘差質與高槓桿作用的相互影響的具影響力觀察值可能很難被偵測出來。 →有某些診斷程序可同時考慮兩項因素以決定何種是具影響力的觀察值。第15章將討論此種稱為庫克D ( Cook’s D )的統計量。