Download presentation
Presentation is loading. Please wait.
Published byDjaja Sutedja Modified 6年之前
1
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
迴歸模式的建立與檢定 決定係數的意義 簡單相關的意義 相關係數的性質與檢定 迴歸與相關的應用要點 *迴歸分析的意義
2
迴歸分析的意義 簡單直線迴歸分析(simple regression analysis): 利用一個變數來預測(或解釋)另一個變數,並找出兩個變數間的關係模式。 如氮肥施用量與稻穀產量的關係、氣溫高低與飲料銷售量的關係、雨量與小麥產量的關係、成人年齡與血液中膽固醇含量的關係等。 主要是探討變數間的相關性(relationship)。
3
例1:氮肥用量與水稻穀收量表(公斤) 氮肥用量x 0.5 1.0 1.5 2.0 2.5 稻穀收量y 10 18 32 48 55 62 例2:成人年齡與血液中膽固醇含量 年齡x 34 39 44 46 48 51 膽固醇y(mg/ml) 141.4 180.5 178.4 212.0 203.2 224.1 53 6 0 61 65 66 67 186.0 350.0 286.3 287.6 330.3 371.3 例3:年雨量與小麥產量 年雨量(公厘/20) 23.5 20.4 22.8 25.9 28.9 27.1 26.8 25.2 產量(公斤/100) 23.0 33.5 35.8 44.6 41.2 45.4 39.0
4
氮肥用量與稻穀收量的分布圖
5
人年齡與膽固醇量的分布圖 (mg/ml)
6
年雨量與小麥產量的分布圖 (公斤/100)
7
簡單直線回歸(Simple Linear Regression)
水稻穀產量(y)與氮肥用量(x)可以用直線關係描述 yi=β0+βxi,i=1, …,6(=n) y i:依變數(Dependent variable) x i:獨立(自)變數(Independent variable) β0:截距(Intercept) x=0時y的值 β:斜率(Slope) x變動一個單位y變動的量 但實際觀測值與直線y=β+βx有差距 原因:環境、實驗誤差、量測誤差及其他原因造成 實際迴歸模式 yi=β0+βxi+εi,i=1, …,6(=n) εi:誤差(Error)或殘差(Residual)
8
The Simple Linear Regression Model (Here β1 > 0)
y β0 An observed value of y when x equals x0 Straight line defined by the equation μy∣x=β0+β1x Error term Mean value of y when x equals x0 Slope = β1 One-unit change in x y-intercept x x0= A specific value of the independent variable x
9
假定(Assumptions) : 獨立性(Independent) 常態性(Normality) 直線關係(Linearity)
相同變方(homogeneity of Variance) 選擇直線的方法: 最小平方法(Least Squares Method) 德國大數學家Gauss發明
10
最小平方法
11
正規方程式(Normal Equations)
12
推測直線回歸方程式 ( Predicted Linear Regression Equations )
斜率估算值 截距估算值 推測直線回歸方程式 ( Predicted Linear Regression Equations ) 為當獨立之變數為xi時依 變數之最小平方推測平均值 殘差估算值
13
例1:氮肥用量與水稻穀收量表(公斤) 氮肥用量x 0.5 1.0 1.5 2.0 2.5 稻穀收量y 10 18 32 48 55 62
14
迴歸模式建立
15
稻穀產量推測值與殘差值表 實測值: 推測值: 殘差值: –
16
yi xi e1 e2 e3 e4 e6 e5 圖 回歸直線與殘差圖
17
例2:成人年齡與血液中膽固醇含量 年齡x 34 39 44 46 48 51 膽固醇y(mg/ml) 141.4 180.5 178.4
212.0 203.2 224.1 53 6 0 61 65 66 67 186.0 350.0 286.3 287.6 330.3 371.3
18
成人年齡與血液膽固醇含量 推測直線回歸方程式
所需統計值 例:成人年齡與血液膽固醇含量
19
說明: b=5.65表示年齡增加一歲膽固醇增加5.65單位
20
σ2之估算 殘差估算值 殘差估算值平方 殘差(估算值)平方和 估算殘差值時必須先計算b0和b SSE之自由度為n-2
21
斜率與截距變方之估計
22
11.4 迴歸系數與截距假設檢定 (1)t值檢定法 (a) 斜率(迴歸系數)是否有意義
H0:β=0 V.S. Ha:β≠0 顯著水準α 檢定統計值(Test statistic) 決策方法 若|tβ|>tα/2,n-2 拒絕H0 β之(1-α) %信賴區間
23
(b)截距t值檢定 H0:β0=0 V.S. Ha:β0≠0 顯著水準α 檢定統計值(Test statistic)
決策方法 若|tβ0|>tα/2,n-2 拒絕H0 β0之(1-α) %信賴區間
24
例:氮肥與稻穀收量t值測驗
25
例:氮肥與稻穀收量t值測驗 斜率H0:β=0 V.S. Ha:β≠0 α=0.05
|tβ|=13.95 > t0.025,4=4.604,拒絕H0 β之95 %信賴區間
26
例:氮肥與稻穀收量t值測驗 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05
|tβ0|= > t0.025,4=2.776,接受Ha β0之95 %信賴區間
27
例 成人年齡與膽固醇t值檢定
28
例 成人年齡與膽固醇t值檢定 斜率H0:β=0 V.S. Ha:β≠0 α=0.05
|tβ|= > t0.025,10=2.228,拒絕H0 β之95 %信賴區間
29
例 成人年齡與膽固醇t值檢定 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05
|tβ0|= < t0.025,10=2.228
30
(2) 回歸分析變方分析法 獨立變數 X Y 不可由x解釋之變異 總變異 可由x解釋之變異
31
總變異=可由x所解釋變異+不可由x解釋變異
總平方和=回歸平方和+殘差平方和 SST=SSR+SSE Syy=bSxy+(Syy-bSxy) 自由度:n-1=1+(n-2)
32
迴歸分析變方分析表 變因 自由度 平方和 均方 F值 迴歸 1 SSR =b Sxy MSR =SSR/1 MSR/MSE 殘差 n-2
SSE =SST-SSR MSE =SSE/(n-2) 總計 n-1 SST
34
例:氮肥與稻穀收量之變方分析表 變方分析表 變因 自由度 平方和 均方 F 迴歸 1 2139.56 194.68 殘差 4 43.94
SST = Syy = SSR = b Sxy=( ) ×(96.75) = SSE = SST - SSR = =43.94 變方分析表 變因 自由度 平方和 均方 F 迴歸 1 194.68 殘差 4 43.94 10.99 總計 5
35
例:成人年齡與膽固醇 變方分析表 變因 自由度 平方和 均方 F 迴歸 1 42705.4370 45.4538 殘差 10
SST = Syy = SSR = b Sxy=( ) ×( ) = SSE = SST - SSR = = 變方分析表 變因 自由度 平方和 均方 F 迴歸 1 殘差 10 總計 11
36
決定係數(Coefficient of Determination)
= 可由獨立變數解釋之變異 總變異 = SSR / SST 0 < R2 < 1 當只有一個獨立變數時 R2 = (簡單相關係數)2=r2 (見11.11節)
37
決定係數(複相關係數R )圖示 獨立變數 X Y 不可由x解釋之變異 總變異 可由x解釋之變異
38
例:成人體重與膽固醇 F = / = , F0.05,10= 拒絕H0 F = = (6.7419)2=(tβ)2 R2 = SSR / SST = / =0.8197 =(0.9054)2
39
11.5迴歸直線推測值 及信賴區間估算 其 之估算變方及信賴區間公式如下
41
獨立變數x 推測值y之信賴區間圖
42
例:氮肥與稻穀收量 氮肥為1.75時,稻穀收量分佈平均值的估算值 95%信賴區間
43
例:成人年齡與膽固醇 年齡為55歲之膽固醇分佈平均值的估算值 95%信賴區間
44
迴歸直線新推測值 及信賴區間估算 其 之估算變方及信賴區間公式如下
46
例:氮肥與稻穀收量 氮肥為2.6時,稻穀收量分佈新估算值 95%信賴區間
47
例:成人年齡與膽固醇 年齡為70歲之膽固醇的觀測值 95%信賴區間
48
直線性檢定(Test for Linearity)
獨立變數下的依變數必須有重複 獨立變數 依變數(重複) 平均 重複數
49
直線性檢定(Test for Linearily)
51
變方分析表 變因 自由度 平方和 均方 F值 迴歸 1 SSR = b.Sxy MSR 殘差 n-2 SSE = Syy-b.Sxy MSE
欠合 k-2 SSLF = SSE - SSPE MSLF = SSLF / k-2 MSLFMSPE 純誤差 n-k SSPE = MSPE = SSPE / n-k 總計 n-1 SST = Syy
52
直線性檢定(Test for Linearity)
H0:符合直線假定 v.s. Ha:不符合直線假定 顯定水準:α 決策方法: FLF=MSLF / MSPE > Fα,k-2,n-k 拒絕H0
53
例子:成人年齡與血壓(mmHg) 年齡 20 30 40 50 60 70 血 壓 102 110 108 120 115 118 112
126 119 135 130 150 146 148 138 140 160 155 159 總和yi 320 465 365 529 722 624 ni 3 4 5
54
例:成人年齡與血壓(mmHg) 年齡 血壓
55
例:成人年齡與血壓(mmHg)
56
例:成人年齡與血壓(mmHg)
57
變方分析表 變因 自由度 平方和 均方 F值 迴歸(R) 1 6228.7096 殘差(E) (23-3=21) 391.0295
欠合(L) 6-2=4 1.0420 純誤差(P) 23-6=17 總計(T) 23-1=22 FLF = < F0.05,4,17 = , 無法拒絕 ,符合直線性
58
變方分析表 變因 自由度 平方和 均方 F值 迴歸(年齡) 1 6228.7096 334.5082 殘差 21 391.0295
總計(T) 22 F = / = > F0.05,1,21 = 迴歸係數≠0
59
例:成人年齡與血壓(mmHg)
60
假定之確認(Checking the Model Assumptions) 同質變方(Homogeneity of Variance)
殘差圖 殘差v.s.獨立變數 殘差v.s.預測值 殘差v.s.時間 殘差圖不能有任何規則性 蒼蠅在開會員大會無任何規則性
61
Residuals from a horizontal band
殘差v.s.獨立變數 Residual (a) Increasing error variance Residuals fan out Residual (b) Decreasing error variance Residuals fannel in Residual (c) Constant error variance Residuals from a horizontal band
62
獨立性 殘差v.s.時間 Error term Time Error term Time
63
11.11 簡單相關(simple correction) -- 探討兩個變數之間的關係
問題: 兩個變數間是否存在直線關係? 資料型態( xi , yi ) 假定(Assumption) 每對資料均為獨立 常態分布 相同變方 X與Y的關係為直線
64
三種不同族群相關散播圖 Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ 圖11.8b 三種不同族群相關散播圖 μy μy μy μχ μχ
(a) ρ> 0 正相關 (b) ρ< 0 負相關 (c) ρ= 0 無相關 圖11.8b 三種不同族群相關散播圖
65
象限 (χ-μχ) (y-μy) (χ-μχ) (y-μy) Ⅰ + Ⅱ - Ⅲ Ⅳ
66
正相關:落在第Ⅰ及Ⅲ象限的點數 > 落在第Ⅱ及Ⅳ象限的點數
負相關:落在第Ⅰ及Ⅲ象限的點數 < 落在第Ⅱ及Ⅳ象限的點數 無相關:落在第Ⅰ及Ⅲ象限的點數 = 落在第Ⅱ及Ⅳ象限的點數
67
族群簡單相關係數:(x1,y1) …(xN,yN)
,-1<ρ<1
68
樣品簡單相關係數 樣品資料:(x1,y1), …, (xn,yn) 乘積和: X平方和: Y平方和: ,r 之範圍:-1 ≦ r ≦1
69
不同樣品相關散播圖 x y r = 1 x y r = -1 (a)完全正相關 (b)完全負相關
70
不同樣品相關散播圖 x y 0 < r < 1 x y -1 < r < 0 (a)不完全正相關 (b)不完全負相關
71
不同樣品相關散播圖 r = 0 r = 0 y y x x (a)無相關 (b)曲線關系
72
11.14 簡單相關係數顯著性檢定 H0:ρ= 0 v.s. Ha:ρ≠ 0 顯著水準:α 檢定統計值: 決策方法:
若|t|>t α/2,n-2 拒絕H0
73
簡單相關係數顯著性檢定 例3:年雨量與小麥產量 年雨量(公厘/20) 23.5 20.4 22.8 25.9 28.9 27.1 26.8
25.2 產量(公斤/100) 23.0 33.5 35.8 44.6 41.2 45.4 39.0
74
例:雨量與小麥產量 n=8, Σxi=200.5, Σyi=296.5
75
~The End~
Similar presentations