Presentation is loading. Please wait.

Presentation is loading. Please wait.

R教學 迴歸分析R指令與範例 羅琪老師.

Similar presentations


Presentation on theme: "R教學 迴歸分析R指令與範例 羅琪老師."— Presentation transcript:

1 R教學 迴歸分析R指令與範例 羅琪老師

2 迴歸分析簡介 迴歸分析(Regression Analysis)是一種統計學上分析資料的方法,目的在於了解兩個或多個變數之間的關係,並建立數學模式,以便根據觀察特定變數來預測研究者感興趣的變數。 迴歸分析適用於很多領域,包含:社會科學、物理和生物科學、商業、工程和人文學科等。

3 迴歸分析簡介 Y-反應變數(response variable) 因變數(dependent variable) 就是想預測的變數
x1,x2,..,xk -解釋變數(explanatory variables) 自變數(independent variables) 預測變數(predictor variables) 就是用來預測反應變數之數值的變數 迴歸分析將一個反應變數與一組解釋變數的關聯建模。

4 迴歸分析簡介 例: 行銷經理要預測的是銷售額 Y-產品銷售額 x1-產品價格 x2-其他競爭產品的價格 x3-廣告花費

5 迴歸分析簡介 例: 某經濟學家有興趣知道汽油價格的改變對汽油需求的影響 Y-汽油需求 x-汽油價格

6 迴歸分析簡介 例: 工程師有興趣研究化學過程的生產量與反應時間、溫度及催化劑的種類的關係 Y-生產量 x1-反應時間 x2-溫度

7 迴歸分析簡介 例: 有興趣消費者的特徵與信用卡使用金額的關係 Y-信用卡費用 x1-性別 x2-收入 x3-家庭人口數 x4-教育程度

8 迴歸函數 Y是一個隨機變數 x1,x2,..,xk 是固定的已知變數 Y的平均數與x1,x2,..,xk 的真正關係如下:
𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )=E(Y|x1,x2,..,xk ) 在統計上, 𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )稱為條件期望值 在迴歸上, 𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )稱為迴歸函數

9 迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 線性迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 𝒆 𝜷 𝟏 𝒙 指數迴歸函數
2019/5/10 迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 線性迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 𝒆 𝜷 𝟏 𝒙 指數迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙+ 𝜷 𝟐 𝒙 𝟐 二次迴歸函數

10 線性迴歸函數 若假設Y~N( 𝝁 𝒀 𝒙 , σ2) y 𝝁 𝒀 𝒙 𝒙 𝒙 𝟏 𝒙 𝟐 𝒙 𝟑

11 迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 線性迴歸函數2個自變數 空間中 的平面
2019/5/10 迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 線性迴歸函數2個自變數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 =50+10 𝒙 𝟏 +7 𝒙 𝟐 空間中 的平面

12 2019/5/10 迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 + 𝜷 𝟑 𝒙 𝟏 𝟐 + 𝜷 𝟒 𝒙 𝟐 𝟐 + 𝜷 𝟓 𝒙 𝟏 𝒙 𝟐 二次迴歸函數2個自變數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝒙 𝟏 +7 𝒙 𝟐 +8.5 𝒙 𝟏 𝟐 −5 𝒙 𝟐 𝟐 +4 𝒙 𝟏 𝒙 𝟐 空間中 的曲面

13 簡單線性迴歸 簡單線性迴歸:僅牽涉到單一自變數與單一因變數,而且兩變數間的關係近似一條直線。這種類型稱為簡單線性迴歸 (simple linear regression)。 複迴歸分析:牽涉兩個或以上自變數的迴歸分析稱為複迴歸分析 (multiple regression analysis) 。

14 簡單線性迴歸的模式 模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 , 𝒊=𝟏,𝟐,⋯,𝒏
Y 𝒊 -因變數(dependent variable),為一隨機變數 𝒙 𝒊 -自變數(independent variable) 𝜷 𝟎 -截距(intercept) 𝜷 𝟏 -斜率(slope) 𝜺 𝒊 -誤差(error),為一隨機變數 𝜷 𝟎 及 𝜷 𝟏 為迴歸模式中的未知參數(parameter)

15 簡單線性迴歸的假設 假設 𝜺 1 , 𝜺 𝟐 ,⋯, 𝜺 𝒏 是一個隨機樣本來自N(0, 𝝈𝟐) 𝝈𝟐也是未知參數 模式+假設
𝒀 𝒊 ~ 𝑵(𝝁 𝒀 𝒙 𝒊 , 𝝈𝟐), 𝒊=𝟏,𝟐,⋯,𝒏

16 誤差 𝜺 𝒊 = 𝒚 𝒊 − 𝝁 𝒀 𝒙 𝒊 = Y 𝒊 − 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 𝒚 𝒊 白色空心點是資料點
𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 白色空心點是資料點 實際資料點不一定會落在線上 資料點到迴歸函數的垂直距離稱為誤差(error) ( 𝒙 𝟏 , 𝒚 𝟏 ) ( 𝒙 𝟏 , 𝝁 𝒀 𝒙 𝟏 ) 𝒙 𝒊

17 散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 完全正線性相關 高度正線性相關 低度正線性相關
𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 完全正線性相關 高度正線性相關 低度正線性相關 無關

18 散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 低度負線性相關 高度負線性相關 完全負線性相關
𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 低度負線性相關 高度負線性相關 完全負線性相關

19 散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 非線性相關 非線性相關 非線性相關
𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 非線性相關 非線性相關 非線性相關

20 散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 變異數遞增 有3集團(cluster)
𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 變異數遞增 變異數不是常數 (non-constant variance) 有3集團(cluster) Aggregated data 聚合的資料

21 散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 有影響力的觀察值 極端值(outlier)
𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 有影響力的觀察值 Influential observation 極端值(outlier)

22 估計的迴歸線 迴歸函數 𝝁 𝒀 𝒙 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 迴歸模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊
迴歸函數 𝝁 𝒀 𝒙 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 迴歸模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 𝜷 𝟎 及 𝜷 𝟏 為未知參數(parameter) 所以要估計 𝜷 𝟎 及 𝜷 𝟏 得到 𝜷 𝟎 及 𝜷 𝟏 的估計值後,就得到估計的迴歸線 我們採用最小平方法來的到估計值 所以估計的迴歸線也稱為最小平方線

23 估計的迴歸線 𝒚 𝒊 = 𝝁 𝒀 𝒙 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 𝒃 𝟎 = 𝜷 𝟎 是截距 𝜷 𝟎 的估計值
𝒚 𝒊 = 𝝁 𝒀 𝒙 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 𝒃 𝟎 = 𝜷 𝟎 是截距 𝜷 𝟎 的估計值 𝒃 𝟏 = 𝜷 𝟏 是斜率 𝜷 𝟏 的估計值 𝒚 𝒊 是 𝒚 𝒊 的估計值或預測值 殘差(residual)是實際值 𝒚 𝒊 與預測值 𝒚 𝒊 的差異 𝒆 𝒊 = 𝒚 𝒊 − 𝒚 𝒊

24 殘差 𝒆 𝒊 = 𝒚 𝒊 − 𝒚 𝒊 殘差(residual)是實際值 𝒚 𝒊 與預測值 𝒚 𝒊 的差異 就是資料點到估計的迴歸線的垂直距離

25 最小平方法 找一條估計的迴歸線 𝒚 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 ,也就是找 𝒃 𝟎 及 𝒃 𝟏 ,使得殘差(誤差)平方和SSE最小
殘差(誤差)平方和(Error Sum of Squares) SSE= 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐

26 最小平方法 good line SSE小 bad line SSE大

27 最小平方法 可以證明 斜率 𝜷 𝟏 的估計值 𝒃 𝟏 = 𝜷 𝟏 = 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 )( 𝒚 𝒊 − 𝒚 ) 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝒚 𝒊 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝒚 𝒊 −𝒏 𝒙𝒚 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 截距 𝜷 𝟎 的估計值 𝒃 𝟎 = 𝜷 𝟎 = 𝒚 − 𝒃 𝟏 𝒙

28 誤差項的母體變異數的估計 可以證明誤差項的母體變異數𝝈𝟐的不偏估計量(不高估也不低估)為殘差(誤差)平方和SSE的平均,稱為均方MSE(Mean of the Squared Errors) SSE= 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 = 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 𝒏−𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 𝒏−𝟐

29 Linear Regression Analysis 5E Montgomery, Peck & Vining
Example 2.1 – The Rocket Propellant Data 切割力 推進燃料的年齡(週) n=20

30 輸入資料 > rocket<-read.csv(file="c:/RData/rocket.csv", header=T) > rocket observation strength age

31 輸入資料 > names(rocket) # rocket 資料集中的變數名稱 [1] "observation" "strength" "age" > dim(rocket) # rocket 資料集的維度 [1] 20 3

32 建立data frame > y<-c( , , , , , , , , , , , , , , , , , , , ) > x<-c(15.50, 23.75, 8.00, 17.00, 5.50, 19.00, 24.00, 2.50, 7.50, 11.00, 13.00, 3.75, 25.00, 9.75, 22.00, 18.00, 6.00, 12.50, 2.00, 21.50) > rocket1<-data.frame(y,x)

33 Linear Regression Analysis 5E Montgomery, Peck & Vining
散佈圖顯示切割力與推進燃料的年齡 有強的線性關係

34 散佈圖 > plot(rocket$age, rocket$strength) # make a scatter plot

35 散佈圖 > attach(rocket) > par(mfrow=c(2,2)) > plot(age, strength) # points are circles > plot(age, strength, pch=16) # points are solid circles > plot(age, strength, pch=16, cex=2) # cex control size > plot(age, strength, pch=16, cex=2, col=2) # col control colour

36 散佈圖

37 散佈圖 > par(mfrow=c(1,1)) plot(age, strength, pch=16, cex=1, col=2, xlab="age of propellant", ylab="shear strength", main="Scatter plot", cex.main=2) # add title

38 散佈圖

39 散佈圖加估計的迴歸線 > rocket.lm<-lm(strength~age, data=rocket) # fit a simple linear regression model > plot(strength ~ age, data=rocket, pch=16, main="Scatter plot") > abline(reg=rocket.lm) # plot the regression line on scatter plot

40 散佈圖加估計的迴歸線

41 Example 2.1- Rocket Propellant Data
Linear Regression Analysis 5E Montgomery, Peck & Vining Example 2.1- Rocket Propellant Data

42 Example 2.1- Rocket Propellant Data
Linear Regression Analysis 5E Montgomery, Peck & Vining Example 2.1- Rocket Propellant Data 推進燃料的年齡每增加一週, 平均切割力減少37.15 剛製造完時, 推進燃料的平均切割力為 The least squares regression line is 最小平方迴歸線

43 Linear Regression Analysis 5E Montgomery, Peck & Vining
殘差 =

44 簡單線性迴歸模式 > rocket.lm<-lm(strength~age, data=rocket) > rocket.lm Call: lm(formula = strength ~ age, data = rocket) Coefficients: (Intercept) age 𝑏 1 = 𝛽 1 =-37.15 𝑏 0 = 𝛽 0 =

45 定理 若𝜺 1 , 𝜺 𝟐 ,⋯, 𝜺 𝒏 是一個隨機樣本來自N(0, 𝝈𝟐) 則可以證明
𝒃 𝟏 ~N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 )= N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ) 𝒃 𝟎 ~N 𝜷 𝟎 ,𝝈𝟐 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 =N 𝜷 𝟎 ,𝝈𝟐 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐

46 斜率的假設檢定 為檢定是否存在顯著的迴歸關係,我們必須進行 𝜷 𝟏 是否為 0 的假設檢定 步驟 1. 建立適當的虛無和對立假設
H0 : 𝜷 𝟏 = H0 : 𝜷 𝟏 ≤ H0 : 𝜷 𝟏 ≥ 0 H1 : 𝜷 𝟏 ≠ H1 : 𝜷 𝟏 > H1 : 𝜷 𝟏 < 0 雙尾 右尾 左尾 H0 : 𝜷 𝟏 = 0 ⇔ H0 :迴歸線的斜率為0 ⇔ H0 :x與y之間沒有線性關係

47 斜率的假設檢定 步驟 2. 確認檢定統計量及其分配 𝑻= 𝒃 𝟏 − 𝜷 1 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐
𝑻= 𝒃 𝟏 − 𝜷 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 因為當H0 : 𝜷 𝟏 = 0為真, 𝒃 𝟏 ~N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ) 所以𝑻= 𝒃 𝟏 − 𝜷 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ~t(n-2) 自由度為n-2的t分配 步驟 3. 選定顯著水準α

48 斜率的假設檢定 步驟 4. 寫出決策法則(臨界值法) 利用比較觀察的檢定統計量 Tobs值 與臨界值,以進行檢定。
雙尾:若Tobs>tα/2(n-2)或Tobs<-tα/2(n-2),拒絕 H0 右尾:若Tobs>tα(n-2),則拒絕 H0 左尾:若Tobs<-tα(n-2),則拒絕 H0

49 斜率的假設檢定 步驟 4. 寫出決策法則(p值法) 決策法則是: 若 p 值 < α,則拒絕H0 p 值公式
雙尾:p 值=2P(T ≥ |Tobs| |當H0為真) 右尾:p 值=P(T ≥ Tobs |當H0為真) 左尾:p 值=P(T ≤ Tobs |當H0為真)

50 > summary(rocket.lm) # estimated coefficients, tests Call:
lm(formula = strength ~ age, data = rocket) Residuals: Min Q Median Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** age e-10 *** --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: on 18 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 18 DF, p-value: 1.643e-10 𝜎 =96.11

51 Linear Regression Analysis 5E Montgomery, Peck & Vining

52 斜率的假設檢定-F檢定 除了可以用t檢定檢定斜率外 另一種檢定斜率的方式是用F檢定 H0 : 𝜷 𝟏 = 0 H1 : 𝜷 𝟏 ≠ 0 雙尾
因為由數理統計可得 若T~t(n-2),則F= 𝑻 𝟐 ~𝑭 𝟏, 𝒏−𝟐

53 迴歸的ANOVA表 迴歸變異數分析表 變異 來源 平方和 自由度 均方 F值
SSR= 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 1 MSR= SSR 1 F= 𝑴𝑺𝑹 𝑴𝑺𝑬 誤差 SSE= 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 n-2 𝝈 𝟐 =MSE= SSE 𝒏−2 總和 SST= 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 n-1 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 = 𝒊=𝟏 𝒏 𝒚 𝒊 𝟐 −𝒏 𝒚 𝟐

54 迴歸的ANOVA表 總平方和 SST =Total sum of squares = 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐
= 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 =total sample variability 總樣本變異 Bad line

55 迴歸的ANOVA表 誤差平方和 SSE =Error sum of squares
= 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 =unexplained sample variability 未解釋變異 good line

56 迴歸的ANOVA 總變異=解釋變異+未解釋變異 SST=SSR+SSE 迴歸平方和 SSR
=Regression sum of squares = 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 =可以被迴歸線解釋的變異

57 迴歸的ANOVA表 迴歸變異數分析表 變異 來源 平方和 自由度 均方 F值
SSR= 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 1 MSR= SSR 1 F= 𝑴𝑺𝑹 𝑴𝑺𝑬 誤差 SSE= 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 n-2 𝝈 𝟐 =MSE= SSE 𝒏−2 總和 SST= 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 n-1 決策法則:若Fobs= 𝑴𝑺𝑹 𝑴𝑺𝑬 >Fα(1, n-2),則拒絕 H0 若 p 值 < α,則拒絕H0,p 值=P(F ≥ Fobs|當H0為真)

58 迴歸ANOVA > rocket.lm<-lm(strength~age, data=rocket)
Analysis of Variance Table Response: strength Df Sum Sq Mean Sq F value Pr(>F) age e-10 *** Residuals --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

59 Linear Regression Analysis 5E Montgomery, Peck & Vining

60 斜率的信賴區間 𝜷 𝟏 的100(1-α)%的信賴區間為 𝒃 𝟏 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐
𝒃 𝟏 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 斜率 𝜷 𝟏 的 點估計量 𝒃 𝟏 的標準誤

61 截距的信賴區間 𝜷 0 的100(1-α)%的信賴區間為
𝒃 0 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 截距 𝜷 0 的 點估計量 𝒃 0 的標準誤

62 迴歸係數的信賴區間 > n<-length(strength) > beta1<-coef(rocket.lm)[2] > beta0<-coef(rocket.lm)[1] > SE.beta1< > SE.beta0< > qt(.975, n-2) [1] > c(beta1-qt(.975, n-2)*SE.beta1, beta1+qt(.975, n-2)*SE.beta1) age age > c(beta0-qt(.975, n-2)*SE.beta0, beta0+qt(.975, n-2)*SE.beta0) (Intercept) (Intercept)

63 Linear Regression Analysis 5E Montgomery, Peck & Vining
Also see page 30, text

64 迴歸分析與相關分析 在迴歸分析,Y-反應變數或因變數 x-解釋變數或自變數 Y是隨機變數,x不是隨機變數
簡單線性迴歸將一個反應變數與一個解釋變數的關聯建模 在相關分析,X與Y-沒有自變數或因變數的區別 Y是隨機變數,X也是隨機變數 相關係數測量X與Y之間線性關係的強度

65 相關分析裡統計推論所需假設 X與Y服從一個雙變量的常態分配,有5個參數 𝝁 𝑿 、 𝝁 𝒀 、 𝝈 𝑿 𝟐 、 𝝈 𝒀 𝟐 、𝝆, X與Y的機率密度函數如下: 𝒇 𝒙,𝒚 = 𝟏 𝟐𝝅 𝝈 𝑿 𝝈 𝒀 𝟏− 𝝆 𝟐 ×exp − 1 2 𝟏− 𝝆 𝟐 𝑥− 𝜇 𝑋 𝜎 𝑋 𝑦− 𝜇 𝑌 𝜎 𝑌 2 −2 𝑥− 𝜇 𝑋 𝜎 𝑋 𝑦− 𝜇 𝑌 𝜎 𝑌

66 母體相關係數 𝝆-X與Y的母體相關係數(correlation coefficient)
𝐶𝑂𝑉(𝑋,𝑌)是X與Y的母體共變數(covriance) 𝐶𝑂𝑉(𝑋,𝑌)=E[(X- 𝜇 𝑋 )(Y- 𝜇 Y )] = 𝐸 𝑋𝑌 −𝐸 𝑋 𝐸(𝑌) 𝜎 𝑋 2 = Var(X)=E[(X- 𝜇 𝑋 )2] =E[X2] – E(X) 2 𝜎 Y 2 = Var(Y)=E[(Y- 𝜇 Y )2] =E[Y2] – E(Y) 2

67 Pearson樣本相關係數 我們用樣本相關係數去估計母體相關係數 r-X與Y的樣本相關係數 公式1 由原始資料計算
𝒓= 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝒙 )( 𝑦 𝑖 − 𝑦 ) 𝒏−𝟏 𝑖=1 𝑛 ( 𝒙 𝒊 − 𝒙 ) 𝟐 𝒏−𝟏 𝑖=1 𝑛 ( 𝒚 𝒊 − 𝒚 ) 𝟐 𝒏−𝟏 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝒚 𝒊 −𝒏 𝒙 𝒚 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝒊=𝟏 𝒏 𝒚 𝒊 𝟐 −𝒏 𝒚 𝟐 公式2 由迴歸線斜率計算 𝒓= 𝒃 𝟏 𝒔 𝒙 𝒔 𝒚 公式3 由判定係數計算 𝒓=( 𝒃 𝟏 的正負號) 𝑹 𝟐 公式3只適用於簡單線性迴歸

68 相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1

69 相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r=-1⇒完全負線性相關 r=1⇒完全正線性相關

70 相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r=0⇒沒有線性相關

71 相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r是正的, r接近0 ⇒弱正線性相關 r接近1⇒強正線性相關

72 相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r是負的, r接近0 ⇒弱負線性相關 r接近-1⇒強負線性相關

73 相關係數的特性 相關係數r與估計的迴歸線的斜率 𝒃 𝟏 正負號相同 相關係數r和X與Y的測量單位無關 只看相關係數r但不看散佈圖有可能被誤導

74 相關係數的特性 相關係數r與估計的迴歸線的斜率 𝒃 𝟏 正負號相同 相關係數r和X與Y的測量單位無關 只看相關係數r但不看散佈圖有可能被誤導
六年級 閱讀能力 五年級 四年級 三年級 每週看電視時數

75 相關係數的特性 相關係數r與估計的迴歸線的斜率 𝒃 𝟏 正負號相同 相關係數r和X與Y的測量單位無關 只看相關係數r但不看散佈圖有可能被誤導
焦慮 成就需求

76 相關係數的假設檢定 假設X與Y服從一個雙變量的常態分配 為檢定是否存在顯著的線性關係,我們必須進行𝝆是否為 0 的假設檢定
步驟 1. 建立適當的虛無和對立假設 H0 : 𝝆 = 0 H1 : 𝝆 ≠ 0 雙尾 步驟 2. 確認檢定統計量及其分配 𝑻= 𝒓 𝒔 𝒓 ~t(n-2) 自由度為n-2的t分配當H0 :𝝆=0為真

77 相關係數的假設檢定 步驟 2. 確認檢定統計量及其分配 𝑻= 𝒓 𝒔 𝒓 , 𝒔 𝒓 = 𝟏− 𝒓 𝟐 𝒏−𝟐 r的標準誤
步驟 3. 選定顯著水準α 步驟 4. 寫出決策法則(臨界值法) 雙尾:若Tobs>tα/2(n-2)或Tobs<-tα/2(n-2),拒絕 H0 決策法則(p值法) 若 p 值 < α,則拒絕H0 雙尾:p 值=2P(T ≥ |Tobs| |當H0為真)

78 Linear Regression Analysis 5E Montgomery, Peck & Vining
Example The Delivery Time Data

79 相關分析 > delivery<-read.csv(file="c:/RData/Delivery.csv", header=T) > head(delivery) Observation Time Cases

80 相關分析 > attach(delivery) > r<-cor(Time, Cases) # compute the correlation coefficeint > r [1]

81 Linear Regression Analysis 5E Montgomery, Peck & Vining
x-運送箱數 y-運送時間 n=25

82 相關分析 > n<-length(Time) > t<-r/sqrt((1-r^2)/(n-2)) # test for rao=0 > t [1] > qt(.975, n-2) [1] > pvalue<-2*(1-pt(abs(t),n-2)) > pvalue [1] e-15

83 Linear Regression Analysis 5E Montgomery, Peck & Vining
拒絕H0, 運送時間與運送箱數有顯著線性相關

84 付出最多的人,也是收穫最多的人 ~共勉之~


Download ppt "R教學 迴歸分析R指令與範例 羅琪老師."

Similar presentations


Ads by Google