R教學 迴歸分析R指令與範例 羅琪老師
迴歸分析簡介 迴歸分析(Regression Analysis)是一種統計學上分析資料的方法,目的在於了解兩個或多個變數之間的關係,並建立數學模式,以便根據觀察特定變數來預測研究者感興趣的變數。 迴歸分析適用於很多領域,包含:社會科學、物理和生物科學、商業、工程和人文學科等。
迴歸分析簡介 Y-反應變數(response variable) 因變數(dependent variable) 就是想預測的變數 x1,x2,..,xk -解釋變數(explanatory variables) 自變數(independent variables) 預測變數(predictor variables) 就是用來預測反應變數之數值的變數 迴歸分析將一個反應變數與一組解釋變數的關聯建模。
迴歸分析簡介 例: 行銷經理要預測的是銷售額 Y-產品銷售額 x1-產品價格 x2-其他競爭產品的價格 x3-廣告花費 http://www.pepsico.com/Annual-Reports/annual12/index.html
迴歸分析簡介 例: 某經濟學家有興趣知道汽油價格的改變對汽油需求的影響 Y-汽油需求 x-汽油價格 http://www.kristv.com/story/34194510/texas-nationwide-retail-gasoline-prices-up-to-start-2017
迴歸分析簡介 例: 工程師有興趣研究化學過程的生產量與反應時間、溫度及催化劑的種類的關係 Y-生產量 x1-反應時間 x2-溫度 https://www.thoughtco.com/definition-of-percent-yield-605899
迴歸分析簡介 例: 有興趣消費者的特徵與信用卡使用金額的關係 Y-信用卡費用 x1-性別 x2-收入 x3-家庭人口數 x4-教育程度 https://kknews.cc/finance/mq8xy6.html
迴歸函數 Y是一個隨機變數 x1,x2,..,xk 是固定的已知變數 Y的平均數與x1,x2,..,xk 的真正關係如下: 𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )=E(Y|x1,x2,..,xk ) 在統計上, 𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )稱為條件期望值 在迴歸上, 𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )稱為迴歸函數
迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 線性迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 𝒆 𝜷 𝟏 𝒙 指數迴歸函數 2019/5/10 迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 線性迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 𝒆 𝜷 𝟏 𝒙 指數迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙+ 𝜷 𝟐 𝒙 𝟐 二次迴歸函數
線性迴歸函數 若假設Y~N( 𝝁 𝒀 𝒙 , σ2) y 𝝁 𝒀 𝒙 𝒙 𝒙 𝟏 𝒙 𝟐 𝒙 𝟑
迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 線性迴歸函數2個自變數 空間中 的平面 2019/5/10 迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 線性迴歸函數2個自變數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 =50+10 𝒙 𝟏 +7 𝒙 𝟐 空間中 的平面
2019/5/10 迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 + 𝜷 𝟑 𝒙 𝟏 𝟐 + 𝜷 𝟒 𝒙 𝟐 𝟐 + 𝜷 𝟓 𝒙 𝟏 𝒙 𝟐 二次迴歸函數2個自變數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 =800+10 𝒙 𝟏 +7 𝒙 𝟐 +8.5 𝒙 𝟏 𝟐 −5 𝒙 𝟐 𝟐 +4 𝒙 𝟏 𝒙 𝟐 空間中 的曲面
簡單線性迴歸 簡單線性迴歸:僅牽涉到單一自變數與單一因變數,而且兩變數間的關係近似一條直線。這種類型稱為簡單線性迴歸 (simple linear regression)。 複迴歸分析:牽涉兩個或以上自變數的迴歸分析稱為複迴歸分析 (multiple regression analysis) 。
簡單線性迴歸的模式 模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 , 𝒊=𝟏,𝟐,⋯,𝒏 Y 𝒊 -因變數(dependent variable),為一隨機變數 𝒙 𝒊 -自變數(independent variable) 𝜷 𝟎 -截距(intercept) 𝜷 𝟏 -斜率(slope) 𝜺 𝒊 -誤差(error),為一隨機變數 𝜷 𝟎 及 𝜷 𝟏 為迴歸模式中的未知參數(parameter)
簡單線性迴歸的假設 假設 𝜺 1 , 𝜺 𝟐 ,⋯, 𝜺 𝒏 是一個隨機樣本來自N(0, 𝝈𝟐) 𝝈𝟐也是未知參數 模式+假設 𝒀 𝒊 ~ 𝑵(𝝁 𝒀 𝒙 𝒊 , 𝝈𝟐), 𝒊=𝟏,𝟐,⋯,𝒏
誤差 𝜺 𝒊 = 𝒚 𝒊 − 𝝁 𝒀 𝒙 𝒊 = Y 𝒊 − 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 𝒚 𝒊 白色空心點是資料點 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 白色空心點是資料點 實際資料點不一定會落在線上 資料點到迴歸函數的垂直距離稱為誤差(error) ( 𝒙 𝟏 , 𝒚 𝟏 ) ( 𝒙 𝟏 , 𝝁 𝒀 𝒙 𝟏 ) 𝒙 𝒊
散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 完全正線性相關 高度正線性相關 低度正線性相關 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 完全正線性相關 高度正線性相關 低度正線性相關 無關 http://www.cqeacademy.com/cqe-body-of-knowledge/continuous-improvement/quality-control-tools/the-scatter-plot-linear-regression/
散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 低度負線性相關 高度負線性相關 完全負線性相關 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 低度負線性相關 高度負線性相關 完全負線性相關 http://www.cqeacademy.com/cqe-body-of-knowledge/continuous-improvement/quality-control-tools/the-scatter-plot-linear-regression/
散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 非線性相關 非線性相關 非線性相關 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 非線性相關 非線性相關 非線性相關 http://open.lib.umn.edu/intropsyc/chapter/2-2-psychologists-use-descriptive-correlational-and-experimental-research-designs-to-understand-behavior/
散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 變異數遞增 有3集團(cluster) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 變異數遞增 變異數不是常數 (non-constant variance) 有3集團(cluster) Aggregated data 聚合的資料 http://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling-statistics/regression/supporting-topics/basics/linear-nonlinear-and-monotonic-relationships/ http://support.minitab.com/en-us/minitab-express/1/help-and-how-to/graphs/scatterplot/interpret-the-results/key-results/
散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 有影響力的觀察值 極端值(outlier) 𝒙 𝒊 與 𝒚 𝒊 之間的關係,最容易由散佈圖呈現出來 有影響力的觀察值 Influential observation 極端值(outlier)
估計的迴歸線 迴歸函數 𝝁 𝒀 𝒙 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 迴歸模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 迴歸函數 𝝁 𝒀 𝒙 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 迴歸模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 𝜷 𝟎 及 𝜷 𝟏 為未知參數(parameter) 所以要估計 𝜷 𝟎 及 𝜷 𝟏 得到 𝜷 𝟎 及 𝜷 𝟏 的估計值後,就得到估計的迴歸線 我們採用最小平方法來的到估計值 所以估計的迴歸線也稱為最小平方線
估計的迴歸線 𝒚 𝒊 = 𝝁 𝒀 𝒙 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 𝒃 𝟎 = 𝜷 𝟎 是截距 𝜷 𝟎 的估計值 𝒚 𝒊 = 𝝁 𝒀 𝒙 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 𝒃 𝟎 = 𝜷 𝟎 是截距 𝜷 𝟎 的估計值 𝒃 𝟏 = 𝜷 𝟏 是斜率 𝜷 𝟏 的估計值 𝒚 𝒊 是 𝒚 𝒊 的估計值或預測值 殘差(residual)是實際值 𝒚 𝒊 與預測值 𝒚 𝒊 的差異 𝒆 𝒊 = 𝒚 𝒊 − 𝒚 𝒊
殘差 𝒆 𝒊 = 𝒚 𝒊 − 𝒚 𝒊 殘差(residual)是實際值 𝒚 𝒊 與預測值 𝒚 𝒊 的差異 就是資料點到估計的迴歸線的垂直距離
最小平方法 找一條估計的迴歸線 𝒚 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 ,也就是找 𝒃 𝟎 及 𝒃 𝟏 ,使得殘差(誤差)平方和SSE最小 殘差(誤差)平方和(Error Sum of Squares) SSE= 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐
最小平方法 good line SSE小 bad line SSE大
最小平方法 可以證明 斜率 𝜷 𝟏 的估計值 𝒃 𝟏 = 𝜷 𝟏 = 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 )( 𝒚 𝒊 − 𝒚 ) 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝒚 𝒊 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝒚 𝒊 −𝒏 𝒙𝒚 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 截距 𝜷 𝟎 的估計值 𝒃 𝟎 = 𝜷 𝟎 = 𝒚 − 𝒃 𝟏 𝒙
誤差項的母體變異數的估計 可以證明誤差項的母體變異數𝝈𝟐的不偏估計量(不高估也不低估)為殘差(誤差)平方和SSE的平均,稱為均方MSE(Mean of the Squared Errors) SSE= 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 = 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 𝒏−𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 𝒏−𝟐
Linear Regression Analysis 5E Montgomery, Peck & Vining Example 2.1 – The Rocket Propellant Data 切割力 推進燃料的年齡(週) n=20
輸入資料 > rocket<-read.csv(file="c:/RData/rocket.csv", header=T) > rocket observation strength age 1 1 2158.70 15.50 2 2 1678.15 23.75 3 3 2316.00 8.00 4 4 2061.30 17.00 5 5 2207.50 5.50 6 6 1708.30 19.00 7 7 1784.70 24.00 8 8 2575.00 2.50 9 9 2357.90 7.50 10 10 2256.70 11.00 11 11 2165.20 13.00 12 12 2399.55 3.75 13 13 1779.80 25.00 14 14 2336.75 9.75 15 15 1765.30 22.00 16 16 2053.50 18.00 17 17 2414.40 6.00 18 18 2200.50 12.50 19 19 2654.20 2.00 20 20 1753.70 21.50
輸入資料 > names(rocket) # rocket 資料集中的變數名稱 [1] "observation" "strength" "age" > dim(rocket) # rocket 資料集的維度 [1] 20 3
建立data frame > y<-c(2158.70, 1678.15, 2316.00, 2061.00, 2207.50, 1708.30, 1784.70, 2575.00, 2357.90, 2256.70, 2165.20, 2399.55, 1779.80, 2336.75, 1765.30, 2053.50, 2414.40, 2200.50, 2654.20, 1753.70) > x<-c(15.50, 23.75, 8.00, 17.00, 5.50, 19.00, 24.00, 2.50, 7.50, 11.00, 13.00, 3.75, 25.00, 9.75, 22.00, 18.00, 6.00, 12.50, 2.00, 21.50) > rocket1<-data.frame(y,x)
Linear Regression Analysis 5E Montgomery, Peck & Vining 散佈圖顯示切割力與推進燃料的年齡 有強的線性關係
散佈圖 > plot(rocket$age, rocket$strength) # make a scatter plot
散佈圖 > attach(rocket) > par(mfrow=c(2,2)) > plot(age, strength) # points are circles > plot(age, strength, pch=16) # points are solid circles > plot(age, strength, pch=16, cex=2) # cex control size > plot(age, strength, pch=16, cex=2, col=2) # col control colour
散佈圖
散佈圖 > par(mfrow=c(1,1)) plot(age, strength, pch=16, cex=1, col=2, xlab="age of propellant", ylab="shear strength", main="Scatter plot", cex.main=2) # add title
散佈圖
散佈圖加估計的迴歸線 > rocket.lm<-lm(strength~age, data=rocket) # fit a simple linear regression model > plot(strength ~ age, data=rocket, pch=16, main="Scatter plot") > abline(reg=rocket.lm) # plot the regression line on scatter plot
散佈圖加估計的迴歸線
Example 2.1- Rocket Propellant Data Linear Regression Analysis 5E Montgomery, Peck & Vining Example 2.1- Rocket Propellant Data
Example 2.1- Rocket Propellant Data Linear Regression Analysis 5E Montgomery, Peck & Vining Example 2.1- Rocket Propellant Data 推進燃料的年齡每增加一週, 平均切割力減少37.15 剛製造完時, 推進燃料的平均切割力為2627.82 The least squares regression line is 最小平方迴歸線
Linear Regression Analysis 5E Montgomery, Peck & Vining 殘差 =
簡單線性迴歸模式 > rocket.lm<-lm(strength~age, data=rocket) > rocket.lm Call: lm(formula = strength ~ age, data = rocket) Coefficients: (Intercept) age 2627.82 -37.15 𝑏 1 = 𝛽 1 =-37.15 𝑏 0 = 𝛽 0 =2627.82
定理 若𝜺 1 , 𝜺 𝟐 ,⋯, 𝜺 𝒏 是一個隨機樣本來自N(0, 𝝈𝟐) 則可以證明 𝒃 𝟏 ~N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 )= N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ) 𝒃 𝟎 ~N 𝜷 𝟎 ,𝝈𝟐 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 =N 𝜷 𝟎 ,𝝈𝟐 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐
斜率的假設檢定 為檢定是否存在顯著的迴歸關係,我們必須進行 𝜷 𝟏 是否為 0 的假設檢定 步驟 1. 建立適當的虛無和對立假設 H0 : 𝜷 𝟏 = 0 H0 : 𝜷 𝟏 ≤ 0 H0 : 𝜷 𝟏 ≥ 0 H1 : 𝜷 𝟏 ≠ 0 H1 : 𝜷 𝟏 > 0 H1 : 𝜷 𝟏 < 0 雙尾 右尾 左尾 H0 : 𝜷 𝟏 = 0 ⇔ H0 :迴歸線的斜率為0 ⇔ H0 :x與y之間沒有線性關係
斜率的假設檢定 步驟 2. 確認檢定統計量及其分配 𝑻= 𝒃 𝟏 − 𝜷 1 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝑻= 𝒃 𝟏 − 𝜷 1 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 因為當H0 : 𝜷 𝟏 = 0為真, 𝒃 𝟏 ~N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ) 所以𝑻= 𝒃 𝟏 − 𝜷 1 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ~t(n-2) 自由度為n-2的t分配 步驟 3. 選定顯著水準α
斜率的假設檢定 步驟 4. 寫出決策法則(臨界值法) 利用比較觀察的檢定統計量 Tobs值 與臨界值,以進行檢定。 雙尾:若Tobs>tα/2(n-2)或Tobs<-tα/2(n-2),拒絕 H0 右尾:若Tobs>tα(n-2),則拒絕 H0 左尾:若Tobs<-tα(n-2),則拒絕 H0
斜率的假設檢定 步驟 4. 寫出決策法則(p值法) 決策法則是: 若 p 值 < α,則拒絕H0 p 值公式 雙尾:p 值=2P(T ≥ |Tobs| |當H0為真) 右尾:p 值=P(T ≥ Tobs |當H0為真) 左尾:p 值=P(T ≤ Tobs |當H0為真)
> summary(rocket.lm) # estimated coefficients, tests Call: lm(formula = strength ~ age, data = rocket) Residuals: Min 1Q Median 3Q Max -215.98 -50.68 28.74 66.61 106.76 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2627.822 44.184 59.48 < 2e-16 *** age -37.154 2.889 -12.86 1.64e-10 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 96.11 on 18 degrees of freedom Multiple R-squared: 0.9018, Adjusted R-squared: 0.8964 F-statistic: 165.4 on 1 and 18 DF, p-value: 1.643e-10 𝜎 =96.11
Linear Regression Analysis 5E Montgomery, Peck & Vining
斜率的假設檢定-F檢定 除了可以用t檢定檢定斜率外 另一種檢定斜率的方式是用F檢定 H0 : 𝜷 𝟏 = 0 H1 : 𝜷 𝟏 ≠ 0 雙尾 因為由數理統計可得 若T~t(n-2),則F= 𝑻 𝟐 ~𝑭 𝟏, 𝒏−𝟐
迴歸的ANOVA表 迴歸變異數分析表 變異 來源 平方和 自由度 均方 F值 SSR= 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 1 MSR= SSR 1 F= 𝑴𝑺𝑹 𝑴𝑺𝑬 誤差 SSE= 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 n-2 𝝈 𝟐 =MSE= SSE 𝒏−2 總和 SST= 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 n-1 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 = 𝒊=𝟏 𝒏 𝒚 𝒊 𝟐 −𝒏 𝒚 𝟐
迴歸的ANOVA表 總平方和 SST =Total sum of squares = 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 = 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 =total sample variability 總樣本變異 Bad line
迴歸的ANOVA表 誤差平方和 SSE =Error sum of squares = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 =unexplained sample variability 未解釋變異 good line
迴歸的ANOVA 總變異=解釋變異+未解釋變異 SST=SSR+SSE 迴歸平方和 SSR =Regression sum of squares = 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 =可以被迴歸線解釋的變異
迴歸的ANOVA表 迴歸變異數分析表 變異 來源 平方和 自由度 均方 F值 SSR= 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 1 MSR= SSR 1 F= 𝑴𝑺𝑹 𝑴𝑺𝑬 誤差 SSE= 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 n-2 𝝈 𝟐 =MSE= SSE 𝒏−2 總和 SST= 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 n-1 決策法則:若Fobs= 𝑴𝑺𝑹 𝑴𝑺𝑬 >Fα(1, n-2),則拒絕 H0 若 p 值 < α,則拒絕H0,p 值=P(F ≥ Fobs|當H0為真)
迴歸ANOVA > rocket.lm<-lm(strength~age, data=rocket) Analysis of Variance Table Response: strength Df Sum Sq Mean Sq F value Pr(>F) age 1 1527483 1527483 165.38 1.643e-10 *** Residuals 18 166255 9236 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Linear Regression Analysis 5E Montgomery, Peck & Vining
斜率的信賴區間 𝜷 𝟏 的100(1-α)%的信賴區間為 𝒃 𝟏 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝒃 𝟏 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 斜率 𝜷 𝟏 的 點估計量 𝒃 𝟏 的標準誤
截距的信賴區間 𝜷 0 的100(1-α)%的信賴區間為 𝒃 0 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 截距 𝜷 0 的 點估計量 𝒃 0 的標準誤
迴歸係數的信賴區間 > n<-length(strength) > beta1<-coef(rocket.lm)[2] > beta0<-coef(rocket.lm)[1] > SE.beta1<-2.889 > SE.beta0<-44.184 > qt(.975, n-2) [1] 2.100922 > c(beta1-qt(.975, n-2)*SE.beta1, beta1+qt(.975, n-2)*SE.beta1) age age -43.22315 -31.08403 > c(beta0-qt(.975, n-2)*SE.beta0, beta0+qt(.975, n-2)*SE.beta0) (Intercept) (Intercept) 2534.995 2720.649
Linear Regression Analysis 5E Montgomery, Peck & Vining Also see page 30, text
迴歸分析與相關分析 在迴歸分析,Y-反應變數或因變數 x-解釋變數或自變數 Y是隨機變數,x不是隨機變數 簡單線性迴歸將一個反應變數與一個解釋變數的關聯建模 在相關分析,X與Y-沒有自變數或因變數的區別 Y是隨機變數,X也是隨機變數 相關係數測量X與Y之間線性關係的強度
相關分析裡統計推論所需假設 X與Y服從一個雙變量的常態分配,有5個參數 𝝁 𝑿 、 𝝁 𝒀 、 𝝈 𝑿 𝟐 、 𝝈 𝒀 𝟐 、𝝆, X與Y的機率密度函數如下: 𝒇 𝒙,𝒚 = 𝟏 𝟐𝝅 𝝈 𝑿 𝝈 𝒀 𝟏− 𝝆 𝟐 ×exp − 1 2 𝟏− 𝝆 𝟐 𝑥− 𝜇 𝑋 𝜎 𝑋 2 + 𝑦− 𝜇 𝑌 𝜎 𝑌 2 −2 𝑥− 𝜇 𝑋 𝜎 𝑋 𝑦− 𝜇 𝑌 𝜎 𝑌 https://math.stackexchange.com/questions/1422374/bivariate-normal-distribution-of-points
母體相關係數 𝝆-X與Y的母體相關係數(correlation coefficient) 𝐶𝑂𝑉(𝑋,𝑌)是X與Y的母體共變數(covriance) 𝐶𝑂𝑉(𝑋,𝑌)=E[(X- 𝜇 𝑋 )(Y- 𝜇 Y )] = 𝐸 𝑋𝑌 −𝐸 𝑋 𝐸(𝑌) 𝜎 𝑋 2 = Var(X)=E[(X- 𝜇 𝑋 )2] =E[X2] – E(X) 2 𝜎 Y 2 = Var(Y)=E[(Y- 𝜇 Y )2] =E[Y2] – E(Y) 2
Pearson樣本相關係數 我們用樣本相關係數去估計母體相關係數 r-X與Y的樣本相關係數 公式1 由原始資料計算 𝒓= 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝒙 )( 𝑦 𝑖 − 𝑦 ) 𝒏−𝟏 𝑖=1 𝑛 ( 𝒙 𝒊 − 𝒙 ) 𝟐 𝒏−𝟏 𝑖=1 𝑛 ( 𝒚 𝒊 − 𝒚 ) 𝟐 𝒏−𝟏 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝒚 𝒊 −𝒏 𝒙 𝒚 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝒊=𝟏 𝒏 𝒚 𝒊 𝟐 −𝒏 𝒚 𝟐 公式2 由迴歸線斜率計算 𝒓= 𝒃 𝟏 𝒔 𝒙 𝒔 𝒚 公式3 由判定係數計算 𝒓=( 𝒃 𝟏 的正負號) 𝑹 𝟐 公式3只適用於簡單線性迴歸
相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 https://psychlopedia.wikispaces.com/Correlation+Coefficient
相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r=-1⇒完全負線性相關 r=1⇒完全正線性相關 https://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2CorrelationCoefficients.html
相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r=0⇒沒有線性相關 https://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2CorrelationCoefficients.html
相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r是正的, r接近0 ⇒弱正線性相關 r接近1⇒強正線性相關 https://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2CorrelationCoefficients.html
相關係數的特性 相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r是負的, r接近0 ⇒弱負線性相關 r接近-1⇒強負線性相關 https://mathbitsnotebook.com/Algebra1/StatisticsReg/ST2CorrelationCoefficients.html
相關係數的特性 相關係數r與估計的迴歸線的斜率 𝒃 𝟏 正負號相同 相關係數r和X與Y的測量單位無關 只看相關係數r但不看散佈圖有可能被誤導 https://saylordotorg.github.io/text_introductory-statistics/s14-02-the-linear-correlation-coeffic.html
相關係數的特性 相關係數r與估計的迴歸線的斜率 𝒃 𝟏 正負號相同 相關係數r和X與Y的測量單位無關 只看相關係數r但不看散佈圖有可能被誤導 六年級 閱讀能力 五年級 四年級 三年級 每週看電視時數 http://www.jerrydallal.com/lhsp/corr.htm
相關係數的特性 相關係數r與估計的迴歸線的斜率 𝒃 𝟏 正負號相同 相關係數r和X與Y的測量單位無關 只看相關係數r但不看散佈圖有可能被誤導 焦慮 成就需求 http://slideplayer.com/slide/9974311/
相關係數的假設檢定 假設X與Y服從一個雙變量的常態分配 為檢定是否存在顯著的線性關係,我們必須進行𝝆是否為 0 的假設檢定 步驟 1. 建立適當的虛無和對立假設 H0 : 𝝆 = 0 H1 : 𝝆 ≠ 0 雙尾 步驟 2. 確認檢定統計量及其分配 𝑻= 𝒓 𝒔 𝒓 ~t(n-2) 自由度為n-2的t分配當H0 :𝝆=0為真
相關係數的假設檢定 步驟 2. 確認檢定統計量及其分配 𝑻= 𝒓 𝒔 𝒓 , 𝒔 𝒓 = 𝟏− 𝒓 𝟐 𝒏−𝟐 r的標準誤 步驟 3. 選定顯著水準α 步驟 4. 寫出決策法則(臨界值法) 雙尾:若Tobs>tα/2(n-2)或Tobs<-tα/2(n-2),拒絕 H0 決策法則(p值法) 若 p 值 < α,則拒絕H0 雙尾:p 值=2P(T ≥ |Tobs| |當H0為真)
Linear Regression Analysis 5E Montgomery, Peck & Vining Example 3-1. The Delivery Time Data
相關分析 > delivery<-read.csv(file="c:/RData/Delivery.csv", header=T) > head(delivery) Observation Time Cases 1 1 16.68 7 2 2 11.50 3 3 3 12.03 3 4 4 14.88 4 5 5 13.75 6 6 6 18.11 7
相關分析 > attach(delivery) > r<-cor(Time, Cases) # compute the correlation coefficeint > r [1] 0.9646146
Linear Regression Analysis 5E Montgomery, Peck & Vining x-運送箱數 y-運送時間 n=25
相關分析 > n<-length(Time) > t<-r/sqrt((1-r^2)/(n-2)) # test for rao=0 > t [1] 17.54555 > qt(.975, n-2) [1] 2.068658 > pvalue<-2*(1-pt(abs(t),n-2)) > pvalue [1] 8.21565e-15
Linear Regression Analysis 5E Montgomery, Peck & Vining 拒絕H0, 運送時間與運送箱數有顯著線性相關
付出最多的人,也是收穫最多的人 ~共勉之~