R教學迴歸分析R指令與範例羅琪老師.

R教學迴歸分析R指令與範例羅琪老師

迴歸分析簡介迴歸分析（Regression Analysis）是一種統計學上分析資料的方法，目的在於了解兩個或多個變數之間的關係，並建立數學模式，以便根據觀察特定變數來預測研究者感興趣的變數。迴歸分析適用於很多領域，包含：社會科學、物理和生物科學、商業、工程和人文學科等。

迴歸分析簡介 Y-反應變數(response variable) 因變數(dependent variable) 就是想預測的變數
x1,x2,..,xk -解釋變數(explanatory variables) 自變數(independent variables) 預測變數(predictor variables) 就是用來預測反應變數之數值的變數迴歸分析將一個反應變數與一組解釋變數的關聯建模。

迴歸分析簡介例: 行銷經理要預測的是銷售額 Y-產品銷售額 x1-產品價格 x2-其他競爭產品的價格 x3-廣告花費

迴歸分析簡介例: 某經濟學家有興趣知道汽油價格的改變對汽油需求的影響 Y-汽油需求 x-汽油價格

迴歸分析簡介例: 工程師有興趣研究化學過程的生產量與反應時間、溫度及催化劑的種類的關係 Y-生產量 x1-反應時間 x2-溫度

迴歸分析簡介例: 有興趣消費者的特徵與信用卡使用金額的關係 Y-信用卡費用 x1-性別 x2-收入 x3-家庭人口數 x4-教育程度

迴歸函數 Y是一個隨機變數 x1,x2,..,xk 是固定的已知變數 Y的平均數與x1,x2,..,xk 的真正關係如下：
𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )=E(Y|x1,x2,..,xk ) 在統計上， 𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )稱為條件期望值在迴歸上， 𝝁 𝒀 ( 𝒙 𝟏 , 𝒙 𝟐 ,…, 𝒙 𝒌 )稱為迴歸函數

迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 線性迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 𝒆 𝜷 𝟏 𝒙 指數迴歸函數
2019/5/10 迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 線性迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 𝒆 𝜷 𝟏 𝒙 指數迴歸函數 𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙+ 𝜷 𝟐 𝒙 𝟐 二次迴歸函數

線性迴歸函數若假設Y~N( 𝝁 𝒀 𝒙 , σ2) y 𝝁 𝒀 𝒙 𝒙 𝒙 𝟏 𝒙 𝟐 𝒙 𝟑

迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 線性迴歸函數2個自變數空間中的平面
2019/5/10 迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 線性迴歸函數2個自變數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 =50+10 𝒙 𝟏 +7 𝒙 𝟐 空間中的平面

2019/5/10 迴歸函數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝟏 + 𝜷 𝟐 𝒙 𝟐 + 𝜷 𝟑 𝒙 𝟏 𝟐 + 𝜷 𝟒 𝒙 𝟐 𝟐 + 𝜷 𝟓 𝒙 𝟏 𝒙 𝟐 二次迴歸函數2個自變數 𝝁 𝒀 𝒙 𝟏 , 𝒙 𝟐 = 𝒙 𝟏 +7 𝒙 𝟐 +8.5 𝒙 𝟏 𝟐 −5 𝒙 𝟐 𝟐 +4 𝒙 𝟏 𝒙 𝟐 空間中的曲面

簡單線性迴歸簡單線性迴歸：僅牽涉到單一自變數與單一因變數，而且兩變數間的關係近似一條直線。這種類型稱為簡單線性迴歸 (simple linear regression)。複迴歸分析：牽涉兩個或以上自變數的迴歸分析稱為複迴歸分析 (multiple regression analysis) 。

簡單線性迴歸的模式模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 , 𝒊=𝟏,𝟐,⋯,𝒏
Y 𝒊 -因變數(dependent variable)，為一隨機變數 𝒙 𝒊 -自變數(independent variable) 𝜷 𝟎 -截距(intercept) 𝜷 𝟏 -斜率(slope) 𝜺 𝒊 -誤差(error)，為一隨機變數 𝜷 𝟎 及 𝜷 𝟏 為迴歸模式中的未知參數(parameter)

簡單線性迴歸的假設假設 𝜺 1 , 𝜺 𝟐 ,⋯, 𝜺 𝒏 是一個隨機樣本來自N(0, 𝝈𝟐) 𝝈𝟐也是未知參數模式+假設
𝒀 𝒊 ~ 𝑵(𝝁 𝒀 𝒙 𝒊 , 𝝈𝟐), 𝒊=𝟏,𝟐,⋯,𝒏

誤差 𝜺 𝒊 = 𝒚 𝒊 − 𝝁 𝒀 𝒙 𝒊 = Y 𝒊 − 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 𝒚 𝒊 白色空心點是資料點
𝝁 𝒀 𝒙 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 白色空心點是資料點實際資料點不一定會落在線上資料點到迴歸函數的垂直距離稱為誤差(error) ( 𝒙 𝟏 , 𝒚 𝟏 ) ( 𝒙 𝟏 , 𝝁 𝒀 𝒙 𝟏 ) 𝒙 𝒊

散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係，最容易由散佈圖呈現出來完全正線性相關高度正線性相關低度正線性相關
𝒙 𝒊 與 𝒚 𝒊 之間的關係，最容易由散佈圖呈現出來完全正線性相關高度正線性相關低度正線性相關無關

散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係，最容易由散佈圖呈現出來低度負線性相關高度負線性相關完全負線性相關
𝒙 𝒊 與 𝒚 𝒊 之間的關係，最容易由散佈圖呈現出來低度負線性相關高度負線性相關完全負線性相關

散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係，最容易由散佈圖呈現出來非線性相關非線性相關非線性相關
𝒙 𝒊 與 𝒚 𝒊 之間的關係，最容易由散佈圖呈現出來非線性相關非線性相關非線性相關

散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係，最容易由散佈圖呈現出來變異數遞增有3集團(cluster)
𝒙 𝒊 與 𝒚 𝒊 之間的關係，最容易由散佈圖呈現出來變異數遞增變異數不是常數 (non-constant variance) 有3集團(cluster) Aggregated data 聚合的資料

散佈圖(scatter plot) 𝒙 𝒊 與 𝒚 𝒊 之間的關係，最容易由散佈圖呈現出來有影響力的觀察值極端值(outlier)
𝒙 𝒊 與 𝒚 𝒊 之間的關係，最容易由散佈圖呈現出來有影響力的觀察值 Influential observation 極端值(outlier)

估計的迴歸線迴歸函數 𝝁 𝒀 𝒙 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 迴歸模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊
迴歸函數 𝝁 𝒀 𝒙 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 迴歸模式 Y 𝒊 = 𝜷 𝟎 + 𝜷 𝟏 𝒙 𝒊 + 𝜺 𝒊 𝜷 𝟎 及 𝜷 𝟏 為未知參數(parameter) 所以要估計 𝜷 𝟎 及 𝜷 𝟏 得到 𝜷 𝟎 及 𝜷 𝟏 的估計值後，就得到估計的迴歸線我們採用最小平方法來的到估計值所以估計的迴歸線也稱為最小平方線

估計的迴歸線 𝒚 𝒊 = 𝝁 𝒀 𝒙 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 𝒃 𝟎 = 𝜷 𝟎 是截距 𝜷 𝟎 的估計值
𝒚 𝒊 = 𝝁 𝒀 𝒙 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 𝒃 𝟎 = 𝜷 𝟎 是截距 𝜷 𝟎 的估計值 𝒃 𝟏 = 𝜷 𝟏 是斜率 𝜷 𝟏 的估計值 𝒚 𝒊 是 𝒚 𝒊 的估計值或預測值殘差(residual)是實際值 𝒚 𝒊 與預測值 𝒚 𝒊 的差異 𝒆 𝒊 = 𝒚 𝒊 − 𝒚 𝒊

殘差 𝒆 𝒊 = 𝒚 𝒊 − 𝒚 𝒊 殘差(residual)是實際值 𝒚 𝒊 與預測值 𝒚 𝒊 的差異就是資料點到估計的迴歸線的垂直距離

最小平方法找一條估計的迴歸線 𝒚 𝒊 = 𝒃 𝟎 + 𝒃 𝟏 𝒙 𝒊 ，也就是找 𝒃 𝟎 及 𝒃 𝟏 ，使得殘差(誤差)平方和SSE最小
殘差(誤差)平方和(Error Sum of Squares) SSE= 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐

最小平方法 good line SSE小 bad line SSE大

最小平方法可以證明斜率 𝜷 𝟏 的估計值 𝒃 𝟏 = 𝜷 𝟏 = 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 )( 𝒚 𝒊 − 𝒚 ) 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝒚 𝒊 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝒚 𝒊 −𝒏 𝒙𝒚 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 截距 𝜷 𝟎 的估計值 𝒃 𝟎 = 𝜷 𝟎 = 𝒚 − 𝒃 𝟏 𝒙

誤差項的母體變異數的估計可以證明誤差項的母體變異數𝝈𝟐的不偏估計量(不高估也不低估)為殘差(誤差)平方和SSE的平均，稱為均方MSE(Mean of the Squared Errors) SSE= 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 = 𝒊=𝟏 𝒏 𝒆 𝒊 𝟐 𝒏−𝟐 = 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒚 𝒊 ) 𝟐 𝒏−𝟐

Linear Regression Analysis 5E Montgomery, Peck & Vining
Example 2.1 – The Rocket Propellant Data 切割力推進燃料的年齡(週) n=20

輸入資料 > rocket<-read.csv(file="c:/RData/rocket.csv", header=T) > rocket observation strength age

輸入資料 > names(rocket) # rocket 資料集中的變數名稱 [1] "observation" "strength" "age" > dim(rocket) # rocket 資料集的維度 [1] 20 3

建立data frame > y<-c( , , , , , , , , , , , , , , , , , , , ) > x<-c(15.50, 23.75, 8.00, 17.00, 5.50, 19.00, 24.00, 2.50, 7.50, 11.00, 13.00, 3.75, 25.00, 9.75, 22.00, 18.00, 6.00, 12.50, 2.00, 21.50) > rocket1<-data.frame(y,x)

散佈圖顯示切割力與推進燃料的年齡有強的線性關係

散佈圖 > plot(rocket$age, rocket$strength) # make a scatter plot

散佈圖 > attach(rocket) > par(mfrow=c(2,2)) > plot(age, strength) # points are circles > plot(age, strength, pch=16) # points are solid circles > plot(age, strength, pch=16, cex=2) # cex control size > plot(age, strength, pch=16, cex=2, col=2) # col control colour

散佈圖

散佈圖 > par(mfrow=c(1,1)) plot(age, strength, pch=16, cex=1, col=2, xlab="age of propellant", ylab="shear strength", main="Scatter plot", cex.main=2) # add title

散佈圖

散佈圖加估計的迴歸線 > rocket.lm<-lm(strength~age, data=rocket) # fit a simple linear regression model > plot(strength ~ age, data=rocket, pch=16, main="Scatter plot") > abline(reg=rocket.lm) # plot the regression line on scatter plot

散佈圖加估計的迴歸線

Example 2.1- Rocket Propellant Data
Linear Regression Analysis 5E Montgomery, Peck & Vining Example 2.1- Rocket Propellant Data

Example 2.1- Rocket Propellant Data
Linear Regression Analysis 5E Montgomery, Peck & Vining Example 2.1- Rocket Propellant Data 推進燃料的年齡每增加一週, 平均切割力減少37.15 剛製造完時, 推進燃料的平均切割力為 The least squares regression line is 最小平方迴歸線

殘差 =

簡單線性迴歸模式 > rocket.lm<-lm(strength~age, data=rocket) > rocket.lm Call: lm(formula = strength ~ age, data = rocket) Coefficients: (Intercept) age 𝑏 1 = 𝛽 1 =-37.15 𝑏 0 = 𝛽 0 =

定理若𝜺 1 , 𝜺 𝟐 ,⋯, 𝜺 𝒏 是一個隨機樣本來自N(0, 𝝈𝟐) 則可以證明
𝒃 𝟏 ~N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 )= N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ) 𝒃 𝟎 ~N 𝜷 𝟎 ,𝝈𝟐 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 ( 𝒙 𝒊 − 𝒙 ) 𝟐 =N 𝜷 𝟎 ,𝝈𝟐 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐

斜率的假設檢定為檢定是否存在顯著的迴歸關係，我們必須進行 𝜷 𝟏 是否為 0 的假設檢定步驟 1. 建立適當的虛無和對立假設
H0 : 𝜷 𝟏 = H0 : 𝜷 𝟏 ≤ H0 : 𝜷 𝟏 ≥ 0 H1 : 𝜷 𝟏 ≠ H1 : 𝜷 𝟏 > H1 : 𝜷 𝟏 < 0 雙尾右尾左尾 H0 : 𝜷 𝟏 = 0 ⇔ H0 :迴歸線的斜率為0 ⇔ H0 :x與y之間沒有線性關係

斜率的假設檢定步驟 2. 確認檢定統計量及其分配 𝑻= 𝒃 𝟏 − 𝜷 1 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐
𝑻= 𝒃 𝟏 − 𝜷 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 因為當H0 : 𝜷 𝟏 = 0為真, 𝒃 𝟏 ~N( 𝜷 𝟏 , 𝝈𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ) 所以𝑻= 𝒃 𝟏 − 𝜷 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 ~t(n-2) 自由度為n-2的t分配步驟 3. 選定顯著水準α

斜率的假設檢定步驟 4. 寫出決策法則(臨界值法) 利用比較觀察的檢定統計量 Tobs值與臨界值，以進行檢定。
雙尾：若Tobs>tα/2(n-2)或Tobs<-tα/2(n-2)，拒絕 H0 右尾：若Tobs>tα(n-2)，則拒絕 H0 左尾：若Tobs<-tα(n-2)，則拒絕 H0

> summary(rocket.lm) # estimated coefficients, tests Call:
lm(formula = strength ~ age, data = rocket) Residuals: Min Q Median Q Max Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) < 2e-16 *** age e-10 *** --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: on 18 degrees of freedom Multiple R-squared: , Adjusted R-squared: F-statistic: on 1 and 18 DF, p-value: 1.643e-10 𝜎 =96.11

斜率的假設檢定-F檢定除了可以用t檢定檢定斜率外另一種檢定斜率的方式是用F檢定 H0 : 𝜷 𝟏 = 0 H1 : 𝜷 𝟏 ≠ 0 雙尾
因為由數理統計可得若T~t(n-2)，則F= 𝑻 𝟐 ~𝑭 𝟏, 𝒏−𝟐

迴歸的ANOVA表迴歸變異數分析表變異來源平方和自由度均方 F值
SSR= 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 1 MSR= SSR 1 F= 𝑴𝑺𝑹 𝑴𝑺𝑬 誤差 SSE= 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 n-2 𝝈 𝟐 =MSE= SSE 𝒏−2 總和 SST= 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 n-1 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 = 𝒊=𝟏 𝒏 𝒚 𝒊 𝟐 −𝒏 𝒚 𝟐

迴歸的ANOVA表總平方和 SST =Total sum of squares = 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐
= 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 =total sample variability 總樣本變異 Bad line

迴歸的ANOVA表誤差平方和 SSE =Error sum of squares
= 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 =unexplained sample variability 未解釋變異 good line

迴歸的ANOVA 總變異=解釋變異+未解釋變異 SST=SSR+SSE 迴歸平方和 SSR
=Regression sum of squares = 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 =可以被迴歸線解釋的變異

迴歸的ANOVA表迴歸變異數分析表變異來源平方和自由度均方 F值
SSR= 𝒃 𝟏 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 − 𝒙 𝟐 1 MSR= SSR 1 F= 𝑴𝑺𝑹 𝑴𝑺𝑬 誤差 SSE= 𝒊=𝟏 𝒏 ( 𝒚 𝒊 − 𝒃 𝟎 − 𝒃 𝟏 𝒙 𝒊 ) 𝟐 n-2 𝝈 𝟐 =MSE= SSE 𝒏−2 總和 SST= 𝒊=𝟏 𝒏 𝒚 𝒊 − 𝒚 𝟐 n-1 決策法則：若Fobs= 𝑴𝑺𝑹 𝑴𝑺𝑬 >Fα(1, n-2)，則拒絕 H0 若 p 值 < α，則拒絕H0，p 值=P(F ≥ Fobs|當H0為真)

迴歸ANOVA > rocket.lm<-lm(strength~age, data=rocket)
Analysis of Variance Table Response: strength Df Sum Sq Mean Sq F value Pr(>F) age e-10 *** Residuals --- Signif. codes: 0 ‘***’ ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

斜率的信賴區間 𝜷 𝟏 的100(1-α)%的信賴區間為 𝒃 𝟏 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐
𝒃 𝟏 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 斜率 𝜷 𝟏 的點估計量 𝒃 𝟏 的標準誤

截距的信賴區間 𝜷 0 的100(1-α)%的信賴區間為
𝒃 0 ± 𝒕 𝜶 𝟐 (𝒏−2) 𝝈 2 𝟏 𝒏 + 𝒙 𝟐 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝝈 𝟐 =MSE= 𝑺𝑺𝑬 𝒏−𝟐 截距 𝜷 0 的點估計量 𝒃 0 的標準誤

迴歸係數的信賴區間 > n<-length(strength) > beta1<-coef(rocket.lm)[2] > beta0<-coef(rocket.lm)[1] > SE.beta1< > SE.beta0< > qt(.975, n-2) [1] > c(beta1-qt(.975, n-2)*SE.beta1, beta1+qt(.975, n-2)*SE.beta1) age age > c(beta0-qt(.975, n-2)*SE.beta0, beta0+qt(.975, n-2)*SE.beta0) (Intercept) (Intercept)

Also see page 30, text

迴歸分析與相關分析在迴歸分析，Y-反應變數或因變數 x-解釋變數或自變數 Y是隨機變數，x不是隨機變數
簡單線性迴歸將一個反應變數與一個解釋變數的關聯建模在相關分析，X與Y-沒有自變數或因變數的區別 Y是隨機變數，X也是隨機變數相關係數測量X與Y之間線性關係的強度

相關分析裡統計推論所需假設 X與Y服從一個雙變量的常態分配，有5個參數 𝝁 𝑿 、 𝝁 𝒀 、 𝝈 𝑿 𝟐 、 𝝈 𝒀 𝟐 、𝝆， X與Y的機率密度函數如下： 𝒇 𝒙,𝒚 = 𝟏 𝟐𝝅 𝝈 𝑿 𝝈 𝒀 𝟏− 𝝆 𝟐 ×exp − 1 2 𝟏− 𝝆 𝟐 𝑥− 𝜇 𝑋 𝜎 𝑋 𝑦− 𝜇 𝑌 𝜎 𝑌 2 −2 𝑥− 𝜇 𝑋 𝜎 𝑋 𝑦− 𝜇 𝑌 𝜎 𝑌

母體相關係數 𝝆-X與Y的母體相關係數(correlation coefficient)
𝐶𝑂𝑉(𝑋,𝑌)是X與Y的母體共變數(covriance) 𝐶𝑂𝑉(𝑋,𝑌)=E[(X- 𝜇 𝑋 )(Y- 𝜇 Y )] = 𝐸 𝑋𝑌 −𝐸 𝑋 𝐸(𝑌) 𝜎 𝑋 2 = Var(X)=E[(X- 𝜇 𝑋 )2] =E[X2] – E(X) 2 𝜎 Y 2 = Var(Y)=E[(Y- 𝜇 Y )2] =E[Y2] – E(Y) 2

Pearson樣本相關係數我們用樣本相關係數去估計母體相關係數 r-X與Y的樣本相關係數公式1 由原始資料計算
𝒓= 𝑖=1 𝑛 ( 𝑥 𝑖 − 𝒙 )( 𝑦 𝑖 − 𝑦 ) 𝒏−𝟏 𝑖=1 𝑛 ( 𝒙 𝒊 − 𝒙 ) 𝟐 𝒏−𝟏 𝑖=1 𝑛 ( 𝒚 𝒊 − 𝒚 ) 𝟐 𝒏−𝟏 = 𝒊=𝟏 𝒏 𝒙 𝒊 𝒚 𝒊 −𝒏 𝒙 𝒚 𝒊=𝟏 𝒏 𝒙 𝒊 𝟐 −𝒏 𝒙 𝟐 𝒊=𝟏 𝒏 𝒚 𝒊 𝟐 −𝒏 𝒚 𝟐 公式2 由迴歸線斜率計算 𝒓= 𝒃 𝟏 𝒔 𝒙 𝒔 𝒚 公式3 由判定係數計算 𝒓=( 𝒃 𝟏 的正負號) 𝑹 𝟐 公式3只適用於簡單線性迴歸

相關係數的特性相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1

相關係數的特性相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r=-1⇒完全負線性相關 r=1⇒完全正線性相關

相關係數的特性相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r=0⇒沒有線性相關

相關係數的特性相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r是正的, r接近0 ⇒弱正線性相關 r接近1⇒強正線性相關

相關係數的特性相關係數的值介於-1到1之間 −1≤𝝆≤1, −1≤𝒓≤1 r是負的, r接近0 ⇒弱負線性相關 r接近-1⇒強負線性相關

相關係數的特性相關係數r與估計的迴歸線的斜率 𝒃 𝟏 正負號相同相關係數r和X與Y的測量單位無關只看相關係數r但不看散佈圖有可能被誤導

六年級閱讀能力五年級四年級三年級每週看電視時數

焦慮成就需求

相關係數的假設檢定假設X與Y服從一個雙變量的常態分配為檢定是否存在顯著的線性關係，我們必須進行𝝆是否為 0 的假設檢定
步驟 1. 建立適當的虛無和對立假設 H0 : 𝝆 = 0 H1 : 𝝆 ≠ 0 雙尾步驟 2. 確認檢定統計量及其分配 𝑻= 𝒓 𝒔 𝒓 ~t(n-2) 自由度為n-2的t分配當H0 :𝝆=0為真

相關係數的假設檢定步驟 2. 確認檢定統計量及其分配 𝑻= 𝒓 𝒔 𝒓 , 𝒔 𝒓 = 𝟏− 𝒓 𝟐 𝒏−𝟐 r的標準誤
步驟 3. 選定顯著水準α 步驟 4. 寫出決策法則(臨界值法) 雙尾：若Tobs>tα/2(n-2)或Tobs<-tα/2(n-2)，拒絕 H0 決策法則(p值法) 若 p 值 < α，則拒絕H0 雙尾：p 值=2P(T ≥ |Tobs| |當H0為真)

Example The Delivery Time Data

相關分析 > delivery<-read.csv(file="c:/RData/Delivery.csv", header=T) > head(delivery) Observation Time Cases

相關分析 > attach(delivery) > r<-cor(Time, Cases) # compute the correlation coefficeint > r [1]

x-運送箱數 y-運送時間 n=25

相關分析 > n<-length(Time) > t<-r/sqrt((1-r^2)/(n-2)) # test for rao=0 > t [1] > qt(.975, n-2) [1] > pvalue<-2*(1-pt(abs(t),n-2)) > pvalue [1] e-15

拒絕H0, 運送時間與運送箱數有顯著線性相關

付出最多的人，也是收穫最多的人 ~共勉之~

R教學迴歸分析R指令與範例羅琪老師.

Similar presentations

Presentation on theme: "R教學迴歸分析R指令與範例羅琪老師."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

R教學 迴歸分析R指令與範例 羅琪老師.

Similar presentations

Presentation on theme: "R教學 迴歸分析R指令與範例 羅琪老師."— Presentation transcript:

Similar presentations

About project

反馈

R教學迴歸分析R指令與範例羅琪老師.

Presentation on theme: "R教學迴歸分析R指令與範例羅琪老師."— Presentation transcript: