Download presentation
Presentation is loading. Please wait.
1
課程九 迴歸與相關2
2
相關 表示兩個不分依變數及自變數的變數之間的關聯程度,但是無法像迴歸一樣得到預測值。
相關(correlation)與迴歸的模型適合度(goodness of fit)有相同概念。 相關最小是-1最大是1。0代表無相關。1代表完美相關。 樣本的相關係數以r代表,母體以ρ表示。
3
R-squared R-squared 是相關係數 r 的平方。所以-1 ≤ r≤1,而0 ≤ R-squared ≤1。
R-squared 也稱為coefficient of determination, 或者是被解釋的變異量。
4
回想迴歸係數的求法
5
共變異數 共變異數意義為兩個變數之間的線性關係。 如果X,Y同時比各自的平均值大,或同時比各自的平均值小,共變異數為正
6
共變異數為正
7
迴歸係數的表示方式
8
相關係數的求法
9
數學概念補充 Var(X)=Σ(X- μ ) 2 =E(X2)-E(X)2= E(X2)-μ2 Var(X+Y)=Var(X)+Var(Y)
Σ(X+a)=ΣX+na Σ(aX)=aΣX Σ(x-x_bar)(y-y_bar)=Σxy- Σx*y_bar- Σy*x_bar+n*x_bar*y_bar= Σxy- ΣxΣy/n
10
數學概念補充 Σ(x-a)2= Σx2 -2a Σx+n*a2
Σ(x-x_bar)2= Σx2 -2a Σx+n*a2= Σx2 –(2/n)*(Σx)2+(1/n) *(Σx)2 = Σx2 –(1/n) *(Σx)2
11
例 No. of Sodas No. of Bathroom John 1 2 Tim Simon 3 Lucy 4 Mike 6 Jack
5 Ben
13
估計結果 Estimate S.E. t (Intercept) 0.8387 1.0601 0.791
sodas Multiple R-squared: , Adjusted R-squared:
14
計算r Σ(x-x_bar)(y-y_bar)= Σxy- ΣxΣy/n=14.85
Σ(x-x_bar)2= Σx2 –(1/n) *(Σx)2 = 17.71 Σ(y-y_bar)2= 19.42 r=14.85/sqrt(17.71*19.42)=0.80
15
R2的意義 總平方和(Total sum of squares):變數的變異數Σ(y - y_bar)2,也就是沒有X,只用Y的平均值來代表Y。簡稱E1。 殘差平方和(Sum of squared errors, residual sum of squares):觀察值與預測值之間的差,也就是迴歸方程式無法解釋的部份。 Σ(y - y_hat)2,簡稱E2。 變數的全部變異量減去無法解釋的部份,再除以全部變異量,便是可用X解釋的比例。 R2= E1 - E2 / E1 。
16
例 v.y<-sum((bath-m.y)^2) E1<-v.y (Y的變異數)
E2<-sum((m1$residuals^2)) (殘差平方和) (E1-E2)/E1 (代入公式) (R2)
18
線性迴歸估計 因為每一個樣本裡有許多觀察值,如果變數x, y之間有線性關係,我們計算得出a, b, y_hat等等。
19
迴歸係數的標準誤
20
迴歸係數的信賴區間 根據上面的標準誤可以用t分配建立迴歸係數的信賴區間 b±t0.025(se)或是b±t0.975(se),自由度為n-2
因為有信賴區間,所以係數估計得到的預測值也有區間。
22
迴歸係數的檢定 根據迴歸係數及標準誤,除了得出信賴區間,也可以進行t檢定,以確認是否為0。 t=b/se(b)
23
估計結果 Estimate S.E. t (Intercept) 0.8387 1.0601 0.791
sodas Multiple R-squared: , Adjusted R-squared:
24
t檢定 迴歸係數t值=0.8387/0.2805=2.99 因為t(0.025, d.f.=5)=2.570
Pr(t=2.99, d.f.=5, α=0.025)=0.015 所以α=0.05時, Pr(2.99, d.f.=5)=0.03
27
預測值 我們可以代入新的觀察值預測依變數。如果新的觀察值也是隨機分佈,應該會得到類似預測值。 x New x John 1 3.7 Tim
2 4.7 Simon 3 6.3 Lucy 5.6 Mike 4 7.4 Jack 5 8 Ben 6 8.7
30
結論 瞭解相關係數r的求法 瞭解R2的求法 瞭解預測值 瞭解迴歸係數的信賴區間以及t檢定。
Similar presentations