Download presentation
Presentation is loading. Please wait.
1
課程九 迴歸與相關1
2
簡介 假設變數之間呈線性關係。 如果依變數是連續變數就可進行迴歸;自變數可以是類別或是連續變數。 可根據迴歸係數預測依變數。
迴歸只表示某一變數依照另一變數的變化程度;因果關係是理論得來的不是根據迴歸分析結果。
3
Y的平均值 根據最小平方法得出的迴歸線會通過X所對應Y的平均值。
而每一個E(Y|X)有變異數,迴歸成立的條件之一是該變異數相等,或是說當變異數不等,最小平方法不適用。 E(Y|X)的分佈應該成常態分佈(不過這個條件不影響迴歸模型是否成立)
4
符號 如果用X表示自變數,Y表示依變數。 如果X, Y皆是母體資料,Y=α+βX
7
α,β 如果β>0,迴歸線上升,代表X對於Y有正向作用,X越大則Y越大。反之則是代表有負向作用, X越大則Y越小。
8
線性迴歸 線性指的是β係數是一次方,但是自變數X可以不必是一次方。 例如:Y= α+βX2是線性,但是Y= α+√βX不是。
α、β是我們關心的「母體」,我們根據樣本資料可估計a, b來推論α、β,並且加以檢定。
9
迴歸係數的求法
10
最小平方法 根據X, Y的觀察值,以最小平方法計算b, a,也就是說y_hat=a+bx。y_hat是代入x之後的預測值。
y_hat的平均值等於y的平均值 yi=a+bxi+ui (完整的迴歸模型) E(yi|xi)= a+bxi(預測模型) ui =yi - E(yi|xi)= yi - a+bxi (殘差)
11
迴歸線必通過x,y的平均值
12
線性迴歸估計 每一個樣本裡有許多觀察值,如果變數x, y之間有線性關係,我們計算得出a, b, y_hat等等。
13
殘差 SSE=sum of squared errors,也就是觀察值y跟預測值y-hat(=a+bx)之間的差、也就是殘差的平方和。
14
總平方和及殘差平方和 總平方和(Total sum of squares):變數的變異數Σ(y - y_bar)2
殘差平方和(Sum of squared errors, residual sum of squares):觀察值與預測值之間的差,也就是迴歸方程式無法解釋的部份。 Σ(y - y_hat)2 總平方和減掉殘差平方和等於迴歸平方和(RSS, Regression sum of squares)
15
估計y的條件標準差, standard error of the estimate(SEE)
16
SEE 可做為迴歸係數的變異數之估計值。 所以自變數x的變異數越大(或是樣本數越大),在相同的SEE之下,b的標準誤越小,也就是越集中。
20
交通工具與手機費用 Coefficients: Estimate S. E. t Pr(>|t|)
(Intercept) <.01 trans.n <.01 Residual standard error: on 269 degrees of freedom
21
交通工具與手機費用 sse<-sqrt(sum(m1$residuals^2)/269)
diff.x<-trans.n-mean(trans.n) se.b<-sse/sqrt(sum(diff.x^2)) se.b
24
Why are there so many Buchanan Voters in Palm Beach County?
2000年的美國總統選舉中,佛羅里達州的Palm Beach郡投票結果顯示保守派候選人布坎南(Buchanan)獲得3407票,但是他所屬政黨認為當地最多只有400個支持者。 因此,有人認為布坎南的票其實部份來自於本來要投給Gore卻誤投給布坎南. 如果布坎南的票都不是誤投,理論上布希的票越多,布坎南票應該越多。
26
特殊的觀察值
27
續
28
原始模型及去掉特殊值模型 Coef. Estimate Std. Error t value Pr(>|t|)
(Intercept) BUSHvote e-08 *** Coef Estimate Std. Error t value Pr(>|t|) (Intercept) *** BUSHvote < 2e-16 ***
29
預測值 觀察值 預測值 差 Bush 152846 796(原始迴歸線) =3407-796=2610 Buchanan 3407
597(去掉Palm Beach) = = 2809
30
小結 根據兩個迴歸模型,Bush在Palm Beach可能少了2610或是2809票。Buchanan應該只得796或597票。
預測值有助於我們瞭解觀察值與迴歸方程式之間的差別。
31
結論 瞭解迴歸方程式的意義 瞭解迴歸係數的求法 瞭解預測值的求法 瞭解殘差的意義 瞭解依變數的條件標準差的求法
Similar presentations