課程九 迴歸與相關1
簡介 假設變數之間呈線性關係。 如果依變數是連續變數就可進行迴歸;自變數可以是類別或是連續變數。 可根據迴歸係數預測依變數。 迴歸只表示某一變數依照另一變數的變化程度;因果關係是理論得來的不是根據迴歸分析結果。
Y的平均值 根據最小平方法得出的迴歸線會通過X所對應Y的平均值。 而每一個E(Y|X)有變異數,迴歸成立的條件之一是該變異數相等,或是說當變異數不等,最小平方法不適用。 E(Y|X)的分佈應該成常態分佈(不過這個條件不影響迴歸模型是否成立)
符號 如果用X表示自變數,Y表示依變數。 如果X, Y皆是母體資料,Y=α+βX
α,β 如果β>0,迴歸線上升,代表X對於Y有正向作用,X越大則Y越大。反之則是代表有負向作用, X越大則Y越小。
線性迴歸 線性指的是β係數是一次方,但是自變數X可以不必是一次方。 例如:Y= α+βX2是線性,但是Y= α+√βX不是。 α、β是我們關心的「母體」,我們根據樣本資料可估計a, b來推論α、β,並且加以檢定。
迴歸係數的求法
最小平方法 根據X, Y的觀察值,以最小平方法計算b, a,也就是說y_hat=a+bx。y_hat是代入x之後的預測值。 y_hat的平均值等於y的平均值 yi=a+bxi+ui (完整的迴歸模型) E(yi|xi)= a+bxi(預測模型) ui =yi - E(yi|xi)= yi - a+bxi (殘差)
迴歸線必通過x,y的平均值
線性迴歸估計 每一個樣本裡有許多觀察值,如果變數x, y之間有線性關係,我們計算得出a, b, y_hat等等。
殘差 SSE=sum of squared errors,也就是觀察值y跟預測值y-hat(=a+bx)之間的差、也就是殘差的平方和。
總平方和及殘差平方和 總平方和(Total sum of squares):變數的變異數Σ(y - y_bar)2 殘差平方和(Sum of squared errors, residual sum of squares):觀察值與預測值之間的差,也就是迴歸方程式無法解釋的部份。 Σ(y - y_hat)2 總平方和減掉殘差平方和等於迴歸平方和(RSS, Regression sum of squares)
估計y的條件標準差, standard error of the estimate(SEE)
SEE 可做為迴歸係數的變異數之估計值。 所以自變數x的變異數越大(或是樣本數越大),在相同的SEE之下,b的標準誤越小,也就是越集中。
交通工具與手機費用 Coefficients: Estimate S. E. t Pr(>|t|) (Intercept) 978.42 46.47 21.06 <.01 trans.n -240.55 20.50 -11.73 <.01 Residual standard error: 194.5 on 269 degrees of freedom
交通工具與手機費用 sse<-sqrt(sum(m1$residuals^2)/269) diff.x<-trans.n-mean(trans.n) se.b<-sse/sqrt(sum(diff.x^2)) se.b 20.5026
Why are there so many Buchanan Voters in Palm Beach County? 2000年的美國總統選舉中,佛羅里達州的Palm Beach郡投票結果顯示保守派候選人布坎南(Buchanan)獲得3407票,但是他所屬政黨認為當地最多只有400個支持者。 因此,有人認為布坎南的票其實部份來自於本來要投給Gore卻誤投給布坎南. 如果布坎南的票都不是誤投,理論上布希的票越多,布坎南票應該越多。
特殊的觀察值
續
原始模型及去掉特殊值模型 Coef. Estimate Std. Error t value Pr(>|t|) (Intercept) 45.2899 54.4794 0.831 0.409 BUSHvote 4.9168 0.7644 6.432 1.73e-08 *** Coef. Estimate Std. Error t value Pr(>|t|) (Intercept) 65.5735 17.3304 3.784 0.000343 *** BUSHvote 3.4819 0.2501 13.923 < 2e-16 ***
預測值 觀察值 預測值 差 Bush 152846 796(原始迴歸線) =3407-796=2610 Buchanan 3407 597(去掉Palm Beach) =3407-597= 2809
小結 根據兩個迴歸模型,Bush在Palm Beach可能少了2610或是2809票。Buchanan應該只得796或597票。 預測值有助於我們瞭解觀察值與迴歸方程式之間的差別。
結論 瞭解迴歸方程式的意義 瞭解迴歸係數的求法 瞭解預測值的求法 瞭解殘差的意義 瞭解依變數的條件標準差的求法