Presentation is loading. Please wait.

Presentation is loading. Please wait.

課程九 迴歸與相關1.

Similar presentations


Presentation on theme: "課程九 迴歸與相關1."— Presentation transcript:

1 課程九 迴歸與相關1

2 簡介 假設變數之間呈線性關係。 如果依變數是連續變數就可進行迴歸;自變數可以是類別或是連續變數。 可根據迴歸係數預測依變數。
迴歸只表示某一變數依照另一變數的變化程度;因果關係是理論得來的不是根據迴歸分析結果。

3 Y的平均值 根據最小平方法得出的迴歸線會通過X所對應Y的平均值。
而每一個E(Y|X)有變異數,迴歸成立的條件之一是該變異數相等,或是說當變異數不等,最小平方法不適用。 E(Y|X)的分佈應該成常態分佈(不過這個條件不影響迴歸模型是否成立)

4 符號 如果用X表示自變數,Y表示依變數。 如果X, Y皆是母體資料,Y=α+βX

5

6

7 α,β 如果β>0,迴歸線上升,代表X對於Y有正向作用,X越大則Y越大。反之則是代表有負向作用, X越大則Y越小。

8 線性迴歸 線性指的是β係數是一次方,但是自變數X可以不必是一次方。 例如:Y= α+βX2是線性,但是Y= α+√βX不是。
α、β是我們關心的「母體」,我們根據樣本資料可估計a, b來推論α、β,並且加以檢定。

9 迴歸係數的求法

10 最小平方法 根據X, Y的觀察值,以最小平方法計算b, a,也就是說y_hat=a+bx。y_hat是代入x之後的預測值。
y_hat的平均值等於y的平均值 yi=a+bxi+ui (完整的迴歸模型) E(yi|xi)= a+bxi(預測模型) ui =yi - E(yi|xi)= yi - a+bxi (殘差)

11 迴歸線必通過x,y的平均值

12 線性迴歸估計 每一個樣本裡有許多觀察值,如果變數x, y之間有線性關係,我們計算得出a, b, y_hat等等。

13 殘差 SSE=sum of squared errors,也就是觀察值y跟預測值y-hat(=a+bx)之間的差、也就是殘差的平方和。

14 總平方和及殘差平方和 總平方和(Total sum of squares):變數的變異數Σ(y - y_bar)2
殘差平方和(Sum of squared errors, residual sum of squares):觀察值與預測值之間的差,也就是迴歸方程式無法解釋的部份。 Σ(y - y_hat)2 總平方和減掉殘差平方和等於迴歸平方和(RSS, Regression sum of squares)

15 估計y的條件標準差, standard error of the estimate(SEE)

16 SEE 可做為迴歸係數的變異數之估計值。 所以自變數x的變異數越大(或是樣本數越大),在相同的SEE之下,b的標準誤越小,也就是越集中。

17

18

19

20 交通工具與手機費用 Coefficients: Estimate S. E. t Pr(>|t|)
(Intercept) <.01 trans.n <.01 Residual standard error: on 269 degrees of freedom

21 交通工具與手機費用 sse<-sqrt(sum(m1$residuals^2)/269)
diff.x<-trans.n-mean(trans.n) se.b<-sse/sqrt(sum(diff.x^2)) se.b

22

23

24 Why are there so many Buchanan Voters in Palm Beach County?
2000年的美國總統選舉中,佛羅里達州的Palm Beach郡投票結果顯示保守派候選人布坎南(Buchanan)獲得3407票,但是他所屬政黨認為當地最多只有400個支持者。 因此,有人認為布坎南的票其實部份來自於本來要投給Gore卻誤投給布坎南. 如果布坎南的票都不是誤投,理論上布希的票越多,布坎南票應該越多。

25

26 特殊的觀察值

27

28 原始模型及去掉特殊值模型 Coef. Estimate Std. Error t value Pr(>|t|)
(Intercept) BUSHvote e-08 *** Coef Estimate Std. Error t value Pr(>|t|) (Intercept) *** BUSHvote < 2e-16 ***

29 預測值 觀察值 預測值 差 Bush 152846 796(原始迴歸線) =3407-796=2610 Buchanan 3407
597(去掉Palm Beach) = = 2809

30 小結 根據兩個迴歸模型,Bush在Palm Beach可能少了2610或是2809票。Buchanan應該只得796或597票。
預測值有助於我們瞭解觀察值與迴歸方程式之間的差別。

31 結論 瞭解迴歸方程式的意義 瞭解迴歸係數的求法 瞭解預測值的求法 瞭解殘差的意義 瞭解依變數的條件標準差的求法


Download ppt "課程九 迴歸與相關1."

Similar presentations


Ads by Google