Presentation is loading. Please wait.

Presentation is loading. Please wait.

Regression Of Baseball Data

Similar presentations


Presentation on theme: "Regression Of Baseball Data"— Presentation transcript:

1 Regression Of Baseball Data
目標: 把baseball data中的各個變數, 用迴歸的方法,找出最佳的線性迴歸模式,分析選出的變數對薪水(SALARY)的影響,並且根據第一組的建議將薪水做轉換、創新變數來增加迴歸模型的解釋度。

2 Regression Of Baseball Data
原始資料的分析 變數變換後,再分析轉換後的迴歸模式 加入新的變數,再做分析 預測所缺失的薪水資料

3 原始資料的分析 變數名稱解釋: Response Varibale: SALARY87年球員的薪水
Predictor Varibale: AB上場打擊次數 C.AB生涯上場打擊次數 HIT安打數 C.H生涯安打數 HR全壘打數 C.HR生涯全壘打數 R回本壘得分數 C.R生涯回本壘得分數 RBI打點 C.RBI生涯打點 W保送 C.W生涯保送 YEAR資歷 PO使對手出局數 ASS助殺 (P.S這裡的「生涯」是指 ER失誤 球員在大聯盟的資歷)

4 原始資料的分析 The Result Of STEP:
最初先不做任何的變數變換,使用R內「step」指令,去選取原始資料中較有影響力的變數。最後所出選取較有影響的變數順序為「生涯打點」、「安打數」、「使對手出局數」、「上場打擊次數」、「保送」等五個變數(C.RBI,HIT,PO,AB,W)。接下來就對這六個變數來做迴歸分析,看看這些變數如何來解釋87年球員的薪水(SALARY)。

5 原始資料的分析 Regression Model: Result:
SALARY= *C.RBI+8.41*HIT+0.22*PO-1.86*AB+4.14*W Result:

6 原始資料的分析 Analysis: 由上一頁雖可看出,各解釋變數之係數是顯著的。其中最值得去注意的是,薪水大都會隨著解釋變數的增加而增加,除了當上場打擊次數(AB)增加,薪水反而會減少。這是蠻有意思的地方。有可能是因為:雖然他上場打擊次數很多,但有可能其表現並不佳,所以反而導致薪水隨著上場打擊次數增加而減少。 由其迴歸模式可看出,「安打數」與「保送」這兩 個變數,對於薪水的影響比其它變數大上許多。以 正常情況論,安打數多,其薪水也會比較高,是合 理的。

7 原始資料的分析 接下來要討論為何「保送」會影響薪水:有可能是因為選手表現好(其薪水高是合理的),所以對手寧願直接保送,也不給其打擊的機會。因此這有可能是為何「保送」會影響薪水的原因。 但由這些解釋變數去解釋87年棒球選手的薪水,解釋能力卻只有59%,解釋度並不高。因此我們希望能再造出另一新的Model,其用來解釋薪水的變數,能有不錯的解釋能力,且個各變數都是有其意義。

8 變數轉換後Model之分析 IDEA: 在此新的Model內的變數,已做變數變換了。如:87年球員的薪水,已做log轉換。除此之外,生涯的打擊次數、安打、全壘打等生涯變數,都已除上各球員在大聯盟所待的資歷。以這些新的變數,重覆之前的步驟,再重新去分析,以期望能有更不錯的結果。

9 變數轉換後Model之分析 變數變換:因為第一組的建議,因此我們將SALARY做log轉 換 換,並創以下幾個新變數。
Response Varibale: SALARYlogsal (取 log) Predictor Varibale: C.ABAB1 (平均一年上場打擊次數) C.HHIT1 (平均一年安打數) C.HRHR1 (平均一年全壘打數) C.RR1 (平均一年回本壘得分數) C.RBIRBI1 (平均一年打點數) C.WW1 (平均一年保送數) (以上是將所有跟生涯有關的解釋變數,皆除以其各別的 資歷,得到新的變數)

10 變數轉換後Model之分析 The Result Of STEP:
使用R內的「step」指令,去選取出更適合的變數。最後所選出較有影響的變數為「平均一年安打數」、「資歷」、「安打數」、「保送」、「上場打擊次數」、「使對手出局數」(HIT1,YEAR,HIT,W,AB,PO)等六個變數。皆下來以這六個變數來做迴歸分析,探討對薪水的解釋度為何。

11 變數轉換後Model之分析 Regression Model:
Logsal= *HIT *YEAR+0.011*HIT+ 0.007*W *AB *PO Result:

12 變數轉換後Model之分析 Analysis:
由上一頁的迴歸分析結果可看出,大部分解釋變數的系數是顯著的,除了PO這變數的系數不顯著外。且AB的係數是以負數呈現,結果與第一次迴歸結果相似。但變數解釋度提高至64%,所以可知生涯變數除以資歷後,是合理的。

13 變數轉換後Model之分析 由上一頁的迴歸模式可看出,變數「資歷」對薪水的影響力,比其它變數大。所以資歷高,薪水就會多,是合理的。另外,在眾多除以「資歷」的生涯變數中,為何只選擇「平均一年安打數」,且「安打數」也被選入,這有可能是指此兩變數彼此間不能互相取代、或解釋。 「平均一年安打數」有點像是球員本身的價值,說明球員生涯平均的表現,可見「安打數」對薪水來說,可能是一個重要的指標!

14 加入新變數後的Model之分析 創新的變數: 在此創一新變數,「上壘率」(b),其數學算式為(安打數+保送)/上場打擊次數。之所以會創「上壘率」是因為:如果壘上有人,則對球隊進攻方面是有利的。所以直覺上會覺得此變數應會與薪水有關,故創此變數。

15 加入新變數後的Model之分析 The Result Of STEP: R內「Step」指令選出「平均一年安打數」、「資歷」、「安打數」、「保送」、「上場打擊次數」、「使對手出局數」等六個變數,再加上「上壘率」,共七個變數,其對薪水是有影響的。接下來就對這七個變數做迴歸分析。

16 加入新變數後的Model之分析 Regression Model: Result:
Logsal= *HIT *YEAR *HIT * W-0.005AB-3.668b PO) Result:

17 加入新變數後的Model之分析 Analysis:

18 加入新變數後的Model之分析 創新的變數:
除了之前所創的上壘率,之後再創另一變數,其為資歷的平方,之所以會創此變數,加上第一組的建議,且在每一次「step」在選取較有影響力的變數時,都會考慮「year」此變數,由此可知,這變數對薪水有很強的影響力。 但觀察「year」vs.「logsal」的分布圖,發現其圖形有二次曲線的趨勢,所以才會加入此變數,來分擔解釋薪水的部分。資歷2: year2=YEAR*YEAR 分布圖

19 加入新變數後的Model之分析 The Result Of STEP: 接續上一模式的變數,再加上所創的新變數,「平均一年安打數」、「資歷」、「安打數」、「保送」、「上場打擊次數」、「使對手出局數」、「上壘率」、「資歷2」等共八個變數。再以「step」去幫我們選取出有效的變數為「平均一年安打數」、「資歷」、 「保送」 、「使對手出局數」、 「資歷2」。接下來對這五個變數做迴歸分析。

20 加入新變數後的Model之分析 Regression Model: Result:
Logsal= *HIT *YEAR * W *PO *year2 Result:

21 加入新變數後的Model之分析 Analysis:
由上一式的迴歸式中,可看出每個變數都是顯著重要的。但「資歷2」的係數卻為負的,這或許是因為「資歷」在解釋薪水時,解釋過多,而為了調整過多的解釋,「資歷2」的係數才會為負的。且在此模式內,「保送」的影響力變多,反而「安打數」在此並沒有被選入模式,這或許是因為「保送」取代解釋「安打數」,所以「保送」的影響才增加這麼多。 另外迴歸模式解釋度增加至82%。

22 預測 由之前的迴歸分析結果,可知目前最好迴歸模式為Logsal= *HIT *YEAR * W *PO *year2 其解釋度為82%。故以此模式來預測這些薪水有缺失的資料。 預測資料

23 預測完的總結 什麼樣的人薪水較多 在使用所做出最好模式去預測缺失的薪水。 我們先從球員在大聯盟所處的資歷來看其薪水的高低。 從其分布圖可看出,大約以11年為一分界點,11年之前薪水有逐年增加的趨勢,而11年以後則略有逐年下降的情形。雖然薪水與資歷相關性高,但年紀越大體力也會下降,所以薪水會隨著下降這是合理的。 薪水分布圖

24 總結 在迴歸分析這一部份,接觸了真實的案例,我們嘗試以不同的變數來分析解釋87年的薪水。因而創造出許多不同的迴歸式,也學習如何去解釋我們做出的結果。從中學習許多。也發現其實有很多事並沒有一定的解答,全看所分析的結果為何,並做有依據的分析。

25 分布圖 回上一頁

26 預測薪水分布圖 回上一頁


Download ppt "Regression Of Baseball Data"

Similar presentations


Ads by Google