chap14 預測誰將贏得超級盃 -使用線性迴歸
請看大陸名師的感人演講 我們這個社會就缺少如此感人的演講,教導我們的學生,才會發生如此多傷害父母、祖父母的社會事件,我們做老師的應該感到慚愧。我們的電視台也一樣沒做到好的教育的責任。不是嗎? (一) http://www.youtube.com/watch?v=YdJk8shbUg4 (二)http://www.youtube.com/watch?v=GdgGUNNXuVw&feature=related
預測是怎麼一回事 你不僅可以計算兩個變數彼此之間相關的程度,也能夠以相關係數為基礎,由一個變數的值來預測另一個變數的值。 概念就是使用之前已經蒐集的資料集(如變數X、Y的資料)來計算變數如何相關,接著使用相關係數以及的資訊來預測。
預測的邏輯 預測是由現有結果來計算未來結果的一個活動。 當我們想由一個變數預測另一個變數時,我們首先需要計算兩個變數之間的相關係數。
知道要做什麼嗎?
好戲即將上場 要由高中GPA預測大學GPA,我們必須建立迴歸方程式,並使用這個方程式來畫迴歸線。
這是變數對變數的迴歸。換句話說,(大學GPA)將由(高中GPA)預測。 迴歸線也叫做最佳配適線。 迴歸線有最好的配適,是因為這條線使每個資料點與迴歸線的距離最小化。
每一個資料點和迴歸線的距離就是預測誤差,即兩個變數之間相關的直接反映。 這個資料點和迴歸線的距離就是預測誤差,如果是完全預測,所有預測點會剛好就在迴歸線或預測線之上。 如果是完全相關,所有的資料點將沿著45°角形成一條直線,而且迴歸線會通過每一個資料點。
繪製配適你的資料的最佳直線 理解預測的最簡單方式,就是由一個變數值(我們稱為X-獨立變數或預測量)決定另一個變數的值(我們稱為Y-依賴變數或準則變數)。
迴歸三劍客 ,
並不是所有配適資料點最佳的線都是直線,變數間也可能有曲線關係。 例如焦慮和成績之間的關係就是曲線關係,所以在以值預測值時要將此關係考慮。
我們的預測有多好? 我們知道兩個變數之間的相關係數絕對值越大,預測就越好。 如果我們考慮所有的差異,我們可以計算每一個資料點與預測資料點之差異的平均數,或估計標準誤差。
我們的預測有多好? 估計標準誤差告訴我們估計值的不準確性程度。 就如你可以預期的,兩個值之間相關程度越高(預測也越好),這個估計標準誤差就越小。 如果兩個變數之間完全相關(+1或-1),估計標準誤差就是0。
使用電腦計算迴歸線
這個等式可以在給定重量訓練的小時數情況下用於預測受傷程度。 依據現有的資料,結果就是訓練時間越多,受傷就越輕微。 SPSS輸出結果的涵義 這個等式可以在給定重量訓練的小時數情況下用於預測受傷程度。 依據現有的資料,結果就是訓練時間越多,受傷就越輕微。 我們要預測的 設為Y
預測變數越多就越好???? 此類模型就是多元迴歸。亦即是以兩個獨立變數而不是一個來預測結果。 增加任何變數前,須先瞭解其對依賴變數有何獨特的貢獻。 附加變數需要解釋第一個預測變數不能解釋的被估計變數的差異。
使用多元預測變數的大原則 1.如果選擇一個獨立變數去預測一個結果,要選擇與被預測變數(Y)相關的預測變數(X)。 2.如果選擇不只一個獨立變數或預測變數(如 與 ),要儘量選擇相互獨立或者不相關的變數,但是都要與結果變數或被預測變數(Y)相關。
多少預測變數就叫太多? 如果以一個變數預測某結果,且兩個變數會比一個變數更準確。但是每增加一個變數就相對增加費用。 使用多少變數能有助於瞭解我們要預測的結果是有硬性的限制。 不變的結論是預測量或獨立變數彼此獨立或不相關,而判定值到.5 即為可接受狀態。
嚐試做做看 萬聖節到嚕!酷克決定今年要得到很多糖果,所以他想要知道登門喊”trick or treat”次數跟得到的糖果數量的迴歸方程式,來預估自己今年得到的糖果,以下是酷克所記錄的數據資料:
trick or treat 次數與糖果數量
第一步:先把需要數據計算出來
第二步:把數據整理好
第三步:找迴歸方程式
酷克的糖果? 酷克預計今天晚上要去10個鄰居家喊trick or treat ,請問酷克可拿到多少糖果呢?
可以得到多少糖果呢?? 將 x=10 代入:
再挑戰一下吧!! 海樂波爺爺決定新年發紅包給酷克與帕克,要按照成績來論功行賞,海樂波爺爺收集了最近幾年成績與紅包的金額資料:
第一步:先把需要數據計算出來
第二步:把數據整理好
第三步:先找找相關係數吧
然後再找找迴歸方程式
所以酷克與帕克的紅包? 酷克在學校的成績是60分,帕克的成績是95分,請問他們可能的拿到的紅包是多少呢?
酷克的紅包是?? 真的要加油了 將 x=60 代入:
帕克的紅包則是?? 要繼續保持喔! 將 x=95 代入: 要怎麼收穫,先怎麼耕