第十三章 簡單線性迴歸 陳順宇 教授 成功大學統計系
我們常問下面的兩個問題: (1)是否能由學生的 IQ成績預測其大學入學成績? (2)是否能由大學 入學數學成績預測其大一微積分成績?
散佈圖 在第三章已介紹過散佈圖, 兩個變數的散佈圖是畫在二度空間上, y軸為應變數(果),x軸為獨立變數(因)。
散佈圖是相關與迴歸分析最基本的工具, 如果散佈圖上的點愈接近形成一直線, 表示這兩個變數的線性關係愈密切 但有相關並不一定就有因果關係
反之,如果散佈圖呈圓形, 表示這兩個變數間沒有線性關係, 也就是說獨立變數對應變數 沒有什麼線性預測能力
例13.1、 某人想了解大學入學考試的 數學成績與大一微積分成績(y)的關係, 隨機收集15名大一學生 成績如下:
抽樣15名大一學生成績資料
大一微積分成績對 入學數學成績散佈圖
大一微積分成績對數學成績的迴歸線
例13.2、 某研究人員想了解父子身高的關係。 隨機收集1000對父親與其已成人的 長子身高資料如下
1000對父子身高資料
兒子身高與父親身高相當之 散佈圖
1000對父親與其已成人長子 身高資料散佈圖
它的迴歸線並不是想像的對角線y= x。 由散佈圖可看到下列三個現象
(1) 身高有遺傳作用 兒子的身高受父親身高的影響, 高的父親所生的兒子也會較高。 父親身高175公分的這一群人的 兒子身高大部份在平均線172公分的上方, 父親身高165公分的這一群人的 兒子身高大部份在平均線172公分的下方
(2) 迴歸效應 若上一代的男生平均身高為170公分, 而下一代男生的平均身高是173公分, 平均身高有上升的現象,
迴歸效應 身高較高的父親其兒子的平均身高增加較少; 身高較矮的父親其兒子平均身高增加較多, 下一代身高有“往中間靠” 現象,稱為迴歸效應。 上一代父親身高175公分與父親身高165公分 相差10公分, 下一代兒子平均身高 相差可能不到10公分
(3)身高常態分佈且 變異數有均質性(亦稱同質性) 同樣約175公分身高的父親, 其兒子身高也不盡相同, 從約169公分到182公分, 這些兒子的平均身高比那些父親身高165公分的人之兒子的平均身高要高,
有些175公分高的父親其兒子身高 比父親是165公分的兒子身高矮。 所有父親身高為175公分這群人有幾十人,他們兒子身高的分佈呈常態分佈 (此亦稱條件常態,即有相同的父親身高),
簡單線性迴歸分析簡介 迴歸分析是一種很有用的統計分析方法, 它主要是建立變數間的關係式。 很不幸的,迴歸(Regression)的名字取得不理想, 字義上未能表現出這種方法的重要性及應用, 它取名來自於1885 年高登 (Galton)所寫論文 “Regression Towards Mediocrity in Heredity Stature”
變數分成兩類, 一類是做為預測的提供者, 稱為自變數 (或獨立變數或稱預測變數), 以x表示 另一類是我們真正關心的被預測者, 稱為應變數 (或依變數或稱準則變數),以y表示
迴歸的主要目的是建立變數間的 因果關係式以便做預測, 目標是發展一種能以一個或多個自變數的數值來做為應變數預測的方法。
本章探討的是“簡單”線性迴歸模式, 就是與的關係為一次式, 它只用一個自變數去預測應變數的模式 第十四章則討論複迴歸模式
簡單線性迴歸
迴歸模式步驟 當收集到一組資料後, 迴歸第一步驟就是估計b0,b1 (後面將介紹最小平方法求b0,b1 的估計),
模式評估 然後再利用殘差圖評估模式是否合適,如不合適則做修正, 直到修正模式評估合適為止, 模式修正好後,就能利用建立迴歸模式做預測、解釋及控制等用途
最小平方法 當我們針對某問題,收集資料後, 想找出迴歸式,第一步驟是做參數估計 所謂參數就是上節中的b0, b1
估計就是利用資料 求出其b0, b1的數值是多少。 在迴歸分析,最常用的估計方法是所謂最小平方法 (The Method of Least Square,寫成LS)
直線L的"距離和"最小
因此改為找直線L使所有 “距離平方和”最小
以最小平方法求迴歸線
平方和
對b0, b1微分後令其等於0
正規方程式
解
也可以表示成
迴歸線也可表示成
注意: (1) 迴歸線一定過資料的中心點。 (2)相關係數的絕對值必有|r| 1, 但迴歸係數的絕對值可以大於1。 (3) 迴歸係數與相關係數同號 (因標準差Sx, Sy恆正)。
例13.3、(例13.1續) 求大一微積分成績(y)對數學成績(x)的 (1) 相關係數 (2) 迴歸式
15名學生成績5行合計
(1)相關係數
(2)迴歸係數
迴歸式
以EXCEL執行結果如下
13.3 簡單線性迴歸評估
1. 擬合值
2. 殘差值
正規方程式
3. 殘差平方和
4. 解釋變異的比例
總平方和
為什麼 是解釋變異的比例呢?
有下列幾個性質:
(1)
(2) 愈大, 表示 x 提供的訊息對 y 愈有用
(3) 我們也稱判定係數為複相關係數平方
例13.4、(例13.1續) 大一微積分成績(y) 對數學成績(x) 做線性迴歸,求 (1) 第1筆資料的擬合值與殘差。 (1) 第1筆資料的擬合值與殘差。 (2) 第2筆資料的擬合值與殘差。 (3) 殘差平方和。 (4) 線性迴歸式解釋變異的比例。 (5) 若某生數學成績是56分, 預測其大一微積分成績是多少分?
第1位學生數學成績 擬合值
殘差
(2) 第2位學生數學成績擬合值
第2位學生的殘差
學生成績線性迴歸擬合值、 殘差及殘差平方
殘差平方和
解釋變異的比例(或判定係數)
(5) 某生數學成績56分, 預測大一微積分成績
13.4 迴歸模式的基本假設
觀察值 = 母體參數 + 誤差 = 可解釋部分 + 不可解釋部分
誤差均方和
30坪房子房價分佈圖(常態性 )
25坪與30坪房子房價分佈圖(均質性)
各種坪數下房價之分佈圖 (線性)
13.5 迴歸模式的統計推論
1 參數估計
殘差均方和
例13.5、(例13.4續) 微積分成績對數學成績做線性迴歸
2.
誤差界限
(2) 檢定如想驗證對是否有影響?即檢定
檢定兩變數是否有相關? 即檢定
(a) t 檢定
例13.6、(例13.4續) 大一微積分成績(y)對數學成績(x)所做 線性迴歸式 (1) 求的95%信賴區間? (2) 檢定數學成績(x)對大一微積分成績(y) 是否有影響(線性)?
(1) 的95% 信賴區間
(2) 檢定數學成績對微積分成績是否有影響(線性)?即檢定 (2) 檢定數學成績對微積分成績是否有影響(線性)?即檢定
數學成績對微積分成績有影響
(b) ANOVA 在迴歸分析中,我們最想知道的是到底所找的自變數x對應變數y有無貢獻, 即有無解釋能力? 也就是說是自變數與應變數有無相關? 即檢定(13.37)式
總平方和
誤差平方和
微積分成績對數學成績迴歸線 SSE, SSTO之比較
迴歸平方和
線性迴歸 ANOVA 表
例13.7、(例13.4續) 大一微積分成績對數學成績做線性迴歸 (1) 寫出ANOVA表。 (2) 以檢定數學成績對大一微積分成績 是否有影響(線性)?
(1) ANOVA表
(2)數學成績對大一微積分成績有影響
13.6 迴歸分析的三大功能 1.做描述用 2.做預測用 3.做控制用
1.做描述用 利用迴歸建立模式y = f(x)後, 就可用來描述是如何影響。 例如迴歸式為 則不但知道增加會減少,
2.預測的架構是給 x求y
3.控制的架構是給 y求x
13.7 迴歸模式之殘差分析
迴 歸 分 析 流 程 圖
圖13.12 模式擬合值的殘差圖
圖13.13 殘差圖呈現二次型
圖13.14 殘差的變異數 隨x增大而增大
圖13.15 殘差的變異數隨 x之增大而變小
圖13.16 模式有趨勢的殘差圖
圖13.17 殘差項有自我相關現象
圖13.18 殘差值與其他變數(性別)
圖13.19 殘差圖中有異常點
圖13.20 殘差直方圖
圖13.21 殘差的常態機率圖
2. 模式之修訂
(I) 倒數模式:
(II) 指數模式:
(III) 乘冪函數模式:
13.8 13.8 複相關 簡單相關係數是量測兩組變數 (每組只有一個)間的關聯, 13.8 13.8 複相關 簡單相關係數是量測兩組變數 (每組只有一個)間的關聯, 如果兩組變數中有一組有好幾個變數時,如何量測這兩組變數之間的關聯性有多高呢? 量測這兩組變數之間的相關稱為複相關
例13.9、 假設想了解大學入學考試 數學成績(x1)與英文成績(x2) 對學習大一微積分成績(y)的影響有多高, 隨機收集15名大一學生的三項成績如下
表13.6 15名大一學生 考試成績資料
第一種想法: 先計算相關再求平均 分別算出x1, y的相關係數r1=0.7611 及x2與y的相關係數r2=0.5661後, 再算此兩相關係數的平均值為0.6636
第二種想法是: 先求平均再計算相關
入學考試英數與大一微積分成績
大學入學考試英數平均成績與 大一微積分成績的相關係數為 r =0.7801
一般的加權平均
13.9 複迴歸分析簡介
複迴歸模式
最小平方法
正規方程式
迴歸式公式
13.10各種方法計算複迴歸的係數 介紹四種方法求迴歸係數bi的估計值。 我們再以 聯考數學成績x1、 英文成績x2及 大一微積分成績y 為例做說明
15名學生成績八行合計
1. 解正規方程式
迴歸式
以公式求bi估計
3. 以EXCEL執行
例13.10、 研究房子坪數是否受收入、人口數與 家長教育程度的影響? 應變數 y:房子坪數(坪) 自變數 x1 :全戶年收入(萬元) 隨機收集10戶資料如下:
試做對的複迴歸
以EXCEL執行結果
第十三章 摘要
1.了解最小平方法的意義
2.
3. 了解可利用5行合計求相關係數與迴歸式
4. 知道如何由平均數、標準差及相關係數求迴歸式
5.
6. 學習迴歸線的求法, 並了解參數估計表與 ANOVA表提供的資訊
7. 學習利用統計套裝軟體執行迴歸分析
8.
9. 了解如何利用迴歸式做預測
10. 知道迴歸誤差項的基本假設與 如何利用殘差圖(或數量檢定方法) 對這些假設做檢驗
11. 學習做變數變換 以便求得較佳的迴歸式