Keller: Stats for Mgmt & Econ, 7th Ed 簡單線性迴歸和相關分析 2017年3月20日星期一 第 14 章 簡單線性迴歸和相關分析 Copyright © 2006 Brooks/Cole, a division of Thomson Learning, Inc.
迴歸分析 迴歸分析(regression analysis) 是以其他變數為基礎預測另一個變數的值。這個方法可能是最被廣泛應用的統計程序。 此方法包括推導一個數學方程式或模式,以描述想要預測的變數,稱為依變數(dependent variable),以及統計實作人員認為和依變數有關的變數之間的關係。 依變數以Y 表達,而有關的變數,稱為獨立變數(independent variables),以X1, X2, ..., Xk 表示( 其中k 是獨立變數的個數)。 第14章 簡單線性迴歸和相關分析 第400頁
相關分析 假如我們只對關係是否存在感興趣,我們採用相關分析,一個我們已經介紹過的方法。 在本章中,我們將呈現決定兩個變數間的關係,有時候稱為簡單線性迴歸。 描述這些關係的數學方程式也稱做模式,分為兩種類型:確定性模式(deterministic model)或隨機性模式(probabilistic model)。 第14章 簡單線性迴歸和相關分析 第400.402頁
模式 確定性模式(deterministic model):是指一個方程式或方程式集容許我們從獨立變數的數值去決定依變數的數值。 隨機性模式(probabilistic model):是一種能將隨機性呈現出來的方法,這對現實生活的應用比較實際。 例如,相同大小的所有房屋(以平方呎計)是否都以完全相同的售價賣出? 第14章 簡單線性迴歸和相關分析 第402頁
模式 要產生一個隨機模式,我們從一個確定性模式開始,用以近似我們想要的關係模式。接著我們再加一個項,用以衡量確定性元素的隨機誤差。 確定性模式: 蓋一棟新房子的成本大約是每平方呎$100 而且大部分的土地售價約是$100,000。近似的銷售價格(y)將是: y = $100,000 + 100x 其中y = 銷售價格,x =房屋的大小( 以平方呎計)。] 第14章 簡單線性迴歸和相關分析 第402頁
這個模式中,房屋售價完全決定於房屋大小。 房屋大小(依變項)與房屋售價(獨立變項)之間關係的模式如下: 房屋 售價 蓋一棟房子大約是每平方呎$100 房屋售價 = 100,000 + 100(房屋大小) 大部分的土地 售價為$100,000 房屋大小 這個模式中,房屋售價完全決定於房屋大小。 第14章 簡單線性迴歸和相關分析
模式 然而在現實生活,房屋成本在相同的房屋大小中仍將有所不同: 房屋售價= 100,000 + 100(大小) + 較低 vs. 較高 的變異性 房屋 售價 100K$ 房屋售價= 100,000 + 100(大小) + x 房屋大小 相同平方呎,但不同價格點 (如:裝潢的選擇, 改善隔間, 土地位置…) 第14章 簡單線性迴歸和相關
誤差變數 我們將使用隨機性模型表示房屋估計可賣的價格: y = 100,000 + 100x + 其中 ε ( 希臘字母epsilon) 表示隨機項[又稱誤差變數(error variable)] ──實際銷售價格和依據房屋大小來估計的價格之間的差異。甚至當 x 維持不變時,ε 的值也將會隨著一筆筆不同的銷售而改變。 第14章 簡單線性迴歸和相關分析 第402頁
簡單線性迴歸模型 含一個獨立變數的直線模型稱為一階線性模型(first- order linear model) ──有時也稱為簡單線性迴歸模型(simple linear regression model)。 獨立變數 依變數 y-軸截距 直線斜率 誤差變數 第14章 簡單線性迴歸和相關分析 第402頁
簡單線性迴歸模型 注意係數 0 和 1是母體參數,它們幾乎都是未知的。因此,由資料估計而得。 y 高 長 =斜率 (=高/長) x 第14章 簡單線性迴歸和相關分析
迴歸係數的估計 如同我們以 為基礎估計µ的方式,我們以b0 估計 β0 且以 b1 估計 β1,最小平方或迴歸線的y-軸截距及斜率如下: (回想:這是最小平法的應用且產生一條點與線間差異平方和最小的直線。) 第14章 簡單線性迴歸和相關分析 第403頁
範例14.1 年度紅利與服務年數 Xm16-01 6 位員工的年度紅利 (以$ l,000計) 與其服務年數被記錄並列出如下。我們想要決定年度紅利與服務年數之間的直線關係。 第14章 簡單線性迴歸和相關分析 第405頁
最小平方線 第14章 簡單線性迴歸和相關分析 第406頁 圖14.1
範例14.2 二手Toyota Camry 的哩程表讀數與價格,第一部分 北美的汽車經銷商使用「藍皮書」以協助他們決定,當他們的顧客於購買新車時,所換購的二手車的價值。 這本每月出版的藍皮書列出所有基本車款的換購價值。 根據不同的汽車狀況與選用配備,藍皮書提供每一種車款各種不同的價值。 而汽車價值的決定是根據最近二手車拍賣會中的平均成交價,以及許多二手車經銷商所提供的資源。 第14章 簡單線性迴歸和相關分析 第407頁
範例14.2 二手Toyota Camry 的哩程表讀數與價格,第一部分 但是,藍皮書並沒有指出依據哩程表讀數所決定的價值,儘管事實上對二手車買主而言,一部車已經被開過多少哩是一個關鍵的因素。 為了檢視這項議題,一位二手車經銷商隨機選取100 輛在上個月拍賣會中售出的車齡 3 年的Toyota Camry。 這位經銷商紀錄價格(以$1,000計) 與哩程表上的哩程數(以千計)。Xm16-02 這位經銷商想找出迴歸線。 第14章 簡單線性迴歸和相關分析 第407頁 14.15
範例14.2 二手Toyota Camry 的哩程表讀數與價格,第一部分 為我們計算出許多好的統計量,但是現在我們只對這項感興趣 第14章 簡單線性迴歸和相關分析 第409頁
範例14.2 二手Toyota Camry 的哩程表讀數與價格,第一部分 詮釋 斜率係數b1 是– .0669,其意義是哩程表上每增加 1 哩,價格平均會降低$.0669 或6.69 美分。 截距是 b0 = 17.250。意思是當 x = 0 ( 亦即,車完全沒有被開過),汽車售價為$17,250。然而我們的樣本並沒有任何哩程表讀數為少於19,100哩的汽車。這不是正確的估計。 第14章 簡單線性迴歸和相關分析 第410頁
誤差變數的必要條件 為了使這些方法有效,以下四個與誤差變數(ε)之機率分配有關的條件必須被滿足。 ε 的機率分配為常態。 機率分配的平均數為 0;也就是,E(ε) = 0。 ε 的標準差為 ε,無論 x 的值為何,它是一個常數。 與任何特定 y 值相關的 ε 值與任何其他 y 值相關的 ε 值是獨立的。 第16章 簡單線性迴歸和相關分析 第412頁
評估模型 最小平方法產生一條最佳的直線。但是,事實上有可能兩個變數之間沒有關係,或有非線性關係。 有數個方法可以被用來評估模式。在本節中,我們呈現兩個統計量和一個檢定程序,以決定線性模式是否應該被採用。它們是估計值的標準誤(standard error of estimate)、斜率的t-檢定,和判定係數(coefficient of determination)。 這些方法都是立基於誤差的平方和。 第14章 簡單線性迴歸和相關分析 第414頁
誤差平方和 誤差平方和計算如下: 其中 是依變數的樣本變異數。 且使用在估計標準誤(standard error of estimate)的計算上: 若sε 為 0,所有的點都落在迴歸線上。 第14章 簡單線性迴歸和相關分析 第415頁
估計標準誤 若 很小,適配是優良的,且線性模型可以用於預測。若 很大,模型是不良的… 但什麼是小?什麼是大呢? 第14章 簡單線性迴歸和相關
範例14.3 二手Toyota Camry 的哩程表讀數與價格,第二部分 對範例14.2 求出估計標準誤並且敘述它告訴你什麼有關模式配適度的訊息。 第14章 簡單線性迴歸和相關分析 第416頁
範例14.3 二手Toyota Camry 的哩程表讀數與價格,第二部分 為了計算估計的標準誤,我們必須計算 SSE,它是由樣本變異數與共變異數計算而得。我們已經算出共變異數與 x 的變異數。它們分別是 –2.909 與43.509。y 的樣本變異數( 應用簡易計算方法) 是 第14章 簡單線性迴歸和相關分析 第416頁
範例14.3 二手Toyota Camry 的哩程表讀數與價格,第二部分 估計的標準誤如下: 第14章 簡單線性迴歸和相關分析 第416頁
範例14.3 二手Toyota Camry 的哩程表讀數與價格,第二部分 我們藉由比較 sε 與依變數 的樣本平均數,以判斷sε 數值的大小。 在此範例中,sε = .3265 且 = 14.841 所以它確實顯示估計標準誤的數值是「小的」,因此車子價格的線性迴歸模型如同哩程表的函數是「良好的」。 第14章 簡單線性迴歸和相關分析 第417頁
檢定斜率 若兩個變數間不存在線性關係,我們將預估迴歸線是一條水平線,斜率為 0。 我們考慮是否有線性關係,如:我們考慮斜率 (β1)是否為零以外的數值。我們的研究假設變成: H1: β1 ≠ 0 因此,虛無假設變成: H0: β1 = 0 第14章 簡單線性迴歸和相關分析 第417-418頁
檢定斜率 我們可以執行這個檢定統計量以測試我們的假設: 是b1的標準誤,解釋為: 假設誤差變項(ε)是常態分布,檢定統計量是自由度為 n – 2的學生t 分配。拒絕域的決定是根據我們是進行一項單尾或雙尾的檢定(雙尾檢定最為典型)。 第14章 簡單線性迴歸和相關分析 第418頁
範例14.4 哩程表讀數與二手Toyota Camry 的價格是否相關? 第14章 簡單線性迴歸和相關分析 第419頁
範例14.4 哩程表讀數與二手Toyota Camry 的價格是否相關? 我們檢定這些假設 H1: β1 ≠ 0 H0: β1 = 0 (如果虛無假設為真,表示沒有線性關係存在。) 拒絕域為: 第14章 簡單線性迴歸和相關分析 第419頁
範例14.4 哩程表讀數與二手Toyota Camry 的價格是否相關? 計算 我們可以手算t 或用 Excel 輸出 我們看到對「哩程表」的t-統計量 (即,斜率 b1) 是 –13.44 其為小於 tCritical = –1.984. 我們同時注意到 p-值為0。 p-值 比較 存在強烈的證據去推論哩程表與價格之間 存在線性關係 第14章 簡單線性迴歸和相關分析 第420頁
單尾檢定 如果我們想要假設檢定正或負的線性關係,我們執行單尾檢定。我們會指定研究假設為 H1: β1 < 0 (檢定負斜率) 或 H1: β1 > 0 (檢定正斜率) 虛無假設仍為: H0: β1 = 0。 第14章 簡單線性迴歸和相關分析 第421頁
判定係數 β1檢定僅強調是否有足夠的證據去推論線性關係存在的問題。然而在許多情況下,測量線性關係的強度也很有用,尤其是當我們想要比較數個不同的模型時。執行這項功能的統計量是判定係數,標示為R2。 或 判定係數是相關係數(r)的平方,因此 R2 = (r)2。 第14章 簡單線性迴歸和相關分析 第421頁
判定係數 在這項方程式等號左邊的數量是依變數 y 變異的測量。方程式右邊的第一個數量是SSE,第二項以SSR表示。我們可以重寫此一方程式為 y 的變異 = SSE + SSR SSE(Sum of Squares Error) ——測量 y 的變異未被解釋的量(即,誤差)。 SSR(Sum of Squares Regression) ——測量 y 的變異能夠被獨立變數 x 的變異所解釋的量。 第14章 簡單線性迴歸和相關分析 第422頁 14.33
範例14.5 測量哩程表讀數與Toyota Camry 二手車價格之間線性關係的強度 求出範例14.2 的判定係數並描述這項統計量告訴 你什麼有關迴歸模式的訊息。 第14章 簡單線性迴歸和相關分析 第423頁
範例14.5 測量哩程表讀數與Toyota Camry 二手車價格之間線性關係的強度 計算 我們可以用手算或 Excel 得到: 第14章 簡單線性迴歸和相關分析 第423頁
範例14.5 測量哩程表讀數與Toyota Camry 二手車價格之間線性關係的強度 詮釋 我們得到R2等於.6483。這項統計量告訴我們拍賣價格變異的64.83% 是被哩程表讀數的變異所解釋。剩餘的35.17% 是未被解釋的。 不像一個檢定統計量的值,判定係數並沒有一個臨界值讓我們去做結論。 一般而言,R2的值越高,模型配適資料的情況則越好 R2 = 1: 線與資料點之間的完美配適。 R2 = 0: x 與 y 之間沒有任何線性關係。 第14章 簡單線性迴歸和相關分析 第424頁 14.36
電腦輸出結果的其他部分 簡單線性迴歸模型ANOVA表的一般格式: 第14 章 簡單線性迴歸和相關分析 第424頁
相關係數的檢定 母體相關係數被標示為 ρ ( 希臘字母rho)。 我們必須從樣本資料去估計它的值。樣本相關係數的定義如下: 當兩個變數之間沒有線性關係,ρ = 0: 它服從自由度為 v = n – 2的學生 t 分配。 第14章 簡單線性迴歸和相關分析 第426頁
範例14.6 執行相關係數的 t-檢定以決定在範例16.2中哩程表讀數與拍賣價格是否線性相關。 要檢定的假設為: H1: ρ ≠ 0 H0: ρ = 0 (當兩個變數之間沒有線性關係,ρ = 0。) 第14章 簡單線性迴歸和相關分析 第426頁
範例14.6 在範例14.2與範例14.5中,我們得到: 因此,相關係數是: 檢定統計量的值是: 計算 第14章 簡單線性迴歸和相關分析 第427頁
範例14.6 計算 ρ 的t-檢定與範例16.4 中1 的t-檢定產生相同的結果。 第14章 簡單線性迴歸和相關分析 第427頁
使用迴歸方程式 使用迴歸方程式,我們得到: 估計一輛哩程表讀數有40 ( 千) 哩車齡3 年的Toyota Camry 之售價 我們稱此數值為點預測(point prediction) 並稱 為當x = 40 時,y 的預測值或點估計(point estimate)。因此,這位交易商將預測這部汽車應該能夠以$14,574 賣出。 第14章 簡單線性迴歸和相關分析 第429頁
預測區間 我們提出的第一個信賴區間,是在獨立變數為一個給定的 xg 值之下,每當我們想要對一個依變數的特定值發生一次的狀況做預測。 (其中 xg 是 x 的給定值) 第14章 簡單線性迴歸和相關分析 第429頁
範例14.7(a) 一位二手車的交易商將要投標一輛 3 年車齡的Toyota Camry,該車具有全部的標準配備,並且哩程表讀數為40,000 (xg = 40) 哩。為了幫助他決定投標金額,他必須預測銷售價格。 預測區間的下限和上限分別是$13,922 和$15,226。 第14章 簡單線性迴歸和相關分析 第430-431頁
範例14.7(b) y 期望值的信賴區間估計量: 一位二手車的交易商有機會投標許多輛由一家租車公司所提供的汽車。租車公司有250 部具有標準配備的Toyota Camry。這一批汽車的哩程表讀數大約是40,000 (xg = 40) 哩。這位交易商想要估計這一批汽車的銷售價格。 第14章 簡單線性迴歸和相關分析 第431頁
信賴區間估計量 平均價格的95%信賴區間估計量為: 期望值信賴區間估計值的下限與上限分別為$14,498以及$14,650。 平均價格的95%信賴區間估計量為: 期望值信賴區間估計值的下限與上限分別為$14,498以及$14,650。 第14章 簡單線性迴歸和相關分析 第431頁
預測區間與信賴區間的不同 預測區間 信賴區間 1 沒有 1 是在獨立變數為一個給定的 xg 值之下,對一個依變數的特定值發生一次的狀況做預測。 是在獨立變數為一個給定的 xg 值之下,估計 y 的平均數或是 y 的長期平均值。 y 期望值的信賴區間估計值將會比在相同的x 給定值與信賴水準下的預測區間更窄。 這是因為估計一個平均數的數值,相對於預測一個個別的數值,會有較少的誤差。 第14章 簡單線性迴歸和相關分析
運用Excel 計算區間… 計算 Point Prediction(點的預測) Prediction Interval(預測區間) Confidence Interval Estimator of the mean price(平均價格的信賴區間估計值) 第14章 簡單線性迴歸和相關分析 第432頁
迴歸診斷 迴歸分析有效的必要條件: 我們如何診斷這些條件的違反行為? 誤差變數必須服從常態分配 誤差變數的變異數必須是常數 誤差間必須彼此獨立。 我們如何診斷這些條件的違反行為? 殘差分析, 也就是檢查各個實際資料點與那些使用線性方程式所預測的點之間的差異… 第14章 簡單線性迴歸和相關分析 第433頁
殘差分析 讓我們回顧,實際資料點與迴歸線之間的偏差稱為殘差。在Excel中,計算殘差是迴歸分析的一部分。 殘差分析讓我們可以決定誤差變數是否為常態、誤差變異數是否為常數,以及誤差是否獨立。我們從非常態開始討論。 第14章 簡單線性迴歸和相關分析 第434-435頁
非常態性 我們以繪製殘差的直方圖來檢查常態性。 直方圖呈現鐘形,使我們相信誤差服從常態分配。 我們以繪製殘差的直方圖來檢查常態性。 直方圖呈現鐘形,使我們相信誤差服從常態分配。 第14章 簡單線性迴歸和相關分析 第435頁 圖14.9
異質性 誤差變數的變異數 必須是常數。當這項條件被違反時,則稱此情況為異質性(heteroscedasticity)。 診斷異質性的一種方法適繪製殘差相對於 y 預測值的圖。 第14章 簡單線性迴歸和相關分析 第435頁 圖14.10
異質性 誤差變數的變異數 必須是常數。當這項條件被違反時,則稱此情況為異質性(heteroscedasticity)。我們在繪有各點的圖中尋找散佈狀況的改變: 沒有異質性的現象。 第14章 簡單線性迴歸和相關分析 第436頁 圖14.12
誤差變數的非獨立性 如果我們每星期觀察汽車的拍賣價格長達一年的時間,則將構成一個時間序列。 當資料為時間序列,誤差經常是相關的。跨時間相關的誤差項目稱為自我相關(autocorrelated) 或是序列相關(serially correlated)。 我們通常可以藉由繪製殘差相對於時間點的圖來偵測自我相關。如果出現某種型態,很可能獨立性的條件是被違反的。 第14章 簡單線性迴歸和相關分析 第436頁
離群值 一個離群值(outlier)是一個非常小或非常大的觀測值。 為了說明,思考範例14.2,其中哩程表讀數的值域是從19.1 到49.2( 千) 哩。如果我們觀察到一個5,000英哩的數值,我們將會認定該點為一個離群值。 第14章 簡單線性迴歸和相關分析 第437頁
離群值 我們必須調查幾種可能性: 離群值可以從散佈圖被辨識出來。 記錄該數值時發生了錯誤。 該點不應該被包括在樣本中。 觀測值單純的是一個非常大或小的數值,它是屬於樣本而且被適當地記錄。 離群值可以從散佈圖被辨識出來。 標準化殘差也可以用來辨識離群值。大的標準化殘差絕對值(> 2)應該被徹底的檢查。 它們必須被處理,因為它們對最小平方線的建立很可能會有影響。 第14章 簡單線性迴歸和相關分析 第437-438頁
迴歸診斷的程序 發展一個具有理論基礎的模型 蒐集兩個變數的資料。 繪製散佈圖以決定線性模式是否適當。辨識可能的離群值。 決定迴歸方程式。 計算殘差並且檢查必要的條件。 評估模式的配適度。 如果模型配適資料良好,則使用迴歸方程式預測依變數的一個特別的值和/或估計它的平均數。 第14章 簡單線性迴歸和相關分析 第439頁