Chapter 2 簡單迴歸模型
2.1 簡單迴歸模型的定義 一個簡單的方程式可寫為 y = β0 + β1x + u 假設在我們感興趣的母體中(2.1) 式是成立的,而它定義了簡單線性迴歸模型(simple linear regression model)。因為它代表變數x 及y之間的關聯,因此也可將它稱為兩變數線性迴歸模型或二元線性迴歸模型。 在(2.1) 式中,變數y 及x 常常交替使用幾種不同的名稱。 2.1 CH2 簡單迴歸模型 第25-26頁
簡單迴歸的術語 CH2 簡單迴歸模型 第27頁 表2.1
2.1 簡單迴歸模型的定義 在計量經濟中「應變數」與「自變數」是很常用的。不過要注意自變數的英文“independent”在這裡並不是代表隨機變數間獨立性的統計概念。 CH2 簡單迴歸模型 第26頁
2.1 簡單迴歸模型的定義 變數u 在關係中稱為誤差項(error term) 或干擾項(disturbance),它代表除了x 之外其他會影響y 的因素。簡單迴歸分析將除了x 以外所有影響y 的因素都視為不可觀察。你可以把u 想成代表「不可觀察項」。 CH2 簡單迴歸模型 第26頁
2.1 簡單迴歸模型的定義 (2.1) 式同時也指出了y 和x 之函數關係的議題。若在u 之中的其他因素固定不變,因此u 的變動為0, Δu = 0 ,則x 對y 有一線性效果: 因此y 的變動就只是β1乘x 的變動。這代表在其他因素u 固定不變下,y 及x 之關係的斜率參數(slope parameter) 為β1 ;它是應用經濟中我們最感興趣的部分。截距參數(intercept parameter) β0,有時也稱為常數項(constant term),亦有其作用,不過它在分析中並不是最重要的。 2.2 CH2 簡單迴歸模型 第26頁
2.1 簡單迴歸模型的定義 假設不可觀察的u 和解釋變數x 的關係下,才能得到隨機樣本中β0 和β1 之可靠估計式。若沒有這種假設,我們就不能估計其他條件不變的效果, β1 。由於u 及x 為隨機變數,我們需要機率中的概念。 陳述x 和u 如何相關聯的假設之前,有一個關於u 的假設是我們永遠可以做的。只要截距項β0 包含在方程式中,假設u 的母體平均值為0 總是可以的。 2.5 CH2 簡單迴歸模型 第28頁
2.1 簡單迴歸模型的定義 回到u 和x 如何相關聯之重要假設上。一個對兩個隨機變數之關係的衡量方式即為相關係數(correlation coefficient)。 由於u 和x 是隨機變數,我們可以定義在任何x 的值之下u 的條件分配。特別是,就任何x,我們可以得到u 的期望值(或平均值)。重要的假設即為u 的平均值並不取決於x 的值。 其中第二個等式即為(2.5)式。(2.6) 式中第一個等式為一新的假設,我們稱為條件平均為0 的假設(zero conditional mean assumption)。 2.6 CH2 簡單迴歸模型 第28-29頁
2.1 簡單迴歸模型的定義 將(2.1) 式在x 的條件下取條件期望值,並利用E(u|x) = 0 可得 (2.8) 式顯示母體迴歸函數(population regression function, PRF),E(y|x),是x 的線性函數。 線性的意義:x增加一單位,使y的期望值變動β1。 2.8 CH2 簡單迴歸模型 第30頁
2.1 簡單迴歸模型的定義 CH2 簡單迴歸模型 第30頁 圖2.1
2.2 推導普通最小平方估計 首先,我們必須要有一個從母體中得到的樣本。 >討論主題:家庭所得對儲蓄之影響。樣本數:15< 令{(xi, yi): i =1,…,n}代表一由母體中所得之大小為n 的隨機樣本。由於這些資料來自(2.1) 式,我們可以對每一個i 寫出 由於ui包含除了xi之外所有影響的yi因素,因此它為觀察值i之誤差項。 2.9 CH2 簡單迴歸模型 第31頁
2.2 推導普通最小平方估計 在母體中,u 之平均數為0 且和x 無相關。因此,我們看到u 之期望值為0 且x 和u 之共變異數為0: 和 2.10 2.11 CH2 簡單迴歸模型 第32頁
2.2 推導普通最小平方估計 使用可觀察的變數x和y 及未知參數β0 和β1,(2.10) 式和(2.11) 式可寫為 和 2.12 2.13 CH2 簡單迴歸模型 第32頁
2.2 推導普通最小平方估計 CH2 簡單迴歸模型 第32頁 圖2.2
2.2 推導普通最小平方估計 在某一個資料樣本中,我們選擇 和 以解(2.12) 式和(2.13) 式之樣本對應 和 在某一個資料樣本中,我們選擇 和 以解(2.12) 式和(2.13) 式之樣本對應 和 此為估計之動差法(method of moments) 的一個例子。 CH2 簡單迴歸模型 第33頁
2.2 推導普通最小平方估計 利用相加因子之基本特性,(2.14) 式可重寫成 其中 為yi之樣本平均,而 之定義亦類似於 。此方程式使我們得以將 用 、 、 來表示: CH2 簡單迴歸模型 第33頁
2.2 推導普通最小平方估計 將(2.15) 式之n-1 剔除(由於它並不影響結果),以及將(2.17) 式代入(2.15) 式中得到 移項重組之後,可得 再利用相加因子之基本特性 CH2 簡單迴歸模型 第33頁
2.2 推導普通最小平方估計 因此,在以下的條件成立下 估計的斜率為 2.18 2.19 CH2 簡單迴歸模型 第34頁
2.2 推導普通最小平方估計 (2.19) 式只是x 和y 的樣本共變異數除以x 的樣本變異數。 我們可以由此式得到一個立即的涵義,就是x 和y 在樣本中正相關,則 為正;若x 和y 負相關,則 為負。 我們只要求 x 在樣本中必須有變化 n個x,至少要有一個x值與其他的值不同。 CH2 簡單迴歸模型 第34頁
2.2 推導普通最小平方估計 CH2 簡單迴歸模型 第35頁 圖2.3
2.2 推導普通最小平方估計 在(2.17) 和(2.19) 式之估計稱為β0和β1的普通最小平方(ordinary least squares, OLS) 估計。 任何 和 ,定義一個當x = xi之y 的配適值(fitted value) 如 真正的yi及其配適值的差異即為觀察值i 之殘差(residual): CH2 簡單迴歸模型 第34頁
2.2 推導普通最小平方估計 CH2 簡單迴歸模型 第36頁 圖2.4
2.2 推導普通最小平方估計 假設我們選擇 和 使得殘差平方和(sum of squared residuals) 極小化。 決定了OLS 估計之截距和斜率,我們就可得出OLS 迴歸線(OLS regression line): CH2 簡單迴歸模型 第35-36頁
2.2 推導普通最小平方估計 由於它是母體迴歸函數 的估計版,(2.23) 式亦被稱為樣本迴歸函數(sample regression function, SRF)。我們應該記住PRF是在母體中固定且未知的。 CH2 簡單迴歸模型 第37頁
2.2 推導普通最小平方估計 大多數情況下的斜率估計可被寫為 它告訴我們當x 變動一單位時 變動的數量。 所以在x 任意變動之下(無論正或負),我們可以計算y 的預測變動。 2.24 2.25 CH2 簡單迴歸模型 第37頁
2.2 推導普通最小平方估計 CH2 簡單迴歸模型 第38頁 圖2.5
2.2 推導普通最小平方估計 範例2.4 (p.39) 2.27式 file: wage1 CH2 簡單迴歸模型 第38頁 圖2.5
OLS 統計量的代數特性 對OLS 估計和它們相關的統計量有一些有用的代數特性。我們現在提出三個最重要的。 性是從(2.15) 式之一階條件而來,它可用殘差 來表示 2.30 2.31 CH2 簡單迴歸模型 第42-43頁
OLS 統計量的代數特性 (3) 永遠會在OLS 迴歸線上。換句話說,如 果我們在(2.23) 式中用 替換x,則OLS 預測 值為 。 值為 。 2.32 CH2 簡單迴歸模型 第43-44頁
配適值和殘差 CH2 簡單迴歸模型 第43頁 表2.2
OLS 統計量的代數特性 將總平方和(total sum of squares, SST)、被解釋平方和(explained sum of squares, SSE) 及殘差平方和(residual sum of squares, SSR) 定義如下: 2.33 2.34 2.35 CH2 簡單迴歸模型 第44頁
OLS 統計量的代數特性 y的總變異性可被表示為被解釋變異性SSE 與不可被解釋變異性SSR 之加總。故 SST = SSE + SSR 若我們可證明(2.37) 式,則(2.36) 式即可成立 2.36 2.37 CH2 簡單迴歸模型 第44-45頁
配適度 假定總平方和SST 不等於0 ──除了所有yi 的值都相等之外此必定成立──我們可以將(2.36) 式除以SST 以得到1=SSE/SST+SSR/SST。迴歸之R2 有時稱為判定係數(coefficient of determination),其定義為 < R2 為被解釋變異對總變異之比例> 由於SSE 不會大於SST,故R2必定在0 和1 之間。在解釋R2時,我們通常將它乘100 以將其轉換成百分比: 100.R2為y 之樣本變異可被x 解釋的百分比。 2.38 CH2 簡單迴歸模型 第46頁
衡量單位和函數形式 衡量單位變動對OLS統計量之效應: R2不會因y或x的單位而改變。 簡單迴歸加入非線性:迴歸是否加入非線性關係視模型需求及討論主題而定。 CH2 簡單迴歸模型 第49頁 圖2.6
簡單迴歸加入非線性 CH2 簡單迴歸模型 第49頁 圖2.6
簡單迴歸加入非線性 CH2 簡單迴歸模型 第52頁 表2.3
假設SLR.1 參數線性 在母體模型中,應變數y和自變數x 相關聯,且誤差項(或干擾項)u為 其中β0 和β1 為母體之截距和斜率參數。 參數為線性(無次方或開根號等) 2.47 CH2 簡單迴歸模型 第54頁
假設SLR.2 隨機抽樣 由(2.47) 式母體模型中可得一大小為n 的隨機樣本{(xi, yi): i =1,2,...,n}。 CH2 簡單迴歸模型 第54頁
假設SLR.3 解釋變數的樣本變異性 x 的樣本結果,{xi, i= 1, ..., n},其值不全部相同。 CH2 簡單迴歸模型 第55頁
假設SLR.4 條件平均為0 在任意既定的解釋變數值之下,誤差項 u 的期望值為0。換句話說, CH2 簡單迴歸模型 第56頁
CH2 簡單迴歸模型 第55頁 圖2.7
OLS 的不偏性 <以下證明可略過> 而 和 = SSTx。 2.51 CH2 簡單迴歸模型 第57頁
OLS 的不偏性 因此,我們可將 的分子寫為 。將其寫在分母之上得 2.52 CH2 簡單迴歸模型 第57頁
定理2.1 OLS 之不偏性 利用假設SLR.1 至SLR.4 對任何β0和β1而言 換句話說, 為β0之不偏估計式,以及 是β1之不偏估計式。 CH2 簡單迴歸模型 第58頁
OLS估計式之變異數 現在我們知道估計的抽樣分配是集中於真實參數的 要了解該分配的分散程度 需要另一假設 假設 Var(u|x) = σ2 (同質變異性) CH2 簡單迴歸模型 第61頁
假設SLR.5 同質變異性 在任意既定的解釋變數值之下,誤差項u 有相同的變異數。換句話說, CH2 簡單迴歸模型 第61頁
OLS估計式之變異數 由於Var(u|x) = E(u2 |x) [E(u|x)]2且E(u|x) = 0 ,其代表σ2 = E(u2|x)亦為u2 之非條件(unconditional) 期望值。由於E(u) = 0;因此, σ2 = E(u2) = Var(u) 。 換句話說, σ2 為u 的非條件變異數,也因此σ2被稱為誤差變異數(error variance) 或干擾項變異數。 σ 2的平方根σ為誤差之標準差。 CH2 簡單迴歸模型 第61頁
OLS估計式之變異數 我們可用y 的條件平均和條件變異數的形式寫假設SLR.4 和SLR.5 2.55 當Var (u|x) 取決於x 誤差項,即存在異質變異性(heteroskedasticity)或是非常數的變異數。由於Var (u|x) = Var (y|x) ,每當Var (y|x)為x 的函數時,異質變異性就會存在。 2.55 2.56 CH2 簡單迴歸模型 第61頁
OLS估計式之變異數 每一x值之下的分配皆相同: 同質變異性。 CH2 簡單迴歸模型 第62頁 圖2.8
OLS估計式之變異數 每一x值之下的分配不盡相同: 異質變異性。 CH2 簡單迴歸模型 第63頁 圖2.9
估計誤差變異數 因為我們無法觀察到ui,因此我們不知道誤差變異數s2 的值 我們只能觀察到殘差ûi 我們可以使用殘差來估計誤差變異數 CH2 簡單迴歸模型 第65-66頁
估計誤差變異數 利用(2.32) 式和(2.48) 式,我們可將殘差寫為誤差的函數 或 σ2之不偏估計式我們做了自由度的調整: 2.59 2.61 CH2 簡單迴歸模型 第65-66頁
估計誤差變異數 此稱為迴歸的標準誤(standard error of the regression, SER)。 由於 之一個自然的估計式為 此稱為 之標準誤(standard error of )。 CH2 簡單迴歸模型 第67頁
2.6 通過原點的迴歸 我們現在選擇一個斜率估計式稱為 ,且其迴歸線的形式為 2.6 通過原點的迴歸 我們現在選擇一個斜率估計式稱為 ,且其迴歸線的形式為 其中在 和 之上的符號是用來區別斜率和截距同時存在的估計式。由於(2.63) 式通過x = 0 和 ,稱為通過原點的迴歸(regression through the origin)。 2.63 CH2 簡單迴歸模型 第68頁
2.6 通過原點的迴歸 要獲得(2.63) 式之斜率估計,我們仍要依賴普通最小平方的方法,即殘差平方和極小化︰ 2.6 通過原點的迴歸 要獲得(2.63) 式之斜率估計,我們仍要依賴普通最小平方的方法,即殘差平方和極小化︰ 利用微積分可證明 必須是一階條件的解︰ 2.64 2.65 CH2 簡單迴歸模型 第68頁
2.6 通過原點的迴歸 由此可解 在不是所有xi為0 之下: 2.66 CH2 簡單迴歸模型 第68頁