Chapter 2 簡單迴歸模型
簡單迴歸模型的定義 y = β0 + β1x + u,它代表變數 x 及 y 之間的關連,因此也可將它稱為“兩變數線性迴歸模型”或 “二元線性迴歸模型”。 在方程式中,變數 y 及x 常常交替使用幾種不同的名稱。
簡單迴歸的術語 y x 應變數 自變數 被解釋變數 解釋變數 反應變數 控制變數 被預測變數 預測變數 被迴歸項 迴歸項
簡單迴歸模型的定義 在計量經濟中“應變數”與“自變數”是很常用的。不過要注意自變數的英文“independent” 在這裡並不是代表隨機變數間獨立性的統計概念。
簡單迴歸模型的定義 變數u 稱為誤差項(error term) 或干擾項(disturbance),它代表除了x 之外其他會影響y 的因素。簡單迴歸分析將除了x 以外所有影響y的因素都視為不可觀察。你可以把u 想成代表“不可觀察項”。
簡單迴歸模型的定義 (2.1)式同時也指出了y 和x 之函數關係的議題。若在u之中的其他因素固定不變,因此u 的變動為0,Δu=0,則x 對y有一線性效果: 因此y 的變動就只是β1 乘x的變動。這代表在其他因素u 固定不變下,y及x之關係的斜率參數(slope parameter) 為 β1 ;它是應用經濟中我們最感興趣的部分。截距參數(intercept parameter) β0 ,有時也被稱為常數項(constant term) ,亦有其作用,不過它在分析之中並不是最重要的。
簡單迴歸模型的定義 假設不可觀察的 u 和解釋變數 x 的關係下,才能得到隨機樣本中 β0 和 β1之可靠估計式。若沒有這種假設,我們就不能估計其他條件不變的效果, β1。由於 u 及x為隨機變數,我們需要機率中的概念。 陳述 x 和 u 如何相關連的假設之前,有一個關於u 的假設是我們永遠可以做的。只要截距項 β0 包含在方程式中,假設u 的母體平均值為 0 總是可以的。
簡單迴歸模型的定義 回到 u 和 x 如何相關連之重要假設上。一個對兩個隨機變數之關係的衡量方式即為相關係數(correlation coefficient)。 由於 u 和 x 是隨機變數,我們可以定義在任何x 的值之下 u 的條件分配。特別是,就任何 x,我們可以得到 u 的期望值(或平均值)。重要的假設即為 u 的平均值並不取決於 x 的值。 其中第二個等式即為(2.5)式。(2.6)式中第一個等式為一新的假設,我們稱為條件平均為 0 的假設(zero conditional mean assumption)。
簡單迴歸模型的定義 將(2.1) 在 x 的條件下取條件期望值,並且利用 可得 (2.8)式顯示母體迴歸函數 (population regression function, PRF), ,是 x 的線性函數。
推導普通最小平方估計 迴歸的基本概念就是從樣本中估計母體參數。 令{(xi, yi): i =1,…,n} 代表一由母體中所得之大小為n 的隨機樣本。由於這些資料來自(2.1)式,我們可以對每一個 i 寫出 由於ui 包含除了xi之外所有影響的yi因素,因此它為觀察值 i 之誤差項。
推導普通最小平方估計 在母體中,u 之平均數為0且和x 無相關。因此,看到u 之期望值為0 且x 和u 之共變異數為0: 使用可觀察的變數 x 和 y及未知參數β0和β1, (2.10) 和(2.11)式可被寫為
推導普通最小平方估計 在某一個資料樣本中,我們選擇 和 以解(2.12) 和(2.13)式之樣本對應 在某一個資料樣本中,我們選擇 和 以解(2.12) 和(2.13)式之樣本對應 此為估計之動差法(method of moments) 。
推導普通最小平方估計 利用相加因子之基本特性,(2.14)式可重寫成 其中 為 yi 之樣本平均,而 之定義亦類似於 。此方程式使我們得以將 用 來表示:
推導普通最小平方估計 將(2.15) 式之n-1 剔除(由於它並不影響結果),以及將(2.17) 式代入(2.15) 式中得到 移項重組之後,可得 再利用相加因子之基本特性
推導普通最小平方估計 因此,在以下的條件成立下 估計的斜率為
推導普通最小平方估計 斜率估計為 x 和 y 之樣本共變異數除以x 之樣本變異數 若 x 和 y 正相關,則斜率為正
推導普通最小平方估計 在(2.17) 和(2.19)式之估計稱為β0和 β1的普通最小平方(ordinary least squares, OLS) 估計。 任何 和 ,定義一個當x=xi之y 的配適值(fitted value) 如 真正的yi及其配適值之差異即為觀察值i 之殘差(residual):
推導普通最小平方估計 假設我們選擇 和 使得殘差平方和(sum of squared residuals) 極小化 決定了OLS 估計之截距和斜率,我們就可得出OLS 迴歸線(OLS regression line):
推導普通最小平方估計 由於它是母體迴歸函數 的估計版。 (2.23)式亦被稱為樣本迴歸函數(sample regression function, SRF),我們應該記住PRF是在母體中固定且未知的。 大多數情況下的斜率估計可被寫為 它告訴我們當x 變動一單位時 變動的數量。 所以在x 任意變動之下(無論正或負),我們可以計算y 的預測變動。
OLS 統計量的代數特性 對OLS 估計和它們相關的統計量有一些有用的代數特性,我們現在提出三個最重要的。
OLS 統計量的代數特性 (3) 永遠會在OLS 迴歸線上。換句話說,如果我們把 在(2.23)中替換 x,則OLS 預測值為 。
OLS 統計量的代數特性 將總平方和(total sum of squares, SST)、被解釋平方和(explained sum of squares, SSE)、殘差平方和(residual sum of squares, SSR) 定義如下:
OLS 統計量的代數特性 異性可被表示為被解釋變異性SSE 和不可被解釋變異性SSR 之加總。故 我們可證明(2.37)式,則(2.36)式即可成立
配適度 假定總平方和SST 不等於0 (除了所有yi 的值都相等之外此必定成立)。我們可以將(2.36) 除以SST 以得到1 = SSE/SST + SSR/SST。則迴歸之R2 有時稱為判定係數(coefficient of determination),其定義為 由於SSE 不會大於SST 所以R2 必定在0 和1 之間,在解釋R2時,我們通常將它乘100 以將其轉換成百分比:100.R2為y 之樣本變異可被 x 解釋的百分比。
配適度 如何衡量我們的樣本迴歸線配適樣本資料之好壞? 可計算總平方和 (SST) 可被模型解釋之比例,我們稱此為迴歸的R2 R2 ≡ SSE/SST = 1 – SSR/SST
表2.3 有對數的函數形式之總結 模型 應變數 自變數 β1的解釋 Level-level y x Δy=β1Δx Level-log log(x) Δy=(β1/100)%Δx Log-level log(y) %Δy=(100β1) Δx Log-log %Δy=β1%Δx
假設SLR.1 參數線性 在母體模型中,應變數y和自變數x 相關連,且誤差項(或干擾項)u為 其中β0 和β1 為母體之截距和斜率參數。
假設SLR.2 隨機抽樣 由(2.47) 式母體模型中可得一大小為n 的隨機樣本{(xi, yi): i =1,2,...,n}。
假設SLR.3 解釋變數的樣本變異性 x 的樣本結果,{xi, i= 1, ..., n},其值不全部相同。
假設SLR.4 條件平均為0 在任意既定的解釋變數值之下,誤差項 u 的期望值為0。換句話說,
OLS 的不偏性
OLS 的不偏性
OLS 的不偏性
定理 2.1 OLS之不偏性 利用假設SLR.1 至SLR.4,對任何β0 和β1 而言 換句話說, 為β0 之不偏估計式,以及 是β1 之不偏估計式。
假設SLR.5 同質變異性 在任意既定的解釋變數任意值之下,誤差項u 有相同的變異數。換句話說,
OLS估計式之變異數 現在我們知道估計的抽樣分配是集中於真實參數的 要了解該分配的分散程度 需要另一假設 假設 Var(u|x) = σ2 (同質變異性)
OLS估計式之變異數 Var(u|x) = E(u2|x)-[E(u|x)]2 E(u|x) = 0,所以σ2 = E(u2|x) = E(u2) = Var(u) 故 σ2 亦為非條件變異數,稱為誤差變異數(error variance)或干擾項變異數 σ 為誤差變異數的平方根,稱為誤差標準差
OLS估計式之變異數
OLS估計式之變異數 我們可用y 的條件平均和條件變異數的形式寫假設SLR.4 和SLR.5 當 取決於x 誤差項,即存在異質變異性(heteroskedasticity)或是非常數的變異數,由於 ,每當 為x 的函數時,異質變異性就會存在。
估計誤差變異數 因為我們無法觀察到ui,因此我們不知道誤差變異數s2 的值 我們只能觀察到殘差ûi 我們可以使用殘差來估計誤差變異數
估計誤差變異數
估計誤差變異數 稱為迴歸的標準誤(standard error of the regression, SER) 由於 之一個自然的估計式為 由於 之一個自然的估計式為 此稱為 之標準誤(standard error of )
通過原點的迴歸 選擇一個斜率估計式稱為 ,且其迴歸線的形式為 選擇一個斜率估計式稱為 ,且其迴歸線的形式為 其中在 和 之上的符號是用來區別斜率和截距同時存在的估計式。由於(2.63)式通過 x = 0 和 , ,稱之為通過原點的迴歸(regression through the origin)。
通過原點的迴歸 要獲得(2.63)式之斜率估計,可利用普通最小平方的方法,即殘差平方和極小化 利用微積分可證明 必須是一階條件的解: 利用微積分可證明 必須是一階條件的解: 由此可解 在不是所有xi 為0 之下: