第 2 章 迴歸分析的推論
貫穿本章以及第一部份以後的各章節,除非另有說明,否則皆假設適用常態誤差迴歸模型(1.24)。此一模型即是 (2.1) 其中 及 為參數; Xi 為已知常數; 獨立且服從。
2.1 關於 的推論
的抽樣分配 定義於(1.10a)中的點估計式 重新列式如下: (2.2) 所謂 的抽樣分配,是指固定預測變數X的水準,重複抽樣所得到不同樣本而造成不同 之值的現象。 對於常態誤差迴歸模型(2.1), 的抽樣分配 為常態, (2.3)
且具有平均數及變異數: (2.3a) (2.3b) 要證明此結果,我們必須了解到, 是諸觀測值Yi 的線性組合。 是諸觀測值Yi的線性組合 定義於(2.2)中的 可以改寫成如下形式: (2.4)
其中 (2.4a) 可以看得出來ki是諸Xi 的函數,當Xi 固定時,ki也 是固定的。因此, 為諸Yi的線性組合,而其組合 係數只是諸固定Xi的函數。 組合係數ki具有一些稍後會用得到的性質: (2.5) (2.6) (2.7)
說明 1. 要證明 為諸Yi的線性組合且其組合係數為ki,首先我們必須先證明: (2.8) 常態性 平均數 變異數
估計變異數 我們也可以估計 的抽樣分配的變異數: 只要將參數 以它的不偏估計式MSE取代之即可: (2.9) 說明
(b1 1)/s{b1}的抽樣分配 當一個統計量經過標準化,但其分母為估計的標準差而非真實的標準差時,我們稱之為學生化統計量。下面是一個關於此學生化統計量(b1 1)/s{b1}的重要定理: 對於迴歸模型(2.1), 服從自由度(n - 2)的 t分配,即t(n - 2) (2.10) 說明 我們可以根據下面的定理來證明此t化統計量(b1 1)/s{b1}服從自由度(n - 2)的t分配: 對於迴歸模型(2.1),SSE/ 是服從自由度(n - 2) 的卡方分配( ),且與b0及b1都獨立 (2.11)
1的信賴區間 由於(b1 1)/s{b1}服從t分配,我們可以作下面的機率陳述: (2.12) 在這邊,t(/2; n - 2)定義為具有自由度(n - 2)的t分配之第(/2)100百分位數。因為t分配有對稱於0的特性,所以 (2.13)
利用(2.13),(2.12)可以改寫成: (2.14) 由於對於1的所有值,(2.14)均成立,所以1的1 - 信 賴界限為 (2.15)
關於1的檢定
說明
2.2 關於 的推論 的抽樣分配 定義於(1.10b)的點估計式 重列如下: (2.21) 2.2 關於 的推論 的抽樣分配 定義於(1.10b)的點估計式 重列如下: (2.21) 所謂 的抽樣分配,就是針對預測變數X固定在某特定水準下重複抽樣所得到不同 值的現象。 對於迴歸模型(2.1), 的抽樣分配 是常態的,且其平均數及變異數是: (2.22) (2.22a) (2.22b)
的點估計式可以藉由將 換成其點估計式 MSE來得到: (2.23) 而其正平方根, ,是 的估計式。 的抽樣分配 類似定理(2.10)的b1,對b0也有一個定理: 對於迴歸模型(2.1), 服從自由度(n - 2) 的 t分配,即t(n - 2) (2.24)
的信賴區間 如同先前對 的推導, 的1 信賴界限也可以得到,就是: (2.25)
2.3 對 及 做推論時的一些考慮 偏離常態性的效應 信賴係數及錯誤風險的解釋 分隔X的水準 檢定力 2.3 對 及 做推論時的一些考慮 偏離常態性的效應 信賴係數及錯誤風險的解釋 分隔X的水準 檢定力 這個檢定的檢定力,就是當Ha是對時,而我們的決策法則也會導引到結論是Ha的機率。更明確的說,這個檢定的檢定力就是: (2.26) 其中為非置中量數 即量測1的真實值與10相距多遠的一個指標: (2.27)
2.4 的區間估計 令Xh表示我們想估計平均反應的X水準,Xh可能是在樣本中出現過的一個值,也可能是在模型範圍內預測變數的另一個值。X = Xh時的平均反應記為E{Yh},(1.12)給予E{Yh}的點估計式 是: (2.28) 的抽樣分配 如同前面所提到過的幾個抽樣分配, 的抽樣分配是指:固定預測變數X的水準,重複抽樣並計算 ,所得到的不同 值的現象。
對於常態誤差迴歸模型(2.1), 的抽樣分配為 常態,並具有如下的平均數與變異數: (2.29) (2.29a) (2.29b)
常態性 平均數 變異數 當MSE取代(2.29b)的 時,我們可以得到之變異數的估計: (2.30) 說明 要推導出 ,我們必須先證明 和 沒有相關: (2.31) 其中 表示 和 的共變異數。
的抽樣分配 在迴歸模型(2.1)下, 服從t(n - 2)。 (2.32) 的信賴區間 利用定理(2.32)的t分配,E{Yh}的信賴區間可依標準程序來建構,其的1 信賴界限為: (2.33)
2.5 新觀測值的預測 參數已知時 的預測區間
一般若常態誤差迴歸模型(2.1)的參數已知,則 的1 預測區間為: (2.34) 參數未知時 的預測區間 給定Xh,一新觀測值 的預測界限可利用下列定理求得: 一般若常態誤差迴歸模型(2.1)的參數已知, 則 的 1 預測區間為: (2.35)
由定理(2.35),一新觀測值 的1 預測區間可依一般方式(比較(2.35)和(2.10),又以 對應 , 對應 )得: (2.36) 應用新觀測值 和 所依據的原n個個案相互獨立的性質,此項預測誤差的變異數立即可得。將預測誤差變異數以 表示,由(A.31b)得 (2.37)
預測誤差變異數 的一個不偏估計量為 (2.38) 應用(2.30),上列預測誤差的不偏估計量可表示如下: (2.38a)
給定Xh時m個新觀測值的平均數之預測 以代表要預測之新的Y觀測值平均數,假設這些新觀測值相互獨立,可得其1 預測界限為 (2.39) 其中 (2.39a) 亦即 (2.39b)
2.6 迴歸線的信賴帶 迴歸模型(2.1)之迴歸線,其Working-Hotelling 1 信賴帶在任一水準 Xh 具有下列兩邊界值: (2.40) 其中 (2.40a)
說明 (2.40)式的迴歸線信賴帶邊界值定義了一組雙曲線,這可由將(2.28)及(2.30)的定義式分別代入公式中的 及 即得 (2.41)
2.7 迴歸分析中的變異數分析法
總平方和的分割 基本概念 在工作時數Yi之間具有變異,無論批量大小為何,這些變異習慣上是以Yi對其平均數 的離差來衡量。 (2.42) 圖2.7a中此項離差是以垂直線段表示。總變異是(2.42)離差平方的和,以SSTO表示: (2.43) 其中SSTO是總平方和。
若考慮預測變數X,則反映Y之不確定性的變異是Yi和配適的迴歸線之間的差: (2.44) 在考慮預測變數X的效果後,是以(2.44)離差平方的和來衡量,即(1.21)的SSE: (2.45) 而SSE是誤差平方和。 這兩個平方和的顯著差異原因在哪裡?此差異,如我們即將證明的,是另一個平方和 (2.46) 其中SSR是迴歸平方和。
分割的正式推導 衡量未計入預測變數效果之總變異所用的總離差Yi - 可分解成兩個部分: (2.48) 此兩部分即: 1.配適值 對平均數 之離差。 2.觀測值Yi對配適迴歸線之離差。
值得注意的是:將這些離差平方再加總後,仍然保有同樣的關係, (2.49) 或者,用(2.43)、(2.45)及(2.46)的符號: (2.50) 說明 另有些代數上恆等的替代公式,其中一個適用於推導解析結果的公式如下: (2.51)
自由度劃分 均方 將平方和除以其對應自由度,結果稱為均方(MS)。此處我們有興趣的是迴歸均方(MSR) (2.52) 以及誤差均方(MSE),定義如(1.22): (2.53) 變異數分析表 基本表
修訂表 有時候會採用多一個分解項的ANOVA表,因總平方和可分解為 在修訂的ANOVA表中,定義了未修正總平方和(SSTOU),如下: (2.54) 還有平均數修正項平方和(SS),定義為 (2.55)
期望均方 均方的期望值是均方之抽樣分配的平均數,並告訴我們什麼是均方要估計的。由統計理論得: (2.56) (2.57) 說明 由(A.15a) (2.58)
對 的F檢定 變異數分析的方法提供迴歸模型(及其他線性統計模型)一套極有用的檢定工具。以此處考慮的簡單線性迴歸來說,變異數分析可做下列檢定: (2.59) 檢定統計量 變異數分析的檢定統計量以F*表示。如剛剛提及的,此統計量以下列方式比較MSR和MSE: (2.60)
F*的抽樣分配 為了建構一個統計決策規則並檢查其性質,需要知道F*的抽樣分配。首先考慮 成立時F*的抽樣分配;Cochran定理與此有關。此定理配合我們的目的,可寫成 若所有 n個觀測值Yi均來自同一個常態分配, 其平均數為 ,變異數為 ,並且將SSTO分 解為 k個平方和 SSR,各具自由度 ,又若 下列條件滿足: 則各為相互獨立各具自由度 的隨機變數。 (2.61)
建構決策規則 由於檢定規則應取右尾,並且當 成立時,F*服從F(1, n - 2),因此若型I錯誤的風險控制 則決策為 (2. 62) 其中F( ; n - 2)為對應之F分配的 百分位數。
F檢定和t檢定的等價性 給定一 水準,對 與 的F檢定,代數上等價於雙尾的t檢定。由(2.51)可知 因此, 但因,故得: (2.63)
2.8 一般線性檢定法 全模型 我們由被認為適合當前資料的模型著手,此模型稱為全模型或無限制模型。在簡單線性迴歸,全模型就是常態誤差迴歸模型(2.1): (2.64) 即觀測值Yi對估計之期望值的離差平方和,結果記做SSE(F),表示它是全模型的誤差平方和。在此我們得 (2.65)
縮減模型 其次考慮 ,在這裡我們有 (2.66) 當 成立時的模型就稱為縮減模型或限制模型。當 時,(2.64)縮減為 (2.67) 每一觀測值對應的估計期望值 ,而此縮減模型的誤差平方和為 (2.68)
檢定統計量 現在的想法是比較兩個模型的誤差平方和SSE(F)及SSE(R)。可證明SSE(F)恆不大於SSE(R): (2.69) 真正的檢定統計量是SSE(R)-SSE(F)的函數,即 (2.70) 當 成立時,上述統計量具有F分配。自由度 及 分別對應到縮減模型及全模型的誤差平方和。大的F*值導致 成立的結論,因大的差異SSE(R)-SSE(F)暗示 成立。所以決策規則為: (2.71)
2.9 迴歸模型中X和Y之關聯的 描述性量數 判定係數 一個衡量X對減低Y變異的效果,或說降低預測Y的不確定性的自然量數,是把縮減的變異量(SSTO-SSE = SSR)表示為總變異的比率: (2.72) 量數R2稱為判定係數。因0 ≤ SSE ≤ SSTO,故 (2.72a)
係數 的限制 相關係數 當Y與X為隨機時,一種Y與X間的線性關聯量測稱為相關係數。其為取R2的平方根: (2.73) 其中正負和配適的迴歸線斜率的正負一致。因此,r的範圍為 。
2.10 應用迴歸分析的考慮事項