第一章
第十一章 簡單線性迴歸: 統計分析
本章綜覽 應用第 7 和第 8 章的觀念,根據對樣本不同的假設條件來分析 在樣本不同的假設條件下執行假設檢定 最小平方估計式的小樣本性質 最小平方估計式的大樣本性質 在樣本不同的假設條件下執行假設檢定 與前一章相比,本章的結果隨樣本隨機性質的不同而有很大的差異。由於樣本平均數也是一種最小平方估計式,本章的許多結果也可以視為樣本平均數相關結果的延伸。
最小平方法估計式的統計性質 簡單線性迴歸模型: 迴歸的古典條件 : [B1] X i , i = 1, … , n, 為非隨機的變數。 Yi = α0 + β0 X i + Vi , i = 1, … , n.
古典條件 Vi 具有以下性質: [B2] 中的 Vi 就是在參數值為 和 時模型的誤差。 Vi 稱為第 i 個干擾項 (disturbance)。 當 Vi 有相同的變異數,則稱 Vi 具有變異數齊一性,否則即為變異數不齊一性 (heteroskedasticity)。
迴歸變異數 條件 [B2](ii) 中出現了新參數 σ02,其最小平方估計式為殘差平方和除以其自由度: 若考慮只包含截距項的模型,此時迴歸變異數亦即樣本變異數:
最小平方法估計式的統計性質 假設 [B1] 和 [B2](i) 成立,則最小平方估計式分別為 α0 和 β0 的線性且不偏的估計式。
最小平方法估計式的統計性質 假設 [B1] 和 [B2] 成立,高斯--馬可夫定理 (Gauss-Markov theorem) 保證最小平方估計式為最佳線性不偏估計式。 假設 [B1] 和 [B2] 成立,則
最小平方法估計式的統計性質 假設 [B1] 和 [B2] 成立, 是 σ02 的不偏估計式。但無最佳線性不偏的性質。
預測 在模型估計完畢後,如果又得到新的解釋變數 Xn+1,就可以據此計算預測的應變數。 任何一個估計的應變數其所用的資料 Xi 已被用來計算參數估計式。但預測的應變數所用的變數 Xn+1 之實現值則不必然屬於估計模型的樣本。 我們定義 Yn+1 和預測的應變數 之間的差距為預測誤差 (prediction error)。
較強的古典條件 因原有古典條件 [B2] 並未對 Vi 的分配設下任何限制,所以不論這些變數的分配為何,前一節的結果都不受影響。 若要討論迴歸參數估計式的實際分配,就需以下的古典條件: [B2’] 存在 與 β0 使得 Yi = +β0 Xi + Vi, i = 1, …, n, 其中 Vi 為互相獨立的常態隨機變數:N (0, σ02 )。
最小平方法估計式的實際分配 假設 [B1] 和 [B2’] 成立。則
最小平方法估計式的實際分配 假設 [B1] 和 [B2’] 成立。則 . 若無常態分配的假設,最小平方估計式未必與變異數估計式相互獨立,也不會有上述 χ2分配的結果。 在常態分配假設之下,最小平方估計式不僅是最佳線性不偏估計式,而且是最佳不偏估計式。
古典條件的限制 在許多種類的迴歸分析中,很難規定解釋變數必須是非隨機的實數。 被解釋變數的變異數通常不是相同的常數。 被解釋變數有相關性。 被解釋變數不是常態分配。 上述都將造成無法求出最小平方估計式的實際分配,故需要修正的古典條件。 修正後的條件和原來的古典條件最大不同之處在於其允許解釋變數為隨機變數,並保證弱大數法則與中央極限定理之成立,以進一步進行推論。
修正的古典條件 [C1] {(X1,Y1), …, (Xn,Yn)} 為具有有限變異數的 i.i.d. 隨機變數。 Yi = α0 + β0 Xi + Vi, i = 1, … , n. 其中Vi 具有以下的性質。
最小平方法估計式的大樣本性質 在 [C1] 之下,應用弱大數法則可得出: 這些收斂結果是由資料的性質所決定。
最小平方法估計式的大樣本性質 在 [C1] 和 [C2] (i) 皆成立之下, β0 = σXY/σX2, α0 = μY – μXσXY/σX2. 在 [C1] 和 [C2] 皆成立之下, σ02 = σY2 (1 – ρ2XY). 由上可知真正的參數值是由資料的性質所決定,並不受模型設定的影響。 若我們將模型設定為 Yi = α +β Xi + Ui ,則有下列結果: 在 [C1] 和 [C2] (i) 皆成立之下,最小平方估計式 分別為 的一致計式。 在 [C1] 和 [C2] 皆成立之下, σ02 為 σ02 的一致估計式。
參數估計式的極限分配 在 [C1] 和 [C2] 與前頁之線性模型皆成立之下, [C1] 中隨機樣本的規定,排除了並非互相獨立的樣本資料。 一致性和極限分配這些性質仍會成立, 只要樣本服從弱大數法則和中央極限定理的規範。
假設檢定與信賴區間 假設 [B1], [B2’] 成立,在H0:β0= b 與 H0:α0= a 下,則檢定斜率與截距項用的檢定統計量及機率分配分別為:
假設檢定與信賴區間 一旦古典條件不成立,便無法得知統計量 Tβ 和 Tα 的實際分配,但仍可設法推導其極限分配。
實例分析 沿用 10.5 節的實例。 迴歸變異數的估計值為 斜率估計式的變異數估計值為
實例分析 截距估計式的變異數估計值為 考慮虛無假設 H0:β0 = 0, t 檢定之統計量為
實例分析 可以利用 EXCEL 的幫助更快的得到上述的結果。
實例分析的 ANOVA 表 F 值是檢定模型解釋變數(截距項除外)是否有解釋能力的統計量之值,而顯著值即此一統計量 p 值。 表中迴歸的 SS 值表迴歸平方和,殘差的 SS 值表殘差平方和,而總和的 SS 值則為總平方和。