第 1 章 單一預測變數線性迴歸
1.1 變數間之關係 兩變數間之函數關係 通常兩變數間之函數關係可以透過數學方程式來表達,如果利用X表示獨立變數,Y表示相依變數,則兩變數間之函數關係形式為
兩變數間之統計關係 一般而言,具備統計關係的觀察值並不會完美地出現在關係線上。
1.2 迴歸模型與用途 起源
基本概念
迴歸模型架構 預測變數的選取 迴歸關係的函數形式 模型的範圍
迴歸分析用途 迴歸與因果關係 電腦操作
1.3 誤差分配未知之簡單線性迴歸模型 模型的標準敘述 在本書的第一部分我們僅僅考慮最基本的單一預測變數之簡單線性迴歸模型,此一模型可陳述如下: (1.1) 上式中, 為反應變數在第i次實驗下之結果 與 均為參數 為已知之常數,代表了預測變數在第i次 實驗時之值 為隨機誤差項
模型的重要特性 當X在第i次實驗時之值Xi時,反應量Yi來自平均數 (1.2) 之機率分配,因此我們知道模型(1.1)之迴歸函數為 (1.3) 誤差項可以被假設為具有常數變異數,故反應量Yi也具有相同的常數變異數 (1.4) 我們可以透過式子(A.16a):
迴歸參數之意義
不同版本的迴歸模型 令 表示恆為1之虛擬變數,則迴歸模型(1.1)可以用如下之表示方式: (1.5) 此種形式之模型將讓每一個迴歸係數均與X相結合。 另一種迴歸模型的形式是利用預測變數之離差代替Xi,則迴歸模型(1.1)可以表示如下:
所以此一版本之迴歸模型可以表示為: (1.6) 其中, (1.6a)
1.4 迴歸分析資料 觀察資料 實驗資料 完全隨機化設計
1.5 迴歸分析步驟概述
1.6 迴歸函數估計
最小平方法 對於每一觀察值(Xi, Yi),最小平方法考慮了Yi與本身期望值之離差: (1.7) 而最小平方法便是將上述n個離差平方後取總合,我們用符號Q來表示: (1.8)
最小平方估計量 採用解析的方法找出滿足迴歸模型(1.1),可以證明出最小的Q值所對應之 與 需同時滿足下列聯立方程式: (1.9a) (1.9b) 而聯立方程式(1.9a)與(1.9b)稱為標準方程式, 與 分別稱為與的點估計量。 透過標準方程式(1.9)可以同時解出 與 如下: (1.10a) (1.10b)
最小平方估計量之性質 有一個重要之定理稱為「Gauss-Markov定理」,陳述如下: 在迴歸模型(1.1)之假設條件下,透過最小平 方法得到之估計量 與 (1.10)式),是 一組不偏(unbiased)之估計量,同時在所有 不偏線性之估計量中,該組估計量之變異數 為最小。 (1.11)
平均反應值之點估計 估計迴歸函數 迴歸函數(1.3): 若其參數分別為樣本估計量 與 ,我們可以下式估計迴歸函數 (1.12) 在本書中我們所提的: (1.13) 是指第i 個配適值,並且必須要區分出配適值與觀測值Yi 兩者之不同。
替代模型(1.6) 如果考慮模型(1.6): 則之最小平方估計量仍然是 ,而 ,所以根據(1.10b): (1.14) 所以模型(1.6)所估計之迴歸函數為: (1.15)
殘差 第i 個殘差是指觀測值Yi與配適值之間的差,我們用符號ei 表示,並做如下之定義: (1.16) 對迴歸模型(1.1),殘差ei變成: (1.16a)
配適迴歸線之性質 1.殘差總合為零: (1.17) 2.殘差平方和 為最小值,而這正是最小平方 法所要求的條件,在(1.8)中要求極小化 Q,此 時 與 的估計量 與 ,代入計算Q,即 為 。 3.觀測值Yi總合與配適值總合相等: (1.18)
4.以Xi作為殘差ei之權重,並且計算總合時,其結果亦為零: (1.19) 5.利用(1.17)與(1.19)之結果,以 作為殘差ei之權重 時,並且計算其總合,結果亦為零: (1.20) 6.迴歸直線必定通過點。
1.7 誤差項變異數 之估計 之點估計 單一母體 迴歸模型 1.7 誤差項變異數 之估計 之點估計 單一母體 迴歸模型 觀測值Yi與平均數之離差,是根據平均數之估計值 而進行,所以此處之離差即為前述之殘差: 而平方和為: (1.21) 其中SSE表示誤差平方和或殘差平方和。
平方和SSE自由度為n – 2,所損失的兩個自由度是發生在進行平均數之估計值 時,須先估計 與 這兩個參數,因此較為適合的均方或 為: (1.22) 其中MSE表示誤差均方或殘差均方。 在迴歸模型(1.1)中,可以證明出MSE為 的一個不偏估計量,亦即: (1.23) 而標準差 之估計量為MSE之平方根,或 。
1.8 常態誤差迴歸模型 模型 常態誤差迴歸模型如下: (1.24) 其中,Yi為反應變數在第i次實驗下之結果 1.8 常態誤差迴歸模型 模型 常態誤差迴歸模型如下: (1.24) 其中,Yi為反應變數在第i次實驗下之結果 Xi為已知之常數,代表了預測變數在第i次 實驗時之值 與 均為參數 獨立且服從常態分配 i = 1, …, n
最大概似估計法下之參數估計 單一母體
一般而言,在常態誤差迴歸模型(1.24)中,利用與,可以計算出觀測值Yi之密度: (1.25) 對於n個觀測值Y1, Y2,..., Yn,其對應之概似函數為(1.25)中個別密度值的相乘積,因為誤差項之變異數通常未知,所以概似函數為參數、與之函數: (1.26)
能夠最大化上述概似函數的一組 、 與 值即為最大概似估計值,而分別以符號 、 與 表示。這三個估計量解析出後之結果如下: (1.27) 不偏估計量MSE與最大概似估計量 差別不大,特別是當n夠大時: (1.28)