第 四 章 迴歸分析應注意之事項
判定係數 R2 的問題 把 R2 =0.8 誤解為預測的準確度為 80﹪,即100 次的預測有 80 次是正確的; 事實上,R2 真正的含意是:預測變數放入模式後,應變數總變異降低的比例。 不同的領域對 R2 的大小要求不一樣: 在自然科學領域,通常要求較高的 R2; 對社會科學而言,有時 R2 ≥ 0.3就相當不錯了。
判定係數 R2 的問題 為了得到較高的 R2,有的研究者常欠缺思考便選取模式。例如並無證據證明迴歸式經過原點,但因為經過原點的迴歸式 R2 較大,便採用經過原點的模式。 為了使 R2 變大,於是在迴歸式中放入了太多不必要的預測變數。
兩變數有相關誤以為有因果關係 不知何者為因,何者為果。 可能二者並無關係,而係受第三者之影響。 因果關係,必須以相關理論為依據。
未作殘差分析 在使用迴歸分析之前,必須先檢查其基本假設是否成立;如假設條件不成立,則不能採用迴歸分析。 迴歸分析的三個假設條件: 條件常態分配 變異數同質性 殘差項獨立性
預測範圍的錯誤 由資料建立模式後,在作預測時,如果預測變數值不在原先搜集資料所屬的範圍內,則這種預測的結果就會很危險。
預測值 與 擬合值 迴歸模式建立後,如評估無誤,即可作預測。 迴歸模式建立後,將 x 代入迴歸式中,即可預測 y 的值( y = β0 + β1x )。 如(x,y)已在原始資料中,則將 x 代入迴歸模式,所得之 y 值稱為擬合值,該值會出現在迴歸線上。觀察值與擬合值的差距稱為殘差。 將一新的 x 值代入迴歸模式中,所得之 y 值稱為預測值,該值會出現在迴歸線上。 ︿ ︿ ︿ ︿ ︿
預測值 與 擬合值 身高 * * * * * * * * * * * * * * * * * * * 10 20 40 年齡
異常點與影響點的不當處理 若資料中出現異常點,可能具有其特定之含意,如一律將之刪除,可能會產生偏差的結論。 資料中若出現離群值,通常需提出解釋。
將觀察之結果視為實驗之結果 觀察的結果,其推論性較差,因為隱含的不確定因素太多; 實驗而得的結果比較能夠確定其變因,故解釋性較好。 例如:收入與受教育年限之間的關係。
整體與個別資料迴歸之不同 可能不同的組別其相關性都很低,但是將各組併在一起後,可能會變成很高的相關性。 例如:P4-5,圖4.2。
辛浦森詭論 在幾組值中都顯示出的關聯或比較,有可能在數據合併成一組時全部消失甚至倒轉方向。 男性 女性 通過 35 20 不通過 45 40 總和 80 60 通過率 35/80 = 44% 20/60 = 33%
電機工程系 男性 女性 通過 30 10 不通過 總和 60 20 通過率 30/60 = 50% 10/20 = 50%
英 文 系 男性 女性 通過 5 10 不通過 15 30 總和 20 40 通過率 5/20 = 25% 10/40 = 25%
1976至1987年間在佛羅里達的案例 試討論死刑判決是否與被告種族有關?
合計來看,似乎被告為白人時,被判死刑的機率反而較被告為黑人時被判死刑的機率還高;但將被害者的種族列入考慮時,則結果完全相反。
不論被害者為白人或黑人,我們發現黑人被判死刑 的比率都較白人高!所以我們認為死刑的判決確實較 不利於黑人。
欠缺相關知識而設出謬誤的迴歸式 例如:搜集長方形傢俱之周長與面積之關係而得出迴歸式。 迴歸式: Yi = β0 + β1Xi1 + εi 數學式: Yi = Xi1 × Xi2
觀察的迴歸線與實際迴歸線的差別 散佈圖所形成的橢圓形之長軸並不就是迴歸線,而是第一主成份線。 迴歸線的斜率比較小。
迴歸線
量測誤差之問題 量測誤差是所有量測問題上不可避免的事,任何儀器所顯示出來的數據都無法絕對精確,只是精確到小數點幾位的差別不同而已。 世界上沒有百分之百可靠的量度這回事。 就像比較大的樣本可以減少樣本統計量的變異一樣,多用幾個量度來平均,也可以減少結果的變異。
量測誤差的三個假設條件 xi 的量測誤差符合常態分配,平均數為 0,變異數為δ2。 yi 的量測誤差符合常態分配,平均數為 0,變異數為δ2 。 貝克生模式:x 值事先已設定好,但實際實驗時 x 值可能有偏差。