第三章 迴歸模式之評估與修訂.

Slides:



Advertisements
Similar presentations
工職數學 第四冊 第一章 導 數 1 - 1 函數的極限與連續 1 - 2 導數及其基本性質 1 - 3 微分公式 1 - 4 高階導函數.
Advertisements

©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
大綱 1. 三角函數的導函數. 2. 反三角函數的導函數. 3. 對數函數的導函數. 4. 指數函數的導函數.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
第 6 章 複迴歸之一.
單元九:單因子變異數分析.
Chapter 2 簡單迴歸模型.
期望值 變異數 共變異數與相關係數 變異數與共變異數之性質 柴比雪夫不等氏 動差與動差生成函數
資料分析:相關和迴歸 第十八章 「行銷研究人員必須持續檢視消費者認知和最終 購買決策之間的關係,因此,相關和迴歸技術為行
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
應用統計學 授課大綱 – 暑期班 By: Dr. Tsung-Nan Tsai.
17 類別資料的分析  學習目的.
第 14 章 Logistic迴歸.
第十三章 簡單線性迴歸 陳順宇 教授 成功大學統計系.
第四章 數列與級數 4-1 等差數列與級數 4-2 等比數列與級數 4-3 無窮等比級數 下一頁 總目錄.
統計數量分析幾個重要的觀念 陳順宇 教授.
迴歸分析 主講人:童超塵 實驗室網址 永久: 實驗室網址 永久: 目前:
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
Ch7:一般線性模式 GLM.
政大公企中心產業人才投資課程--企業決策分析方法--黃智聰
第14章 迴歸分析與複迴歸分析  本章的學習主題  1.使用迴歸分析的時機 2.最小平方法在迴歸分析上的意義 3.迴歸分析的假設
第 八 章 迴歸分析假設條件 之檢定及補救措施 2018/11/28.
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
Chapter 8 異質性.
第 7 章 複迴歸之二.
授課內容: 簡單線性迴歸模型:非線性模型、 異質變異、自我相關 政治大學行政管理碩士學程共同必修課 課程名稱:社會科學研究方法(量化分析)
單一分配 Uniform distribution
第 六 章 預測變數及迴歸模型的選擇.
複迴歸分析-2 Multiple Regression.
第一章 直角坐標系 1-1 數系的發展.
Chapter 3 複迴歸分析: 估計.
第十四章 單因子變異數分析 14.1 前言 14.2 單因子變異數分析理論 14.3 功能視窗 14.4 範例
統計學 指導老師: 郭燿禎 Date: 2/14/12.
第 五 章 複迴歸分析.
第一章 直角坐標系 1-3 函數圖形.
估計與假設檢定.
第一章.
Definition of Trace Function
第 一 章 多元迴歸分析.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
小學四年級數學科 8.最大公因數.
第 15 章 複迴歸 © 滄海書局.
大綱:加減法的化簡 乘除法的化簡 去括號法則 蘇奕君 台灣數位學習科技股份有限公司
微積分網路教學課程 應用統計學系 周 章.
7-2 抽樣分配(sampling distribution)
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
Some Important Probability Distributions
授課內容: 時間序列與橫斷面資料的共用 政治大學行政管理碩士學程共同必修課 課程名稱:社會科學研究方法(量化分析) 授課老師:黃智聰
政治大學東亞所選修--計量分析與中國大陸研究黃智聰
第一章.
Chapter 4 迴歸分析. Chapter 4 迴歸分析 迴歸分析原理 迴歸分析的目的在於找出一條最能夠代表所有觀測資料(樣本點)的函數(迴歸估計式),用這個函數代表應變數和自變數之間的關係 多變量分析—管理上的應用.
第 2 章 迴歸分析的推論.
1-1 隨機的意義– P.1.
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
例題 1. 多項式的排列 1-2 多項式及其加減法 將多項式 按下列方式排列: (1) 降冪排列:______________________ (2) 升冪排列:______________________ 排列 降冪:次數由高至低 升冪;次數由低至高.
1-1 二元一次式運算.
Linear Regression Analysis 5E Montgomery, Peck & Vining
1-4 和角公式與差角公式 差角公式與和角公式 1 倍角公式 2 半角公式 和角公式與差角公式 page.1/23.
參考書籍:林惠玲與陳正倉(2002),《應用統計學第二版》。台北:雙葉書廊有限公司。
簡單線性迴歸模型:隨機解釋變數與時間落差分配模型
第一章 直角坐標系 1-3 函數及其圖形.
政治大學財政所與東亞所選修--應用計量分析--中國財政研究 黃智聰
指導老師:謝文魁老師 學 生:宋婉瑜 李蓮妮 溫宗敏
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
第 七 章 共線性 與 偏相關.
Presentation transcript:

第三章 迴歸模式之評估與修訂

迴歸分析之基本假設 在應用某種統計程序之前,必須注意其基本假設是否符合要求。 迴歸分析有三項基本假設: (1)常態性(2)均質性(3)獨立性。 「常態性」要求給定每一個預測變數 x 的值後,y 值的分配具有常態性。

條件常態分配 迴歸模式中的常態分配指的是條件常態分配,即給定 x 值後 y 的分配是常態分配,至於全部的 y 值是否為常態分配並不是要求的條件。 迴歸分析對常態分配的假設也與 t 檢定、F 檢定一樣具有穩健性(Robust),也就是說,當資料偏離常態不是很嚴重時,仍可接受常態分配的假設條件成立。

均質性 與 獨立性 「均質性」指的是不論甚麼樣的 x 值,y 分配的變異數均相等。 均質性的假設對以普通最小平方法作迴歸係數的估計是重要的,如果各組變異數的差別很大,則必須利用變數變換或是加權最小平方法來處理。 「獨立性」指的是前一個誤差不會影響後一個誤差,也就是資料具有相同的分配且獨立,亦即誤差項無自我相關。

條件常態分配、均質性及線性

古典線性迴歸之基本假設 線性迴歸模型:迴歸模型對參數是線性的 Yi = β0 + β1Xi + i 誤差項 i 的平均值為零,即 E(i ) =0 誤差項 i 的變異數相等,即 Var(i ) =σ2 誤差項 i 無自我相關,即 Cov(i ,j) =0 , i≠j 誤差項 i 和 Xi 的共變異數為零,Cov(i ,Xi) =0

古典線性迴歸之基本假設 在重複抽樣中 X 值是固定的:X 不是隨機變數 觀測次數 n 必須大於待估計的參數個數 正確地設定了迴歸模型,即模型沒有設定偏誤 解釋變數之間沒有完全的共線性

古典線性迴歸之基本假設 當我們把普通最小平方法應用於古典線性迴歸模型時,並沒有對誤差項 i 的機率分配作任何假設(並不需要假設常態分配)。 有了這些假設,便看到 OLS 估計量 β0 、 β1 和 σ2 滿足線性、不偏和最小變異數(BLUE)等優良的統計性質。 ︿ ︿

古典線性迴歸之基本假設 ︿ ︿ 因為 OLS 估計量 β0 和 β1 都是 i 的線性函數,而按假設 i 是隨機的,因此,OLS 估計量的抽樣分配或機率分配將依賴於 i 假設的機率分配。 因為必須知道這些估計量的機率分配,方能對它們的母體值進行推論,所以為了假設檢定,必須先對 i 的機率分配作出假設。

誤差項 i 的常態假設 誤差項 i 的平均值為零,即 E(i ) =0 誤差項 i 的變異數相等,即 Var(i ) =σ2 誤差項 i 之間無自我相關,即 Cov(i ,j) =0 , i≠j 誤差項 i 服從常態分配,即 i ~ ~N(0, σ2) i.i.d

OLS 估計量的抽樣分配 因為 誤差項 i 代表沒有納入迴歸模型的其他所有影響因素,而在這些影響因素中,每種因素對 Y 的影響都很微弱。 常態變數的線性函數仍服從常態分配。

中央極限定理 由母體平均數為 μ 與變異數為 σ2 的任意母體 中,抽出樣本數為 T 的一組隨機樣本 X1, X2, … , XN。若樣本數 T (觀察值) 夠大 (T≧30) , 則樣本平均數 XN 的抽樣分配,會趨近於常態 分配。 或

OLS 估計量的抽樣分配 由於 Yi = β0 + β1Xi + i , 而因為 β0 和 β1 是常數,Xi 也是給定的值,所以 Yi 是 i 的線性組合。 因此,若 i ~ N (0, σ2), 則 Yi ~ N ( β0+β1Xi , σ2)

OLS 估計量的抽樣分配 ︿ ︿ ︿ 因為 β0 和 β1 是 Yi 的線性組合,所以 β0 和 β1 也是常態分配。 因此, β0 ~ N (β0 , σ02), β1 ~ N ( β1 , σ12) 知道 β0 和 β1 的抽樣分配,才能對迴歸式的參數做假設檢定。 ︿ ︿ ︿ ︿ ︿

殘 差 分 析 如何檢查迴歸模式是否滿足其基本的假設,主要是利用殘差分析。 基本上,如果模式正確,則殘差圖應該會「很亂」,即殘差圖上找不出有任何圖案。如果殘差圖有圖案存在,表示模式不好,需作適當的修正。

殘 差 分 析 為甚麼殘差圖要很亂才表示模式正確呢?因為我們將觀察值 yi 分解成二部份:可解釋的部份與不可解釋的部份。 不可解釋的部份即殘差項,它是所有「噪音」(雜訊) 的整合體,不能有圖案,否則應再將它抽離出來,放在可解釋的部份。

迴 歸 模 型 Yi = β0 + β1X1i + i

殘差圖之「圖案」 (1)標準的圖案。 (2)殘差項有趨勢存在。 (3)殘差項為二次式。 (4)殘差的變異數隨 x 而改變。 (5)存在自我相關的迴歸式。 (6)可能需加入其它重要的變數。 (7)異常點。

殘差隨機跳動之標準型

殘差項有趨勢存在

加入趨勢項 Yi = β0 + θT + β1X1i + I H0:θ=0

殘差圖呈現二次型

加入二次項 Yi = β0 + θT + β1X1i + β2X21i + I H0:β2=0

殘差項有異質變異數 採用加權最小平方法估計及檢定

殘差項有異質變異數 採用加權最小平方法估計及檢定

殘差項有自我相關 改用時間數列分析的方法

可能要加入其他變數

可能要加入其他變數 體重 身高 ◎ ◎ ◎ ◎ ◎ ◎ ◎ * ◎ * * ◎ * ◎ * * * * ◎ * * ◎ ◎ * ◎ * ◎:男 * * ◎ * *:女 身高

可能要加入其他變數

虛 擬 變 數 Yi = β0 + β1Xi + i Yi = β0 + δD+ β1Xi + i D = 1,若為男性 0,若為女性

虛 擬 變 數 Yi = β0 + β1Xi + i Yi = (β0 + δ)+ β1Xi + i H0: δ=0 H1: δ≠0 女性: 男性:

加入虛擬變數的結果 體重 δ 身高 β0 ◎ ◎ ◎ ◎ ◎ ◎ ◎ * ◎ * * ◎ * ◎ * * * * ◎ * * ◎ ◎ * ◎ ◎:男 * * ◎ * *:女 δ β0 身高

加入虛擬變數後的殘差 * * * * ◎ * * ◎ ◎ ◎ ◎ ◎ * * ◎ * ◎ ◎ * ◎ ◎

虛擬變數陷阱 Yi = β0 + β1Xi + i Yi = β0 + δD1+ γD2 + β1Xi + I 1,若為男性 0,若為男性 D1 = D2 = 0,若為女性 1,若為女性 會產生完全多重共線性的問題

虛擬變數的個數 一般的原則是:如果模型有共同的截距項,且屬質變數 (類別變數) 有 m 種分類,則需引入 ( m-1 ) 個虛擬變數。 如果不符合這條原則,則會陷入虛擬變數陷阱,即「完全多重共線性」。

函數型式 與 結構轉變 欲知四季對可支配所得與消費之間的關係,模型如下: Ct = β1 + β2 × Xt + δ1 × Dt1 + δ2 × Dt2 + δ3 × Dt3 + εt 其中 D 為虛擬變數,其值為 0 或 1。以第四季為基準。 如果模型中有截距項,則 4 個類別只能使用 3 個虛擬變 數,若使用 4 個虛擬變數,則會有「虛擬變數陷阱」的 問題,即會產生「完全多重共線性」的問題。 當模型中有截距項,則 β1 表示第 4 季 (基準) 的效果,而 δ1 、 δ2 、 δ3 分別表示第 1、2、3 季和第 4 季的差距。 37

函數型式 與 結構轉變 欲知季節性對可支配所得與消費之間的關係,模型如下: Ct = β1 × Xt + δ1 × Dt1 + δ2 × Dt2 + δ3 × Dt3 + δ4 × Dt4 + εt 如果模型中沒有截距項,則 4 個類別就可以使用 4 個虛 擬變數,此時不會有「虛擬變數陷阱」的問題。 當模型中沒有截距項,則 δ1 、 δ2 、 δ3 、 δ4 分別表示在 所得保持固定下,第 1、2、3、4 季的效果。 38

類別變數 與 虛擬變數 的差異性 欲知學歷對所得的影響,模型如下: Income = β1 + β2 × age + δ × E + εt 其中,E 為類別變數,其值如下:E = 0,若為大學以下; E = 1,若為大學畢業;E = 2,若為碩士畢業;E = 3,若 為博士畢業。 此種類別變數的設定,隱含不必要的限制條件:它隱含 不同學歷差距的所得差距是相等的,即大學以下為 β1 , 大學畢業為 β1 + δ ,碩士為 β1 + 2δ ,而博士為 β1 + 3δ 。 39

類別變數 與 虛擬變數 的差異性 欲知學歷對所得的影響,較好的模型如下: Income = β1 + β2 × age + δB × B + δM × M + δP × P + εt 其中,B、M、P 分別為虛擬變數,其值為 1 時,分別代 表大學、碩士、博士;否則為 0。 此種模型下,以「大學以下」為比較基準。學歷的效果: 大學以下為 β1 ,大學畢業為 β1 + δB ,碩士為 β1 + δM , 而博士為 β1 + δP 。即大學畢業比大學以下多賺 δB,碩士 比大學以下多賺 δM ,而博士則比大學以下多賺 δP 。 40

函數型式 與 結構轉變 Income = β1 + β2 × age + δB × B + δM × M + δP × P + εt 41

函數型式 與 結構轉變 Income = β1 + β2 × age + δB × B + δM × M + δP × P + εt 此模型,也可定義,只要具有該學歷,即給值 1,則在給 定 age 的條件下,其對所得的影響的係數分別如下,此 時 δB、 δM、 δP 的值分別代表不同學歷的邊際效果。 42

類別變數 與 虛擬變數 的差異性 假設類別變數有三類,使用類別變數的模型如下: Yi = α + βXi + εi 43

類別變數 與 虛擬變數 的差異性 跑完迴歸後,此類別變數對 Yi 的平均影響如下: 此種模型的估計,隱含 μA ≠ μB ≠ μC ,且 μA 和 μC 的差距 (2β) 是 μA 和 μB 的差距 (β) 的二倍,這種隱含的效果是不 適當的。所以一般以採用虛擬變數的方法為佳。 44

類別變數 與 虛擬變數 的差異性 假設類別變數有三類,使用虛擬變數的模型如下: Yi = β1 + β2D2i + β3D3i + εi 45

類別變數 與 虛擬變數 的差異性 跑完迴歸後,此虛擬變數對 Yi 的平均影響如下: E(Yi ) = β1 + β2D2i + β3D3i = β1 = μA 當 D2i = 0,且D3i = 0 = β1 + β2 = μB 當 D2i = 1 ,且D3i = 0 = β1 + β3 = μC 當 D3i = 1 ,且D2i = 0 此時, μA ≠ μB ≠ μC ,但其間的差距並不相同。 46

適合度檢定 常態性的檢定法: (1)畫直方圖(2)畫常態機率圖 (3)卡方檢定法(4)S-W法、K-S 法和 J-B 法 異質變異數的檢定法: (1)畫殘差圖(2) White 的一般異質性變異數檢定(3)其他異質性變異數檢定方法 獨立性的檢定法: (1)畫殘差圖(2) Durbin-Watson d 檢定 (3)其他誤差項自我相關檢定方法 (連檢定)

模式之修訂與變數變換 模式之修訂: (1)變數變換。(2)加入其它變數。 (3)放棄線性迴歸式,改用非線性迴歸式, 或其它方式如時間數列分析等。 Box-Cox 變數變換: Y* = Yλ

模 式 變 換 其它常用的模式變換: (1)倒數變換。 (2)指數模式。 (3)乘冪函數模式。 (4)經過原點的迴歸線模式。

過原點的迴歸 採用經過原點之迴歸模式的時機: (1)有學理上的依據時。 (2)在求出一般的線性迴歸式後,發現其參 數估計表中的截距項不顯著。 採用經過原點之迴歸模式的時機: (1)有學理上的依據時。 (2)在求出一般的線性迴歸式後,發現其參 數估計表中的截距項不顯著。 除非有非常強的事前預期,否則以採取含有截距的模型較好。若模型中確實應含有截距項而卻配適過原點的迴歸,則犯了模型設定偏誤的錯。其次,若經檢定後發現截距項不顯著,則事後再改成過原點的迴歸即可。

異常點 與 影響點 異常點:在散佈圖上,有些點與其它點離得很遠,但是此點的有無不會對迴歸線產生影響。 影響點:在散佈圖上,有些點與其它點離得很遠,且此點的有無會對迴歸線產生重大影響。 當出現離群值時,通常需提出解釋。

影 響 點

函數型式—Box-Cox 轉換 以下二式,哪一式是較好的函數型式? 注意:因為應變數不同,所以先前的方法不能用。 54

函數型式—Box-Cox 轉換 雖然經濟學家對於哪些變數應該包含在一特定的關係之 中,通常會有相當強的先驗資訊,但對於其精確的函數 型式,卻通常只有相當少的資訊。 由 Box-Cox 於 1964 年首度引入的 Box-Cox 轉換,已因 Zarembka 於 1968、1974 年將其作為以資料來決定哪一 個函數型式是最合適的,而在經濟學界廣受歡迎。 所謂「由資料決定函數型式」的意思是說,函數的型式 應該由對函數參數的估計值來定義。 55

函數型式—Box-Cox 轉換 56

函數型式—Box-Cox 轉換 當  = 0 時,z() = ln z,因此 (12.5.4) 式 (  沒有下標,所 以是相同的) 會與 (12.5.2) 式相同。 57

函數型式—Box-Cox 轉換 當  = 1 時,z() = z - 1,因此 (12.5.4) 式可改寫成 (12.5.5) 式,而 (12.5.5) 式其實等於 (12.5.1) 式。 58

函數型式—Box-Cox 轉換 如果轉換的參數對每個變數都不同 (  有下標,所以是不 同的) ,則在估計 (12.5.6) 式時會更有彈性: 但是增加彈性並非沒有代價。在這個模型中,如果沒有 大量的觀察值,則要想可靠地估計所有的參數就會有困 難。 59

White Robust 修正異質變異數 先以 OLS 跑原始迴歸,得出殘差,存殘差平方。 H0 : 無異質變異 v.s. H1 : 有異質變異。 檢定統計量為: n  R2 ~X2(k) 其中 k 為輔助迴歸中迴歸變數的個數。 60

White Robust 修正異質變異數 原始迴歸: Yi = β1 + β2X2i + β3X3i + εi 。 先以 OLS 跑原始迴歸,得出殘差,存殘差平方。 將原始迴歸的解釋變數加入平方項 (及交叉相乘項) ,以 殘差平方對常數項及全部解釋變數跑 OLS,稱輔助迴歸。 輔助迴歸: Yi = β1 + β2X2i + β3X3i + β4X2i2 + β5X3i2 + β6X2i X3i + εi 。 從輔助迴歸中,得出 R2。 檢定統計量為: n  R2 ~X2(k) 61

假性迴歸 (spurious regressions) 兩個隨機漫步模型 yt = yt-1 + t 與 xt = xt-1 + t, t 與 t 獨立,因此, yt = yt-1 + t 與 xt = xt-1 + t 應為獨立 (無關) 的時間序列。迴歸 yt =  + xt + t 在直覺上應該會接受 H0:  =  = 0 的虛無假設。但執行迴歸 yt =  + xt + t 的 t 檢定,拒絕 H0:  = 0 的機率約為 75% 而非 5%,產 生錯誤的統計推論,此即所謂假性迴歸的問題。 因為迴歸 yt =  + xt + t 的誤差項 t 不是定態的時間序 列,若直接將非定態的變數進行迴歸分析,可能產生假 性迴歸的問題。也就是說傳統的 t 檢定和 F 檢定會產生 過度拒絕 H0 的結果,因而產生錯誤的統計推論。 62

假性迴歸 與 共整合 yt 與 xt 均為隨機漫步的時間序列 I(1),且 t = yt - - xt 亦為 I(1),表示 yt 與 xt 為無關的隨機漫步。若將 yt 對 xt 跑迴歸, yt =  + xt + t ,則會有虛假迴歸的問題。 yt 與 xt 均為隨機漫步的時間序列 I(1),但 t = yt - - xt 為 I(0),則表示 yt 與 xt 為共整合。此時若將 yt 對 xt 跑迴 歸, yt =  + xt + t ,則所得出的結果是有意義的。 yt 與 xt 均為隨機漫步,分別代表兩個醉漢的足跡;若 yt 與 xt 為共整合,表示兩個醉漢以一段繩子綁住後的足跡, 兩個醉漢的足跡雖是隨機漫步,但又不會相距太遠。 63