Chapter 9 設定和資料問題之進一步探討.

Slides:



Advertisements
Similar presentations
Chap 3 微分的應用. 第三章 3.1 區間上的極值 3.2 Rolle 定理和均值定理 3.3 函數的遞增遞減以及一階導數的判定 3.4 凹面性和二階導數判定 3.5 無限遠處的極限 3.6 曲線繪圖概要 3.7 最佳化的問題 3.8 牛頓法 3.9 微分.
Advertisements

工職數學 第四冊 第一章 導 數 1 - 1 函數的極限與連續 1 - 2 導數及其基本性質 1 - 3 微分公式 1 - 4 高階導函數.
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
大綱 1. 三角函數的導函數. 2. 反三角函數的導函數. 3. 對數函數的導函數. 4. 指數函數的導函數.
變數與函數 大綱 : 對應關係 函數 函數值 顧震宇 台灣數位學習科技股份有限公司. 對應關係 蛋餅飯糰土司漢堡咖啡奶茶 25 元 30 元 25 元 35 元 25 元 20 元 顧震宇 老師 台灣數位學習科技股份有限公司 變數與函數 下表是早餐店價格表的一部分: 蛋餅 飯糰 土司 漢堡 咖啡 奶茶.
單元九:單因子變異數分析.
Chapter 2 簡單迴歸模型.
資料分析:相關和迴歸 第十八章 「行銷研究人員必須持續檢視消費者認知和最終 購買決策之間的關係,因此,相關和迴歸技術為行
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
行銷研究 單元二 行銷研究的程序.
數 據 分 析 林煜家 魏韶寬 陳思羽 邱振源.
17 類別資料的分析  學習目的.
第 14 章 Logistic迴歸.
5.1 自然對數函數:微分 5.2 自然對數函數:積分 5.3 反函數 5.4 指數函數:微分與積分 5.5 一般底數的指數函數和應用 5.6 反三角函數:微分 5.7 反三角函數:積分 5.8 雙曲函數.
迴歸分析 主講人:童超塵 實驗室網址 永久: 實驗室網址 永久: 目前:
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
Chapter 2 簡單迴歸模型.
九十八學年度第一學期經濟學 Chapter 4 價格彈性.
Regression for binary outcomes
REGRESSION FOR ORDINAL OUTCOMES 「順序尺度依變項」的迴歸模型
政大公企中心產業人才投資課程--企業決策分析方法--黃智聰
4B冊 認識公倍數和最小公倍數 公倍數和最小公倍數的關係.
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
Chapter 8 異質性.
SQL Stored Procedure SQL 預存程序.
第 14 章 簡單迴歸.
第 7 章 複迴歸之二.
單一分配 Uniform distribution
第 14 章 簡單線性迴歸.
第 六 章 預測變數及迴歸模型的選擇.
複迴歸分析-2 Multiple Regression.
第一章 直角坐標系 1-1 數系的發展.
Chapter 3 複迴歸分析: 估計.
複迴歸分析-1 Multiple Regression.
Ch20. 計算器 (Mac 版本).
第十四章 單因子變異數分析 14.1 前言 14.2 單因子變異數分析理論 14.3 功能視窗 14.4 範例
統計學 指導老師: 郭燿禎 Date: 2/14/12.
第 五 章 複迴歸分析.
第一章 直角坐標系 1-3 函數圖形.
估計與假設檢定.
第一章.
Definition of Trace Function
第 一 章 多元迴歸分析.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
小學四年級數學科 8.最大公因數.
Chapter 1 多變量統計方法介紹. Chapter 1 多變量統計方法介紹 變數資料之類型 以衡量尺度分類 以變數的角色分類 名目尺度(nominal scale ) 序列尺度(ordinal scale) 區間尺度(interval scale) 比率尺度(ratio scale) 以變數的角色分類.
CH05. 選擇敘述.
微積分網路教學課程 應用統計學系 周 章.
7-2 抽樣分配(sampling distribution)
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
授課內容: 時間序列與橫斷面資料的共用 政治大學行政管理碩士學程共同必修課 課程名稱:社會科學研究方法(量化分析) 授課老師:黃智聰
政治大學東亞所選修--計量分析與中國大陸研究黃智聰
Chapter 4 Variability 離散趨勢測量 2019/4/26.
第一章.
Chapter 4 迴歸分析. Chapter 4 迴歸分析 迴歸分析原理 迴歸分析的目的在於找出一條最能夠代表所有觀測資料(樣本點)的函數(迴歸估計式),用這個函數代表應變數和自變數之間的關係 多變量分析—管理上的應用.
質性資料的複迴歸分析:二元變數(虛擬變數)
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
第八章 銷售預測(2).
第七章 資料轉換和 個案選擇 7.1 前言 7.2 〝Recode〞功能 7.3 〝Compute〞功能 7.4 〝Count〞功能
Chapter 13 合併跨期的橫斷面: 簡單縱橫資料法.
參考書籍:林惠玲與陳正倉(2002),《應用統計學第二版》。台北:雙葉書廊有限公司。
第一章 直角坐標系 1-3 函數及其圖形.
政治大學財政所與東亞所選修--應用計量分析--中國財政研究 黃智聰
Chapter 1 多變量統計方法介紹. Chapter 1 多變量統計方法介紹 變數資料之類型 以衡量尺度分類 以變數的角色分類 名目尺度(nominal scale ) 序列尺度(ordinal scale) 區間尺度(interval scale) 比率尺度(ratio scale) 以變數的角色分類.
黃金期貨避險效果分析- 以台灣及美國黃金期貨為例
11621 : Small Factors ★★☆☆☆ 題組:Problem Set Archive with Online Judge
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
以下是一元一次方程式的有________________________________。
第三章 比與比例式 3-1 比例式 3-2 連比例 3-3 正比與反比.
Presentation transcript:

Chapter 9 設定和資料問題之進一步探討

9.1 函數形式錯誤設定 錯誤設定 一個複迴歸模型當它沒有適當地考量應變數和可觀察自變數間的關係時,會產生函數形式的錯誤設定。 9.1 函數形式錯誤設定 一個複迴歸模型當它沒有適當地考量應變數和可觀察自變數間的關係時,會產生函數形式的錯誤設定。 錯誤設定  1. 遺漏重要解釋變數 2. 模型的函數型式有誤 (例:該以對數型式卻用直線 CH9 設定和資料問題之進一步探討 第366頁

9.1 函數形式錯誤設定 CH9 設定和資料問題之進一步探討 第368頁 表9.1

RESET 為函數形式錯誤設定之一般化檢定 曾有一些檢定函數形式的錯誤設定之檢定已提出。 Ramsey (1969)的迴歸設定誤差檢定(regression specification error test, RESET) 在這方面被證明是有用的。 RESET 背後的想法是很簡單的。若原始模型為 9.2 CH9 設定和資料問題之進一步探討 第369頁

RESET 為函數形式錯誤設定之一般化檢定 令ŷ表(9.2) 式之OLS 配適值。考慮一擴展的方程式 由於原來的估計之配適值函數現在變成自變數 RESET 可被證明在遺漏變數之期望值為模型中自變數的線性函數時,其對偵測該遺漏變數是沒有檢定力的。 正確關於RESET 的說法是其為一函數形式的檢定,而不是檢定任何其他的事物。 9.3 CH9 設定和資料問題之進一步探討 第369-371頁

非包覆之對立假設的檢定 有可能檢定模型 對立於模型 9.6 這些是非包覆模型(nonnested models) (見第6 章),故我們不能簡單地用一標準的F 檢定來處理。有二種不同的處理方法提出。第一種是建構一個各模型都為其特例的完整模型,再檢定對應各個模型的限制條件。 (課本p.371, 9.8式。若拒絕H0,則表示模型應該考慮log型式) 9.6 9.7 CH9 設定和資料問題之進一步探討 第371頁

非包覆之對立假設的檢定 Davidson-MacKinnon 檢定(Davidson-MacKinnon test) 係基於以下方程式中 的t 統計量   其中:  表示,以OLS估計模型9.7式所得到的配適值。 顯著的t 統計量(雙邊對立假設) 即為(9.6) 式之拒絕。 CH9 設定和資料問題之進一步探討 第371頁

非包覆之對立假設的檢定 產生的問題: 不一定會產生一明顯的勝利者。二個模型可能都被拒絕或都不被拒絕。 發生後面的這種情況,我們可用調整後的R2來選擇模型。 利用Davidson-MacKinnon 檢定拒絕(9.6)式,但這並不代表(9.7) 式就是正確的模型。 CH9 設定和資料問題之進一步探討 第372頁

9.2 使用不可觀察解釋變數之代理變數 當一模型通常因資料的不可得而未放入一主要變數時,便產生了比上節更困難的問題。 (課本p372) 9.2 使用不可觀察解釋變數之代理變數 當一模型通常因資料的不可得而未放入一主要變數時,便產生了比上節更困難的問題。 (課本p372) 一種可能性是求得遺漏變數的代理變數(proxy variable)。寬鬆而言,代理變數為和分析中我們想控制住的不可觀察變數有關係的變數。 可用一包含三個自變數,其中二個是可觀察的模型來解釋: 9.10 CH9 設定和資料問題之進一步探討 第372-373頁

9.2 使用不可觀察解釋變數之代理變數 對x3 的要求(課本p373) 假設 (不可觀察的)和x3是一樣的,因此我們跑以下迴歸 9.2 使用不可觀察解釋變數之代理變數 對x3 的要求(課本p373) 假設 (不可觀察的)和x3是一樣的,因此我們跑以下迴歸 y 對 x1, x2, x3 將x3代入方程式以代替 ,我們稱此為遺漏變數問題的代入解(plug-in solution to the omitted variables problem)。 (課本p373) 9.12 CH9 設定和資料問題之進一步探討 第373頁

9.2 使用不可觀察解釋變數之代理變數 代入解得出β1 和β2 之一致性估計式所需的假設可分為對u 和v3 的假設: 9.2 使用不可觀察解釋變數之代理變數 代入解得出β1 和β2 之一致性估計式所需的假設可分為對u 和v3 的假設: 誤差項u 和x1 、 x2及 無關,這只是模型(9.10) 的標準假設。 誤差v3 和x1、 x2及x3無關。 (課本p374) 9.13 9.14 9.15 CH9 設定和資料問題之進一步探討 第374-377頁

9.2 使用不可觀察解釋變數之代理變數 CH9 設定和資料問題之進一步探討 第376頁 表9.2

使用前期應變數當成代理變數 懷疑某個或多個自變數和某遺漏變數相關,但我們不知如何得到該遺漏變數的代理。在這種情況下,我們可以包括為了控制的理由,加入應變數的前期。這在政策分析時特別有用。 在橫斷面方程式中使用前期應變數(lagged dependent variable) 增加了對資料數量的要求。 一個簡單的方式將過去因素導致應變數的當期差異列入考量,這是使用其他方法所難以考量到的。 CH9 設定和資料問題之進一步探討 第378頁

使用前期應變數當成代理變數 例如,有些城市在過去有高犯罪率。很多相同的不可觀察因素對高的過去和當期犯罪率都有影響。 (課本p370, 9.16式) 要使用前期應變數為代理變數,必須考慮過去和未來的應變數之間的連結性。 課本範例9.4 CH9 設定和資料問題之進一步探討 第378頁

使用前期應變數當成代理變數 CH9 設定和資料問題之進一步探討 第379頁 表9.3

對複迴歸的不同看法 一個對複迴歸較不結構化,更一般化的作法是放棄在模型中設定不可觀察變數。 例如,在工資範例中,以lwage 代表log(wage),我們可估計E(lwage|educ, exper, tenure, south, urban, black, IQ) 回答了我們感興趣的問題:如果二個人有相同的IQ 水準(以及相同經驗、年資等等),但他們教育水準相差一年,則其預期log 工資的差異為何? (表9.2:IQ相同之下,教育水準相差一年,工資差了5.4%) CH9 設定和資料問題之進一步探討 第380-381頁

9.3 隨機斜率模型 如果某變數的偏效果取決於會隨著母體中觀察值的不同而不同之不可觀察因素時,要如何處理?若我們只有一個自變數x,我們可將一般模型i 代表母體中的一個隨機抽取寫為 其中ai為第i 個觀察值的截距項且bi為斜率。 9.17 CH9 設定和資料問題之進一步探討 第381頁

9.3 隨機斜率模型 在第2 章之簡單迴歸模型中,我們假設bi = β和把ai歸為誤差項ui。(9.17) 式的模型因不可觀察的斜率係數bi 被視為和可觀察的資料(xi, yi) ,以及不可觀察的截距ai相同,都是由母體中隨機抽取的,故有時稱為隨機係數模型(random coefficient model) 或隨機斜率模型(random slop model)。 CH9 設定和資料問題之進一步探討 第381頁

9.4 衡量誤差之OLS 特性 有時在經濟應用中,我們無法收集真正影響經濟行為變數的資料。 當我們在迴歸模型中對某經濟變數使用了不精確的衡量,模型中就包含了衡量誤差。 在代理變數的情況,我們要找一個和不可觀察變數有關係的變數。 在衡量誤差的情況,我們觀察不到的變數是擁有定義良好的數量化的意義(諸如邊際稅率或年所得),但我們的資料可能包含誤差。 CH9 設定和資料問題之進一步探討 第383-384頁

9.4 衡量誤差之OLS 特性 另一個代理變數和衡量誤差問題的重要差異在於,後者通常衡量錯誤的自變數是我們主要感興趣的變數。在代理變數的情況,遺漏變數的偏效果很少是我們主要感興趣的:我們通常對其他自變數的效果感興趣。 CH9 設定和資料問題之進一步探討 第384頁

應變數的衡量誤差 令y* 代表我們想解釋的變數。 且我們假設其滿足高斯馬可夫假設。令y 代表y* 之可觀察的衡量。 (p384:可預期 y和 y*有所不同) 9.23 CH9 設定和資料問題之進一步探討 第384頁

應變數的衡量誤差 衡量誤差(在母體中) 是定義為觀察值和實際值的差異: 寫下y* = y - e0 ,將其代入(9.23) 式,重新整理可得: 9.24 9.25 CH9 設定和資料問題之進一步探討 第384-385頁

應變數的衡量誤差 當應變數是對數的形式,故log(y*) 為應變數,很自然地衡量誤差的形式為 這產生y 的相乘項的衡量誤差(multiplicative measurement error): y = y*a0,其中a0 > 0 ,且e0 = log(a0) 。 若應變數的衡量誤差和一個或多個自變數有系統性的關係,則可能導致OLS 的偏誤。若衡量誤差只是與自變數無關的隨機呈報誤差,則OLS 是完全適用的。 9.26 CH9 設定和資料問題之進一步探討 第386-387頁

自變數的衡量誤差 從簡單迴歸模型開始(EX: x*為真實所得;x為呈報所得) 9.27 母體的衡量誤差為 且其可為正、負或零。我們假設母體中平均衡量誤差為0 : E(e1) = 0 。這是很自然的假設,且在任何情況也不會影響到之後的重要結論。 9.27 9.28 CH9 設定和資料問題之進一步探討 第387頁

自變數的衡量誤差 一個假設為e1和可觀察的衡量x1無關。 9.29 古典的誤差在變數中(classical errors-in-variables, CEV) 假設衡量誤差和不可觀察的自變數無關: 9.29 9.30 9.31 CH9 設定和資料問題之進一步探討 第387-388頁

自變數的衡量誤差 若假設(9.31) 式成立,則x1和e1 必定相關: 9.32 CH9 設定和資料問題之進一步探討 第388頁

自變數的衡量誤差 之機率極限為β1加x1以及u  β1e1之共變異數對 x1變異數的比率: 9.33 CH9 設定和資料問題之進一步探討 第388-389頁

自變數的衡量誤差 CEV 之OLS 的縮減偏誤(attenuation bias):平均而言(或在大樣本中),估計的OLS 之效果將被減小。 (p. 389) 相對於衡量誤差的變異數若 的變異數很大,則OLS 的不一致性將會很小。 這是因為 之值當 很大時會接近1。 9.35 CH9 設定和資料問題之進一步探討 第389頁

自變數的衡量誤差 在估計β1時仍會有縮減偏誤:我們可證明 9.36 CH9 設定和資料問題之進一步探討 第390頁

遺漏資料 遺漏資料(missing data) 問題可以有各種產生的形式。 若應變數或某自變數有一觀察值的資料遺漏,則該觀察值在標準的複迴歸分析中就不能被使用。 若資料的遺漏是隨機性的,則影響只是樣本規模變小而已。雖然這讓估計式較不精確,它並不會產生任何偏誤。 (隨機抽樣假設MLR.2仍成立) 在大多數情況下,我們都是直接忽略有遺漏資訊的觀察值。 CH9 設定和資料問題之進一步探討 第392頁

非隨機樣本 當遺漏資料產生了母體中的非隨機樣本(nonrandom sample) 時,問題就比較大。 特定形式的非隨機抽樣並不會導致OLS 的偏誤或不一致性。 在高斯馬可夫假設下(但無MLR.2),是可基於自變數來選擇樣本而不會導致任何統計上的問題。這稱為基於自變數的樣本選擇,且這也是外生樣本選擇(exogenous sample selection) 的一個例子。 CH9 設定和資料問題之進一步探討 第393頁

非隨機樣本 當選擇基於應變數y 時事情就完全不同了,這稱為基於應變數的樣本選擇,且為內生樣本選擇(endogenous sample selection) 的一個例子。 若樣本是基於是否應變數高於或低於某數值,則估計母體模型的OLS 將產生偏誤。 其他抽樣方法常常有意的得到母體之非隨機樣本。一個常用的資料收集方法為層級抽樣(stratified sampling),其將母體區分為互不包含並且為耗竭性(exhaustive) 的幾個群體。 CH9 設定和資料問題之進一步探討 第393-394頁

極端值和影響力觀察值 在某些應用中,特別是小樣本資料集,OLS 估計會被一個或幾個觀察值所影響。本書稱此種觀察值為極端值(outliers) 或影響力觀察值(influential observations)。 有時候極端值是以所有觀察值跑OLS 迴歸之殘差大小來界定的。 類標準化殘差(studentized residuals) 是由原來的OLS 殘差除以標準差的估計值(條件於樣本中的自變數) 而來。 特定的函數形式對極端觀察值較不敏感。 CH9 設定和資料問題之進一步探討 第395-399頁

極端值和影響力觀察值 CH9 設定和資料問題之進一步探討 第397頁 圖9.1

9.6 最小絕對差異估計 除了試著決定哪一個觀察值對OLS 估計有影響外,另一種對抗極端值的方式是使用比OLS 對於極端值較不敏感的估計方法。其中的一個方法,在實證研究中很受歡迎,稱為最小絕對差異法(least absolute deviations, LAD)。 在線性模型中之βj的估計式是極小化殘差之絕對值的和 與OLS 極小化殘差平方和不同,LAD 估計並沒有公式解。 9.45 CH9 設定和資料問題之進一步探討 第401頁

9.6 最小絕對差異估計 CH9 設定和資料問題之進一步探討 第402頁 圖9.2

9.6 最小絕對差異估計 LAD 是用來估計在x1, x2......, xk之y 的條件中位數(conditional median) 的參數而非條件平均數。 由於中位數並不會受到極端觀察值的影響,因此LAD 參數估計對於極端觀察值是較有抵抗性的。 CH9 設定和資料問題之進一步探討 第402頁