上課大綱 迴歸係數的區間估計與假設檢定 統計顯著性與經濟顯著性 迴歸模型中的點預測與區間預測 配適度分析(變異數分析)

Slides:



Advertisements
Similar presentations
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
Advertisements

單元九:單因子變異數分析.
Chapter 2 簡單迴歸模型.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
Chapter 15 複迴歸.
資料分析:相關和迴歸 第十八章 「行銷研究人員必須持續檢視消費者認知和最終 購買決策之間的關係,因此,相關和迴歸技術為行
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
迴歸分析 主講人:童超塵 實驗室網址 永久: 實驗室網址 永久: 目前:
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
Linear Programming: Introduction and Duality
Analysis of Variance 變異數分析
型II誤差機率的計算 Calculating Type II Error Probabilities
Chapter 2 簡單迴歸模型.
Sampling Theory and Some Important Sampling Distributions
一元线性回归(二).
Simple Linear Regression -2
第十章 兩母體之假設檢定 Inferences Based on Two-Samples:
One-Sample Tests of Hypothesis
本章大綱 9.1 Sequence數列 9.2 Infinite Series無窮級數
Simple Linear Regression -4
REGRESSION FOR ORDINAL OUTCOMES 「順序尺度依變項」的迴歸模型
一元线性回归(二).
Stochastic Relationships and Scatter Diagrams
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
統計學: 應用與進階 第14 章: 變異數分析.
Chapter 14 Simple Linear Regression
11.1單一母體變異數的推論 前幾章中,我們以樣本變異數
Inferences Based on a Single Sample: Tests of Hypothesis Chapter 9
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
Interval Estimation區間估計
複迴歸分析-2 Multiple Regression.
第 9 章 假設檢定 Part B ( ).
Workshop on Statistical Analysis
複迴歸分析-1 Multiple Regression.
統計學 指導老師: 郭燿禎 Date: 2/14/12.
Liner regression analysis
迴歸分析 行銷、財務、人資研究.
Introduction to Basic Statistics
相關統計觀念復習 Review II.
第 7 章 推論方法.
估計與假設檢定.
第一章.
Definition of Trace Function
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
第一章.
Simple Regression (簡單迴歸分析)
7-2 抽樣分配(sampling distribution)
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
社会研究方法 第7讲:社会统计2.
Review of Statistics.
第一章.
Chapter 4 迴歸分析. Chapter 4 迴歸分析 迴歸分析原理 迴歸分析的目的在於找出一條最能夠代表所有觀測資料(樣本點)的函數(迴歸估計式),用這個函數代表應變數和自變數之間的關係 多變量分析—管理上的應用.
第二章 经典线性回归模型: 双变量线性回归模型
Introduction to Basic Statistics
第 2 章 迴歸分析的推論.
谁在审判?谁能审判? ——网络舆论对司法判案的影响
楊志強 博士 國立台北教育大學系 教育統計學 楊志強 博士 國立台北教育大學系
两个变量的线性相关 琼海市嘉积中学 梅小青.
线性回归.
Multiple Regression: Estimation and Hypothesis Testing
參考書籍:林惠玲與陳正倉(2002),《應用統計學第二版》。台北:雙葉書廊有限公司。
政治大學財政所與東亞所選修--應用計量分析--中國財政研究 黃智聰
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
Presentation transcript:

上課大綱 迴歸係數的區間估計與假設檢定 統計顯著性與經濟顯著性 迴歸模型中的點預測與區間預測 配適度分析(變異數分析)

區間估計與假設檢定 我們在此介紹古典迴歸模型中, 迴歸係數的區間估計式與假設檢定 我們將著重在 β 係數的統計推論 理由非常簡單, 不要忘記 β 係數代表迴歸線的斜率, 亦即被解釋變數Y 的均值如何隨著解釋變數x 變動而變動

舉例來說, 如果x 代表教育年數, Y 代表所得水準, 則迴歸模型若為 E(Y |x) = , 亦即教育年數多增加一單位(年), 平均所得水準增加 β 元

區間估計式 根據 其中σ2未知 則 β 的100 · (1 − γ )% 區間估計式變成

假設檢定 一般來說, 當我們寫下如下的迴歸模型 E(Y |x) = , 我們(先驗上) 傾向於想要在x 與Y 兩變數之間, 找出一個具有系統上的關係 如果 β = 0, 代表了x 與Y 兩變數之間的關係並不成立 以教育年數與所得水準為例, β = 0 代表了教育不會影響所得水準

一般來說, 我們傾向於「期待」 β 不為零。因此,我們會檢定如下的虛無假設: H0 : β = 0 並希望能拒絕虛無假設

假設檢定: t 檢定 給定σ2未知且常態假設成立, 在虛無假設 β = 0 成立下, 我們所能建構的檢定統計量φ0服從自由度為(n-2) 的t 分配, 以t0 示之: 一般稱為t 比率(t ratio), 或是t 統計量(t statistics), 其中, 為 的估計式

假設檢定 有時候我們希望能對特定的 值作檢定, 則虛無假設為 而t 比率則為 顯而易見地, β = 0 的虛無假設就是以上的虛無假設在 β0 = 0 下的一個特例

在顯著水準γ, 拒絕虛無假設( ) 的決策如下

如果常態假設不成立, 當樣本夠大時, 我們可用常態分配來近似φ 0, 亦即 這就是大樣本Z 檢定。此時, 若為雙尾檢定 , 標準常態分配10%, 5% 以及1% 的臨界值分別為1.645, 1.960 以及2.576。

一般來說, 透過t 檢定(或是大樣本Z 檢定),如果我們能夠拒絕 , 我們稱 這個估計式具有統計顯著性(statistically significant) 亦即, 統計上顯著異於 在大多數的情況下, 我們著重在 的特殊情況, 因此, 當我們說 具有顯著性, 意指我們可以拒絕 β = 0 的虛無假設, 也就是拒絕x 對Y 沒有影響的虛無假設

Least Squares Example You’re a marketing analyst for Hasbro Toys. You gather the following data: Ad $ Sales (Units) 1 1 2 1 3 2 4 2 5 4 Find the least squares line relating sales and advertising.

Scattergram Sales vs. Advertising 4 3 2 1 1 2 3 4 5 Advertising 57

Parameter Estimation Solution Table xi yi xi 2 yi 2 xiyi 1 1 1 1 1 2 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 58

Parameter Estimation Solution 59

Test of Slope Coefficient Example You’re a marketing analyst for Hasbro Toys. You find β0 = –.1, β1 = .7 and s = .6055. Ad $ Sales (Units) 1 1 2 1 3 2 4 2 5 4 Is the relationship significant at the .05 level of significance? ^ ^

Test of Slope Coefficient Solution H0: Ha:   df  Critical Value(s): 1 = 0 1  0 Test Statistic: Decision: Conclusion: .05 5 - 2 = 3 t 3.182 -3.182 .025 Reject H0 109

Calculating SSE Solution xi yi 1 1 .6 .4 .16 2 1 1.3 -.3 .09 3 2 2 4 2 2.7 -.7 .49 5 4 3.4 .6 .36 SSE=1.1

Solution Table xi yi xi yi xiyi 1 1 1 1 1 2 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 108

Calculating s2 and s Solution

Test Statistic Solution

Test of Slope Coefficient Solution H0: 1 = 0 Ha: 1  0   .05 df  5 - 2 = 3 Critical Value(s): Test Statistic: Decision: Conclusion: t 3.182 -3.182 .025 Reject H0 Reject at  = .05 There is evidence of a relationship 109

例子: 教育年數與所得水準 假設以n = 90 的樣本得到如下的樣本迴歸估計: 其中, Y 代表所得水準(千元), x 代表教育年數 上式為學術研究中一個常用的表示方法, 迴歸係數下的括號中的數字代表標準差, 也就是

= 2.64 代表了每多受一年的教育, 平均所得將會增加2.64 千元, 亦即2640 元 此外, 計算t0 如下 根據t 分配(γ = 5%), t0.025(88) = 1.9872, 則拒絕域為

例子: 教育年數與所得水準 拒絕域: 顯而易見地, |2.16| > 1.9872, 我們在5% 的顯著水準下可以拒絕 β = 0 的虛無假設, 亦即我們可以拒絕教育年數對所得水準不具影響的虛無假設

統計顯著性與經濟顯著性 我們再次強調之前所談到的顯著性乃是統計顯著性(statistical significance) 許多人往往忽略了另一個重要概念: 經濟顯著性(economic significance) 更糟的是, 還有為數不少的人會把「統計顯著性」錯誤地詮釋成「經濟顯著性」 所謂的「經濟顯著性」是由經濟學家Deirdre N.McCloskey 所大力提倡, 意指迴歸係數估計值的大小(magnitude) 是否具備經濟解釋上的顯著性(重要性)

統計顯著性與經濟顯著性 「統計顯著性」代表的是我們的估計的準確度,而「經濟顯著性」才是代表了解釋變數的重要性 以教育年數與所得水準的關係為例, 如果我們所得到的樣本迴歸估計為(A) 而非原來的(B):

它們的 β 係數具有相同的t 比率(t0 = 2.16), 然而,在式(B) 中, 多受一年的教育, 平均所得增加2640元, 而式(A) 中, 多受一年的教育, 平均所得只增加0.264 元

因此, 教育年數在式(B) 的估計中, 具有「經濟顯著性」, 我們可以因而主張說教育年數顯著地影響所得水準。 反之, 若估計結果如式(A) 所示, 即使其估計值具統計顯著性, 我們依舊無法做出教育年數顯著地影響所得水準之結論

統計顯著性與經濟顯著性 許多人往往誤將「統計顯著性」與「經濟顯著性」混為一談, 只要發現迴歸係數具統計顯著性,就不探究係數估計值是否具經濟解釋上的顯著性, 而妄下解釋變數具重要性之結論

配適度分析 首先定義以下幾個隨機變數:

Variation Measures y x xi yi y Unexplained sum of squares Total sum of squares Explained sum of squares y x xi 78

迴歸模型的變異數分析表

若虛無假設為H0 : β = 0。則當虛無假設為真, 在 γ 的顯著水準下, 拒絕H0 當

判定係數(coefficient of determination) 判定係數就是用來「判定」迴歸模型的配適度,亦即, 衡量透過迴歸模型可解釋變異佔總變異的比例。R2 的值越高, 代表被解釋變數Y 的變動中, 有越多的比例可為解釋變數 x 所解釋 0 ≤ R2 ≤ 1

Examples of Approximate r2 Values Y r2 = 1 Perfect linear relationship between X and Y: 100% of the variation in Y is explained by variation in X X r2 = 1 Y X r2 = 1

Examples of Approximate r2 Values Y 0 < r2 < 1 Weaker linear relationships between X and Y: Some but not all of the variation in Y is explained by variation in X X Y X

Examples of Approximate r2 Values Y No linear relationship between X and Y: The value of Y does not depend on X. (None of the variation in Y is explained by variation in X) X r2 = 0

性質三將虛無假設下的F0 , t0 以及R2 連結在一起

預測 迴歸模型中的解釋變數與被解釋變數可以分別視為預測變數與被預測變數 我們可以根據我們的迴歸模型來做預測(prediction) 以教育年數與所得水準的關係為例, 我們如果已經得到樣本迴歸估計如下, = 1.23 + 2.64x,則給定某人的教育年數為 = 16, 我可以根據該迴歸估計猜測他的所得水準為 = 1.23 + 2.64 × 16 = 43.47 (千元), 或是43470 元。這樣的猜測就稱作預測。

估計與預測之不同處在於, 估計指涉的是「猜測」未知的母體固定參數, 而預測則是「猜測」某隨機變數 一如我們可以將估計式分成點估計式與區間估計式, 我們亦將預測式分成點預測式與區間預測式 點預測式用一個點去預測Yn+1, 而區間預測式就是用一個區間去預測Yn+1

點預測 一般來說, 想要預測Yn+1, 在沒有其他資訊的輔佐下, 以Yn+1 的期望值E(Yn+1) 來預測Yn+1是最符合直覺的作法 如果我們擁有更多資訊, 亦即知道Y 與x 之間可以用一迴歸模型予以刻劃, 則在給定xn+1 下,Yn+1 的條件期望值E(Yn+1|xn+1) = α+ β xn+1就是一個預測Yn+1 的好選擇

參數 α 與 β 是未知的, 因此, 我們必須先利用原有的樣本 估計 α 與 β , 接著再以其估計式代入條件期望值, 進而得到 作為Yn+1 的點估計式(point predictor)

點預測

預測誤差 當我們以 預測Yn+1 時, 其預測誤差(prediction errors) 定義成

預測誤差 誤差I = 是因為估計參數 與 所造成的估計誤差 誤差II = 由於 之隨機性(條件分配)所造成的誤差

區間預測 當我們把預測誤差考慮進來, 就可以建構所謂的區間預測式(interval predictor) 重要性質: 其中

因此, 根據該重要性質, 我們知道 亦即下列隨機區間 包含Yn+1 的機率為1 − γ . 我們稱此區間為Yn+1的(1 − γ ) 區間預測式

對於Yn+1 均值的預測 以上我們討論的是利用迴歸模型對Yn+1 作預測, 但是我們亦可僅對Yn+1 的均值 E(Yn+1|xn+1) = α+ β xn+1作預測 以教育年數與所得水準的關係為例, 對Yn+1 作預測的意義是, 給定某人的教育年數為18 年,我們想預測此特定人士的所得 至於對E(Yn+1|xn+1) 作預測的意義則是, 給定教育年數為18 年, 我們想預測的是, 所有受過18 年教育之人的平均所得

對於E(Yn+1|xn+1) 的點預測式依舊是 利用之前的討論, 以相同的概念得到 並進而得到E(Yn+1|xn+1) 的區間預測式

如果我們只是要預測 E(Yn+1|xn+1), 則之前所提過的誤差II 將不復存在, 只剩下因估計所造成的誤差I。因此, 根據直覺而非推導, E(Yn+1|xn+1) 的區間預測式為

虛線表示的是E(Yn+1|xn+1) 的預測區間, 而實線則為Yn+1 的預測區間

Confidence Interval Estimate Example You’re a marketing analyst for Hasbro Toys. You find β0 = -.1, β 1 = .7 and s = .6055. Ad $ Sales (Units) 1 1 2 1 3 2 4 2 5 4 Find a 95% confidence interval for the mean sales when advertising is $4. ^ ^

Solution Table 2 2 x y x y x y i i i i i i 1 1 1 1 1 2 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 120

Confidence Interval Estimate Solution x to be predicted 121

Prediction Interval of Individual Value of y at x = xp Note the 1 under the radical in the standard error formula. The effect of the extra Syx is to increase the width of the interval. This will be seen in the interval bands. Note! df = n – 2 122

Prediction Interval Example You’re a marketing analyst for Hasbro Toys. You find β0 = -.1, β 1 = .7 and s = .6055. Ad $ Sales (Units) 1 1 2 1 3 2 4 2 5 4 Predict the sales when advertising is $4. Use a 95% prediction interval. ^ ^

Solution Table 2 2 x y x y x y i i i i i i 1 1 1 1 1 2 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 120

Prediction Interval Solution x to be predicted 121