簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:

Slides:



Advertisements
Similar presentations
20-Opening 統計學 授課教師:楊維寧 10Simple-R-Commands.
Advertisements

因果图. 因果图 因果图的适用范围 如果在测试时必须考虑输入条件的各种 组合,可使用一种适合于描述对于多种 条件的组合,相应产生多个动作的形式 来设计测试用例,这就需要利用因果图。 因果图方法最终生成的就是判定表。它 适合于检查程序输入条件的各种组合情 况。 因果图的适用范围 如果在测试时必须考虑输入条件的各种.
指導單位:台中市北區區公所 報告日期:103年8月 報告人: 吳婷婷
制作:张大远 逯遥 指导教师:司书红 学校:兰州交通大学
MINITAB Minitab 培训 Minitab Training.
计量经济学 第五章 异 方 差 性.
估計的基本概念 估計量之性質 估計之方法 區間估計之基本概念 平均數之區間估計 樣本大小.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
國立中正大學勞工研究所 黃良志 副教授 中 華 民 國 九 十 四 年 九 月
2017/3/9 实验误差及其控制 魏敏杰 陈 杰 阮 强 王振宁 单凤平 孟繁浩 富伟能 陈 磊 中国医科大学.
生物統計與SAS軟體課程教學(三) 雙變項統計分析(一)
11. Pearson’s Correlation & Simple Linear Regression
多元迴歸 Multiple Regression
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
Analysis of Variance 變異數分析
Population proportion and sample proportion
Chapter 2 簡單迴歸模型.
一元线性回归(二).
第十章 兩母體之假設檢定 Inferences Based on Two-Samples:
次数依变量模型 (Models for Count Outcomes)
課程九 迴歸與相關1.
一元线性回归(二).
第一章.
Stochastic Relationships and Scatter Diagrams
Sampling Theory and Some Important Sampling Distributions
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
第14章 迴歸分析與複迴歸分析  本章的學習主題 
非均一性的誤差變異數 and SERIAL CORRELATION
Chapter 14 Simple Linear Regression
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
Interval Estimation區間估計
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
4 統計分析程序的選擇.
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
第 7 章 抽樣與抽樣分配 Part A ( ).
The Nature and Scope of Econometrics
Workshop on Statistical Analysis
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
检验 Chi-Squared Test Goodness-of-fit Test 拟合优度检验 & Test of Row and Column Independenc 独立性检验 欧阳顺湘 北京师范大学珠海分校.
以每年參觀Lake Keepit的人數為例
課程七 假設檢定.
Linear Regression 一元线性回归分析.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
MyLibrary ——数字图书馆的个性化服务
Liner regression analysis
生物統計 1 課程簡介 (Introduction)
一、迴歸分析的基本概念 二、SPSS的線性迴歸分析 三、迴歸模型的檢驗與意義
Introduction to Basic Statistics
相關統計觀念復習 Review II.
Introduction to Basic Statistics
Design and Analysis of Experiments Final Report of Project
課程十 迴歸3.
Simple Regression (簡單迴歸分析)
社会研究方法 第7讲:社会统计2.
CH13 超越描述統計:推論統計.
商用統計學 Chapter 7 估計.
第二章 经典线性回归模型: 双变量线性回归模型
Review of Statistics.
第五章 比率估计与回归估计 (ratio estimator and regression estimator)
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
Multiple Regression: Estimation and Hypothesis Testing
第七章 计量资料的统计分析.
第 1 章 單一預測變數線性迴歸.
Part 3 初等統計與理論.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
Presentation transcript:

簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:

Population regression line 我們假設在母體中,對於每一個xi值而言,其相對應的yi值遵循某種機率分配,且期望值為 F(Y) Y 我們假設這些分配有相同的變異數σ2 與x相對應的一組y,其期望值剛好落在一條直線上 xi

簡單迴歸模型的基本假設 我們對於上面的迴歸模型有以下的假設(限制): linearity依變項Yi與自變項之間的關係為線性: Normality : ei為常態分配 (或依變數為一常態分配)ei~N or Yi~N Zero conditional mean: 對於每個xi,E(ei|Xi)=0 殘差項的平均數為零 Independence of ei and Xi: 殘差值與Xi不相關 Cov(ei, X)=0 or E(ei, X)=0

簡單迴歸模型的基本假設 Homoscedasticity: Var(ei) = σ2變異數齊一性 每組的殘差項的變異數均相等。而每一組的變異數實際上是指X=xi條件下的Y之變異數,因此σ2也可以表為σ2Y|X 綜合以上:ei~N(0, σ2) Yi~N(b0+b1Xi, σ2) No serial correlation: ei彼此不相關 Cov(ei, ej)=0 X為一固定變數或事前決定之變數,Y為一隨機變數

簡單迴歸模型的基本假設 linearity :假設依變項Yi與自變項之間的關係為線性: 我們假設隨機誤差項ei有下列的性質: Normality : ei為常態分配 Zero conditional mean: 對於每個xi,E(ei|xi)=0 Independence of ei and xi: 殘差值與xi不相關 Homoscedasticity: Var(ei) = σ2 No serial correlation: ei彼此不相關

Residuals Sum to Zero 兩邊除以n

E(e|xi) = 0 其他因素與X無關 given X, the mean of the distribution of “other factors” is zero 無論xi為什麼數值,ei的平均值皆為0 F(Y) Y X

殘差值與xi不相關

殘差值與xi不相關

No serial correlation: ei彼此不相關 兩個殘差值不相關表示它們彼此之間為獨立(independent),由於我們抽取的是隨機樣本,因此每一個觀察值之間彼此沒有關連。也就是說,某一戶人家的娛樂支出不會影響另一戶人家的育樂支出。

前面我們假設Homoscedasticity: Var(ei) = σ2 Estimation of σe2 前面我們假設Homoscedasticity: Var(ei) = σ2 每一個相對應於x值的y不但為常態分配,且有相同的變異數σ2 F(Y) Y σ2 σ2 (Xi, Yi) are independently and identically distributed X

Population regression line 我們假設在母體中,對於每一個xi值而言,其相對應的yi值遵循某種機率分配,且期望值為 F(Y) Y xi

Sample regression line 由於母體參數β0,β1為未知數,因此母體迴歸線必須透過觀察到的樣本(xi, yi)來推估 F(Y) 從樣本中可以推估出β0,β1的估計值,也可以建構出樣本迴歸線 Y 由於觀察到樣本點(xi, yi)不會剛好落在母體迴歸線上,因此yi與E(yi|xi)會有所差距。 X

區分母體與樣本迴歸線 觀念 由於我們是從樣本中來估計迴歸線,用來估計迴歸線的截距b0及斜率b1 的估計式(estimator) 為具有抽樣分配(sampling distribution)的隨機變數。 母體迴歸線 樣本迴歸線

截距與斜率的抽樣分配 觀念 我們想進一步知道從樣本中估計的截距b0及斜率b1 是不是能夠正確的反映出母體的參數B0及B1。雖然每一次從樣本中估計出來的迴歸線都不同,但我們如果我們知道估計式的抽樣分配,則可以用統計檢定的方式來對我們的樣本參數進行統計的推估。 因此我們第一步需要知道為截距b0及斜率b1 的抽樣分配為何?也就是說他們的期望值及標準差為何?

迴歸的統計檢定 統計檢定包含兩部分: (1)對截距與斜率的檢定 (2)迴歸方程式的配適度

區分母體與樣本迴歸線

區分母體與樣本迴歸線 因此每一個實際的觀察值可以表為母體迴歸線的函數或是樣本迴歸線的函數 我們經常用可觀察的殘差值ei (residual)來推估未知的εi

截距與斜率的抽樣分配 由於yi為常態分配的線性組合(εi為常態分配),故yi亦為一常態分配 觀念 其中截距β0及斜率β1 為參數,xi為已知常數,且 由於yi為常態分配的線性組合(εi為常態分配),故yi亦為一常態分配

斜率b1的抽樣分配 b1分配的型態為何?E(b1) =? Var(b1)=? 觀念 b1分配的型態為何?E(b1) =? Var(b1)=? =0 由於xi為已知常數,因此b1的分配為常態分配yi的線性組合, 故b1為常態分配

斜率b1的抽樣分配 觀念 E(b1) =?

斜率b1的抽樣分配 觀念 樣本觀察值與平均數之差的總合為零

斜率b1的抽樣分配 觀念 等於零 ∴b1為β1的不偏估計式unbiased estimator

斜率b1的抽樣分配 觀念 常數

斜率b1的抽樣分配 觀念

斜率b1的抽樣分配 觀念

斜率b1的抽樣分配 觀念 從以上的討論得知: b0的抽樣分配證明略 未知數

Estimation of σe2 令真正的變異數(true variance)可分別表為σ2b0及σ2b1。 觀念 令真正的變異數(true variance)可分別表為σ2b0及σ2b1。 一般而言, σ2b0及σ2b1通常為未知數(因為σ2未知),必須從樣本中估計求得,以符號S2b0及S2b1來表示估計的變異數。同理,我們以σb0及σb1來表示b0及b1的真正標準誤差,以Sb0及Sb1來表示估計的標準誤差(estimated standard error) 。

Estimation of σe2 如何估計σ2?一個簡單的方法為利用Sum of Square Error (SSE)來估算

Estimation of σe2 但實際上,因為我們不知道真正的母體迴歸線,所以也就無法知道真正的殘差值ei(更正式的寫法為εi)。因此我們必須以估計的殘差值來取代

Estimation of σe2 在迴歸式中,SSE的自由度為樣本個數減去估計係數的數目 Se為迴歸線的估計標準差(estimated standard error of the regression) ,代表每一個相對應於x值的Y,分佈於迴歸線上的變異狀況。 Se愈小,表示Y的散佈愈集中

Estimation of σe2 在簡單迴歸中:

Estimation of σe2 =0

Estimation of σe2

Estimation of σe2

公式整理

Estimation of σe2

Estimation of σe2

Estimating standard error of b0 and b1 觀念 截距b0及斜率b1的變異數的公式

Estimating standard error of b0 and b1 觀念 由於σ2未知 Estimated standard error of b1 Estimated standard error of b0

Hypothesis Testing in the Linear Regression Model 觀念 知道b1的分配及標準誤差後,我們可以進行統計推論 若以S2e來推估2,則

Hypothesis Testing in the Linear Regression Model 觀念 在迴歸的統計檢定中,我們想要知道自變數x是否對於解釋y有用,也就是說x與y之間是否具有線性關係? 一般而言,如果x與y之間存在一線性關係,則β1≠0

Hypothesis Testing in the Linear Regression Model 觀念 我們要檢驗下列的虛擬假設: Two-side test 父母的收入與兒女的在校成績 One-side test 學歷與薪資的關係 One-side test 私校學費與註冊人數之關係

Hypothesis Testing in the Linear Regression Model 觀念 我們也可以檢驗斜率等於某特定值β*: 每增加一年的學歷薪水增加$2000

Hypothesis Testing in the Linear Regression Model 觀念 斜率的單邊假設檢定:

Hypothesis Testing in the Linear Regression Model 觀念 斜率的單邊假設檢定:

Hypothesis Testing in the Linear Regression Model 觀念 斜率的雙邊假設檢定:

例題 上例收入與支出的關係,以α=.01檢定H0: β1 = 0 vs. β1 > 0

例題 上例收入與支出的關係,以α=.05檢定H0: β1 = .90 vs. β1 ≠.90

截距的檢定例題 續上例,以α=.05檢定H0: β0 = 0 vs. β0 ≠0

Confidence Intervals for the Regression Coefficients t依循自由度為(n-2)的t分配:

Confidence Intervals for the Regression Coefficients 上述公式指出,如果我們重複抽樣來計算樣本迴歸線的斜率,則β1的值有100(1-α)%的機率會落於以下區間: 其中t值得自當自由度為υ = (n-2)時的t分配, 上述的區間稱為β1的100(1-α)%信賴區間。 同理,我們可以找出截距的信賴區間:

例題 求下列迴歸線斜率的90%信賴區間,(n=10):

迴歸方程式的解釋力 當我們計算出迴歸線後,我們想進一步知道迴歸曲線與資料間的適合度(goodness of fit)。 母體迴歸線告訴我們x與y有下列線性關係 上式告訴我們有兩個因素會影響Y值的變異: Y值會隨著xi值的改變而變:這一部份的變異為被迴歸線解釋的變異。 Y值會隨著ei值而變:這一部份為迴歸線無法解釋的變異。

簡單迴歸模型 未被解釋的變異 總變異量 沒有解釋能力的回歸線 被解釋的變異

變異數的分解 未被解釋的變異稱為殘差值residual,第i個觀察值的殘差值定義為:

變異數的分解

變異數的分解 總變異量 Sum of Square Total 解釋變異量 Regression Sum of Square 未解釋變異量 Sum of Square Error

變異數的分解 兩邊除SST 判定係數為可解釋變異量佔總變異量的比例,表示X對Y的變異之解釋能力。 R2愈大,表示X對Y的解釋能力愈強

變異數的分解

變異數的分解

變異數的分解 以樣本變異數來計算

求R2?

F-檢定 F檢定統計量可檢定下列假設: H0: 迴歸方程式無解釋能力(β1 =0) H1: 迴歸方程式有解釋能力(β1 ≠0)

r=0.994 r2=0.989

r=0.921 r2=0.849

Page 136

r2 Variance of value y = 5.30091 Variance of predicted y= 5.24135

例題 求迴歸線yi=b0+b1xi+ei 的斜率與截距並計算R2及兩個係數的估計標準誤差。

例題 畫出迴歸線:

例題

例題

例題 1987年USA Today報導一研究發現懷孕時吸煙的母親,其兒女在三歲時的IQ比不吸煙的母親平均少5分,你想驗證上述的假設,記錄母親懷孕時每日的吸煙根數(xi) 及兒女在三歲時的IQ(yi) ,你心中假設的模型為: 抽取父母親IQ相當的20個樣本家庭,計算樣本迴歸模型如下: 請分析這個結果

例題 斜率為-0.60如何解釋? 代表樣本中,母親每吸一根菸,baby的智商減少0.60分 截距為104如何解釋? 代表不吸煙母親的子女的智商預測值為104

例題 可不可以將樣本所得的結果推論至母體(概化)? 必須檢定母親的吸煙對兒女智商無影響的假設,即

例題 The 95% confidence interval: 表示在95%的信心水準下,我們可以說真正的1值介於此區間中。

例題 R2=0.17 說明母親的吸煙數量解釋了17%的兒女IQ變異量。 或者說,尚有83%的IQ變異無法由抽煙與否來解釋。

Prediction using the regression model 迴歸線可以用來估計在某一特定x值之下,Y的預測值: 我們可以用迴歸線來估計在xi下的”新”觀察值Y 我們也可以用迴歸線來估計在xi下的Y的期望值

Prediction using the regression model 由於我們不知道母體迴歸線,因此Yi及E(Y|xi)最好的預測值為 雖然特定Yi的預測值與預測的期望值E(Yi|xi)相同,皆為b0+b1xi。但兩者的抽樣誤差不同,因為估計Yi的期望值不需要考慮隨機誤差項ei。

Prediction using the regression model Effects of Sampling Error: 估計 預測Yi的期望值E(Yi|xi)會有來自於用樣本迴歸線來估計母體迴歸線所造成的抽樣誤差。

Prediction using the regression model Effects of Sampling Error: 估計 預測單獨Yi的值會有來自於用樣本迴歸線來估計母體迴歸線所造成的抽樣誤差+ 用0來推估εi 的誤差。

Confidence Interval for Predictions 我們希望知道樣本迴歸線的預測值(y-hat)的抽樣分配,才能對E(Y|xi)從事統計推論 F(Y) Y X

區分母體與樣本迴歸線

E(Y|xi)之估計與檢定 X=某特定值xp時,Yp的期望值?

E(Y|xi)之估計與檢定 X=某特定值xp時,Yp的變異數=?

E(Y|xi)之估計與檢定 因此E(Yp|xp)的抽樣分配為 以se來取代σe

E(Y|xi)之估計與檢定 在一特定xp值下,其相對應的期望值E(Yp|xp)的(1-α)的信賴區間為

E(Y|xi)之估計與檢定 在一特定xp值下,其相對應的預測值Yp的(1-α)的信賴區間為

E(Y|xi)之估計與檢定 其他條件不變,樣本數n愈大,預測值的信賴區間愈小,我們對預測的信心隨著樣本數的增加而增加。

E(Y|xi)之估計與檢定 其他條件不變,se愈大,預測值的信賴區間愈大。 Se為σe的估計,代表依變項觀察值Yi與及其期望值之間的差異, se愈大,表示Yi愈不集中於母體迴歸線的週遭。

E(Y|xi)之估計與檢定 其他條件不變,sx2 愈大,我們對x值的分佈知道的愈廣,因而對Y的預測會愈準。

E(Y|xi)之估計與檢定 特定的xp值離x分佈的中心值愈遠,則我們的預測越不準。 CI最窄的部分出現在

例題 汽車保養費Yi與車齡xi呈線性關係,取15輛車來估計迴歸線得 求當xp =1,2,3,4…9時,Yi期望值得95%信賴區間

例題

例題 特定的xp值離x分佈的中心值愈遠,則我們的預測越不準。 CI最窄的部分出現在x-bar