複迴歸分析-1 Multiple Regression.

Slides:



Advertisements
Similar presentations
©2009 陳欣得 統計學 —e1 微積分基本概念 1 第 e 章 微積分基本概念 e.1 基本函數的性質 02 e.2 微分基本公式 08 e.3 積分基本公式 18 e.4 多重微分與多重積分 25 e.5 微積分在統計上的應用 32.
Advertisements

單元九:單因子變異數分析.
Chapter 2 簡單迴歸模型.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
Chapter 3 預測.
應用統計理論 編著:劉正夫教授 Reference:1) Wonnacott and Wonnacott. Introductory
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
多元迴歸 Multiple Regression
STATISTICA統計軟體的應用 第二講:廻歸與ANOVA
迴歸分析 主講人:童超塵 實驗室網址 永久: 實驗室網址 永久: 目前:
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
Analysis of Variance 變異數分析
Population proportion and sample proportion
型II誤差機率的計算 Calculating Type II Error Probabilities
Chapter 2 簡單迴歸模型.
第 14 章 複迴歸與相關分析.
一元线性回归(二).
Simple Linear Regression -2
第十章 兩母體之假設檢定 Inferences Based on Two-Samples:
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
Simple Linear Regression -4
多元回歸及模型 Multiple Regression Model Building
一元线性回归(二).
第一章.
Stochastic Relationships and Scatter Diagrams
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
用于计算智能研究 和人类主观测试的 统计检验 Hideyuki TAKAGI 日本 九州大学
課程九 迴歸與相關2.
邏輯迴歸 Logistic Regression
非均一性的誤差變異數 and SERIAL CORRELATION
第 14 章 簡單迴歸.
Chapter 14 Simple Linear Regression
Test for difference among the means: t Test
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
Interval Estimation區間估計
第 14 章 簡單線性迴歸.
十、變方分析 (Analysis of Variance) (Chapter 10)
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
複迴歸分析-2 Multiple Regression.
多元迴歸分析.
Linear Regression 一元线性回归分析.
庄文忠 副教授 世新大学行政管理学系 相关分析与简单回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/4/7.
MyLibrary ——数字图书馆的个性化服务
統計學 指導老師: 郭燿禎 Date: 2/14/12.
方差分析 方差分析的概念 单因素方差分析 有交互作用的双因素方差分析 无交互作用的双因素方差分析.
Liner regression analysis
第3章 預測 2019/4/11 第3章 預測.
相關統計觀念復習 Review II.
Design and Analysis of Experiments Final Report of Project
Definition of Trace Function
第 一 章 多元迴歸分析.
有關於股票報酬及匯率變化對台灣醫療產業市場收益的分析
第 15 章 複迴歸 © 滄海書局.
Simple Regression (簡單迴歸分析)
第五章 估計與信賴區間 5.1 估計概論 估計量的分配 信賴度、信賴區間與最大容忍誤差16
第7章 回归分析.
上課大綱 迴歸係數的區間估計與假設檢定 統計顯著性與經濟顯著性 迴歸模型中的點預測與區間預測 配適度分析(變異數分析)
第二章 经典线性回归模型: 双变量线性回归模型
Logistic回归 Logistic regression 研究生《医学统计学》.
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
Linear Regression Analysis 5E Montgomery, Peck & Vining
Multiple Regression: Estimation and Hypothesis Testing
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
17.1 相關係數 判定係數:迴歸平方和除以總平方和 相關係數 判定係數:迴歸平方和除以總平方和.
Gaussian Process Ruohua Shi Meeting
Presentation transcript:

複迴歸分析-1 Multiple Regression

學習主題 解釋複迴歸模式 複習簡單迴歸的重要觀念 殘差分析 檢定整個模型的顯著性 檢定個別變數的影響 檢定部分模型 電腦報表使用及詮釋 As a result of this class, you will be able to...

今日重點 解釋複迴歸模式 複習簡單迴歸的重要觀念 殘差分析 檢定整個模型的顯著性 檢定個別變數的影響 電腦報表使用及詮釋 檢定部分模型 As a result of this class, you will be able to...

迴歸模式之種類 This teleology is based on the number of explanatory variables & nature of relationship between X & Y. 27

建立線性複迴歸模式之步驟 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 進入統計推論的前提 4. 評估模式 5. 利用模式做預測及估計

建立所使用的模型 1. 定義模型中所包含的兩個變數 2. 根據變數間的關係建立假設之方程式 1. 定義模型中所包含的兩個變數 獨立變數(可自主變動不受其他因素的影響而改變其值) 反應變數(受到獨立變數的影響而改變其值者) 2. 根據變數間的關係建立假設之方程式 預期的影響 (諸如:正或負相關,係數為何) 函數形式 (線性linear或非線性non-linear)

Population Y-intercept 一般線性複迴歸模式 某個變數和其它變數之間的線性關係 Population Y-intercept Population slopes 隨機誤差(Random error) 相依或反應變數(response variable ) 獨立或預測變數(predictor variables) 11

一般線性複迴歸模式 母體真實關係 代表獨立變數 的貢獻 可為其他變數的函數 例如:

動動腦想一想 Q:若X和Y的關係式為 可否經轉換而成線性模式?

你答對了嗎? A:可以, 則

動動腦想一想 Q:若X和Y的關係式為 可否經轉換而成線性模式?

你答對了嗎? A:可以, 則

母體複迴歸模式 觀測值 Bivariate model 期望值 12

樣本複迴歸模式 Bivariate model 13

建立線性複迴歸模式之步驟 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 進入統計推論的前提 4. 評估模式 5. 利用模式做預測及估計

學習主題 複習簡單迴歸的重要觀念 解釋複迴歸模式 殘差分析 檢定整個模型的顯著性 檢定個別變數的影響 檢定部分模型 電腦報表使用及詮釋 As a result of this class, you will be able to...

最小平方法的圖形表達 Least Squares Method Graphically LS即為使得 最小 Y e4 e2 e1 e3 X 52

最小平方法 Least Squares Method 1. ‘最適切’ 表示觀察值與預估值間的差異為最小 但是差異有正有負會互相抵消 因此選擇誤差的平方和作為依據較佳 2. 最小平方法即為使得誤差平方和(SSE) 為最小 51

最小平方法 選擇估計模式 使得誤差平方和 SSE= 為最小

最小平方法的求解過程1 如何使得變異量平方最小呢? 可以使用偏微分,分別讓方程式對 及 取偏微分,並使結果為0 51

最小平方法的求解過程2 讓方程式對 取偏微分,並使結果為0,簡化後得到: 51

最小平方法的求解過程3 讓方程式對 取偏微分,並使結果為0,簡化後得到: 51

最小平方法的求解過程4 讓方程式對 取偏微分,並使結果為0,簡化後得到: 51

最小平方法的求解過程5 求解聯立方程式並解得 及 51

計算係數常用的表Computation Table 54

估計係數之詮釋 1. 第k個斜率係數(slope, bk) 2. Y-截距(b0) 在所有其它X變數固定下, Xk改變一個單位時, Y平均改變bk的量 2. Y-截距(b0) 在所有Xk = 0時, 平均之Y值 17

例一 參數估計 你在New York Times的廣告部門工作. 你想找出廣告大小(平方公分) 和報紙流通量(circulation, 單位千次)對讀者回應次數的效應(單位百次). 你所收集資料如下: 回應 廣告大小 流通 1 1 2 4 8 8 1 3 1 3 5 7 2 6 4 4 10 6 Is this model specified correctly? What other variables could be used (color, photo etc.)? 18

例 一的模型 考慮模型如下: 表廣告大小 表流通量

計算係數常用的表Computation Table 54

最小平方法的求解 求解聯立方程式並解得b0及b1,b2 15 = 6b0 + 33b1 + 28b2 51

參數估計電腦報表 bi b0 b1 b2 Parameter Estimates Parameter Standard T for H0: Variable DF Estimate Error Param=0 Prob>|T| INTERCEP 1 0.0640 0.2599 0.246 0.8214 ADSIZE 1 0.2049 0.0588 3.656 0.0399 CIRC 1 0.2805 0.0686 4.089 0.0264 bi b0 b1 b2

係數之詮釋 1. 斜率 (b1) 2. 斜率 (b2) 3. 截距 (b0) 在流通量不變情形下, 廣告大小(X1) 每增加一平方公分,回應次數(Y), 可期望(平均)增加20.49次, 2. 斜率 (b2) 在廣告大小不變情形下, 流通量(X2)每增加 仟份的回應次數(Y), 可期望(平均)增加28.05次, 3. 截距 (b0) 在廣告大小(X1) 且每仟份流通量(X2)均為0下, 回應次數(Y), 可期望(平均)增加6.4次,上述說法實為不合理, 故b0無具體意義, Y-intercept is difficult to interpret. How can you have any responses with no circulation?

Too complicated by hand! 線性複迴歸方程式 Too complicated by hand! Ouch! 16

例二 參數估計 你是大型連鎖超商的行銷經理,認為活力棒(高能量補充品)為有潛力的產品,想找出產品價格(cent分)和店內促銷(元)對活力棒銷售量(次數/週)的影響,分別在34家連鎖店收集資料如下:

例二 資料

例二的模型 考慮模型如下: 表price 表promotion

參數估計電腦報表 b0 b1 b2

係數之詮釋 1. 斜率 (b1) 2. 斜率 (b2) 3. 截距 (b0) 在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售次數(Y), 可期望(平均)增加53.2次, 2. 斜率 (b2) 在售價不變情形下,店內促銷經費(X2)每增加 百元的銷售次數(Y), 可期望(平均)增加361.3次, 3. 截距 (b0) b0亦無具體意義, Y-intercept is difficult to interpret. How can you have any responses with no circulation?

參數估計電腦報表 b0 b1 b2

係數之詮釋 1. 斜率 (b1) 2. 斜率 (b2) 3. 截距 (b0) 在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售次數(Y), 可期望(平均)增加53.2次, 2. 斜率 (b2) 在售價不變情形下,店內促銷經費(X2)每增加 百元的銷售次數(Y), 可期望(平均)增加361.3次, 3. 截距 (b0) b0亦無具體意義, Y-intercept is difficult to interpret. How can you have any responses with no circulation?

參數估計電腦報表 b0 b1 b2

係數之詮釋 1. 斜率 (b1) 2. 斜率 (b2) 3. 截距 (b0) 在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售次數(Y), 可期望(平均)增加53.2次, 2. 斜率 (b2) 在售價不變情形下,店內促銷經費(X2)每增加 百元的銷售次數(Y), 可期望(平均)增加361.3次, 3. 截距 (b0) b0亦無具體意義, Y-intercept is difficult to interpret. How can you have any responses with no circulation?

比較不同模型的估計值 表price 表promotion

參數估計電腦報表 b0 b1 b2

比較不同模型的估計值 表price 表promotion

建立線性複迴歸模式之步驟 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 進入統計推論的前提 4. 評估模式 5. 利用模式做預測及估計

迴歸模型適用前滿足之假設Linear Regression Model Assumptions 1. 隨機誤差機率分配的平均數為0 2. 隨機誤差機率分配的變異數為固定常數s2 3. 隨機誤差機率分配為常態分配 4. 任何隨機誤差間均相互獨立 i.i.d:獨立且為完全相同之分配

隨機誤差機率分配示意圖Error Probability Distribution f( e ) Y X 1 X 2 X 91

建立線性複迴歸模式之步驟 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 1. 設立迴歸模式中確定之部分(期望值) 2. 估計模式參數(X變數係數及截距) 3. 誤差項的機率分配 進入統計推論的前提 4. 評估模式 5. 利用模式做預測及估計

評估複迴模式之步驟 1. 檢視變異測量(決定係數coefficient of determination及模型估計的標準誤) 2. 殘差分析(residual analysis) 3. 檢定參數顯著性 整個模式 個別係數 部分模式

隨機誤差變異量 Random Error Variation ^ 1. 真實的Y與預估的Y 間的差異變異情形 2. 根據迴歸模型所測得的標準誤 模型估計的標準誤 3. 受到下列因素的影響 模型選定的正確性 各個參數估計的正確性

迴歸模型變異量的示意圖Variation Measures 模型未能解釋的差異 (Yi - Yi) ^ Yi 未考慮迴歸前的差異(Yi -Y) ^ 模型已解釋的差異(Yi -Y) 78

迴歸模型變異量的量測Measures of Variation in Regression 1. 總變異量 (SST或SSy) 觀察值Yi與平均數Y差異的平方和 2. 經由模型可解釋的變異量 (SSR) 平均數Y與預估值Yi間差異的平方和 模型仍未解釋之隨機變異量 (SSE) 其他未能考慮到的因素所產生的變異量 觀察值Yi與預估值Yi間差異的平方和 ^ ^

判定係數 (Coefficient of Multiple Determination) 1. Y 變異量被所有X變數同時解釋到之比例 R2 = 解釋到的變異 = SSR 總變異量 SST 2. 模式中的X變數增多則R2增大 僅以 Y 值計算 SST,SST不變但SSE變小 比較不同模式時, 利用R2值有缺點(Xs共相關) SSR is sum of squares regression (not residual; that SSE). 27

調整的判定係數 (Adjusted Coefficient of Multiple Determination) 考慮自變數的個數和樣本數大小調整後的判定係數 比 R2 為小 比較不同模型時較為有用

範例二的判定係數 R2=0.7577 銷售量的總變異有 75.77%可由售價和促銷經費所解釋 =0.7421 比 R2 為小 銷售量的總變異有 75.77%可由售價和促銷經費所解釋 =0.7421 比 R2 為小 模型估計的標準誤=Se= 638.07

由ANOVA TABLE計算 R2 R2

其他模型的變異測量 SST不變

其他模型的判定係數 R2較小

評估複迴模式之步驟 1. 檢視變異測量(決定係數coefficient of determination及模型估計的標準誤) 2. 殘差分析(residual analysis) 3. 檢定參數顯著性 整個模式 個別係數 部分模式

殘差分析 Residual Analysis 目的 檢驗預測變數Xi與所對應的反應變數Y是否為線性關係,亦即檢測模式的適切性(pattern) 評估是否合乎線性迴歸成立的假設 偵測離群值或影響點 進階問題 使用殘差的繪圖分析 殘差 繪製殘差圖 殘差的直方圖,莖葉圖或常態機率圖

Studentized 殘差 (SR) 加入了自變數之間的差異考量 也考量了自變數與因變數的差異 調整了 殘差的大小,反應出樣本點在迴歸線附近的變動 可以用來驗證齊一性 -----『變異數是否一致』

殘差圖 以殘差或Studentized 殘差 vs. 以殘差或Studentized vs. 以殘差或Studentized vs. 時間 May need to transform Y variable May need to transform variable 以殘差或Studentized vs. May need to transform variable 以殘差或Studentized vs. 時間 May have autocorrelation .

殘差分析 (檢驗線性結構)

Residual Plot for Functional Form Add X2 Term Correct Specification 圖中資料呈現出二項形式 圖中無pattern,顯示 資料符合誤差項條件 92

範例三

殘差圖

殘差圖

殘差圖

殘差圖

殘差分析 (檢驗齊一性) 不

Residual Plot for Independence Not Independent Correct Specification Plots reflect sequence data were collected. 94

殘差分析圖 (檢驗獨立性) 誤差項沒有相互獨立  誤差項相互獨立 e e Time Time

Residual Analysis Computer Output Dep Var Predict Student Obs SALES Value Residual Residual -2-1-0 1 2 1 1.0000 0.6000 0.4000 1.044 | |** | 2 1.0000 1.3000 -0.3000 -0.592 | *| | 3 2.0000 2.0000 0 0.000 | | | 4 2.0000 2.7000 -0.7000 -1.382 | **| | 5 4.0000 3.4000 0.6000 1.567 | |*** | The plot is standardized (student) residuals for each observation. For observation 5, the standardized residual is large. You can save the residuals & do descriptive analysis on them, including a normal probability plot. There are not enough observations here to make further analysis meaningful. Plot of standardized (student) residuals

範例二的殘差分析

所有殘差值

殘差 vs. promotion

殘差 vs. price

殘差 vs.預測值

常態機率圖 表示殘差很有可能為常態 或沒有不為常態的證據

評估複迴模式之步驟 1. 檢視變異測量(決定係數coefficient of determination及模型估計的標準誤) 2. 殘差分析(residual analysis) 3. 檢定參數顯著性 整個模式 個別係數 部分模式

檢定整體模式之顯著性 1. 檢定所有X變數對Y變數的效果 2. 使用F 檢定統計量(test statistic) 3. 假設 3. 假設 H0: 1 = 2 = ... = k = 0 所有X變數均不影響Y Ha: 至少有一個i不為 0 i=1…k 至少有一個X影響Y Less chance of error than separate t-tests on each coefficient. Doing a series of t-tests leads to a higher overall Type I error than .

變異數分析ANOVA表 ANOVA變異數分析表 變異數分析表(ANOVA Table) df SS MS F Significance F Regression k SSR MSR =SSR/k MSR/MSE P-value of the F Test Residuals n-k-1 SSE MSE =SSE/(n-k-1) Total n-1 SST

範例二的ANOVA TABLE P值 K=2 X變數的個數 n-k-1

範例二整體模型的檢定 H0: 1 = 2 = 0 H1: At least one i  0  F F  = .05 df = 2 and 31 Critical Value(s): Test statistic: Decision: Conclusion:  F 48.477 (Excel Output) Reject at  = 0.05  = 0.05 There is evidence that at least one independent variable affects Y F 3.32

評估複迴模式之步驟 1. 檢視變異測量(決定係數coefficient of determination及模型估計的標準誤) 2. 殘差分析(residual analysis) 3. 檢定參數顯著性 整個模式 個別係數 部分模式

檢定個別變數 檢定個別變數 Xi 對 Y的效果,嚴格說來,為其他變數已在模型中時, Xi對 Y的邊際效果 使用t 檢定統計量(test statistic) Hypotheses: H0: i = 0 (Xi 不影響Y) H1: i  0 (Xi 對Y有影響)

t Test Statistic Excel Output: Example t Test Statistic for X1 (price) t Test Statistic for X2 (promotion)

t Test : Example Solution  = 0.05,促銷經費不變下,價格是否對銷售量有影響? H0: 1 = 0 H1: 1  0 df = 31 Critical Value(s): Test Statistic: Decision: Conclusion: t Test Statistic = -7.7664 Reject H0 at  = 0.05 Reject H Reject H .025 .025 There is evidence of a significant effect of price on sales. t -2.0395 2.0395

t Test : Example Solution  = 0.05,價格不變下,促銷經費是否對銷售量有影響? H0: 2 = 0 H1: 2  0 df = 31 Critical Value(s): Test Statistic: Decision: Conclusion: t Test Statistic =5.273 Reject H0 at  = 0.05 Reject H Reject H .025 .025 There is evidence of a significant effect of price on sales. t -2.0395 2.0395

Confidence Interval Estimate for the Slope 1係數的信賴區間 -67.1925  1  -39.2421 在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售次數(Y), 在95%的信心水準下,可期望(平均)增加39.2次至67.2次

Confidence Interval Estimate for the Slope 2係數的信賴區間 2.216  2  5.011 在店內售價不變情形下,促銷經費(X2) 每增加一百元,銷售次數(Y), 在95%的信心水準下,可期望(平均)增加221.6次至501次

今日重點複習 解釋複迴歸模式 複習簡單迴歸的重要觀念 殘差分析 檢定整個模型的顯著性 檢定個別變數的影響 電腦報表使用及詮釋 檢定部分模型 As a result of this class, you will be able to...