Linear Regression Analysis (線 性 迴 歸 分 析)

Slides:



Advertisements
Similar presentations
SPSS 軟體與統計應用 Ya-Yun Cheng, How-Ran Guo
Advertisements

Basic concepts of structural equation modeling
張偉豪 三星統計服務有限公司 執行長 Amos 亞洲一哥
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
双变量关联性分析.
How to Use SPSS in Biomedical Data analysis
生物統計與SAS軟體課程教學(三) 雙變項統計分析(一)
医学统计学 8 主讲人 陶育纯 医学统计学 8 主讲人 陶育纯
DOE & EXCEL, SPSS application
多元迴歸 Multiple Regression
STATISTICA統計軟體的應用 第二講:廻歸與ANOVA
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
平均数检定 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
實驗計畫資料分析作業解答 何正斌 國立屏東科技大學工業管理系.
共變數分析(ANCOVA) 賴弘基講授.
Analysis of Variance 變異數分析
Chapter 2 簡單迴歸模型.
第 14 章 複迴歸與相關分析.
實 驗 研 究 法 多因子實驗設計 指導老師:黃萬居教授 學生:陳志鴻 m
SAS  統計程序實作 CONTENTS By DR. Yang , Yi-Chiang /11/11.
次数依变量模型 (Models for Count Outcomes)
平均数检定 庄文忠 副教授 世新大学行政管理学系 计量分析一(庄文忠副教授) 2011/7/12.
Regression for binary outcomes
第七章 SPSS的非参数检验.
多元回歸及模型 Multiple Regression Model Building
第一章.
Stochastic Relationships and Scatter Diagrams
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
邏輯迴歸 Logistic Regression
第 13 章 實驗設計與變異數分析.
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
Chapter 14 Simple Linear Regression
Test for difference among the means: t Test
二元隨機變數(Bivariate Random Variables)
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
4 統計分析程序的選擇.
自我介紹  黃郁哲 (Jeff) (阿哲)  高雄人  求學經歷 逢甲大學運管系畢業 交通大學運管系碩一 交通大學逕博生  興趣 吃遍美食、看歷史劇  許巧鶯老師研究室(許lab)  未來研究方向 海運業產業結構動態變化 各產業結構貨運量預測.
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
The Nature and Scope of Econometrics
多元迴歸分析.
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
第9章 方差分析 介绍 1、方差分析的概念 2、方差分析的过程.
以每年參觀Lake Keepit的人數為例
生物統計 1 課程簡介 (Introduction)
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室
Design and Analysis of Experiments Final Report of Project
Course 4 分類與預測 Classification and Prediction
第二章 主成分分析 §2.1 主成分分析的基本思想与理论 §2.2 主成分分析的上机实现 2019/4/23 1
Simple Regression (簡單迴歸分析)
Correlation using EXCEL
社会研究方法 第7讲:社会统计2.
第二章 经典线性回归模型: 双变量线性回归模型
Statistics Chapter 1 Introduction Instructor: Yanzhi Wang.
研究所生物統計課程整合說明 課程規劃及修課建議 楊奕馨 高雄醫學大學 藥學系 研究所生統課程授課教師
自我介紹 羅啟倫 學歷: 經歷: 東華大學 電機工程系
第八章 均值比较与检验 2019/5/10.
第7章 基本统计分析 2019/5/14.
Logistic回归 Logistic regression 研究生《医学统计学》.
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
Linear Regression Analysis 5E Montgomery, Peck & Vining
统计工具的使用方法 主讲人 陶育纯 统计工具的使用方法 主讲人 陶育纯
Multiple Regression: Estimation and Hypothesis Testing
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
实习二 方差分析 流行病与卫生统计学系
「校務研究專案委託計畫」 計畫名稱:推動實務應用課程教學與學生成績分析研究 執行期間:自107年12月01日至107年11月23日
Gaussian Process Ruohua Shi Meeting
Presentation transcript:

Linear Regression Analysis (線 性 迴 歸 分 析) 張 玉 坤 淡江大學數學系 教授 國防醫學院護理系 兼任教授 106300@mail.tku.edu.tw ychang@math.tku.edu.tw

Q: When do we need regression analysis? Association (探討相關性 ) Prediction (建構預測模型) Adjustment (調整干擾因素效應) Q: What do we need to collect (prepare)? Collect profile data: Y and X1, X2, X3, … e.g. BW and gestation, maternal age, (smoking)…

廣義線性模式 (Generalized Linear Models) 探討相關性 or 建立預測模型 Y  X1, X2, X3, … 例如: SBP  Age, Sex, Race,… CHD  Age, Sex, SBP,… Response Rate  Treatments, Sex… General Linear Model 一般線性模式

General Linear Model (Y ~ Normal) 可涵蓋的統計分析方法 Two Independent Samples T-Test Analysis of Variance (ANOVA) (X1, X2, … 均為“類別變項”) Regression (X1, X2, … 均為“連續變項”) Analysis of Covariance (ANCOVA) (X1, X2, … 為“類別變項”及“連續變項” ) Note: 市售統計軟體均可處理此類分析

General Linear Model (Y ~ Normal) 可涵蓋的統計分析方法 Two Independent Samples T-Test Analysis of Variance (ANOVA) (X1, X2, … 均為“類別變項”) Regression (X1, X2, … 均為“連續變項”) Analysis of Covariance (ANCOVA) (X1, X2, … 為“類別變項”及“連續變項” ) Note: 市售統計軟體均可處理此類分析

Explore the Association (探討相關性 ) Y X (X1, X2, X3, …) Y & X 成直線關係 Y Slope (斜率) Intercept (截距) X

Explore the Association (探討相關性 ) Y X (X1, X2, X3, …) 兩點式直線方程式 Y ( X2 , Y2 ) Y2 ■ ( X1 , Y1 ) Y1 ■ Slope (斜率) Intercept (截距) X X1 X2

Explore the Association (探討相關性 ) Y X (X1, X2, X3, …) BirthWeight.xlc Slope = (3301-2420) /(42-36) = 146.8333 Intercept = 2420 – 146.8333*36 = - 2865.9988

Explore the Association (探討相關性 ) Slope = (3301-2420) /(42-36) = 146.8333 Intercept = 2420 – 146.8333*36 = - 2865.9988 BW2.SPSS BW.SPSS

Explore the Association (探討相關性 ) Usually, the sample size n > 2 BW Gestation, Smoking ID Weight Gestat Smoking 1 2940 38 2 3130 3 2420 36 4 2450 34 5 2760 39 6 2440 35 7 3226 40 8 3301 42 9 2729 37 10 3410 11 2715 12 3095 13 14 3244 15 2520 BirthWeight.exc

Scatter Plot (先畫圖) BW.STATA

Scatter Plot (先畫圖) BW.SPSS BW.STATA

Note: 迴歸分析一定要先畫圖(Scatter Plot), 否則… Examples: Anscombe Quartet (四重奏) Y1 X2 Y2 X3 Y3 X4 Y4 10 8.04 9.14 7.46 8 6.58 6.95 8.14 6.77 5.76 13 7.58 8.74 12.74 7.71 9 8.81 8.77 7.11 8.84 11 8.33 9.26 7.81 8.47 14 9.96 8.1 7.04 6 7.24 6.13 6.08 5.25 4 4.26 3.1 5.39 19 12.5 12 10.84 9.13 8.15 5.56 7 4.82 7.26 6.42 7.91 5 5.68 4.74 5.73 6.89 Anscombe.dta Anscombe.SPSS

Anscombe.dta Anscombe.SPSS

twoway (lfitci y1 x1) (scatter y1 x1, msymbol(circle) mcolor(red) msize(medium))

Note: 迴歸分析要畫那些圖(Scatter Plot)? Ans.: 盡可能對所有Y’s & X’s (Matrix Plot) Anscombe.spss Anscombe.dta

研究目的:BW Gestation, Smoking (n > 2) Q: 迴歸分析是如何利用統計學的理論架構來建構(描述)此現象? BW.SPSS BW.STATA

X: Independent Variable(s) Y: Dependent Variable X: Independent Variable(s) Predicted (fitted) values

其他依變數與自變數名稱 依變數(Dependent variable) 自變數(Independent variable) 被解釋變數(explained variable) 效標變項(outcome variable) 內生變項(endogenous variable) 自變數(Independent variable) 解釋變數(explanatory variable) 預測變數(predictor) 外生變項(exogenous variable)

Ans.: 最小(垂直距離)平方和法(LSE) Least Sum of Square Error BW.SPSS BW.STATA

Least Square Estimator (LSE): That is, 最小平方法(LSE)之迴歸線一定通過

若用SPSS Linear Regression BW.SPSS BW3.dta id weight gestat smoking 3 2420 36 1 13 3130 39 21 3530 42 2 若用SPSS Linear Regression BW.SPSS BW3.dta

BW3.dta id weight gestat smoking 3 2420 36 1 13 3130 39 21 3530 42 2 (42,3530) (39,3130) (36,2420) BW3.dta

ANOVA Table id weight gestat smoking 3 2420 36 1 13 3130 39 21 3530 42 2 (42,3530) (39,3130) (36,2420) Residual Sum of Square = (2420 - 2471.667)2 + (3130 - 3026.667)2 + (3530 - 3581.667)2 = 16016.67 weight ymean yhat Y - Yhat Yhat-Ymean Y - Ymean 2420 3026.667 2471.667 -51.667 -555 -606.667 3130 103.333 3530 3581.667 555 503.333 ErrorSS= 16016.67 RegSS= 616050 TotalSS= 632066.667 BW3.dta

ANOVA Table id weight gestat smoking 3 2420 36 1 13 3130 39 21 3530 42 2 (42,3530) (39,3130) (36,2420) Regression Sum of Square = (2471.667 – 3026.667)2 + (3026.667 - 3026.667)2 + (3581.667 - 3026.667)2 = 616050 weight ymean yhat Y - Yhat Yhat-Ymean Y - Ymean 2420 3026.667 2471.667 -51.667 -555 -606.667 3130 103.333 3530 3581.667 555 503.333 ErrorSS= 16016.67 RegSS= 616050 TotalSS= 632066.667 BW3.dta

ANOVA Table id weight gestat smoking 3 2420 36 1 13 3130 39 21 3530 42 2 (42,3530) (39,3130) (36,2420) Total Sum of Square = (2420 – 3026.667)2 + (3130 - 3026.667)2 + (3530 - 3026.667)2 = 632066.667 weight ymean yhat Y - Yhat Yhat-Ymean Y - Ymean 2420 3026.667 2471.667 -51.667 -555 -606.667 3130 103.333 3530 3581.667 555 503.333 ErrorSS= 16016.67 RegSS= 616050 TotalSS= 632066.667 BW3.dta

Q: 迴歸分析的迴歸系數, ,如何解釋? BW.STATA

Q: 迴歸分析的迴歸系數, ,如何解釋? 懷孕週數每增加一週,出生嬰兒體重平均增加130.8166 克(忽略其他因素效應) BW.SPSS BW.STATA BW.SPSS 懷孕週數每增加一週,出生嬰兒體重平均增加130.8166 克(忽略其他因素效應)

Note: 當獨立變數, X, 為類別資料時, 迴歸分析結果如何解讀?

Two Independent Samples T-Test 比較兩組間之差異: 可改寫成 FEV.dta FEV.SPSS

Two Independent Samples T-Test FEV.SPSS Testing Hypothesis : Testing Hypothesis : Interpretation of FEV.dta

FEV.SPSS

Regression Model : 5.4412 = 29.607 FEV.SPSS

One-way Analysis of Variance (ANOVA)

One-way Analysis of Variance (ANOVA) Testing Hypothesis : Catalyst.SPSS

Catalyst.SPSS

同理,可改寫 : Catalyst.SPSS Cat.dta

Three-Way ANOVA Dur_stay: Duration of hospital stay Age Sex: 1 Male; 2 Female Temp: First temperature following admission WBC: First WBC(x1000) following admission Antibio: Received antibiotic (1: Yes; 2: No) Bact_cul: Received bacterial culture (1: Yes; 2: No) Service: 1 Medication; 2 Surgery Hospital.SPSS

Three-Way ANOVA 23 Factorial Design Dur_stay: Duration of hospital stay Age Sex: 1 Male; 2 Female Temp: First temperature following admission WBC: First WBC(x1000) following admission Antibio: Received antibiotic (1: Yes; 2: No) Bact_cul: Received bacterial culture (1: Yes; 2: No) Service: 1 Medication; 2 Surgery 23 Factorial Design Hospital.SPSS

Hospital.SPSS

Q: 如何利用SPSS將資料作自然對數(ln)轉換? Hospital.SPSS Q: 如何利用SPSS將資料作自然對數(ln)轉換?

Hospital.SPSS

Hospital.SPSS

Hospital.SPSS

Hospital.SPSS

Hospital.SPSS

Hospital.SPSS

Hospital.SPSS Checking.EXC

Ex. Multiple Regression (ANCOVA) Y : Birth Weight (Grams) X1: Length of Gestation (Weeks) X2: Smoking Status of Mother (1: Smoker; 2: Nonsmoker) (Potential) Model: or Interaction Term (交互作用項)

Ex. Multiple Linear Regression (ANCOVA) Y: Birth Weight (Grams) X1: Length of Gestation (Weeks) X2: Smoking Status of Mother (1: Smoker; 2: Nonsmoker) (Potential) Model: or Q: Which one? BW.SPSS

BW.SPSS

BW.SPSS BW.SPSS

Q: 進一步依Smoking狀態繪Scatter Plot,此種結果提供何種訊息? BW.SPSS

STATA data file BW.SPSS BW.dta Birth Weight

懷孕期間不吸煙的母親與吸煙者之新生兒平均體重無顯著差異(忽略其他因素效應) BW.SPSS 懷孕期間不吸煙的母親與吸煙者之新生兒平均體重無顯著差異(忽略其他因素效應)

STATA data file Birth Weight Q: 要如何調整干擾因素(懷孕週數)效應?! BW.SPSS BW.dta Birth Weight 問題: 重要干擾因素(懷孕週數)效應被忽略!! Q: 要如何調整干擾因素(懷孕週數)效應?!

BW.SPSS

BW.SPSS

Using SPSS SPSS.sav Interpretation? 經調整懷孕週數效應後,懷孕期間不吸煙的母親比吸煙者之新生兒體重平均多244.544克

STATA data file BW.SPSS BW.dta Birth Weight

應用: 估計“懷孕40週的婦女, 出生嬰兒體重”: Smoker: NonSMi = 0 Non-Smoker: NonSMi = 1 經調整懷孕週數效應後,懷孕期間不吸煙的母親比吸煙者之新生兒體重平均多244.544克 應用: 估計“懷孕40週的婦女, 出生嬰兒體重”: Smoker: NonSMi = 0 Non-Smoker: NonSMi = 1 BW.SPSS

Ex. Multiple Regression (ANCOVA) Y: FEV1 (liters) X1: Age (yrs) X2: Height (inches) X3: Sex (0:Female; 1:Male) X4: Smoking Status 0: Non-current Smoker; 1: Current Smoker

Matrix Scatter Plots FEV.SPSS

FEV.SPSS

FEV.SPSS

FEV.SPSS

FEV.SPSS

FEV.SPSS

Q2: What’s your next step? Q1: What’s your finding? Q2: What’s your next step? FEV.SPSS

Q: 迴歸分析中,何時需加入Interaction Term? 該項之迴歸係數如何解讀? FEV.STATA Q: 迴歸分析中,何時需加入Interaction Term? 該項之迴歸係數如何解讀?

FEV.STATA FEV.SPSS Sex 0: Female 1: Male

FEV.STATA FEV.SPSS .2642525 - .1684872 = 0.095765

探討 Factor X 與 Result Y 的關係, 是否會受 Factor C的影響 (i.e. C is a Moderator) 需檢驗 X 與 C 是否存在交互作用 C X Y Need to check it’s significant or not

Q: 調整年齡、性別、吸煙效應後, FEV 與身高是否有關? Interpretation of the coefficient, 0.1041994, is: “經調整年齡、性別、吸煙效應後, 身高每增加一英寸,FEV值平均增加0.1041994個單位,且達統計上之顯著性 (p < 0.001)” Q: What does that mean?! or Why?! FEV.STATA FEV.SPSS

Least Sum of Square Error Ans.: 最小(垂直距離)平方和法 Least Sum of Square Error Regress Y on X o Residual FEV.STATA FEV.SPSS

Y (Residuals) (X1, X2, …Xk) (Predicted values)

FEV.SPSS

Thanks for Your Attention