十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )

Slides:



Advertisements
Similar presentations
第十三章 医学统计学方法的基本概念和基本步骤
Advertisements

MINITAB Minitab 培训 Minitab Training.
计量经济学 第五章 异 方 差 性.
張偉豪 三星統計服務有限公司 執行長 Amos 亞洲一哥
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
双变量关联性分析.
16.1 曲線配適 曲線配適 藉由數學方程式來描述兩個變數間的關係 線性方程式關係 y=a+bx.
应用回归分析 信计学院统计系 沈菊红.
How to Use SPSS in Biomedical Data analysis
Chapter 3 預測.
生物統計與SAS軟體課程教學(三) 雙變項統計分析(一)
11. Pearson’s Correlation & Simple Linear Regression
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
多元迴歸 Multiple Regression
STATISTICA統計軟體的應用 第二講:廻歸與ANOVA
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
Analysis of Variance 變異數分析
Chapter 2 簡單迴歸模型.
第 14 章 複迴歸與相關分析.
第十二章 相关与回归分析 第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
次数依变量模型 (Models for Count Outcomes)
第六章 正态条件下回归的推论.
一元线性回归(二).
第一章.
Stochastic Relationships and Scatter Diagrams
第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
第14章 迴歸分析與複迴歸分析  本章的學習主題 
非均一性的誤差變異數 and SERIAL CORRELATION
统计软件应用 7 主讲人 陶育纯 SPSS统计分析 统计软件应用 7 主讲人 陶育纯 教案.
Chapter 14 Simple Linear Regression
二元隨機變數(Bivariate Random Variables)
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
4 統計分析程序的選擇.
十、變方分析 (Analysis of Variance) (Chapter 10)
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
The Nature and Scope of Econometrics
多元迴歸分析.
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
相關係數(Correlation) 描述兩個變數X、Y之間的線性相關 Example: data1中的身高及體重 如何量化這樣的線性關係呢?
以每年參觀Lake Keepit的人數為例
Linear Regression 一元线性回归分析.
庄文忠 副教授 世新大学行政管理学系 相关分析与简单回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2019/4/7.
Liner regression analysis
第3章 預測 2019/4/11 第3章 預測.
迴歸分析 行銷、財務、人資研究.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室
相關統計觀念復習 Review II.
Design and Analysis of Experiments Final Report of Project
Simple Regression (簡單迴歸分析)
第 1 章 直線和線性函數.
Correlation using EXCEL
社会研究方法 第7讲:社会统计2.
第二章 经典线性回归模型: 双变量线性回归模型
第八章 均值比较与检验 2019/5/10.
第 四 章 迴歸分析應注意之事項.
两个变量的线性相关 琼海市嘉积中学 梅小青.
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
现代统计分析方法概述 2019/5/20 知识管理与数据分析实验室.
Multiple Regression: Estimation and Hypothesis Testing
第八章 服務部門成本分攤.
第 1 章 單一預測變數線性迴歸.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
Presentation transcript:

十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression ) 劉仁沛教授 國立台灣大學農藝學研究所生物統計組 國家衛生研究院生物統計與生物資訊組 jpliu@ntu.edu.tw

例1:氮肥用量與水稻穀收量表(公斤) 氮肥用量x 0.5 1.0 1.5 2.0 2.5 稻穀收量y 10 18 32 48 55 62 例2:成人年齡與血液中膽固醇的量 年齡x 34 39 44 46 48 51 膽固醇y(mg/ml) 141.4 180.5 178.4 212.0 203.2 224.1 53 6 61 65 66 67 186.0 350.0 286.3 287.6 330.3 371.3 例3:年雨量與小麥產量 年雨量(公厘/20) 23.5 20.4 22.8 25.9 28.9 27.1 26.8 25.2 產量(公斤/100) 23.0 33.5 35.8 44.6 41.2 45.4 39.0

氮肥用量與稻穀收量的Scatter Plot

年齡與膽固醇量的Scatter Plot (mg/ml)

年雨量與小麥產量的Scatter Plot (公斤/100)

探討兩個變數之間的關係 問題: 兩個變數間是否存在直線關係? 將直線關係以方程式表示  資料型態( xi , yi ) 假定(Assumption) 每對資料均為獨立 常態 相同變方 X與Y的關係為直線

簡單關係數(Simple correlation coefficient) 簡單直線回歸(Simple Linear Regression) 模式建立之推論(Models and Inference) 回歸模式直線性檢定(Evaluation of Linearity) 假定之確認(Checking the Model Assumptions)

Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ μy μy μy μχ μχ μχ (a) ρ> 0 正相關 (b) ρ< 0 負相關 (c) ρ= 0 無相關 圖11.8b 三種不同族群相關散播圖

象限 (χ-μχ) (y-μy) (χ-μχ) (y-μy) Ⅰ + Ⅱ - Ⅲ Ⅳ

正相關:落在第Ⅰ及Ⅲ象限的點數 > 落在第Ⅱ及Ⅳ象限的點數 負相關:落在第Ⅰ及Ⅲ象限的點數 < 落在第Ⅱ及Ⅳ象限的點數 無相關:落在第Ⅰ及Ⅲ象限的點數 = 落在第Ⅱ及Ⅳ象限的點數

族群簡單相關係數: (x1,y1) …(xN,yN) ,-1<ρ<1

樣品簡單相關係數 樣品資料:(x1,y1), …, (xn,yn) 乘積和: X平方和: Y平方和: ,r 之範圍:1 ≦ r ≦-1

x y r = 1 x y r = -1 (a)完全正相關 (b)完全負相關

x y 0 < r < 1 x y -1 < r < 0 (a)不完全正相關 (b)不完全負相關

r = 0 r = 0 y y x x (a)無相關 (b)曲線關系

簡單相關係數顯著性檢定 H0:ρ= 0 v.s. Ha:ρ≠ 0 顯著水準:α 檢定統計值: 決策方法: 若|T|>t α/2,n-2 拒絕H0

例:雨量與小麥產量 n=8, Σxi=200.5, Σyi=296.5

簡單直線回歸(Simple Linear Regression) 水稻穀產量(y)與氮肥用量(x)可以用直線關係描述 yi=β0+βxi,i=1, …,6(=n) y i:依變數(Dependent variable) x i:獨立(自)變數(Independent variable) β0:截距(Intercept) x=0時y的值 β:斜率(Slope) x變動一個單位y變動的量 但實際觀測值與直線y=β+βx有差距 原因:環境、實驗誤差、量測誤差及其他原因 yi=β0+βxi+εi,i=1, …,6(=n) εi:誤差(Error)或殘差(Residual)

The Simple Linear Regression Model (Here β1 > 0) y β0 An observed value of y when x equals x0 Straight line defined by the equation μy∣x=β0+β1x Error term Mean value of y when x equals x0 Slope = β1 One-unit change in x y-intercept x x0= A specific value of the independent variable x

假定(Assumptions) : 獨立性(Independent) 常態性(Normality) 直線關係(Linearity) 相同變方(homogeneity of Variance) 無數條直線可描述X與Y的關係 選擇直線的方法: 最小平方法(Least Squares Method) 德國大數學家Gauss發明

yi xi e1 e2 e3 e4 e6 e5 圖11.4 回歸直線與殘差圖

最小平方法

正常方程式(Normal Equations)

推測直線回歸方程式 ( Predicted Linear Regression Equations ) 斜率估算值 截距估算值 推測直線回歸方程式 ( Predicted Linear Regression Equations ) 為當獨立之變數為xi時依 變數之最小平方推測平均值 殘差估算值

計算推測直線回歸方程式 所需統計值 例:成人年齡與血液膽固醇含量

假定 獨立性 常態性 直線關係 相關變方 殘差εi為常態分布 族群平均值為0 族群變方為σ2

An Illustration of the Model Assumptions y 32.5 45.9 X The straight line defined by the equation μy∣x =β0+ β1x (the line of means) Population of y values when x=45.9 Population of y values when x=32.5 12.4=Observed value of y when x=32.5 The mean fuel consumption when x=32.5 The mean fuel consumption when x=45.9 9.4=Observed value of y when x=45.9

σ2之估算 殘差估算值 殘差估算值平方 殘差(估算值)平方和 估算殘差值時必須先計算b0和b SSE之自由度為n-2

斜率與截距變方之估計

例 成人年齡與膽固醇

斜率 H0:β=0 V.S. Ha:β≠0 顯著水準α 檢定統計值(Test statistic) 決策方法 若|Tβ|>tα/2,n-2 拒絕H0 β之(1-α) %信賴區間

截距 H0:β0=0 V.S. Ha:β0≠0 顯著水準α 檢定統計值(Test statistic) 決策方法 若|Tβ0|>tα/2,n-2 拒絕H0 β0之(1-α) %信賴區間

例:成人體重與膽固醇 斜率H0:β=0 V.S. Ha:β≠0 α=0.05 |Tβ|=6.7419 > t0.025,10=2.228,拒絕H0 β之95 %信賴區間

例:成人體重與膽固醇 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05 |Tβ0|=1.2756 < t0.025,10=2.228 β0之95 %信賴區間

回歸變方分析表 獨立變數 X Y 不可由x解釋之變異 總變異 可由x解釋之變異

總變異=可由x所解釋變異+不可由x解釋變異 總平方和=回歸平方和+殘差平方和 SST=SSR+SSE Syy=bSxy+(Syy-bSxy) 自由度:n-1=1+(n-2)

迴歸變方平方和 變因 自由度 平方和 均方 F值 迴歸 1 SSR =b×Sxy MSR =SSR/1 MSR/MSE 殘差 n-2 SSE =SST-SSR MSE =SSE/(N-2) 總計 n-1 SST

例:成人年齡與膽固醇 ANOVA表 變因 自由度 平方和 均方 F 迴歸 1 42705.4370 45.4538 殘差 10 SST = Syy = 54001.7825 SSR = b × Sxy=(5.65025) ×(7558.15) =42705.4370 SSE = SST - SSR =51000.7825-42705.4370 =9395.3455 ANOVA表 變因 自由度 平方和 均方 F 迴歸 1 42705.4370 45.4538 殘差 10 9395.3455 939.53455 總計 11 52100.7825

決定係數(Coefficient of Determination) = 可由獨立變數解釋之變異 總變異 = SSR / SST 0 < R2 < 1 當只有一個獨立變數時 R2 = (相關係數)2=n2

例:成人體重與膽固醇 F = 420705.4370 / 939.53455 = 45.4530 , F0.05,10=4.9646 拒絕H0 F = 45.4530 = (6.7419)2=(Tβ)2 R2 = SSR / SST =42705.4370 / 52100.7825 =0.8197 =(0.9054)2

例:成人年齡與膽固醇 年齡為55歲之膽固醇分佈平均值的估算值 95%信賴區間

例:成人年齡與膽固醇 年齡為55歲之膽固醇的觀測值 95%信賴區間

獨立變數x

直線性檢定(Test for Linearity) 獨立變數下的依變數必須有重複 獨立變數 依變數(重複) 平均 重複數

直線性檢定(Test for Linearily)

變方分析表 變因 自由度 平方和 均方 F值 迴歸 1 SSR = b.Sxy MSR 殘差 n-2 SSE = Syy-b.Sxy MSE 欠合 k-2 SSLF = SSE - SSPE MSLF = SSLF / k-2 MSLFMSPE 純誤差 n-k SSPE = MSPE = SSPE / n-k 總計 n-1 SST = Syy

直線性檢定(Test for Linearity) H0:符合直線假定 v.s. Ha:不符合直線假定 顯定水準:α 決策方法: FLF=MSLF / MSPE > Fα,k-2,n-k 拒絕H0

例子:成人年齡與血壓(mmHg) 年齡 20 30 40 50 60 70 血 壓 102 110 108 120 115 118 112 126 119 135 130 150 146 148 138 140 160 155 159 總和yi 320 465 365 529 722 624 ni 3 4 5

例子:成人年齡與血壓(mmHg) 年齡 血壓

例子:成人年齡與血壓(mmHg)

例子:成人年齡與血壓(mmHg)

變方分析表 變因 自由度 平方和 均方 F值 迴歸(R) 1 6228.7096 殘差(E) (23-3=21) 391.0295 18.6025 欠合(L) 6-2=4 76.9962 19.2491 1.0420 純誤差(P) 23-6=17 314.0333 18.4725 總計(T) 23-1=22 6619.7391 FLF = 1.0240 < F0.05,4,17 = 2.9647 無法拒絕H0

變方分析表 變因 自由度 平方和 均方 F值 迴歸(年齡) 1 6228.7096 334.5082 殘差 21 391.0295 18.6025 總計(T) 22 6619.7391 F = 6228.7096 / 18.6205 = 334.5082 > F0.05,1,21 = 4.32478 迴歸係數≠0

例子:成人年齡與血壓(mmHg)

假定之確認(Checking the Model Assumptions) 同質變方(Homogeneity of Variance) 殘差圖 殘差v.s.獨立變數 殘差v.s.預測值 殘差v.s.時間 殘差圖不能有任何規則性 蒼蠅在開會員大會無任何規則性

Residuals from a horizontal band 殘差v.s.獨立變數 Residual (a) Increasing erroe variance Residuals fan out Residual (b) Decreasing erroe variance Residuals fannel in Residual (c) Constant erroe variance Residuals from a horizontal band

獨立性 殘差v.s.時間 Error term Time Error term Time

有規則性的殘差圖 (1) (2) (3)

常態性(Normality) 殘差百分位值v.s.標準常態之變數百分位值 Normal Probability Plot of the Residuals -2 -1 1 2 300 200 100 -100 -200 -300 Normal Score Residual

總結 直線相關係數 簡單直線回歸 最小平方法 斜率與截距估算值與檢定 變方分析法 預測平均值及信賴區間 假定確認 直線性 同質變方 獨立性 常態性

習題 Page 393:1、3