第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation

Slides:



Advertisements
Similar presentations
MINITAB Minitab 培训 Minitab Training.
Advertisements

计量经济学 第五章 异 方 差 性.
張偉豪 三星統計服務有限公司 執行長 Amos 亞洲一哥
问卷调查的规范与技术 问卷调查的规范与技术.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
數據挖掘 課程 王海 深圳國泰安教育技術股份有限公司.
Chapter 15 複迴歸.
双变量关联性分析.
16.1 曲線配適 曲線配適 藉由數學方程式來描述兩個變數間的關係 線性方程式關係 y=a+bx.
应用回归分析 信计学院统计系 沈菊红.
How to Use SPSS in Biomedical Data analysis
Chapter 3 預測.
生物統計與SAS軟體課程教學(三) 雙變項統計分析(一)
语文版九年级(下) 多媒体课件.
11. Pearson’s Correlation & Simple Linear Regression
§9.3 线性回归分析 一. 什么是回归分析 相关分析研究变量之间相关的方向和相关的程度,但是相关分析不能指出变量间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况。 回归分析则是研究变量之间的数量变化规律的一种方法。
多元迴歸 Multiple Regression
STATISTICA統計軟體的應用 第二講:廻歸與ANOVA
Chapter 8 Liner Regression and Correlation 第八章 直线回归和相关
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
Analysis of Variance 變異數分析
Chapter 2 簡單迴歸模型.
第 14 章 複迴歸與相關分析.
第十二章 相关与回归分析 第一节 相关关系及种类 第二节 定类变量的相关分析 第三节 定序变量的相关分析 第四节 定距变量的相关分析
优化试验设计与数据分析 第五章 回归分析方法 本章主要内容 · 一元线性回归方程度建立、显著性检验、预报和控制。非线性回归方程的线性化。
次数依变量模型 (Models for Count Outcomes)
課程九 迴歸與相關1.
第六章 正态条件下回归的推论.
一元线性回归(二).
第一章.
Stochastic Relationships and Scatter Diagrams
十一、簡單相關與簡單直線回歸分析(Simple Correlations and Simple Linear Regression )
簡單迴歸模型的基本假設 用最小平方法(OLS-ordinary least square)找到一個迴歸式:
第14章 迴歸分析與複迴歸分析  本章的學習主題 
非均一性的誤差變異數 and SERIAL CORRELATION
Chapter 14 Simple Linear Regression
楊志強 博士 多變量分析在測驗暨量表編製之應用 楊志強 博士
二元隨機變數(Bivariate Random Variables)
第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.
統計方法的概念與應用 一、認識統計(statistics)、測驗(test)、 測量(measurement)與評價(evaluation)
十、變方分析 (Analysis of Variance) (Chapter 10)
主講人 陳陸輝 特聘研究員兼主任 政治大學 選舉研究中心
線性相關與直線迴歸 基本概念 線性相關:兩個連續變項的共變關係,且有線性關係。所謂 的線性關係乃指兩個變項的關係可以被一條最具
多元迴歸分析.
第四章 测试效度及其 验证方法(一) 湖南师范大学外国语学院 邓 杰 教授.
相關係數(Correlation) 描述兩個變數X、Y之間的線性相關 Example: data1中的身高及體重 如何量化這樣的線性關係呢?
以每年參觀Lake Keepit的人數為例
Linear Regression 一元线性回归分析.
MyLibrary ——数字图书馆的个性化服务
Liner regression analysis
第3章 預測 2019/4/11 第3章 預測.
迴歸分析 行銷、財務、人資研究.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 6 主讲人 陶育纯 医学统计学方法 6 主讲人 陶育纯 流行病与卫生统计学教研室
相關統計觀念復習 Review II.
Design and Analysis of Experiments Final Report of Project
課程十 迴歸3.
Simple Regression (簡單迴歸分析)
第 1 章 直線和線性函數.
社会研究方法 第7讲:社会统计2.
第二章 经典线性回归模型: 双变量线性回归模型
第 四 章 迴歸分析應注意之事項.
函數與極限 函數 函數的圖形 函數的極限 連續函數 在無窮大處的極限 無窮極限 經濟學上的函數 商用微績分 Chapter 1 函數與極限.
两个变量的线性相关 琼海市嘉积中学 梅小青.
第四章 多组资料均数的比较 七年制医疗口腔《医学统计学》
现代统计分析方法概述 2019/5/20 知识管理与数据分析实验室.
Multiple Regression: Estimation and Hypothesis Testing
第八章 服務部門成本分攤.
第 1 章 單一預測變數線性迴歸.
簡單迴歸分析與相關分析 莊文忠 副教授 世新大學行政管理學系 計量分析一(莊文忠副教授) 2019/8/3.
Presentation transcript:

第十一章. 簡單直線迴歸與簡單相關 Simple Linear Regression and Simple Correlation 迴歸模式的建立與檢定 決定係數的意義 簡單相關的意義 相關係數的性質與檢定 迴歸與相關的應用要點 *迴歸分析的意義

迴歸分析的意義 簡單直線迴歸分析(simple regression analysis): 利用一個變數來預測(或解釋)另一個變數,並找出兩個變數間的關係模式。 如氮肥施用量與稻穀產量的關係、氣溫高低與飲料銷售量的關係、雨量與小麥產量的關係、成人年齡與血液中膽固醇含量的關係等。 主要是探討變數間的相關性(relationship)。

例1:氮肥用量與水稻穀收量表(公斤) 氮肥用量x 0.5 1.0 1.5 2.0 2.5 稻穀收量y 10 18 32 48 55 62 例2:成人年齡與血液中膽固醇含量 年齡x 34 39 44 46 48 51 膽固醇y(mg/ml) 141.4 180.5 178.4 212.0 203.2 224.1 53 6 0 61 65 66 67 186.0 350.0 286.3 287.6 330.3 371.3 例3:年雨量與小麥產量 年雨量(公厘/20) 23.5 20.4 22.8 25.9 28.9 27.1 26.8 25.2 產量(公斤/100) 23.0 33.5 35.8 44.6 41.2 45.4 39.0

氮肥用量與稻穀收量的分布圖

人年齡與膽固醇量的分布圖 (mg/ml)

年雨量與小麥產量的分布圖 (公斤/100)

簡單直線回歸(Simple Linear Regression) 水稻穀產量(y)與氮肥用量(x)可以用直線關係描述 yi=β0+βxi,i=1, …,6(=n) y i:依變數(Dependent variable) x i:獨立(自)變數(Independent variable) β0:截距(Intercept) x=0時y的值 β:斜率(Slope) x變動一個單位y變動的量 但實際觀測值與直線y=β+βx有差距 原因:環境、實驗誤差、量測誤差及其他原因造成 實際迴歸模式 yi=β0+βxi+εi,i=1, …,6(=n) εi:誤差(Error)或殘差(Residual)

The Simple Linear Regression Model (Here β1 > 0) y β0 An observed value of y when x equals x0 Straight line defined by the equation μy∣x=β0+β1x Error term Mean value of y when x equals x0 Slope = β1 One-unit change in x y-intercept x x0= A specific value of the independent variable x

假定(Assumptions) : 獨立性(Independent) 常態性(Normality) 直線關係(Linearity) 相同變方(homogeneity of Variance) 選擇直線的方法: 最小平方法(Least Squares Method) 德國大數學家Gauss發明

最小平方法

正規方程式(Normal Equations)

推測直線回歸方程式 ( Predicted Linear Regression Equations ) 斜率估算值 截距估算值 推測直線回歸方程式 ( Predicted Linear Regression Equations ) 為當獨立之變數為xi時依 變數之最小平方推測平均值 殘差估算值

例1:氮肥用量與水稻穀收量表(公斤) 氮肥用量x 0.5 1.0 1.5 2.0 2.5 稻穀收量y 10 18 32 48 55 62

迴歸模式建立

稻穀產量推測值與殘差值表 實測值: 10 18 32 48 55 62 --------------------------------------------------------------------------------------------------------------------------- --------- 推測值:9.86 20.91 31.97 43.03 54.09 65.14 -------------------------------------------------------------------------------------------------------------------------------------- 殘差值: 0.14 –2.91 0.03 4.97 0.91 -3.14

yi xi e1 e2 e3 e4 e6 e5 圖11.4 回歸直線與殘差圖

例2:成人年齡與血液中膽固醇含量 年齡x 34 39 44 46 48 51 膽固醇y(mg/ml) 141.4 180.5 178.4 212.0 203.2 224.1 53 6 0 61 65 66 67 186.0 350.0 286.3 287.6 330.3 371.3

成人年齡與血液膽固醇含量 推測直線回歸方程式 所需統計值 例:成人年齡與血液膽固醇含量

說明: b=5.65表示年齡增加一歲膽固醇增加5.65單位

σ2之估算 殘差估算值 殘差估算值平方 殘差(估算值)平方和 估算殘差值時必須先計算b0和b SSE之自由度為n-2

斜率與截距變方之估計

11.4 迴歸系數與截距假設檢定 (1)t值檢定法 (a) 斜率(迴歸系數)是否有意義 H0:β=0 V.S. Ha:β≠0 顯著水準α 檢定統計值(Test statistic) 決策方法 若|tβ|>tα/2,n-2 拒絕H0 β之(1-α) %信賴區間

(b)截距t值檢定 H0:β0=0 V.S. Ha:β0≠0 顯著水準α 檢定統計值(Test statistic) 決策方法 若|tβ0|>tα/2,n-2 拒絕H0 β0之(1-α) %信賴區間

例:氮肥與稻穀收量t值測驗

例:氮肥與稻穀收量t值測驗 斜率H0:β=0 V.S. Ha:β≠0 α=0.05 |tβ|=13.95 > t0.025,4=4.604,拒絕H0 β之95 %信賴區間

例:氮肥與稻穀收量t值測驗 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05 |tβ0|=4.1095 > t0.025,4=2.776,接受Ha β0之95 %信賴區間

例 成人年齡與膽固醇t值檢定

例 成人年齡與膽固醇t值檢定 斜率H0:β=0 V.S. Ha:β≠0 α=0.05 |tβ|=6.7419 > t0.025,10=2.228,拒絕H0 β之95 %信賴區間

例 成人年齡與膽固醇t值檢定 截距H0:β0=0 V.S. Ha:β0≠0 α=0.05 |tβ0|=1.2756 < t0.025,10=2.228

(2) 回歸分析變方分析法 獨立變數 X Y 不可由x解釋之變異 總變異 可由x解釋之變異

總變異=可由x所解釋變異+不可由x解釋變異 總平方和=回歸平方和+殘差平方和 SST=SSR+SSE Syy=bSxy+(Syy-bSxy) 自由度:n-1=1+(n-2)

迴歸分析變方分析表 變因 自由度 平方和 均方 F值 迴歸 1 SSR =b Sxy MSR =SSR/1 MSR/MSE 殘差 n-2 SSE =SST-SSR MSE =SSE/(n-2) 總計 n-1 SST

例:氮肥與稻穀收量之變方分析表 變方分析表 變因 自由度 平方和 均方 F 迴歸 1 2139.56 194.68 殘差 4 43.94 SST = Syy = 2183.50 SSR = b Sxy=(22.1143) ×(96.75) =2139.56 SSE = SST - SSR =2183.50-2139.56 =43.94 變方分析表 變因 自由度 平方和 均方 F 迴歸 1 2139.56 194.68 殘差 4 43.94 10.99 總計 5 2183.50

例:成人年齡與膽固醇 變方分析表 變因 自由度 平方和 均方 F 迴歸 1 42705.4370 45.4538 殘差 10 SST = Syy = 54001.7825 SSR = b Sxy=(5.65025) ×(7558.15) =42705.4370 SSE = SST - SSR =51000.7825-42705.4370 =9395.3455 變方分析表 變因 自由度 平方和 均方 F 迴歸 1 42705.4370 45.4538 殘差 10 9395.3455 939.53455 總計 11 52100.7825

決定係數(Coefficient of Determination) = 可由獨立變數解釋之變異 總變異 = SSR / SST 0 < R2 < 1 當只有一個獨立變數時 R2 = (簡單相關係數)2=r2 (見11.11節)

決定係數(複相關係數R )圖示 獨立變數 X Y 不可由x解釋之變異 總變異 可由x解釋之變異

例:成人體重與膽固醇 F = 420705.4370 / 939.53455 = 45.4530 , F0.05,10=4.9646 拒絕H0 F = 45.4530 = (6.7419)2=(tβ)2 R2 = SSR / SST =42705.4370 / 52100.7825 =0.8197 =(0.9054)2

11.5迴歸直線推測值 及信賴區間估算 其 之估算變方及信賴區間公式如下

獨立變數x 推測值y之信賴區間圖

例:氮肥與稻穀收量 氮肥為1.75時,稻穀收量分佈平均值的估算值 95%信賴區間

例:成人年齡與膽固醇 年齡為55歲之膽固醇分佈平均值的估算值 95%信賴區間

迴歸直線新推測值 及信賴區間估算 其 之估算變方及信賴區間公式如下

例:氮肥與稻穀收量 氮肥為2.6時,稻穀收量分佈新估算值 95%信賴區間

例:成人年齡與膽固醇 年齡為70歲之膽固醇的觀測值 95%信賴區間

直線性檢定(Test for Linearity) 獨立變數下的依變數必須有重複 獨立變數 依變數(重複) 平均 重複數

直線性檢定(Test for Linearily)

變方分析表 變因 自由度 平方和 均方 F值 迴歸 1 SSR = b.Sxy MSR 殘差 n-2 SSE = Syy-b.Sxy MSE 欠合 k-2 SSLF = SSE - SSPE MSLF = SSLF / k-2 MSLFMSPE 純誤差 n-k SSPE = MSPE = SSPE / n-k 總計 n-1 SST = Syy

直線性檢定(Test for Linearity) H0:符合直線假定 v.s. Ha:不符合直線假定 顯定水準:α 決策方法: FLF=MSLF / MSPE > Fα,k-2,n-k 拒絕H0

例子:成人年齡與血壓(mmHg) 年齡 20 30 40 50 60 70 血 壓 102 110 108 120 115 118 112 126 119 135 130 150 146 148 138 140 160 155 159 總和yi 320 465 365 529 722 624 ni 3 4 5

例:成人年齡與血壓(mmHg) 年齡 血壓

例:成人年齡與血壓(mmHg)

例:成人年齡與血壓(mmHg)

變方分析表 變因 自由度 平方和 均方 F值 迴歸(R) 1 6228.7096 殘差(E) (23-3=21) 391.0295 18.6025 欠合(L) 6-2=4 76.9962 19.2491 1.0420 純誤差(P) 23-6=17 314.0333 18.4725 總計(T) 23-1=22 6619.7391 FLF = 1.0240 < F0.05,4,17 = 2.9647, 無法拒絕 ,符合直線性

變方分析表 變因 自由度 平方和 均方 F值 迴歸(年齡) 1 6228.7096 334.5082 殘差 21 391.0295 18.6025 總計(T) 22 6619.7391 F = 6228.7096 / 18.6205 = 334.5082 > F0.05,1,21 = 4.32478 迴歸係數≠0

例:成人年齡與血壓(mmHg)

假定之確認(Checking the Model Assumptions) 同質變方(Homogeneity of Variance) 殘差圖 殘差v.s.獨立變數 殘差v.s.預測值 殘差v.s.時間 殘差圖不能有任何規則性 蒼蠅在開會員大會無任何規則性

Residuals from a horizontal band 殘差v.s.獨立變數 Residual (a) Increasing error variance Residuals fan out Residual (b) Decreasing error variance Residuals fannel in Residual (c) Constant error variance Residuals from a horizontal band

獨立性 殘差v.s.時間 Error term Time Error term Time

11.11 簡單相關(simple correction) -- 探討兩個變數之間的關係 問題: 兩個變數間是否存在直線關係?  資料型態( xi , yi ) 假定(Assumption) 每對資料均為獨立 常態分布 相同變方 X與Y的關係為直線

三種不同族群相關散播圖 Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ Ⅱ Ⅰ Ⅲ Ⅳ 圖11.8b 三種不同族群相關散播圖 μy μy μy μχ μχ (a) ρ> 0 正相關 (b) ρ< 0 負相關 (c) ρ= 0 無相關 圖11.8b 三種不同族群相關散播圖

象限 (χ-μχ) (y-μy) (χ-μχ) (y-μy) Ⅰ + Ⅱ - Ⅲ Ⅳ

正相關:落在第Ⅰ及Ⅲ象限的點數 > 落在第Ⅱ及Ⅳ象限的點數 負相關:落在第Ⅰ及Ⅲ象限的點數 < 落在第Ⅱ及Ⅳ象限的點數 無相關:落在第Ⅰ及Ⅲ象限的點數 = 落在第Ⅱ及Ⅳ象限的點數

族群簡單相關係數:(x1,y1) …(xN,yN) ,-1<ρ<1

樣品簡單相關係數 樣品資料:(x1,y1), …, (xn,yn) 乘積和: X平方和: Y平方和: ,r 之範圍:-1 ≦ r ≦1

不同樣品相關散播圖 x y r = 1 x y r = -1 (a)完全正相關 (b)完全負相關

不同樣品相關散播圖 x y 0 < r < 1 x y -1 < r < 0 (a)不完全正相關 (b)不完全負相關

不同樣品相關散播圖 r = 0 r = 0 y y x x (a)無相關 (b)曲線關系

11.14 簡單相關係數顯著性檢定 H0:ρ= 0 v.s. Ha:ρ≠ 0 顯著水準:α 檢定統計值: 決策方法: 若|t|>t α/2,n-2 拒絕H0

簡單相關係數顯著性檢定 例3:年雨量與小麥產量 年雨量(公厘/20) 23.5 20.4 22.8 25.9 28.9 27.1 26.8 25.2 產量(公斤/100) 23.0 33.5 35.8 44.6 41.2 45.4 39.0

例:雨量與小麥產量 n=8, Σxi=200.5, Σyi=296.5

~The End~