第十三章 直线相关与直线回归.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
§3.4 空间直线的方程.
3.4 空间直线的方程.
第六章 回归分析.
生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月.
人群健康研究的统计方法 预防医学系 指导教师:方亚 电话:
双变量关联性分析.
第十章 相关与回归分析 PowerPoint 统计学.
第六章 相关与回归分析 本章主要内容 1.相关分析的基本问题 2.相关关系的测度 3.回归分析的基本问题 4.回归分析模型的建立
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第十一章 两变量关联性分析.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
第13章 多重线性回归与相关 (multiple linear regression & multiple correlation)
完全随机设计多样本资料秩和检验.
预测与决策分析 Forecasting and Decision Analysis
相关与回归分析 目 录 一 相关分析概述 二 一元线性回归分析 小 结 三.
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
田间试验和统计方法 第九章 直线回归与相关.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第十一章 线性相关与回归.
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
第十章 回归分析预测法 第一节 相关分析 第二节 一元线性回归预测法 第三节 多元线性回归预测法 第四节 非线性回归预测法.
第十九章 直线相关和回归分析.
第15章 相关分析与回归分析 (续).
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
简单回归分析.
线性相关分析.
Applied Regression Analysis
医学统计学 7 主讲人 陶育纯 医学统计学 7 主讲人 陶育纯
第12章 回归直线.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
数学实验之 回归分析(1).
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
第2章 一元线性回归分析 §2.1 :回归分析及回归模型 §2.2 :一元线性模型的参数估计 §2.3 :参数估计值的性质及统计推断
回归分析.
相关与回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2012/7/6.
第十七章 相關係數 17.1 前言 17.2 相關係數 17.3 功能視窗(Bivariate) 17.4 範例(Bivariate)
第十章 方差分析.
医学统计学 6 主讲人 陶育纯 医学统计学 6 主讲人 陶育纯
2 主讲人 陶育纯 MEDICAL MULTIVARIATE STATISTICS ANALYSIS 多元统计分析 教案
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
相关与回归分析 庄文忠 副教授 世新大学行政管理学系 SPSS之应用(庄文忠副教授) 2011/7/13.
第七章 参数估计 7.3 参数的区间估计.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第三章 两变量线性回归.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第四节 多个样本均数的两两比较 多个样本均数的两两比较又称多重比较(multiple comparison),其目的是推断究竟哪些总体均数之间存在差别。
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
Statistical Methods in Medicine
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
相关关系 主讲人:孟迎芳.
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
数学模型实验课(二) 最小二乘法与直线拟合.
Presentation transcript:

第十三章 直线相关与直线回归

某市1995年104名男童身高(cm)资料如下 117.3 119.6 121.9 125.1 117.0 115.4 124.7 120.1 123.0 122.8 120.6 121.5 125.0 125.9 123.2 126.6 122.0 127.6 119.5 126.1 126.4 125.6 118.9 130.4 124.9 125.8 1 20.9 116.1 124.0 124.6 118.7 119.1 118.0 114.6 123.9 116.0 125.3 123.6 115.5 119.2 114.0 123.4 113.6 120.5 130.2 128.3 118.2 122.4 118.8 123.1 122.7 127.8 110.5 124.8 115.2 119.4 128.0 116.7 132.4 129.3 121.7 115.0 120.4 122.1 127.0 135.3 125.7 111.2 124.3 124.2 121.3 124.1 119.9 113.8 129.9 128.5 126.5 122.5 127.7 123.3 120.3

表1 不同饲料组大鼠肝中维生素A含量(IU/g) 大鼠对号 正常饲料组 维生素 E 缺乏组 ( 1 ) 2 3 3550 2450 2000 2400 3000 800 4 3950 3200 5 3800 3250 6 3750 2700 7 3450 2500 8 3050 1750 合计 26550 20050

表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果 患者号 血清IL-6 脑脊液IL-6 1 22.4 134.0 2 51.6 167.0 3 58.1 132.3 4 25.1 80.2 5 65.9 100.0 6 79.7 139.1 7 75.3 187.2 8 32.4 97.2 9 96.4 192.3 10 85.7 199.4

SAH患者血清和脑脊液IL-6散点图

第一节 直线相关 (linear correlation) 直线相关分析:描述两变量间是否有直线关系以及直线关系的方向和密切程度的分析方法 条件:两变量(x,y)都是来自正态分布的随机变量

直线相关示意图 一、直线相关的概念 r =1 r = -1 -1< r <0 0< r <1 零相关r = 0 完全正相关 r = -1 完全负相关 -1< r <0 负相关 0< r <1 正相关

直线相关系数:又称积差相关系数,是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。 r  二、相关系数的意义与计算 直线相关系数:又称积差相关系数,是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。 r 

二、相关系数的意义与计算 范围: 大小: 符号:

例13.1(P212) 在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6(IL-6)水平是影响诊断与预后分析的一项重要指标,但脑脊液在临床上有时又不容易采集到。某医生欲了解急性脑血管病病人血清IL-6(pg/ml)与脑脊液IL-6 (pg/ml)水平,随机抽取了某医院确诊的10例蛛网膜下腔出血(SAH)患者24小时内血清IL-6和脑脊液IL-6数据如表2,问SAH患者血清IL-6和脑脊液IL-6间是否有直线相关关系存在?

直线相关分析步骤 1、绘制散点图: 2、计算: lxx=6104.664 lyy=16242.101 lxy=7201.698 r=0.7232

三、相关系数的假设检验 1、tr检验 =n-2

例13.1 SAH患者血清IL-6和脑脊液IL-6间相关系数的假设检验步骤: H0 :=0 即SAH患者血清IL-6和脑脊液IL-6间无直线相关关系 H1 : ≠0即SAH患者血清IL-6和脑脊液IL-6间有直线相关关系 =0.05

r=0.7232, n=10, 代入公式 计算得 t=…=2.962 根据=10-2=8查t界值表得0.01< P < 0.02,按=0.05的检验水准,拒绝H0,接受H1 ,可认为SAH患者血清IL-6和脑脊液IL-6间有直线相关关系

2、查表法 根据r值及=n-2查附表13-1(P222) 相关系数r界值表 三、相关系数的假设检验 2、查表法 根据r值及=n-2查附表13-1(P222) 相关系数r界值表

1.相关分析一定要有实际意义 2.进行相关分析前要先绘制散点图 3.分析相关的密切程度时样本含量要足够大 相关分析应用中应注意的问题 1.相关分析一定要有实际意义 2.进行相关分析前要先绘制散点图 3.分析相关的密切程度时样本含量要足够大

第 二 节 直线回归 Linear Regression

表2 孕妇尿中雌三醇含量与产儿的体重 编号 (1) 尿雌三醇 mg/24h(2 产儿体重 kg(3) 尿雌三醇mg/24h(2) 1 7 编号  (1) 尿雌三醇 mg/24h(2 产儿体重 kg(3) 尿雌三醇mg/24h(2) 1 7 2.5 17 3.2 2 9 18 25 3 19 27 3.4 4 12 2.7 20 15 5 14 21 6 16 22 3.5 2.4 23 8 3.0 24 10 3.1 26 3.6 11 3.7 28 3.8 13 29 4.0 2.8 30 3.9 31 4.3  

表3 12名一年级女大学生体重与肺活量 编号 体重 ( kg ) 肺活量 L 1 42 2.55 2 2.2 3 46 2.75 4 2.4 表3 12名一年级女大学生体重与肺活量 编号 体重 ( kg ) 肺活量 L 1 42 2.55 2 2.2 3 46 2.75 4 2.4 5 2.8 6 50 2.81 7 3.41 8 3.1 9 52 3.46 10 2.85 11 58 3.5 12

回归的由来 英国统计学家Pearson K(1857~1936)1903年搜集了1078个家庭人员的身高、前臂长等指标的记录,发现儿子身高(Y,英寸)与父亲身高(X,英寸)存在线形关系: = 33.73+0.516 X

回归的由来 即高个子父亲儿子的平均身高虽然比矮个子父亲儿子的平均身高要高一些,但稍矮于其父亲的平均身高;而矮个子父亲儿子的平均身高虽然比高个子父亲儿子的平均身高要矮一些,但稍高于其父亲的平均身高。英国人类学家Galton F(1822~1911)将这种趋向于种族稳定的现象称之为“回归”。

直线回归仍用直线方程来描述两变量间的回归关系,但称为直线回归方程. 直线回归的概念 在实际生活当中,由于其它因素的干扰,许多双变量之间的关系呈直线趋势,但并不是严格的直线关系,为了区别于两变量间的直线关系,我们称这种关系为直线回归。 直线回归仍用直线方程来描述两变量间的回归关系,但称为直线回归方程. 在数学上两个变量之间有直线相关关系,并且一个变量的变化会引起另一个变量的变化,这时,如果它们之间存在准确、严格的关系,它们的关系可用直线方程来表示,叫它们是直线关系,它们之间的关系式叫直线方程。

一、两变量的散点图

一、两变量的散点图

SAH患者血清和脑脊液IL-6散点图

医学上,还有许多现象之间也都有类似的或强或弱的相互依存的关系,例如:身高与体重、体温与脉搏、年龄与血压、胰岛素与血糖水平、毒物剂量与动物的存活时间等等

二、直线回归方程 直线回归方程: A、b的大小及其含义 如果a、b已知,代入上式,就可求得直线回归方程。 b:回归系数 b0:截距

x y

回归系数与截距的计算

表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果 例13.2 对例13.1进行回归分析 表2 SAH患者血清和脑脊液IL-6(pg/ml)检测结果 患者号 血清IL-6 脑脊液IL-6 1 22.4 134.0 2 51.6 167.0 3 58.1 132.3 4 25.1 80.2 5 65.9 100.0 6 79.7 139.1 7 75.3 187.2 8 32.4 97.2 9 96.4 192.3 10 85.7 199.4

1、绘制散点图: 2、求回归系数b和截距b0 :

计算x、y、lxx、lyy、lxy x=59.26 y=142.87 lxx=6104.664 lyy=16242.101 lxy=7201.698

列出回归方程:

表3 12名一年级女大学生体重与肺活量 例:某地一年级12名女大学生的体重与肺活量数据如下,试分析肺活量与体重关系 编号 体重 ( kg ) 表3 12名一年级女大学生体重与肺活量 编号 体重 ( kg ) 肺活量 ( L ) 1 42 2.55 2 42 2.2 3 46 2.75 4 46 2.4 5 46 2.8 6 50 2.81 7 50 3.41 8 50 3.1 9 52 3.46 10 52 2.85 11 58 3.5 12 58 3

1、绘制散点图: 2、求回归系数b和截距b0 :

计算x、y、lxx、lyy、lxy x=49.33 y=2.9025 lxx=306.6667 lyy=1.8892 lxy=18.04

列出回归方程:

在自变量X的实测范围内任取相距较远且易读数的两X值代入回归方程求得两点坐标、连线即得其回归直线 直线回归方程的图示 在自变量X的实测范围内任取相距较远且易读数的两X值代入回归方程求得两点坐标、连线即得其回归直线 截距和均值点可验证回归直线绘制的正确性

三、直线回归的统计推断 (一)总体回归系数的估计与假设检验 1、总体回归系数的区间估计 bt/2,sb

2、回归系数的假设检验 方差分析 t检验

回归系数的假设检验:方差分析法 方差分析的基本思想: 把总的离均差平方和(即总变异)分解为至少两个部分,其中有一部分表示处理因素的效应,有一部分表示抽样误差的影响,然后比较两者的均方,计算F值,若F值远大于1,可认为处理有效应,否则认为处理无效应。

应变量Y的离均差平方和的分解 X Y Q

应变量Y的离均差平方和的分解 SS总 = SS回 + SS剩

SS总 =lYY SS回 =blXY =lXY2/lXX SS剩= SS总- SS回= lYY - lXY2/lXY 回归系数的方差分析 SS总 = SS回 + SS剩 总 = n – 1 回= 1 剩= n - 2 SS总 =lYY SS回 =blXY =lXY2/lXX SS剩= SS总- SS回= lYY - lXY2/lXY

例13.3:对例13.2建立的回归方程的回归系数进行假设检验 H0:β=0 H1:β≠0 α=0.05 计算统计量F,求得概率值P 做出推断:

回归系数方差分析表 变异来源 SS DF MS F P 回归 剩余 总变异 8495.8737 1 8.7742 0.018 7746.2273 8 968.2784 总变异 16242.1010 9

回归系数的假设检验: t检验法  = n - 2 其中Sy.x表示去除X影响后Y的变异大小

(二)应变量条件均数的区间估计 :是总体中x取某定值时Y的条件均数

四、直线回归的应用 1、描述两变量之间的依存关系: 2、利用回归方程进行预测预报: 3、用容易测量的指标估计不容易测量的指标: 估计值的置信区间: 个体值的预测区间: 4、利用回归方程进行统计控制

应用直线回归的注意事项 (1)回归分析前应先作出散点图; (2)做回归分析要有实际意义; (3)应注意建立线性回归模型的基本假定 (4)两变量间有直线关系时不一定是因果关系 (5)应对回归系数作假设检验 (6)回归直线不宜外延。 (7)要注意离群值对回归效果的影响

区别:1. 相关说明相关关系,回归 说明依存关系; 2. r与b有区别; 3. 资料要求不同。 直线相关与回归的区别与联系 区别:1. 相关说明相关关系,回归 说明依存关系;       2. r与b有区别;       3. 资料要求不同。

联系:1. r与b正负号一致;       2. r与b的假设检验等价;       3.可用回归解释相关。 决定系数:即相关系数的平方r2,是回归平方和与总的离均差平方和之比。 故回归平方和是引入相关变量后总平方和减少的部分。

相关分析: analyze→correlate →bivariate correlations →variables: x →ok y SPSS的应用: 相关分析: analyze→correlate →bivariate correlations →variables: x →ok y

SPSS的应用: 样本相关系数 相关系数的假设检验P值

SPSS的应用: 回归分析: analyze→regression →linear regression → dependent: y →ok Independent: x

SPSS的应用: 样本回归系数 回归系数假设检验的P值

SPSS的应用: 总体回归系数β的可信区间

作业: P514 计算分析题 1.1