第十一章 线性相关与回归.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
§3.4 空间直线的方程.
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
第六章 回归分析.
生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月.
第十章 相关与回归分析 PowerPoint 统计学.
第六章 相关与回归分析 本章主要内容 1.相关分析的基本问题 2.相关关系的测度 3.回归分析的基本问题 4.回归分析模型的建立
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
完全随机设计多样本资料秩和检验.
预测与决策分析 Forecasting and Decision Analysis
相关与回归分析 目 录 一 相关分析概述 二 一元线性回归分析 小 结 三.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
田间试验和统计方法 第九章 直线回归与相关.
第三篇 医学统计学方法. 第三篇 医学统计学方法 医学统计学方法 实习2 主讲人 陶育纯 医学统计学方法 实习2 主讲人 陶育纯 流行病与卫生统计学教研室
不确定度的传递与合成 间接测量结果不确定度的评估
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第十九章 直线相关和回归分析.
曲线拟合 Curve fitting 2002级研究生《医学统计学》.
第八章 相关分析和回归分析 第一节:相关的意义、概念和种类 第二节:相关图表和相关系数 第三节:回归分析
线性相关分析.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
回归分析.
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
医学统计学 6 主讲人 陶育纯 医学统计学 6 主讲人 陶育纯
2.1.2 空间中直线与直线 之间的位置关系.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
(实验二) 回归函数的线性性、 误差的独立性和方差齐性的诊断
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第四章 一次函数 4. 一次函数的应用(第1课时).
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第十三章 直线相关与直线回归.
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
一 测定气体分子速率分布的实验 实验装置 金属蒸汽 显示屏 狭缝 接抽气泵.
第4课时 绝对值.
第四章 多元线性回归分析.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
回归分析实验课程 (实验三) 多项式回归和定性变量的处理.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
数学模型实验课(二) 最小二乘法与直线拟合.
§3.1.2 两条直线平行与垂直的判定 l1 // l2 l1 ⊥ l2 k1与k2 满足什么关系?
Presentation transcript:

第十一章 线性相关与回归

变量间的关系一般来说,可分为两种: 1.确定性关系:即“函数关系”,如 或 2.非确定性关系: 如(1)污染程度与污染源距离 (2)舒张压与年龄 (3)人的身高与体重 (4)药物剂量与动物死亡率 回归与相关就是研究此类问题的统计方法

第一节 直线回归 一、“回归”的由来 F.Galton K.Pearson 每对夫妇的平均身高(英寸) 成年儿子的身高(英寸)

二、线性回归基本概念 当一个变量X改变时,另一个变量Y也 相应地改变,此时称X为自变量(independent variable), Y为应变量(dependentvariable)。 自变量X:可随机变动亦可人为取值。 因(应)变量Y:被视为依赖于X而变化的 反应变量。在X的数值确定时按某种规律 随机变动。

可见,各散点通常并不会恰好在一条直线上,但反映出两变量的线性趋势。我们可以假定,相对于X各个取值, 相应的Y的总体均数位于一条直线上,与X之间数量上的线性依存关系就称为线性回归。这样我们就可以用某个恰当的线性回归方程(linear regression equation)来描述Y的总体均数依赖于X的数值变化:

以 表示 的一个样本估计值,即X确定时Y的样本均数,样本回归方程的一般表达式可写为:

三、直线回归方程的建立 1.一般表达式: 自变量 当 取某一定值时,因变量 的 平均估计值。 时, 的 截距,即当 平均估计值。

斜率(回归系数):当 每改变一个单位时, 的平均改变量。

因此

2.求 和 (依据最小二乘法(method of least square)原理 ),即 最小。

四、直线回归方程图示: 在自变量X的实测全距范围内任取相距较远且易读的两个X值,代入回归方程式,求出两个 ,两点连一直线即可。

五、线性回归的统计推断 (一)总体回归系数的估计与假设检验 1.总体回归系数的区间估计: 其中

为剩余标准差,表示应变量Y值对于回归直线的离散程度。 为样本回归系数的标准误,反映样 本回归系数与总体回归系数之间的抽 样误差。 为剩余标准差,表示应变量Y值对于回归直线的离散程度。

2.回归系数的假设检验 (1)方差分析 SS总 = SS回归 + SS剩余 SS总 SS回归=

SS回归表示在Y总的变异中,可以用X与Y的线性关系引起Y变异来解释的部分。 SS剩余= = SS总 - SS回归 SS剩余表示除X对Y的线性影响之外的一切其它随机因素对Y的影响。 这三个平方和的自由度依次分别为: ν总=n-1, ν回归=1, ν剩余=n-2。

具体分析步骤: 建立假设检验 计算检验统计量 查附表12(P274)F界值表并作结论: 若 ,则P< ,拒绝H0 接受H1 , 则P> ,不拒绝H0

2. t 检验 ν=n-2 3.回归方程无统计学意义原因: (1)影响Y取值的,除X外,还有其它不 可忽略因素。 (2)Y与X关系不是线性的,而存在其它 关系。 (3)Y与X不存在关系。

(二)应变量条件均数 的区间估计 亦可用 表示,是总体中当x为某 定值x0的条件下,y 的条件均数 。 当把x0代入回归方程求得其点估计值

当X= x0时 ,总体条件均数 的 可信区间为:

(二)个体 值的容许区间估计 所谓个体 值的容许区间是指总体中X 为某定值x0时,个体 值的波动范围。 其标准差为:

于是给定X= x0时,个体Y值的 容许区间为:

六、线性回归方程应用: 1.描述X和Y之间依存变化的数量关系 2.利用回归方程进行预测预报 3.用容易测量的指标估计不易测量的指标。 4.利用回归方程获得精度更高的医学参考值范围 5.利用回归方程进行统计控制

七、线性回归分析中应注意的问题 1.作回归分析一定要有实际意义 2.回归分析之前首先应绘制散点图 异常点:是指偏离既定模型的数据点 (即y空间的异常点)。 高杠杆点:是指远离数据主体的点(即x空间的异常点)。 强影响点是指对统计推断影响特别大 的点。

异常点和高杠杆点都可能是强影响点。 处理办法: (1)剔除 (2)在此点补做实验 (3)数据变换 学生化残差( ) 其中

3.考虑建立线性回归模型的基本 假定(LINE)。 4.不可外推。 5.两变量间的直线关系不一定是因果 关系,也可能是伴随关系。

第二节 线性相关 一、直线相关的基本概念 若一个变量X由小到大(或由大到小),则另一变量Y亦相应地由小到大(或由大到小),两个变量的散点图呈直线趋势,我们称这种现象为共变,亦就是这两个变量之间有“相关关系”。 散点呈直线趋势说明两变量之间存在 线性相关关系。

散点图中的点的分布,即线性相关的性 质和相关之间的密切程度,可分为以下 几种情况: 1. 正相关 :如图11.6(a),各点的分布呈现椭圆形,Y随X的增加而增加,X随Y的增加而增加。当各点的分布如图11.6(b)呈现直线型,则Y与X就完全正相关了。

2. 负相关 :如图11. 6(c) ,各点的分布也呈现椭圆形,Y随X的增加而减少,X随Y的增加而减少。当各点的分布如图11 2.负相关 :如图11.6(c) ,各点的分布也呈现椭圆形,Y随X的增加而减少,X随Y的增加而减少。当各点的分布如图11.6(d)呈现直线型,则Y与X就完全负相关了。

3. 零相关: 如图11.6(e),无论X增加还 是减少,Y不受其影响,反之,X也不受Y的 影响。 4.非线性相关: X与Y的散点图如图 11.6(f),图中各点分布可能表示X与Y存 在某种曲线相关,但与线性相关已完全 不同,称为非线性相关。

二、相关系数的意义与计算 1.相关系数的意义 : 相关系数(coefficient of correlation)就是说明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。

2. 相关系数的计算 其中

3.相关系数的性质 相关系数r没有测量单位,其数值为 -1≤r≤+1。 r值为正,表示正相关; r值为负,表示负相关; r值为0,则称零相关即无直线关系。 当r值的绝对值为1时,称完全相关。

4.注意: 生物界影响因素众多,r值为l的机会极少,因而很少有完全相关,经常见到的是r值介于-1与+l之间,即不完全相关。在例数相等的情况下,计算出的相关系数的绝对值愈接近1,相关愈密切;相关系数愈接近0时,相关愈不密切。

三、相关系数的假设检验 建立检验假设: 1.查表法: 一种是按自由度 直接查附 表15的r 界值表 。

2. t-test 自由度

四、决定系数的意义 r的平方称为决定系数 (coefficient of determination)

r2反映出回归平方和在总平方和中所 占的比重。r2越接近1,回归效果越好; 应用决定系数,也可以从回归的角度 对相关程度做进一步的了解,例如, r=0.5,r2=0.25,说明一个变量的变 异仅有25% 由另一变量所引起,避免 了对相关系数表示的相关程度的夸 张解释。

五、相关分析应用中应注意的问题 1.相关分析要求两个变量是服从双变量正 态分布的资料。 2.进行相关分析前应先绘制散点图,散点 图呈现出直线趋势时,再作分析。

3.满足应用条件的同一份双变量资料,回归系数与相关系数的正负号一致,假设检验等价。 4.相关分析时,小样本资料经t-test 只能推断两变量间有无直线关系,而不能推断其相关的密切程度。要推断其相关的密切程度样本含量必须足够大。

AC/ON AC/ON 线性相关系数与回归系数的计算器求法: 开机: 进入线性回归状态: 清除内存: Lin MODE MODE REG 1 2 SHIFT Scl AC/ON =

实例1:求变量x与y的回归系数 和相关系数 X Y 1 3 5 6 7

1 , 5 M+ 6 3 M+ , 5 , 7 M+ SHIFT A 求出a=4.5 7 =

SHIFT B 求出b=0.5 8 = SHIFT r ( 则可求出r=1 = SHIFT 2.5 - 则可求出

线性相关和回归的区别与联系 一、区别 (一)资料要求上: 1.回归: (1)因变量Y(随机变量)必须服从正态 分布,自变量X可精确测量和严格控制的 变量。 Ⅰ型回归:

(2)X和Y服从双变量正态分布 Ⅱ型回归: (Y对X的回归方程或由X推Y) (X对Y的回归方程或由Y推X)

(二)在应用上: 1.回归:反映两个变量间依存变化的数量关系,是单向的。 2. 相关:表示两个变量之间的相互关系,是双向的。

(三)在意义上: b表示X每增大(或减小)一个单位,Y 平均增大(或减小)b个单位。 r 说明具有直线关系的两个变量间相关密切程度和相关方向的统计指标。

(四)计算上: (五)取值范围: (六)单位:b 有单位,r 没有单位。

二、联系 (一)对同一资料 r 与 b 正负号是相同 的:r为正,说明X 与Y相关关系的方向是 一致的; b为正,说明X与Y之间由回归方程所确定的 变量关系是递增的,即X增大(或减小) 一个单位,Y也平均增大(或减小)b个 单位。

(二)r 和b 假设检验等价的(即对同一样本二者的 t 值相等),实际应用时常用其代替对 b 的假设检验。 (三)相关回归可以互相解释: r的平方称为决定系数(coefficient of determination)

第四节 秩相关 一、适用范围: 1.观测值是等级资料双变量资料 2.不服从双变量正态分布的资料 3.观测值是百分数的双变量资料 4.分布不明确的双变量资料        

二、Spearman等级相关系数 1.意义:说明具有线性关系的两变量间相关方向和密切程度的统计指标。 2.取值: 的数值亦在 -1与 +1之间,表示正相关,表示负相关。        

3.计算 步骤: (1)将X、Y从小到大分别编秩,相同观察值在同一组取平均秩次。 (2)把X、Y秩次分别输入计算器,求出

三、 的假设检验 1.建立假设检验 2.计算检验统计量

3. 结论 (1)当n≤50时,查附表16(P281)中的 等级相关系数 界值表。 若rs>rs (n), 则 P<α 若rs<rs(n), 则 P>α (2)当n>50时 ,计算公式如下: