生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月.

Slides:



Advertisements
Similar presentations
第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
§3.4 空间直线的方程.
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
3.4 空间直线的方程.
第六章 回归分析.
第十章 相关与回归分析 PowerPoint 统计学.
第六章 相关与回归分析 本章主要内容 1.相关分析的基本问题 2.相关关系的测度 3.回归分析的基本问题 4.回归分析模型的建立
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第二章 二次函数 第二节 结识抛物线
10.2 立方根.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
预测与决策分析 Forecasting and Decision Analysis
相关与回归分析 目 录 一 相关分析概述 二 一元线性回归分析 小 结 三.
一次函数的图象复习课 南华实验学校 初二(10)班 教师:朱中萍.
工程数学 第22讲 本文件可从网址 上下载 (单击ppt讲义后选择'工程数学'子目录)
田间试验和统计方法 第九章 直线回归与相关.
不确定度的传递与合成 间接测量结果不确定度的评估
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第十一章 线性相关与回归.
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第十九章 直线相关和回归分析.
第15章 相关分析与回归分析 (续).
第八章 相关分析和回归分析 第一节:相关的意义、概念和种类 第二节:相关图表和相关系数 第三节:回归分析
线性相关分析.
第六章 线性回归分析 在许多实际问题中,经常会遇到需要同时考虑几个变量的情况,例如,在电路中会遇到电压、电流及电阻的关系,在炼钢过程中会遇到钢水中的碳含量与钢材的物理性能(如强度、延伸率等)之间的关系,医学上经常测量人的身高、体重,研究人的血压与年龄的关系,在制定销售策略时会考虑商品的单价与销售量之间的关系等等.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第12章 回归直线.
課程九 迴歸與相關1.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
以每年參觀Lake Keepit的人數為例
2.1.2 空间中直线与直线 之间的位置关系.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
課程十 迴歸3.
模型分类问题 Presented by 刘婷婷 苏琬琳.
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第十三章 直线相关与直线回归.
复习: 若A(x1,y1,z1) , B(x2,y2,z2), 则 AB = OB - OA=(x2-x1 , y2-y1 , z2-z1)
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第4课时 绝对值.
第三章 两变量线性回归.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
反比例函数(复习课) y o x 常州市新北区实验中学 高兴林.
数学模型实验课(二) 最小二乘法与直线拟合.
Presentation transcript:

生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月

第7章 回归与相关 7.1相关与回归的概念 7.1.1函数关系和相关关系 第7章 回归与相关 7.1相关与回归的概念 7.1.1函数关系和相关关系 函数关系:变量与变量之间是相互联系并遵循一定的规律变化着,变化规律由变量在变化过程中的数值对应关系反映出来,这种变量之间确定的对应关系叫做函数关系 。 相关关系:变量间的关系是非确定性的,但又呈现一定规律的变化趋势,这种变量之间非确定的关系叫做相关关系。 相关关系的两种情况:一种是一个变量的变化受到另一个变量制约的主从关系(又称为因果关系),另一种是两个变量间的关系是共同受到另外因素影响的结果。 根据涉及的变量多少,相关可分为单相关、复相关和偏相关。 单相关:研究两个变量之间的关系,它包括直线相关和曲线相关 复相关和偏相关:研究三个或三个以上变量间的关系,统称为多元相关。

7.1.2 回归的概念 两个相关变量之间,有时表现为一个变量依赖于另一个变量的从属关系。对于这种情况的两个变量可以区分为自变量(记为X)和依变量(记为Y)。 回归关系:一般自变量X是固定的(试验时预先确定的),并且没有试验误差或试验误差很小,依变量Y则是随自变量X的变化而变化,且受试验误差的影响较大。这种关系称为回归关系, 回归分析:变量回归关系的研究,往往从一个变量的变化来估测另一个变量的变化,这就是回归分析 回归方程:表现回归关系的函数方程称作回归方程

7.2 一元直线回归方程 7.2.1 直线回归方程的建立 根据研究目的,具体确定哪个是自变量,哪个是依变量,再把n对观察值(x1,y1),(x2,y2),…,(xn,yn)在直角坐标系中作图,自变量X为横坐标,依变量Y为纵坐标,此图称为散点图。 例7.1 某科技人员饲养了35尾团头鲂,共重7.2kg,在水温29℃条件下,测量摄食量(g)与耗氧率(mgO2/kg·h)之间的关系,结果如下: 试作散点图并对摄食量与耗氧率之间的关系作初步判断。

要使这条直线能最好地代表各点,各点离这条直线的距离平方和需最小,即 为最小。 采用使误差平方和Q达到最小值的方法,即最小二乘法求a与b的值。根据微分学,参数a,b应满足方程

为X变量与Y变量的离均差的乘积和,简称乘积和,记为SP 回归直线通过点 例7.2 根据例7.1的数据,求耗氧率对摄食量的直线回归方程。

x<-c(20,30,40,50,60,70) y<-c(536.3,573.5,595.9,628.9,669.6,725.7) lm.sol<-lm(y~1+x) summary(lm.sol) plot(y ~ x) anova(lm.sol) ploy(x,y) abline(lm.sol, col = 2, lty = 2) Call: lm(formula = y ~ 1 + x) Residuals: 1 2 3 4 5 6 5.243 6.206 -7.631 -10.869 -6.406 13.457 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 458.5829 12.3986 36.99 3.19e-06 *** x 3.6237 0.2576 14.07 0.000148 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 10.78 on 4 degrees of freedom Multiple R-squared: 0.9802, Adjusted R-squared: 0.9752 F-statistic: 197.9 on 1 and 4 DF, p-value: 0.0001482 例 7.1 R语言实现

预测 > new<-data.frame(x=55) > lm.pred<-predict(lm.sol,new,interval="prediction",level=0.95) > lm.pred fit lwr upr 1 657.8871 624.7889 690.9854

7.2.2 回归直线的精确度 简单地用最小二乘法求出的回归方程有没有意义 7.2.2 回归直线的精确度 简单地用最小二乘法求出的回归方程有没有意义 直线回归方程的估计标准误或离回归标准差 ,是回归线精确度的一个重要统计量,其值越大,由回归线预测y的精确度越低 为离回归平方和,又称为剩余平方和,用Q表示 例7.3 计算例7.1资料的离回归标准差。

直线回归的数学模型和基本假定 基本假定: ① X变数没有误差,或误差很小,Y变数则存在随机误差。 ② 对于X取值范围内的每一个值,都存在着一个Y总体,且有 。 ③ 随机误差相互独立,且有 。

7.2.3 直线回归的显著性检验 7.2.3.1 直线回归关系的显著性检验 1)t测验 根据概率分布理论 有:

例7.4 用t测验对例7.2所求回归方程作回归显著性测验。

为离回归平方和Q,它与X的大小无关,具有 2)F测验 为离回归平方和Q,它与X的大小无关,具有 为回归平方和,简记作U,它是X的不同而引起的,具有

例7.5 用F测验对例7.2所求回归方程作回归显著性测验。

7.2.3.2 两个回归系数相比较的显著性检验 由两个样本的回归系数b1,b2,测验其所属总体的回归系数β1、β2是否相等 假设H0: β1=β2 ,HA: β1≠β2 检验统计量为 当 时,接受HA,即两样本所属总体的回归系数不相等 当 时, 接受H0 ,即两样本所属总体的回归系数相等 可得公共回归系数

7.2.4 直线回归的置信区间 7.2.4.1 回归系数的置信区间

7.2.4.2 回归截距a的置信区间

7.2.4.3 Y的置信区间

7.4 直线相关分析 7.4.1 相关系数与决定系数的概念 对于一元直线回归,目的是建立一个直线性方程,当已知X值时,可由该方程预测出Y的期望值; 对于一元直线相关,X与Y均为随机变量,目的是确定它们之间直线相关的性质和密切程度。 一元直线回归与一元直线相关是分析变量X与Y之间关系的两种不同方法。 (a)变量Y不随变量X变化而变化,表明两变量不相关; (b)变量Y随变量X的增加而呈增加趋势,有同向关系,为正相关, (c)变量Y随变量X的增加而呈递减趋势,有反向关系,为负相关。 (d)两个变量之间呈函数关系或称完全直线关系(或者同向,或者反向)

相关系数:两变量之间存在的相互关系即相关关系定量的度量值,是反映两变量相关性质和紧密程度的特征数 总体相关系数:从总体的数据计算得来的相关系数,用符号ρ代表 样本相关系数:从随机样本的数据计算得来的相关系数,用符号r代表 对某一定的总体来说, ρ是一个常量。 从同一总体中随机抽取的各样本的r值是随机变动的,不是一个常量,且可以通过实验或测量的样本数据来计算它。 将SP除以n-1,消除了样本容量的影响,得样本的协方差 将协方差除以两个标准差sx与sy的乘积而进行将协方差标准化以消除测量单位的影响 ,得到相关系数r

r的特性: ① |r|≤1。 ② 两变量相关愈紧密,|r|愈大。 ③ 两变量不相关,则r=0;两变量呈函数关系,则|r|=1,称完全相关。 ④ r若为正数,两变量呈正相关,变量Y随变量X增大而增大;r若为负数,两变量呈负相关,变量Y随变量X增大而减少。 决定系数是指由X的不同引起的Y的平方和U占Y变数总平方和SSy的比率或由Y的不同引起的X的平方和U’占X变数总平方和SSx的比率 ,记为r2 ,是一个无单位的数,表示x与y关系强弱的一个数 决定系数是相关系数的平方。 除|r|=1和0外,r2总是小于|r| r2的取值区间为[0,1],不能反映两变量相关的性质。 在相关分析中,常用相关系数的符号反映相关的性质,用决定系数的值反映相关的紧密程度。

7.4.2 相关系数的假设测验 7.4.2.1 ρ=0假设测验 不用计算t值,直接查r和R的显著值表来进行显著性检验。若r>rα,可认为相关显著;否则,相关不显著。 H0:总体的两变量不存在直线相关关系,即ρ=0; HA:总体的两变量存在直线相关关系,即ρ≠0。 检验统计量 例7.11 求例7.2中团头鲂摄食量与耗氧率之间的相关系数,并作显著性检验。

7.4.2.2 ρ=C的假设测验 是测验样本所属总体的相关系数与某一指定或理论的相关系数C是否相等 假设H0:ρ=C,HA:ρ≠C 在ρ≠C时,r的抽样分布具有很大的偏态,且随n和ρ的取值而异 采用z变换法,将|r|变换为近似服从正态分布的z值

例7.12 例7.11已算得r=0.99, 试测验其与ρ=0.95的差异显著性。

7.4.2.3 ρ1=ρ2的假设测验 测验两个样本的相关系数所属总体的相关系数是否相等 7.4.2.3 ρ1=ρ2的假设测验 测验两个样本的相关系数所属总体的相关系数是否相等 假设H0:两样本所属总体相关系数相等(ρ1=ρ2), HA:两样本所属总体相关系数不相等(ρ1≠ρ2)