田间试验和统计方法 第九章 直线回归与相关.

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
信号与系统 第三章 傅里叶变换 东北大学 2017/2/27.
§3.4 空间直线的方程.
《解析几何》 -Chapter 3 §7 空间两直线的相关位置.
3.4 空间直线的方程.
第六章 回归分析.
生 物 统 计 学 第7章 回归与相关 彭司华 2016年5月.
第十章 相关与回归分析 PowerPoint 统计学.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第三章 函数逼近 — 最佳平方逼近.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
相关与回归分析 目 录 一 相关分析概述 二 一元线性回归分析 小 结 三.
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
高等数学电子教案 第五章 定积分 第三节 微积分基本定理.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
不确定度的传递与合成 间接测量结果不确定度的评估
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第十一章 线性相关与回归.
简单相关与回归 武汉大学.公共卫生学院 卫生统计学教研室.
第一章 商品 第一节 价值创造 第二节 价值量 第三节 价值函数及其性质 第四节 商品经济的基本矛盾与利己利他经济人假设.
第十九章 直线相关和回归分析.
线性相关分析.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第十章 方差分析.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 参数估计 7.3 参数的区间估计.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
数列.
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
第十三章 直线相关与直线回归.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第一节 不定积分的概念与性质 一、原函数与不定积分的概念 二、不定积分的几何意义 三、基本积分表 四、不定积分的性质 五、小结 思考题.
多层循环 Private Sub Command1_Click() Dim i As Integer, j As Integer
第四章 多元线性回归分析.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
第一部分:概率 产生随机样本:对分布采样 均匀分布 其他分布 伪随机数 很多统计软件包中都有此工具 如在Matlab中:rand
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
数学模型实验课(二) 最小二乘法与直线拟合.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

田间试验和统计方法 第九章 直线回归与相关

第九章 直线回归与相关 第一节 回归与相关的概念 第二节 直线回归 第三节 直线相关

第一节 回归与相关的概念 ●统计关系与函数关系 函数关系是一种确定性的关系,属于物理学、化学等理论科学的研究内容。 第一节 回归与相关的概念 ●统计关系与函数关系 函数关系是一种确定性的关系,属于物理学、化学等理论科学的研究内容。 统计关系是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。例如,作物的产量与产量的构成因素、施肥量和病虫害等的关系。函数关系可分为平行关系和因果关系。

第一节 回归与相关的概念 ●回归分析与相关分析 因果关系的变数可用回归来研究,将原因的变数称为自变数,用X表示,一般是没有误差的;结果的变数称为依变数,用Y表示, 是有误差的.回归主要是研究当自变数变动时,依变数该如何变动,变动多少。 平行关系的变数可用相关来研究,主要研究两个变数关系的程度和性质.但相关分析也可研究变数间的因果关系。

第一节 回归与相关的概念 ●变数之间关系的类型可分为直线关系和曲线关系。如果两个变数之间是直线关系可以采用直线回归与相关分析的方法来研究,即本章的内容; 多个变数之间是直线关系可以采用多元回归与相关分析的方法来研究,即下一章的内容;变数之间是曲线关系可以采用曲线回归与相关分析的方法来研究,即第十一章的内容。

第一节 回归与相关的概念 ●如何判断两变数之间的关系一方面可根据专业方面的知识来确定,即前人的研究结果,另一方面借助于两个变数成对观测值的散点图。

第一节 回归与相关的概念 ●双变数资料的散点图

第二节 直线回归 最小 ●直线回归方程的建立 Y 的预测值与观测值间的偏差是误差,即 回归系数 直线方程的一般形式: 回归截距 Y 的预测值 Y 的预测值与观测值间的偏差是误差,即 任何配合直线 回归方程呢? 必须使散点图中的所有点整体上离回归直线最近,即误差达到最小: 最小

现在的任务是要选择合适的a和b,使Q最小.微积分学中提供的最小二乘法为我们解决了这个问题。方法如下: 第二节 直线回归 ●直线回归方程的建立 现在的任务是要选择合适的a和b,使Q最小.微积分学中提供的最小二乘法为我们解决了这个问题。方法如下: 分别求Q对a和b的偏导数,并使之为0:

 第二节 直线回归 解方程组得: 这样就可以得到回归方程. ●将其整理得正规方程组: 其中 为成对数据的离均差乘积和,简称乘积和,记为SPxy 这样就可以得到回归方程.

第二节 直线回归 ●下面我们来看一个回归方程建立的例子: 先计算出6个一级数据: 再计算5个二级数据: 最后计算出: 该资料的直线方程为:

满足 Q最小的直线回归方程和实测的观察点并不重合,表明该回归方程仍然存在随机误差。Q就是误差的一种度量,称之为离回归平方和或剩余平方和。由于在建立回归方程时用了a和b两个统计数,故Q的自由度为n-2 。因而,可定义回归方程的估计标准误 为Sy/x: 若各个观察点愈靠回归线, 将愈小(极端地说,当各观察点都落在回归线上时, =0);若各观察点在回归线上下分散得愈远,则 愈大。故样本的 是回归精确度的度量, 愈小,由回归方程估计y的精确性愈高。 计算 的主要手续在于求Q。直接计算不仅步骤多、工作量大,而且若数字保留位数不够,会引入较大的计算误差。为简化手续, Sy/x可从以下恒等式得出:

直线回归基本假定 (1)Y变数是随机变数,而x变数则是没有误差的固定变数,至少和Y变数比较起来x的误差小到可以忽略。 (2)在任一x上都存在着一个y总体,它是作正态分布的,其平均数μY/X是x的线性函数: μY/X的样本估计值 , 与x的关系就是线性回归方程。 (3)所有的Y总体都具有共同的方差 ,这一方差不因X的不同而不同,而直线回归总体具有 。试验所得的一组观察值(xi,yi)只是 中的一个随机样本。   (4)随机误差ε相互独立,并作正态分布,具有 。

如果某总体的两变数(x,y)之间有线性关系: 第二节 直线回归 ●直线回归方程的假设测验 其中 。 如果某总体的两变数(x,y)之间有线性关系: 称为总体模型的回归截距, 为总体回归系数。 从此总体中抽取大小为n的样本,欲用它得到样本模型: ,用 估计 ,用 估计 用 估计 。 N对(x,y)的总体 n对(x,y)的样本

第二节 直线回归 ●在欲用样本回归模型对总体回归模型进行估计之 前,必须确证总体中两变数之间确实有线性回归 关系存在,即测验 H0: vs HA: ●只有在此测验结果为显著时,用 估计 ,用 估计 ,用 估计 才是有意义的。 ●对此统计假设有两种测验方法: ●方差分析法 ● 测验法

第二节 直线回归 当自变量为 ,对应的 ●方差分析法: ●利用下图说明方差分析法的基本原理。 依变数的实测值为 , 依变数的预测值为 。 当自变量为 ,对应的 依变数的实测值为 , 依变数的预测值为 。 于是 的离均差 可分解为两个部分: ●总的差异 ●估计误差 ●回归引起的偏离

第二节 直线回归 ●对于一个点有: ●两边平方得: ●对整个资料所有点的求和得: 可以证明右边的中项为0:

第二节 直线回归 于是: 的总平方和便分解为两个部分: 的总平方和 回归平方和 离回归平方和 ●对于一个点有: ●两边平方得: ●对整个资料所有点的求和得: 于是: 的总平方和便分解为两个部分: 的总平方和 离回归平方和 回归平方和

第二节 直线回归 ● 三个平方和的计算公式: ● 总平方和: ● 回归平方和: ●离回归平方和: 或 离回归平方和 回归平方和 总平方和

第二节 直线回归 ● 将三个平方和填入方差分析表得: 计算三个自由度并填入方差分析表: ● 总自由度: ● 回归自由度: ● 离回归自由度:

第二节 直线回归 将三个平方和填入方差分析表得: 计算回归方差 和离回归方差 : ★ 回归方差: ★ 离回归方差: 计算回归方差 和离回归方差 : ★ 回归方差: ★ 离回归方差: ★ 计算出 值并对它进行测验:

第二节 直线回归 ●上例中: ▲总平方和: ▲回归平方和: ▲离回归平方和: 将3个平方和及其它计算结果填入方差分析表得:

第二节 直线回归 ● t 测验法 统计测验 H0: vs HA: 计算一个t值与t0.05和t0.01进行比较. 计算公式是: 其中: 计算公式是: 其中: ▲ 本例中: 两种测验方法都判定此资料中 与 间有显著的回归关系,结果是完全一致的,可以通过公式来证明。

第二节 直线回归 ●经过测验判断 与 之间有回归关系之后,便可以用样本统计数来对总体参数作估计,并且以一定的概率保证来求出总体参数的置信区间。 1. 用 来估计 ,置信区间为: 其中, 2. 用 来估计 ,置信区间为: 其中, 3. 用 来估计对应Y平均数 , 置信区间为: 其中, 4. 用 来估计预测值 ,置信区间为: 其中,

第三节 直线相关 ● 变数之间的关系,再看看前面介绍的资料 到底用什么来表示数 据资料的相关性呢?

第三节 直线相关 ◆ 第一象限的点 ◆ 第二象限的点 ◆ 第三象限的点 ◆ 第四象限的点

第三节 直线相关 ● 从下面的三组资料的散点图可以看出,离均差 乘积和 可以反映资料中两个随机变数之间的相互关系。 第一组 第二组 第三组

第三节 直线相关 ●乘积和是有单位的量。有时单位在实践中难以解释。例如当x为体高,y为体重,它的单位就是cm.g。 乘积和没有考虑到两变数自身变异的影响。 如何消除计量单位和变异不同的影响呢?可将乘积和除以两个变数平方和的平方根,来表示两个变数之间的关系,该数值定义为相关系数,双变数样本的相关系数用r表示。即 双变数总体的相关系数用表示。

第三节 直线相关 ●前述的三组数据的相关系数分别为:

第三节 直线相关 ● 相关系数是没有单位的量。 ● 相关系数的定义域为[-1,1]。 ● 当相关系数为+1时,两变数为完全正相关; ● 当相关系数为-1时,两变数为完全负相关; ● 当相关系数在0到+1之间时,两变数为正相关; 如第2组数据的相关系数 =0.9772;所以 与 之间有正的相关关系; ● 当相关系数在-1到0之间时,两变数为负相关; 如第3组数据的相关系数 =-0.9642;所以 与 之间有负的相关关系; ● 当相关系数为0时,两变数为无线性相关; 如第1组数据的相关系数 =0.0261;所以 与 之间就几乎没有线性相关关系;

第三节 直线相关 ● 如果我们只关心变数间关系的密切程度而不理会正负方向,可以考察相关系数的平方值,相关系数的平方值称为决定系数。 第一组数据的决定系数为: 第二组数据的决定系数为: 第三组数据的决定系数为: 第2组中两随机变数的关系比其他两组更密切。

第三节 直线相关 ● 在欲用样本相关系数 对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: ● 在欲用样本相关系数 对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: 其中: 这个 值服从 的 分布。 对第1组资料 不能推翻 的假设,判断 与 之间没有显著的线性相关关系。

第三节 直线相关 ●在欲用样本相关系数r对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: 其中: 这个 值服从 的 分布。 第2组资料, 不能接受 的假设,判断 与 之间有极显著的线性相关关系。

第三节 直线相关 ● 在欲用样本相关系数 对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: ● 在欲用样本相关系数 对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: 其中: 这个 值服从 的 分布。 计算出的相关系数 也可直接查P376的附表10来判断其显著性 第3组资料, 不能接受 的假设,判断 与 之间有极显著的线性相关关系。

第四节 直线回归与相关的内在关系和应用要点 一、直线回归与相关的内在关系

二、直线回归和相关的应要点 1、回归和相关分析要有学科专业知识作指导; 2、要尽量控制研究对象(X和Y)以外的有关因素,即要在X和Y的变 化过程中尽量使其它因素保持稳定; 3、直线回归和相关分析结果不显著并不意味着X和Y没有关系,只说明二者没有显著的线性关系,并不能排除二者存在曲线关系的可能。 4、一个显著的r或b并不代表X和Y的真实关系就是线性,可能存在更好地描述二者曲线关系的可能; 5、回归和相关分析一般是在变量一定取值区间内对两个变量间的关系进行描述,因此回归预测必须限制自变数X的取值区间,不能将回归线任意延伸; 6、一个显著的相关或回归并不一定具有实践上的预测意义,r要在0.7以上才可以; 7、为提高回归和相关分析的准确性,两变数的样本容量要尽量大一些,至少要在5对以上,X的取值范围也要尽可能宽一些。

本章提示与作业 ● 本章重点:直线回归方程的建立和假设测验以及相关系数的计算 ● 作业:P252第6和8题