田间试验和统计方法 第九章 直线回归与相关
第九章 直线回归与相关 第一节 回归与相关的概念 第二节 直线回归 第三节 直线相关
第一节 回归与相关的概念 ●统计关系与函数关系 函数关系是一种确定性的关系,属于物理学、化学等理论科学的研究内容。 第一节 回归与相关的概念 ●统计关系与函数关系 函数关系是一种确定性的关系,属于物理学、化学等理论科学的研究内容。 统计关系是一种非确定性的关系,即一个变数的取值受到另一变数的影响,两者之间既有关系,但又不存在完全确定的函数关系。例如,作物的产量与产量的构成因素、施肥量和病虫害等的关系。函数关系可分为平行关系和因果关系。
第一节 回归与相关的概念 ●回归分析与相关分析 因果关系的变数可用回归来研究,将原因的变数称为自变数,用X表示,一般是没有误差的;结果的变数称为依变数,用Y表示, 是有误差的.回归主要是研究当自变数变动时,依变数该如何变动,变动多少。 平行关系的变数可用相关来研究,主要研究两个变数关系的程度和性质.但相关分析也可研究变数间的因果关系。
第一节 回归与相关的概念 ●变数之间关系的类型可分为直线关系和曲线关系。如果两个变数之间是直线关系可以采用直线回归与相关分析的方法来研究,即本章的内容; 多个变数之间是直线关系可以采用多元回归与相关分析的方法来研究,即下一章的内容;变数之间是曲线关系可以采用曲线回归与相关分析的方法来研究,即第十一章的内容。
第一节 回归与相关的概念 ●如何判断两变数之间的关系一方面可根据专业方面的知识来确定,即前人的研究结果,另一方面借助于两个变数成对观测值的散点图。
第一节 回归与相关的概念 ●双变数资料的散点图
第二节 直线回归 最小 ●直线回归方程的建立 Y 的预测值与观测值间的偏差是误差,即 回归系数 直线方程的一般形式: 回归截距 Y 的预测值 Y 的预测值与观测值间的偏差是误差,即 任何配合直线 回归方程呢? 必须使散点图中的所有点整体上离回归直线最近,即误差达到最小: 最小
现在的任务是要选择合适的a和b,使Q最小.微积分学中提供的最小二乘法为我们解决了这个问题。方法如下: 第二节 直线回归 ●直线回归方程的建立 现在的任务是要选择合适的a和b,使Q最小.微积分学中提供的最小二乘法为我们解决了这个问题。方法如下: 分别求Q对a和b的偏导数,并使之为0:
第二节 直线回归 解方程组得: 这样就可以得到回归方程. ●将其整理得正规方程组: 其中 为成对数据的离均差乘积和,简称乘积和,记为SPxy 这样就可以得到回归方程.
第二节 直线回归 ●下面我们来看一个回归方程建立的例子: 先计算出6个一级数据: 再计算5个二级数据: 最后计算出: 该资料的直线方程为:
满足 Q最小的直线回归方程和实测的观察点并不重合,表明该回归方程仍然存在随机误差。Q就是误差的一种度量,称之为离回归平方和或剩余平方和。由于在建立回归方程时用了a和b两个统计数,故Q的自由度为n-2 。因而,可定义回归方程的估计标准误 为Sy/x: 若各个观察点愈靠回归线, 将愈小(极端地说,当各观察点都落在回归线上时, =0);若各观察点在回归线上下分散得愈远,则 愈大。故样本的 是回归精确度的度量, 愈小,由回归方程估计y的精确性愈高。 计算 的主要手续在于求Q。直接计算不仅步骤多、工作量大,而且若数字保留位数不够,会引入较大的计算误差。为简化手续, Sy/x可从以下恒等式得出:
直线回归基本假定 (1)Y变数是随机变数,而x变数则是没有误差的固定变数,至少和Y变数比较起来x的误差小到可以忽略。 (2)在任一x上都存在着一个y总体,它是作正态分布的,其平均数μY/X是x的线性函数: μY/X的样本估计值 , 与x的关系就是线性回归方程。 (3)所有的Y总体都具有共同的方差 ,这一方差不因X的不同而不同,而直线回归总体具有 。试验所得的一组观察值(xi,yi)只是 中的一个随机样本。 (4)随机误差ε相互独立,并作正态分布,具有 。
如果某总体的两变数(x,y)之间有线性关系: 第二节 直线回归 ●直线回归方程的假设测验 其中 。 如果某总体的两变数(x,y)之间有线性关系: 称为总体模型的回归截距, 为总体回归系数。 从此总体中抽取大小为n的样本,欲用它得到样本模型: ,用 估计 ,用 估计 用 估计 。 N对(x,y)的总体 n对(x,y)的样本
第二节 直线回归 ●在欲用样本回归模型对总体回归模型进行估计之 前,必须确证总体中两变数之间确实有线性回归 关系存在,即测验 H0: vs HA: ●只有在此测验结果为显著时,用 估计 ,用 估计 ,用 估计 才是有意义的。 ●对此统计假设有两种测验方法: ●方差分析法 ● 测验法
第二节 直线回归 当自变量为 ,对应的 ●方差分析法: ●利用下图说明方差分析法的基本原理。 依变数的实测值为 , 依变数的预测值为 。 当自变量为 ,对应的 依变数的实测值为 , 依变数的预测值为 。 于是 的离均差 可分解为两个部分: ●总的差异 ●估计误差 ●回归引起的偏离
第二节 直线回归 ●对于一个点有: ●两边平方得: ●对整个资料所有点的求和得: 可以证明右边的中项为0:
第二节 直线回归 于是: 的总平方和便分解为两个部分: 的总平方和 回归平方和 离回归平方和 ●对于一个点有: ●两边平方得: ●对整个资料所有点的求和得: 于是: 的总平方和便分解为两个部分: 的总平方和 离回归平方和 回归平方和
第二节 直线回归 ● 三个平方和的计算公式: ● 总平方和: ● 回归平方和: ●离回归平方和: 或 离回归平方和 回归平方和 总平方和
第二节 直线回归 ● 将三个平方和填入方差分析表得: 计算三个自由度并填入方差分析表: ● 总自由度: ● 回归自由度: ● 离回归自由度:
第二节 直线回归 将三个平方和填入方差分析表得: 计算回归方差 和离回归方差 : ★ 回归方差: ★ 离回归方差: 计算回归方差 和离回归方差 : ★ 回归方差: ★ 离回归方差: ★ 计算出 值并对它进行测验:
第二节 直线回归 ●上例中: ▲总平方和: ▲回归平方和: ▲离回归平方和: 将3个平方和及其它计算结果填入方差分析表得:
第二节 直线回归 ● t 测验法 统计测验 H0: vs HA: 计算一个t值与t0.05和t0.01进行比较. 计算公式是: 其中: 计算公式是: 其中: ▲ 本例中: 两种测验方法都判定此资料中 与 间有显著的回归关系,结果是完全一致的,可以通过公式来证明。
第二节 直线回归 ●经过测验判断 与 之间有回归关系之后,便可以用样本统计数来对总体参数作估计,并且以一定的概率保证来求出总体参数的置信区间。 1. 用 来估计 ,置信区间为: 其中, 2. 用 来估计 ,置信区间为: 其中, 3. 用 来估计对应Y平均数 , 置信区间为: 其中, 4. 用 来估计预测值 ,置信区间为: 其中,
第三节 直线相关 ● 变数之间的关系,再看看前面介绍的资料 到底用什么来表示数 据资料的相关性呢?
第三节 直线相关 ◆ 第一象限的点 ◆ 第二象限的点 ◆ 第三象限的点 ◆ 第四象限的点
第三节 直线相关 ● 从下面的三组资料的散点图可以看出,离均差 乘积和 可以反映资料中两个随机变数之间的相互关系。 第一组 第二组 第三组
第三节 直线相关 ●乘积和是有单位的量。有时单位在实践中难以解释。例如当x为体高,y为体重,它的单位就是cm.g。 乘积和没有考虑到两变数自身变异的影响。 如何消除计量单位和变异不同的影响呢?可将乘积和除以两个变数平方和的平方根,来表示两个变数之间的关系,该数值定义为相关系数,双变数样本的相关系数用r表示。即 双变数总体的相关系数用表示。
第三节 直线相关 ●前述的三组数据的相关系数分别为:
第三节 直线相关 ● 相关系数是没有单位的量。 ● 相关系数的定义域为[-1,1]。 ● 当相关系数为+1时,两变数为完全正相关; ● 当相关系数为-1时,两变数为完全负相关; ● 当相关系数在0到+1之间时,两变数为正相关; 如第2组数据的相关系数 =0.9772;所以 与 之间有正的相关关系; ● 当相关系数在-1到0之间时,两变数为负相关; 如第3组数据的相关系数 =-0.9642;所以 与 之间有负的相关关系; ● 当相关系数为0时,两变数为无线性相关; 如第1组数据的相关系数 =0.0261;所以 与 之间就几乎没有线性相关关系;
第三节 直线相关 ● 如果我们只关心变数间关系的密切程度而不理会正负方向,可以考察相关系数的平方值,相关系数的平方值称为决定系数。 第一组数据的决定系数为: 第二组数据的决定系数为: 第三组数据的决定系数为: 第2组中两随机变数的关系比其他两组更密切。
第三节 直线相关 ● 在欲用样本相关系数 对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: ● 在欲用样本相关系数 对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: 其中: 这个 值服从 的 分布。 对第1组资料 不能推翻 的假设,判断 与 之间没有显著的线性相关关系。
第三节 直线相关 ●在欲用样本相关系数r对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: 其中: 这个 值服从 的 分布。 第2组资料, 不能接受 的假设,判断 与 之间有极显著的线性相关关系。
第三节 直线相关 ● 在欲用样本相关系数 对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: ● 在欲用样本相关系数 对总体相关系数 进行估 计之前,必须确证 不为0,即测验 H0: vs HA: 测验的公式是: 其中: 这个 值服从 的 分布。 计算出的相关系数 也可直接查P376的附表10来判断其显著性 第3组资料, 不能接受 的假设,判断 与 之间有极显著的线性相关关系。
第四节 直线回归与相关的内在关系和应用要点 一、直线回归与相关的内在关系
二、直线回归和相关的应要点 1、回归和相关分析要有学科专业知识作指导; 2、要尽量控制研究对象(X和Y)以外的有关因素,即要在X和Y的变 化过程中尽量使其它因素保持稳定; 3、直线回归和相关分析结果不显著并不意味着X和Y没有关系,只说明二者没有显著的线性关系,并不能排除二者存在曲线关系的可能。 4、一个显著的r或b并不代表X和Y的真实关系就是线性,可能存在更好地描述二者曲线关系的可能; 5、回归和相关分析一般是在变量一定取值区间内对两个变量间的关系进行描述,因此回归预测必须限制自变数X的取值区间,不能将回归线任意延伸; 6、一个显著的相关或回归并不一定具有实践上的预测意义,r要在0.7以上才可以; 7、为提高回归和相关分析的准确性,两变数的样本容量要尽量大一些,至少要在5对以上,X的取值范围也要尽可能宽一些。
本章提示与作业 ● 本章重点:直线回归方程的建立和假设测验以及相关系数的计算 ● 作业:P252第6和8题