从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从自然到社会,无一事物不处在与其他事物的联系之中

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

第五节 函数的微分 一、微分的定义 二、微分的几何意义 三、基本初等函数的微分公式与微分运算 法则 四、微分形式不变性 五、微分在近似计算中的应用 六、小结.
2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第七节 函数的微分 一 、微分 概念 二、微分的几何意义 三、 基本初等函数的微分公 式与 微分运算法则 四 、小结.
2.5 函数的微分 一、问题的提出 二、微分的定义 三、可微的条件 四、微分的几何意义 五、微分的求法 六、小结.
全微分 教学目的:全微分的有关概念和意义 教学重点:全微分的计算和应用 教学难点:全微分应用于近似计算.
第三节 微分 3.1 、微分的概念 3.2 、微分的计算 3.3 、微分的应用. 一、问题的提出 实例 : 正方形金属薄片受热后面积的改变量.
§3.4 空间直线的方程.
3.4 空间直线的方程.
第六章 回归分析.
第十章 相关与回归分析 PowerPoint 统计学.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
第三章 函数逼近 — 最佳平方逼近.
10.2 立方根.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
《高等数学》(理学) 常数项级数的概念 袁安锋
预测与决策分析 Forecasting and Decision Analysis
量化视角下的豆粕投资机会分析 格林期货研发培训中心 郭坤龙.
工程数学 第22讲 本文件可从网址 上下载 (单击ppt讲义后选择'工程数学'子目录)
高等数学电子教案 第五章 定积分 第三节 微积分基本定理.
第五节 微积分基本公式 、变速直线运动中位置函数与速度 函数的联系 二、积分上限函数及其导数 三、牛顿—莱布尼茨公式.
一、原函数与不定积分 二、不定积分的几何意义 三、基本积分公式及积分法则 四、牛顿—莱布尼兹公式 五、小结
第二节 微积分基本公式 1、问题的提出 2、积分上限函数及其导数 3、牛顿—莱布尼茨公式 4、小结.
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
第三节 协方差及相关系数 协方差 相关系数 课堂练习 小结 布置作业.
不确定度的传递与合成 间接测量结果不确定度的评估
第四节 一阶线性微分方程 线性微分方程 伯努利方程 小结、作业 1/17.
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
例1 :甲击中的环数; X :乙击中的环数; Y 平较高? 试问哪一个人的射击水 : 的射击水平由下表给出 甲、乙两人射击,他们
第二章 回归模型 法、参数的普通最小二乘估计式及相关性质、对模型的经济意 义检验和统计检验,能应用Eviews软件进行最小二乘估计与统
一元线性回归模型 § 1 回归分析概述 § 2 一元线性回归模型的参数估计 § 3 一元线性回归模型的统计检验
数学实验之 回归分析(1).
概 率 统 计 主讲教师 叶宏 山东大学数学院.
 做一做   阅读思考 .
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
回归分析.
计算机数学基础 主讲老师: 邓辉文.
第十章 方差分析.
2.1.2 空间中直线与直线 之间的位置关系.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 参数估计 7.3 参数的区间估计.
第一章 函数与极限.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
3.8.1 代数法计算终点误差 终点误差公式和终点误差图及其应用 3.8 酸碱滴定的终点误差
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第四章 一次函数 4. 一次函数的应用(第1课时).
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
用计算器开方.
成绩是怎么算出来的? 16级第一学期半期考试成绩 班级 姓名 语文 数学 英语 政治 历史 地理 物理 化学 生物 总分 1 张三1 115
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
第二节 函数的极限 一、函数极限的定义 二、函数极限的性质 三、小结 思考题.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第三节 函数的微分 3.1 微分的概念 3.2 微分的计算 3.3 微分的应用.
第四节 向量的乘积 一、两向量的数量积 二、两向量的向量积.
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
3.1回归分析的基本思想及其初步应用(四) 高二数学 选修2-3 第三章 统计案例.
数学模型实验课(二) 最小二乘法与直线拟合.
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
Presentation transcript:

从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从自然到社会,无一事物不处在与其他事物的联系之中 从浩瀚无垠的宇宙到微小的分子、原子,从无机界到有机界,从自然到社会,无一事物不处在与其他事物的联系之中.事物之间不仅存在着相互联系,而且还具有一定的内部规律.

让我们来看一下有联系的变量之间的关系: 例如, 矩形的面积S和矩形的两条边长a和b有关系: S=a.b a b S 又如著名的欧姆定律指出, 电压V、电阻R与电流I之间有关系: V=I. R

以上两例的共同点在于,三个量中任意两个已知,其余一个就可以完全确定. 也就是说,变量之间存在着确定性的关系,并且可以用数学表达式来表示这种关系. 然而,在大量的实际问题中,变量之间虽有某种关系,但这种关系很难找到一种精确的表示方法来描述.

例如,人的身高与体重之间有一定的关系,知道一个人的身高可以大致估计出他的体重,但并不能算出体重的精确值. 其原因在于人有较大的个体差异, 因而身高和体重的关系, 是既密切但又不能完全确定的函数关系.

类似的变量间的关系在大自然和社会中屡见不鲜. 例如,小麦的穗长与穗重的关系;某班学生最后一次考试分数与第一次考试分数的关系;温度、降雨量与农作物产量间的关系;人的年龄与血压的关系;最大积雪深度与灌溉面积间的关系;家庭收入与支出的关系等等.

这种大量存在的变量间既互相联系但又不是完全确定的关系,称为相关关系. 从数量的角度去研究这种关系,是数理统计的一个任务. 这包括通过观察和试验数据去判断变量之间有无关系,对其关系大小作出数量上的估计,对互有关系的变量通过其一去推断和预测其它,等等. 回归分析就是研究相关关系的一种重要的数理统计方法.

他发现: 虽然高个子的先代会有高个子的后代, 但后代的增高并不与先代的增高等量. 他称这一现象为“向平常高度的回归”. 回归这一术语是1886年英国生物学家高尔顿在研究遗传现象时引进的. 他发现: 虽然高个子的先代会有高个子的后代, 但后代的增高并不与先代的增高等量. 他称这一现象为“向平常高度的回归”.

尔后,他的朋友麦尔逊等人搜集了上千个家庭成员的身高数据: 分析出儿子的身高y和父亲的身高x大致为如下关系: y=0.516x+33.73 (英寸)

这意味着, 若父亲身高超过父亲平均身高6英寸, 那么其儿子的身高大约只超过儿子平均身高3英寸, 可见有向平均值返回的趋势. 诚然, 如今对回归这一概念的理解并不是高尔顿的原意, 但这一名词却一直沿用下来, 成为统计学中最常用的概念之一.

在回归分析中, 当变量只有两个时, 称为一元回归分析; 当变量在两个以上时, 称为多元回归分析 在回归分析中, 当变量只有两个时, 称为一元回归分析; 当变量在两个以上时, 称为多元回归分析. 变量间成线性关系, 称线性回归,变量间不具有线性关系, 称非线性回归. 一元回归 多元回归 线性 非线性

在这一讲里, 我们主要讨论的是一元线性回归. 它是处理两个变量之间关系的最简单的模型 在这一讲里, 我们主要讨论的是一元线性回归. 它是处理两个变量之间关系的最简单的模型. 它虽然比较简单, 但我们从中可以了解到回归分析的基本思想、方法和应用. 一元线性回归 一元线性回归 一元线性回归

设随机变量y与变量x之间存在着某种相关关系, 其中x是能够控制或可以精确测量的变量. 灌溉面积 产量 血压 体重 … 年龄 身高 施肥量 积雪深度 x … 为了今后研究方便, 我们把x当作普通变量, 而不把它看作随机变量.

对于x的一组不完全相同的值x1, x2,…,xn作独立观察, 得到随机变量y相应的观察值y1,y2, …,yn, 构成n对数据 对于x的一组不完全相同的值x1, x2,…,xn作独立观察, 得到随机变量y相应的观察值y1,y2, …,yn, 构成n对数据. 用这n对数据可作出一个散点图, 直观地描述一下两变量之间的关系. y x o · ··

这里有三幅散点图. y x o · ·· (1) o y x · (2) y x o · (3)

根据散点图, 考虑以下几个问题: (1)两变量之间的关系是否密切, 或者说我 们能否由x来估计y. (2)两变量之间的关系是呈一条直线还是呈某种曲线. (3)是否存在某个点偏离过大. (4)是否存在其它规律.

考虑采用线性方程拟合 以下重点讨论前者 采用非线性方程拟合 y x o · ·· (1) o y x · (2) y x o · (3) 以下重点讨论前者 采用非线性方程拟合

一元线性回归 让我们用一个例子来说明如何建立一元线性回归方程. 为了估计山上积雪融化后对下游灌溉的影响, 在山上建立了一个观测站, 测量了最大积雪深度x与当年灌溉面积 y, 得到连续10年的数据如下表:

年序 最大积雪深度x(米) 灌溉面积y(公顷) 1 5.1 1907 2 3.5 1287 3 7.1 2693 4 6.2 2373 5 8.8 3260 6 7.8 3000 7 4.5 1947 8 5.6 2273 9 8.0 3113 10 6.4 2493

为了研究这些数据中所蕴含的规律性, 我们由10对数据作出散点图. 为了研究这些数据中所蕴含的规律性, 我们由10对数据作出散点图. y x o 4000 3000 2000 1000 2 4 6 8 10 · 从图看到, 数据点大致落在一条直线附近, 这告诉我们变量x和y之间大致可看作线性关系. 从图中还看到, 这些点又不完全在一条直线上, 这表明x和y的关系并没有确切到给定x就可以唯一确定y的程度.

事实上, 还有许多其它因素对y产生影响,如当年的平均气温、当年的降雨量等等, 都是影响y取什么值的随机因素.

如果我们只研究x和y的关系, 可以假定有如下结构式: y =a+bx+ε 其中a和b是未知常数, 称回归系数, ε表示其它随机因素对灌溉面积的影响. 实际中常假定ε服从正态分布N(0,σ2), 即 未知

该式表示当x已知时,可以精确地算出E(y). 通常称 y=a+bx+ε, ε ~N(0, ) (1) 为一元线性回归模型. 由(1)式, 我们不难算得y的数学期望: E(y)=a+bx 该式表示当x已知时,可以精确地算出E(y). 由于ε是不可控制的随机因素,通常就用E(y)作为y的估计, 记作 . 这样我们得到 (2) 称此方程为y关于x的回归方程 .

现对模型(1)中的变量x , y进行了n次独立观察, 得样本 y=a+bx+ε, ε ~N(0, ) (1) 现对模型(1)中的变量x , y进行了n次独立观察, 得样本 (x1,y1),…,(xn,yn) (3) 据(1)式, 此样本的构造可由方程 , i=1,2, …,n (4) 这里 是第i次观察时随机误差所取的值,它是不能观察的. 来描述.

, i=1,2, …,n (4) 由于各次观察独立,有 i=1,2, …,n (5) (4)式和(5)式结合,给出了样本(x1,y1),…,(xn,yn) 的概率性质. 它是对理论模型进行统计分析推断的依据. 也常称(4)+(5)为一元线性回归模型.

由于此方程的建立有赖于通过观察或试验积累的数据, 所以有时又称其为经验回归方程或经验公式. 回归分析的任务是利用n组独立观察数据(x1,y1),…,(xn,yn)来估计a和b, 以估计值 和 分别代替(2)式中的a和b, 得回归方程 (6) 由于此方程的建立有赖于通过观察或试验积累的数据, 所以有时又称其为经验回归方程或经验公式. 那么要问,如何利用n组独立观察数据来估计a和b?

1.用最小二乘法估计a,b 首先举例说明最小二乘法的思想: 假设为估计某物体的重量, 对它进行了n次称量, 因称量有误差, 故n次称量结果x1, x2,…,xn有差异, 现在用数 去估计物重, 则它与上述n次称量结果的偏差的平方和是:

最小二乘法认为, 一个好的估计 , 应使这个平方和尽可能地小. 于是就提出了下面的估计原则: 寻找 ,使上述平方和达到最小,以这个 作为物重的估计值, 这就是最小二乘法. 用这种方法作出的估计叫最小二乘估计.

现在的情况是, 对(x,y)作了n次观察或试验, 得到n对数据, 我们想找一条直线 ,尽可能好地拟合这些数据. 由回归方程, 当x取值xi时, 应取值a+bxi , 而实际观察到的为 yi , 这样就形成了偏差 y x

依照最小二乘法的思想,提出目标量Q (7) y x 它是所有实测值yi与回归值 的偏差平方和.

我们可设法求出a , b的估计值 , ,使偏差平方和Q达到最小. (7) 我们可设法求出a , b的估计值 , ,使偏差平方和Q达到最小. y x

我们可设法求出a , b的估计值 , ,使偏差平方和Q达到最小. (7) 我们可设法求出a , b的估计值 , ,使偏差平方和Q达到最小. y x 由此得到的回归直线 是在所有直线中偏差平方和Q最小的一条.

通常可采用微积分中求极值的办法, 求出使Q达到最小的 , . (7) 通常可采用微积分中求极值的办法, 求出使Q达到最小的 , . 即解方程: (8) 得 其中

从而得到回归方程 按照上述准则,我们可求出前面例子中灌溉面积y对最大积雪深度x的回归方程是: 可以看出, 最大积雪深度每增加一个单位, 灌溉面积平均增加364个单位.

可以证明,我们用最小二乘法求出的估计 分别是 a, b 的无偏估计, 它们都是 y1,y2, …,yn的线性函数,而且在所有y1, y2 , …,yn的线性函数中, 最小二乘估计的方差最小.

因此在获得这样的回归方程后,通常要问这样的问题: 求出回归方程,问题尚未结束, 由于 是从观察得到的回归方程,它会随观察结果的不同改变,并且它只反映了由x的变化引起的y的变化,而没有包含误差项 . 因此在获得这样的回归方程后,通常要问这样的问题: (1)回归方程是否有意义? 即自变量x的变化是否真的对因变量y有影响? 因此,有必要对回归效果作出检验.

(1)回归方程是否有意义? 即自变量x的变化是否真的对因变量y有影响? 因此,有必要对回归效果作出检验. 下面我们来讨论这两个问题.

都可以用最小二乘法形式上求得 y 对 x的回归方程, 如果y 与x 没有线性相关关系, 这种形式的回归方程就没有意义 . 2.回归方程的显著性检验 对任意两个变量的一组观察 (xi, yi), i=1, 2, …, n 都可以用最小二乘法形式上求得 y 对 x的回归方程, 如果y 与x 没有线性相关关系, 这种形式的回归方程就没有意义 . 因此需要考察 y 与 x 间是否确有线性相关关系, 这就是回归效果的检验问题.

我们注意到 只反映了x对y的影响,所以回归值 就是yi中只受xi影响的那一部分, 而 则是除去 xi的影响后, 受其它种种因素影响的部分, 故将 称为残差.

于是观测值yi可以分解为两部分 和 , 并且 也可分解为两部分. 因此, y1, y2, …, yn 的总变差为 : (9)

可以证明 (10) 即 可以分解为两部分: 回归平方和 与残差平方和 .

(10) 反映了由于自变量x的变化引起的因变量 y 的差异,体现了x对y的影响; 而 反映了种种其它因素对y的影响, 这些因素没有反映在自变量中, 它们可作为随机因素看待.

可见, / 为x 的影响部分与随机因素影响部分的相对比值. 它的作用和随机因素的作用相当, 于是由数据得到的回归方程就没有什么意义.

可见, / 为x 的影响部分与随机因素影响部分的相对比值. 通常我们可假设y和x没有线性相关关系,对回归方程是否有意义进行显著性检验.

可以证明: 的关系式中b=0时, 有 当 (11) ~F(1,n-2) (12) 因此用 来检验b的绝对值是否显著大于0 (或者说检验回归方程 是否有意义).

给定显著性水平, 通过查F分布分位数表, 求出否定域, 便可判断回归方程是否有意义. 由上面的讨论可知, 要问回归方程是否有意义, 就是要检验假设 H0: b=0; H1: b≠0 使用的检验统计量为: ~F(1,n-2) 拒绝域为:

我们可以用更简单的公式计算回归平方和 与残差平方和 : (13) (14)

现在对例中建立的回归方程进行检验,可计算得: =3393025-3318355 =355.5 对α=0.01, 由F表查得 =11.26, 由于F> , 故回归方程有意义.

当检验认为回归方程确有意义. 则可用来进行予测或控制, 这也是建立回归方程的重要目的.

3.预测 对给定的x值,由回归方程 就可得 的值. 例如, 由灌溉面积y对最大积雪深度x的回归方程 当已知最大积雪深度为9.2米时, 就可以预测灌溉面积: =142+364×9.2=3489(公顷).

实际的y与预测的 不一定相等,重要的是它们的偏差有多大. 通常可假定 通过对σ的估计, 就知道 的取值范围. 已知有 即 所以

根据建立回归方程时算得的 ,可以算得 . 于是可以用 去估计标准差,记它为 , 即 (15) 用3倍标准差准则, 就有 (16) (17) 这样估计y的值落在区间[ ]内或[ ]内, 相应的概率分别为0.99和0.95.

可见, 利用回归方程 预测y, 可归结为,对给定的x,以一定的置信水平预测对应的y的观察值的取值范围,即所谓预测区间. 比如, 某一年测得最大积雪深度为9.2米, 根据 以99%的置信水平预测灌溉面积在3199公顷与3779公顷之间.

上面的方法中,由于 是估计值,上面两式只是近似式,在一些要求不高的问题中,这是可行的. 如要求出更为精确的值,可进一步查阅回归分析的书.

这一讲,我们介绍了一元线性回归. 通过一个例子说明如何建立一元线性回归方程. 介绍了有广泛应用的最小二乘法. 在建立回归方程后,需要对回归方程是否确有意义进行检验. 当检验认为回归方程确有意义. 则可用来进行予测或控制.

在有些情况下,可以进行适当的变量代换,把它线性化,这样就把一个非线性回归问题化为线性回归问题而得以解决. 在许多实际问题中,两个变量之间并不一定是线性关系,而是某种曲线关系,应该用曲线来拟合. 在有些情况下,可以进行适当的变量代换,把它线性化,这样就把一个非线性回归问题化为线性回归问题而得以解决. 请看演示 非线性回归问题