工程数学 第22讲 本文件可从网址 http://math.vip.sina.com 上下载 (单击ppt讲义后选择'工程数学'子目录)

Slides:



Advertisements
Similar presentations
一、 一阶线性微分方程及其解法 二、 一阶线性微分方程的简单应用 三、 小结及作业 §6.2 一阶线性微分方程.
Advertisements

2.8 函数的微分 1 微分的定义 2 微分的几何意义 3 微分公式与微分运算法则 4 微分在近似计算中的应用.
第八章 第四节 机动 目录 上页 下页 返回 结束 一个方程所确定的隐函数 及其导数 隐函数的微分法.
2.6 隐函数微分法 第二章 第二章 二、高阶导数 一、隐式定义的函数 三、可微函数的有理幂. 一、隐函数的导数 若由方程 可确定 y 是 x 的函数, 由 表示的函数, 称为显函数. 例如, 可确定显函数 可确定 y 是 x 的函数, 但此隐函数不能显化. 函数为隐函数. 则称此 隐函数求导方法.
5.4 微 分 一、微分概念 二、微分的运算法则与公式 三、微分在近似计算上的应用. 引例 一块正方形金属片受热后其边长 x 由 x 0 变到 x 0  x  考查此薄片的面积 A 的改变情况  因为 A  x 2  所以金属片面 积的改变量为  A  (x 0 
第二章 导数与微分. 二、 微分的几何意义 三、微分在近似计算中的应用 一、 微分的定义 2.3 微 分.
§3.4 空间直线的方程.
3.4 空间直线的方程.
第六章 回归分析.
第六章 样本及抽样分布 简单随机抽样: 代表性: 中每一个与所考察的总 体有相同的分布。 2.独立性: 是相互独立的随机变量。
第十章 相关与回归分析 PowerPoint 统计学.
圆的一般方程 (x-a)2 +(y-b)2=r2 x2+y2+Dx+Ey+F=0 Ax2+Bxy+Cy2+Dx+Ey+ F=0.
第五章 二次型. 第五章 二次型 知识点1---二次型及其矩阵表示 二次型的基本概念 1. 线性变换与合同矩阵 2.
一、能线性化的多元非线性回归 二、多元多项式回归(线性化)
一、二阶行列式的引入 用消元法解二元线性方程组. 一、二阶行列式的引入 用消元法解二元线性方程组.
第三章 函数逼近 — 最佳平方逼近.
6.6 单侧置信限 1、问题的引入 2、基本概念 3、典型例题 4、小结.
第一章 行列式 第五节 Cramer定理 设含有n 个未知量的n个方程构成的线性方程组为 (Ⅰ) 由未知数的系数组成的n阶行列式
第四章 函数的积分学 第六节 微积分的基本公式 一、变上限定积分 二、微积分的基本公式.
§5.3 定积分的换元法 和分部积分法 一、 定积分的换元法 二、 定积分的分部积分法 三、 小结、作业.
第5章 定积分及其应用 基本要求 5.1 定积分的概念与性质 5.2 微积分基本公式 5.3 定积分的换元积分法与分部积分法
主要内容 § 3.1 多维随机变量及联合分布 联合分布函里数 联合分布律 联合概率密度 § 3.2 二维随机变量的边缘分布
不确定度的传递与合成 间接测量结果不确定度的评估
第三节 格林公式及其应用(2) 一、曲线积分与路径无关的定义 二、曲线积分与路径无关的条件 三、二元函数的全微分的求积 四、小结.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2-7、函数的微分 教学要求 教学要点.
§5 微分及其应用 一、微分的概念 实例:正方形金属薄片受热后面积的改变量..
2.3 变量间的相关关系 变量之间的相关关系 两个变量的线性相关 第二课时.
第5章 §5.3 定积分的积分法 换元积分法 不定积分 分部积分法 换元积分法 定积分 分部积分法.
第三章 多维随机变量及其分布 §2 边缘分布 边缘分布函数 边缘分布律 边缘概率密度.
数学实验之 回归分析(1).
第十四章 数理统计方法 §14.1 数理统计的基本概念 §14.2 参数的点估计 §14.3 区间估计 §14.4 回归分析 返回.
第2章 一元线性回归 2 .1 一元线性回归模型 2 .2 参数 的估计 2 .3 最小二乘估计的性质 2 .4 回归方程的显著性检验
计算机数学基础 主讲老师: 邓辉文.
§2 求导法则 2.1 求导数的四则运算法则 下面分三部分加以证明, 并同时给出相应的推论和例题 .
第十章 方差分析.
统 计 学 (第三版) 2008 作者 贾俊平 统计学.
第七章 参数估计 7.3 参数的区间估计.
若2002年我国国民生产总值为 亿元,如果 ,那么经过多少年国民生产总值 每年平均增长 是2002年时的2倍? 解:设经过 年国民生产总值为2002年时的2倍, 根据题意有 , 即.
习题 一、概率论 1.已知随机事件A,B,C满足 在下列三种情况下,计算 (1)A,B,C相互独立 (2)A,B独立,A,C互不相容
抽样和抽样分布 基本计算 Sampling & Sampling distribution
9.1 简单线性相关分析 9.2 一元线性回归分析 9.3 多元线性回归与复相关分析 9.4 变量间非线性关系的回归
概 率 统 计 主讲教师 叶宏 山东大学数学院.
5.2 常用统计分布 一、常见分布 二、概率分布的分位数 三、小结.
§1体积求法 一、旋转体的体积 二、平行截面面积为已知的立体的体积 三、小结.
第十章 双线性型 Bilinear Form 厦门大学数学科学学院 网址: gdjpkc.xmu.edu.cn
正切函数的图象和性质 周期函数定义: 一般地,对于函数 (x),如果存在一个非零常数T,使得当x取定义域内的每一个值时,都有
§6.7 子空间的直和 一、直和的定义 二、直和的判定 三、多个子空间的直和.
3.1 变化率与导数   3.1.1 变化率问题 3.1.2 导数的概念.
相关与回归 非确定关系 在宏观上存在关系,但并未精确到可以用函数关系来表达。青少年身高与年龄,体重与体表面积 非确定关系:
概 率 统 计 主讲教师 叶宏 山东大学数学院.
第三章 函数的微分学 第二节 导数的四则运算法则 一、导数的四则运算 二、偏导数的求法.
4) 若A可逆,则 也可逆, 证明: 所以.
学习任务三 偏导数 结合一元函数的导数学习二元函数的偏导数是非常有用的. 要求了解二元函数的偏导数的定义, 掌握二元函数偏导数的计算.
两个变量的线性相关 琼海市嘉积中学 梅小青.
第15讲 特征值与特征向量的性质 主要内容:特征值与特征向量的性质.
数据统计与分析 秦 猛 南京大学物理系 第11讲 办公室:唐仲英楼A
§5.2 抽样分布   确定统计量的分布——抽样分布,是数理统计的基本问题之一.采用求随机向量的函数的分布的方法可得到抽样分布.由于样本容量一般不止2或 3(甚至还可能是随机的),故计算往往很复杂,有时还需要特殊技巧或特殊工具.   由于正态总体是最常见的总体,故本节介绍的几个抽样分布均对正态总体而言.
概率论与数理统计B.
正弦、余弦函数的性质 华容一中 伍立华 2017年2月24日.
§2 方阵的特征值与特征向量.
第三节 随机区组设计的方差分析 随机区组设计资料的总平方和可以分解为三项: (10.10).
第十五讲 区间估计 本次课讲完区间估计并开始讲授假设检验部分 下次课结束假设检验,并进行全书复习 本次课程后完成作业的后两部分
第三章 从概率分布函数的抽样 (Sampling from Probability Distribution Functions)
3.1回归分析的基本思想及其初步应用(四) 高二数学 选修2-3 第三章 统计案例.
数学模型实验课(二) 最小二乘法与直线拟合.
第三章 线性方程组 §4 n维向量及其线性相关性(续7)
一元一次方程的解法(-).
§2 自由代数 定义19.7:设X是集合,G是一个T-代数,为X到G的函数,若对每个T-代数A和X到A的函数,都存在唯一的G到A的同态映射,使得=,则称G(更严格的说是(G,))是生成集X上的自由T-代数。X中的元素称为生成元。 A变, 变 变, 也变 对给定的 和A,是唯一的.
3.3.2 两点间的距离 山东省临沂第一中学.
Presentation transcript:

工程数学 第22讲 本文件可从网址 http://math.vip.sina.com 上下载 (单击ppt讲义后选择'工程数学'子目录)

§3 一元线性回归

在客观世界中普遍存在着变量之间的关系. 变量之间的关系一般来说可分为确定性的与非确定性的两种 在客观世界中普遍存在着变量之间的关系. 变量之间的关系一般来说可分为确定性的与非确定性的两种. 确定性关系是指变量之间的关系可以用函数关系来表达的. 另一种非确定性的关系即所谓相关关系. 例如人的身高与体重之间存在着关系, 一般来说, 人高一些, 体重要重一些, 但同样高度的人, 体重往往不相同. 人的血压与年龄之间也存在着关系, 但同年龄的人的血压往往不同. 这些变量关系都是非确定性的. 回归分析是研究相关关系的一种数学工具. 能够帮助我们从一个变量取得的值估计另一变量所取的值.

(一)一元线性回归 设随机变量Y与x之间存在着某种相关关系 (一)一元线性回归 设随机变量Y与x之间存在着某种相关关系. 这里, x是可以控制或可以精确观察的变量, 如年龄, 试验时的温度, 施加的压力, 电压与时间等等. 即可以随意指定n个值x1,x2,...,xn. 因此干脆不把x看成随机变量, 而将它当作普通的变量. 若Y的数学期望E(Y)存在, 其值随x的取值而定, 是x的函数, 将此函数记为mY|x 或 m(x), 称为Y关于x的回归函数, 讨论E(Y)=m(x)与x的函数关系.

对x取定一组不完全相同的值x1,x2,. ,xn, 设Y1,Y2,. ,Yn分别是在x1,x2,. ,xn处对Y的独立观察的结果, 称 对x取定一组不完全相同的值x1,x2,...,xn, 设Y1,Y2,...,Yn分别是在x1,x2,...,xn处对Y的独立观察的结果, 称 (x1,Y1),(x2,Y2),...,(xn,Yn) (3.1) 是一个样本, 对应的样本值记为 (x1,y1),(x2,y2),...,(xn,Yn). 现希望知道m(x)的形式, 在一些问题中, 可由专业知识知道, 否则, 可将每对观察值(xi,yi)在直角坐标系中描出它的相应的点, 这种图称为散点图.

例1 为研究某一化学反应过程中, 温度x(°C)对产品得率Y(%)的影响, 测得数据如下. 100 110 120 130 140 150 160 170 180 190 得率Y(%) 45 51 54 61 66 70 74 78 85 89

这里自变量x是普通变量, Y是随机变量. 由散点图大致看出m(x)具有线性函数a+bx的形式. 设Y关于x的回归函数为m(x) 这里自变量x是普通变量, Y是随机变量. 由散点图大致看出m(x)具有线性函数a+bx的形式. 设Y关于x的回归函数为m(x). 利用样本来估计m(x)的问题称为求Y关于x的回归问题. 特别, 若m(x)为线性函数: m(x)=a+bx, 此时估计m(x)的问题称为求一元线性回归问题.

假设对于x(在某个区间内)的每个值有. Y~N(a+bx, s2), 其中a,b及s2都是不依赖于x的未知参数 假设对于x(在某个区间内)的每个值有 Y~N(a+bx, s2), 其中a,b及s2都是不依赖于x的未知参数. 记e=Y-(a+bx), 对Y作这样的正态假设, 相当于假设 Y=a+bx+e, e~N(0,s2), (3.2) 其中未知参数a,b及s2都不依赖于x. (3.2)称为一元线性回归模型, 其中b称为回归系数. 则Y由两部分组成, 一部分是x的线性函数a+bx, 另一部分e~N(0,s2)是随机误差, 是人们不可控制的.

(二)a,b的估计 取x的n个不全相同的值x1,x2,. ,xn作独立试验, 得到样本(x1,Y1),(x2,Y2),. ,(xn,Yn) (二)a,b的估计 取x的n个不全相同的值x1,x2,...,xn作独立试验, 得到样本(x1,Y1),(x2,Y2),...,(xn,Yn). 由(3.2)式 Yi=a+bxi+ei, ei~N(0,s2), 各ei相互独立, (3,3) 于是Yi~N(a+bxi,s2), i=1,2,...,n. 由Y1,Y2,...,Yn的独立性知Y1,Y2,...,Yn的联合密度为

现用最大似然估计法来估计未知参数a,b. 对于任意一组观察值y1,y2,. ,yn, (3. 4)式就是样本的似然函数 现用最大似然估计法来估计未知参数a,b. 对于任意一组观察值y1,y2,...,yn, (3.4)式就是样本的似然函数. 显然, 要L取最大值, 只要(3.4)右端方括弧中的平方和部分为最小, 即只需 取最小值. 令Q关于a,b的偏导数等于零:

得方程组 (3.7)式称为正规方程组.

由于xi不全相同, 正规方程组的系数行列式 故(3.7)有唯一的一组解.

解得b,a的最大似然估计值为

称为Y关于x的经验回归方程, 简称回归方程, 其图形称为回归直线.

今后将视方便而使用(3.9)或(3.10).

为了计算上的方便, 引入下述记号:

这样a,b的估计值可写成

例2(续例1) 设在例1中的随机变量Y符合(3. 2)所述的条件, 求Y关于x的线性回归方程. 解 现在n=10, 所需计算列表如下(表9 xy 100 45 10000 2025 4500 110 51 12100 2601 5610 120 54 14400 2916 6480 130 61 16900 3721 7930 140 66 19600 4356 9240 150 70 22500 4900 10500 160 74 25600 5476 11840 170 78 28900 6084 13260 180 85 32400 7225 15300 190 89 36100 7921 16910  1450 673 218500 47225 101570

于是得到回归直线方程

(三)s2的估计 由(3.2), E{[Y-(a+bx)]2}=E(e2)=D(e)+[E(e)]2=s2 这表示s2愈小, 以回归函数m(x)=a+bx作为Y的近似导致的均方误差就愈小. 这样, 利用回归函数m(x)=a+bx去研究随机变量Y与x的关系就愈有效. 然而s2是未知的, 因而需要利用样本去估计s2.

为了计算Qe, 将Qe作如下分解:

可以证明, 作为统计量的残差平方和Qe服从分布 即知E(Qe/(n-2))=s2. 这样就得到了s2的无偏估计量:

例3(续例2) 求例2中s2的无偏估计. 解 由表9.17, 得

(四)线性假设的显著性检验 在以上的讨论中, 我们假定了关于x的回归m(x)具有形式a+bx, 在处理实际问题时, m(x)是否为x的线性函数, 首先要根据有关专业知识和实践来判断, 其次要根据实际观察得到的数据运用假设检验的方法来判断. 这就是说, 求得的线性回归方程是否具有实用价值, 一般来说, 需要经过假设检验才能确定. 若线性假设(3.2)符合实际, 则b不应为零, 因为若b=0, 则E(Y)=m(x)就不依赖于x了.

因此需要检验假设 H0: b=0, H1: b0. (3.19) 使用t检验法来进行检验. 可以证明: 又由(3.17),(3.18)知

故有

当H0为真时b=0, 此时 此处a为显著性水平.

当假设H0:b=0被拒绝时, 认为回归效果是显著的, 反之, 就认为回归效果不显著 当假设H0:b=0被拒绝时, 认为回归效果是显著的, 反之, 就认为回归效果不显著. 回归效果不显著的原因可能有如下几种: 1,影响Y取值的,除x及随机误差外还要其它不可忽略的因素. 2,E(Y)与x的关系不是线性的,而存在着其它的关系. 3,Y与x不存在关系. 因此需要进一步分析原因, 分别处理.

例4(续例2) 检验例2中的回归效果是否显著, 取a=0. 05. 解 由例2, 例3已知 Sxx=8250, 查表得t0 例4(续例2) 检验例2中的回归效果是否显著, 取a=0.05. 解 由例2, 例3已知 Sxx=8250, 查表得t0.05/2(n-2)=t0.025(8)=2.3060. 由(3.24), 假设H0:b=0的拒绝域为 故拒绝H0:b=0, 认为回归效果是显著的.

(五)系数b的置信区间 当回归效果显著时, 常需要对系数b作区间估计. 可由(3.22)式得到b的置信水平为1-a的置信区间为

(六)回归函数m(x)=a+bx函数值的点估计和置信区间 设x0是自变量x的某一指定值, 由(3.9)

下面求m(x0)=a+bx0的置信区间. 由本章附录3知 又由(3.17)(3.18)知

且由本章附录6知

于是得到m(x0)=a+bx0的置信水平为1-a的置信区间为

(七)Y的观察值的点预测和预测区间 若对指定点x=x0处因变量Y的观察值Y0感兴趣, 然而我们在x=x0处并未进行观察或者暂时无法观察 (七)Y的观察值的点预测和预测区间 若对指定点x=x0处因变量Y的观察值Y0感兴趣, 然而我们在x=x0处并未进行观察或者暂时无法观察. 经验回归函数的一个重要应用是, 可利用它对因变量Y的新观察值Y0进行点预测或区间预测.

若Y0是x=x0处对Y的观测结果, 由(3. 2)知它满足. Y0=a+bx0+e0, e0~N(0,s2). (3 若Y0是x=x0处对Y的观测结果, 由(3.2)知它满足 Y0=a+bx0+e0, e0~N(0,s2). (3.30) 随机误差e0可正也可负, 其值无法预料, 就用x0处的经验回归函数值 作为Y0=a+bx0+e0的点预测. 下面求Y0的预测区间.

因Y0是将要做的一次独立试验的结果, 因此它与已经得到的试验的结果Y1,Y2,...,Yn相互独立.

再由(3.28),(3.31)及 即

于是对于给定的置信水平1-a有 或

称为Y0的置信水平为1-a的预测区间.

这一预测区间的长度是x0的函数, 它随|x0 -`x|的增加而增加. 当x0 =`x时为最短. 将(3. 32)与(3 这一预测区间的长度是x0的函数, 它随|x0 -`x|的增加而增加. 当x0 =`x时为最短. 将(3.32)与(3.29)比较, 知道在相同的置信水平下, 回归函数值m(x0)的置信区间要比Y0的预测区间要短. 这是因为Y0=a+bx+e0比m(x0)=a+bx0多了一项e的缘故.

例5(续例2) (1)求回归函数m(x)在x=125处的值m(125)的置信水平为0 例5(续例2) (1)求回归函数m(x)在x=125处的值m(125)的置信水平为0.95的置信区间, 求在x=125处Y的新观察值Y0的置信水平为0.95的预测区间; (2)求在x=x0处Y的新观察值Y0的置信水平为0.95预测区间. 解 (1) 由例2, 例3已知

得m(125)的0.95置信区间为(57.640.84) 得x0=125处Y0的0.95预测区间为 (57.642.34)

(2) 在x=x0处Y的新观察值Y0的置信水平为0.95的预测区间为

分别将这些区间的下端点和上端点连起来, 得到曲线L1和L2, 回归直线位于L1,L2所围成的带域中心线上.

(八)可化为一元线性回归的例子 在实际中常会遇到更为复杂的回归问题, 但在某些情况下, 可以通过适当的变量变换, 化成一元线性回归来处理 (八)可化为一元线性回归的例子 在实际中常会遇到更为复杂的回归问题, 但在某些情况下, 可以通过适当的变量变换, 化成一元线性回归来处理. 下面介绍几种常见的可转化为一元线性回归的模型. 1, Y=aebxe, lne~N(0,s2), (3.33) 其中a,b,s2是与x无关的未知参数. 将Y=aebxe两边取对数, 得 lnY=lna+bx+lne. 令lnY=Y',lna=a, b=b, x=x', lne=e', (3.33)式变为一元线性回归模型: Y'=a+bx'+e', e'~N(0,s2). (3.34)

2, Y=axbe, lne~N(0,s2),. (3. 35) 其中a,b,s2是与x无关的未知参数 2, Y=axbe, lne~N(0,s2), (3.35) 其中a,b,s2是与x无关的未知参数. 将Y=axbe两边取对数, 得 lnY=lna+blnx+lne. 令lnY=Y', lna=a, b=b, lnx=x', lne=e', (3.35)可转化为一元线性回归模型: Y'=a+bx'+e', e'~N(0,s2). (3.36) 3, Y=a+bh(x)+e, e~N(0,s2). (3.37) 其中a,b,s2是与x无关的未知参数. h(x)是x的已知函数, 令a=a, b=b, h(x)=x', (3.37)可转化为一元线性回归模型: Y=a+bx'+e, e~N(0, s2). (3.38)

若在原模型下, 例如在模型(3. 37)下, 对于(x,Y)有样本(x1,y1),(x2,y2),. ,(xn,yn)就相当于在新模型(3 若在原模型下, 例如在模型(3.37)下, 对于(x,Y)有样本(x1,y1),(x2,y2),...,(xn,yn)就相当于在新模型(3.38)下有样本(x1',y1),(x2',y2),...,(xn',yn). 其中xi'=h(xi), 于是就能利用上节的方法来估计a,b或对b作假设检验, 或对Y进行预测. 在得到Y关于x'的回归方程后, 再将原自变量x代回, 就得到Y关于x的回归方程, 它的图形是一条曲线, 也称为曲线回归方程.

例6 表9. 18是1957年美国旧轿车价格的调查资料, 今以x表示轿车的使用年数, Y表示相应的平均价格, 求Y关于x的回归方程. 表9

解 从散点图看Y与x呈指数关系, 于是采用模型(3. 33), 即Y=aebxe, lne~N(0,s2), 经变量变换后就转化为(3 解 从散点图看Y与x呈指数关系, 于是采用模型(3.33), 即Y=aebxe, lne~N(0,s2), 经变量变换后就转化为(3.34). Y'=a+bx'+e', e'~N(0,s2), 其中lnY=Y',lna=a, b=b, x=x', lne=e', 数据经变换后得到

经计算得 即知线性回归的效果是高度显著的. 代回原变量, 得曲线回归方程:

§4 多元线性回归

在实际问题中, 随机变量Y往往与多个普通变量x1,x2,. ,xp(p>1)有关. 对于自变量x1,x2, 在实际问题中, 随机变量Y往往与多个普通变量x1,x2,...,xp(p>1)有关. 对于自变量x1,x2,...,xp的一组确定的值, Y有它的分布. 若Y的数学期望存在, 则它是x1,x2,...,xp的函数, 记为m(x1,x2,...,xp), 它就是Y关于x的回归函数. 我们感兴趣的是m(x1,x2,...,xp)是x1,x2,...,xp的线性函数的情况, 仅讨论下述多元线性回归模型: Y=b0+b1x1+...+bpxp+e, e~N(0,s2), (4.1) 其中b0,b1,...,bp,s2都是与x1,x2,...,xp无关的未知参数.

设 (x11,x12,. ,x1p,y1),. ,(xn1,xn2,. ,xnp,yn). (4. 2) 是一个样本 达到最小.

求Q分别关于b0,b1,...,bp的偏导数, 并令它们等于零, 得 化简(4.4)式得

(4.5)式称为正规方程组.

为了求解的方便, 将上式写成矩阵形式, 为此, 引入矩阵: (4.5)式可写成 X'XB=X'Y, (4.5)' 这就是正规方程组的矩阵形式.

在(4.5)'式两边左乘X'X的逆阵(X'X)-1(设(X'X)-1存在)得到(4.5)'的解 这就是我们要求的(b0,b1,...,bp)'的最大似然估计.

作为m(x1,x2,...,xp)=b0+b1x1+...+bpxp的估计, 方程

作业 第九章习题 第325页 第6题

请提问