Presentation is loading. Please wait.

Presentation is loading. Please wait.

回归分析.

Similar presentations


Presentation on theme: "回归分析."— Presentation transcript:

1 回归分析

2 回归分析是数学建模的有力工具 由于客观事物内部规律的复杂及人们认识程度的限制,无法分析实际对象内在的因果关系;
人们关心的变量(因变量)受另外几个变量(自变量)的关联性(非因果性)的影响,并且存在众多随机因素,难以用机理分析方法找出它们之间的关系; 需要建立这些变量的数学模型,使得能够根据自变量的数值预测因变量的大小,或者解释因变量的变化。 血压与年龄 刹车距离与车速 薪金与资历、教育程度、工作岗位

3 内容提要 回归分析(Regression Analysis)简介 1. 实例及其数学模型 2. 一元线性回归分析 3. 多元线性回归分析
*4. 非线性回归分析 从应用角度介绍回归分析的基本原理、 方法和软件实现

4 回归(regression) 的由来 一般说来高个子的父代会有高个子的子代. 子代的身高比父代更加趋向一致(“向平庸的回归”) .
Francis Golton ( ) 一般说来高个子的父代会有高个子的子代. 子代的身高比父代更加趋向一致(“向平庸的回归”) . 儿子比父亲平均高1英寸 对于身高72英寸的父亲, 儿子身高多数不到73英寸; O 对于身高64英寸的父亲, 儿子身高多数超过65英寸; 回归直线 y=0.516 x+33.73 Pearson: 1078个父亲和儿子身高的散点图

5 实例及其数学模型 例1 血压与年龄 为了解血压随年龄增长而升高的关系,调查了30个成年人的血压(收缩压,mmHg)与年龄: 序号 血压 年龄
 实例及其数学模型 例1 血压与年龄 为了解血压随年龄增长而升高的关系,调查了30个成年人的血压(收缩压,mmHg)与年龄: 序号 血压 年龄 1 144 39 11 162 64 21 136 36 2 215 47 12 150 56 22 142 50 3 138 45 13 140 59 23 120 4 145 14 110 34 24 5 65 15 128 42 25 160 44 用这组数据确定血压与年龄的关系; 从年龄预测血压可能的变化范围; 回答 “平均说来60岁比50岁的人血压高多少”。

6 模型 记血压(因变量) y,年龄(自变量) x,作数 据 (i=1,2,30)的散点图 y与x大致呈线性关系 由数据确定系数 的估计值 从统计推断角度讨论β0 ,β1 的置信区间和假设检验; 对任意的年龄 x 给出血压 y 的预测区间。

7 回归分析的主要步骤 收集一组包含因变量和自变量的数据; 选定因变量与自变量之间的模型,利用数据按照最小二乘准则计算模型中的系数;
对不同的模型进行比较,找出与数据拟合得最好的模型; 判断得到的模型是否适合于这组数据, 诊断有无不适合回归模型的异常数据; 利用模型对因变量作出预测或解释。

8 例2 血压与年龄、体重指数、吸烟习惯 又调查了例1中30个成年人的体重指数、吸烟习惯: 体重指数: 体重(kg) /[身高(m)]2
例2 血压与年龄、体重指数、吸烟习惯 又调查了例1中30个成年人的体重指数、吸烟习惯: 体重 指数 1 144 39 24.2 11 162 64 28.0 21 136 36 25.0 2 215 47 31.1 12 150 56 25.8 22 142 50 26.2 3 138 45 22.6 13 140 59 27.3 23 120 23.5 4 145 24.0 14 110 34 20.1 24 20.3 5 65 25.9 15 128 42 21.7 25 160 44 27.1 体重指数: 体重(kg) /[身高(m)]2 吸烟习惯: 0~不吸烟,1~吸烟

9 模型 记血压 y,年龄x1 、体重指数x2 、吸烟习惯x3 作数据 y 对x2 的散点图 y与x2大致呈线性关系 由数据确定系数 的估计值

10 例3 软件开发人员的薪金 建立模型研究薪金与资历、管理责任、教育程度的关系, 分析人事策略的合理性,作为新聘用人员薪金的参考.
例3 软件开发人员的薪金 建立模型研究薪金与资历、管理责任、教育程度的关系, 分析人事策略的合理性,作为新聘用人员薪金的参考. 编号 薪金 资历 管理 教育 01 13876 1 02 11608 3 03 18701 04 11283 2 05 11767 42 27837 16 43 18838 44 17483 45 19207 17 46 19346 20 46名软件开发人员的档案资料 资历~ 从事专业工作的年数;管理~ 1=管理人员,0=非管理人员;教育~ 1=中学,2=大学,3=研究生

11 模型 y~ 薪金,x1 ~资历(年) x2 = 1~ 管理人员,x2 = 0~ 非管理人员 1=中学 2=大学 3=研究生 教育 中学:x3=1, x4=0 ;大学:x3=0, x4=1; 研究生:x3=0, x4=0 资历每加一年薪金的增长是常数; 管理、教育、资历之间无交互作用. 假设 线性回归模型 由数据确定

12 例4 酶促反应 酶~高效生物催化剂; 酶促反应~经过酶催化的化学反应 酶促反应的反应速度主要取决于反应物(底物)的浓度:
例4 酶促反应 酶~高效生物催化剂; 酶促反应~经过酶催化的化学反应 酶促反应的反应速度主要取决于反应物(底物)的浓度: 底物浓度较小时,反应速度大致与浓度成正比; 底物浓度很大、渐进饱和时,反应速度趋于固定值. x y Michaelis-Menten模型 1 1/2 2 y ~ 酶促反应的速度, x ~底物浓度 待定系数 1 (最终反应速度) 2 (半速度点)

13 例4 酶促反应 为研究酶促反应中嘌呤霉素对反应速度与底物浓度之间关系的影响, 设计了两个实验 :使用的酶经过嘌呤霉素处理; 使用的酶未经嘌呤霉素处理。 实验数据 底物浓度(ppm) 0.02 0.06 0.11 0.22 0.56 1.10 反应速度 处理 76 47 97 107 123 139 159 152 191 201 207 200 未处理 67 51 84 86 98 115 131 124 144 158 160 / 对未经嘌呤霉素处理的反应,用实验数据估计参数1, 2; 用实验数据研究嘌呤霉素处理对参数1, 2的影响。

14 模型 对1 , 2非线性 对1, 2线性 1/x较小时有很好的线性趋势,1/x较大时出现很大的分散. 1=143.43,  2=0.0308 1=6.97210-3, 2=0.21510-3 x较大时,y有较大偏差. 参数估计时,x较小(1/x很大)的数据控制了参数的确定. 直接考虑非线性模型

15 一元线性回归分析 已知一组数据(xi, yi), i=1,2,n (平面上的n个点), 用最小二乘准则确定一个线性函数(直线) 问题
1. 血压与年龄 2. 合金强度与碳含量 系数的计算二者没有什么区别; 2的拟合效果比1好得多. 怎样衡量由最小二乘准则拟合得到的模型的可靠程度? 怎样给出模型系数的置信区间和因变量的预测区间?

16 一元线性回归模型 x~自变量 ~回归系数 ~随机变量(影响y的随机因素的总和) 基本假设 独立性: 对于不同的x,y相互独立
yn y2 y1 xn x2 x1 x y 基本假设 独立性: 对于不同的x,y相互独立 线性性: y的期望是x的线性函数 齐次性: 对于不同的x,y的方差是常数 正态性: 对于给定的x,y服从正态分布  是相互独立的、期望为0、方差为2、正态分布的随机变量,即 ~N (0, 2),  称(随机)误差。

17 回归系数的最小二乘估计 数据xi, yi( i=1,n)代入 误差平方和 直线 通过xi, yi的均值点 最小二乘估计

18 一元线性回归的统计分析 1.误差方差D =2 的估计 2的无偏估计 yi理论值(期望)的估计 误差i的估计,称残差(记作ei )
残差平方和 2的无偏估计 s2~剩余方差(样本方差),s~剩余标准差(样本标准差)

19 一元线性回归的统计分析 2. 回归系数的区间估计和假设检验 t 分布 对1的假设检验 回归模型有效 1的置信区间不包含零点 拒绝H0
统计性质: 和Q相互独立 t 分布 1的置信区间 对1的假设检验 回归模型有效 1的置信区间不包含零点 拒绝H0

20 一元线性回归的统计分析 3.模型的有效性检验 偏差的分解: S U Q = + 总偏差平方和 回归平方和 残差平方和 决定系数
= 总偏差平方和 回归平方和 残差平方和 决定系数 因变量的总变化中自变量引起的部分的比例 若H0成立 回归模型有效 拒绝H0 给定 ,有F(1,n-2), 1- F > F(1,n-2), 1-

21 利用一元线性回归模型进行预测 x0给定, y0的预测值: 性质: 无偏, 且 最小 预测区间 s~剩余标准差 x y n很大且 x0接近

22 一元线性回归的MATLAB实现 b=regress(y,X) [b,bint,r,rint,s]=regress(y,X,alpha)
s(4个统计量):决定系数R2; F值; F(1,n-2)分布大于F值的 概率p;剩余方差s^2. 当p< 时拒绝H0,回归模型有效.

23 1置信区间不含零点;p<;F(1,n-2), 1- = 4.1960< F 模型检验
例1 血压与年龄 模型 数据 回归系数 回归系数估计值 回归系数置信区间 0 [ ] 1 0.9732 [ ] R2=0.4540, F= , p<0.0001, s2 = 1置信区间不含零点;p<;F(1,n-2), 1- = < F 模型检验 1置信区间较长,R2较小,模型精度不高. 由残差图剔除异常数据后 回归系数 回归系数估计值 回归系数置信区间 0 [ ] 1 0.9533 [ ] R2= , F= , p<0.0001, s2 =

24 例1 血压与年龄 模型 剔除异常点 (x2, y2) 又出现两个新的异常点. 对50岁人的血压进行预测: 预测区间 (=0.05) :
例1 血压与年龄 模型 o o 剔除异常点 (x2, y2) 又出现两个新的异常点. 对50岁人的血压进行预测: 预测区间 (=0.05) : [ ] 简化 (tu) : [ ]

25 多元线性回归分析 模型 估计回归系数 最小二乘估计 思考 怎样保证 XTX可逆 为什么要求 n>m

26 多元线性回归的统计分析 误差方差2 的估计 一元回归 多元回归 模型 估计值 残差 残差 平方和 剩余方差 Q的自由度
n-2 (2个参数) n-(m+1) (m+1个参数)

27 2. 回归系数的区间估计和假设检验 一元回归 多元回归 的j 对角元 拒绝H0, 模型有效

28 3. 模型的有效性检验 一元回归 多元回归 偏差分解 决定系数 H0成立 F > F(1,n-2), 1- 检验
F(m, n-m-1), 1- 拒绝H0, 模型有效

29 利用多元线性回归模型进行预测 性质: 无偏, 且 最小 预测区间 与一元回归对比

30 多元线性回归的MATLAB实现 b=regress(y,X) [b,bint,r,rint,s]=regress(y,X,alpha)
与一元回归相同 例2 血压与年龄、体重指数、吸烟习惯 剔除两个异常点后 年龄和体重指数相同,吸烟者比不吸烟者的血压(平均)高10. 3 与例1 “血压与年龄”的结果 相比, 年龄增加1岁血压的升高值(即1)为何有这么大的差别?

31 线性最小二乘拟合与多元线性回归的一般形式
线性回归模型 “线性”是指y是系数 的关系(非指y与x的关系) ~ 线性回归 线性回归一般形式 是已知函数 令rj(x)=xj, 则(2)→(1)

32 线性回归的特殊情形----多项式回归 例1 西红柿的施肥量与产量 14块同样大小土地的数据 模型 b=regress(y,X)求解 序号
例1 西红柿的施肥量与产量 14块同样大小土地的数据 序号 产量(升) 施肥(千克) 1 1035 6.0 2 624 2.5 12 1030 9.0 3 1084 7.5 13 985 11.0 14 855 12.5 模型 b=regress(y,X)求解

33 一元多项式回归模型的一般形式 MATLAB求解 polyfit(x,y,m) polytool(x,y,m,alpha) 例1的交互式画面
注意3个程序的用法与所得结果的相同点和不同点

34 非线性回归分析 非线性最小二乘拟合 f对非线性 已知模型 观测数据 误差平方和 非线性回归 回归系数 的最小二乘估计
非线性回归可以对非线性最小二乘拟合结果作统计分析

35 MATLAB中的非线性回归 [b,R,J]=nlinfit(x,y,’model’,b0) x~自变量数据矩阵(每列一个变量) , y~因变量向量, Model~模型的函数名, m文件: y =f(b,x),b为待估系数, b0~回归系数 的初值. 输出:b~的估计,R~残差,J~估计误差的Jacobi矩阵 bi=nlparci(b,R,J) 回归系数的置信区间 nlintool(x,y,'model',b) 一个交互式画面 (内容和用法与多项式回归的Polytool类似)


Download ppt "回归分析."

Similar presentations


Ads by Google