数学实验之 回归分析(1)
第一讲:一元线性与非线性回归分析 MATLAB软件实现 一元回归模型与回归分析 引例:钢材消费量与国民收入的关系 实验 简介一元 非线性回归模型 MATLAB软件实现 一元回归模型与回归分析 引例:钢材消费量与国民收入的关系
引例:钢材消费量与国民收入的关系 为了研究钢材消费量与国民收入之间的关系,在统计年鉴上查得一组历史数据。 年 份 1964 1965 年 份 1964 1965 1966 …… 1978 1979 1980 消费(吨) 698 872 988 1446 2736 2825 收入(亿) 1097 1284 1502 2948 3155 3372 试分析预测若1981年到1985年我国国民收入以4.5%的速度递增,钢材消费量将达到什么样的水平?
问题分析: 钢材消费量--------试验指标(因变量)Y; 国民收入-----------自变量 x; 建立数据拟合函数 y = E(Y | x)= f(x); 作拟合曲线图形分析。
y=a+bx 钢材消费量y与国民收入x的散点图
. · 回归分析是研究变量间相关关系的一种统计分析。 特点:试验指标(因变量)是随机变量。 图形解释:y = E(Y | x)= f(x) 假设:f(x) = ax+b x x0 E(Y|x0) y . x1 E(Y|x1) ·
假设: (y = E(Y | x)= f(x)) 1)Y是一个正态随机变量,即Y服从正态分 布,并且有方差 D(Y)=σ2。 2)根据观测值作的散点图,观察出函数f(x) 是线性形式还是非线性形式。
回归模型及回归分析 知识介绍 1、一元线性回归模型 需要解决的问题: 1) 在回归模型中如何估计参数a、b和σ2? 或 需要解决的问题: 1) 在回归模型中如何估计参数a、b和σ2? 2) 模型的假设是否正确?需要检验。 3)利用回归方程对试验指标y进行预测或控制?
参数估计 设观测值为(xi, yi)(i=1,2,…,n), 代入模型中,yi = a + bxi +εi 最小二乘法: 解出的参数记为 则回归方程:
· 回归模型的假设检验 模型:Y = a + bx +ε 提出问题: 1、相关系数检验 H0的拒绝域为: | r |≤1 ( ) -1 1 | · rα(n-2) -rα(n-2) H0的拒绝域为:
2、F-检验法 平方和分解公式: 实测值 估计值 记为 残差值,剩余平方和,越小越好 认为线性回归效果好
预测与控制 给定的自变量x0,给出E(y0)的点估计量: y0的置信度为(1)%的预测区间为: 设y在某个区间(y1, y2)取值时, 应如何控制x的取值范围, 这样的问题称为控制问题。
小结: 模型 1、估计参数a,b,σ2; 2、检验模型正确与否;(即b→0) 3、预测或控制; 或 已知数据(xi, yi)(i =1,2,…,n), 如何利用MATLAB软件实现以上的统计计算?
[b, bint, r, rint, stats] = regress(Y, X, alpha) MATLAB软件实现 使用命令regress实现一元线性回归模型的计算 默认值是0.05 b = regress (Y, X) 或 [b, bint, r, rint, stats] = regress(Y, X, alpha) 回归系数a,b以及它们的置信区间 相关系数R2,F-统计量和与χ0对应的概率p。 残差向量e=Y-Y及它们的置信区间 残差及其置信区间可以用rcoplot(r,rint)画图。
引例求解 输入:(hg1.m) x=[1097 1284 1502 1394 1303 1555 1917 2051 2111 2286 2311 2003 2435 2625 2948 3155 3372]; y=[698 872 988 807 738 1025 1316 1539 1561 1765 1762 1960 1902 2013 2446 2736 2825]; X=[ones(size(x')),x'],pause [c,cint,r,rint,stats]=regress(y',X,0.05),pause rcoplot(r,rint)
输出: c = -460.5282 (参数a) 0.9840 (参数b) cint = -691.8478 -229.2085 ( a的置信区间 ) 0.8779 1.0900 ( b的置信区间 ) r = [ 79.1248 69.1244 -29.3788 -104.1112 -83.5709 -44.5286 -109.7219 -18.5724 -55.6100 -23.8029 -51.4019 449.6576 -33.4128 -109.3651 5.8160 92.1364 -32.3827]’(残差向量) rint=(略)(参见残差分析图) stats = 0.9631(R2) 391.2713( F ) 0.0000 ( P{χ0} )
第12个数据点异常,可删出
预测 结果 x1(1)=3372;(hgy1.m) for i=1:5 x1(i+1)=1.045*x1(i);%未来五年国民收入以4.5%的 速度递增 y1(i+1)=-460.5282+0.9840*x1(i+1);%钢材的预 测值 end x1, y1 x1 = 3372.0 3523.7 3682.3 3848.0 4021.2 4202.1 y1 = 3006.8 3162.9 3325.9 3496.3 3674.4 结果
如果从数据的散点图上发现y与x没有直线关系,又如何计算? 例如,试分析年龄与运动(旋转定向)能力 年龄 17 19 21 23 25 27 29 第1人 第2人 20.48 25.13 26.15 30.0 26.1 20.3 19.35 24.35 28.11 26.3 31.4 26.92 25.7 21.3
一元多项式回归在matlab 软件中用命令polyfit实现。如前面的例子,具体计算如下: 假设模型 一元多项式回归在matlab 软件中用命令polyfit实现。如前面的例子,具体计算如下: 输入: (phg1.m) x1=17:2:29;x=[x1,x1]; y=[20.48 25.13 26.15 30.0 26.1 20.3 19.35 24.35 28.11 26.3 31.4 26.92 25.7 21.3]; [p,S]=polyfit(x,y,2);p 注意:x,y向量的维数要一致。S是一个数据结构,用于其它函数的计算。
计算y的拟合值: 输入:[Y,delta]=polyconf(p,x,S);Y 结果: Y= 22.5243 26.0582 27.9896 28.3186 27.0450 24.1689 19.6904 22.5243 26.0582 27.9896 28.3186 27.0450 24.1689 19.6904 拟合效果图:
用polytool(x,y,2)还可以得到一个交互式画面。 Export Parameters Parameters CI Prediction Prediction CI Residuals All
在工作空间中,输入yhat,回车,得到预测值。
实验内容 1、确定企业年设备能力与年劳动生产率的关系 某市电子工业公司有14个所属企业,各企业的年设备能力与年劳动生产率统计数据如下表。试分析企业年设备能力与年劳动生产率的关系。若该公司计划新建一个设备能力为9.2千瓦/人的企业,估计劳动生产率将为多少?
企业 设备能力 (千瓦/人 劳动生产率 1 2.8 6.7 8 4.8 9.8 2 6.9 9 4.9 10.6 3 3.0 7.2 10 5.2 10.7 4 2.9 7.3 11 5.4 11.1 5 3.4 8.4 12 5.5 11.8 6 3.9 8.8 13 6.2 12.1 7 4.0 9.1 14 7.0 12.4
2、测定某矿脉的金属含量 一矿脉有13个相邻样本点,人为地设定一个原点,现测得各样本点与原点的距离x,与该样本点处某种金属含量y的一组数据如下: x y 2 3 4 5 7 8 10 106.42 109.2 109.58 109.5 110 109.93 110.49 11 14 15 15 18 19 110.59 110.6 110.9 110.76 111 111.2 试建立合适的回归模型。(首先画散点图)