§3.2 数据资料与拟合模型
一. 数据资料与数学模型 数据资料 数据资料 是在实际问题中收集到的观测数值。 数据获取 年鉴报表、学术刊物、网络资源、实验观测等等 一. 数据资料与数学模型 数据资料 数据资料 是在实际问题中收集到的观测数值。 是组建数学模型的重要依据和检验数学模型 的重要标准。 数据获取 年鉴报表、学术刊物、网络资源、实验观测等等 数据误差 观测数据中一般都包含有误差。正确对待和处理这 些误差是数学建模中不可回避的问题. 系统误差:偏差,来自于系统,有规律,可避免。 随机误差:无偏,来自随机因素,无规律,不可免
20. 对于情况较复杂的实际问题(因素不易化简,作用机理不详)可直接使用数据组建模型寻找简单的因果变量之间的数量关系, 2. 资料与模型 10. 数据资料可以直接应用于数学模型的组建。 20. 对于情况较复杂的实际问题(因素不易化简,作用机理不详)可直接使用数据组建模型寻找简单的因果变量之间的数量关系, 从而对未知的情形作预报。 这样组建的模型为拟合模型。 30. 拟合模型的组建主要是处理好观测数据的误差,使用数学表达式从数量上近似因果变量之间的关系。
10. 拟合模型的组建是通过对有关变量的观测数据的观察、分析和选择恰当的数学表达方式得到的。 3. 拟合模型 10. 拟合模型的组建是通过对有关变量的观测数据的观察、分析和选择恰当的数学表达方式得到的。 20. 拟合模型组建的实质是数据拟合的精度和数学表达式简化程度间的一个折中。折中方案的选择将取决于实际问题的需要。
30. 经验模型和插值模型 经验模型:问题主要是探讨变量间的内在规律,容许出现一定的误差。 模型将侧重于选择规律的简单的数学表达 在简单的数学表达式中选择拟合效果好的 插值模型:模型以拟合效果为主。 要求精确地拟合观测数据,即在观测点之间插入适当的数值。 40. 其他利用数据组建的模型:判别模型、主成分模型、分类模型、因子模型、趋势面模型、时间序列模型等。
二. 经验模型与最小二乘法 1. 经验模型及其组建 在简单模型中选择拟合效果好者。 例3.5 人口预测 1949年—1994年我国人口数据资料如下: 年 份 xi 49 54 59 64 69 74 79 84 89 94 人口数 yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 建模分析我国人口增长的规律, 预报1999年我国人口数。 1. 在坐标系上作观测数据的散点图。 2. 根据散点分布的几何特征提出模型 3. 利用数据估计模型的参数 4. 计算拟合效果
假设:人口随时间线性地增加 模型:y = a + b x 参数估计 观测值的模型: 例3.1 假设:人口随时间线性地增加 模型:y = a + b x 参数估计 观测值的模型: yi = a + b xi + εi ,i = 1,…,n 拟合的精度: Q = i 2 = (yi - a – b xi)2, 误差平方和。
最小二乘法: 求参数 a 和 b,使得误差平方和最小。
参数估计 可以算出:a = – 1.93, b = 0.146 模型:y = – 1.93 + 0.146 x
拟合效果 年 份 xi 49 54 59 64 69 74 79 84 89 94 人口数 yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 模型值 5.24 5.97 6.70 7.43 8.16 8.90 9.62 10.36 11.09 11.82 误差 .16 .03 .00 -.43 -.06 .20 .18 -.06 .01 -.02
模型二 人口自然增长模型 设数据满足 最小二乘法 算得 模型 拟合精度
结论 1. Q1 = 0.2915 < 0.7437 = Q2. 线性模型更适合中国人口的增长。 2. 预报:1999年12.55亿,13.43亿 3. 人口白皮书: 2005年13.3亿, 2010年14亿 模型 I 2005年13.43亿,2010年14.16亿 模型II 14.94亿, 16.33亿
讨论 xi 49 54 59 64 69 74 79 84 89 94 yi 5.4 6.0 6.7 7.0 8.1 9.1 9.8 10.3 11.3 11.8 yi 5.24 5.97 6.70 7.43 8.16 8.90 9.62 10.36 11.09 11.82 0.16 0.03 0.00 -0.43 -0.06 0.20 0.18 -0.06 0.01 -0.02 yi 5.55 6.06 6.62 7.23 7.90 8.64 9.44 10.31 11.26 12.31 -0.15 –0.06 0.08 –0.23 0.20 0.46 0.36 –0.01 –0.13 –0.51
2. 线性最小二乘法 模型:y = b, 数据: 精度: 估计:
模型:y = bx, 数据: 精度: 估计: 讨论: 模型:
模型:y = a + bx, 数据: 精度: 估计:
模型:y = b1x1+b2x2, 数据: 精度:
模型:y = a+b1x1+b2x2, 数据: 精度: 估计:
10. y=a+b1f1(x)+b2 f2(x)+…+bn fn(x) 令 ui= fi(x), 则有 y=a+b1u1+…+bnun. 3. 可化简的非线性最小二乘法 10. y=a+b1f1(x)+b2 f2(x)+…+bn fn(x) 令 ui= fi(x), 则有 y=a+b1u1+…+bnun. 20. y=a ebx . 令 z=ln y, 则有 z = ln a + b x = a* + b x . 30. y = a xb . 令 z = ln y, u = ln x, 则有 z = ln y = lna+b ln x = a*+ b u
40. y = 1/(a+bx) 令 z = 1/y, 则有 z = 1/y = a + bx . 50. y = x/(b+ax) 令 z = 1/y, u=1/x, 则有 z = 1/y = a + b/x = a + b u 60. y = (1+ax)/(1+bx) ?
例 4.2 表列数据为1977年以前六个不同距离的中短距离赛跑成绩的世界纪录. 试用这些数据建模分析赛跑的成绩与赛跑距离的关系。 距离 x(m) 100 200 400 800 1000 1500 时间 t (s) 9.95 19.72 43.86 102.4 133.9 212.1
模型: t = a + b x 参数: a= - 9.99, b = 0.145 t = - 9.99 + 0.145 x Q1 = 82.04 检验: 当 x < 68.89 m 时, t < 0. 当 x = 100 m 时, t = 4.51 s 与实际情形差距较大 ! 中间数值偏低
模型: t = a xb, 令 z = ln t, u = ln x , 则有 z = ln t = ln a+b ln x = a* + b u 参数: a* = - 0.734, a = ln a* = 0.48, b = 1.145 t = 0.48 x1.145. Q2 = 23.55 x 100 200 400 800 1000 1500 t 9.95 19.72 43.86 102.4 133.9 212.1 I 4.56 19.10 48.20 106.4 135.5 208.2 II 9.39 20.78 45.96 101.68 131.29 208.9
讨论 1. 经验模型是众多因素作用综合在因果关系上的结论。会因时因地发生变化且不宜在另外的环境下套用和从机理作过多的分析。 2. 前面的最小二乘法实质上是近似求解线性方程组 a + xk b = yk,k = 1,…,n 或
讨论 3. 关于最小二乘技术 可以使用计算器计算 使用excel计算: \数据分析\回归分析 使用MATLAB计算 x=49:5:94; y=[5.4 6. 6.7 7. 8.1 … ]; A=[ones(10,1), x’]; b=A\y’; z=b(1)+b(2)*x; plot( x, z, ’b’, x, y,’r*’)
讨论 4. 关于误差 yk=a+bxk+ k, k: 纵轴误差 yk=a+b(xk+k), k: 横轴误差 距离误差 5. 关于精度 Q= i 2 =(yk-a-bxk)2. Q= |i |= |yk-a-bxk|
问题 1. 收集生活中有关的长度面积体积的数据,分析它们之间的关系. 2. 利用赛艇比赛成绩的数据建模分析运动员的人数 n 与赛艇成绩 t 的关系. n 1 2 4 8 t 7.125 6.878 6.340 5.835 3. P86 7, 8