Download presentation
Presentation is loading. Please wait.
1
3.1回归分析的基本思想及其初步应用(四) 高二数学 选修 第三章 统计案例
2
比《数学3》中“回归”增加的内容 选修2-3——统计案例 数学3——统计 引入线性回归模型 y=bx+a+e 画散点图
了解相关指数 R2 和模型拟合的效果之间的关系 了解残差图的作用 利用线性回归模型解决一类非线性回归问题 正确理解分析方法与结果 数学3——统计 画散点图 了解最小二乘法的思想 求回归直线方程 y=bx+a 用回归直线方程解决应用问题
3
复习回顾 1、线性回归模型: y=bx+a+e, (3) y=bx+a+e, 其中a和b为模型的未知参数,e称为随机误差。
E(e)=0,D(e)= (4) 2、数据点和它在回归直线上相应位置的差异 是随机误差的效应,称 为残差。 3、对每名女大学生计算这个差异,然后分别将所得的值平方后加起来,用数学符号表示为: 称为残差平方和,它代表了随机误差的效应。
4
R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差。
4、两个指标: (1)类比样本方差估计总体方差的思想,可以用作 为 的估计量, 越小,预报精度越高。 (2)我们可以用相关指数R2来刻画回归的效果,其 计算公式是: R2 1,说明回归方程拟合的越好;R20,说明回归方程拟合的越差。
5
5、残差分析与残差图的定义: 在研究两个变量间的关系时,首先要根据散点图来粗略判断它们是否线性相关,是否可以用回归模型来拟合数据。
然后,我们可以通过残差 来判断模型拟合的效果,判断原始数据中是否存在可疑数据,这方面的分析工作称为残差分析。 我们可以利用图形来分析残差特性,作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图。
6
案例2 一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中:
非线性回归问题 案例2 一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中: 温度xoC 21 23 25 27 29 32 35 产卵数y/个 7 11 24 66 115 325 (1)试建立产卵数y与温度x之间的回归方程;并预测温度为28oC时产卵数目。 (2)你所建立的模型中温度在多大程度上解释了产卵数的变化?
7
一元线性模型 探索新知 方案1 解:选取气温为解释变量x,产卵数 为预报变量y。 选变量 画散点图 选 模 型
50 100 150 200 250 300 350 3 6 9 12 15 18 21 24 27 30 33 36 39 解:选取气温为解释变量x,产卵数 为预报变量y。 选变量 画散点图 选 模 型 假设线性回归方程为 :ŷ=bx+a 估计参数 由计算器得:线性回归方程为y=19.87x 相关指数R2=r2≈0.8642=0.7464 分析和预测 当x=28时,y =19.87× ≈ 93 所以,二次函数模型中温度解释了74.64%的产卵数变化。
8
93>66 ? 模型不好? 奇怪?
9
二次函数模型 合作探究 方案2 选用y=bx2+a ,还是y=bx2+cx+a ? 如何求a、b ? y=bx2+a 变换 y=bt+a
问题1 选用y=bx2+a ,还是y=bx2+cx+a ? 问题2 如何求a、b ? 问题3 y=bx2+a 变换 y=bt+a 非线性关系 线性关系 t=x2 产卵数 气温
10
方案2解答 平方变换:令t=x2,产卵数y和温度x之间二次函数模型y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型y=bt+a
21 23 25 27 29 32 35 温度的平方t 441 529 625 729 841 1024 1225 产卵数y/个 7 11 24 66 115 325 作散点图,并由计算器得:y和t之间的线性回归方程为y=0.367t ,相关指数R2=0.802 将t=x2代入线性回归方程得: y=0.367x 当x=28时,y=0.367× ≈85,且R2=0.802, 所以,二次函数模型中温度解 释了80.2%的产卵数变化。 t
11
合作探究 指数函数模型 方案3 产卵数 气温 问题1 如何选取指数函数的底? 问题2 变换 y=bx+a 非线性关系 线性关系 对数
12
方案3解答 令 ,则 就转换为z=bx+a. 对数变换:在 中两边取常用对数得 由计算器得:z关于x的线性回归方程 为
对数变换:在 中两边取常用对数得 令 ,则 就转换为z=bx+a. 温度xoC 21 23 25 27 29 32 35 z=lny 1.946 2.398 3.045 3.178 4.190 4.745 5.784 产卵数y/个 7 11 24 66 115 325 由计算器得:z关于x的线性回归方程 为 x z 相关指数R2=0.98 当x=28oC 时,y ≈44 ,指数回归模型中温度解释了98.5%的产卵数的变化
13
最好的模型是哪个? 产卵数 气温 产卵数 气温 线性模型 二次函数模型 指数函数模型
14
最好的模型是哪个? 比一比 函数模型 相关指数R2 线性回归模型 0.7464 二次函数模型 0.80 指数函数模型 0.98
15
回归分析(二) 由计算可得: 则回归方程的残差计算公式分别为: 因此模型(1)的拟合效果远远优于模型(2)。 x 21 23 25 27
29 32 35 y 7 11 24 66 115 325 0.557 -0.101 1.875 -8.950 9.230 34.675 47.696 19.400 -5.832 77.968 因此模型(1)的拟合效果远远优于模型(2)。
16
总 结 对于给定的样本点 两个含有未知参数的模型: 其中a和b都是未知参数。拟合效果比较的步骤为: (1)分别建立对应于两个模型的回归方程
总 结 对于给定的样本点 两个含有未知参数的模型: 其中a和b都是未知参数。拟合效果比较的步骤为: (1)分别建立对应于两个模型的回归方程 与 其中 和 分别是参数a和b的估计值; (2)分别计算两个回归方程的残差平方和 与 (3)若 则 的效果比 的好;反之, 的效果不如 的好。
17
练习:为了研究某种细菌随时间x变化,繁殖的个数,收集数据如下:
1 2 3 4 5 6 繁殖个数y/个 12 25 49 95 190 (1)用天数作解释变量,繁殖个数作预报变量,作出这些 数据的散点图; (2) 描述解释变量与预报变量 之间的关系; (3) 计算残差、相关指数R2. 天数 繁殖个数 解:(1)散点图如右所示
18
(2)由散点图看出样本点分布在一条指数函数y= 的周围,于是令Z=lny,则
x 1 2 3 4 5 6 Z 1.79 2.48 3.22 3.89 4.55 5.25 由计数器算得 则有 (3) 6.06 12.09 24.09 48.04 95.77 190.9 y 6 12 25 49 95 190 即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.
19
练习 假设关于某设备的使用年限x和所支出的维修费用 y(万元),有如下的统计资料。
2 3 4 5 6 维修费用y 2.2 3.8 5.5 6.5 7.0 若由资料知,y对x呈线性相关关系。试求: (1)线性回归方程 的回归系数 ; (2)求残差平方和; (3)求相关系数 ; (4)估计使用年限为10年时,维修费用是多少?
20
解: (1)由已知数据制成表格。 1 2 3 4 5 合计 6 20 2.2 3.8 5.5 6.5 7.0 25 4.4 11.4 22.0 32.5 42.0 112.3 9 16 36 90 所以有
Similar presentations