线性回归
一、有关概念 y = x2 确定性关系 问题1:正方形的面积y与正方形的边长x之间的函数关系是 例如:在7块并排、形状大小相同的试验田上进行施肥量对水稻产量影响的试验,得到如下所示的一组数据: 施化肥量x 15 20 25 30 35 40 45 水稻产量y 330 345 365 405 445 450 455 当施肥量x一定时,水稻产量y的值带有一定的随机性
2):相关关系与函数关系的异同点如下: 1、相关关系: 自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系。 注 1):相关关系是一种不确定性关系; 2):相关关系与函数关系的异同点如下: 相同点:均是指两个变量的关系 不同点:函数关系是一种确定性的关系;而相关关系是一 种非确定性关系;函数关系是自变量与因变量之间的关系, 这种关系是两个非随机变量的关系;而相关关系是非随 机变量与随机变量的关系. 对具有相关关系的两个变量进行统计分析的方法叫回归分析。 2、回归分析: 通俗地讲,回归分析是寻找相关关系中非确定性关系的 某种确定性 探索1: 水稻产量y与施肥量x之间大致有何规律?
发现:图中各点,大致分布在某条直线附近。 · · · · · · · 施化肥量x 15 20 25 30 35 40 45 水稻产量y 330 345 365 405 445 450 455 x y 水稻产量 散点图 500 450 400 350 300 发现:图中各点,大致分布在某条直线附近。 · · · · · 3、表示具有相关关系的 两个变量的一组数据的 图形叫做散点图. · · 施化肥量 10 20 30 40 50 在这些点附近可画直线不止一条,哪条直线最能代表x与y之间的关系呢? 探索2:
- 2、回归直线方程: yi- yi = yi - ( b xi + a ) ( i=1,2,…,n) 设x与y是具有相关关系的两个变量,且相应于n组观测值的n个点大致分布在一条直线的附近,求在整体 上与这n个点最接近的一条直线 ? 探求步骤: ①设定直线方程: y = b x + a (a,b为待定系数) ②计算各组偏差: yi- yi = yi - ( b xi + a ) ( i=1,2,…,n) ③对偏差求平方和: Q=(y1 - b x1- a )2+ (y2- b x2 - a )2+ … +(yn - b xn- a )2 Q= ∑(yi- b xi- a )2 i=1 n ④求Q取的最小值: 时a、b的值 ∑(x - x)(y - y) i=1 n i _ ∑x i=1 n i _ n x y y a=y –b x - b= = ∑(x - x ) i=1 n i _ 2 2 ∑ x - n x i=1 n i _ ⑤将 b , a代入①中式子得所求直线方程。
2、对两个变量进行的线性分析叫做线性回归分析。 应用: 例1:在7块并排、形状大小相同的试验田上进行施肥 注: y = b x + a 1、所求直线方程叫做回归直线方程;即 相应的直线叫做回归直线。 2、对两个变量进行的线性分析叫做线性回归分析。 应用: 例1:在7块并排、形状大小相同的试验田上进行施肥 量对水稻产量影响的试验,得到如下所示的一组数据: 施化肥量x 15 20 25 30 35 40 45 水稻产量y 330 345 365 405 445 450 455 1)、求水稻产量y与施肥量x之间的回归直线方程; 2)、估计当施肥量为70时水稻的产量是多少?
b=(∑ xiyi – n x y)/(∑xi2 - n x 2) ∑xi2=7000 ∑ yi2=1132725 ∑ xiyi=87175 i=1 7 b=(∑ xiyi – n x y)/(∑xi2 - n x 2) i=1 7 =(87175-7×30×399.3)/(7000-7×302)≈4.75 a= y - b x=399.3 - 4.75 × 30 ≈257 所求的回归直线方程为:y=4.75x+257
b=(∑ xiyi –10 x y) /(∑xi2-10 x 2) 阅读P38 例 i 1 2 3 4 5 6 7 8 9 10 x 32.2 31.1 32.9 35.8 37.1 38.9 38.0 39.0 43.0 44.6 y 25.0 30.0 34.0 37.0 39.0 41.0 42.0 44.0 48.0 51.0 xiyi 805 933 1118.6 1324.6 1446.9 1558 1638 1892 2140.8 2346 x=37.97 y=39.1 ∑xi2=14663.67 ∑ yi2=15857 ∑ xiyi=15202.9 i=1 10 b=(∑ xiyi –10 x y) /(∑xi2-10 x 2) i=1 10 =(15202.9-10×37.97×39.1)/(14663.67-10×37.972) ≈1.447 a=y - bx= 39.1-1.447 × 37.97 ≈ -15.843
练习:P40 小结 作业:P42: 1