第二节 回归分析方法 一元线性回归模型 多元线性回归模型 非线性回归模型的建立方法
一、一元线性回归模型 定义:假设有两个地理要素(变量)x和y,x为自变量,y为因变量。则一元线性回归模型的基本结构形式为 式中:a和b为待定参数; 为各组观测数据的下标; 为随机变量。 (3.2.1)
记 和 分别为参数a与b的拟合值,则一元线性回归模型为: (3.2.2)式代表x与y之间相关关系的拟合直线,称为回归直线; 是y的估计值,亦称回归值。 (3.2.2)
(一)参数a、b的最小二乘估计 ① 参数a与b的最小二乘拟合原则要求yi与 的误差ei的平方和达到最小,即 ② 根据取极值的必要条件,有 (3.2.3) (3.2.4)
③ 解上述正规方程组(3.2.4)式,得到参数a与b的拟合值: (3.2.5) (3.2.6)
(二)一元线性回归模型的显著性检验 ① 方法:F检验法。 ② 总的离差平方和:在回归分析中,表示y的n次观测值之间的差异,记为 可以证明 (3.2.8) (3.2.9)
在式(3.2.9)中,Q称为误差平方和,或剩余平方和, 而 称为回归平方和。
③ 统计量F ④ F越大,模型的效果越佳。统计量F~F(1,n-2)。在显著水平α下,若F>Fα,则认为回归方程效果在此水平下显著。一般地,当F<F0.10(1,n-2)时,则认为方程效果不明显。 (3.2.10)
二、多元回归模型 回归模型的建立 ① 多元线性回归模型的结构形式: (3.2.11) 式中: 为待定参数; 为随机变量。
② 回归方程: 如果 分别为式(3. 2. 11)中 的拟和值,则回归方程为 在(3. 2 ② 回归方程: 如果 分别为式(3.2.11)中 的拟和值,则回归方程为 在(3.2.12)式中,b0为常数,b1,b2,…bk称为偏回归系数。偏回归系数的意义是,当其它自变量都固定时,自变量 每变化一个单位而使因变量平均改变的数值。 (3.2.12)
③ 偏回归系数的推导过程: 根据最小二乘法原理, 的估计值 应该使 由求极值的必要条件得 方程组(3.2.14)式经展开整理后得 (3.2.13) (3.2.14)
(3.2.15) 方程组(3.2.15)式称为正规方程组。 引入矩阵:
则正规方程组(3.2.15)式可以进一步写成矩阵形式
求解得: 引入记号: (3.2.16)
正规方程组也可以写成:
回归模型的显著性检验 ① 回归平方和U与剩余平方和Q: ② 回归平方和: ③ 剩余平方和为: ④ F统计量为: 计算出来F之后,可以查F分布表对模型进行显著性检验。
三、非线性回归模型 非线性关系线性化的几种情况: ① 对于指数曲线 ,令 , 可以将其转化为直线形式: , 其中, ; ① 对于指数曲线 ,令 , 可以将其转化为直线形式: , 其中, ; ② 对于对数曲线 ,令 , ,可以将其转化为直线形式: ; ③ 对于幂函数曲线 ,令 , ,可以将其转化为直线形式: 其中, ;
④ 对于双曲线 ,令 ,转化为直线形式: ; ⑤ 对于S型曲线 ,可 转化为直线形式: ; ⑥对于幂乘积: ,只要令 ,就可以将其转化为线性形式: 其中, ;
⑦ 对于对数函数和 只要令 ,就可以将其化为线性形式: 例: 下表给出了某地区林地景观斑块面积(Area)与周长(Perimeter)的数据。下面我们建立林地景观斑块面积A与周长P之间的非线性回归模型 。
表3.2.1 某地区各个林地景观斑块面积(m2)与周长(m) 序号 面积A 周长P 序号 1 10447.370 625.392 42 232844.300 4282.043 2 15974.730 612.286 43 4054.660 289.307 3 30976.770 775.712 44 30833.840 895.980 4 9442.902 530.202 45 1823.355 205.131 5 10858.920 1906.103 46 26270.300 968.060 6 21532.910 1297.962 47 13573.960 1045.072 7 6891.680 417.058 48 65590.080 2250.435 8 3695.195 243.907 49 157270.400 2407.549 9 2260.180 197.239 50 2086.426 266.541 10 334.332 99.729 51 3109.070 261.818 11 11749.080 558.921 52 2038.617 320.396 12 2372.105 199.667 53 3432.137 253.335 13 8390.633 592.893 54 1600.391 230.030 14 6003.719 459.467 55 3867.586 419.406
15 527620.200 6545.291 56 1946.184 198.661 16 179686.200 2960.475 57 77.305 56.902 17 14196.460 597.993 58 7977.719 715.752 18 22809.180 1103.070 59 19271.820 1011.127 19 71195.940 1154.118 60 8263.480 680.710 20 3064.242 245.049 6 14697.130 1234.114 2 469416.700 8226.009 162 4519.867 326.317 122 5738.953 498.656 63 13157.660 1172.916 23 8359.465 415.151 64 6617.270 609.801 24 6205.016 414.790 65 4064.137 437.355 25 60619.020 1549.871 66 5645.820 432.355 26 14517.740 791.943 67 6993.355 503.784 27 31020.100 1700.965 68 4304.281 267.951 28 26447.160 1246.977 69 6336.383 347.136 29 7985.926 918.312 70 2651.414 292.235
30 3638.766 399.725 71 2656.824 298.473 31 585425.100 11474.770 72 1846.988 179.866 32 35220.640 1877.476 73 1616.684 172.808 33 10067.820 497.394 74 1730.563 172.143 34 27422.570 1934.596 75 11303.970 881.042 35 43071.550 1171.413 76 14019.790 638.176 36 57585.940 2275.389 77 9277.172 862.088 37 28254.130 1322.795 78 13684.750 712.787 38 497261.000 9581.298 79 1949.164 228.403 39 24255.030 994.906 80 4846.016 324.481 40 1837.699 229.401 81 521457.400 7393.938 41 1608.625 225.842 82 564370.800 12212.410
解:(1)作变量替换,令: , ,将上表中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如下表所示。 解:(1)作变量替换,令: , ,将上表中的原始数据进行对数变换,变换后得到的各新变量对应的观测数据如下表所示。 序号 y=lnA x=LnP 1 9.254106 6.438379 42 12.35813 8.362186 2 9.678763 6.4172 43 8.307622 5.667487 3 10.34099 6.653782 44 10.33637 6.797918 4 9.153019 6.273258 45 7.508433 5.32365 5 9.292742 7.552816 46 10.17619 6.875294 6 9.977338 7.168551 47 9.515909 6.951841 7 8.83807 6.033226 48 11.09118 7.718879 8 8.214789 5.496789 49 11.96572 7.786364 9 7.7232 5.284414 50 7.643208 5.585528 10 5.812135 4.602457 51 8.042079 5.567651 11 9.37153 6.326008 52 7.620027 5.769558 表3.2.2 经对数变换后的数据
12 7.771533 5.296653 53 8.140938 5.534711 13 9.034871 6.385013 54 7.378003 5.438211 14 8.700134 6.130066 55 8.260386 6.038839 15 13.17613 8.786501 56 7.573626 5.291597 16 12.09897 7.993105 57 4.347755 4.041328 17 9.560748 6.393579 58 8.984408 6.573334 18 10.03492 7.005852 59 9.866399 6.918821 19 11.17319 7.051092 60 9.019601 6.523136 20 8.027556 5.501457 61 9.595408 7.118109 21 13.05925 9.015056 62 8.416238 5.787871 22 8.655032 6.211917 63 9.484759 7.067248 23 9.03115 6.028643 64 8.797438 6.413133 24 8.733113 6.027773 65 8.309957 6.080744 25 11.01236 7.345927 66 8.638671 6.069247 26 9.583127 6.67449 67 8.852716 6.222147
26 9.583127 6.67449 67 8.852716 6.222147 27 10.34239 7.438951 68 8.367365 5.590806 28 10.1829 7.128478 69 8.754063 5.849717 29 8.985436 6.822537 70 7.882848 5.67756 30 8.1994 5.990776 71 7.884887 5.698678 31 13.28009 9.347906 72 7.521311 5.192213 32 10.46939 7.537684 73 7.388132 5.152181 33 9.217099 6.209381 74 7.456202 5.148326 34 10.21912 7.567654 75 9.332909 6.781105 35 10.67062 7.065966 76 9.548225 6.458614 36 10.96103 7.729906 77 9.135312 6.759358 37 10.24899 7.187502 78 9.524037 6.569182 38 13.11687 9.167568 79 7.575156 5.431112 39 10.09638 6.902648 80 8.485912 5.782227 40 7.51627 5.435471 81 13.16438 8.908416 41 7.383135 5.419837 82 13.24347 9.410208
(2) 以x为横坐标、y为纵坐标,在平面直角坐标系中作出散点图。很明显,y与x呈线性关系。 图3.2.2 林地景观斑块面积(A)与周长(P) 之间的双对数关系
(3)根据所得表中的数据,运用建立线性回归模型的方法,建立y与x之间的线性回归模型,得到: 对应于(3. 2 (3)根据所得表中的数据,运用建立线性回归模型的方法,建立y与x之间的线性回归模型,得到: 对应于(3.2.19)式,x与y的相关系数高 达 =0.9665。 (4)将(3.2.19)还原成双对数曲线,即 (3.2.19) (3.2.20)