回归分析法预测 (Regression Analysis) 资源学院 第八讲 SPOOD 回归分析法预测 (Regression Analysis) 陈志军 zjchencs@gmail.com
第一节 引 言 第二节 一元线性回归 第三节 多元线性回归 第四节 逐步回归 主要内容 第一节 引 言 第二节 一元线性回归 第三节 多元线性回归 第四节 逐步回归 YOUR SITE HERE
第一节 引 言 YOUR SITE HERE
一、回归分析的定义 一般来说,回归分析是研究自变量(解释变量)与因变量(被解释变量)之间相依关系(因果关系)的一种统计分析方法。 对地质变量而言,也就是从不存在确定性关系的大量观测数据中,建立一个地质变量与另一个或其它几个地质变量之间相关关系的数学表达式。 回归分析是一种由因索果的定量分析、预测技术。 YOUR SITE HERE
变量间的关系 函数关系 统计关系 函数关系——变量间的确定性关系,有精确的数学表达式。 统计关系——大量观测或试验以后建立起来的一种经验关系,并不一定包含这因果关系。 变量间的关系 函数关系 统计关系 YOUR SITE HERE
二、回归分析主要解决问题 ①确定回归方程 ②预测 ③判断自变量与因变量的亲疏关系 在地质研究工作中,回归分析主要解决以下几个方面的问题: 确定一个地质变量与另一个或其它几个地质变量之间是否存在相关关系,如果存在的话,可以找出它们之间合适的数学表达式; ②预测 根据一个或几个变量值(自变量,相对而言较易测定),来预测另一个地质变量(因变量)的估计值,并确定预测精度; ③判断自变量与因变量的亲疏关系 在共同影响某个特定变量(因变量)的许多变量(自变量)之中,找出哪些是重要的,哪些是次要的,以及它们之间有什么关系。 YOUR SITE HERE
第二节 一元线性回归 YOUR SITE HERE
一、一元线性回归模型和回归方程 回归模型 (强假定条件) 一元线性回归模型 的回归方程为: YOUR SITE HERE
二、参数估计 1. 回归系数 和 的最小二乘估计 YOUR SITE HERE
普通最小二乘法(Ordinary Least Square Estimation,OLSE)基本思想: 定义离差平方和(二元)函数(非负二次函数): 普通最小二乘法(Ordinary Least Square Estimation,OLSE)基本思想: 对于样本观测值(xi;yi)(i=1,2,…,n),寻找参数 的估计值 ,使得随机扰动误差项的平方和达到最小,满足如下条件: →min (也即残差平方和达到最小 ) YOUR SITE HERE
上式整理后可得正规方程组(Normal Equations) 满足下列方程组 → 上式整理后可得正规方程组(Normal Equations) YOUR SITE HERE
解之,得 于是可得 回归方程为: 还可等价表示为 : (回归直线过样本数据点重心) YOUR SITE HERE
2. 回归方程(回归直线)的特点 ④回归直线通过x和y的样本均值点( )(观测数据的重心) 对x变量作中心化处理所得的线性回归模型可写成 ⑤残差 与xi不相关。 几何上:相对于将y轴平移到 位置处,回归直线斜率不变而新的截距将是y的样本平均值。 ⑥残差与ŷi不相关。 YOUR SITE HERE
不可解释的离差 无法用回归直线所解释的变差 3.标准误差无偏估计 → 是不可观测的随机变量,故其方差也不能直接计算,而需要估计。 回归模型的总离差可被分解成两个部分: 总离差 可解释的离差 可由回归直线所解释的变差 不可解释的离差 无法用回归直线所解释的变差 YOUR SITE HERE
4.标准误差无偏估计 三个平方和之间的关系: SST = SSR + SSE YOUR SITE HERE
SST = SSR + SSE SSR和SSE是此消彼长的关系, SSR从正面来衡量线性模型的拟合优度, SSE则可从反面判定线性模型的拟合优度。 对于一元线性回归模型 的无偏估计量,有 YOUR SITE HERE
5. 拟合优度系数R2 拟合程度——样本观测值聚集在样本回归线周围的紧密程度。 (又称样本决定系数、测定系数、判定系数,Coefficient of Determination) 或 YOUR SITE HERE
5. 拟合优度系数R2 拟合程度——样本观测值聚集在样本回归线周围的紧密程度。 (又称样本决定系数、测定系数、判定系数,Coefficient of Determination) 其它等价表示: YOUR SITE HERE
R2性质: ①R2度量了由回归模型作出的解释的y变差在y总变差中所占的比例(或百分数),由于在总变差恒定,故R2越大,回归效果越好。 ②反映回归直线(回归方程)拟合程度 ③取值范围是 0≤R2≤1 R2=1表示完全拟合; R2=0表示自变量和因变量之间没有任何线性关系。 ④测定系数等于相关系数的平方。 计算R2不能代替对回归方程总体线性关系的F检验。 YOUR SITE HERE
第三节 多元线性回归 YOUR SITE HERE
一、多元线性回归模型和回归方程 (i=1, 2, …, n) 回归模型 (强假定条件) YOUR SITE HERE
为待估回归参数,在多元线性回归中称为偏回归系数(partial regression coefficient),表示各个回归系数在回归方程中其它自变量保持不变情况下,自变量xj每增加一个单位时因变量y的平均增加程度。 多元线性回归模型 的回归方程为: YOUR SITE HERE
二、参数估计 1. 回归系数的最小二乘估计 定义离差平方和(p+1)元函数(非负二次函数): 普通最小二乘法(Ordinary Least Square Estimation,OLSE)基本思想: 矩阵表示 YOUR SITE HERE
满足下列方程组 → 矩阵形式表示 YOUR SITE HERE
上式整理后可得用矩阵形式表示的 正规方程组(Normal Equations) 移项得 当 存在时,即得回归参数的最小二乘估计为 称 为(经验)回归方程。 YOUR SITE HERE
2.标准误差无偏估计 SST = SSR + SSE YOUR SITE HERE
三、显著性检验 回归方程的显著性检验 (线性关系的检验 ) 检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验 检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在线性关系 如果不显著,因变量与自变量之间不存在线性关系 YOUR SITE HERE
回归方程的显著性检验步骤 1. 提出假设 H0:12p=0 线性关系不显著 H1:1,2,,p 至少有一个不等于0 2. 计算检验统计量F 3. 确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F (上侧分位数) 4. 作出决策 若FF ,拒绝H0;若F<F,接受H0 YOUR SITE HERE
给定信度α ( α =0.05, 0.01, 0.1),查表求 如果统计量: 则回归高度显著 则回归在α=0.05水平上显著 则回归在α=0.1水平上显著 则回归不显著。 YOUR SITE HERE
回归系数的显著性检验要点 1. 如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量 xi 对因变量 y 的影响是否显著 2. 对每一个自变量都要单独进行检验 3. 应用 t 检验 4. 在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验。 YOUR SITE HERE
回归系数的显著性检验步骤 1. 提出假设 H0: = 0 (自变量 xi 与 因变量 y 没有线性关系) 2. 计算检验的统计量 t 3. 确定显著性水平,并进行决策 tt,拒绝H0; t<t,接受H0 YOUR SITE HERE
四、确定回归估计临界值 进行成矿远景区预测 1. 将各控制单元的自变量代入最优回归方程,求出各控制单元的回归估计值。 这样,每个单元都有一个观测值 yi 和回归估值 。 2. 以控制单元为横坐标,以矿床值(或其对数值)为纵坐标,绘出矿床值上升序列曲线图。根据上升序列曲线图及各单元的矿化情况,确定回归估计临界值。 确定回归估计临界值时要考虑以下因素: (1) 已知单元矿床值的大小及预测要求。 (2) 上升序列曲线的变化趋势。 YOUR SITE HERE
回归估计临界值也可采用已知有矿控制单元回归估计值的平均值或最小值, 或已知有矿床单元回归估值的最小值与已知有矿点单元回归估值最大值的平均值。 YOUR SITE HERE
3. 将未知单元的自变量观测值代入回归方程,确定每个单元的回归估计值 若某单元的回归估计值大于回归临界值,说明该单元为找矿远景单元,其中可能有矿床的产出。反之,可能为无矿单元。 另外,还可将未知单元回归估计值的大小与已知有矿单元回归估计值进行对比,以次来确定找矿远景单元的级别。 如果控制单元的矿床值yi与回归估计值 呈线性相关,则可将预测单元的回归估值转换成矿床值,并进而转换成资源量。 YOUR SITE HERE
注意在所选控制区单元中自变量的取值尽可能分散一些,样本可尽可能大一些(使得回归系数估计更稳定和避免回归曲线外推预测) 注意异常值和空缺数据的处理。 注意其时间、空间特性(时间序列数据、空间数据),要注意数据是否具备可比性、等方差性。 在回归模型的运用中,我们还强调定性分析与定量分析的有机结合。数理统计方法所研究的数量关系是否反映事物的本质?本质究竟如何?在实际问题中,我们不能仅凭样本数据估计的结果不加分析地定论,必须把参数估计的结果和学科理论知识、具体地质问题以及现实情况紧密结合,这样才能保证回归模型在地质问题研究中的正确应用。 当然,建立正确的数学模型,有效提取信息、有效解释变异和有效查明数量规律,对于地质概念和定义的多解性、地质假说及理论的可检验性可发挥特殊作用。 YOUR SITE HERE
第四节 逐步回归 YOUR SITE HERE
一、回归分析中变量选择问题 变量选择问题是一个十分重要的问题! 在实际问题中可以提出许多对应变量有影响的自变量,变量选择太少或不恰当,会使建立的模型与实际有较大的偏离; 而变量选得太多,增加了模型的复杂度,模型应用费用增加,并且有时也会削弱估计和预测的稳定性。 我们希望矿床值和各地质因素及找矿标志线性关系密切,即回归效果要好,同时方程中每个自变量对矿床值的影响显著而相互之间的相关很小(避免提供重叠信息)。这就存在回归方程中最优变量组合问题。 这样,既保证尽量高的预报精度,同时最大限度地减少自变量是运算方便又不失信息。 YOUR SITE HERE
“最优回归方程” 是指: ①对因变量有显著作用的自变量, 全部选入回归方程; ②对因变量无显著作用的自变量, 一个也不引入回归方程。 选择”最优回归方程”的方法有: 1.最优子集回归法 2.向后剔除法(backward selection) 3.向前引入法(forward selection) 4.逐步回归法(stepwise selection) 逐步选择法 YOUR SITE HERE
二、最优子集回归法 按一定准则选择最优模型,常用的准则有: ①校正决定系数(考虑了自变量的个数): R2adj达到最大。 ②Cp准则(C即criterion,p为所选模型中变量的个数:Cp统计量达到最小 ③AIC准则 (Akaike’s Information Criterion) : AIC 越小越好 有p个可供选择的自变量,可能的回归方程有2p-1个。 YOUR SITE HERE
三、逐步选择法 1. 前进法(forward selection) ---只进不出 若max(Fj)>Fα,引入j变量 后退法(backward elimination)---只出不进 若min(Fj)<Fα,剔除j变量 3. 逐步回归法(stepwise regression)---有进有出 它们的共同特点是每一步只引入或剔除一个自变量。 决定其取舍则基于对偏回归平方和的F检验 此F检验与对j变量回归系数的t检验是一致的。 YOUR SITE HERE
前进法局限性:后续变量的引入可能会使 先进入方程的自变量变得不重要。 后退法局限性:自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程 。 双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法)--- 逐步回归 小样本检验水准 a 一般定为0.10或0.15, 大样本把a值定为0.05。 a值越小表示选取自变量的标准越严 YOUR SITE HERE
逐步回归分析的基本思想 在供选择的m个自变量中,依各自变量对因变量作用的大小,即偏回归平方和的大小,由大到小把自变量依次逐个引入。每引入一个变量,就对它进行假设检验。 当该自变量的偏回归平方和经检验是显著时,将该自变量引入回归方程。 新变量引入回归方程后,对方程中原有的自变量也要进行假设检验,并把贡献最小且退化为不显著的自变量逐个剔出方程。 因此逐步回归每一步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。 回归结束,最后所得方程即为所求得的“最优”回归方程。 YOUR SITE HERE
曲线估计(Curve Estimation) 对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。 采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述(例如看修正Adjusted R2) rainfall and resulting water level changes data from a andslide along the Ohio River valley near Cincinnati, Ohio (Haneberg and Gökce, 1994) YOUR SITE HERE
实例 安徽××地区玢岩铁矿床 矿石矿物为磁铁矿 YOUR SITE HERE
已知 n=32 p=2 未知 m=7 x1 磁异常指数 x2 闪长玢岩出露面积比值 y 矿床经济价值(作对数变换) UnitID x1 x2 y 6 0.958 0.010 0.778 12 1.456 24.200 2.204 14 0.001 0.010 0.477 20 1.861 36.250 4.007 21 2.301 0.750 0.477 27 2.045 6.250 5.385 28 3.057 35.210 5.636 31 0.612 0.010 0.477 33 1.513 7.000 0.477 35 2.000 22.700 5.763 36 1.468 7.250 3.992 37 0.001 0.010 0.477 43 0.783 0.570 0.477 45 1.301 73.000 5.467 46 2.672 24.200 5.035 47 3.250 75.200 3.464 56 1.096 7.000 0.477 58 0.001 8.500 2.553 59 2.950 11.000 0.829 60 1.491 11.000 0.477 63 0.001 0.750 0.954 64 0.001 1.500 0.954 65 0.001 5.750 4.625 66 0.001 1.500 0.477 67 0.001 0.010 0.477 68 0.001 0.750 0.954 76 0.001 0.010 3.437 77 0.001 0.010 0.477 83 0.001 0.010 0.778 87 0.001 1.000 0.477 89 0.001 0.150 2.813 100 0.001 0.010 0.477 UnitID x1 x2 y 29 1.602 0.001 30 0.001 0.001 34 0.001 0.750 44 1.021 0.001 48 2.672 34.500 49 1.740 0.001 51 1.491 22.000 x1 磁异常指数 x2 闪长玢岩出露面积比值 y 矿床经济价值(作对数变换) y <2 2-3.5 >3.5 矿点 小矿 大中矿 YOUR SITE HERE
y y X1 X2 X1 X2 y X2 X1 YOUR SITE HERE
y = 1.1921 + 0.3241*x1 + 0.0489*x2 yMean = 2.0572 SST = 117.8631 SSE = 73.2383 SSR = SST-SSE = 44.6248 YOUR SITE HERE
y X1 X2 YOUR SITE HERE
yfit y UnitID x1 x2 y yfit y-yfit 6 0.958 0.010 0.778 1.503 -0.725 6 0.958 0.010 0.778 1.503 -0.725 12 1.456 24.200 2.204 2.848 -0.644 14 0.001 0.010 0.477 1.193 -0.716 20 1.861 36.250 4.007 3.569 0.438 21 2.301 0.750 0.477 1.975 -1.498 27 2.045 6.250 5.385 2.161 3.224 28 3.057 35.210 5.636 3.906 1.731 31 0.612 0.010 0.477 1.391 -0.914 33 1.513 7.000 0.477 2.025 -1.548 35 2.000 22.700 5.763 2.951 2.812 36 1.468 7.250 3.992 2.023 1.969 37 0.001 0.010 0.477 1.193 -0.716 43 0.783 0.570 0.477 1.474 -0.997 45 1.301 73.000 5.467 5.185 0.282 46 2.672 24.200 5.035 3.242 1.793 47 3.250 75.200 3.464 5.925 -2.461 56 1.096 7.000 0.477 1.890 -1.413 58 0.001 8.500 2.553 1.608 0.945 59 2.950 11.000 0.829 2.686 -1.857 60 1.491 11.000 0.477 2.214 -1.737 63 0.001 0.750 0.954 1.229 -0.275 64 0.001 1.500 0.954 1.266 -0.312 65 0.001 5.750 4.625 1.474 3.151 66 0.001 1.500 0.477 1.266 -0.789 67 0.001 0.010 0.477 1.193 -0.716 68 0.001 0.750 0.954 1.229 -0.275 76 0.001 0.010 3.437 1.193 2.244 77 0.001 0.010 0.477 1.193 -0.716 83 0.001 0.010 0.778 1.193 -0.415 87 0.001 1.000 0.477 1.241 -0.764 89 0.001 0.150 2.813 1.200 1.613 100 0.001 0.010 0.477 1.193 -0.716 yfit y YOUR SITE HERE
R2 = SSR/SST = 0.3786 F = (SSR/2)/(SSE/29) = 8.8350 p-value = 0.0010 = sqrt(SSE/29) = 1.5892 F0.01(2,29)=5.42 F0.05(2,29)=3.34 F0.1(2,29)=2.49 YOUR SITE HERE
YOUR SITE HERE
预测临界回归估计值 = 2.5 大中矿 >3.5 小矿 矿点 <2 已知单元8个 未知单元预测 UnitID x1 x2 y 29 1.602 0.001 1.711 30 1.193 34 0.750 1.229 44 1.021 1.523 48 2.672 34.500 3.746 49 1.740 1.756 51 1.491 22.000 2.752 YOUR SITE HERE
NOTES 本讲介绍的线性回归,仅仅是回归的一种,也是历史最悠久的一种。 但是,任何模型都是某种近似; 线性回归当然也不例外。 它被长期广泛深入地研究主要是因为数学上相对简单。 它已经成为其他回归的一个基础。 应该用批判的眼光看待这些模型。 YOUR SITE HERE
五、残差分析 残差图——以残差为纵坐标,以自变量为横坐标 回归分析中 存在异方差性 回归函数的形式应为曲线 标准化残差 YOUR SITE HERE
SST = SSR + SSE R2 = SSR/SST V.S. V.S. YOUR SITE HERE