Presentation is loading. Please wait.

Presentation is loading. Please wait.

回归分析法预测 (Regression Analysis)

Similar presentations


Presentation on theme: "回归分析法预测 (Regression Analysis)"— Presentation transcript:

1 回归分析法预测 (Regression Analysis)
资源学院 第八讲 SPOOD 回归分析法预测 (Regression Analysis) 陈志军

2 第一节 引 言 第二节 一元线性回归 第三节 多元线性回归 第四节 逐步回归
主要内容 第一节 引 言 第二节 一元线性回归 第三节 多元线性回归 第四节 逐步回归 YOUR SITE HERE

3 第一节 引 言 YOUR SITE HERE

4 一、回归分析的定义 一般来说,回归分析是研究自变量(解释变量)与因变量(被解释变量)之间相依关系(因果关系)的一种统计分析方法。
对地质变量而言,也就是从不存在确定性关系的大量观测数据中,建立一个地质变量与另一个或其它几个地质变量之间相关关系的数学表达式。 回归分析是一种由因索果的定量分析、预测技术。 YOUR SITE HERE

5 变量间的关系 函数关系 统计关系 函数关系——变量间的确定性关系,有精确的数学表达式。
统计关系——大量观测或试验以后建立起来的一种经验关系,并不一定包含这因果关系。 变量间的关系 函数关系 统计关系 YOUR SITE HERE

6 二、回归分析主要解决问题 ①确定回归方程 ②预测 ③判断自变量与因变量的亲疏关系 在地质研究工作中,回归分析主要解决以下几个方面的问题:
确定一个地质变量与另一个或其它几个地质变量之间是否存在相关关系,如果存在的话,可以找出它们之间合适的数学表达式; ②预测 根据一个或几个变量值(自变量,相对而言较易测定),来预测另一个地质变量(因变量)的估计值,并确定预测精度; ③判断自变量与因变量的亲疏关系 在共同影响某个特定变量(因变量)的许多变量(自变量)之中,找出哪些是重要的,哪些是次要的,以及它们之间有什么关系。 YOUR SITE HERE

7 第二节 一元线性回归 YOUR SITE HERE

8 一、一元线性回归模型和回归方程 回归模型 (强假定条件) 一元线性回归模型 的回归方程为: YOUR SITE HERE

9 二、参数估计 1. 回归系数 和 的最小二乘估计 YOUR SITE HERE

10 普通最小二乘法(Ordinary Least Square Estimation,OLSE)基本思想:
定义离差平方和(二元)函数(非负二次函数): 普通最小二乘法(Ordinary Least Square Estimation,OLSE)基本思想: 对于样本观测值(xi;yi)(i=1,2,…,n),寻找参数 的估计值 ,使得随机扰动误差项的平方和达到最小,满足如下条件: →min (也即残差平方和达到最小 ) YOUR SITE HERE

11 上式整理后可得正规方程组(Normal Equations)
满足下列方程组 上式整理后可得正规方程组(Normal Equations) YOUR SITE HERE

12 解之,得 于是可得 回归方程为: 还可等价表示为 : (回归直线过样本数据点重心) YOUR SITE HERE

13 2. 回归方程(回归直线)的特点 ④回归直线通过x和y的样本均值点( )(观测数据的重心) 对x变量作中心化处理所得的线性回归模型可写成
⑤残差 与xi不相关。 几何上:相对于将y轴平移到 位置处,回归直线斜率不变而新的截距将是y的样本平均值。 ⑥残差与ŷi不相关。 YOUR SITE HERE

14 不可解释的离差 无法用回归直线所解释的变差
3.标准误差无偏估计 是不可观测的随机变量,故其方差也不能直接计算,而需要估计。 回归模型的总离差可被分解成两个部分: 总离差 可解释的离差 可由回归直线所解释的变差 不可解释的离差 无法用回归直线所解释的变差 YOUR SITE HERE

15 4.标准误差无偏估计 三个平方和之间的关系: SST = SSR + SSE YOUR SITE HERE

16 SST = SSR + SSE SSR和SSE是此消彼长的关系, SSR从正面来衡量线性模型的拟合优度, SSE则可从反面判定线性模型的拟合优度。 对于一元线性回归模型 的无偏估计量,有 YOUR SITE HERE

17 5. 拟合优度系数R2 拟合程度——样本观测值聚集在样本回归线周围的紧密程度。
(又称样本决定系数、测定系数、判定系数,Coefficient of Determination) YOUR SITE HERE

18 5. 拟合优度系数R2 拟合程度——样本观测值聚集在样本回归线周围的紧密程度。
(又称样本决定系数、测定系数、判定系数,Coefficient of Determination) 其它等价表示: YOUR SITE HERE

19 R2性质: ①R2度量了由回归模型作出的解释的y变差在y总变差中所占的比例(或百分数),由于在总变差恒定,故R2越大,回归效果越好。
②反映回归直线(回归方程)拟合程度 ③取值范围是 0≤R2≤1 R2=1表示完全拟合; R2=0表示自变量和因变量之间没有任何线性关系。 ④测定系数等于相关系数的平方。 计算R2不能代替对回归方程总体线性关系的F检验。 YOUR SITE HERE

20 第三节 多元线性回归 YOUR SITE HERE

21 一、多元线性回归模型和回归方程 (i=1, 2, …, n) 回归模型 (强假定条件) YOUR SITE HERE

22 为待估回归参数,在多元线性回归中称为偏回归系数(partial regression coefficient),表示各个回归系数在回归方程中其它自变量保持不变情况下,自变量xj每增加一个单位时因变量y的平均增加程度。 多元线性回归模型 的回归方程为: YOUR SITE HERE

23 二、参数估计 1. 回归系数的最小二乘估计 定义离差平方和(p+1)元函数(非负二次函数): 普通最小二乘法(Ordinary Least Square Estimation,OLSE)基本思想: 矩阵表示 YOUR SITE HERE

24 满足下列方程组 矩阵形式表示 YOUR SITE HERE

25 上式整理后可得用矩阵形式表示的 正规方程组(Normal Equations)
移项得 当 存在时,即得回归参数的最小二乘估计为 为(经验)回归方程。 YOUR SITE HERE

26 2.标准误差无偏估计 SST = SSR + SSE YOUR SITE HERE

27 三、显著性检验 回归方程的显著性检验 (线性关系的检验 )
检验因变量与所有的自变量和之间的是否存在一个显著的线性关系,也被称为总体的显著性检验 检验方法是将回归离差平方和(SSR)同剩余离差平方和(SSE)加以比较,应用 F 检验来分析二者之间的差别是否显著 如果是显著的,因变量与自变量之间存在线性关系 如果不显著,因变量与自变量之间不存在线性关系 YOUR SITE HERE

28 回归方程的显著性检验步骤 1. 提出假设 H0:12p=0 线性关系不显著 H1:1,2,,p 至少有一个不等于0
2. 计算检验统计量F 3. 确定显著性水平和分子自由度p、分母自由度n-p-1找出临界值F (上侧分位数) 4. 作出决策 若FF ,拒绝H0;若F<F,接受H0 YOUR SITE HERE

29 给定信度α ( α =0.05, 0.01, 0.1),查表求 如果统计量: 则回归高度显著 则回归在α=0.05水平上显著
则回归在α=0.1水平上显著 则回归不显著。 YOUR SITE HERE

30 回归系数的显著性检验要点 1. 如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量 xi 对因变量 y 的影响是否显著 2. 对每一个自变量都要单独进行检验 3. 应用 t 检验 4. 在多元线性回归中,回归方程的显著性检验不再等价于回归系数的显著性检验。 YOUR SITE HERE

31 回归系数的显著性检验步骤 1. 提出假设 H0: = 0 (自变量 xi 与 因变量 y 没有线性关系)
2. 计算检验的统计量 t 3. 确定显著性水平,并进行决策  tt,拒绝H0;  t<t,接受H0 YOUR SITE HERE

32 四、确定回归估计临界值 进行成矿远景区预测
1. 将各控制单元的自变量代入最优回归方程,求出各控制单元的回归估计值。 这样,每个单元都有一个观测值 yi 和回归估值 。 2. 以控制单元为横坐标,以矿床值(或其对数值)为纵坐标,绘出矿床值上升序列曲线图。根据上升序列曲线图及各单元的矿化情况,确定回归估计临界值。 确定回归估计临界值时要考虑以下因素: (1) 已知单元矿床值的大小及预测要求。 (2) 上升序列曲线的变化趋势。 YOUR SITE HERE

33 回归估计临界值也可采用已知有矿控制单元回归估计值的平均值或最小值,
或已知有矿床单元回归估值的最小值与已知有矿点单元回归估值最大值的平均值。 YOUR SITE HERE

34 3. 将未知单元的自变量观测值代入回归方程,确定每个单元的回归估计值
若某单元的回归估计值大于回归临界值,说明该单元为找矿远景单元,其中可能有矿床的产出。反之,可能为无矿单元。 另外,还可将未知单元回归估计值的大小与已知有矿单元回归估计值进行对比,以次来确定找矿远景单元的级别。 如果控制单元的矿床值yi与回归估计值 呈线性相关,则可将预测单元的回归估值转换成矿床值,并进而转换成资源量。 YOUR SITE HERE

35 注意在所选控制区单元中自变量的取值尽可能分散一些,样本可尽可能大一些(使得回归系数估计更稳定和避免回归曲线外推预测)
注意异常值和空缺数据的处理。 注意其时间、空间特性(时间序列数据、空间数据),要注意数据是否具备可比性、等方差性。 在回归模型的运用中,我们还强调定性分析与定量分析的有机结合。数理统计方法所研究的数量关系是否反映事物的本质?本质究竟如何?在实际问题中,我们不能仅凭样本数据估计的结果不加分析地定论,必须把参数估计的结果和学科理论知识、具体地质问题以及现实情况紧密结合,这样才能保证回归模型在地质问题研究中的正确应用。 当然,建立正确的数学模型,有效提取信息、有效解释变异和有效查明数量规律,对于地质概念和定义的多解性、地质假说及理论的可检验性可发挥特殊作用。 YOUR SITE HERE

36 第四节 逐步回归 YOUR SITE HERE

37 一、回归分析中变量选择问题 变量选择问题是一个十分重要的问题!
在实际问题中可以提出许多对应变量有影响的自变量,变量选择太少或不恰当,会使建立的模型与实际有较大的偏离; 而变量选得太多,增加了模型的复杂度,模型应用费用增加,并且有时也会削弱估计和预测的稳定性。 我们希望矿床值和各地质因素及找矿标志线性关系密切,即回归效果要好,同时方程中每个自变量对矿床值的影响显著而相互之间的相关很小(避免提供重叠信息)。这就存在回归方程中最优变量组合问题。 这样,既保证尽量高的预报精度,同时最大限度地减少自变量是运算方便又不失信息。 YOUR SITE HERE

38 “最优回归方程” 是指: ①对因变量有显著作用的自变量, 全部选入回归方程; ②对因变量无显著作用的自变量, 一个也不引入回归方程。
选择”最优回归方程”的方法有: 1.最优子集回归法 2.向后剔除法(backward selection) 3.向前引入法(forward selection) 4.逐步回归法(stepwise selection) 逐步选择法 YOUR SITE HERE

39 二、最优子集回归法 按一定准则选择最优模型,常用的准则有: ①校正决定系数(考虑了自变量的个数): R2adj达到最大。
②Cp准则(C即criterion,p为所选模型中变量的个数:Cp统计量达到最小 ③AIC准则 (Akaike’s Information Criterion) : AIC 越小越好 有p个可供选择的自变量,可能的回归方程有2p-1个。 YOUR SITE HERE

40 三、逐步选择法 1. 前进法(forward selection) ---只进不出 若max(Fj)>Fα,引入j变量
后退法(backward elimination)---只出不进 若min(Fj)<Fα,剔除j变量 3. 逐步回归法(stepwise regression)---有进有出 它们的共同特点是每一步只引入或剔除一个自变量。 决定其取舍则基于对偏回归平方和的F检验 此F检验与对j变量回归系数的t检验是一致的。 YOUR SITE HERE

41 前进法局限性:后续变量的引入可能会使 先进入方程的自变量变得不重要。
后退法局限性:自变量高度相关时,可能得不出正确的结果;开始时剔除的变量即使后来变得有显著性也不能再进入方程 。 双向筛选:引入有意义的变量(前进法),剔除无意义变量(后退法)--- 逐步回归 小样本检验水准 a 一般定为0.10或0.15, 大样本把a值定为0.05。 a值越小表示选取自变量的标准越严 YOUR SITE HERE

42 逐步回归分析的基本思想 在供选择的m个自变量中,依各自变量对因变量作用的大小,即偏回归平方和的大小,由大到小把自变量依次逐个引入。每引入一个变量,就对它进行假设检验。 当该自变量的偏回归平方和经检验是显著时,将该自变量引入回归方程。 新变量引入回归方程后,对方程中原有的自变量也要进行假设检验,并把贡献最小且退化为不显著的自变量逐个剔出方程。 因此逐步回归每一步(引入一个自变量或剔除一个自变量)前后都要进行假设检验,直至既没有自变量能够进入方程,也没有自变量从方程中剔除为止。 回归结束,最后所得方程即为所求得的“最优”回归方程。 YOUR SITE HERE

43 曲线估计(Curve Estimation)
对于一元回归,若散点图的趋势不呈线性分布,可以利用曲线估计方便地进行线性拟合(liner)、二次拟合(Quadratic)、三次拟合(Cubic)等。 采用哪种拟合方式主要取决于各种拟合模型对数据的充分描述(例如看修正Adjusted R2) rainfall and resulting water level changes data from a andslide along the Ohio River valley near Cincinnati, Ohio (Haneberg and Gökce, 1994) YOUR SITE HERE

44 实例 安徽××地区玢岩铁矿床 矿石矿物为磁铁矿
YOUR SITE HERE

45 已知 n=32 p=2 未知 m=7 x1 磁异常指数 x2 闪长玢岩出露面积比值 y 矿床经济价值(作对数变换)
UnitID x1 x2 y UnitID x1 x2 y x1 磁异常指数 x2 闪长玢岩出露面积比值 y 矿床经济价值(作对数变换) y < >3.5 矿点 小矿 大中矿 YOUR SITE HERE

46 y y X1 X2 X1 X2 y X2 X1 YOUR SITE HERE

47 y = *x *x2 yMean = SST = SSE = SSR = SST-SSE = YOUR SITE HERE

48 y X1 X2 YOUR SITE HERE

49 yfit y UnitID x1 x2 y yfit y-yfit 6 0.958 0.010 0.778 1.503 -0.725
yfit y YOUR SITE HERE

50 R2 = SSR/SST = 0.3786 F = (SSR/2)/(SSE/29) = 8.8350 p-value = 0.0010
= sqrt(SSE/29) = F0.01(2,29)=5.42 F0.05(2,29)=3.34 F0.1(2,29)=2.49 YOUR SITE HERE

51 YOUR SITE HERE

52 预测临界回归估计值 = 2.5 大中矿 >3.5 小矿 矿点 <2 已知单元8个 未知单元预测 UnitID x1 x2 y
29 1.602 0.001 1.711 30 1.193 34 0.750 1.229 44 1.021 1.523 48 2.672 34.500 3.746 49 1.740 1.756 51 1.491 22.000 2.752 YOUR SITE HERE

53 NOTES 本讲介绍的线性回归,仅仅是回归的一种,也是历史最悠久的一种。 但是,任何模型都是某种近似; 线性回归当然也不例外。
它被长期广泛深入地研究主要是因为数学上相对简单。 它已经成为其他回归的一个基础。 应该用批判的眼光看待这些模型。 YOUR SITE HERE

54 五、残差分析 残差图——以残差为纵坐标,以自变量为横坐标 回归分析中 存在异方差性 回归函数的形式应为曲线 标准化残差
YOUR SITE HERE

55 SST = SSR + SSE R2 = SSR/SST V.S. V.S. YOUR SITE HERE


Download ppt "回归分析法预测 (Regression Analysis)"

Similar presentations


Ads by Google