Presentation is loading. Please wait.

Presentation is loading. Please wait.

第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归.

Similar presentations


Presentation on theme: "第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归."— Presentation transcript:

1 第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归

2 4.1 简单相关分析 相关分析的基本概念 用INSIGHT模块作相关分析 用“分析家”作相关分析

3 相关分析的基本概念 1. 散点图 散点图是描述变量之间关系的一种直观方法。我们用坐标的横轴代表自变量X,纵轴代表因变量Y,每组数据(xi,yi)在坐标系中用一个点表示,由这些点形成的散点图描述了两个变量之间的大致关系,从中可以直观地看出变量之间的关系形态及关系强度。

4 图4-1就是不同形态的散点图。 (a) (b) (c) (d) 就两个变量而言,如果变量之间的关系近似地表现为一条直线,则称为线性相关,如图4-1(a)和(b);如果变量之间的关系近似地表现为一条曲线,则称为非线性相关或曲线相关;如图4-1(c);如果两个变量的观测点很分散,无任何规律,则表示变量之间没有相关关系,如图4-l(d)。

5 2. 相关系数 相关系数是对变量之间关系密切程度的度量。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为ρ;总体相关系数的计算公式为: 其中COV(X,Y)为变量X和Y的协方差,D(X)和D(Y)分别为X和Y的方差。

6 若相关系数是根据样本数据计算的,则称为样本相关 系数(简称为相关系数),记为r。样本相关系数的计 算公式为:

7 相关系数r有如下性质: ● 相关系数的取值范围:–1 ≤ r ≤ 1,若0 < r ≤ 1,表明X与Y之间存在正线性相关关系,若–1 ≤ r < 0,表明X与Y之间存在负线性相关关系。 ● 若r = 1,表明X与Y之间为完全正线性相关关系;若r = –1,表明X与Y之间为完全负线性相关关系;若r = 0,说明二者之间不存在线性相关关系。

8 相关系数r有如下性质: ● 当–1 < r < 1时,为说明两个变量之间的线性关系的密切程度,通常将相关程度分为以下几种情况:当| r | ≥ 0.8时,可视为高度相关;0.5 ≤ | r | < 0.8时,可视为中度相关;0.3 ≤ | r | <0.5时,视为低度相关;当| r | < 0.3时,说明两个变量之间的相关程度极弱,可视为不相关。但这种解释必须建立在对相关系数进行显著性检验的基础之上。

9 3. 相关系数的显著性检验 相关系数的显著性检验也就是检验总体相关系数是否显著为0,通常采用费歇尔(Fisher)提出的t分布检验,该检验可以用于小样本,也可以用于大样本。检验的具体步骤如下: 1) 提出假设:假设样本是从一个不相关的总体中抽出的,即 H0:ρ = 0;H1:ρ ≠ 0

10 p = P{| t | ≥ | t0 |} = 2P{t ≥ |t0|}
1) 提出假设:假设样本是从一个不相关的总体中抽出 的,即 H0:ρ = 0;H1:ρ ≠ 0 2) 由样本观测值计算检验统计量: 的观测值t0和衡量观测结果极端性的p值: p = P{| t | ≥ | t0 |} = 2P{t ≥ |t0|} 3) 进行决策:比较p和检验水平作判断:p < ,拒绝原假设H0;p  ,不能拒绝原假设H0。

11 4. 置信椭圆 可以生成两类置信椭圆: ● 均值置信椭圆:预测两变量均值的置信区域;
● 预测值置信椭圆:预测两变量分布个别观测值的置信区域。 关于预测值置信椭圆的两点说明: 1) 作为置信曲线,表示数据以设定的百分率(置信水平)落入的椭圆区域; 2) 作为相关性指标。若两个变量不相关,椭圆应该为圆;两个相关的变量有拉长的椭圆,可以用椭圆长短轴之比来衡量相关的程度。

12 用INSIGHT模块作相关分析 【例4-1】一家大型商业银行在多个地区设有分行,其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来,该银行的贷款额平稳增长,但不良贷款额也有较大比例的提高,这给银行业务的发展带来较大压力。为弄清楚不良贷款形成的原因,希望利用银行业务的为弄清楚不良贷款形成的原因,希望利用银行业务的有关数据做些定量分析,以便找出控制不良贷款的办法。表4-1就是该银行所属的25家分行2002年的有关业务数据。

13 银行想知道,不良贷款是否与贷款余额、应收贷款、贷款项目的多少、固定资产投资等因素有关?如果有,是一种什么样的关系?关系强度如何?
表4-1 某商业银行2002年的主要业务数据 银行想知道,不良贷款是否与贷款余额、应收贷款、贷款项目的多少、固定资产投资等因素有关?如果有,是一种什么样的关系?关系强度如何? 分行编号 不良贷款(亿元)x1 各项贷款余额(亿元)x2 本年累计应收贷款(亿元)x3 贷款项目个数(个)x4 本年固定资产投资额(亿元)x5 1 0.9 67.3 6.8 5 51.9 2 1.1 111.3 19.8 16 90.9 3 4.8 173.0 7.7 17 73.7 4 3.2 80.8 7.2 10 14.5 7.8 199.7 16.5 19 63.2 20 139.4 28 64.3 21 11.6 368.2 16.8 32 163.9 22 1.6 95.7 3.8 44.5 23 1.2 109.6 10.3 14 67.9 24 196.2 15.8 39.7 25 102.2 12.0 97.1

14 1. 制作散点图 设表4-1中数据已经存放在数据集Mylib.bldk中。 首先制作变量之间的散点图,以便判断变量之间的相关性。步骤如下:
1) 在INSIGHT模块中,打开数据集Mylib.bldk; 2) 选择菜单“Analyze(分析)”→“Scatter Plot (Y X)(散点图)”; 3) 在打开的“Scatter Plot (Y X)”对话框中选定Y变量:Y;选定X变量:x1、x2、x3、x4; 4) 单击“OK”按钮,得到变量的分析结果。

15 从各散点图中可以看出,不良贷款(Y)与贷款余额(x1)、应收贷款(x2)、贷款项目多少(x3)、固定资产投资额(x4)之间都具有一定的线性关系。但从各散点的分布情况看,与贷款余额(x1)的线性关系比较密切,而与固定资产投资额(x4)之间的关系最不密切。

16 2. 相关系数计算 1) 在INSIGHT模块中,打开数据集Mylib.bldk;
2) 选择菜单“Analyze(分析)”→“Multivariate (Y X)(多变量)”; 3) 在打开的“Multivariate (Y X)”对话框中选定Y变量:Y;选定X变量:x1、x2、x3、x4; 4) 单击“OK”按钮,得到分析结果。

17 结果显示各变量的统计量和相关(系数)矩阵,从相关 矩阵中可以看出,在不良贷款Y与其他几个变量的关系 中,与贷款余额(x1)的相关系数最大,而与固定资产投 资额(x4)的相关系数最小。

18 5) 为了检验各总体变量的相关系数是否为零,选择菜单:“Tables”→“CORR p-values”,得到相关系数为零的原假设的p值,如图4-6所示。

19 3. 置信椭圆 继续上述步骤。 6) 选择菜单:“Curves”→“Scatter Plot Cont Ellipse”→“Prediction:95%”,得到不良贷款与其他几个变量的散点图及预测值的置信椭圆,如图所示。 变量Y和x1间散点图上的这个椭圆被拉得很长,表明变量Y和x1之间有很强的相关性。

20 用“分析家”作相关分析 【例4-2】通常用来评价商业中心经营好坏的一个综合指标是单位面积的营业额,它是单位时间内(通常为一年)的营业额与经营面积的比值。对单位面积营业额的影响因素的指标有单位小时车流量、日人流量、居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分。这几个指标中车流量和人流量是通过同时对几个商业中心进行实地观测而得到的。而居民年平均消费额、消费者对商场的环境、设施及商品的丰富程度的满意度评分是通过随机采访顾客而得到的平均值数据。表4-2为从某市随机抽取的20个商业中心有关指标的数据,试据此说明变量间的相关程度。

21 设表4-2数据已保存在数据集Mylib.jyzk中。
表 个商业中心有关指标的数据 设表4-2数据已保存在数据集Mylib.jyzk中。 商业中心编号 单位面积年营业额(万元/平方米)Y 每小时机动车流量(万辆)x1 日人流量 (万人)x2 居民年消费额(万元)x3 对商场环境满意度x4 对商场设施满意度x5 对商场商品丰富程度满意度x6 1 2.5 0.51 3.90 1.94 7 9 6 2 3.2 0.26 4.24 2.86 4 3 0.72 4.54 1.63 8 3.4 1.23 6.98 1.92 10 5 1.8 0.69 4.21 0.71 0.9 0.36 2.91 0.62 15 2.6 1.04 5.53 1.30 16 2.7 1.18 5.98 1.28 17 1.4 0.61 1.27 1.48 18 1.05 5.77 2.16 19 2.9 1.06 5.71 1.74 20 0.58 4.11 1.85

22 1. 相关分析的设置 在“分析家”中作相关分析的步骤如下: 1) 在“分析家”中打开数据集Mylib.jyzk;
2) 选择主菜单“Statistics”→“Descriptive(描述性统计)”→“Correlations(相关)”,打开“Correlations”对话框,按图4-8 设置分析变量及内容。

23 2. 结果分析 显示结果首先给出各个变量的描述性统计量,包括观测总数、各变量的均值及标准差等。然后给出变量的相关系数矩阵(分析变量中任两者之间的相关系数),以及原假设为H0:Rho = 0(即H0:ρ = 0)的检验结果(仅给出p值),如图4-9所示。

24 从相关系数的取值来看,单位面积营业额(Y)与居民年消费额(x3)、日人流量(x2)接近高度相关;单位面积营业额(Y)与每小时机动车流量(x1)、对商场环境的满意度(x4)、对商场设施的满意度(x5)为低度相关;单位面积营业额(Y)与商场商品丰富程度满意度(x6)则属于中度相关。 从相关系数的假设检验结果来看,单位面积营业额(Y)与居民年消费额(x3)、日人流量(x2)、商场商品的丰富程度满意度(x6)、对商场设施的满意度(x5)的相关系数显著不为0(p <  = 0.05);另一方面,不能拒绝单位面积营业额(Y)与每小时机动车流量(x1)、对商场环境的满意度(x4)相关系数为0的假设。

25 3. 置信椭圆 在分析家窗口的项目管理器中依次双击“Scatter Plots”下的“Confidence ellipse:YX1”~“Confidence ellipse:YX6”项,得到各变量与单位面积营业额的散点图如图4-10。

26 图4-10 Y与x1、x2、x3、x4、x5、x6的散点图及置信椭圆

27 4.2 回归分析 4.2.1 回归分析的基本概念 4.2.2 用INSIGHT模块作回归分析 4.2.3 用“分析家”作回归分析
4.2 回归分析 回归分析的基本概念 用INSIGHT模块作回归分析 用“分析家”作回归分析 使用REG过程作回归分析

28 4.2.1 回归分析的基本概念 1. 回归模型 变量Y与其他有关变量X1,X2,…,Xk的关系 Y = f (X1,X2,…,Xk) + ε
回归分析的基本概念 1. 回归模型 变量Y与其他有关变量X1,X2,…,Xk的关系 Y = f (X1,X2,…,Xk) + ε 称为“回归模型”,其中ε为均值为0的随机变量。 当f为线性函数时,回归模型: Y = 0 + 1X1 + 2X2+…+ kXk+ ε 称为线性回归模型,本章主要讨论线性回归模型。特别地,当k = 1时称为一元线性回归模型。

29 2. 回归分析的内容与目的 ● 建立变量Y与X1,X2,…,Xk的经验公式(回归方程,预测公式),即从一组样本数据出发,确定出变量之间近似的数学关系式; ● 对经验公式的可信度进行检验; ● 判断每个自变量Xi(i = 1,2,…,k)对Y的影响是否显著; ● 对经验公式进行回归诊断(诊断经验公式是否适合这组数据); ● 利用合适的经验公式,根据自变量的取值对因变量的取值进行预测。

30 3. 线性回归模型(Line Regression model)
线性回归模型的一般形式为: Y = 0 + 1X1 + … + kXk +  其中0,1,…k,是未知的参数,是不可观测的随机变量,称为误差项,假定  N(0,2)。 如果有n次独立的观测数据(xi1,xi2,…,xik;yi)i = 1,2,…,n,则线性回归模型可以表示成如下形式: 其中1,2,…,n相互独立且服从N(0,2)分布。

31 上式可以简写成如下矩阵形式: Y = Xβ + ε 其中 , , ,

32 4. 参数与2的估计 若X的秩rank(X) = k + 1  n,参数的最小二乘估计为 可以证明, 为的无偏估计。
可以证明, 为的无偏估计。 当给出 的估计 后,将其代入回归模型并略去误差项,得到的方程 称为回归方程。利用回归方程可由自变量X1,…,Xk的观测值求出因变量Y的估计值(预测值)。

33 称 为残差向量,简称残差,其中I为n阶单位矩阵。
称 为残差平方和。 若rank(X) = k + 1  n,均方残差(MSE): 即为误差ε的方差(也是实测值Y的方差)2的无偏估计,均方残差有时也称为均方误差。

34 5. 有关统计量及回归方程的拟合优度 给定因变量Y与自变量X1,X2,…,Xk的n组观测值,就可以利用上述方法得到未知参数与2的估计,从而可以给出回归方程: 残差平方和(error sum of squares): 反映了除去Y与X1,X2,…,Xk之间的线性关系以外的因素引起的数据y1,y2,…,yn的波动。若SSE = 0,则每个观测值可由线性关系精确拟合,SSE越大,观测值与线性拟合值的偏差也越大。

35 模型平方和(model sum of squares):
反映了拟合值与其平均值的总偏差,即由变量X1,X2,…,Xk的变化引起的y1,y2,…,yn的波动。若SSM = 0,则每个拟合值均相等,即(i = 1,2, ,n)不随X1,X2,…,Xk的变化而变化,这实质上反映了1 = … = k = 0。 总变差平方和(total sum of squares) 反映了数据y1,y2,…,yn波动性的大小。

36 可以证明SST = SSM + SSE。因此,SSM越大,说明由线性回归关系描述的y1,y2,…,yn波动的比例就越大,即Y与X1,X2,…,Xk之间的线性关系越显著。
判定系数(determination coefficient): 可以解释为y1,y2,…,yn的总变化量SST中被线性回归方程所描述的比例。R2越大,说明该回归方程描述因变量总变化量的比例越大,从而拟合的误差平方和SSE就越小,即拟合效果越好。可见R2反映了回归方程对数据的拟合程度,是衡量拟合优劣的一个很重要的统计量。 R又被称为复(多重)相关系数。

37 对于多元回归的情形,常用修正R2(AdjR2)来代替R2,其定义为:
其中,若模型中包含截距0,则j = 1,否则j = 0。 多元回归分析中,我们通常用修正的判定系数AdjR2来评价回归方程的拟合优度。

38 另一个常用的评价回归方程的方法是Mallows的Cp选择法。这个方法类似于AdjR2法,Cp统计量定义为:
其中s2是全回归方程(包含所有k个自变量的回归方程)的MSE(均方误差),SSEp是包含常数项(如果存在的话)有p个参数的模型的残差平方和。如果画Cp对p的图形,Mallows建议选择Cp最接近p的那个模型。

39 H0:1 = … = k = 0;H1:1,…,k不全为0;
6. 显著性检验 显著性检验主要包括两个方面的内容:一是回归方程的检验,二是回归系数的检验。 (1) 回归方程的检验 检验的假设为: H0:1 = … = k = 0;H1:1,…,k不全为0; 检验统计量

40 利用SAS进行回归分析时,在方差分析表中提供SST 的分解值(Sum of Squares)、均方(Mean Square)、 F统计量的观察值F0(F Stat)和相应的p = P{F  F0}值 等。 若p值小于给定的显著水平,拒绝原假设H0,认为 在给定的显著水平下,Y与自变量X1,X2,…,Xk之 间线性回归关系是显著的,或称回归方程是显著的;否 则不能拒绝H0,说明Y与自变量X1,X2,…,Xk之间线 性回归关系不显著。

41 ti ~ t(n – k – 1),Fi ~ F(1,n – k – 1)。
(2) 回归系数的检验 检验的假设为: H0(i) i = 0; H1(i):i  0, i = 1,2,…,k 检验统计量为: 其中,Pi = SSM – SSM(i),这里SSM(i)为去掉Xi后剩余k – 1个自变量对Y的模型平方和(偏回归平方和)。 可以证明,当H0(i)成立时, ti ~ t(n – k – 1),Fi ~ F(1,n – k – 1)。

42 在SAS的多元回归分析中,根据一组观测数据 (xi1,xi2,…,xik,yi),i = 1,2,…,n,
计算统计量ti和Fi的观察值ti0和Fi0及相应的 pi = P{| ti |  | ti0|}和pi = P{Fi  Fi0}值。 若pi值小于给定的显著水平,拒绝原假设H0(i),认为在给定的显著水平下,i不为0,即认为Xi对Y的作用是显著的;否则不能拒绝i为0,认为Xi对Y的作用不显著,这时常称i未通过检验。

43 7. 回归诊断 对回归模型进行回归诊断的方法有很多,最重要的方法是残差分析和共线诊断(对多元回归的情况)。 (1) 残差分析
残差分析的目的是检验: ● 线性回归方程的可行性 ● 误差项的等方差假设 ● 误差项的独立性假设 ● 误差项正态分布的假设 ● 观测值中是否有异常值存在

44 1) 残差正态性的频率检验:残差正态性的频率检验是一种很直观的检验方法。其基本思想是将残差落在某范围的频率与正态分布在该范围的概率(或称为理论频率)相比较,通过二者之间偏差的大小评估残差的正态性。

45 在回归模型中,若假定i ~N(0,2),则
如果模型正确,则均方残差 是2的无偏估计。由于当n较大时, (i=1,2,…,n)可近似认为是取自标准正态分布总体的样本。 因此理论上,点 (i=1,2,…,n)中有大约68%应在(–1,1)内,87%应在(–1.5,1.5)内,95%应在(–2,2)内等等。如果残差在某些区间内的频率与上述理论频率有较大的偏差,则有理由怀疑 从而i(i=1,2,…,n)的正态性假定的合理性.

46 2) 残差图分析:凡是以残差为纵坐标,而以观测值yi,预测值 ,自变量Xj(j = 1,2,…,k)或序号、观测时间等为横坐标的散点图,均称为残差图。
如果线性回归模型的假定成立, 1, 2,…,n应相互独立且近似服从N(0,1),那么关于预测值的残差图中散点应随机地分布在–2到+2的带子里。这样的残差图称为正常的残差图,如图4-11左。 图中表明残差的方差随自变量的增大而增大,不是常数。图右表明回归方程中应包含自变量的二次项。

47 (2) 共线诊断 共线性诊断问题是要找出哪些变量间存在共线关系。检查共线性的方法很多,其中最简单的方法是计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验。如果有一个或多个相关系数是显著非0的,就表示模型中所使用的自变量之间具有相关性,因而存在着共线问题。

48 cii = (1 – R2(i))–1 (i = 1,2,…,k)
另外,如果出现下列情况,也暗示存在共线问题: ● 回归方程的F检验通过,而部分回归系数i的t检验未通过。 ● 回归系数的正负号与预期的相反。 ● 模型中增加或删除一个自变量对回归系数的估计值影响显著。 共线性严重程度的一种度量是方差膨胀因子(VIF)。记C = (cij) = (X'X)–1,R(i)为变量Xi对其余k – 1个自变量的线性回归模型的复相关系数。则有: cii = (1 – R2(i))–1 (i = 1,2,…,k)

49 可以证明, ,即cii与 的方差仅差一个因子,或者说cii是 的一个因子,称cii为方差膨胀因子。
并称TOL(i) = (1 – R2(i))为变量Xi的容差(Tolerance)。它和方差膨胀因子VIF(i) = cii互为倒数:VIF(i) = 1/TOL(i) R(i)度量Xi与其余变量的相关程度,若自变量间共线性严重,R(i)就接近1,这时,TOL(i)接近于0,而VIF(i)非常大。反之,若R(i)接近0,则VIF(i)和TOL(i)都趋近于1。 一般地,若VIF(i) > 10即可认为模型有很强的共线问题。

50 8. 利用回归方程进行预测 (1) 点预测 假设通过检验的“最优”回归方程为
当自变量的一组新观测值x0 = (x01,x02,…,x0k)对应的因变量的预测值为

51 (2) 区间预测 区间预测分为均值的预测区间和个体的预测区间。 若将 理解为E(y0)的预测值,则在给定的显著水平下,E(y0)的置信区间为 其中, , n为观测次数,k为自变量个数。 若将 理解为个体值y0的预测值,则在给定的显著水平下,y0的置信区间为

52 4.2.2 用INSIGHT模块作回归分析 1. 一元线性回归
【例4-3】根据例4-1的数据集Mylib.bldk,建立不良贷款的预测公式。 1. 一元线性回归 建立不良贷款对贷款余额的回归方程。 (1) 分析 1) 在INSIGHT模块中打开数据集Mylib.bldk。选择菜单“Analyze”→“Fit(Y X)”,打开“Fit(Y X)”对话框; 2) 在“Fit(Y X)”对话框中,将Y设为响应变量,将x1设为自变量; 3) 单击“OK”按钮,得到分析结果。

53 显示的结果分为若干张表: 第一张表提供关于拟合模型的一般信息,Y = x1表示这个分析是以Y为响应变量,x1为自变量的线性模型; 第二张表给出回归方程: 第三张表是带有回归直线的散点图,给出了回归的图形表示,如图;

54 图的下面是参数回归拟合表(图4-14)。其中判定系数R-Square(R2)为模型平方和占总平方和的比例,反映了回归方程能够解释的信息占总信息的比例;
第四张表提供拟合的汇总度量(图4-15):Mean of Response(响应变量的均值)是变量Y的平均值,Root MSE(均方残差平方根)是对各观测点在直线周围分散程度的一个度量值,为随机误差ε的标准差(也是实测值Y的标准差)的无偏估计。

55 第五张方差分析表(图4-16)包含对回归方程的显著检验:
对一元线性回归,第六张Ⅲ型检验表提供与方差分析表一样的检验,如图4-17;

56 第七张参数估计表给出了回归直线截距和斜率的估计值及其显著性检验等内容。在这个例子里,截距的p值 >  = 0
第七张参数估计表给出了回归直线截距和斜率的估计值及其显著性检验等内容。在这个例子里,截距的p值 >  = 0.05,表示模型还有改进的余地,可以考虑拟合截距为0的回归直线。斜率的t检验p值 < ,表明自变量贷款余额对因变量不良贷款有显著的线性关系,如图4-18所示。

57 (2) 回归诊断 在显示窗的底部有一个残差R_Y和预测值P_Y的散点图(图4-19左),这个图可以帮助验证模型的假定。从图中看出,数据点随机地散布在零线附近,表明模型中误差等方差、独立性的假设没有问题。

58 为了检验误差为正态分布的假定,回到数据窗口。可以看到残差R_Y和预测值P_Y已加到数据集之中,可以用Distribution(Y)来验正残差的正态性。
1) 选择菜单“Analyze(分析)”→“Distribution (Y)(分布)”,打开“Distribution (Y)”对话框。在数据表BLDK的变量列表中,选择R_Y,然后单击“Y”按钮,R_Y被选为分析变量; 2) 单击“OK”按钮; 3) 选择菜单“Curves”→“Test for Distribution”; 4) 在打开的“Test for Distribution”对话框中单击“OK”按钮即可。

59 在分析结果的Test for Distribution(分布检验)表(图4-20)中看到,p值大于0

60 (3) 利用回归方程进行估计和预测 例如,要估计贷款余额为100亿元时,所有分行不良贷款的平均值。 1) 回到数据窗口,点击数据表的底部,增加一个新行;在第一个空行中,在x1列填入100,并按Enter键; 2) 自动计算出Y的预测值并将结果显示在P_Y列之中,这样可以得到任意多个预测值。上图表明,贷款余额为100亿元时,所有分行不良贷款的平均值约为2.96亿元。

61 (4) 拟合不含常数项的回归 要拟合常数项为零的回归模型,只需在上述步骤中的“Fit(Y X)”对话框中取消“Intercept”复选项,如图4-22所示。 单击“OK”按钮后,得到的回归模型为: 拟合汇总表显示判定系数R-Square为0.8556,有所提高,如左图所示。

62 另外,回归方程的显著性检验以及x1的显著性检验都已通过。
同上面一样,选择菜单“Curves”→“Test for Distribution”对残差进行正态性检验,结果如图4-24所示,因p值>.15>0.05,应接受原假设,认为残差为正态性分布。 所以,模型 是合适的,用其对不良贷款进行预测会更符合实际。

63 2. 多元线性回归 【例4-4】引入数据集Mylib.BLDK中的所有4个自变量对不良贷款建立多元线性回归。 (1) 分析步骤
在INSIGHT模块中打开数据集Mylib.BLDK。 1) 选择菜单“Analyze”→“Fit(Y X)(拟合)”,打开“Fit(Y X)”对话框; 2) 在“Fit(Y X)”对话框中,选择变量Y,单击“Y”按钮,将Y设为响应变量;选择变量x1、x2、x3、x4,单击“X”按钮,将x1、x2、x3、x4设为自变量; 3) 单击“OK”按钮,得到分析结果。

64 在显示的结果中可以看到,多元回归分析的输出类似于一元线性回归的输出,同样分为七张表:
第一张表提供关于拟合模型的一般信息; 第二张表给出模型方程(即回归方程),如图4-26。 可知回归方程为:

65 第三张模型拟合汇总表(图4-27)表明R-Square为0
第三张模型拟合汇总表(图4-27)表明R-Square为0.7976,比一元线性回归模型有一定提高,但不足以说明模型优于一元回归模型,因为在模型中增加自变量总能提高R-Square。 Adj R-Sq(修正R2)考虑了加入模型的变量数,在比较不同多元模型时用Adj R-Sq更合适。如在这里它为0.7571,而在简单模型中为0.6991,说明这一模型比一元线性模型更多地说明变量Y的变化。

66 第四张方差分析表中(下图左),看到p值<0
III型检验表(上图右)与参数估计表(下图)给出各个自变量的回归系数为零的假设检验,各自变量的回归系数的F检验与t检验在这里是一致的。 参数估计表(上图右)包括截距的显著性检验,还给出了容差(Tolerance)和方差膨胀因子(VIF)。

67 两表中自变量x2、x3、x4的回归系数假设检验的p值较大,说明这些自变量对Y的影响不显著,这种情况可能是这些变量对预测Y值作用不大,也可能是由于这些变量之间的高度相关性所引起的共线问题。如果自变量之间具有高度的共线关系,则它们所提供的预测信息就是重复的,在参数(回归系数)检验中这些变量的显著性就可能被隐蔽起来,故应考虑剔除一些自变量,重新拟合回归方程。(本例中x1的方差膨胀系数较大,说明x1与其余自变量有一定的线性关系)

68 (2) 剔除自变量 在上面的例子中首先考虑剔除变量x3,对此只需在刚才已打开的拟合窗的任一处选中变量x3,如图4-31所示,再在主菜单中选择“Edit”→“Delete”所有的结果就会修改为不含x3的拟合结果。 类似地剔除作用不显著的自变量x2,得到拟合结果如图4-32所示。

69 从图4-32所示的拟合结果可以看到,回归方程的显著性检验以及x1、x4的显著性检验都已通过。但是方程的判定系数R2还不如前述一元回归方程 的判定系数大。因此,考虑进一步优化模型,拟合不含常数项而仅含x1、x4的回归方程。

70 拟合结果如图4-33所示。 结果显示,回归方程为: 结果还可以看到,回归方程的显著性检验以及x1、x4的显著性检验都已通过,方程的修正判定系数Adj R2也比前述所有回归方程的Adj R2大,因此采用该回归模型更为合适。

71 4.2.3 用“分析家”作回归分析 【例4-5】根据例4-2中的数据集Mylib.jyzk,建立单位面积营业额的预测公式。
用“分析家”作回归分析 【例4-5】根据例4-2中的数据集Mylib.jyzk,建立单位面积营业额的预测公式。 在“分析家”中打开数据集Mylib.jyzk。

72 1. 一元线性回归 (1) 分析步骤 选择主菜单“Statistics(统计)”→“Regression(回归)”→“Linear(线性)”,打开“Linear Regression(线性回归)”对话框,按图4-34设置分析变量,

73 在显示的输出结果中, p值<.0001< α = 0.05,所以模型的作用是显著的。
参数估计部分列举了回归方程中两个参数的值以及有关的显著性检验的结果。拟合的回归方程为: t检验的结果表明x2的系数显著不为0。

74 (2) 制作散点图 在上述操作打开的“Linear Regression”对话框中,单击“Plots”按钮。在打开的“Linear Regression:Plots”对话框中,选择“Predicted”选项卡,选中“Plot observed vs independent”复选框。单击“OK”按钮,得到分析结果,包含响应变量Y与解释变量x2的散点图,如图4-36右所示。

75 (3) 拟合不含常数项的回归 在“Linear Regression”对话框中单击“Model”按钮,在打开的“Linear Regression:Model”对话框中选中“Do not include an intercept”复选框,如图4-37;

76 在显示的输出结果中, p值 <. 0001< α = 0
在显示的输出结果中, p值 <.0001< α = 0.05,所以模型的作用是显著的。在汇总的信息中,显示了R2和校正R2分别为0.9540和0.9516,远远高于含有常数项的回归模型。 参数估计部分表明t检验的结果x2的系数显著不为0,拟合的回归方程为:

77 2. 多元线性回归 【例4-6】引入数据集Mylib.jyzk中所有6个自变量对因变量单位面积营业额Y建立多元线性回归。 (1) 分析步骤
1) 选择主菜单“Statistics” → “Regression” → “Linear”,打开“Linear Regression(线性回归)”对话框,按下图所示进行多元线性回归分析;

78 显示的分析结果表明模型的作用是显著的(F统计量的值为268.30,p值<0.0001<0.05 = α)。
参数估计部分表明拟合的回归方程为: y = – x x x x4 – x5 – x6 参数显著性检验表明,进入回归的6个自变量,其作用在其它变量进入回归的前提下并不都是显著的。例如x1、x4、x5、x6的作用就不显著。

79 (2) 逐步回归 “分析家”中选择变量的方法很多,在上述步骤的“Linear Regression”对话框中,单击“Model”按钮,打开“Linear Regression:Model”对话框。 在“Method”选项卡中包含多种变量的选择方法,选择其中一种,例如选择“Backward elimination(逐步剔除法)”,如图4-41所示。

80 继续剔除进入回归的变量中最不显著的自变量x6,…,直到所有的参数显著不为0。结果如图4-42所示。
参数估计部分表明拟合的回归方程为: 模型的R2为0.9902,C(p)值较小(仅为3.8425);方差分析中模型的作用也是显著的(F统计量的值为540.98,p值<0.0001<0.05 = α)。

81 4.2.4 使用REG过程作回归分析 1. REG过程的语法格式 REG过程的基本用法为:
PROC REG DATA=<输入数据集> [<选项列表>]; VAR <变量列表>; MODEL <因变量> = <自变量表>/<选项>; PRINT <选项列表>; PLOT <y变量名*x变量名> [=<符号>] [/<选项列表>]; RUN;

82 说明: MODEL语句用以指定所要拟合的回归模型,其后的选项与REG语句的选项类似。 PLOT语句用以对两个变量绘制散点图,表达式中位置在前(在乘号“*”之前)的变量作为散点图的y轴,位置在后的变量作为散点图的x轴。等号后的符号为散点图中表示点的图形符号,此项内容可省略,SAS会用默认方式显示图形,但如需指定,符号要用单引号括起来。对于同一个模型可以指定多个plot语句。 PRINT语句用于交互地显示MODEL语句中的有关选项,可以将拟合模型的有关统计量显示在结果中。

83 2. 多元回归 【例4-7】使用REG过程对数据集Mylib.jyzk中所有6个自变量与因变量单位面积营业额Y建立多元线性回归。
proc reg data = Mylib.jyzk; var y x1 – x6; model y = x1 – x6; run;

84 3. 逐步回归 我们发现有些变量的作用不显著,所以使用REG提供的自动选择最优自变量子集的选项。
在MODBL语句中加上“SELECTION = 选择方法”的选项就可以自动挑选自变量,选择方法有NONE(全用,这是缺省),FORWARD(向前逐步引入法),BACKWARD(向后逐步剔除法),STEPWISE(逐步筛选法),MAXR(最大R2增量法),MINR(最小R2增量法),RSQUARE(R2选择法),ADJRSQ(修正R2选择法),CP(Mallows的Cp统计量法)。

85 可得到逐步筛选法的分析结果,如图4-44~4-47所示。
比如,我们用如下程序: model y = x1 – x6 / selection=stepwise; run; 可得到逐步筛选法的分析结果,如图4-44~4-47所示。

86 图4-45 逐步筛选法第2步

87 图4-46 逐步筛选法第3步

88 最后结果表明,只有变量x2、x3、x4进入了模型,而其它变量则不能进入模型。
图4-47 最终结果模型 最后结果表明,只有变量x2、x3、x4进入了模型,而其它变量则不能进入模型。

89 4. 预测 REG过程给出的缺省结果比较少。用PRINT语句和PLOT语句可以显示额外的结果。为了显示模型的预测值(拟合值)和预测值的95%置信区间,使用语句: print cli; run; 得到如图4-48所示的结果。 用print cli列出的是预测值的置信区间,使用如下语句还可以列出模型均值的置信区间: print clm;

90 图4-48 预测值和95%置信区间

91 5. 散点图 对于自变量是一元的情况,可以在自变量和因变量的散点图上附加回归直线和均值置信界限。比如,
plot y*x2/conf95; run; 可以产生图4-49,在图的上方列出了回归方程,右方还给出了观测个数、R2、修正的R2、根均方误差。

92 4.3 非线性回归 多项式回归 可化为线性回归的一元非线性回归

93 多项式回归 1. 问题 【例4-8】某大型牙膏制造企业为了更好地拓展产品市场,有效地管理库存,公司董事会要求销售部门根据市场调查,找出公司生产的牙膏销售量与销售价格、广告投入等之间的关系,从而预测出在不同价格和广告费用下的销售量。为此,销售部的研究人员收集了过去30个销售周期(每个销售周期为4周)公司生产的牙膏的销售量、销售价格、投入的广告费用,以及同期其它厂家生产的同类牙膏的市场平均销售价格,见表4-3。

94 其中价格差指其它厂家平均价格与公司销售价格之差。
表4-3 牙膏销售量与销售价格、广告费用等数据 其中价格差指其它厂家平均价格与公司销售价格之差。 表中数据已存放在数据表Mylib.yagao中,试根据这些数据建立一个数学模型,分析牙膏销售量与其它因素的关系,为制订价格策略和广告投入策略提供数量依据。 销售周期 公司销售价格(元) 其它厂家平均价格(元) 广告费用(百万元) 价格差(元) 销售量(百万支) 1 3.85 3.80 5.50 -0.05 7.38 2 3.75 4.00 6.75 0.25 8.51 3 3.70 4.30 7.25 0.60 9.52 4 7.50 27 3.65 6.50 8.27 28 5.75 7.67 29 5.80 0.05 7.93 30 4.25 6.80 0.55 9.26

95 2. 分析与假设 由于牙膏是生活必需品,对大多数顾客来说,在购买同类产品的牙膏时更多地会在意不同品牌之间的价格差异,而不是它们的价格本身。因此,在研究各个因素对销售量的影响时,用价格差代替公司销售价格和其它厂家平均价格更为合适。 记牙膏销售量为y,其它厂家平均价格与公司销售价格之差(价格差)为x1,公司投入的广告费用为x2,其它厂家平均价格和公司销售价格分别为x3和x4,x1 = x3 – x4。基于上面的分析,我们仅利用x1和x2来建立y的预测模型。

96 3. 基本模型 为了大致地分析y与x1和x2的关系,首先利用表4-3的数据分别作出y对x1和x2的散点图,代码如下: data yagao;
set Mylib.yagao; proc gplot data = yagao; plot y*x1=1 y*x2=2; symbol1 v=star i=rl cv=orange ci=blue w=1; symbol2 v=star i=rq cv=orange ci=blue w=1; run;

97 从左图可以发现,随着x1的增加,y的值有比较明显的线性增长趋势,图中的直线是用线性模型
(1) 拟合的(其中是随机误差);而在右图中,当x2增大时,y有向上弯曲增加的趋势,图中的曲线是用二次函数模型 (2) 拟合的。综合上面的分析,结合模型(1)和(2)建立如下的回归模型 (3)

98 4. 模型求解 使用如下过程代码: 代码执行结果分为三个部分,如图所示为前两个部分:方差分析和参数估计。 data yagao;
set Mylib.yagao; x2x2=x2*x2; proc reg data = yagao; var y x1 x2 x2x2; model y = x1 x2 x2x2; print cli; run; 代码执行结果分为三个部分,如图所示为前两个部分:方差分析和参数估计。

99 5. 结果分析 1) 方差分析的结果显示,R2 = 表明因变量y(销售量)的90.54%可由模型确定,F值远远超过F检验的临界值,p值<0.0001远小于,因而模型(3)从整体来看是可用的。 2) 参数估计给出了模型(3)中0,1,2,3的估计值,即0 = ,1 = ,2 = ,3 = 。只有2的t检验p值 = ,略高于0.05的水平。回归模型为: (4)

100 3) 统计输出显示了销售量y的观测值、预测值、标准差、预测值的95%置信上限与95%置信下限、残差,如图4-53所示。

101 6. 销售量预测 根据回归模型(4),只需知道该销售周期的价格差x1和投入的广告费用x2,就可以计算预测值,即可预测公司未来某个销售周期牙膏的销售量y。比如公司计划在未来的某个销售周期中,维持产品的价格差为x1 = 0.2元,并将投入x2 = 6.5百万元的广告费用,则该周期牙膏销售量的估计值为y =  ( )   6.52 = 百万支。

102 7. 模型改进 根据直觉和经验可以猜想,x1和x2之间的交互作用会对y有影响,不妨简单地用x1,x2的乘积代表它们的交互作用,于是将模型(3)增加一项,得到 (5) 在这个模型中,y的均值与x2的二次关系为,由系数2,3和4确定,并依赖于价格差x1。

103 使用如下过程代码: data yagao; set Mylib.yagao; x2x2=x2*x2; x1x2=x1*x2;
proc reg data = yagao; var y x1 x2 x2x2 x1x2; model y = x1 x2 x2x2 x1x2; print cli; run;

104 与图4-52的结果相比,R2与Adj-R2都有所提高,说明模型(5)比模型(3)有所改进。并且,所有参数t检验的p值均小于0
(6) 用公式(6)对公司的牙膏销售量作预测。仍设在某个销售周期中,维持产品的价格差x1 = 0.2元,并将投入x2 = 6.5百万元的广告费用,则该周期牙膏销售量y的估计值为: =  0.2 –   6.52 –  0.2  6.5 = (百万支)

105 可化为线性回归的一元非线性回归 表4-4给出了一些常见的可线性化的一元非线性模型,对线性化后的线性模型可以利用SAS的前述方法进行一元线性回归分析。 表4-4 典型函数及线性化方法 函数名称 函数表达式 线性化方法 双曲线函数 1/y = a + b/x u = 1/x v = 1/y 幂函数 y = axb u = lnx v = lny 指数函数 y = aebx u = x v = lny y = aex/b u = 1/x v = lny 对数函数 y = a + blnx u = lnx v = y S型函数 u = e-x v = 1/y

106 下面通过一个具体实例说明一元非线性回归分析的方法: 【例4-9】炼钢厂考虑钢包的重量y与试验次数x的关系。
假定数据已存如数据集Mylib.gbzl,下面分三步进行分析建立模型: 序号 x y 1 2 106.42 8 11 110.59 3 108.20 9 14 110.60 4 109.58 10 15 110.90 5 109.50 16 110.76 7 110.00 12 18 111.00 6 109.93 13 19 111.20 110.49

107 1. 确定回归函数可能形式 为确定可能的函数形式,首先描出数据的散点图。步骤如下:
1) 在INSIGHT模块中,打开数据集Mylib.gbzl; 2) 选择菜单“Analyze”→“Scatter Plot(Y X)”; 3) 在打开的“Scatter Plot(Y X)”对话框中选定Y变量:Y;选定X变量:X;单击“OK”按钮,得到变量Y对X的散点图,如图4-58所示。

108 v = a + bu,y = a + bw,y = a + bz
散点图呈现出明显的向上且上凸的趋势,可能选择的函数关系有很多,比如可以给出如下三种曲线函数: , , 令 、 、 、 ,三种曲线函数又可以表示为: v = a + bu,y = a + bw,y = a + bz

109 2. 变量变换 在INSIGHT模块中,打开数据集Mylib.gbzl,选择主菜单“Edit”→“Variables”→“Other”,打开“Edit Variables”对话框;如图4-59所示分别增加四个变量: 、 、 和 后,得到数据集如图4-60所示。

110 图4-60 新数据集

111 分别做v对u、y对w和y对z散点图,从散点图(如图4-61)可以看出变换后的两变量的关系接近线性,可以考虑建立线性回归模型。

112 3. 回归方程的比较 利用4.2.2中介绍的INSIGHT的功能分别建立v和u、y和w及y和z线性回归方程为:
模型的各项检验结果如图4-62。

113 2) y = w 模型的各项检验结果如图4-63。

114 3) y = z 模型的各项检验结果如图4-64。

115 从上面三个的结果看,三个线性模型均有效。其中第一个模型的判定系数R2最大、剩余标准差最小,所以第一个方程拟合得最好,所以应选用线性回归方程v = u,原数据的回归方程为:


Download ppt "第四章 相关分析与回归分析 4.1 简单相关分析 4.2 回归分析 4.3 非线性回归."

Similar presentations


Ads by Google