Presentation is loading. Please wait.

Presentation is loading. Please wait.

第四章 多重共线性和 虚拟变量的应用.

Similar presentations


Presentation on theme: "第四章 多重共线性和 虚拟变量的应用."— Presentation transcript:

1 第四章 多重共线性和 虚拟变量的应用

2 本章要点 多重共线性的含义 多重共线性产生的原因 多重共线性的后果 判断多重共线性的方法及其修正方法 虚拟变量的设置原则 虚拟变量模型的应用
邹氏检验的做法及缺陷 虚拟变量法检验结构稳定性的优点

3 多重共线性的概念 多重共线性(multicollinearity)一词最早由挪威经济学家弗瑞希(R.Frisch)于1934年提出。
其原义是指回归模型中的一些或全部解释变量中存在的一种完全(perfect)或准确(exact)的线性关系。而现在所说的多重共线性,除指上述提到的完全多重共线性(perfect multicollinearity ),也包括近似多重共线性(near multicollinearity)。

4 为对上述两概念加以区别,我们以一组解释变量
为例 如果存在一组不完全为零的常数 满足 ,即任一变量都可以由其它变量的线性组合推出,则这组变量满足完全多重共线性。 若变量组 , 满足如下关系式 ,其中u表示随机误差项,即某一变量不仅取决于其它变量的线性组合,也取决于随机误差项,此时变量组之间存在非严格但近似的线性关系,解释变量之间高度相关,也即变量组存在近似多重共线性关系。

5 多重共线性产生的原因 多重共线性问题在金融数据中是普遍存在的,不仅存在于时间序列数据中,也存在于横截面数据中。具体而言,多重共线性产生的原因主要有以下几点: (1)数据收集及计算方法。 (2)模型或从中取样的总体受到限制。 (3)模型设定偏误。 此外,在观测值个数较少,以至于小于解释变量个数时,也会产生多重共线性;时间序列数据中,若同时使用解释变量的当期值和滞后值,由于当期值和滞后值之间往往高度相关,也容易产生多重共线性。

6 多重共线性的后果 多重共线性不会改变最小二乘估计的无偏性,但在解释变量之间存在严重的多重共线性而被忽略时,会对模型的估计、检验与预测产生严重的不良后果。以某一离差形式(即 )表示的二元线性回归模型 为例 若存在完全多重共线性,假设存在关系 常数 。则 的估计值 同理 也是无法确定的,即不能求得参数估计值。

7 而对于参数估计值的方差,有 同理, 的方差也是无限大的。因此,当存在完全多重共线性时,我们将不能求得参数估计值,参数估计值的方差无限大。 当存在近似多重共线性时,尽管可以求得参数估计值,但它们是不稳定的,同时参数估计值的方差将变大,变大的程度取决于多重共线性的严重程度。

8 在实际金融数据中,完全多重共线性只是一种极端情况,各种解释变量之间存在的往往是近似多重共线性,因此通常所说多重共线性造成的后果是指近似多重共线性造成的后果,具体而言,它将造成如下的后果:
(1)回归方程参数估计值将变得不精确,因为 较大的方差将会导致置信区间变宽。 (2)由于参数估计值的标准差变大,t值将缩小,使得t检验有可能得出错误的结论 。 (3)将无法区分单个变量对被解释变量的影响作用。

9 多重共线性的检验 如前所述,多重共线性普遍存在于金融、经济数据中,因此对多重共线性的检验并不是要确定其是否存在,而是要确定多重共线性的程度。
由于多重共线性是对被假定为非随机变量的解释变量的情况而言的,所以它是一种样本而非总体特征,这决定了我们只能以某些经验法则(rules of thumb)来检验模型的多重共线性。 对多重共线性的检验主要包括以下内容: (1)检验多重共线性问题是否严重 (2)多重共线性的存在范围,即确定多重共线性 是由哪些主要变量引起的。 (3)多重共线性的表现形式,即找出与主要变量 有共线性的解释变量。

10 检验多重共线性问题是否严重 若回归模型的 值高(如 >0.8),或F检验值显著,但单个解释变量系数估计值却不显著;或从金融理论知某个解释变量对因变量有重要影响,但其估计值却不显著,则可以认为存在严重的多重共线性问题。 若两个解释变量之间的相关系数高,比如说大于0.8,则可以认为存在严重的多重共线性。

11 判断多重共线性的存在范围 要确定多重共线性是由哪些主要变量引起的,可以采用辅助回归法(auxiliary regression method)。所谓辅助回归是指某一解释变量对其余解释变量的回归,区别于因变量对所有解释变量回归的主回归(main regression)。 辅助回归法构造的检验统计量定义如下: 服从自由度为k-1与n-k的F分布 其中 (i=1,2,…k)为第i个解释变量 关于其余解释变量的辅助回归的拟和优度,k为解释变量的个数,n代表样本容量。

12 检验多重共线性的表现形式 当确定多重共线性是由哪些主要变量引起后,若要找出与主要变量有共线性的解释变量,即确定多重共线性的表现形式,可采用偏相关系数法。解释变量 与 偏相关系数即是在其它的解释变量固定的情况下它们之间的相关系数。 偏相关系数法构造的检验统计量定义如下: ,服从自由度为n-k-1的t分布 其中n为样本容量,k为解释变量的个数, 为 与 的偏相关系数。若 显著不为零,则认为 、 是引起多重共线性的原因,否则不是。

13 多重共线性的修正 如前所述,多重共线性在金融数据中是普遍存在的,是否对多重共线性采取修正措施取决于多重共线性的严重程度。
若多重共线性程度较轻微,并不严重影响系数估计值(符号正确,t值显著),则可以忽略多重共线性问题。若多重共线性对重要因素的系数估计值有严重的影响,则必须进行补救。 采取何种补救措施,则取决于多重共线性因素的重要性、其它数据来源的可用性、所估计模型的目的以及其它需要考虑的事项。以下将介绍几种补救措施。

14 多重共线性的修正 一、删除不必要的变量 如果在产生多重共线性的因素中有相对不重要的变量,则可试着将其删除,这是解决多重共线性最简单的方法,但删除变量也可能会导致新问题的产生: (1)被删除变量对因变量的影响将被其它解释变量和随机误差项所吸收,这可能一方面解决了一部分变量的多重共线性问题,但另一方面却又同时增强了另一部分变量的多重共线性问题,而且,还可能使随机误差项的自相关程度增强。 (2)删除某个变量可能会导致模型设定误差(specification error)。所谓模型设定误差,指的是在建立回归模型的过程中,因为错误设定模型结构而产生的误差。错误的删除解释变量将会导致最小二乘估计值是有偏的。

15 二、改变解释变量的形式。 1、差分法 对于时间序列数据而言,若原始变量存在严重的多重共线性,则可以考虑对变量取差分形式,可在一定程度上降低多重共线性的程度。例如对于模型 ,可把变量变换为差分形式: 2、指数增长率方法 例如研究三种指数 关系时,可用如下模型:

16 3、以比率代替高度相关的变量 若模型中存在高度相关的变量,在不违反金融理论的前提下,可以求得两者之间的比率,并以此比率代替相应变量出现在模型中。
例如对于模型 ,若 与 之间高度相关,且模型的目的是用于预测,则可令 ,则 可在一定程度上消除多重共线性 此外,当模型中有 较多解释变量的滞后值,并存在严重多重共线性时,可以考虑用被解释变量的滞后值代替解释变量的滞后值;以人均形式的变量代替总体变量在某些状况下也可以在一定程度上降低多重共线性的程度。

17 多重共线性的修正 三、补充新数据。 由于多重共线性是一样本特征,故有可能在关于同样变量的另一样本中共线性没有第一个样本那么严重。Christ(1966)认为:解释变量之间的相关程度与样本容量成反比,即样本容量越小,相关程度越高;样本容量越大,相关程度越小。因此,收集更多观测值,增加样本容量,就可以避免或减轻多重共线性的危害。

18 多重共线性的修正 四、利用先验信息法。 这里的先验信息,包括从金融理论以及实际统计资料所获得的解释变量或所估计参数之间的关系。若发生多重共线性的那些解释变量之间的关系可由先验信息得到,则在所研究的模型中利用这种关系,便可以减轻多重共线性的程度。

19 金融数据的多重共线性处理 :示例 理论上,股票代表着对公司未来现金流的所有权,因此,公司未来的收益以及利息是股票价格的决定因素。而宏观经济形势能够影响到公司未来的收益,进而对股票价格产生影响。同时宏观经济形势也能够通过其它的一些渠道直接对股票价格产生影响。我们将以整个股票市场为研究对象,来考虑影响股票价格指数的宏观经济因素以及它们的影响程度。我们将采取从一般到特别的建模方式,即首先将模型中包含尽可能多的变量,然后通过各种检验逐步剔出对因变量没有解释能力的变量。

20 对影响股票价格指数宏观经济因素 的实证分析
我们选择上证综指(以Y表示)作为股票价格指数的代表。对于影响股票价格指数的宏观经济因素,初步选定如下的十个宏观变量:居民消费物价指数、商品零售物价指数、企业商品价格指数、工业增加值、固定资产投资、社会消费品零售总额、股市成交量、外汇市场交易量、汇率、货币供应量m1、进出口额。分别以 至 代表。其中前三个价格指数从不同侧面反映了我国的市场环境,而则从不同侧面反映了整体经济状况,反映了我国金融环境的影响,股市成交量从一个侧面反映了股市状况。我们采用的数据是从2000.1-2004.9月的月度数据,对于价格指数变量以及汇率,我们以原变量形式进入模型,而对于其它变量,我们取其对数形势进入模型。

21 在对数据调整后,我们建立如下的模型: 利用普通最小二乘法回归方程,得到如下的结果: 去掉不显著的变量,对模型重新回归得到:

22 在10%的显著性水平下,变量系数估计值的t值都是显著的,模型的 =0. 78, =0
在10%的显著性水平下,变量系数估计值的t值都是显著的,模型的 =0.78, =0.75,总体上看模型是不错的。尽管估计值的t值是显著的,我们仍来检验该模型解释变量之间是否存在多重共线性,因为若两个变量之间存在高度相关并且符号相反,他们的作用就会相互抵消,从而有可能两个变量都是显著的。 首先,根据 和 t 值,我们无法发现多重共线性,因此我们将利用变量之间的相关系数来判断。

23 在Eviews 软件中,要获得检验解释变量两两之间的相关系数矩阵是很容易的,我们只需在命令窗口中键入“COR”命令以及相应的解释变量。
图4-1 相关系数矩阵

24 分别删除 、 再进行回归得到的结果如下: 图4-2 删除 后的回归结果

25 图4-3 删除 后的回归结果

26 分别删除X6 、 X10后得到的结果如下: 图 4-4 删除X6 后的回归结果

27 图4-5 删除X10后的回归结果

28 最后得到的模型是: 我们之所以在原回归方程系数估计值都显著的情况下仍进行多重共线性检验,并删除一些变量,是因为在金融计量学中,在保证模型一定解释能力的情况下,尽可能的使模型简洁,是我们应该始终坚持的一个原则。 在这个例子中,我们仅考虑了对模型解释变量的多重共线性检验,在实际建模以及估计过程中,还应该考虑模型的自相关性、异方差性等的检验。

29 虚拟变量模型 在本章余下的四节中,我们将讨论虚拟变量在回归分析中的应用。
虚 拟变量既可以作为解释变量出现在模型中,也可以作为因变量出现在模型中,我们统称这类含虚拟变量的经济计量模型为虚拟变量模型。

30 虚拟变量的性质 在金融计量学中,所考虑的变量除了可以直接度量的数量变量(如价格、收益、收入等)之外,还有实质上是定性性质的变量,如性别、国家、战争及政府经济政策的变动等。这类定性变量常指某一性质、属性出现或不出现,例如男性或女性,中国人或外国人,战争期间或非战争期间等。由于其不能直接度量,为研究方便,可构造一个变量,令其取值为1或为0,取值为0时表示某一性质出现(不出现),取值为1时表示某性质不出现(出现),该变量即为虚拟变量(dummy variables)。

31 一般的,在虚拟变量的设置中,基础类型、否定类型取值为“0”,称为基底(base)类、基准(benchmark)类或参考(reference)类;而比较类型、肯定类型取值“1”。
虚拟变量和定量变量在回归模型中的应用是一样的。若一个模型中的解释变量全部都是虚拟变量,则此模型被称为方差分析模型(Analysis of Variance Model);若解释变量中既有定量变量,又有虚拟变量,则该线性回归模型可称为协方差分析模型(Analysis of Covariance Model)。

32 例子 在我国上市公司中,个人做第一大股东的现象还非常少,主要是国家或法人作为公司的第一大股东。而国家作为第一大股东与法人相比,除了公司业绩,还有其它考虑,例如就业、形象工程、负责人升迁、上缴利税等,这些目标都或多或少有悖于公司利润最大化的目标。另外,国家控股的公司由国家选择代理人,而这些代理人往往是行政人员或官僚出身,没有经营管理的特长,进一步制约上市公司绩效的发挥。因此,总体而言,国家作为第一大股东的上市公司的绩效要低于法人做第一大股东的上市公司的绩效。为验证上述结论,我们建立如下的模型:

33 其中 为每股收益,用以代表公司绩效。 的定义方式如下:
1,国家是公司i的第一大股东 = 0,法人是公司i的第一大股东 由模型可以得到: 国家为第一大股东平均每股收益: ︱ = 法人为第一大股东平均每股收益: ︱ =0)=

34 虚拟变量的设置原则 许多金融现象表明,金融数据特别是时间序列数据常因某些非正常因素(如战争、自然灾害等)而产生较大的波动,这种波动使得被解释变量与解释变量之间的数量依存关系在某一期或暑期内同其它各期相比具有显著的差异。这种差异表现为描述变量之间关系的回归线(面)在不同时期内或截距项移动,或斜率移动,或截距项和斜率同时移动。

35 相应的,为表述这种移动,虚拟变量的引入方式也有如下的三种:
(1)加法方式: (2)乘法方式: (3)同时以加法方式及乘法方式引入: 在同一个模型中,可以引入多个虚拟变量,但其设置必须遵循如下的原则:如果一个定性变量有m个类别,则仅要引入m-1个虚拟变量。

36 虚拟变量模型的运用 1、虚拟变量模型在调整季节波动中的运用 许多按月度或季度数据表示的金融时间序列,常呈现出季节变化的规律性,如公司销售额、通货膨胀率、节假日储蓄额等。在研究中,有时需要消除季节性因素的影响,即需要进行季节调整(seasonal adjustment)。进行季节调整有多种方法,而利用虚拟变量进行季节调整是较为简单的一种。 原模型: 引入虚拟变量:

37 2、虚拟变量模型在分段线性回归中的应用 在金融理论中,常常会出现一种情况:当某影响因素越过某一临界值,或时间过了某一临界点之后,因变量对影响因素的变化率将发生变化,在图形中就表现为斜率不同的两段连续折线。对构成折线的数据的回归即为分段线性回归。 例如: 利用虚拟变量,我们可以建立如下的回归模型:

38 图4-6 有两个转折点的联系折线

39 3、利用虚拟变量模型对平行数据进行混合回归
假定要研究某一类型上市公司资本结构与影响因素之间的关系,我们以总负债率(以Y表示)代表资本结构,其影响因素假设只有股权结构(以表示)、公司治理结构(以表示)、成长性(以表示)三个因素;遗憾的是,假设这一类型的上市公司只有两家,而每家也只有从 年共14年的年度数据。很明显,对每一年利用横截面数据回归是不能的(观测值个数小于待估参数的个数)。

40 而对每家公司利用时间序列数据回归,尽管可以得到系数估计值,但实际上由于两家公司类型相同,可能受某些相同因素的影响,所以两方程的随机误差项可能是同期相关的,对每个方程分别应用普通最小二乘回归是不合适的。
在此情况下,我们可以利用虚拟变量模型对时间序列和横截面数据的混合数据做出回归:

41 回归模型的结构稳定性检验—邹氏检验 一、邹氏检验的过程:
邹氏检验所依据的理论前提包括:在可能发生的结构变化前后,随机误差项具有相同的方差;随机误差项满足独立正态分布。在这些假定下,可按如下的步骤进行邹氏检验: 1、将数据以可能发生结构变化的点为界分为两部分。分别利用全部数据、两分样本对模型进行回归,并获得三次回归的残差平方和。

42 2、此时,对全部数据进行回归得到的模型是一个受约束的模型(假定模型在整段数据中不发生结构性变化,即假定系数估计值在整个样本期间是稳定的),而对两分段数据的回归则是不受约束的模型(利用两个分样本分别得到的系数估计值可以是不同的),因此对整段数据回归得到的残差平方和大于对两分样本进行回归得到的残差平方和之和,可建立如下的F检验: 它服从F(k,T-2k) 分布

43 ⑶邹氏检验需要知道结构可能发生的时间点,如果不知道,则需要使用其它方法。
3、查表求得在一定显著性水平下的F临界值。如果第二步计算出的F值大于临界F值,则拒绝模型结构稳定的假设;如果小于临界F值,则不能拒绝模型结构稳定性假设。 应用邹氏检验的过程中应注意以下几点: ⑴必须满足前提假设条件。 ⑵邹氏检验仅仅告诉我们模型结构是否稳定,而 不能告诉我们如果结构不稳定,到底是截距还是斜率抑或两者都发生了变化,在下一节中我们将引入虚拟变量来解决这个问题。 ⑶邹氏检验需要知道结构可能发生的时间点,如果不知道,则需要使用其它方法。

44 在Eviews 软件中如何做邹氏检验 货币政策往往根据宏观经济形势的变化而发生变化,这就会导致货币供应量等货币政策的中间目标可能在某个时间点发生结构性变化。 例如,以我国为例, 货币政策的主要目标是抑制通货膨胀,而1998年后由于亚洲金融危机的冲击等我国反而出现了通货紧缩,这时的货币政策也转变为“稳健的货币政策”,主要目标变为防止通货紧缩,刺激经济增长,因此货币供应量的增长在1998年可能会发生结构性的变化。为检验上述猜想,我们利用1995年第一季度到2004年第二季度的季度数据,以M2代表货币供应量,通过对GDP进行回归(因GDP增长相对稳定),并选定1998年第二季度为可能发生结构变化的转折点,来进行邹氏检验。

45 在Eviews中对下面模型进行回归 其中 、 分别表示广义货币供应量M2和GDP. 图4-7 回归方程设定

46 图4-8 回归结果

47 图4-9 选择邹氏检验

48 图4-10 确定邹氏检验转折点 图4-11 邹氏检验结果

49 回归模型的结构稳定性检验 ——虚拟变量法 邹氏检验只能告诉我们结构是否发生变化,而不能告诉我们到底是截距还是斜率发生了变化,虚拟变量法则能有效地解决这一问题。下面我们将通过一个例子来说明如何运用虚拟变量法对模型进行结构稳定性检验。 对于一元线形模型 ,假定在时刻,由于外部事件的冲击,我们怀疑模型的结构可能发生了变化。为验证这一观点,我们可以建立如下的虚拟变量模型

50 1 其中 = 可见, ︱ =0, )= ,表示的是发生结构变化前的关系; ︱ =1, )= 表示的是可能的结构变化发生后的关系。 利用全部数据对上述虚拟变量模型进行最小二乘回归,并对参数估计值进行显著性检验 。

51 可见,与邹氏检验相比,在检验模型结构稳定性方面虚拟变量法具有如下的优点:
(1)较之邹氏检验的三次回归,虚拟变量法只需作一次总的回归,因而显得简单。 (2)能够清楚表明是截距或斜率抑或两者都发生了变化。 (3)由于合并两个回归而减少了虚拟变量的个数,增加了自由度,从而参数估计的准确性也有所改进。

52 实例—虚拟变量在金融数据处理中的作用 根据Fama的有效市场理论,在有效市场中,由于股票价格能够及时地反映所有的信息,因此股价将会呈现出随机波动的特征。并且,在有效市场中,由于投资者能够随时获取所需要的信息,因此将不存在套利的机会,股票的价格将反映价值。按照有效市场理论,一周内每天的收益率将是随机波动、没有规律的。因为如果假设某天的收益率比其他各天的收益率高或者低,由于投资者可随时掌握所需要的信息,并且做出理性的选择,因此他们将充分利用这个套利机会来获取超额收益率。而随着套利过程的进行,超额收益率也会逐渐减少直至消失,从而每天的收益率又将会呈现出无规律的波动。

53 下面我们将利用虚拟变量模型对这一现象进行实证检验:
数据描述:我们利用的是上海股票市场上证指数1997年1月1日到2004年12月31日的日收盘价数据,共1926个观测值。收益率的计算我们采用的是连续收益率法,计算公式如下 我们建立如下的虚拟变量模型:

54 图4-12 上证指数日收益线性图

55 使用Eviews3.1软件对上述模型进行OLS回归,得到如下结果(括号内为相应的t值):
对模型各系数估计值进行联合F检验,看各系数值是否同时为零,结果的到F值为1.03,其概率值为0.39,因此不能拒绝各系数值同时为零的假设,则可以得出结论,上海股票市场不存在周内效应。

56 本章小结 本章主要分为两部分,在第一部分中我们主要讨论了金融数据中存在的多重共线性现象。第二部分我们主要介绍了虚拟变量的应用。在接下来的部分中,我们主要介绍了如何进行模型的结构稳定性检验的两种方法:邹氏检验和虚拟变量法 。


Download ppt "第四章 多重共线性和 虚拟变量的应用."

Similar presentations


Ads by Google