Introductory Econometrics for Finance 回归分析的基本概念 计量经济学 第 2 章 回归分析的基本概念 Copyright 2002, Chris Brooks
§2.1 回归分析概述 一、变量间的关系及回归分析的基本概念 1、变量间的关系 经济变量之间的关系,大体可分为两类: §2.1 回归分析概述 一、变量间的关系及回归分析的基本概念 1、变量间的关系 经济变量之间的关系,大体可分为两类: (1)确定性关系或函数关系:研究的是确定现象非随机变量间的关系。 (2)统计依赖或相关关系:研究的是非确定现象随机变量间的关系。
2、回归分析的基本概念 回归分析(regression analysis)是研究一个变量关于另一个(些)变量的具体依赖关系的计算方法和理论。 其用意:在于通过后者的已知或设定值,去估计和(或)预测前者的(总体)均值。 这里:前一个变量被称为被解释变量(Explained Variable)或应变量(Dependent Variable),后一个(些)变量被称为解释变量(Explanatory Variable)或自变量(Independent Variable)。 回归分析构成计量经济学的方法论基础,其主要内容包括: (1)根据样本观察值对经济计量模型参数进行估计,求得回归方程; (2)对回归方程、参数估计值进行显著性检验; (3)利用回归方程进行分析、评价及预测。
二、总体回归函数 由于变量间关系的随机性,回归分析关心的是根据解释变量的已知或给定值,考察被解释变量的总体均值,即当解释变量取某个确定值时,与之统计相关的被解释变量所有可能出现的对应值的平均值。 例2.1:一个假想的社区有100户家庭组成,要研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。 即如果知道了家庭的月收入,能否预测该社区家庭的平均月消费支出水平。 为达到此目的,将该100户家庭划分为组内收入差不多的10组,以分析每一收入组的家庭消费支出。
分析: (1)由于不确定因素的影响,对同一收入水平X,不同家庭的消费支出不完全相同; (2)但由于调查的完备性,给定收入水平X的消费支出Y的分布是确定的,即以X的给定值为条件的Y的条件分布(Conditional distribution)是已知的, 如: P(Y=561|X=800)=1/4。 因此,给定收入X的值Xi,可得消费支出Y的条件均值(conditional mean)或条件期望(conditional expectation): E(Y|X=Xi) 该例中:E(Y | X=800)=561
描出散点图发现:随着收入的增加,消费“平均地说”也在增加,且Y的条件均值均落在一根正斜率的直线上。这条直线称为总体回归线。 500 1000 1500 2000 2500 3000 3500 4000 每月可支配收入X(元) 每 月 消 费 支 出 Y (元)
概念: 相应的函数: 称为(双变量)总体回归函数(population regression function, PRF)。 在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线(population regression line),或更一般地称为总体回归曲线(population regression curve)。 相应的函数: 称为(双变量)总体回归函数(population regression function, PRF)。
回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。 含义: 回归函数(PRF)说明被解释变量Y的平均状态(总体条件期望)随解释变量X变化的规律。 函数形式: 可以是线性或非线性的。 例2.1中,将居民消费支出看成是其可支配收入的线性函数时: 为一线性函数。其中,0,1是未知参数,称为回归系数(regression coefficients)。 。
讨论:寻找一条最优拟合直线 对于一条直线,我们可以用以下的方程, y=a+bx 来拟合数据。 这符合实际情况吗? 不符合。所以我们要在这个方程里加入一个挠动项, u。 yt = + xt + ut 式中 t = 1,2,3,4,5
为什么要加入挠动项? 挠动项能够反映数据的一些特征: - 我们经常会忽略一些影响 yt 的某些确定的因素。
三、随机扰动项 总体回归函数说明在给定的收入水平Xi下,该社区家庭平均的消费支出水平。 但对某一个别的家庭,其消费支出可能与该平均水平有偏差。 记 称i为观察值Yi围绕它的期望值E(Y|Xi)的离差(deviation),是一个不可观测的随机变量,又称为随机干扰项(stochastic disturbance)或随机误差项(stochastic error)。
由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。 例2.1中,个别家庭的消费支出为: (*) 即,给定收入水平Xi ,个别家庭的支出可表示为两部分之和: (1)该收入水平下所有家庭的平均消费支出E(Y|Xi),称为系统性(systematic)或确定性(deterministic)部分。 (2)其他随机或非确定性(nonsystematic)部分i。 (*)式称为总体回归函数(方程)PRF的随机设定形式。表明被解释变量除了受解释变量的系统性影响外,还受其他因素的随机性影响。 由于方程中引入了随机项,成为计量经济学模型,因此也称为总体回归模型。
随机误差项主要包括下列因素的影响: 1)在解释变量中被忽略的因素的影响; 2)变量观测值的观测误差的影响; 3)模型关系的设定误差的影响; 4)其它随机因素的影响。 产生并设计随机误差项的主要原因: 1)理论的含糊性; 2)数据的欠缺; 3)节省原则。
四、样本回归函数(SRF) 问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息? 总体的信息往往无法掌握,现实的情况只能是在一次观测中得到总体的一个样本。 问题:能从一次抽样中获得总体的近似的信息吗?如果可以,如何从抽样中获得总体的近似信息? 例2.2:在例2.1的总体中有如下一个样本, 问:能否从该样本估计总体回归函数PRF? 回答:能
核样本的散点图(scatter diagram): 样本散点图近似于一条直线,画一条直线以尽好地拟合该散点图,由于样本取自总体,可以该线近似地代表总体回归线。该线称为样本回归线(sample regression lines)。 记样本回归线的函数形式为: 称为样本回归函数(sample regression function,SRF)。
样本回归函数的随机形式/样本回归模型: 同样地,样本回归函数也有如下的随机形式: 由于方程中引入了随机项,成为计量经济模型,因此也称为样本回归模型(sample regression model)。
▼回归分析的主要目的:根据样本回归函数SRF,估计总体回归函数PRF。 即,根据 估计 注意:这里PRF可能永远无法知道。
简单回归: 例1 假设对于一个管理基金的投资组合 (“基金 XXX”)的超额回报和股市指数的超额回报,我们有如下的数据: 我们在直觉上认为该基金的beta应该是一个正数(理论是回归分析的导引) 因此,我们希望利用手上的数据来证实它们之间的确有这种关系。第一步,是画这2个变量的散点图。
散点图
例2 资本性资产定价模型(CAPM) yt = + xt + ut t = 1,…,T yt : 一个股票的回报 一个投资者希望找到一个具有正的股票进行投资(在金融理论中,如果市场是有效(均衡)的话, =0。 > 0 ,意味着现价低于均衡价格,股票定价过低; <0,意味着现价低于均衡价格,股票定价过低)。
例2 (续) 度量股票对市场指数回报的反应 : 如果 >1,当市场指数回报上升时,该股票的回报比市场上升得快,当市场指数回报下降时,该股票的回报比市场下降得快,我们称这种股票为进攻性股票。 如果 < 1,当市场指数回报上升时,该股票的回报比市场上升得慢,当市场指数回报下降时,该股票的回报比市场下降得慢,我们称这种股票为防御性股票。 如果 = 1,这种股票的回报的变化,就平均而言,与市场指数是一致的,我们称这种股票为中性股票。
确定回归系数 怎样决定 和 ? 选取 和使得数据点到拟合直线的垂直距离最小 (这样拟合直线就可以尽可能靠近数据点):
普通最小二乘法 用直线来拟合数据最常用的方法是普通最小二乘法 (ordinary least squares, OLS). 令 yt 为第t次观测到的实际数据值 回归线的拟合值 为残差(第t次观测到的实际数据值与回归线的拟合值之差),
实际和拟合值
怎样做OLS? 最小化 , 或者最小化 (残差的平方和)。 什么是 ? 它是第t次观测到的实际数据值与回归线的拟合值之差, yt - 最小化 , 或者最小化 (残差的平方和)。 什么是 ? 它是第t次观测到的实际数据值与回归线的拟合值之差, yt - 所以,最小化 等价于选择 和 ,使得 最小。
OLS估计式的推导 有 , 令 选择 和 ,使得 L 最小。L 对 和 求偏导,令其为0, (1) (2) (1)推出 有 和 。
OLS估计式的推导(续) 所以 或 (3) 由(2), (4) 由 (3), (5) 把(5)带入 (4),
OLS估计式的推导(续) 整理, 所以,有 这就是所谓的最小二乘法
如果一个分析家告诉你,他预期下一年的市场回报将会比无风险回报高20%,那么你预期基金 XXX 的回报将会是多少? 和 的用途 在例1中,把数据代入公式得: = -1.74 和 = 1.64. 拟合直线可以写成: 如果一个分析家告诉你,他预期下一年的市场回报将会比无风险回报高20%,那么你预期基金 XXX 的回报将会是多少? 基金XXX 回报的期望值 y = -1.74 + 1.64 * x的值, 把 x = 20 代入得: