第三章 平稳时间序列分析
本章结构 方法性工具 ARMA模型 平稳序列建模 序列预测
3.1 方法性工具 差分运算 延迟算子 线性差分方程
差分运算 一阶差分 阶差分 步差分
延迟算子 延迟算子类似于一个时间指针,当前序列值乘以一个延迟算子,就相当于把当前序列值的时间向过去拨了一个时刻 记B为延迟算子,有
延迟算子的性质 ,其中
用延迟算子表示差分运算 阶差分 步差分
线性差分方程 线性差分方程 齐次线性差分方程
齐次线性差分方程的解 特征方程 特征方程的根称为特征根,记作 齐次线性差分方程的通解 不相等实数根场合 有相等实根场合 复根场合
非齐次线性差分方程的解 非齐次线性差分方程的特解 非齐次线性差分方程的通解 使得非齐次线性差分方程成立的任意一个解 齐次线性差分方程的通解和非齐次线性差分方程的特解之和
3.2 ARMA模型的性质 AR模型(Auto Regression Model) MA模型(Moving Average Model) ARMA模型(Auto Regression Moving Average model)
AR模型的定义 具有如下结构的模型称为 阶自回归模型,简记为 特别当 时,称为中心化 模型
AR(P)序列中心化变换 称 为 的中心化序列 ,令
自回归系数多项式 引进延迟算子,中心化 模型又可以简记为 自回归系数多项式
AR模型平稳性判别 判别原因 AR模型是常用的平稳序列的拟合模型之一,但并非所有的AR模型都是平稳的 判别方法 单位根判别法 平稳域判别法
例3.1:考察如下四个模型的平稳性
例3.1平稳序列时序图
例3.1非平稳序列时序图
AR模型平稳性判别方法 特征根判别 平稳域判别 平稳域 AR(p)模型平稳的充要条件是它的p个特征根都在单位圆内 根据特征根和自回归系数多项式的根成倒数的性质,等价判别条件是该模型的自回归系数多项式的根都在单位圆外 平稳域判别 平稳域
AR(1)模型平稳条件 特征根 平稳域
AR(2)模型平稳条件 特征根 平稳域
例3.1平稳性判别 模型 特征根判别 平稳域判别 结论 (1) 平稳 (2) 非 (3) (4)
平稳AR模型的统计性质 均值 方差 协方差 自相关系数 偏自相关系数
均值 如果AR(p)模型满足平稳性条件,则有 根据平稳序列均值为常数,且 为白噪声序列,有 推导出
Green函数定义 AR模型的传递形式 其中系数 称为Green函数
Green函数递推公式 原理 方法 待定系数法 递推公式
方差 平稳AR模型的传递形式 两边求方差得
例3.2:求平稳AR(1)模型的方差 平稳AR(1)模型的传递形式为 Green函数为 平稳AR(1)模型的方差
协方差函数 在平稳AR(p)模型两边同乘 ,再求期望 根据 得协方差函数的递推公式
例3.3:求平稳AR(1)模型的协方差 递推公式 平稳AR(1)模型的方差为 协方差函数的递推公式为
例3.4:求平稳AR(2)模型的协方差 平稳AR(2)模型的协方差函数递推公式为
自相关系数 自相关系数的定义 平稳AR(P)模型的自相关系数递推公式
常用AR模型自相关系数递推公式 AR(1)模型 AR(2)模型
AR模型自相关系数的性质 拖尾性 呈复指数衰减
例3.5:考察如下AR模型的自相关图
例3.5— 自相关系数按复指数单调收敛到零
例3.5:—
例3.5:— 自相关系数呈现出“伪周期”性
例3.5:— 自相关系数不规则衰减
偏自相关系数 定义 对于平稳AR(p)序列,所谓滞后k偏自相关系数就是指在给定中间k-1个随机变量 的条件下,或者说,在剔除了中间k-1个随机变量的干扰之后, 对 影响的相关度量。用数学语言描述就是
偏自相关系数的计算 滞后k偏自相关系数实际上就等于k阶自回归模型第个k回归系数的值。
偏自相关系数的截尾性 AR(p)模型偏自相关系数P阶截尾
例3.5续:考察如下AR模型的偏自相关图
例3.5— 理论偏自相关系数 样本偏自相关图
例3.5:— 理论偏自相关系数 样本偏自相关图
例3.5:— 理论偏自相关系数 样本偏自相关图
例3.5:— 理论偏自相关系数 样本偏自相关系数图
MA模型的定义 具有如下结构的模型称为 阶自回归模型,简记为 特别当 时,称为中心化 模型
移动平均系数多项式 引进延迟算子,中心化 模型又可以简记为 阶移动平均系数多项式
MA模型的统计性质 常数均值 常数方差
MA模型的统计性质 自协方差函数P阶截尾 自相关系数P阶截尾
常用MA模型的自相关系数 MA(1)模型 MA(2)模型
MA模型的统计性质 偏自相关系数拖尾
例3.6:考察如下MA模型的相关性质
MA模型的自相关系数截尾
MA模型的自相关系数截尾
MA模型的偏自相关系数拖尾
MA模型的偏自相关系数拖尾
MA模型的可逆性 MA模型自相关系数的不唯一性 例3.6中不同的MA模型具有完全相同的自相关系数和偏自相关系数
可逆的定义 可逆MA模型定义 可逆概念的重要性 若一个MA模型能够表示称为收敛的AR模型形式,那么该MA模型称为可逆MA模型
可逆MA(1)模型
MA模型的可逆条件 MA(q)模型的可逆条件是: MA(q)模型的特征根都在单位圆内 等价条件是移动平滑系数多项式的根都在单位圆外
逆函数的递推公式 原理 方法 待定系数法 递推公式
例3.6续:考察如下MA模型的可逆性
(1)—(2) 逆函数 逆转形式
(3)—(4) 逆函数 逆转形式
ARMA模型的定义 具有如下结构的模型称为自回归移动平均模型,简记为 特别当 时,称为中心化 模型
系数多项式 引进延迟算子,中心化 模型又可以简记为 阶自回归系数多项式 阶移动平均系数多项式
平稳条件与可逆条件 ARMA(p,q)模型的平稳条件 ARMA(p,q)模型的可逆条件 P阶自回归系数多项式 的根都在单位圆外
传递形式与逆转形式 传递形式 逆转形式
ARMA(p,q)模型的统计性质 均值 协方差 自相关系数
ARMA模型的相关性 自相关系数拖尾 偏自相关系数拖尾
例3.7:考察ARMA模型的相关性 拟合模型ARMA(1,1): 并直观地考察该模型自相关系数和偏自相关系数的性质。
自相关系数和偏自相关系数拖尾性 样本自相关图 样本偏自相关图
ARMA模型相关性特征 模型 自相关系数 偏自相关系数 AR(P) 拖尾 P阶截尾 MA(q) q阶截尾 ARMA(p,q)
3.3平稳序列建模 建模步骤 模型识别 参数估计 模型检验 模型优化 序列预测
建模步骤 平 稳 非 白 噪 声 序 列 计 算 样 本 相 关 系 数 模型 识别 参数 估计 模 型 优 化 序 列 预 测 模型 检验 N Y
计算样本相关系数 样本自相关系数 样本偏自相关系数
模型识别 基本原则 选择模型 拖尾 P阶截尾 AR(P) q阶截尾 MA(q) ARMA(p,q)
模型定阶的困难 因为由于样本的随机性,样本的相关系数不会呈现出理论截尾的完美情况,本应截尾的 或 仍会呈现出小值振荡的情况 因为由于样本的随机性,样本的相关系数不会呈现出理论截尾的完美情况,本应截尾的 或 仍会呈现出小值振荡的情况 由于平稳时间序列通常都具有短期相关性,随着延迟阶数 , 与 都会衰减至零值附近作小值波动 ?当 或 在延迟若干阶之后衰减为小值波动时,什么情况下该看作为相关系数截尾,什么情况下该看作为相关系数在延迟若干阶之后正常衰减到零值附近作拖尾波动呢?
样本相关系数的近似分布 Barlett Quenouille
模型定阶经验方法 95%的置信区间 模型定阶的经验方法 如果样本(偏)自相关系数在最初的d阶明显大于两倍标准差范围,而后几乎95%的自相关系数都落在2倍标准差的范围以内,而且通常由非零自相关系数衰减为小值波动的过程非常突然。这时,通常视为(偏)自相关系数截尾。截尾阶数为d。
例2.5续 选择合适的模型ARMA拟合1950年——1998年北京市城乡居民定期储蓄比例序列。
序列自相关图
序列偏自相关图
拟合模型识别 自相关图显示延迟3阶之后,自相关系数全部衰减到2倍标准差范围内波动,这表明序列明显地短期相关。但序列由显著非零的相关系数衰减为小值波动的过程相当连续,相当缓慢,该自相关系数可视为不截尾 偏自相关图显示除了延迟1阶的偏自相关系数显著大于2倍标准差之外,其它的偏自相关系数都在2倍标准差范围内作小值随机波动,而且由非零相关系数衰减为小值波动的过程非常突然,所以该偏自相关系数可视为一阶截尾 所以可以考虑拟合模型为AR(1)
例3.8 美国科罗拉多州某一加油站连续57天的OVERSHORT序列
序列自相关图
序列偏自相关图
拟合模型识别 自相关图显示除了延迟1阶的自相关系数在2倍标准差范围之外,其它阶数的自相关系数都在2倍标准差范围内波动。根据这个特点可以判断该序列具有短期相关性,进一步确定序列平稳。同时,可以认为该序列自相关系数1阶截尾 偏自相关系数显示出典型非截尾的性质。 综合该序列自相关系数和偏自相关系数的性质,为拟合模型定阶为MA(1)
例3.9 1880-1985全球气表平均温度改变值差分序列
序列自相关图
序列偏自相关图
拟合模型识别 自相关系数显示出不截尾的性质 偏自相关系数也显示出不截尾的性质 综合该序列自相关系数和偏自相关系数的性质,可以尝试使用ARMA(1,1)模型拟合该序列
参数估计 待估参数 个未知参数 常用估计方法 矩估计 极大似然估计 最小二乘估计
矩估计 原理 样本自相关系数估计总体自相关系数 样本一阶均值估计总体均值,样本方差估计总体方差
例3.10:求AR(2)模型系数的矩估计 AR(2)模型 Yule-Walker方程 矩估计(Yule-Walker方程的解)
例3.11:求MA(1)模型系数的矩估计 MA(1)模型 方程 矩估计
例3.12:求ARMA(1,1)模型系数的矩估计 ARMA(1,1)模型 方程 矩估计
对矩估计的评价 优点 缺点 通常矩估计方法被用作极大似然估计和最小二乘估计迭代计算的初始值 估计思想简单直观 不需要假设总体分布 计算量小(低阶模型场合) 缺点 信息浪费严重 只用到了p+q个样本自相关系数信息,其他信息都被忽略 估计精度差 通常矩估计方法被用作极大似然估计和最小二乘估计迭代计算的初始值
极大似然估计 原理 在极大似然准则下,认为样本来自使该样本出现概率最大的总体。因此未知参数的极大似然估计就是使得似然函数(即联合密度函数)达到最大的参数值
似然方程 由于 和 都不是 的显式表达式。因而似然方程组实际上是由p+q+1个超越方程构成,通常需要经过复杂的迭代算法才能求出未知参数的极大似然估计值
对极大似然估计的评价 优点 缺点 极大似然估计充分应用了每一个观察值所提供的信息,因而它的估计精度高 同时还具有估计的一致性、渐近正态性和渐近有效性等许多优良的统计性质 缺点 需要假定总体分布
最小二乘估计 原理 使残差平方和达到最小的那组参数值即为最小二乘估计值
条件最小二乘估计 实际中最常用的参数估计方法 假设条件 残差平方和方程 解法 迭代法
对最小二乘估计的评价 优点 缺点 最小二乘估计充分应用了每一个观察值所提供的信息,因而它的估计精度高 条件最小二乘估计方法使用率最高 需要假定总体分布
例2.5续 确定1950年——1998年北京市城乡居民定期储蓄比例序列拟合模型的口径 拟合模型:AR(1) 估计方法:极大似然估计 模型口径
例3.8续 确定美国科罗拉多州某一加油站连续57天的OVERSHORTS序列拟合模型的口径 拟合模型:MA(1) 估计方法:条件最小二乘估计 模型口径
例3.9续 确定1880-1985全球气表平均温度改变值差分序列拟合模型的口径 拟合模型:ARMA(1,1) 估计方法:条件最小二乘估计 模型口径
模型检验 模型的显著性检验 整个模型对信息的提取是否充分 参数的显著性检验 模型结构是否最简
模型的显著性检验 目的 检验对象 判定原则 检验模型的有效性(对信息的提取是否充分) 残差序列 一个好的拟合模型应该能够提取观察值序列中几乎所有的样本相关信息,即残差序列应该为白噪声序列 反之,如果残差序列为非白噪声序列,那就意味着残差序列中还残留着相关信息未被提取,这就说明拟合模型不够有效
假设条件 原假设:残差序列为白噪声序列 备择假设:残差序列为非白噪声序列
检验统计量 LB统计量
例2.5续 检验1950年——1998年北京市城乡居民定期储蓄比例序列拟合模型的显著性 残差白噪声序列检验结果 延迟阶数 LB统计量 P值 检验结论 6 5.83 0.3229 拟合模型显著有效 12 10.28 0.5050 18 11.38 0.8361
参数显著性检验 目的 检验每一个未知参数是否显著非零。删除不显著参数使模型结构最精简 假设条件 检验统计量
例2.5续 检验1950年——1998年北京市城乡居民定期储蓄比例序列极大似然估计模型的参数是否显著 参数检验结果 检验参数 t统计量 P值 结论 均值 46.12 <0.0001 显著 6.72
例3.8续:对OVERSHORTS序列的拟合模型进行检验 残差白噪声检验 参数显著性检验 延迟阶数 LB统计量 P值 结论 6 3.15 0.6772 模型显著有效 12 9.05 0.6171 检验参数 t统计量 P值 结论 均值 -3.75 <0.0004 显著 10.60 <0.0001
例3.9续:对1880-1985全球气表平均温度改变值差分序列拟合模型进行检验 残差白噪声检验 参数显著性检验 延迟阶数 LB统计量 P值 结论 6 5.28 0.2595 模型显著有效 12 10.30 0.4247 检验参数 t统计量 P值 结论 16.34 <0.0001 显著 3.5 0.0007
模型优化 问题提出 当一个拟合模型通过了检验,说明在一定的置信水平下,该模型能有效地拟合观察值序列的波动,但这种有效模型并不是唯一的。 优化的目的 选择相对最优模型
例3.13:拟合某一化学序列
序列自相关图
序列偏自相关图
拟合模型一 根据自相关系数2阶截尾,拟合MA(2)模型 参数估计 模型检验 模型显著有效 三参数均显著
拟合模型二 根据偏自相关系数1阶截尾,拟合MA(1)模型 参数估计 模型检验 模型显著有效 两参数均显著
问题 同一个序列可以构造两个拟合模型,两个模型都显著有效,那么到底该选择哪个模型用于统计推断呢? 解决办法 确定适当的比较准则,构造适当的统计量,确定相对最优
AIC准则 最小信息量准则(An Information Criterion) 指导思想 AIC统计量 似然函数值越大越好 未知参数的个数越少越好 AIC统计量
SBC准则 AIC准则的缺陷 在样本容量趋于无穷大时,由AIC准则选择的模型不收敛于真实模型,它通常比真实模型所含的未知参数个数要多 SBC统计量
例3.13续 用AIC准则和SBC准则评判例3.13中两个拟合模型的相对优劣 结果 AR(1)优于MA(2) 模型 AIC SBC 536.4556 543.2011 AR(1) 535.7896 540.2866
序列预测 线性预测函数 预测方差最小原则
序列分解 预测误差 预测值
误差分析 估计误差 期望 方差
AR(p)序列的预测 预测值 预测方差 95%置信区间
例3.14 已知某超市月销售额近似服从AR(2)模型(单位:万元/每月) 今年第一季度该超市月销售额分别为: 101,96,97.2万元 请确定该超市第二季度每月销售额的95%的置信区间
例3.14解:预测值计算 四月份 五月份 六月份
例3.14解:预测方差的计算 GREEN函数 方差
例3.14解:置信区间 公式 估计结果 预测时期 95%置信区间 四月份 (85.36,108.88) 五月份 (83.72,111.15) 六月份 (81.84,113.35)
例2.5:北京市城乡居民定期储蓄比例序列拟合与预测图
MA(q)序列的预测 预测值 预测方差
例3.15 已知某地区每年常驻人口数量近似服从MA(3)模型(单位:万): 最近3年的常驻人口数量及一步预测数量如下: 预测未来5年该地区常住人口的95%置信区间 年份 统计人数 预测人数 2002 104 110 2003 108 100 2004 105 109
例3.15解:随机扰动项的计算
例3.15解:估计值的计算
例3.15解:预测方差的计算
例3.15解:置信区间的计算 预测年份 95%置信区间 2005 (99,119) 2006 (83,109) 2007 (87,115) 2008 (86,114) 2009
ARMA(p,q)序列预测 预测值 预测方差
例3.16 已知模型为: 且 预测未来3期序列值的95%的置信区间。
例3.16解:估计值的计算
例3.16解:预测方差的计算 Green函数 方差
例3.16解:置信区间的计算 时期 95%置信区间 101 (0.136,0.332) 102 (0.087,0.287) 103 (-0.049,0.251)
修正预测 定义 方法 所谓的修正预测就是研究如何利用新的信息去获得精度更高的预测值 在新的信息量比较大时——把新信息加入到旧的信息中,重新拟合模型 在新的信息量很小时——不重新拟合模型,只是将新的信息加入以修正预测值,提高预测精度
修正预测原理 在旧信息的基础上, 的预测值为 假设新获得一个观察值 ,则 的修正预测值为 修正预测误差为 预测方差为
一般情况 假设新获得p个观察值 ,则 的修正预测值为 修正预测误差为 预测方差为
例3.14续:假如四月份的真实销售额为100万元,求二季度后两个月销售额的修正预测值 计算四月份的预测误差 计算修正预测值 计算修正方差
修正置信区间 预测时期 修正前置信区间 修正后置信区间 四月份 五月份 六月份 (85.36,108.88) (83.72,111.15) (87.40,110.92) 六月份 (81.84,113.35) (85.79,113.21)