第三章 完全且完美信息动态博弈 本章讨论动态博弈,所有博弈方都对博弈过程和得益完全了解的完全且完美信息动态博弈。这类博弈也是现实中常见的基本博弈类型。由于动态博弈中博弈方的选择、行为有先后次序,因此在表示方法、利益关系、分析方法和均衡概念等方面,都与静态博弈有很大区别。本章对动态博弈分析的概念和方法,特别是子博弈完美均衡和逆推归纳法作系统介绍,并介绍各种经典的动态博弈模型。
3.1动态博弈的表示法和特点 3.2可信性和纳什均衡的问题 3.3子博弈和子博弈完美纳什均衡 3.4几个经典动态博弈模型 本章分六节 3.1动态博弈的表示法和特点 3.2可信性和纳什均衡的问题 3.3子博弈和子博弈完美纳什均衡 3.4几个经典动态博弈模型 3.5有同时选择的动态博弈模型 3.6动态博弈分析的问题和扩展讨论
3.1 动态博弈的表示法和特点 3.1.1 阶段和扩展性表示 3.1.2 动态博弈的基本特点
3.1.1 阶段和扩展性表示 阶段:动态博弈中一个博弈方的一次选择行为 例子:仿冒和反仿冒博弈 A B 不制止 制止 (-2,5) (2,2) (10,4) (5,5) 不仿冒 (0,10) 仿冒
3.1.2 动态博弈的基本特点 策略是在整个博弈中所有选择、行为的计划 结果是上述“计划型”策略的策略组合,构成一条路径 得益对应每条路径,而不是对应每步选择、行为 动态博弈的非对称性——先后次序决定动态博弈必然是非对称的。 先选择、行为的博弈方常常更有利,有“先行优势”。
3.2 可信性和纳什均衡的问题 3.2.1 相机选择和策略中的可信性问题 3.2.2 纳什均衡的问题 3.2.3 逆推归纳法
3.2.1 相机选择和策略中的可信性问题 不同版本的开金矿博弈——分钱和打官司的可信性 乙 甲 (0,4) (2,2) (1,0) 不借 借 不分 开金矿博弈 不借 乙 甲 借 不分 分 (1,0) 不打 打 (0,4) (2,2) 有法律保障的开金矿博弈 ——分钱打官司都可信 乙 甲 打 (2,2) 不分 分 不借 借 (0,4) (-1,0) 不打 (1,0) 法律保障不足的开金矿博弈 ——分钱打官司都不可信
3.2.2 纳什均衡的问题 第三种开金矿博弈中, (不借-不打,不分)和(借-打,分)都是纳什均衡。但后者不可信,不可能实现或稳定。 结论:纳什均衡在动态博弈可能缺乏稳定性,也就是说,在完全信息静态博弈中稳定的纳什均衡,在动态博弈中可能是不稳定的,不能作为预测的基础。 根源:纳什均衡本身不能排除博弈方策略中包含的不可信的行为设定,不能解决动态博弈的相机选择引起的可信性问题
3.2.3 逆推归纳法 定义:从动态博弈的最后一个阶段博弈方的行为开始分析,逐步倒推回前一个阶段相应博弈方的行为选择,一直到第一个阶段的分析方法,称为“逆推归纳法”。 逆推归纳法是动态博弈分析最重要、基本的方法。 乙 不借 借 甲 不分 分 (0,4) (2,2) (1,0)
3.3 子博弈和子博弈完美纳什均衡 3.3.1 子博弈 3.3.2 子博弈完美纳什均衡
3.3.1 子博弈 定义:由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的,有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分,称为原动态博弈的一个“子博弈”。 乙 甲 不借 借 不分 分 (1,0) (0,4) (2,2) (-1,0)
3.3.2 子博弈完美纳什均衡 定义:如果一个完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足,在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。 子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺,因此是真正稳定的。 逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。
3.4 几个经典动态博弈模型 3.4.1 寡占的斯塔克博格模型 3.4.2 劳资博弈 3.4.3 讨价还价博弈 3.4.4 委托人—代理人理论
3.4.1 寡占的斯塔克博格模型 6 q - = 先后选择产量的产量竞争博弈 把古诺模型改为厂商1先选择,厂商2后选择,而非同时选择即可。 先行优势 产量 得益 厂商1 3单位 4.5 厂商2 1.5单位 2.25
3.4.2 劳资博弈 先由工会决定工资率,再由厂商决定雇用多少劳动力 W 斜率为W R R(L) W L L L 工会的误差异曲线 W L 厂商的反应函数 R(L) 斜率为W L W 工会的误差异曲线
3.4.3 讨价还价博弈 三回合讨价还价 1 2 不接受,出S 接受 不接受,出S2 出S1
三回合讨价还价博弈结果的讨论
无限回合讨价还价
3.4.4 委托人—代理人理论 一、委托人——代理人关系 经济活动和社会活动中有很多委托人——代理人关系,有明显的,也有隐蔽的。工厂和工人、店主和店员、客户和律师、市民和政府、基金购买者和基金管理人等都是。 委托人——代理人关系的关键特征:不能直接控制,监督不完全,信息不完全,利益的相关性 委托人——代理人涉及问题:激励机制设计、机制设计理论,委托合同设计问题等
二、无不确定性的委托人—代理人模型 代理人的选择 激励相容约束: w(E)-E> w(S)-S w(E)> w(S)+E-S 1 2 偷懒 努力 拒绝 接受 不委托 委托 代理人的选择 激励相容约束: w(E)-E> w(S)-S w(E)> w(S)+E-S [R(0),0] [R(0),0] [R(E)-w(E), w(E)-E] [R(S)-w(S), w(S)-S]
参与约束: 接受:w(E)-E>0 接受:w(S)-S>0 2 参与约束 [R(E)-w(E), w(E)-E] 拒绝 接受 [R(S)-w(S), w(S)-S] 接受:w(E)-E>0 接受:w(S)-S>0 参与约束
委托人的选择 1 不委托 委托 [R(S)-w(S), w(S)-S] [R(0),0] [R(E)-w(E), w(E)-E] 委托: R(E)-w(E) > R(0) 不委托: R(E)-w(E) < R(0) 委托: R(S)-w(S) > R(0) 不委托: R(S)-w(S) < R(0)
数值例子 1 E=2, S=1, W(E)=4, w(S)=2 2 接受 偷懒 努力 拒绝 不委托 委托 [0,0] [0,0] [7,1] [12, 2]
三、有不确定性但可监督的 委托人—代理人博弈 三、有不确定性但可监督的 委托人—代理人博弈 因为可监督,因此代理人报酬与成果无关,只与努力情况有关。不确定性风险由委托人承担。代理人选择同无不确定性情况。 1 2 [0,0] [10-w(S), w(S)-S] [20-w(S), w(S)-S] [10-w(E), w(E)-E] [20-w(E), w(E)-E] 不委托 高产 (0.1) 低产 (0.9) 努力 偷懒 接受 拒绝 委托 努力 委托: 0.9*[20-w(E)]+0.1*[10-w(E)]>0 不委托: 0.9*[20-w(E)]+0.1*[10-w(E)]<0 偷懒: 委托: 0.1*[20-w(S)] +0.9*[10-w(S)]>0 不委托: 0.1*[20-w(S)] +0.9*[10-w(S)]<0
四、有不确定性且不可监督的 委托人—代理人博弈 四、有不确定性且不可监督的 委托人—代理人博弈 只能根据成果付酬,w是成果函数,而非努力程度函数。不确定性对代理人利益、选择有影响。 1 2 [0,0] [10-w(S), w(10)-S] [20-w(20), w(20)-S] [10-w(10), w(10)-E] [20-w(20), w(20)-E] 不委托 高产 (0.1) 低产 (0.9) 努力 偷懒 接受 拒绝 委托
促使代理人努力的激励相容约束、参与约束,以及委托人选择委托的条件 努力: 0.9*[w(20)-E]+0.1*[w(10)-E] >0.1*[w(20)-S]+0.9*[w(10-S)] 参与约束 接受: 0.9*[w(20)-E]+0.1*[w(10)-E]>0 委托: 0.9*[20-w(20)]+0.1*[10-w(10)]>0 对于委托人来说,就是要根据上述两个条件,以及 E、S的值,选择最佳的工资水平w(20)和w(10),或者它们的差额w(20) -w(10)
五、选择报酬和连续努力水平的 委托人—代理人博弈 五、选择报酬和连续努力水平的 委托人—代理人博弈 R, C C(e) + R(e) 委托人希望的代理人努力水平 (满足参与约束)
店主和店员的问题 商店的利润 , 是均值为0的随机变量 店员的负效用 , 是店员的努力 机会成本为1 店主采用的报酬计算公式 店员的得益 店员期望得益为 店主的得益为
参与约束: 当店员风险中性时 符合其最大利益 店主选择下限 代入得益公式得: ,期望得益为 ,易求得 令 得 ,再代入参与约束得 , 求数学期望得 解得 , 则店主的最优激励工资计算公式是
3.5 有同时选择的动态博弈模型 3.5.1 标准模型 3.5.2 间接融资和挤兑风险 3.5.3 国际竞争和最优关税 3.5.4 工资奖金制度
3.5.1 标准模型 博弈中有四个博弈方,分别称为博弈方1、博弈方2、博弈方3和博弈方4 第一阶段是博弈方1和博弈方2的选择阶段,他们同时在各自的可选策略(行为)集合 和 中分别选择 和 第二阶段是博弈方3和博弈方4的选择阶段,他们在看到博弈方1和博弈方2的选择 和 以后,同时在各自的可选策略(行为)集合 和 中分别选择 和 各博弈方的得益都取决于所有博弈方的策略 即博弈方i的得益是各个博弈方所选择策略的多元函数
3.5.2 间接融资和挤兑风险 1, 1 不 存 存 款 客户2 不存 存款 客 户 1 第一阶段 0.8,0.8 0.6,1 1,0.6 1.2,1.2 提 前 到 期 客户2 提前 到期 客 户 1 第二阶段 第二阶段 下一阶段 1.2,1.2 (到期,到期) (存款,存款) 建立信贷保证、保险制度, 对存款进行保护、保险的原因 (提前,提前) (不存,不存)
非法集资问题 现代更容易引发金融、社会风险的主要是不正规的非法金融活动,如地下钱庄和非法集资等。因为非法金融活动常常通过恶意欺骗的手段吸引人们参加,用借新债还旧债的方法,而不是经营利润偿还到期资金,信用差、管理差而且缺乏保险措施,引起金融风险并引发社会问题的可能性要大得多。
3.5.3 国际竞争和最优关税 厂商的得益函数为: 第二阶段厂商选择:
第一阶段政府选择:先把第二阶段根据厂商选择得到结果代入政府得益,再求最优化: 政府的得益函数; 第一阶段政府选择:先把第二阶段根据厂商选择得到结果代入政府得益,再求最优化:
3.5.4 工资奖金制度 模型假设: 1.雇员i(i=1,2)的产出函数为 , 为雇员努力水平, 为随机扰动。 服从分布密度 ,均值为0的随机变量。 雇员努力的负效用函数为 ,且 。 2.产量高的雇员得到高工资 ,产量低的得到低工资 。 3.两雇员在已知雇主宣布的工资奖金制度下,同时独立选择各自的努力程度。
雇员选择 雇主决定了工资以后,雇员同时决定努力程度: 一阶条件 这是雇员所选择努力程度必须满足的基本条件。
利用条件概率的贝叶斯法则: 代入得: 两雇员情况一样,对努力程度的选择也相同,即: ,这样就得到: 这就是两雇员之间的静态博弈纳什均衡。 两雇员情况一样,对努力程度的选择也相同,即: ,这样就得到: 这就是两雇员之间的静态博弈纳什均衡。 若进一步假设 ,那么
雇主选择 由于雇员之间博弈的均衡是对称均衡,因此双方赢得竞赛的机会都是0.5,假设雇能得到其他工作机会提供的得益是 ,则保证雇员接受工作的基本条件是: 此即“参与约束”。 由于在雇员接受工作的前提下,雇主必然尽可能压低工资,因此约束条件可取等号: 于是得到: 设上述参与约束条件满足,雇主的利润函数为
上述雇主决策可转化为促使雇员的努力程度满足: 雇主的期望利润为 ,因此雇主有如下的最优化问题: 上述雇主决策可转化为促使雇员的努力程度满足: 一阶条件为: 代入两雇员的最优努力水平决定公式得到:
3.6 动态博弈分析的问题和扩展讨论 3.6.1 逆推归纳法的问题 3.6.2 颤抖手均衡和顺推归纳法 3.6.3 蜈蚣博弈问题
3.6.1 逆推归纳法的问题 逆推归纳法只能分析明确设定的博弈问题,要求博弈的结构,包括次序、规则和得益情况等都非常清楚,并且各个博弈方了解博弈结构,相互知道对方了解博弈结构。这些可能有脱实际的可能 逆推归纳法也不能分析比较复杂的动态博弈 在遇到两条路径利益相同的情况时逆推归纳法也会发生选择困难 对博弈方的理性要求太高,不仅要求所有博弈方都有高度的理性,不允许犯任何错误,而且要求所有博弈方相互了解和信任对方的理性,对理性有相同的理解,或进一步有“理性的共同知识”
3.6.2 颤抖手均衡和顺推归纳法 颤抖手均衡 1 2 L (0, 0) N T V R M (1, 2) (1, 1) S U (2, 1) 10, 0 10, 1 2, 0 6, 2 L R U D 博弈方2 博 弈 方 1 9, 0 (2, 3) (3, 3)
顺推归纳法 0,0 1,3 3,1 s w R D (2, 2) 2 1 Van Damme 博弈 3,1 0,0 2,2 1,3 Ds R Dw 博 弈 方 1 博弈方2 Van Damme 博弈策略形
3.6.3 蜈蚣博弈问题 该博弈是说明逆推归纳法和博弈分析困难的经典博弈 1 2 R (98,98) (97,100) d r (99,99) D (98,101) (100,100) (0,3) (2,2) (1,1)