第2章博弈论与决策行为.

第2章博弈论与决策行为

2．1 博弈论的基本概念一、博弈参与人博弈参与人（player）是博弈中选择行动以最大化自己效用的决策主体。参与人可以是自然人，也可以是企业、团队、国家，甚至是国家组成的集团（如欧盟、OPEC等）。除一般意义上的参与人外，博弈论中还有“虚拟参与人”（pseudo player）——自然（nature），“自然”是指不以博弈参与人意志为转移的外生事件，“自然”选择的是外生事件的各种可能现象，并用概率分布来描述“自然”的选择机理。也可以说，自然就是决定外生的随机变量的概率分布的机制。

二、行动行动（action or move）是参与人在博弈的某个时点的决策变量。与行动相关的一个重要问题是行动的顺序。静态博弈与动态博弈就是依据行动的顺序进行区分的。所谓静态博弈，就是指参与人同时选择行动，或虽然不是准确意义上的同时，但后行动者并不知道先行动者采取了什么具体行动；动态博弈则是指参与人的行动有先后顺序，且后行动者能够观察到先行动者所选择的行动。

三、战略博弈中各参与人的行动规则称为“战略”(strategy)，它规定参与人在什么情况下选择什么行动。各参与人可以选择的全部战略或战略选择的范围称为“战略空间”。如果一个博弈中每个参与人的战略数都是有限的，则称为“有限博弈”(finite game)，如果一个博弈中至少有某些参与人的战略有无限多个，则称为“无限博弈”(infinite game)。

四、得益得益(payoff)是指在一个特定的战略组合下参与人从博弈中所获得的利益，是参与人追求的根本目标，也是他们行为和判断的主要依据。博弈的一个基本特征是参与人的得益不仅取决于自己的战略选择，而且取决于所有参与人的战略选择，因此参与人的得益是所有参与人战略组合的函数。

五、信息信息指的是参与人在博弈过程中能够了解和观察到的知识，这些知识包括“自然”的选择、其他参与人的特征和行动等。一般地，将各博弈方都完全了解所有博弈方各种情况下得益的博弈称为“完全信息(completeⅠinformation)博弈”，而将至少部分博弈方不完全了解其他博弈方得益情况的博弈称为“不完全信息(incompleteⅠinformation)博弈”。

六、合作博弈与非合作博弈合作博弈(cooperative games)与非合作博弈(non-cooperative games)的区别，主要在于博弈的当事人之间能否达成一个有约束力的协议。如果有，就是合作博弈；反之，就是非合作博弈。当前，非合作博弈是博弈论研究的主流领域。非合作博弈按照参与人的信息状态和行动顺序两个角度进行划分，得到四种不同类型的博弈：完全信息静态博弈、完全信息动态博弈、不完全信息静态博弈、不完全信息动态博弈。

2．2 完全信息静态博弈参与者同时选择行动，根据所有参与者的选择，每个参与者得到各自的结果（一定的收益或支出）。
2．2 完全信息静态博弈参与者同时选择行动，根据所有参与者的选择，每个参与者得到各自的结果（一定的收益或支出）。每一参与者的收益函数（根据所有参与者选择行动的不同组合决定某一参与者收益的函数）在所有参与者之间是共同知识。

2．2．1 博弈的标准式表述和求解博弈标准式表述含有以下三个要素：（1）参与人集合，（2）每一个参与人可供选择的战略集，
2．2．1 博弈的标准式表述和求解博弈标准式表述含有以下三个要素：（1）参与人集合，（2）每一个参与人可供选择的战略集，（3）针对所有参与人可能选择的战略组合，每一个参与人获得的收益。

用G表示一个博弈，如果G有n个博弈方，每个博弈方的全部可选战略的集合称为“战略空间”，分别用S1,…，Sn表示，Sij∈Si表示博弈方i的第j个战略，其中j可取有限个值（有限战略博弈），也可取无限个值（无限战略博弈）；博弈方i的得益用ui表示，是各博弈方战略的多元函数，n个博弈方的博弈G写成G=｛S1,…,Sn;u1,…,un｝

占优战略均衡在博弈中，如果所有的参与人都有占优战略存在，因而博弈将在所有参与人的占优战略的基础上达到均衡，这种均衡称为占优战略均衡。在上表中，“A坦白，B也坦白”就是占优战略均衡。占优战略均衡只要求所有的参与人是理性的，而并不要求每个参与人知道其他参与人也是理性的。不论其他参与人是否理性，占优战略总是一个理性参与人的最优选择。

重复剔除严格劣势战略均衡在绝大多数博弈中，占优战略均衡是不存在的。我们可以通过逐步剔除劣势策略找出博弈的均衡。
劣战略(dominated strategies)：是指在其他博弈参与人战略为既定的条件下，某一参与人可能采取的战略中，对自己相对不利的战略。严格劣战略(strictly dominated strategies)则是指：无论其他博弈参与人采取什么战略，某一参与人可能采取的战略中，对自己相对不利的战略。

首先找出某一博弈参与人的严格劣战略，将它剔除掉，重新构造一个不包括已剔除战略的新的博弈；然后继续剔除这个新的博弈中某一参与人的严格劣战略；重复进行这一过程，直到剩下唯一的参与人战略组合为止。
这个唯一剩下的参与人战略组合，就是这个博弈的均衡解，称为“重复剔除的占优战略均衡”(iterated dominance equilibrium).

与占优战略均衡相比，重复剔除劣势战略均衡不仅要求博弈的所有参与人都是理性的，而且要求每个参与人都了解所有的其他参与人都是理性的。在上例中，如果大猪不能排除小猪按按钮的可能性，按按钮就不一定是大猪的最优选择。

纳什均衡（NASH EQUILIBRIUM）
设想在博弈论预测的博弈结果中，给定每个参与人选定各自的战略，为使该预测是正确的，必须使参与人自愿选择理论给他推到出的战略。这样，每个参与人要选择的战略必须是针对其他参与人选择战略的最优反应，这种理论推测结果可以叫做“战略稳定”或“自动实施”的，因为没有参与人愿意独自离弃他所选定的战略，我们把这一状态就称为纳什均衡。

“I’m doing the best I can given what you are doing”
Nash Equilibrium： “I’m doing the best I can given what you are doing” “You’re doing the best you can given what I am doing.”

定义：在博弈G=｛S1,…,Sn;u1,…,un｝中，如果由各个博弈方的各一个策略组合（s1. ，…,sn. ）中，任一博弈方i的策略si
定义：在博弈G=｛S1,…,Sn;u1,…,un｝中，如果由各个博弈方的各一个策略组合（s1*，…,sn*）中，任一博弈方i的策略si*都是对其余博弈方策略组合（s1*，…, si-1*，si+1*,…, sn*）的最佳策略，即ui（s1*，…, si-1*，si*,si+1*,…, sn*）≥ui（s1*，…, si-1*，sij,si+1*,…, sn*）对任意sij∈Si都成立，则称（s1*，…,sn*）为G的一个纳什均衡。

可以证明：纳什均衡战略决不会在重复剔除劣战略的过程中被剔除掉，而重复剔除劣战略后所留战略却不一定满足纳什均衡战略的条件，因此纳什均衡是一个比重复剔除严格劣战略要强的解的概念。

无限策略博弈分析和反应函数在无限策略、连续策略空间的博弈中，我们仍然可以以纳什均衡概念为基础进行博弈分析。

古诺的寡头模型寡头产量竞争——以两厂商产量竞争为例 2 1 6 q - =

反应函数古诺模型的反应函数

q1* = q2*=2

以自身最大利益为目标：各生产 2单位产量，各自得益为4 以两厂商总体利益最大：各生产 1.5单位产量，各自得益为4.5
两寡头间的囚徒困境博弈 4.5，4.5 5，3.75 3.75，5 4，4 不突破突破厂商2 厂商 1 以自身最大利益为目标：各生产 2单位产量，各自得益为4 以两厂商总体利益最大：各生产 1.5单位产量，各自得益为4.5

2．2．2 完全信息静态博弈的典型应用一、豪泰林（Hotelling）价格竞争模型在古诺模型中，产品是同质的。在这个假设下，如果企业的竞争战略是价格而不是产量，伯川德（Bertrand）证明，即使只有两个企业，在均衡情况下，价格等于平均成本，企业的利润为零，与完全竞争市场均衡一样。这便是所谓的“伯川德悖论”。（Bertrand Paradox）

与古诺模型相比，伯川德模型中的纳什均衡是完全竞争的结果：双方的定价都等于成本，这与古诺模型中双方均获得正利润的结果截然不同。
为什么？每个厂商都有削价的动机，如果一方削价（哪怕是些微的），它就可以占领整个市场并提高其利润水平。因此，直至价格被压低至成本水平（假如双方相同），双方都将价格定为在略低于对手的水准。纳什均衡的含义：一旦双方的索价等于成本，任一方就不存在调整其价格的动机了。

解开这一悖论的办法之一是引入产品的差异性。如果不同企业生产的产品是有差异的，替代弹性就不会是无限的，此时消费者对不同企业的产品有着不同的偏好，价格不是他们唯一感兴趣的变量。在存在产品差异的情况下，均衡价格不会等于成本。

产品差异有多种形式，经典的豪泰林模型考虑了一种特殊的差异，即空间上的差异。在模型中，产品在物质性能上是相同的，但在空间位置上有差异。因为不同位置上的消费者要支付不同的运输成本，他们关心的是价格与运输成本之和，而不仅仅是价格。

假定有一个长度为1的线性城市，消费者均匀分布在[0,1]区间里，分布密度为1。
两个商店，分别位于城市的两端，商店1在x=0，商店2在x=1，出售性能相同的产品。每个商店提供单位产品的成本为c，消费者购买商品的旅行成本为t 住在x的消费者如果在商店1购买，要花费tx的旅行成本；如果在商店2购买，要花费t(1-x)的旅行成本假定消费者具有单位需求，即或者消费1个单位，或者消费0个单位。

考虑两商店之间价格竞争的纳什均衡，即行动变量为价格pi，( i=1，2)。需求函数Di(p1，p2)，( i=1，2)。
如果住在x的消费者在两个商店之间是无差异的，即满足： p1 + tx = p2 + t(1-x)

那么，住在比x距离近的消费者都会在商店1购买，住在比x距离远的消费者都会在商店2购买。则需求函数分别为：

利润函数分别为：

求使得利润最大的价格水平，分别令以下一阶导数为零：

解得： p1* = p2* = c + t 每个企业的均衡利润为： u1 = u2 = t/2

当旅行成本为零时，不同商店的产品之间具有完全的替代性，没有任何一个商店可以把价格定得高于成本，我们就得到伯川德均衡结果:
p1* = p2* =c u1 = u2 = 0

更为一般地，我们可以讨论商店位于任何位置的情况。假定商店1位于a（a>=0)，商店2位于1-b（b>=0），不失一般性，假定1-a-b>=0，即商店1位于商店2的左边。如果旅行成本是旅行距离的二次式，即旅行成本为td2，d为消费者到商店的距离

需求函数分别为：

纳什均衡为：当a=b=0时，商店1位于0，商店2位于1：当a=1-b时，两个商店位于同一位置：

二、公共资源问题在经济学中，所谓公共资源是指具有：（1）没有哪个人、企业或组织拥有所有权；（2）大家都可以自由利用。具有这样两个特征的自然资源或人类生产的供大众免费使用的设施或财货。在人们完全从自利动机出发自由利用公共资源时，公共资源倾向于被过度利用、低效率使用和浪费，并且过度使用会达到任何利用它们的人都无法得到实际好处的程度。

设某村庄有n个农户，该村有一片大家可以自由放牧羊群的公共草地。由于这片草地的面积有限，因此只能让不超过某一数量的羊吃饱，如果在这片草地上放牧羊群的实际数量超过这个限度，则每只羊都无法吃饱，从而每只羊的产出（毛、皮、肉的总价值）就会减少，甚至只能勉强存活或饿死。

假设这些农户在夏天才到公共草地上放牧，而每年春天就要决定养羊的数量，则可看作各农户在决定自己的养羊数量的时候不知道其他农户养羊的数量，即各农户决定养羊数量的决策时同时做出的。
假设所有农户都清楚这片公共草地最多只能养多少只羊和羊只总数的不同水平下每只羊的产出。这样就构成了n个农户之间关于养羊数量的一个博弈问题，而且是一个静态博弈。

博弈方就是n个农户，他们各自的策略空间就是他们可能选择的养羊数目qi(i=1,…,n)的取值范围；
当各户养羊数为q1,…qn时，在公共草地上放牧羊只的总数是Q=q1+…+qn 每只羊的产出应是羊只总数的减函数V=V(Q)=V(q1+…+qn)。假设购买和照料每只羊的成本对于每个农户来说都是一个不变常数C，则农户I养qi只羊的得益函数为： ui=qiV(Q)-qic=qi·V(q1+…+qn)-qic

假设n=3，即只有三个农户，每只羊的产出函数为V=100－Q=100－(q1＋q2＋q3)，成本c=4。三农户的得益函数分别为：
u1=q1[100－(q1＋q2＋q3)]－4q1 u2=q2[100－(q1＋q2＋q3)]－4q2 u3=q3[100－(q1＋q2＋q3)]－4q3

求三农户各自对其他两农户策略（养羊数）的反应函数，得：
q1=48－0.5q2－0.5q3 q2=48－0.5q1－0.5q3 q3=48－0.5q2－0.5q1

三个反应函数的交点（q1*，q2*，q3*）就是博弈的纳什均衡。
解此联立方程组，得： q1*=q2*=q3*=24 u1 *=u2 *=u3 *=576

为了对公共资源的利用效率做出评价，我们来讨论一下总体利益最大的最佳羊只数量。设在该草地上羊只的总数为Q，则总得益为：
u=Q(100－Q)－4Q=96－Q2 96－2 Q* =0 因此，使总得益u最大的养羊数Q* =48， u *=2304

计算当n=4，其他条件不变时的纳什均衡，以及效率水平。当n 趋向于无穷大时呢？

三、二级价格拍卖一个卖主有一个不可分单位的标的要出售，有I个潜在的买主（投标者），他们对标的估价是
则会有效用: 其他投标者没有支出，因此效用为0。如果多个投标者投出最高价格，则标的在它们之间随机分配。

对于每一个参与人来说，以他的估价进行投标的策略（）弱优于其它所有策略。

令首先设如果，则投标者获得效用0，而这一效用可以通过以投标而获得；如果投标者获得效用，这还是他通过以投标可以获得的效用。
如果，则投标者获得效用0，而这一效用可以通过以投标而获得；如果投标者获得效用，这还是他通过以投标可以获得的效用。如果则投标者I具有效用而投标则效用为0。

对于有类似的推理：当或时，投标者的效用与他以出价时相同而当投标者由于出价过低而损失了正效用。

因此，可以合理地预期，在二级价格拍卖中，投标者会以他们的估价进行投标。由于以估价出价是一种优势策略，所以投标者是否具有关于彼此估价的信息并不重要。

2．2．3 混合策略和混合纳什均衡猜硬币博弈猜硬币方正面反面正面盖硬币方反面 -1，1 1，-1

（1）自己的策略选择不能预先被另一方知道或猜测到。
博弈方决策的原则：（1）自己的策略选择不能预先被另一方知道或猜测到。这正是没有纳什均衡的博弈与存在唯一纳什均衡的博弈之间的一个重要本质区别。（2）在该博弈的多次重复中，博弈方一定要避免自己的选择带有规律性因此在该博弈中博弈方必须随机选择策略，或者说，在这个博弈中两个博弈方最正确的决策方法，就是将自己当作一台抽签的机器。

（3）如果博弈一方已经采用随机选择的方法决定出正面还是反面，但总体上出正面的机会（概率）大于出反面的机会（概率），那么另一方仍然有机可乘。设盖硬币方出正面的概率为p，出反面的概率就是1－p，p>1－p，在这种情况下，猜硬币方全猜正面的期望得益将大于零。因此本例中的任何一个博弈方最可靠的方法就是以相同的概率随机出正面和反面，即取p=0.5，这样，另一方就无法从你对策略的偏好中占到任何便宜。

混合策略、混合策略博弈和混合策略纳什均衡
博弈方以一定的概率分布在可选策略中随机选择的决策方式，在分析原来没有纳什均衡的博弈和有多个纳什均衡的博弈时有非常重要的意义。我们称这种策略选择方式为“混合策略”（mixed strategies），与此相对，把博弈中原来意义上的策略称为“纯策略”（pure strategies）。

定义：在博弈G=｛S1,…,Sn;u1,…,un｝中，博弈方i的策略空间为Si=｛si1,…sik｝，则博弈方I以概率分布pi=(pi1,…,pik)在其k个可选策略中选择的“策略”称为一个混合策略，其中0 对j=1,…,k都成立，且pi1+…+pik=1。

纯策略也可以看作是混合策略，即选择相应纯策略的概率为1，选择其余纯策略的概率为0 的混合策略。
当我们把博弈方的策略从纯策略扩展到混合策略，把策略空间从纯策略空间扩展到混合策略空间的时候，纳什均衡的基础也就扩大了。混合策略的意义上定义纳什均衡：即如果一个策略组合满足各博弈方的策略相互时对其他博弈方策略的最佳对策时，就是一个纳什均衡。这时任何博弈方单独改变自己的策略，都不能给自己增加任何利益

寻找混合策略纳什均衡概率分布的思路，即令各个博弈方随机选择纯策略的概率分布，满足使对方或其他博弈方采用不同策略的期望得益相同，从而计算出各个博弈方随机选择各纯策略概率的方法。

小偷和守卫的博弈守卫睡不睡偷小偷不偷 V, -D -P, 0 0, S 0, 0

设小偷偷的概率为pt，不偷的概率为1-pt，守卫睡的概率为pg，不睡的概率为1-pg。 Pt·(-D)+(1-pt)·S=0
睡不睡偷小偷不偷 V, -D -P, 0 0, S 0, 0 设小偷偷的概率为pt，不偷的概率为1-pt，守卫睡的概率为pg，不睡的概率为1-pg。 Pt·(-D)+(1-pt)·S=0 Pg·V+(1-Pg)·(-P)=0

失职守卫长期中的真正作用，恰恰是会降低盗窃发生的概率。
小偷和守卫的博弈所揭示的，政策目标和政策结果之间的这种意外关系，常被称为“激励的悖论”，这个悖论对于制定经济政策，进行经济管理体制的改革是很有启发的。

2．2．4 纳什均衡的存在性和多重纳什均衡博弈的分析
2．2．4 纳什均衡的存在性和多重纳什均衡博弈的分析纳什定理：在一个由n各博弈方的博弈G=｛S1,…,Sn;u1,…,un｝中，如果n是有限的，且Si都是有限集（对i=1,…n），则该博弈至少存在一个纳什均衡，但可能包含混合策略。 “每一个有限博弈都至少有一个混合策略纳什均衡”。

如果一个博弈有有限个博弈人，每个博弈人有有限的纯策略，那么这个博弈至少有一个纳什均衡。
如果这个博弈没有纯策略纳什均衡，至少有一个混合策略纳什均衡。

多重纳什均衡博弈的分析纳什均衡的存在性不等于唯一性，因此纳数均衡分析往往不一定能解决一个博弈问题，博弈方的选择会遇到困难。
对有些博弈问题仅仅进行纳什均衡分析是不够的，必须在纳什均衡分析的基础上再作进一步的深入分析。

一、帕雷托上策均衡有些博弈虽然存在多个纳什均衡，但这些纳什均衡有明显的优劣差异，所有博弈方都偏好其中的一个纳什均衡，即这些纳什均衡中的某一个给所有博弈方带来的利益，都大于其他所有纳什均衡会带来的利益。

思考：本例与“囚徒困境”有何区别？为什么还有那么多战争？试写出博弈矩阵并作分析。

促使帕雷托上策均衡出现的一个方法是“廉价磋商”（cheap talk）,即参与人在博弈开始之前进行不花什么成本的磋商。
尽管事前的磋商确实可能使帕雷托均衡出现，但这一结论并不总是成立。

二、风险上策均衡（Risk-dominant Equilibrium）

风险上策均衡的一种简单理解方法或识别标准是：如果所有博弈方在预计其他博弈方采用两种纳什均衡的概率相同时，都偏爱其中某一纳什均衡，则该纳什均衡就是一个风险上策均衡。

博弈方对风险上策均衡的选择倾向，有一种自我强化的机制。
当部分或所有博弈方选择风险上策均衡的可能性增加时，任何一个博弈方选择帕雷托上策均衡策略的期望都会进一步变小，这就使各博弈方更倾向于选择风险上策均衡，而这又进一步使选择帕雷托上策均衡策略的得益更小，从而形成一种选择风险上策均衡的正反馈机制，使其出现的机会越来越大。

上述反馈机制会随着相互信任的难度而加强。例如，当合作猎鹿需要10个人同心协力才能完成，只要其中一个人不合作就必然失败时，人们就很难自觉选择合作，因为相信其他九个人都会合作，比相信其他一个人选择合作要难得多，此时选择合作的风险就非常大。

人数虽多，却人多势不众，形不成强有力的反映意见的共同声音。经济学家把这种人数众多却声音微弱的现象叫做“数量悖论”。
沟通与信心搭便车

三、聚点均衡博弈方利用博弈规则以外的特定信息，如博弈方共同的文化背景中的习惯或规范，共同的知识，或者具有特定意义事物的特征、某些特殊的数量、位置关系等，在多重纳什均衡制作选择

例：两个博弈方同时报一个时间，所报时间相同各可获得100元的奖励，所报时间不同则不能获得奖励
这个博弈有无穷多个纳什均衡，双方选择任何一个相同时间都是该博弈的纳什均衡，而且这些纳什均衡相互之间完全不存在效率意义上的优劣关系。

“中午12点”、和“0点”等策略为上述博弈的“聚点”。
在多重纳什均衡的博弈中，聚点均衡首先是纳什均衡，是多重纳什均衡中比较容易被选择的纳什均衡。双方同时选择的一个聚点构成的纳什均衡，称为“聚点均衡”（focal point equilibrium）

“城市博弈”（cities game）：要求两个博弈方各自独立将上海、南京、长春、哈尔滨4个城市分为每组两个城市的2组，若两人分法一致则各得100元，否则得益为0。

2．3 完全且完美信息动态博弈

2．3．1 动态博弈的表示法和特点动态博弈一般用“扩展形” （或称“博弈树”）表示。扩展形表述要给出每个参与人的动态描述，即参与人在什么时点、什么情况下选择什么样的行动。（1）参与人集合；（2）行动顺序（order of move），即谁在何时采取行动；（3）行动空间（action set），每次轮到某一参与人行动时，可供选择的行动；（4）信息集（information set），参与人进行选择时所知道的信息；（5）收益函数，每个参与人可能选择的每一种行动所构成的行动组合相对应的各个参与人的收益；（6）外生事件的概率分布，即虚拟参与人（自然）的可能选择，它在博弈中的作用只是在相应的地方在若干外生事件中根据一定的概率分布随即选取，而没有自己的利益目标和收益函数。

无法用扩展形表示的动态博弈，通常可以直接用文字描述和数学函数式表示。
并不是所有的动态博弈都可以用扩展形表示，因为有些动态博弈的阶段很多，或者博弈方在一个阶段有许多可以选择的行为，这时用扩展形表示动态博弈就很困难，或者根本不可能。例如下象棋是动态博弈，但它不仅博弈阶段很多，而且每各阶段的可能选择也很多，因此很难用扩展形表示。无法用扩展形表示的动态博弈，通常可以直接用文字描述和数学函数式表示。

动态博弈的策略和结果动态博弈的结果首先是指各博弈方的策略组合；
其次，动态博弈的结果是各博弈方的策略组合形成的一条连接各个阶段的“路径”（PATH）；最后，实施上述策略组合的最终结果，即路径终端处得益数组中的数字。

可信性和纳什均衡问题相机选择和策略中的可信性问题
动态博弈中博弈方的策略并没有强制力，而且实施起来有一个过程，只要符合博弈方自己的利益，他们完全可以在博弈过程中改变计划。我们称这种问题为动态博弈中的“相机选择”（Contingent Play）。

不可置信威胁引出信息经济学中一个很重要的概念“承诺行动”（commitment）。
承诺行动是当事人使自己的威胁战略变得可置信的行动。一种威胁在什么时候才是可置信的？只有当事人在不实施这种威胁时，就会遭受更大的损失时，威胁才是可置信的。所以，承诺行为就意味着当事人要为自己的诺言付出成本，尽管这种成本不一定真的发生。承诺行动会给当事人带来很大的好处，因为它会改变均衡结果。

子博弈定义：由一个动态博弈第一阶段以外的某阶段开始的后续博弈阶段构成的，有初始信息集和进行博弈所需要的全部信息，能够自成一个博弈的原博弈的一部分，称为原动态博弈的一个“子博弈”。乙甲不借借不分分（1，0）（0，4）（2，2）（-1，0）

子博弈完美纳什均衡定义：如果一个完美信息的动态博弈中，各博弈方的策略构成的一个策略组合满足，在整个动态博弈及它的所有子博弈中都构成纳什均衡，那么这个策略组合称为该动态博弈的一个“子博弈完美纳什均衡”。子博弈完美纳什均衡能够排除均衡策略中不可信的威胁和承诺，因此是真正稳定的。逆推归纳法是求完美信息动态博弈子博弈完美纳什均衡的基本方法。

2．3．2 逆推归纳法（Backwards Induction）
逻辑基础：动态博弈中先行动的理性的博弈方，在前面阶段选择行为是必然会考虑后行为博弈方在后面阶段中将会怎样选择行动，只有在博弈的最后一个阶段选择的不再有后续阶段牵制的博弈方，才能做出明确的选择。而当后面阶段博弈方的选择确定以后，前一阶段博弈方的行为也就容易确定了。一般方法：从动态博弈的最后一个阶段开始分析，每一次确定出所分析阶段博弈方的选择和路径，然后再确定前一个阶段的博弈方的选择和路径。

由于逆推归纳法确定的各个博弈方在各阶段的选择，都是建立在后续阶段各个博弈方理性选择的基础上，因此自然排除了包含有不可置信的威胁或承诺的可能性，因此其结论是比较可靠的，确定的各个博弈方的策略组合是有稳定性的。

所谓“精炼纳什均衡”就是将纳什均衡中包含的不可置信的威胁战略剔除出去
要求参与人的决策在任何时点上都是最优的决策者要随机应变，而不是固守旧略由于剔除了不可置信的威胁战略，在许多情况下，精炼纳什均衡也缩小了纳什均衡的个数，这一点对预测是非常有意义的。

2．3．3 完全信息动态博弈的典型应用寡占的斯塔克博格（stackberg）模型——动态的寡头市场产量博弈模型
u1=q1P(Q)-c1q1 =q1[8-(q1+q2)]-2q1 =6q1- q1q2-q12 u2=q2P(Q)-c2q2 =q2[8-(q1+q2)]-2q2 =6q2- q1q2-q22

根据逆推归纳法的思路，先分析第二个厂商的决策。在第二个阶段厂商2决策时，厂商1选择的q1实际上已经决定了，并且厂商2 知道q1，因此对于厂商2来说，相当于在给定q1的情况下求使u2实现最大值的q2。
q2应满足： 6－q1－2 q2 = 0 q2 =3－q1/2

厂商1 知道厂商2的这种决策思路，因此在选择产量水平q1时就知道厂商2的产量q2
u1(q1,q2*) = 6q1－q1q2*－q12 = 6q1－q1(3－q1/2)－q12 =3q1－0.5q12 3－q1* = 0 q1* = 3 q2* =3－1.5 = 1.5 P= u1= u2 = 2.25

宏观经济政策的动态一致性宏观经济学中一个典型的动态博弈问题是政府政策的动态一致性（dynamic consistency）或称“时间一致性”（time consistency）。

凯德兰德和普瑞斯考特（Kydland and Prescott,1977）提出一个货币政策模型
博弈的参与人是政府和私人部门，私人部门选择预期的通货膨胀率，政府在给定预期通货膨胀率的情况下选择实际的通货膨胀率。

首先私人部门形成一个对通货膨胀的预期值，私人部门的收益为，即私人部门总是简单地试图正确预测通货膨胀率，在л= 时，达到最大化收益（最大化收益为0）。

假定政府要设定通货膨胀率π，但是政府关心的不仅是通货膨胀问题，还关心失业率和产出问题。
个人与企业间会就名义工资进行谈判，虽然企业和工人在谈判时都将尽力去预测通货膨胀因素，但工资合同无法完美地指数化。名义工资一旦确定，真实的通货膨胀率如果高于预测的通货膨胀率，将会使工人的实际收入下降，导致企业扩大雇用人数，扩张生产。中央政府就要在通货膨胀成本和意料之外的通货膨胀使失业率下降及总产出提高之间进行权衡。

假设政府的效用函数如下： c>0, k>1 π是通货膨胀率，y*是自然失业率下的均衡产量，y是实际产量。 K>1表示由于产品市场上垄断力量的存在使得真实产出小于有效率的产出，或者可以解释为政府受到选民的压力希望寻求将产出水平提高到高于自然率的水平上。政府的上述效用函数表明，虽然政府并不喜欢通货膨胀，但如果通货膨胀能使产出水平提高到政府所希望的水平ky*，政府会容忍某个程度的通货膨胀。

产出与通货膨胀之间的关系可以由含有通货膨胀预期的菲力普斯曲线（expectational Phillips curve）决定，假定菲力浦斯曲线取下列线性形式：
这里是私人部门预期的通货膨胀率上述函数又称为“意外产出函数”。

由于政府是在给定私人部门通货膨胀预期的情况下选择货币政策，因此政府面临的问题是：
将代入上式，可得到政府短期的最优通货膨胀率为 k-1可以理解为政府认为产出扭曲的程度。上式表明，政府选择的通货膨胀率是私人部门预期的通货膨胀率的函数，这是政府的反应函数

假定私人部门具有理性预期，那么，预期的通货膨胀率就应当等于
将 = 代入政府的反应函数，均衡的通货膨胀率为： β越大，即产出对未预料到的通货膨胀率越敏感，通货膨胀率越高；而c越大，即政府越不喜欢通货膨胀，通货膨胀率越低

由于政府的通货膨胀率被私人部门正确地预期到，实际产出水平将独立于通货膨胀率，即y=y*。

如果政府能够保证实行零通货膨胀率，则政府的效用水平为：
显然，政府在选择短期最优通货膨胀率时的效用水平低于零通货膨胀率时的效用水平

政府为什么不选择零通货膨胀率呢？因为在这个动态博弈中，零通货膨胀率不是一个子博弈精炼纳什均衡，即不是一个动态一致的政策
假定政府承诺将实行零通货膨胀率，并且私人部门相信了这个承诺即预期的 =0 政府的最优通货膨胀率为： =

对应于这个通货膨胀率的政府效用水平为：表示私人部门被政府愚弄的情况（fooling）政府没有积极性兑现自己的诺言如果私人部门相信了政府零通货膨胀的许诺，则政府一定会选择高于零的通货膨胀率由于私人部门是理性的，他们会预期到政府的这种行为，所以政府得到的水平只能是，而不是

政府摆脱这一困境的办法之一是实行单一的货币政策，即以法律的形式规定一个固定的货币增长率，由于法律规定限制了政府行动的自由，因而承诺是可信的，政府反而可以受益。

2．3．4 逆推归纳法的问题首先逆推归纳法只能分析明确设定的博弈问题，要求博弈的结构，包括次序、规则和得益情况等都非常清楚，并且各个博弈方了解博弈结构，互相知道对方了解博弈结构。现实经济中得博弈问题常常没有明确的设定，要求各博弈方都完全清楚问题的背景，且相互有完全的信任更不容易，因此运用逆推归纳法会有脱离实际的可能。

其次是逆推归纳法也不能分析比较复杂的动态博弈。因为逆推归纳法的推理方法是从博弈的最后阶段开始对每种可能的路径进行比较，因此使用范围是人们有能力比较判断的选择路径数量，包括数量不很大的离散策略，或者有连续得益函数的连续分布策略在遇到两条路径利益相同的情况时，逆推归纳法会发生选择困难。

第三，逆推归纳法更大的问题是对博弈方的理性要求太高，不仅要求所有博弈方都有高度的理性，不允许博弈方犯任何错误，而且要求所有博弈方相互了解和信任对方的理性，对理性（个人理性、集体理性、风险偏好）有相同的理解，或进一步有“理性的共同知识”。

蜈蚣博弈是一个有限次序博弈。在有限阶段里，两个人交替在两份大小不一的资产中做选择。在任何阶段中，先选者可以选择“接受”或“放弃”，如果接受，他取得较大的一份（假设每个人都使自己收益最大化），而另一个人则取得较小的一份，博弈结束。如果放弃，博弈进入下一阶段。在新的阶段里，原来的两份钱加倍，上一阶段的后选者有优先选择权，其他规则不变。

这一博弈的纳什均衡是第一个选择者选择接受，取走较多的收入，马上结束博弈。

倒推式理性具有其理论的完美性，也部分地解释博弈显著地早于最后阶段结束的事实，但它却无法完全预测被实验者的行为。被实验者似乎在参加多次（与不同的人进行博弈）实验后，更显现出倒推式理性。

一种可能的解释是：行为者的理性可能不是公共信息。每一个行为者可能是理性的，但却可能不确定其他人是否理性，也许只有通过经验才能认识其他人的理性。

“泡沫”资产市场当一个市场上存在许多资产，其交易价格远远超过基本价值时，我们称之为泡沫资产市场。因为它不可能长期存在下去，随时会出现价格大幅度重挫，回到甚至低于基本价值。这种现象在股票市场上时有发生，具体表现为“股灾”。为什么理性行为者组成的市场会出现“泡沫”资产市场现象？当成交价非常高时，这种高价格绝不可能源于对基本价值的乐观态度。一种推测是，“大笨蛋” 的信念可能解释资产市场的“泡沫”现象。

求解蜈蚣博弈： A B 放弃接受 4，1 5，5 2，6 假设B能够向第三方签订一张2美元的债券，约定只要他没有选择“放弃”，进入下一阶段，就会失去债券，如果选择了放弃，债券最终还归还与他。这一做法将带来有效率的合作结果。 A B 放弃接受 4，1 5，5 2，4

当引入债券后，对该博弈的完整表述如下： B签债券的收益为5，不签的收益为1，B会选择签。签债券不签债券 A B 放弃接受 4，1
2，6 2，4 5，5 B签债券的收益为5，不签的收益为1，B会选择签。

2．3．5 重复博弈社会经济中的许多长期关系，并不像一般动态博弈那样，前一阶段和后一阶段之间有环环相扣的紧密联系，而是各个阶段之间有很强的相互独立性，各个阶段有独立的选择和利益。例如商业活动中的回头客问题，商店和顾客的每次交易都是一个独立博弈关系，都有愿买愿卖或公平诚信的选择，都有利益和亏损，把每次独立交易维系成回头客问题的仅仅是可能间接影响双方未来选择和利益信誉、信任。把这种关系理解成复杂的长期动态博弈，更能反映问题的实质。

重复博弈的定义和特征重复博弈是指由同样结构的基本博弈重复多次进行构成的博弈过程，其中的每次博弈称为阶段博弈。
定义：给定一个基本博弈G(可是静态或动态博弈)，重复进行T次G，并且在每次重复G之前各参与人都能观察到以前博弈的结果，这样的博弈过程称为“G的T次重复博弈”，记为G(T)。而G 则称为G(T)基本博弈，G(T)中的每次重复称为 G(T)的一个“阶段” 重复博弈具有三个特征：阶段博弈之间没有“物质上”的联系（no physical links），即前一阶段的博弈不改变后一阶段博弈的结构。（每阶段博弈的结构相同）所有参与人都能观察到博弈过去的历史（完美信息）。参与人的总收益是所有阶段博弈收益的贴现值或加权平均值。

在每个阶段（即每次重复）针对每种情况（以前阶段的结果）如何行为的计划。
重复博弈的策略：在每个阶段（即每次重复）针对每种情况（以前阶段的结果）如何行为的计划。在两阶段的囚徒困境博弈中，第一阶段有四种可能的结果，（坦白，坦白），（坦白，不坦白），（不坦白，坦白），（不坦白，不坦白），它们代表了参与者在第二阶段开始时面临的四种不同的情况，每一个参与者都要针对这些情况作出各自的反应。

重复博弈的路径是由每个阶段博弈方的行为组合串联而成的，如果原博弈有m种策略组合，那么重复两次就有m2博弈路径，重复t次就有mt条博弈路径，因此，重复博弈使博弈有更多的可能性，分析重复博弈就是要在这些路径中找出具有稳定性的均衡路径，并分析它们的效率。

重复博弈的收益：重复博弈中博弈方的行为、策略选择不可能只考虑本阶段的得益，而会考虑整个重复博弈过程得益的总体情况。重复博弈的总得益是博弈方各次重复得益的总合。考虑时间价值：引入贴现系数δ将每一阶段的得益折现成当前阶段的得益。如果一个t次重复博弈的某博弈方，某一策略下各阶段得益分别为л1，л2，…，лt，则的重复博弈总得益为： л=л1+δл+δ2л3…+δt-1лt= 在重复次数较少，每次重复时间间隔不大，而且利率或通货膨胀率较低的情况下，仍然可以用算术和表示有限次重复博弈的总得益。

参与人是从总收益最大化的角度进行决策的。
在长期内，参与人之间的行为可能相互影响，合作或者报复不合作者，这样，在博弈的一个阶段收益大并不意味着在长期内的收益也大，所以，在重复博弈中参与人必须考虑到长期利益。重复博弈可能使参与人不得不考虑这一阶段的行为对后面阶段博弈的影响，即注重声誉原来在单阶段博弈中不会出现的“合作”均衡（如囚徒困境中的(抵赖，抵赖)），在重复博弈中就可能作为均衡出现，而这正是研究重复博弈的意义所在。

双方合作的可能性根本不存在，即使双方都知道还要重复进行多次基本博弈，也不会改变他们在当前阶段博弈中的行为。
两人零和博弈的有限次重复博弈双方合作的可能性根本不存在，即使双方都知道还要重复进行多次基本博弈，也不会改变他们在当前阶段博弈中的行为。在以猜硬币博弈为原博弈的有限次重复博弈中，每个博弈方唯一正确的策略就是在每次重复时都采用一次性博弈的纳什均衡策略，即各以0.5的概率随机选择正面和反面的混合策略。重复博弈的结果是双方的平均期望得益和期望总收益都是0。事实上，所有以零和博弈为原博弈的有限次重复博弈与猜硬币博弈一样，博弈方的正确策略都是重复一次性博弈中的纳什均衡策略。

唯一纯策略纳什均衡博弈的有限次重复博弈当原博弈唯一的纳什均衡没有达到帕累托效率，是否能够在有限次重复博弈中实现合作和提高效率呢？
有限次重复囚徒困境博弈：

考虑该博弈重复两次，两博弈方先进行第一次博弈，看到第一次结果后再进行第二次博弈。两囚徒最后得益是两阶段得益之和。
用逆推归纳法分析：由于此时前一阶段的结果已经成为既成事实，此后也不再有任何的后续阶段，因此实现当前自身利益最大化是两博弈方在该阶段中决策的唯一原则。因此，可以推断出，不论前一阶段结果如何，第二阶段的唯一结果就是原博弈唯一的纳什均衡（坦白，坦白），双方得益（-5，-5）。

回到第一阶段，即第一次博弈，理性的博弈方应当对第二阶段的结局非常清楚，知道第二个阶段的结果必然是（坦白，坦白），双方在整个重复博弈中的最终得益，都将是第一阶段得益基础上各加-5。该重复博弈与下图得益矩阵表示的一次性博弈是完全等价的：该等价博弈仍然有唯一的纯策略纳什均衡（坦白，坦白）。依照上述分析方法，我们可以证明3次、4次或者n次重复囚徒困境的博弈结果都是一样的，就是每次博弈方都会采用原博弈唯一的纯策略纳什均衡。

一般结论：原博弈具有唯一纯策略纳什均衡的博弈，有限次重复博弈的均衡即各博弈方在每个阶段（每次重复）中都采用原博弈的纳什均衡策略。

有限次重复削价竞争博弈寡头1 高价低价上述结论不仅与人们的直觉经验有矛盾，而且在理论上也会引起某些悖论。
高价低价由于两个寡头在同一个市场的竞争常常可以维持相当长的时间，因此可以看成重复博弈。如果假设两寡头都意识到相互竞争的市场格局大约可以持续3年，也就是面临着一个3次重复博弈，他们是否还会采用低价，不断打价格战呢？用逆推归纳法分析这个问题，答案是肯定的。上述寡头市场削价竞争博弈的原博弈是有唯一纯策略纳什均衡的博弈，在有限次重复博弈中，各博弈方都会采用一次性博弈中的纳什均衡策略。上述结论不仅与人们的直觉经验有矛盾，而且在理论上也会引起某些悖论。 100，，150 150，，70 高价寡头2 低价

连锁店悖论一个在n个市场上都开设有连锁店的企业，对于各个市场的竞争者是否应当采取打击策略在位者默许斗争进入进入者不进入
默许斗争进入进入者不进入 40，，0 0，，300 竞争者选择进入，先占领市场的连锁企业选择默许是原博弈的唯一纳什均衡策略，用逆推归纳法可以证明，该重复博弈的纳什均衡是“每个市场的竞争者都进入，连锁企业都不打击”。容易推断，如果连锁企业对开头几个市场的竞争者不惜代价地进行打击，其示范效应通常可以吓退其余市场的潜在竞争者，其利益总体上是合算的。问题的症结可能在于逆推归纳法的适用性

多个纯策略纳什均衡博弈的有限次重复博弈三价博弈厂商2 H 厂商1 M L H M L 5,5 0,6 0,2 6,0 3,3 0,2
三价博弈厂商2 H M L H 厂商1 M L 5, , ,2 6, , ,2 2, , ,1 （H，H）不是纳什均衡，因此一次性博弈的结果不可能是效率最高的。两次重复这个博弈情况会如何呢？考虑如下策略：博弈方1：第一次选H，如果第一次结果为（H,H），则第二次选M，如果第一次结果为任何其他策略组合，则第二次选L。博弈方2：同1 在上述策略组合下，两次重复博弈的均衡路径是第一阶段（H,H），第二阶段（M,M）

三价博弈厂商2 H M L H 厂商1 M L 5, , ,2 6, , ,2 2, , ,1 第二阶段采用（M,M）是一个纳什均衡策略，两个博弈方都不愿意单独偏离；第一阶段的（H,H)不是纳什均衡，博弈方单独偏离采用M策略将增加1的收益，但这样做的后果是第二阶段至少要损失2单位的得益，由于双方采用有“报复机制”的策略，因此偏离（H,H）是得不偿失的。首先试探合作，一旦发现对方不合作则也用不合作相报复的策略，称为“触发策略”(Trigger Strategy)（冷酷策略）。触发策略是重复博弈中实现合作和提高均衡效率的关键机制，是重复博弈分析的主要构件之一。

厂商2 H M L H 厂商1 M L 5, , ,2 6, , ,2 2, , ,1 博弈方1：第一次选H，如果第一次结果为（H,H），则第二次选M，如果第一次结果为任何其他策略组合，则第二次选L。博弈方2：同1 博弈方采取上述触发策略，当第一阶段结果为（H,H）时，第二阶段必为（M,M），得益为（3，3）而当第一阶段结果为其他8种时，第二阶段必为(L,L)，得益为（1，1）。我们把（3，3）加到（H,H）上，把（1，1）加到其他8种策略上，就将该两次博弈转化为一个等价的一次博弈，（H,H）是纳什均衡厂商2 H M L H 厂商1 M L 如果该博弈进行n次，仍然可以用触发策略取得较好的结果，纳什均衡路径为：除了最后一次采用原博弈的纳什均衡（M,M），每次都采用（H,H），当重复的次数较多时，平均得益趋近于（5,5）。 8，，，3 7，，，3 3，，，2

报复机制的可信性厂商2 H M L H 厂商1 M L 5, , ,2 6, , ,2 2, , ,1 如果第一阶段有一方偏离了均衡路径，另一方将在第二阶段采用报复性的L策略，偏离一方也只能采用L，双方均得到较差的结果。触发策略在报复偏离均衡的博弈方时，报复者自己也受到了损失。如果未偏离的一方不记前嫌，还是与对方共同采用M，对他自己也是有利的。这就引起了上述触发策略是否真正可信的问题。如果认为上述触发策略不可信，认为博弈方不会真正采用触发策略，就相当于不论第一阶段结果如何，第二阶段都会是（M,M），则两次博弈等价于下述一次博弈：厂商2 H M L H 厂商1 M L 8，，，5 9，，，3 5，，，4

触发策略中报复机制的可信性是一个很复杂的问题，会受到相互预期等因素的影响。
厂商2 H M L H 厂商1 M L 5, , ,2 6, , ,2 2, , ,1 触发策略中报复机制的可信性是一个很复杂的问题，会受到相互预期等因素的影响。假如未偏离一方并不想报复偏离一方，而偏离一方却因为害怕被报复而采用L，结果是心慈手软的未偏离一方再次受到打击。这种可能性的存在，会使报复机制的实施可能性增加。

博弈方2 H M L P Q H M L P Q 5，5 0，6 0，2 0，0 6，0 3，3 2，0 1，1 4，0.5 0.5，4 博弈方1 重复博弈触发策略可信性较强的博弈在两次重复中，两博弈方分别采用这样的触发策略：博弈方1：在第一阶段采用H，如果第一阶段的结果是(H,H)，那么第二阶段采用M,否则采用P 博弈方2：在第一阶段采用H，如果第一阶段的结果是(H,H)，那么第二阶段采用M,否则采用Q。上述触发策略组合构成该博弈的纳什均衡，触发策略中的报复机制是可信的，因为报复对报复者自己是有利的。

无限次重复博弈从对有限次重复博弈分析可知，存在最后一次重复是使其无法实现高效率均衡的关键问题。
无限次重复与有限次重复相似之处在于：惩罚不合作是实现理想均衡的关键。两人零和博弈的无限次重复博弈: 重复次数的无限增加也不能改变原博弈中博弈方之间在利益上的对立关系，不会创造出潜在的合作利益，博弈方仍然是每次重复都采用原博弈的混合策略纳什均衡。

唯一纯策略纳什均衡博弈的无限次重复博弈两种情况：
1、原博弈唯一的纳什均衡是帕累托意义上的最佳策略组合，符合各博弈方最大利益。因此不论是有限次重复博弈还是无限次重复博弈，都不会与一次性博弈有什么区别。 2、唯一的纳什均衡并不是效率最高的策略组合，因此存在潜在合作利益囚徒困境式的博弈。以第二种博弈为原博弈的无限次重复博弈的结果将有较大的不同，是无限次重复博弈重点关注的。

第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是（H，H）则继续采用H，否则以后永远选择L报复。
囚徒困境式博弈的无限次重复博弈方2 H L H L 4，4 0，5 5，0 1，1 博弈方1 假设双方采用如下触发策略：第一阶段采用H，在第t阶段，如果前t-1阶段的结果都是（H，H）则继续采用H，否则以后永远选择L报复。在不同期得益的贴现因素δ较大时，双方采用上述策略构成一个子博弈纳什均衡。

假设博弈方1采用这种策略，证明δ较大时，采用该触发策略同样是2的最佳反应。
假设博弈方1已经采用了触发策略。如果博弈方2 也选择触发策略，则总支付的现值是：如果博弈方2不采取触发策略，在第一阶段采用L，因为第二阶段起被报复只能采用L,因而支付为（5,1,1,...）。总支付的现值是：

只要即博弈方2会采用H，否则采用L。如果δ> ¼，给定博弈方1坚持触发策略，并且博弈方1没有首先坦白，博弈方2不会首先坦白。现在假定博弈方2首先选择了坦白，那么博弈方1是否会坚持触发策略以惩罚2的不合作行为呢？

当δ> 0.25时，采用触发策略对博弈方2就是明智的。由于1、2是对称的，因而同样可以证明触发策略对博弈方1也是明智的。该策略是一个纳什均衡。
在冷酷战略下，参与人没有改正错误的机会，所以这个战略是“冷酷”的，但冷酷的结果是双方都没有背叛对方的积极性，因而是友善的。

仍然假设市场出清价格P=P(Q)=8-Q（若Q>=8，P=0），c=2
无限次重复古诺模型仍然假设市场出清价格P=P(Q)=8-Q（若Q>=8，P=0），c=2 一次性博弈和有限次重复博弈存在唯一纯策略纳什均衡：（2，2）在现实经济中，寡占市场往往是相当稳定的，只要各寡头认为同样的市场格局会持续下去，都没有对变化的明确预期，寡头之间年复一年的产量竞争就可以看作是无限次重复博弈。当贴现率满足一定条件时，两厂商都采用下列触发策略构成一个子博弈精炼纳什均衡：第一阶段生产垄断产量的一半1.5；在第t阶段，如果前t-1阶段的结果都是（1.5，1.5），则继续生产1.5，否则生产古诺产量2。

双方都采用上述触发策略的博弈路径为每阶段生产产量（1.5，1.5），双方每阶段的收益都是（4.5,4.5）。
设厂商1已采用该触发策略，如果厂商2也采用，则每期收益4.5，无限次重复博弈的总得益的现值为: 4.5(1+δ+δ2+…）= 如果厂商2偏离上述触发策略，则他在第一阶段（在其他阶段有同样的分析和结论）所选产量应该是给定厂商1产量为1.5的情况下，最大化自己利润的产量，即满足：解得q2=2.25,利润为5.0625。高于不偏离触发策略时第一阶段的得益4.5，但从第二阶段起，厂商1将报复性地永远采用古诺产量2，这样厂商2也被迫永远采用2，从此利润为4。因此无限策略重复博弈在第一阶段偏离的情况下总得益现值为：因此，当即δ>=9/17时，上述触发策略是厂商2对厂商1同样触发策略的最佳反应，否则偏离是他的最佳反应。

在上述情况下，古诺模型成为在两种策略（垄断产量1.5和偏离产量2.25）之间的囚徒困境博弈。
当δ< 9/17时，偏离是厂商2对厂商1的触发策略的最佳反应未来收益折算成现值的贴现系数太小，即博弈方不太看重未来收益时，他就只会关注得到更多的当前利益，不会为未来打算，也不怕对方在未来阶段的报复。在这种情况下，无限次重复博弈也不能提高原博弈的效率。只有当贴现系数较大时，对于厂商2来说未来收益足够重要，才不会为了一次性的眼前利益而招致报复，导致自己长期利益的损失。

低水平的合作在上述博弈中，若δ<9/17，也并不意味着两厂商只能生产2的古诺产量，得到原博弈低效率的结果。虽然δ较小，不足以使厂商愿意将产量控制在1.5，但有可能使各厂商把产量都控制在比古诺产量低的水平，即垄断产量的一半qm/2和古诺产量qc之间的某个之间产量水平q*。

以q*为基础构造一种双方共同采用的触发策略：
第一阶段生产q*，在第t阶段，如果前t-1阶段结果都是（q*,q*），则继续生产q*，否则生产古诺产量2。双方都采用该触发策略时均衡路径为每阶段都是（q*,q*）,每期得益均为 л*=（8-2q*)q*-2q*=(6-2q*)q* 无限次重复博弈的现值为： л*/(1-δ),即(6-2q*)q*/ (1-δ) 如果厂商2在第一阶段偏离，并根据厂商1的产量q*决定自己该阶段的最大利润产量，则该产量应满足：解得:q2=(6-q*)/2，相应得益лd=(6-q*)2/4 但从第二阶段起，由于厂商1的报复，双方均生产产量2，得益为лe =4,因此其总得益现值为：厂商2才愿意采用触发策略，否则会偏离。厂商2在其他阶段偏离的分析是一样的，只要把未偏离的前几阶段去掉，从偏离阶段开始比较即可。

触发策略是稳定的。即对于给定的δ水平，它能够支持的具有稳定性的最低的“合作”产量q*满足：
解上述不等式，当触发策略是稳定的。即对于给定的δ水平，它能够支持的具有稳定性的最低的“合作”产量q*满足： δ越大，未来利益越重要，就能支持越低的均衡产量q*。当δ接近0，即未来的得益对博弈方来说几乎没有意义时，q*接近古诺产量；当0<δ<9/17时，qm/2<q*<qc，即1.5<q*<2，δ越接近9/17，q*越接近qm/2；当δ达到或超过9/17时，就能支持最大效率的垄断低产量qm/2。

通货膨胀严重的国家，企业在经济活动中的短期行为更为严重

加大惩罚力度，提高合作水平——胡萝卜加大棒战略
开始生产垄断产量的一半qm/2；第t阶段，如果两个企业在第t-1阶段都生产qm/2，则生产qm/2；如果两个企业在t-1阶段的产量都是x，则生产qm/2；其他情况下生产x。 x是比古诺产量更高的惩罚性高产量。该战略不仅惩罚该合作时不合作的企业，而且惩罚该惩罚时不惩罚的企业（惩罚不惩罚者是给惩罚者的胡萝卜）我（企业1）开始生产qm/2，只要你（企业2）业生产qm/2，我将继续生产qm/2，但是，如果你或我在t-1阶段生产qi≠qm/2，我在t阶段将生产x；并且，如果你和我在t阶段都生产x，我在t+1阶段生产qm/2，否则，我将继续生产x，直到你和我同时生产一阶段x后，我再生产qm/2。这个战略为博弈方提供了两种手段：其一是惩罚，企业生产x；其二是合作，企业生产qm/2。如果任何一个企业偏离合作，惩罚开始；如果任何一个企业背离了惩罚，惩罚继续；如果两个企业都惩罚，回到合作。这样就提供了背离合作后再次回到合作的机会。

上述策略中的x是比古诺产量qc更高的惩罚性高产量，因为在本策略中惩罚不是永久性的，采用qc不足以约束对方的行为

如果两企业每阶段都采用（qm/2,qm/2），双方每阶段都得到垄断利润的一半лm/2，无限次重复博弈得益的现值为лm/[2（1-δ）]。
如果厂商2在第一阶段偏离，采用偏离产量qd，则qd必须满足：将qm=3代入，解得qd=2.25,本阶段得益лd=5.0625 第二阶段厂商1将采用x加以惩罚，这时厂商2第二阶段也必须采用x，才能避免厂商1第三阶段的继续惩罚。厂商2第二阶段的收益为лx=(6-2x)x=6x-2x2 假设此后合作重新开始并继续下去，双方都不再偏离合作（qm/2,qm/2）直到永远，则后面所有阶段的得益与双方从一开始就合作的得益完全相同。因此厂商2在第一阶段是否选择偏离的依据，就是第一阶段偏离所得到的好处与第二阶段受惩罚损失的现值的大小关系。

当δ≥0.5625/（4.5-6x+2x2)时，厂商2不会选择偏离，否则会偏离。

格林和波特（Green&Poter,1984 ）研究了在背离无法完美地被观察时的寡头共谋：企业不能观测到另外企业的产出选择，只能观测到市场出清价格，推断其他企业的产出。
而价格在每一阶段会受到无法预期的因素的冲击。因此企业无法准确分辨市场出清价格的降低是由于另外企业背离形成的，还是其他不利因素的冲击带来的。在触发策略下，任何低于触发水平的价格都会引起一个惩罚阶段，在惩罚阶段所有企业都选择古诺产量。然而，市场因素的一次严重的不利冲击也会使价格降至触发点之下，使得惩罚无限地持续下去，这种做法不是最优的。而“胡萝卜加大棒”策略可以成为最优选择。

2．4 不完全信息静态博弈：贝叶斯纳什均衡完全信息博弈的基本假设是所有的参与人都知道博弈的结构，博弈的规则，和博弈的支付函数。例如在“市场进入”博弈中，进入者知道在位者的偏好、战略空间和各种战略组合下的利润水平，反之亦然。当然，这个假设在许多情况下是不成立的。

哈桑尼（Harsanyi）定义了“贝叶斯纳什均衡”：贝叶斯均衡是纳什均衡在不完全信息博弈中的扩展：
在静态不完全信息博弈中，参与人同时行动，没有机会观察到其他人的选择；每个参与人仅知道其他参与人类型的概率分布而不知道其真实类型；他不可能准确地知道其他参与人实际上会选择什么战略，但是，他能正确地预测到其他参与人的选择是如何依赖于其各自的类型的决策目标就是在给定自己的类型和别人的类型依从战略的情况下，最大化自己的期望效用。

贝叶斯纳什均衡就是：给定自己的类型和别人类型的概率分布的情况下，每个参与人的期望效用达到了最大化。

哈桑尼转换：引入一个虚拟的参与人“自然”（nature），自然首先行动决定参与人的特征，参与人知道自己的特征，其他人不知道。这样，不完全信息博弈就转换成完全但不完美信息博弈（games of complete but imperfect information）。有了哈桑尼转换，不完全信息和不完美信息之间的区别就不重要了。

不完全信息古诺模型参与人的类型是成本函数。假设逆需求函数为P = a-q1-q2，每个企业的单位成本不变，为ci，则企业的利润函数为：
πi = qi (a-q1-q2-ci), i=1,2

假设企业1的单位成本c1是共同知识，企业2的单位成本可能是高的也可能是低的，企业2知道自己的成本类型，但企业1只知道企业2属于这两种类型的概率分布μ和1-μ，μ是共同知识。
进一步假设 a=2，c1=1， =1.25， =0.75， μ=0.5

每个企业都要最大化自己的利润函数。企业2的利润函数为：
π2 = q2(t-q1*-q2*) t=a-1.25=0.75或t=a-0.75=1.25，依赖于企业2的实际成本。从最优化的一阶条件可以得到企业2的反应函数为： q2*(q1,t)=0.5(t-q1) 企业2的最优产量水平不仅依赖于企业1的产量，而且依赖于自己的成本。令为企业2为高成本时的最优产量，为企业2为低成本时的最优产量，则有：

企业1 不知道企业2的真实成本，因而不知道企业2的最优反应是还是，因此企业1的最优反应是选择q1以最大化自己的期望利润函数：
解最优化的一阶条件得企业1的反应函数：

当博弈参与人的反应函数同时成立时，我们得到该博弈的贝叶斯纳什均衡：

将此结果与完全信息下的纳什均衡做一个比较，如果企业2是低成本的，即c2=0.75，企业1 对此完全知道，则两企业的反应函数分别为：
纳什均衡产量为：类似的，如果企业2是高成本的，即c2=1.25，企业1 对此完全知道，则两企业的反应函数分别为：

与完全信息情况相比，在不完全信息的情况下，低成本企业的均衡产量相对较低，而高成本企业的均衡产量要高一些。造成这个结果的原因是，由于企业1对企业2的真实成本不完全了解，只能根据对其成本类型的概率判断最大化自己的期望效用

完全信息与不完全信息古诺模型的比较 q2 完全信息下的纳什均衡结果 R1 不完全信息下的贝叶斯纳什均衡结果 R2(L) R2(H) q1

2．5 不完全信息动态博弈：精炼贝叶斯纳什均衡
2．5 不完全信息动态博弈：精炼贝叶斯纳什均衡 “自然”首先选择参与人的类型，参与人自己知道，其他参与人不知道。在自然选择后，参与人开始行动。由于行动有先后次序，后行动者可以观察到先行动者的行动。虽然参与人不能直接观测其他参与人的类型，但因为参与人的行动是类型依存的，每个参与人的行动都传递着有关自己类型的某种信息，后行动者可以通过观察先行动者所选择的行动获得有关后者偏好、战略空间等方面的信息，修正自己对其所属类型的先验概率判断，然后选择自己的行动。先行动者可以理性的预期到自己的行动将被后行动者所利用，就会设法传递对自己最有利的信息，而避免传递对自己不利的信息。因此，博弈过程不仅是参与人选择行动的过程，而且是参与人不断修正信念的过程。

精炼贝叶斯均衡的要点是：当事人要根据所观察到的他人的行为来修正自己关于后者类型的“信念”（主观概率），并由此选择自己的行动。这里，修正过程使用的是贝叶斯规则。
其中A、B表示两个任意事件，P(非A)=1-P(A)，P(A)是事件A发生的事先概率，P(A∣B)称为事后概率，表示在B已经发生的条件下，事件A将发生的概率。

例：如果我们把所有的人划分为好人（GP）和坏人（BP）两类，所有的事划分为好事（GT）和坏事（BT）两类。
那么一个人干好事的概率等于他是好人的概率P（GP）乘以好人干好事的概率P（GT｜GP），加上他是坏人的概率P（BP）乘以坏人干好事的概率P（GT ｜BP）： P（GT）＝ P（GT｜GP）P（GP）＋ P（GT｜BP）P（BP）假设我们观察到一个人干了一件好事，那么，这个人是好人的后验概率为： P（GP ｜GT）＝ P（GT｜GP）P（GP）／P（GT）

1、这是一件非常好的好事，好人一定干，坏人决不可能干，即P（GT｜GP）＝1， P（GT｜BP）＝0
具体地说，假定张三是好人的先验概率是0.5, 那么，在观察到张三干了一就好事后，我们如何修正他是好人的先验概率依赖于我们认为这间好事好到什么程度。 1、这是一件非常好的好事，好人一定干，坏人决不可能干，即P（GT｜GP）＝1， P（GT｜BP）＝0 那么， P（GP｜GT）＝1 2、这是一件非常一般的好事，好人会干，坏人也会干，即：P（GT｜GP）＝1， P（GT｜BP）＝1 那么，P（GP｜GT）＝ 0.5 3、介于上述两种情况之间，这件好事好人肯定会干，但坏人可能干也可能不干，概率各为0.5 那么，P（GP｜GT）＝ 0.66

精炼贝叶斯均衡是所有参与人战略和信念的一种组合，它满足如下条件：
1、给定每个人有关其他人类型的信念的情况下，他的战略选择是最优的； 2、每个人有关他人类型的信念都是使用贝叶斯法则从所观察到的行为中获得的。

与其它均衡概念不同，精炼贝叶斯均衡不能仅定义在战略组合上，它必须同时说明参与人的信念，因为最优战略是相对于信念而言的。

第2章博弈论与决策行为.

Similar presentations

Presentation on theme: "第2章博弈论与决策行为."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

第2章 博弈论与决策行为.

Similar presentations

Presentation on theme: "第2章 博弈论与决策行为."— Presentation transcript:

Similar presentations

About project

反馈

第2章博弈论与决策行为.

Presentation on theme: "第2章博弈论与决策行为."— Presentation transcript: