博弈论 Game Theory 范如国 教授 rgfanchina@yahoo.com.cn 武汉大学经济与管理学院
公邮:gametheoryfan@163.com 密码:highgpa
教材: 参考书: 范如国,博弈论,武汉大学出版社,2011 1.[美]哈罗德.W.库恩,博弈论经典,中国人民大学出版社 2.[美]罗伯特.吉本斯,博弈论基础,中国社会科学出版社 3. [美]艾里克.拉斯缪森,博弈与信息,北京大学出版社 4.肖条军,博弈论及其应用,上海三联书店
第一章 什么是博弈
几个博弈的例子: 1.高考填报志愿 2.外交谈判 3.企业合作与竞争 4.金融危机 5.就业
“要想在现代社会做一个有文化的人,你必须对博弈论有一个大致了解” ——保罗·萨缪尔森
“博弈论”译自英文“Game Theory”。“Game”的基本意义是游戏,因此“Game Theory”直译应该是“游戏理论”。 一.什么是“博弈” “博弈论”译自英文“Game Theory”。“Game”的基本意义是游戏,因此“Game Theory”直译应该是“游戏理论”。
博弈即一些个人、队组或其他组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自取得相应结果的过程。
博弈论(Game Theory,又名对策论)是一门以数学为基础的、研究对抗冲突中最优解决问题的学科,更确切地说是运筹学的一个分支,开山鼻祖是数学家、计算机的发明者冯·诺意曼(Von neumann)。他是一位出生于匈牙利的天才的数学家。他不仅创立了经济博弈论,而且发明了计算机。
1944年他和普林斯顿经济学家摩根斯坦恩(Morgenstern)合写了一本书,《博弈论和经济行为》(The Theory of Games and Economic Behaviour),正式奠定了现代博弈论的基础,标志着现代系统博弈理论的的初步形成。
博弈论作为一门学科,是在20世纪50~60年代发展起来的。1950和1951年,Nash发表了两篇关于非合作博弈的重要文章,明确提出了Nash Equilibrium的概念,揭示了博弈论和经济均衡之间的关系,并证明了均衡解的存在, 奠定了现代非合作博弈论的基石。 到20世纪70年代,博弈论正式成为主流经济学研究的主要方法之一。1994年诺贝尔经济学奖同时授予了纳什、泽尔腾、海萨尼三位博弈论专家。1996年诺奖授予两位博弈论与信息经济学研究专家莫里斯、维克瑞;2001年诺奖授予阿克洛夫、斯彭斯、斯蒂格利茨,表彰他们在柠檬市场、信号传递和信号甄别等非对称信息理论研究中的开创性贡献。2005年诺贝尔经济学奖又授予了美国经济学家托马斯.谢林(Thomas Schelling)和以色列经济学家罗伯特.奥曼(Robert Aumann),以表彰他们在合作博弈方面的巨大贡献。 最近十几年来,博弈论在经济学中得到了广泛地运用,在揭示经济行为相互制约性质方面。今天,在现代经济学里,博弈论已经成为十分标准的分析工具。
The Nobel Memorial Prize in Economic Sciences 2007 - Leonid Hurwicz, Eric S. Maskin, Roger B. Myerson 2005 - Robert J. Aumann, Thomas C. Schelling 2001 - George A. Akerlof, A. Michael Spence, Joseph E. Stiglitz 1996 - James A. Mirrlees, William Vickrey 1994 - John C. Harsanyi, John F. Nash Jr., Reinhard Selten
1994年三位获诺奖的博弈论学者 John Nash John Harsany Leihaden Selten
纳什(Nash): Nash-Equilibrium 约翰·纳什, 1928年生于美国 1994年Nobel 经济学奖得主 在非合作博弈的均衡分析 理论方面做出了开创性的 贡献,对博弈论和经济学 产生了重大影响 。
纳什传奇的经历 纳什1928年6月13日出生于美国弗吉尼亚西部,从小就表现出非凡的数学天分 1948年获得数学硕士学位 1950年在普林斯顿获得数学博士学位 ,博士论文关于博弈论的研究,在45年后获得诺贝尔奖 1951-1959年,在MIT数学中心任教。在1958年底,纳什的心智状态出现问题。因为精神分裂症,在1959年丢了MIT的工作。后来妻子Alicia也最终和他离婚,但仍然继续帮助他。
纳什在妻子和普林斯顿朋友和同事的无微不至的关怀帮助下,和自己的不懈努力下,病情逐渐好转起来。经历了近30年的精神病的折磨,又重新回到了学术研究中。 1994年,纳什和其他两位博弈论的学者一起获得了诺贝尔经济学奖。 2002年3月24日,当74岁的纳什拉着妻子Alicia的手走进柯达剧院奥斯卡颁奖现场时,整个剧院爆发出热烈的掌声。
美 丽 心 灵 2002年3月24日,第74届奥斯卡颁奖典礼在好莱坞柯达剧院隆重开幕。 一部名叫《美丽心灵》(a beautiful mind)的影片大出风头,在获得八项提名后,独得最佳影片、最佳导演、最佳改编剧本、最佳女配角四项大奖。 美 丽 心 灵
泽尔藤(Selten):Subgame-Perfect Nash E--- 莱因哈德·泽尔腾,1930年生于德国 1994年Nobel 经济学奖得主 在非合作博弈的均衡分析理论方面做出了开创性的贡献,对博弈论和经济学产生了重大影响 。
海萨尼(Harsanyi) : Bayes-Nash Equilibrium 约翰·海萨尼,1920年生于美国 1994年Nobel 经济学奖得主
莫里斯 1996获奖 詹姆斯·莫里斯 1936年生于英国 在信息经济学理论领域做出了重大贡献, 尤其是不对称信息条件下的经济激励理论
威廉·维克瑞1914-1996,生于美国,1996获奖 在信息经济学、激励理论、 博弈论等方面都做出了重大贡献
迈克尔·斯宾斯(Spence)2001获奖 斯宾斯(A. Michael Spence )生于1943年, 美国加州斯坦福大学教授 为不对称信息市场的一般理论奠定了基石。 他们的理论迅速得到了应用,从传统的农业 市场到现代的金融市场。他们的贡献来自于 现代信息经济学的核心部分......
阿克洛夫(George A. Akerlof ) 生于1940年,美国加州大学伯克莱分校教授 2001获奖 为不对称信息市场的一般理论奠定了基石。 他们的理论迅速得到了应用,从传统的农业 市场到现代的金融市场。他们的贡献来自于 现代信息经济学的核心部分......
斯蒂格利兹(Joseph E. Stiglitz ) 生于1943年,美国纽约哥伦比亚大学教授 2001获奖 为不对称信息市场的一般理论奠定了基石。 他们的理论迅速得到了应用,从传统的农业 市场到现代的金融市场。他们的贡献来自于 现代信息经济学的核心部分......
罗伯特·奥曼 (Robert J. Aumann) 1930年6月出生于德国的法兰克福,拥有以色列和美国双重国籍 。 2005获奖 通过博弈论分析,促进了 人们对冲突和合作的理解
托马斯·谢林(Thomas C. Schelling) 1921年出生于美国加利福尼亚州的奥克兰市。 2005获奖 通过博弈论分析,促进了 人们对冲突和合作的理解
Leonid Hurwicz(里奥尼德·赫维克兹) 1917年出生于俄罗斯莫斯科,后加入美国国籍,目前为美国明尼苏达大学经济学荣誉教授 2007获奖 创立和发展了“机制设计理论” 。 这一理论有助于经济学家、 各国政府和企业识别在哪些情况 下市场机制有效,哪些情况下市 场机制无效。此外,借助“机制 设计理论”,人们还可以确定最 佳和最有效的资源分配方式。
马斯金( Eric S. Maskin) 1950年出生于美国纽约,现任美国普林斯顿进修学院教授 2007获奖 创立和发展了“机制设计理论” 。 这一理论有助于经济学家、 各国政府和企业识别在哪些情况 下市场机制有效,哪些情况下市 场机制无效。此外,借助“机制 设计理论”,人们还可以确定最 佳和最有效的资源分配方式。
罗杰·B·梅尔森(Roger B.Myerson) 1951年出生在美国波士顿,现任美国芝加哥大学教授 2007获奖 创立和发展了“机制设计理论” 。 这一理论有助于经济学家、 各国政府和企业识别在哪些情况 下市场机制有效,哪些情况下市 场机制无效。此外,借助“机制 设计理论”,人们还可以确定最 佳和最有效的资源分配方式。
梅尔森为芝加哥大学经济系教授。他于1951年3月29日生于美国波士顿,美国国籍。他有两名孩子,分别生于1983年及1985年。梅尔森于1976年获得哈佛大学应用数学系哲学博士学位,其博士课题为“一种合作博弈理论(A Theory of Cooperative Games)”。 教授1976年获得哈佛大学应用数学博士学位,对博弈论有深入的研究。著有《博弈论:矛盾冲突分析》(Game Theory: Analysis of Conflict)及《经济决策的概率模型》(Probability Models for Economic Decisions)。
博弈论是人们深刻理解诸如经济行为和社会问题的基础。现在人们所说的博弈论,一般指非合作博弈论。非合作博弈强调的是个人理性、个人最优决策, 其结果可能是有效率的,也可能是无效率的。它的特征是:人们行为相互作用时,行为人不能达成一个有约束力的协议。或者说,行为人之间的合约对于签约人没有实质性约束力。然而,在各种生活行为中,人与人之间除了竞争关系,还存在合作关系,常常是两种关系并存,合理的合作能够给双方带来共同利益。这是合作型博弈论研究的范畴。
博弈论的应用非常广泛, 利用博弈论可以证明现实生活中许多有趣的问题。如:多劳者不多得,公共资源的过度使用,非合作者在一段时间内选择合作。虽然这些结论都是建立在一个很强的假设,即参与人是理性的,有最大化自己效用的趋势。但是其结论有深刻的哲学内涵。目前经济学中的委托——代理制、激励理论都可以用博弈论来分析。现代的企业间竞争有很多情况都是在合作的背景下进行的。
博弈论目前在生物学,经济学,国际关系,计算机科学, 政治学,军事战略和其他很多学科都有广泛的应用。 此外,博弈论也应用于数学的其他分支,如概率,统计和线性规划等。
为国王画像 从前,有个国王,瘸了一条腿,瞎了一只眼睛。他想得到一张称心如意的画像,便召来三位著名的画家为他作画。一位画家把国王画得仪表堂堂,气概非凡,特别是把两只眼睛画得炯炯有神,把两条腿画得健壮有力。国王一看,很不满意,气愤地说:“睁着眼睛胡画,肯定是个拍马逢迎的骗子。” 第二位画家把国王画得维妙维肖,简直像国王本人一样,瞎眼瘸腿一目了然。国王看过大发雷霆,把画像踩在脚下吼叫起来。 第三位画家十分从容地画好了,发怒的国王一见到这张画像,顿时转怒为喜,连声称赞画得好。 第三位画家是怎样画的呢?
火车过隧道 两条火车轨道除了在隧道内的一段外都是平行铺设的。由于隧道的宽度不足以铺设双轨,因此,在隧道内只能铺设单轨。 据某人观察,一天下午,一列火车从某一方向驶入隧道,另一列火车从相反方向驶入隧道。两列火车都以最高的速度行驶,然而,它们并未相撞。这是为什么?
二.博弈的标准式表达 博弈的标准式表达包括以下八个方面: 1. 博弈的参与者(Players) 2. 各博弈方各自可选择的全部策略(Strategies)或行为(Actions)的集合 3. 进行博弈的次序(Orders) 4. 博弈方的得益(Payoffs) 5.博弈行为(action) 6.博弈信息(information) 7.结果(outcome) 8.均衡(equilibrium)
三. 经典的博弈模型 1、“囚徒的困境” (Prisoners’ Dilemma) 关于博弈论,流传最广的是一个叫做“囚徒困境”的故事。可以说凡是讲博弈论,都会说到这个经典的博弈模型。 (1950年,数学家塔克任斯坦福大学客座教授,在给一些心理学家作讲演时,讲到两个囚犯的故事。) 假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。
博弈的支付矩阵 博弈矩阵 B坦白 B抵赖 A坦白 -8,-8 0,-10 A抵赖 -10,0 -1,-1 囚徒1:坦白 囚徒2:坦白
这两个人都会有这样一个盘算过程:假如他坦白,我抵赖,得坐10年监狱,坦白最多才8年;他要是抵赖,我就可以被释放,而他会坐10年牢。综合以上几种情况考虑,不管他坦白与否,对我而言都是坦白了划算。两个人都会动这样的脑筋,最终,两个人都选择了坦白,结果都被判8年刑期。 这样两人都选择坦白的策略以及因此被判8年的结局被称为“纳什均衡”,也叫非合作均衡。
囚徒困境的启示 “囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到最短时间的监禁的结果。
“纳什均衡”对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。《国富论》中有这样一句名言:“通过追求(个人的)自身利益,他常常会比其实际上想做的那样更有效地促进社会利益。从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论:从利己目的出发,结果损人不利己,既不利己也不利他。两个囚徒的命运就是如此。
可以说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略”。但它必须符合以下黄金律:按照你愿意别人对你的方式来对别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。
2 . 猜硬币游戏 -1, 1 1, -1 正 面 反 面 猜 方 盖 方
3. “田忌赛马” “田忌赛马”是我国古代一个非常有名的故事,讲的是发生在齐威王与大将田忌之间的赛马的故事。田忌在谋士孙膑的帮助下,运用谋略帮助田忌以弱胜强战胜了齐威王。这个故事讲的其实是一个很典型的博弈问题。
3,-3 1,-1 -1,1 1,-1, 上中下 上下中 中上下 中下上 下上中 下中上 上 中 下 田 忌 齐 威 王 得益矩阵
在这个博弈中齐威王和田忌应该怎样选择自己的策略,才能最终获得满意的结果呢? 首先,作为博弈方的齐威王和田忌不能让对方知道或猜中自己的策略,从而导致自己输掉比赛。这也意味着任何一方的策略选择不能一成不变,或者不能有规律性地变动,即必须以随机的方式选择策略,否则一旦对方捕捉到这种规律性的变动,就可以针对性地采取应对措施。
其次,无论对齐威王还是田忌,可选择的六种策略之间没有优劣之分。从图可以看出,对齐威王来说,每一种策略都可能有六种不同的结果,究竟最终得到哪种结果,主要看对方策略与自己策略的对应状况,而不是自己的策略本身。同样的,对田忌来讲六种策略本身也无好坏之分。因此,两博弈方在决策时对自已的可选策略并无偏好,应以相同的概率选用。
夫妻之争 2, 1 0, 0 1, 3 时 装 足 球 时装 足球 丈 夫 妻 子 夫妻之争
第三节 博弈结构和博弈的分类 一、博弈的分类(Types) 1.如果按照博弈者的先后顺序,博弈持续的时间和重复的次数进行分类,博弈可以划分为静态博弈(Static game)和动态博弈(Dynamic Game)。 静态博弈是指这样一种博弈,在这种博弈中,博弈者同时采取行动,同时进行策略决定,博弈者所获得的支付依赖于他们所采取的不同的策略组合情况。因此,我们也静态博弈称为“同时行动的博弈”(Simultaneous-Move Games)。或者尽管博弈者的行动有先后顺序,但后行动的人不知道先采取行动的人采取的是什么行动。如“囚徒困境”就是如此。再比如工程招标,不同的投标者投标的时间也许不同,但只要互相不知道对方的报价,则是同时行动。
动态博弈是指在博弈中,博弈者的行动有先后顺序(Sequential-Move),且后行动者能够观察到先行动者所选择的行动或策略,因此, 动态博弈又叫做序贯博弈。
2.如果按照博弈者对其他博弈者所掌握的信息的完全与完备程度进行分类,博弈可以划分为完全信息博弈(Game with Complete Information)与不完全信息的博弈(Game with Incomplete Information),以及完美信息的博弈(Game with Perfect Information)与不完美信息的博弈(Game with Imperfect Information),确定的博弈(Game of Certainty)与不确定的博弈(Game of Uncertainty),对称信息的博弈(Game of Symmetric Information)与非对称信息的博弈(Game of Asymmetric Information)等。
博弈的分类和均衡 信息 静态 动态 完全信息 纳什均衡 纳什 子博弈精练 泽尔腾 不完全信息 贝叶斯均衡 海萨尼 精炼贝叶斯均衡 泽尔腾等 行动次序 信息 静态 动态 完全信息 纳什均衡 纳什 子博弈精练 泽尔腾 不完全信息 贝叶斯均衡 海萨尼 精炼贝叶斯均衡 泽尔腾等
信息是博弈论中重要的内容。 完全博弈是指在博弈过程中,每一位博弈者对其他博弈者的特征、策略空间及收益函数有准确的信息。严格地讲,完全信息博弈是指博弈者的策略空间及策略组合下的支付,是博弈中所有博弈者的“公共知识”(Commom Knowledge)的博弈。 完美信息是指博弈者完全清楚到他决策时为止时, 所有其他博弈者的所有决策信息,或者说,了解博弈已进行过程的所有信息。
3.如果博弈者对其他博弈者的特征、策略空间及收益函数信息了解的不够准确、或者不是对所有博弈者的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈。对于不完全信息博弈,博弈者所做的是努力使自己的期望支付或期望效用最大化。 在不完全信息的博弈中,首先行动的是自然(Nature),自然决定了博弈者以多大的可能性采取某种行动,由自然决定的每个博弈者以多大的可能性采取某种行动的情况只有每个博弈者个人知道,其他博弈者都不知道。确定的博弈是指不存在由自然作出行动的博弈,否则就是不确定的博弈。
4.如果按照博弈者之间是否存在合作进行分类,博弈可以划分为合作博弈(Cooperative Game)和非合作博弈(Non-Cooperative Game)。合作博弈是指博弈者之间有着一个对各方具有约束力的协议,博弈者在协议范围内进行的博弈。人们分工与交换的经济活动就是合作性的博弈。如果博弈者无法通过谈判达成一个有约束的契约来限制博弈者的行为,那么这个博弈为非合作博弈。典型的合作博弈是寡头企业之间的串谋(Collusion)。 串谋是指企业之间通过公开或暗地里签订协议,对各自的价格或产量进行限制,以达到获取更多垄断利润的行为。后面将会继续讨论的囚徒困境和将要讨论的公共资源悲剧都是非合作性的博弈。
根据博弈者支付的情况,有以下分类: 5.零和博弈(Zero-Sum Game)和非零和博弈(Non-Zero-Sum Game)。如果一个博弈在所有对局情况下全体参与人的得益之和总为0,这个博弈就叫做零和博弈; 如果一个博弈在所有对局情况下全体参与人的得益之和不为0,这个博弈就叫做非零和博弈。 6.常和博弈(Constant-Sum Game)和变和博弈(Variable-Sum Game)。如果一个博弈在所有对局情况下全体参与人的得益之和总为一个常数,这个博弈就叫做常和博弈; 如果一个博弈在所有对局情况下全体参与人的得益之和不总是一个常数,这个博弈就叫做变和博弈。
二、博弈中的博弈方 1.单人博弈 单人博弈即只有一个博弈方的博弈。严格地讲,单人博弈已经退化为一般的最优化问题,因此不属于博弈论研究的目标对象。不过讨论单人博弈还是有价值的,因为包括单人博弈可以使博弈理论的结构更加完整,如同集合里面的完整,它使集合理论的结构更完整。
一个单人博弈例子的例子 有一个商人需要将一批商品从武汉向上海运输,从武汉到上海运输有水、陆两条路线,走陆路运输成本为10000元,走水路的运输成本为6000元。走陆路比较安全,走水路则有一定的风险,如果遇到恶劣天气将会造成这批货物总价值10%的损失。假设已知该批货物的总价值为100000元,运输期间出现暴风雨天气的概率为20%,问该商人该选择哪条运输路线?
武汉 1 武汉 海海 坏天气(20%) 好天气(80%) 上海(-0.6) (-1.0) (-1.6) (-1.0)上海
在本博弈中,供应商走水路时,得益为-0. 6的概率为80%(好天气),得益为-1. 6的概率为20%(坏天气),因此走水路的期望得益为(-0 在本博弈中,供应商走水路时,得益为-0.6的概率为80%(好天气),得益为-1.6的概率为20%(坏天气),因此走水路的期望得益为(-0.6)×80%+(-1.6)×20%=-0.8;走陆路时,得益是确定的-1。因为-0.8>-1,即走水路的期望费用0.8小于走陆路的费用1,所以供应商还是应该选择走水路。若多次碰到同样的决策选择并每次都作这样的选择,则平均每次的运输成本应接近0.8。
2.双人博弈 双人博弈就是两个各自独立决策,但策略和利益具有相互依存关系的博弈方的决策问题。双人博弈是博弈问题中最常见,也是研究得最多的博弈类型。 3.多人博弈 有三个或三个以上博弈方参加的博弈称为“多人博弈”。 多人博弈中的“破坏者”
三、博弈中的策略 博弈中各博弈方的决策内容称为“策略”(Strategies) 如果一个博弈中每个博弈方的策略数都是有限的,则称为“有限博弈(Finite Games)” 如果一个博弈中至少有某些博弈方的策略无限多个,则称为“无限博弈”(Infinite Games)
四、博弈中的得益 得益(Payoffs)即参加博弈的各个博弈方从博弈中所获得的利益,得益可以是本身就是数量的利润、收入,也可以是量化的效用、社会效益、福利等等。 1.零和博弈 零和博弈:一方的得益必定是另一方的损失,某些博弈方的赢肯定是来源于其他博弈方的输。 2.常和博弈 常和博弈可以看作零和博弈的扩展。
3、变和博弈 零和博弈和常和博弈以外的所有博弈都称为“变和博弈”。变和博弈是指在不同策略组合(结果)下各博弈方的利益之和往往是不相同的。 五、博弈的过程 1.静态博弈 许多博弈常常要求或者说设定各博弈方是同时决策的,或者虽然各博弈方决策的时间不一定真正一致,但在他们作出选择之前不允许知道其他博弈方的策略,在知道其他博弈方的策略之后则不能改变自己的选择,从而各博弈方的选择仍然可以看作是同时作出的。
2.动态博弈(Dynamic Games) 除了各博弈方同时决策的静态博弈以外,也有大量现实决策活动构成的博弈中,各博弈方的选择和行动不仅有先后次序,而且后选择、后行动的博弈方在自己选择、行动之前,可以看到其他博弈方的选择、行动,甚至还包括自己的选择和行动。
例 “市场阻击”博弈
所谓重复博弈实际上就是同一个博弈反复进行所构成的博弈过程。 3.重复博弈 (Repeated Games) 所谓重复博弈实际上就是同一个博弈反复进行所构成的博弈过程。 “有限次重复博弈”(Finitely Repeated Games)“无限次重复博弈”(Infinitely Repeated Games)
六、博弈的信息结构 1.博弈中最重要的信息之一是关于得益的信息 一般地,我们将各博弈方都完全了解所有博弈方各种情况下得益的博弈称为“完全信息(Complete Information)博弈”,将至少部分博弈方不完全了解其他博弈方得益情况的博弈称为“不完全信息(Incomplete Information)博弈”。
2.关于博弈过程的信息 动态博弈中在轮到行为时对博弈的进程完全了解的博弈方,称为具有“完美信息”(Perfect Information)的博弈方 如果动态博弈的所有博弈方都有完美信息,则称为“完美信息的动态博弈”。 动态博弈中轮到行为的博弈方不完全了解此前全部博弈进程时,称为具有“不完美信息(Imperfect Information)的博弈方,有这种博弈方的动态博弈则称为“Imperfect Information”的博弈方,有这种博弈方的动态博弈则称为“不完美信息的动态博弈”。
七、博弈方的能力和理性 博弈论关于人的理性假设包括两个方面:一是他们决策行为的根本目标;二是他们追求目标的能力。即认为博弈方都是以个体利益最大化目标,且有准确的判断选择能力,也不会“犯错误”。 以个体利益最大为目标被称为“个体理性”(Individual Rationality),有完美的分析判断能力和不会犯选择行为的错误称为“完全理性”。 1、完全理性和有限理性 2、个体理性和集体理性
例 “信息与战争”博弈 战争胜败大体上取决于实力、信息、战略与人心。如果其中一方各方面均优于另外一方,并且弱的一方知道的话,理性的弱者是不会参与战争的,此时战争便打不起来。很多情况下,国与国之间的战争往往是由于不完全了解局势造成的,有足够理性的双方之间是不可能发生战争的。从理论上讲,具有足够理性和具有足够知识与信息的人能预知战争的结果, 但现实中的人或者因为没有足够的知识和信息,或者不具有足够的理性的能力,而往往不能做到这一点。
比如, 第二次世界大战结束后,朝鲜半岛沿三八线被划分为南北朝鲜。1951年南北之间发生战争,美国马上介入了这场战争。美国的考虑是,刚刚成立的中华人民共和国不会介入到这场朝鲜战争中去。在美国看来,新生的中国刚刚内战消耗太大,百废待兴,没有能力卷入战争。并且美国认为,美国武器装备优良,军费充足,即使中国参战,也无力与之抗衡。因此美国得出结论:朝鲜战争因美国的介入很快就会结束,而中国不会介入。当时美国的一家咨询公司在美国未出兵之前,深入地研究了中国的情况, 以及朝鲜与中国的关系,认为如果美国介入到朝鲜战争中去,只要中国判断没有失误, 中国必将出兵。他们想将研究报告提供的信息以500万美元卖给政府,而美国政府未予理睬。最终,美国以损失几百亿美元的财产,伤亡数十万人的代价在朝鲜战场上大败。
八.博弈的表示 我们常用G表示一个博弈: 如G有n个博弈方,每个博弈方的全部可选策略的集合我们称为“策略空间”,分别用S1,……Sn表示; Sij表示博弈方i的第j个策略,其中j可取有限个值(有限策略博弈),也可取无限个值(无限策略博弈);博弈方i的利益则用ui表示,ui是各博弈方策略的多元函数。n个博弈方的标准式博弈G常写成:
在博弈论中,一个博弈可以用两种不同的方式来表达: (二)博弈的策略式表达 在博弈论中,一个博弈可以用两种不同的方式来表达: 一种是策略式表达,另一种是扩展式表达。策略式表达更适合于静态博弈,而扩展式表达更适合于讨论动态博弈。
策略式表达又称为标准式表达,在这种表达中,所有参与人同时选择自己的策略,所有参与人选择的策略一起决定每个参与人的得益。这里参与人同时选择的是“策略”,而不是“行动”。 在静态博弈中,由于参与人只选择一次,所以策略就等同于行动了。而在动态博弈中,策略是参与人在各个阶段的行动的全面计划。
策略式表述: 1、博弈的参与人集合:i∈K,K=(1,2,…, n); 2、每个参与人的战略空间:Si , ,i=1,2,3,…,n; 3、每个参与人的得益函数:ui(s1, …,si…,sn),i=1,2,3, …,n。 用G={S1,…,Sn;u1, …,un}代表战略式表述博弈。
(三)博弈的得益矩阵表示 囚徒B 囚徒A 坦白 不坦白 -8,-8 0,-10 -10,0 -1,-1
第二章 完全信息静态博弈 第一节 静态博弈分析方法 一、静态博弈 (Static Game) 第二章 完全信息静态博弈 第一节 静态博弈分析方法 一、静态博弈 (Static Game) 博弈方同时作出决策,且各博弈方对对方的得益完全了解,或者虽然决策有先后,但是没有人在决策之前看到了其他博弈方的决策行为,也没有交换信息, 一旦决策做出之后,就只能等待结果,对博弈的发展再也不能产生任何影响,这种博弈叫做静态博弈。日常生活中静态博弈的例子很多,如前面介绍的 “囚徒困境”, “石头·剪子·布”都是静态博弈。
二、占优策略均衡(Dominant Strategies Equilibrium) 占优策略均衡是指这样一种特殊的博弈:某一博弈方的策略可能并不依赖于其他博弈方的策略选择。换句话说,无论其他博弈方如何选择自己的策略,该博弈方的最优策略选择是惟一的。也就是说,如果无论所有其他博弈方采取什么策略,一博弈方的某个策略给他带来的得益始终高于其他策略,至少不低于其他策略。那么,“某个策略”必然是该博弈方愿意选择的策略, 我们称这种策略为该博弈方的一个“占优策略”(Dominant--Strategy)或 “上策”。
进一步,如果一个博弈的某个策略组合中的所有策略都是各个博弈方各自的上策,那么这个策略组合肯定是所有博弈方都愿意选择的,必然是该博弈比较稳定的结果。我们称这样的策略组合为该博弈的一个“占优策略均衡”(Dominant-strategy Equilibrium)或 “上策均衡”。 “占优策略均衡”是博弈分析中最基本的均衡概念之一,“占优策略均衡”分析是最基本的博弈分析方法。囚徒的困境博弈中的(坦白,坦白)实际上就是一个上策均衡,因为根据第一章的分析,“坦白”对该博弈的两个博弈方来说都是上策。
占优策略 囚 犯 B 认罪 不认罪 囚 犯 A -10,-10 -1,-20 -20,-1 -3,-3 占优策略(上策) 不管对手做什么,对一个参与者都能获得最高得益的策略 囚 犯 B 认罪 不认罪 囚 犯 A -10,-10 -1,-20 -20,-1 -3,-3
对于囚犯B 囚 犯 B 认罪 不认罪 囚 犯 A -10,-10 -1,-20 -20,-1 -3,-3 不管囚犯A是选择认罪还是不认罪, 囚犯B都会选择认罪! 认罪 是囚犯B的占优策略! 囚 犯 B 认罪 不认罪 囚 犯 A -10,-10 -1,-20 -20,-1 -3,-3
占优策略(上策)均衡 囚 犯 B 认罪 不认罪 囚 犯 A -10,-10 -1,-20 -20,-1 -3,-3 不管囚犯A是选择认罪还是不认罪, 囚犯B都会选择认罪! 认罪 是囚犯A和B的占优策略! 有博弈中,由局中人的上策构成的均衡称为占优策略(上策)均衡 囚 犯 B 认罪 不认罪 囚 犯 A -10,-10 -1,-20 -20,-1 -3,-3
三、严格下策反复消去法(Iterated Elimination of Strictly Dominated Strategies) 如果某一个策略的收益和第二个策略一样大,或者偶尔大于第二个策略,我们就说第二个战略是相对于第一个策略的“弱劣策略”(Weakly Dominated Strategies)。
通过上面的分析我们可以发现,严格下策反复消去法的适用范围确实要比占优策略均衡分析更大一些,因此在分析博弈方面的作用也更大。不过,严格下策反复消去法也不能解决所有博弈的分析问题。因为在许多博弈问题中,上述相对意义上的严格下策往往也不存在。如猜硬币、田忌赛马中没有任何博弈方的任何策略是相对其他策略的严格下策。既然不存在任何严格下策的博弈,那么也就无法用严格下策反复消去法进行分析了。此外,在策略数较多的博弈中,往往是严格下策反复消去法只能消去其中的部分策略,不能消去的策略组合并不惟一,这时仅用严格下策反复消去法也无法对博弈作出准确的判断,因此仍然不能完全解决这些博弈问题。
例 “智猪博弈”(Boxed Pigs) 下面,我们来看博弈论中的另一个著名的例子:“智猪博弈”(Boxed Pigs)。 假设猪圈里有两头猪,一头大猪,一头小猪,猪圈的一端有一个猪食槽,另一端安装了一个按钮,控制猪食的供应。按一下按钮,将有8个单位的猪食进入猪食槽,供两头猪食用。两头猪场面临选择的策略有两个:自己去按按钮或等待另一头猪去按按钮。两只猪应该各采取什么策略呢?
答案是:小猪将等在食槽边,而大猪则要不知疲倦地奔忙于踏板和食槽之间。下面我们给出具体的分析。
如果某一头猪作出自己去按按钮的选择,它必须付出如下代价:第一,它需要付出相当于两个单位的成本;第二,由于猪食槽远离猪食,它将比另一头猪后到猪食槽,从而减少吃食的数量。假定:若小猪按按钮, 大猪先到食槽,大猪将吃到7个单位的猪食,小猪只能吃到1个单位的猪食;若大猪场按按钮, 小猪先到食槽,大猪和小猪各吃到4个单位的猪食;若两头猪都选择等待,两头猪同时到食槽(实际上两头猪都吃不到猪食),大猪吃到5个单位的猪食,小猪吃到3个单位的猪食。
智猪博弈的结果可以被我们用来解释许多社会和经济现象。比如,在股份公司中,股东都承担着监督管理层工作的职能,但是,大小股东从监督中获得的收益大小不一样。在监督成本相同相同的情况下,大股东从监督管理层工作中获得的收益明显大于小股东。因此,小股东往往不会象大股东那样去监督经理人员,这是小股东的占优策略,而大股东也知道小股东会选择不监督,知道小股东要搭大股东的便车,但是大股东别无选择。大股东选择监督管理层工作的责任、独自承担监督成本是大股东在小股东占优选择的前提下必须选择的最优策略。这样以来,与智猪博弈一样,从每股的净收益(每股收益减去每股分担的监督成本)来看,小股东要大于大股东。
智猪博弈也能给予我们很多其他方面的启发。 比如, 大猪不首先按按钮,小猪会不会首先去按按钮?答案是:会。比如,长时间陷于困境的群体中总会出现一个敢于为群体的利益而献身的人,不过他的下场可能是悲壮的,如陈胜吴广起义。
澡堂里的智猪博弈 上个星期天我在澡堂里当了一次大猪。那时我们第一批冲进了澡堂,结果发现水管里的水还没有放尽。谁先踩踏板,谁就会溅一身的凉水;如果大家都不先踩踏板,显然就都洗不成澡。但如果一部分人先踩踏板,另一部分人就可以……于是满浴室的人们就象"智猪"那样博弈了起来。博弈的结果是:大家都不去踩那踏板,而是看着一个"大猪"--笔者本人,在那里傻乎乎地淋着冷水。一个淋浴器的放水速度实在太慢了,冰凉的水流没完没了地溅在身上,冻得龇牙咧嘴的我环顾了一下四周才惊异地发现,大家都瑟瑟的站在那里,不时地抬头看着我头顶那喷涌的淋浴。我这才明白原来他们是在等我一个人把冷水排净!这下我真的僵硬了,随后的冰冷感觉可以用"悲壮"来形容。我要感谢后来走进浴室的另一位"大猪"帮我放水,缓解并缩短了我的苦难,也使这些"小猪"们欢快的洗上了热水澡。 聪明的"小猪"们依靠沉着和智慧在这场"智猪博弈"中轻松地击败了"大猪"。败下阵来以后,
我对这次经历进行了认真的反思,得出以下几条结论: 首先,如果我和另外一只"大猪"不首先踩踏板,"小猪"中会不会有人首先去踩踏板?我认为一定会有的。 其次,当群体道德丧失殆尽的时候,社会是否还有向前发展的可能?我认为是有可能的。如果浴室的管理人员在浴室中增加几个放水开关,小猪们就可以利用这一"先进"的装置迅速地放掉冷水,增进群体的福利。也就是说,即使社会道德水准降低到了极限(所有的人都变得绝对自私),技术进步仍然可以增进全社会的福利。也许这就是所谓的"发展才是硬道理"。
再次,制度约束能否替代道德约束?能不能建立一套制度,通过这套制度逐步改善这种群体的无效行为?我认为这也是有可能的。如果浴室改成按洗浴时间的长短来收费的制度,来增加"小猪"们的投机成本,他们中就会有相当多的人变成"大猪"。这就是现代西方经济学家们正在绞尽脑汁去探寻的途径。
最后,是否可以通过教育来解决这个问题?我认为这是最根本的出路。但这种教育与通常的思想政治教育应该是不同的。与其说武大是一个大家庭,不如说人们期望武大是一个大家庭,人们都向往生活在一个团结友爱、互助互让的大家庭里,但在建设这个大家庭时,人们很大程度上忽视了家庭赖以形成的最根本因素,那就是宽容和爱护。一个在没有宽容和爱护,只有规章和制度的环境下成长起来的人,是不可能真正热爱这个社会进而愿意为社会的和谐与进步贡献自己的力量的。笔者认为要创造这样的环境,首先是同学们都应该尝试一下互相宽容与爱护,但最根本的是这个家庭的管理者们要转变管理思想,真正的认清管理就是服务的道理,真正的领会和贯彻以人为本的管理。
“智猪博弈”对激励的启示 故事中的游戏规则导致了“小猪躺着大猪跑”的现象,如果改变一下核心指标:每次落下的事物数量和踏板与投食口之间的距离,就不会出现“小猪躺着大猪跑”的现象。我们假设以下三种新的游戏规则: 改变方案一:减量方案.投食仅原来的一半分量.谁去踩踏板,就意味着为对方贡献食物,结果是小猪大猪都不去踩踏板了,也就不会有踩踏板的动力.如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。 改变方案二:增量方案.投食为原来的一倍分量.结果是小猪、大猪都会去踩踏板,反正对方不会一次把食物吃完,所以竞争意识却不会很强.对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效果并不好。
改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果小猪和大猪都在拼命地抢着踩踏板,等待者不得食,而多劳者多得。对于游戏设计者而言,这是一个最好的方案,成本不高,但收获最大。 “智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规则的设计者是不愿看见有人搭便车的,能否完全杜绝“搭便车”现象,就要看游戏规则的核心指标设置是否合适。
比如,在企业人力资源管理中进行激励制度设计时,如果奖励力度太大,又是持股,又是期权,公司职员个个都成了百万富翁,成本高不说,重要的是激励因素转变成了保证因素,员工的积极性并没有提高。这就是“智猪博弈”增量方案所描述的情形。但是如果奖励力度不大,而且见者有份,一度十分努力的大猪也不会有动力了,企业将会没有生命力,就出现“智猪博弈”减量方案所产生的结果。最好的激励机制设计就像改变方案三减量加移位的办法,奖励并非人人有份,而是直接针对个人(如业务按比例提成),通过竞争既节约了成本(对公司而言),又消除了“搭便车”现象,能实现有效的激励。
四、划线法 下面我们再介绍一种博弈分析的方法——“划线法”。 我们知道,博弈中的博弈方的最终目标都是实现自身的最大得益,各个博弈方的得益既取决于自己选择的策略,也与其他博弈方选择的策略有关,因此博弈方在决策时必须考虑其他博弈方的存在和策略选择。根据这一思路决策的思路应该是:先找出自己针对其他博弈方每种策略或策略组合的最佳对策,然后在此基础上,通过对其他博弈方策略选择的判断,包括对其他博弈方对自己策略判断的判断等,预测博弈的可能结果和确定自己的最优策略。
例 “性别之争”(Battle of Sexes)
第二节 纳什均衡 一、纳什均衡(Nash Equilibrium) 纳什均衡是著名博弈论专家纳什(John Nash)对博弈论的重要贡献之一。纳什在19世纪50年1951年的两篇重要论文中,在一般意义上给定了非合作博弈及其均衡解,并证明了解的存在性。正是纳什的这一贡献奠定了非合作博弈论的理论基础。纳什所定义的均衡称之谓“纳什均衡”。
定义: 在博弈 中,如果由各个博弈方的各一个策略组成的某个策略组合 中,任一博弈方i的策略 ,都是对其余博弈方策略的组合 的最佳策略,即 对任意 都成立,则称 为G 的一个“纳什均衡”。
纳什均衡是博弈论中第一个极其重要的概念,它主要描述的是这样一种策略(或行动)集:在这一策略集中每一个博弈者都确信,在给定竞争对手的情况下,他选择了最好的策略。 通俗的表达就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。 这就是说,双方在对方的策略下自己现有的策略是最好的策略。即:此时双方在对方给定的策略下不愿意调整自己的策略,因为单独改变对自己没有好处。这里的策略包括我们后面要介绍的混合策略。
显然占优策略均衡是一种纳什均衡,但是纳什均衡不一定是占优均衡。占优策略均衡是比纳什均衡更强的博弈均衡,它要求任何一方对于其他博弈方的任何策略选择来说,其最优策略选择都是唯一的。而纳什均衡只要求任何一个博弈方在其他博弈方的策略选择给定的条件下,其选择的策略是最优的。 判断某一结果是不是纳什均衡的通常做法是看博弈者是否可以通过单方面的背离而受益。如果还有其他策略让博弈者获得更多的得益, 他一定会偏离现有的策略组合, 该策略组合就不会是稳定的, 不可能成为纳什均衡。
俾斯麦海的海空对抗 (l)相关背景资料 1943年2月,第二次世界大战中的日本,在太平洋战区己处于明显的劣势。为扭转战局,日军统帅山本五十六统率下的一支舰队策划了一次军事行动:由集结地——南太平洋新不列颠群岛的拉包尔出发,穿过俾斯麦海,开往新几内亚的莱城,支援困守在那里的日军(见下图)。
山本五十六心中明白,在日本舰队穿过俾斯麦海的3天航程中,不可能躲开美军的 空袭;他要谋划的是尽可能地减少损失。 当美军获此情报后,太平洋战区盟军统帅麦克阿瑟命令空军司令肯尼将军组织空中打击。. 日美双方的指挥官及参谋人员都进行了冷静与全面的谋划。 自然条件对于双方来说是已知的。 基本情况是:从拉包尔到莱城 的海上航线有南线和北线两条, 通过时间均为3天。气象预报表明, 未来3天中,北线阴雨,能见度差; 而南线则天气晴好,能见度佳。
(2)局势估计 情况1:美军侦察机重点搜索北线,日本舰队恰好走北线。由于气候恶劣,能见度低以及美军空军基地靠近南线,因而美军只能实施两天有效的轰炸。 情况2:美军侦察机重点搜索北线,而日本舰队走南线。由于发现晚,尽管美军空军基地靠近南线,但有效轰炸也只有两天。 情况3:美军侦察机重点搜索南线,而日本舰队走北线。由于发现晚,美军空军基地靠近南线,以及北线天气恶劣, 故有效轰炸只能实施1天。 情况4:美军侦察机重点搜索南线,日 本舰队恰好走南线。此时,日军舰队 被迅速发现,美军轰炸机群所需航程 很短,加之天气晴好,这将使美军空 军在3天中皆可实施有效轰炸。
博弈者:美日双方决策者 策 略: 美日双方各有两个策略:南线、北线 得益: 美方的支付(赢得轰炸天数)矩阵为
博弈方1(美军)希望获得的得益(赢得轰炸天数)尽可能多,但同时,他们也深知:博弈方2(日军)必然想方设法使自己的付出(被轰炸天数)尽可能少。 因此,美军参谋部在作选择时,首先要考虑:选择每个策略时至少能赢得多少,然后从中选取最有利的策略。具体来说:先对得益矩阵的各列求极小(至少赢得),然后,再对矩阵各列极小组成的集合中取极大(争取最佳)。于是有: 对于日军参谋部,因居于被动地位,故首先考虑在对方每个策略中最多损 失多少。在此前提下争取损失最小。具体来说:对同一得益矩阵的各行求极大(最多损失), 然后,对矩阵各行极大组成的集合中取极小(争取最佳)。于是有: 上述求解思想可概括为:“从最坏处着想,去争取最好的结果”。这是理性思考的表现。
实际结果 这里恰有: 这正是历史实际对局的结果,即:局势1 成为事实。 肯尼将军命令美军侦察机重点搜索北线;而山本五十六命令日本舰队 取道北线航行。 美军飞机在1天后发现日本 舰队,基地在南线的美军轰炸 机群远程飞行,在恶劣天气中, 实施了2天有效地轰炸,重创了 日本舰队,但未能全歼。
中美贸易战 (1)相关背景资料 1996年5月15日,美国政府借口中国对知识产权保护不力,单方面宣布:对中国出口到美国的纺织品、服装及电子产品实施惩罚性关税,涉及产品金额达30亿美元,惩罚性税率达100%,将于一个月后生效。 当晚,中国外经贸部发表公告,做出了强烈的反应。公告中表示:如果美国政府一意孤行,中国将实施反报复,并与美国贸易报复措施生效的同时生效。在公告中还列举了反报复清单,报复惩罚额与美国相当。
模型 博弈方:中国、美国。 下面用一些模拟的数据来 写出该博弈问题的赢得矩阵: 将双方报复的损失均假设为50亿元,双方不报复的收益均假设为20亿 元,单方报复而另一 方不报复,不报复方的损失假设为150亿元(考虑牵 连效应)。
结果 这是一个二人非零和博弈问题。按纳什均衡理论可以得出:策略组合(报复,报复)为惟一的纳什均衡。事实发展是:双方都有允若,也有威胁。由于中方反报复力度相当,又在强化知识产权保护上作了承诺,因而,诱使美方考虑合作与不合作的得与失。双方经过5天的磋商,在知识产权问题上达成一致的同时,彼此宣布取消拟采取的贸易报复措施,避免了两败俱伤的结局,得到了好的结果。
[讨论] 为什么麦当劳和肯德基的店铺总是比较邻近?
例 杂货铺定位博弈 为了进一步说明纳什均衡的意义,让我们看一个杂货铺定位博弈的例子, 该模型是美国经济学家霍特林(Hotelling)提出的, 因此又叫霍特林模型。 设想有一个小居民点,居民住宅沿着一条公路均匀地排开。现在有两家杂货铺要在这个小居民点兜卖生意。假设他们卖同样的东西,价格也完全一样, 但相互竞争。那么,两家杂货店应各自设在什么地方比较好。
现在,因为商品一样,价格也一样,居民到哪个杂货铺买东西,就看哪一个杂货铺离自己比较近。 如果把这条路四等分,杂货铺A设在1/4的位置,杂货铺B设在3/4的位置,问题就解决了。好象这是一种不错的配置, 按照这种配置, 每个杂货铺的势力范围都是1/4。 可是,如果杂货铺只以自己赢利为目的,是不会满足于这样的位置安排的。因为如果A向右移动一点儿到达Á的位置,那么A的地盘,就扩张到Á和B的中点,A的地盘就会比B持有的地盘大。所以,原来位于左边的A,有向右边移动来扩大自己的地盘的动力。在这个定位博弈中,杂货铺的地盘就是市场份额,就是经济利益。同样,原来位于右边的B,有向左边移动扩大自己地盘的激励。可见上述A在1/4处, B在3/4处的位置配置方式,不是稳定的配置。
那么,什么位置才会是稳定的呢?在两个杂货铺市场竞争的位置博弈中,位于左边的要向右靠,位于右边的要向左靠,最后的局面是: 两家杂货铺都紧挨着位于中点1/2的位置。这就是纳什均衡的位置。因为谁要是单独移开“一点”,他就会丧失“半点”市场份额。所以谁都不想偏离中点的位置。 我们可能会想,实际生活中情况似乎不是这样。的确可能不是这样,但是那一定有其他因素在起作用。比方说中点位置的房租特别贵,又比方说在什么地方正好有一家铺子空出来,还可能是原来的住家在要开杂货铺时就用他自己的住宅,等等。再一种可能是两家杂货铺都尊重一个协调机构,这个协调机构从方便居民购物的角度来考虑,希望两家杂货铺互相礼让,分别在1/4和3/4的位置开张。还有一种可能,就是两家杂货铺实际上是同一个企业的两家分店,那么当然在1/4和3/4的位置。
只有两家杂货铺都紧挨着在中点开张才是稳定的纳什均衡结局,前提是每家杂货铺都是只关心自己眼前商业利益的“理性人”假设。在这种情况下,“理性人”的特征就是“唯利是图”。既然唯利是图,就要千方百计挤占对方的地盘,最终造成两家“剑拔弩张”挤在中点的结局。现在我们一些管理不好的摊贩市场就是这样,下班以后,摊贩都要往好地方挤,谁也不肯礼让。 应用上述霍特林模型还可以较好地说明西方两党政治的一些有趣现象。比如西方一些国家的两党在竞选时, 越是到最后关头,两党的政治纲领, 政策主张越来越接近。等到一个政党取代另一个政党上台之后, 选民们发现其实新政党和旧政党在政策上并没有多少实质性的差别。 再比如,产业或企业聚集问题也可以用此模型得到很好的解释。
纳什均衡是这样一种策略(或行动)集,在这一策略集中每一个博弈者都确信,在给定竞争对手的情况下,他选择了最好的策略。通俗的表达就是:给定你的策略,我的策略是最好的策略;给定我的策略,你的策略也是你最好的策略。这就是说,双方在对方的策略下自己现有的策略是最好的策略。即:此时双方在对方给定的策略下不愿意调整自己的策略。这里的策略包括我们后面要介绍的混合策略。 显然占优策略均衡是一种纳什均衡,但是纳什均衡不一定是占优均衡。
有些博弈的纳什均衡点不止一个。如“性别之争” 博弈中有两个纳什均衡: (歌剧,歌剧)和(足球,足球),在有两个或两个以上纳什均衡点的博弈中,其最后结果难以预测。在“性别之争”中,我们无法知道,最后结果是一同欣赏歌剧还是一起去看拳击。除非有进一步的信息,如丈夫或妻子具有优先选择权,否则,我们无法确定双方在上述博弈中会作出什么样的选择。
二、无纳什均衡的例子 那么, 是不是所有的博弈均存在纳什均衡点呢?不一定。实际上,纳什均衡也是一种特殊情况,并不是所有的博弈都存在纯策略纳什均衡点(所谓纯策略是指参与者在他的策略空间中选取惟一确定的策略)。但至少存在一个混合策略(mixed strategy)均衡点(所谓混合策略是指参与者采取的不是惟一的策略,而是其策略空间上的一种概率分布,后面将会介绍)。这就是纳什于1950年证明了的纳什定理。例如“田忌赛马” 博弈中就没有纳什均衡。
V,-D -P,0 0,S 0,0 睡 不睡 偷 不偷 守卫 小
在经济学研究中, 纳什均衡首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每一个人都从利己的目的出发,而最终全社会达到利他的效果。从“纳什均衡”我们引出一个悖论:从利己目的出发,结果损人不利己。两个囚徒的命运就是如此。从这个意义上说,“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。 因此,从“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己策略”。但它必须符合以下黄金律:按照你希望别人对待你的方式去对待别人,但只有他们也按同样方式行事才行。也就是中国人说的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,纳什均衡是一种非合作博弈均衡,在现实中非合作的情况要比合作情况普遍。
三、纳什均衡的一致预测性质(Consistent Forecast) 博弈分析最基本的目的之一是预测。也就是说,我们之所以要进行博弈分析,最重要的原因就是预测特定博弈中的博弈方究竟会采取什么行动,博弈将有怎样的结果。
一般来说,人类的历史是不可预测的,也就是说,人类的集体行动是不可能预知的。但是,在某些假定的条件下,某种集体行动是可预测的。博弈论中对行动者的假定是,行动者是理性的。理性的人不可能作出非理性的事情,在这个假定下,许多结果就能预测出来。博弈的均衡就是可预测的结果。在囚徒困境中,囚犯除了选择“坦白”外其他还有吗?对于理性的或者说自私的囚徒来说,肯定没有。这是理性人的假定下的必然结论。
因此, 纳什均衡的价值主要在于它的一些非常重要的性质,其中“一致预测性”就是最重要的性质之一。也就是说, 纳什均衡是关于博弈将会如何进行“一致预测” (Consistent Forecast)的。 这里所说的“一致预测”是指这样一种性质:如果所有博弈方都预测一个特定的博弈结果会出现,那么所有的博弈方都不会不顾这种预测或者这种预测能力,去选择与预测结果不一致的策略,即没有哪个博弈方有动力采取与这个预测结果不同的行为, 没有哪个博弈方有偏离这个预测结果的愿望,因此这个预测结果最终真会成为博弈的结果。
也就是说,这里“一致预测”中“一致”的意义是,各博弈方的实际行为选择与他们的预测一致,而不是不同博弈方的预测相同、无差异。纳什均衡的一致预测性质正是博弈预测能力的基本保证。其他的博弈分析概念要么不具备这种性质,从而不存在预测的稳定性,因此不可能成为具有普遍意义的博弈分析概念,要么本身也是纳什均衡,是纳什均衡的一部分。
值得注意的是,虽然纳什均衡是博弈结果的一致预测,但纳什均衡分析却并不一定能对所有博弈的结果都作出准确的预测。因为纳什均衡的一致预测性质本身并不保证各博弈方的预测是相同的,相同的预测是一致预测性质的前提而不是结果。有许多博弈其实根本无法准确预测,因为有些博弈不存在纳什均衡,而另一些博弈又有多重纳什均衡且相互无显著的优劣或效率差别。
第三节 纳什均衡的应用 一、古诺(Cournot)寡头模型 设某市场有两家企业生产同类型的产品,企业商1的产量为q1,企业商2的产量为q2,则市场总产量为Q=q1+ q2。设市场出清价格P是关于市场总产量的函数P=P(Q)=a-Q。为分析简单的需要和突出博弈的特征,假设两企业的生产都无固定成本,且单位产量的边际成本相等,并为常数c,则两个企业分别生产q1和q2单位产量的总成本分别为q1和q2。最后强调企业商同时决定各自的产量,即他们在决策之前都不知道另一方的产量。
在上述问题构成的标准博弈中,博弈方为企业1和企业2。两博弈方的策略空间就是他们可以选择的产量。假设产量是连续可分的,因此两个企业都有无限多种可选策略,且产量不可能为负值。该博弈中两博弈方的得益是两企业各自的利润,即各自的销售收益减去各自的成本,
二、最优反应函数(Best Reaction Function) 如果上述通过求解极值的方法得到纳什均衡解的方法比较抽象,下面我们用图形法来比较直观地得到古诺模型的纳什均衡解, 其借助的主要工具是最优反应函数。
三、伯特兰德(Bertrand)寡头模型 我们假设两个企业生产有一定差别的产品,这种有差别的产品之间有很强的替代性,但又不是完全可替代,即价格不同时,价格较高的不会完全销不出去。如果企业1和企业2价格分别为P1和P2.
四、公共地悲剧(Tragedy of the Commons) 所谓公共地或公共资源在经济学中是指没有哪个个人、企业或组织拥有所有权,大家都可以自由利用的自然资源或人类生产的供大众免费使用的设施和产品。如人们都可以自由开采使用的地下水,可自由放牧的草地,可自由排放废气废水的空气,以及无成本地使用公共道路、楼道的照明灯等。
公共地或公共物品或公共资源具有两个重要的特征:一是每个人都可以从该物品中受益。特别是,没有付费的人可以与付费的人同等享用该物品;二是成本由提供公共物品服务的水平决定,而不取决于接受公共物品服务的消费者数量。在同样的条件下,公共物品消费者数量的增加不会导致成本的升高,而且没有任何人能够通过减少公共物品对他人的服务来提高对自己的服务。 由于公共地或公共资源有上述两个特征,因而利用这些资源时不支付任何代价,除非政府将这些资源收归国有,并对使用者征收资源税或收取类似的费用。
例:苏格兰的草地为什么消失了? 在18世纪以前,英国苏格兰地区有大量的草地,其产权没有界定,属公共资源,大家都可以自由地在那里放牧。草地属于“可再生资源”,如果限制放牧的数量,没有被牛羊吃掉的剩余草皮还会重新长出大面积草场,但如果不限制放牧规模,过多的牛羊将草吃得一光二净,则今后不会再有新草生长出来,草场就会消失。
现在的苏格兰的草地很美
现在的苏格兰的草地很美
爱丁堡城堡
由于草地的产权没有界定,政府也没有对放牧作出规模限制,每家牧民都会如此盘算:如果其他牧民不约束自己的放牧规模,让自己的牛羊过多地到草地上吃草,那么,我自己一家约束自己的放牧规模规模对保护草场的贡献是微乎其微的,不会使草场免于破坏;相反,我也加入过度放牧的行列,至少在草场消失之前还会获得一部分短期的收益。
如果其他牧民约束放牧规模,我单独一家人过度放牧不会破坏广褒的牧场,但自己却获得了高额的收益。因此,任何一位牧民的结论都会是:无论其他牧民是否过度放牧,我选择“约束自己的放牧规模”都是劣战略,从而被剔除。大家最终都会选择过度放牧,结果导致草地消失,生态破坏。
设某村庄有n户牧民,该村有一片可以自由放牧羊群的公共草地。由于这片草地的面积有限,因此只能让不超过某一数量的羊吃饱,如果在这片草地上放牧羊只的实际数量超过这个限度,则每只羊都无法吃饱,甚至会饿死,而且产出也减少,所以这些牧民必须决定自己养羊的数量,假设各牧民在决定自己的养羊数量时是不知道其他牧民养羊数量的,即各牧民决定养羊数量的决策是同时作出的。再假设所有牧民都清楚这片公共草地最多能养多少羊和羊只总数的不同水平下每只羊的产出。这就构成了n个牧民之间关于养羊数量的一个博弈问题,并且是一个静态博弈。
公共资源的悲剧在我国有许多例子, 如国有资产的流失, 煤矿的滥开滥采导致的煤矿资源的浪费等就是公共资源悲剧的典型表现, 象公园, 水利设施等公共设施也存在类似的问题。在许多需要人类生产、提供的公共设施的问题上,作搭便车者(Free Rider)总是比作提供者合算,因此许多必需的公共设施,如楼道里的电灯等就总是没人提供。这些公共资源博弈问题的结果说明了在公共资源的利用,公共设施的提供方面,政府的组织、协调和制约是非常必要的,因为人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为, 这也可以说是政府之所以有必要存在的主要理由之一。
第四节 混合策略纳什均衡 一、混合策略(Mixed Strategies)和混合策略纳什均衡 2, 1 0, 0 1, 3 时 装 足 球 时装 足球 丈夫 妻 子 夫妻之争 妻子的混合策略 丈夫的混合策略 夫妻之争博弈的混合策略纳什均衡 策略 得益 博弈方1 (0.75,0.25) 0.67 博弈方2 (1/3,2/3) 0.75
“田忌赛马”与混合策略纳什均衡 为了简便起见,我们将齐威王的策略从上到下分别称为策略a、b、c、d、e和f,将田忌的策略从左到右分别称为策略g、h、i、j、k和l。设齐威王分别以概率pa、pb、pc、pd、pe和pf随机选择相应策略,显然田忌采用g的期望得益为-3pa- pb- pc+ pd- pe - pf,采用h的期望得益为-pa-3pb+pc-pd-pe-pf,采用i的期望得益为-pa - pb –3 pc- pd – pe+ pf, 采用j的期望得益为-pa- pb -pc-3 pd+ pe -pf,采用k的期望得益为pa - pb -3 pc- pd -3 pe – pf,采用l的期望得益为-pa+ pb – pc – pd – pe -3 pf 。
3,-3 1,-1 -1,1 1,-1, 上中下 上下中 中上下 中下上 下上中 下中上 上 中 下 田 忌 齐 威 王 得益矩阵
齐威王若是想让田忌没有任何可乘之机,所选概率分布必须使上述六个期望得益都相等,解之得pa = pb = pc = pd = pe = pf。又因为pa+ pb+pc+pd+pe+ pf=1,因此pa = pb = pc = pd = pe = pf=1/6。同样的,如果我们假设田忌以概率pg、ph、pi、pj、pk和pl随机选择相应策略,则该六个概率也必须使齐威王选择各纯策略的期望得益都相等,因而pg=ph=pi=pj=pk=pl=1/6。齐威王和田忌都以1/6的相同概率随机选择各自的六个纯策略,构成本博弈惟一的混合策略纳什均衡。
在上述混合策略下,齐威王的期望得益为 田忌的期望得益则为 即多次进行这样的赛马,齐威王平均每次能赢田忌一百匹马。
混合策略的实践意义是表示博弈方对各个纯策略的偏好程度,或是对多次博弈达到均衡结局的各个纯策略选择的概率估计,因此体现了主观概率的意义。 根据混合策略的定义,可知纯策略可视为特殊的混合策略。
第五节 纳什均衡的存在性 我们已经知道在“田忌赛马”等许多博弈中不存在纯策略纳什均衡,但如果把策略扩展到包括纯策略和混合策略,那么这些博弈在混合策略的意义上就有了纳什均衡,即混合策略纳什均衡。虽然混合策略纳什均衡与纯策略纳什均衡有差别,如对一次性博弈结果的预测作用很小,但混合策略纳什均衡在揭示博弈方决策的方法,揭示博弈问题的效率意义等方面还是非常有用的。而且我们知道,纯策略可以看作混合策略的特殊情况。因此如果混合策略纳什均衡具有普遍性,对博弈分析的理论和应用价值就是非常重要的支持。纳什提出的著名的“纳什定理”,首先证明了这个结论。
纳什定理(Nash 1950):在一个有n个博弈方的标准博弈中,如果n是有限的,且都是有限集(对i=1,…,n)则该博弈至少存在一个纳什均衡,均衡可能包含混合策略。 该定理说明,每一个有限博弈都至少有一个混合策略纳什均衡。
第六节 纳什均衡的多重性 纳什均衡在相当广泛的博弈类型中普遍存在,保证了该概念在博弈分析中的巨大作用和重要地位。 但是我们经常发现,真正令博弈者困惑的有时不是一个博弈是否存在均衡,而是一个博弈往往有多个均衡。因为纳什均衡的存在性不等于惟一性,在许多博弈中纳什均衡是不惟一的,而且不同的纳什均衡相互之间也没能明显的优劣关系。
一、帕累托上策均衡(Pareto Dominated Equilibrium) 在多重纳什均衡博弈中,并不是所有的多重纳什均衡博弈都是难以选择的。事实上,虽然有些博弈中存在多个纳什均衡,但这些纳什均衡有时有明显的优劣差异,所有博弈方其中的其一个纳什均衡有着共同的偏好。比如说,某个纳什均衡中给所有博弈方带来的利益,都大于其他所有纳什均衡会带来的利益, 这时候博弈方的选择倾向性就会是一致的,各个博弈方不仅自己会选择该纳什均衡的策略,而且可以预料其他博弈方也会选择该纳什均衡的策略, 共同追求经济学中的帕累托效率最优。
这时各个纳什均衡之间其实还是存在许多差异的,这种差异性表现的内容可以是多种多样的,各文化上的,技术上的,效率上的, 等等。但不管是什么内容的差异,我们都可以把它们归结到帕累托效率意义方面的差异。 上述多重纳什均衡选择所依据的,实际上就是帕累托效率意义上的优劣关系,用这种方法选择出来的纳什均衡,就叫做“帕累托上策均衡”(Pareto Dominated Equilibrium)。
二、风险上策均衡(Risk-dominant Equilibrium) 在多重纳什均衡博弈的选择中, 虽然,帕累托上策均衡作为均衡选择的依据容易理解的,然而,也不是帕累托上策均衡都会成为多重纳什均衡博弈的选择,有时候其他某种同样是合理的选择逻辑的作用会超过帕累托效率的选择逻辑,比如基于风险因素的考虑就是这样一种情况。比如从多重纳什均衡中选择一个合理的预测常常依赖于预测风险的大小, 人们一般倾向于接受预测风险比较小的结果。
猎鹿博弈(Stag Hunt Game) “猎鹿博弈”源自启蒙思想家卢梭的著作《论人类不平等的起源和基础》中的一个故事。 古代的一个村庄有两个猎人。当地的猎物主要有两种:鹿和兔子。如果一个猎人单兵作战,一天最多只能打到4只兔子。只有两个猎人一起去才能猎获一只鹿。从填饱肚子的角度来说,4只兔子能保证一个人4天不挨饿,而1只鹿却能使两个人吃上10天。这样,两个人的行为决策就可以形成两个博弈结局:分别打兔子,每人得4;合作,每人得10。
显然,两人合作猎鹿的好处比各自打兔的好处要大得多,但是这要求两个猎人的能力和贡献相等。如果一个猎人的能力强、贡献大,他就会要求得到较大的一份,这可能会让另一个猎人觉得利益受损而不愿合作。“合则双赢”的道理大家都懂,在实际中却很难合作的原因就在于此。合作要求博弈双方学会与对手共赢,充分照顾到合作者的利益。
三、聚点均衡(Focal Points Equilibrium) 多重纳什均衡给我们带来的主要尴尬之处,主要还在于不存在有差别的帕累托上策均衡。如在 “性别之争”博弈的三个纳什均衡中,除了混合策略纳什均衡明显较差以外,两个纯策略纳什均衡之间不存在帕累托效率意义上的优劣关系,一个对丈夫有利,另一个则对妻子有利,因此两个博弈方究竟会怎么选择无法判断。 但实际上,并不是所有无帕累托优劣关系的多重纳什均衡博弈中,人们的选择都没有规律性。事实上,在现实生活中,博弈方可能使用某些被标准博弈模型抽象掉的信息来达到一个所谓的“聚点”(Focal Point),从而帮助进行选择。
斗鸡博弈 同一宿舍的两个男同学关系相当不错,在他们的生活中出现一位女生,他们两人都对这个女生很有好感。现在假如两个人同时公开宣布喜欢这个女生并准备去追求,则他们都觉得很尴尬,而且他们的关系也会出现僵化,这是他们不愿意得到的结果(在这里假定没有哪个同学特别喜欢这个女生,可以不顾一切,也假定这个女生不是特别偏向哪个男生)。下面是他们的支付矩阵:
乙方 追求 不追求 甲方 追求 -3,-3 2,-1 不追求 -1, 2 0,0
要是甲首先宣布开始追求那个女孩,那乙同学的最优选择就是放弃,这样的话就可以避免和好朋友闹翻,这正是他最不愿意看到的;同样,要是乙同学首先宣布开始追求那女孩,那甲同学的最优选择也同样是放弃,道理是一样的。这时候就出现了两个纳什均衡:一个是甲同学追求、乙同学不追求;另一个就是甲同学不追求、乙同学追求。到底哪个均衡会出现了,这要由生活中其他的偶然因素决定,有时是甲同学碰巧先宣布,有时是乙同学碰巧先宣布。
共谋和防共谋均衡 一、多人博弈中的共谋问题 本博弈的纯策略纳什均衡:(U,L,A)、(D,R,B) 前者帕累托优于后者。博弈的结果会是什么呢? (U,L,A)有共谋 (Coalition)问题:博弈方1和2同时偏离。 0,0,10 -5,-5,0 1,1,-5 L R U D 博弈方2 博 弈 方 1 博弈方3.A -2,-2,0 -5,-5,0 -1,-1,5 L R U D 博弈方2 博 弈 方 1 博弈方3.B
二、防共谋均衡(Coalition-proof Equlibrium) 上述共谋问题引出了“防共谋均衡”思想 如果一个博弈的某个策略组合满足下列要求: (1)没有任何单个博弈方的“串通”会改变博弈的结果,即单独改变策略无利可图; (2)给定选择偏离的博弈方有再次偏离的自由时,没有任何两个博弈方的串通会改变博弈的结果; (3)依此类推,直到所有博弈方都参加的串通也不会改变博弈的结果。 称为“防共谋均衡”。 前面例子中:(D,R,B) 是防共谋均衡 (U,L,A)不是防共谋均衡
第三章 完全且完美信息动态博弈 静态博弈只是博弈问题中的一种, 现实中的许多决策活动往往是依次选择行为而不是同时选择行为,而且后选择行为者能够看到先选择行为者的选择内容。
博弈中的博弈方相继行动,由于后行动者能够看到先行动者的决策行为,所以后面博弈方的决策要受到以前博弈方决策行为的影响,每一个博弈方都要根据在决策时所掌握的全部信息来作出自己的最优策略,即每个博弈方的策略是决策者在决策时所掌握全部信息的函数。换句话讲,博弈方在某一个阶段做出的决策,要受到前边一系列决策信息的影响,是前边一系列决策信息的函数。典型的例子就是对弈,我走一步,你走一步,你来我往, 楚汉相争,不亦乐乎。双方相继行动, 每个人在每一时刻的决策都是前边一系列决策所掌握信息的函数,这种决策问题构成的博弈与静态博弈有很大的不同,我们称它们为“动态博弈”(Dynamic Game)
第一节 动态博弈的扩展式表示法 一、动态博弈的扩展形表示(Extensive Form ) 第一节 动态博弈的扩展式表示法 一、动态博弈的扩展形表示(Extensive Form ) “扩展形”也称其为“博弈树。动态博弈各个博弈方的选择行为有先后次序,每个博弈方的选择行为会形成依次相连的时间阶段,因此动态博弈中一个博弈方的一次选择行为常称为一个“阶段”(Stage)。动态博弈中也可能存在几个博弈方同时选择的情况,这时这些博弈方的同时选择构成一个阶段。一个动态博弈至少有两个阶段,因此动态博弈有时也称为“多阶段博弈”(Multistage Games)。
二、动态博弈的主要特点 在动态博弈中,各个博弈方的选择和行为不仅有先后之分,而且一个博弈方的选择很可能不只一次,而是有几次甚至多次,并且在不同阶段的多次行为之间有内在联系,是不能分割的整体。因此在动态博弈中,研究某个博弈方某个阶段的行为,或者将各个阶段的行为割裂开来研究是没有意义的。 动态博弈中博弈方决策的内容,不是博弈方在单个阶段的行为,而是各博弈方在整个博弈中轮到选择时的每个阶段,针对前面阶段的各种情况而作出相应策略或行为选择安排,以及由不同博弈方的这种行动安排所构成的策略组合。
此外, 由于动态博弈中各个博弈方的选择行为有先后次序,且后行为者能观察到此前先选择行为博弈方的选择行为,因此动态博弈中各博弈方的地位是不对称的。这一点与所有博弈方一次性同时选择的静态博弈也明显不同。
一般来说,由于后选择的博弈方有更多的信息帮助自己选择行为,可减少他们决策的盲目性,有针对性地作出选择,因此处于较有利的地位。不过,后行为和具有较多信息未必一定较先行为和具有较少信息的博弈方有利。对单人博弈,也即个人最优化决策问题来讲,占有信息越多对决策者越有利利,但对两人以上的博弈问题来说,信息较多的博弈方有可能受损。事实上,也正是由于博弈论能够揭示诸如“信息多反而得益少”等表面上不合常规现象的存在及其根源,才使得博弈论成为一种得到广泛传播并为人们所喜欢的理论。
首先行动优势 1.在动态博弈中,首先作出策略选择和采取行动的博弈方可以占据有利地位,获得较多利益。 2.首先行动优势的原因在于它造成了一种既成事实,为使利润最大化,另一方必须根据首先行动一方的策略来选择自己的策略.而且该模型表明信息较多的博弈方不一定能获得较多的得益。
案例 沃尔马连锁店的市场扩张 沃尔马是山姆·华尔顿于1969年创立的一家很庞大的也是很成功的折扣零售连锁店公司。上世纪70—80年代,其类似的公司纷纷倒闭时,沃尔马却保持快速增长,从1976年的153家分店发展到1986年的1009家,且盈利性更强。到1985年末,山姆·华尔顿已是美国最富有的人之一。
沃尔马成功的关键在于其市场进入与市场扩张策略。在60年代,人们通常都认为折扣店只能在10万或以上人口的城市中才能成功经营,但山姆·华尔顿不同意这种看法并决定在美国西南部的小镇上开店,到1970年已经有30家沃尔马店开设在阿肯色、密苏里和俄克拉荷马的小镇上。一个10万人口以下的小镇所具有的市场容量并不太大,但却足够容纳下一个大型折扣店,并能让它获得一定的利润。
到70年代中期,当其它连锁店的经营者意识到这一点时,沃尔马已经大量占领了这样的市场。对于小镇来说,开出一家折扣连锁店可以盈利。如果开出两家来,有限的市场容量会使两家都亏损。沃尔马的策略就是先发制人,力图抢先一步,在其他小镇开设分店。到1986年,它每年赚取4.5亿美元利润。到1993年,它已有1800多家分店并赚取15亿美元的年利润。
第二节 逆向归纳法 一、动态博弈中的可信性(Credibility)问题 “破釜沉舟” 第二节 逆向归纳法 一、动态博弈中的可信性(Credibility)问题 “破釜沉舟” 秦朝末年,秦国大将章邯率领数10万人攻打赵国的都城巨鹿。赵国向楚国求援,楚王派项羽率兵救赵。项羽带领人马渡过漳河后,马上命令弄沉渡船,每人只带三天的粮食。将士们知道后退的路没有了,个个奋勇杀敌,终于解了赵国之危。 “背水一战” 汉将韩信带兵去攻赵军,出了井陉口,布置了一万人背水列阵,与赵军作战。汉军前临大敌,后无退路,都拼死作战,结果大败赵军。
动态博弈的核心问题之一是可信性问题。我们知道动态博弈中博弈方的策略是他们自己预先设定的、在各个博弈阶段针对各种情况的相应行为选择的计划,这些策略实际上并没有强制力,而且实施起来有一个过程,因此只要符合博弈方自己的利益,他们完全可以在博弈过程中改变计划。这种情况叫做动态博弈中的“相机选择”(Contingent Play)问题。
相机选择的存在使得博弈方的策略中,所设定的各个阶段、各种情况下可能会采取的行动或策略的“可信任”(Credibility)有了疑问。也就是说,各个博弈方是否会真正、始终按照自己的策略所设定的方案行为,还是可能临时改变自己的行动方案呢?这使得动态博弈分析的静态博弈分析要复杂得多。
作为不可信性问题的一个例子,我们考虑以下一个所谓的“手雷博弈” 博弈问题。 某投资人A投资一价值6万元的商店时缺2万元资金,而B此时有2万元资金可以投资。A希望B将2万元资金借给自己,并答应在年终赚到钱和B对半分成,B是否该将钱借给A呢?假设开办商店肯定可以赢利,则B最担心的就是A赚钱后是否会真的与自己平分利润,因为如果A赚钱后不仅不和B平分,而且还卷款潜逃,B就会连自己的本钱都收不回来。我们用图中的扩展形表示这个博弈问题。
显然“手雷博弈”这一动态博弈可以表示为(两阶段): (1)博弈方B从可行策略集中选择一个行动a1,即从“借”和“不借”之中进行选择。 (2)博弈方A观察到a1之后从可行策略集A2中选择一个行为a2,即从“分”与“不分”中进行选择。 (3)双方的收益分别为:u1(a1, a2) 和u2(a1, a2)。
通过上面的分析,我们知道了可信性问题在动态博弈问题中重要性,虽然有时候一些博弈方声称将采取什么什么样特定的行动,以影响和制约其它博弈方的行为,但如果这些行动缺乏以经济利益为基础的可信性,那么这些想法或声明最终就是不可信的,不会有真正的效力。因此,可信性问题是动态博弈分析的一个中心问题,需要对它十分重视。
二、逆向归纳法(Backwards Induction Method) 1、纳什均衡的问题 在手雷博弈的例子中,我们发现动态博弈中的博弈过程是一个相机行事的过程。即在动态博弈中,各博弈方是在“等到”博弈到达自己的策略空间后再决定如何行动。这种相机选择引出了动态博弈中的一个中心问题,即可信性问题。而可信性问题最重要的意义,在于它对纳什均衡在动态分析博弈中的有效性提出了质疑。
我们知道,在静态博弈中,纳什均衡具有良好的稳定性,即各博弈方都没有动力去改变这一策略组合。由于纳什均衡具有稳定性,各博弈方能够一致预测到该均衡的最终形式,即各博弈方似乎是在博弈开始之前就制定出一个完全的行动选择计划。但在动态博弈中,由于相机行为的存在,并进而导致不可信问题、这样就使得静态博弈下的纳什均衡可能会失去稳定性。
2、逆向归纳法 在博弈论中,经常用“可置信”和“不可置信”来区分博弈者选择的策略。在对动态博弈的分析中, 我们会分析什么样的策略是可置信的,什么样的策略是不可置信的, 而分析“威胁”或“承诺”是可置信的还是不可置信的方法就是“逆向归纳法”(Backwards Induction)。
逆向归纳法的特征是:博弈行为是顺序发生的。先行动的理性的博弈方,在前面阶段选择行为时必然会先考虑后行动博弈方在后面阶段中将会怎样选择行为,只有在博弈的最后一个阶段选择的,不再有后续阶段牵制的博弈方,才能直接作出明确选择;后面的行动者在进行行为选择前,所有以前的博弈方的行为都可以被观察到,而当后面阶段博弈方的选择确定以后,前一阶段博弈方的行为也就容易确定了。
逆向归纳法的一般方法是这样的:从动态博弈的最后一个阶段开始分析,每一次确定出所分析阶段博弈方的选择和路径,然后再确定前一个阶段的博弈方选择和路径。逆推归纳到某个阶段,那么这个阶段及以后的博弈结果就可以肯定下来,该阶段的选择节点等于一个结束终端。
第三节 子博弈和子博弈精炼纳什均衡 一、子博弈(Subgame) 由博弈中某一个阶段开始的后续博弈叫做一个子博弈。实际上,从一个博弈任何一个节点开始一直到博弈结束都可以看作一个子博弈。要了解子博弈精炼纳什均衡首先必须了解什么是“子博弈”(Subgame)。
子博弈定义:从一个动态博弈第一阶段以外的任阶段开始的后续博弈阶段构成的,包含有初始信息集和进行博弈所需要的全部信息,能够自成一个博弈的原博弈的一部分,称为原动态博弈的一个“子博弈”。
也就是说,一个“子博弈”必须拥有第一章所介绍的博弈构成要素中的所有要素,即博弈方、策略、行动、顺序、得益、信息等。其关系就如同集合中的母集与子集的关系。
二、子博弈精炼纳什均衡(Subgame Perfectness) 有了子博弈概念,下面我们就介绍动态博弈的“子博弈精炼纳什均衡”概念。这里先给出“子博弈精炼纳什均衡”的定义。
子博弈精炼纳什均衡定义:如果在一个具有完美信息的动态博弈中,各博弈方的策略构成的一个策略组合满足在整个动态博弈及它的所有子博弈中都构成纳什均衡,那么这个策略组合称为该动态博弈的一个“子博弈精炼纳什均衡”。
因为任何博弈都有它自身的一个适当子博弈, 因而一个子博弈精炼纳什均衡的策略组合肯定是纳什均衡。如果某博弈的唯一子博弈就是其本身, 那么子博弈精炼纳什均衡和纳什均衡就是一样的。如果还有其他子博弈, 则说明有些纳什均衡并不是子博弈精炼纳什均衡。
子博弈精炼纳什均衡与纳什均衡的根本不同之处,就是子博弈完美纳什均衡能够排除均衡策略中不可信的威胁或承诺,排除“不合理”的纳什均衡,只留下真正稳定的纳什均衡,即子博弈精炼纳什均衡。这正是我们引进子博弈精炼纳什均衡概念的原因。 子博弈精炼纳什均衡之所以能排除动态博弈相机选择策略组合中的不可信行为,是因为它要求该行为下的策略选择所形成的均衡必须在所有子博弈中都是纳什均衡,这就排除了其中存在不可信行为选择的可能性,从而使留下的均衡策略在动态博弈分析中具有真正的稳定性。
第四节 动态博弈模型 例 斯塔克博格(Stackelberg)双寡头模型 斯塔克博格(Stackelberg)模型是一个双寡头动态模型。该模型假设寡头市场上有两个企业,与古诺模型一样,这两个企业的决策内容也是产量。在这两个企业中,其中一个企业处于支配地位,先行动进行产量选择,另一个企业处于从属地位,在支配企业选择产量之后再进行选择,因此这是一个动态博弈问题。
我们再假设博弈结构的其他方面,如策略空间、得益函数和信息结构等,与两寡头连续产量的古诺模型也都一样,因此这个斯塔克博格模型是一个完全且完美信息的动态博弈。与古诺模型的惟一区别只是两博弈方的选择现在是先后进行的而不是同时进行。
例 轮流出价博弈(Alternation Offers) 讨价还价(Bargaining)在博弈论中是典型的序贯博弈,是一个不断的“出价”(offer)和“还价”(counteroffer)过程,因而是一类典型的动态博弈问题,也是博弈论最早研究的一种博弈问题。下面我们对鲁宾斯泰英(Rubinstein)的轮流出价(Alternation Offers)博弈问题进行分析。
1、三阶段谈判博弈 首先讨论一个三回合谈判博弈。假设有两个人就如何分享K万元现金进行谈判,并且已经定下了这样的谈判规则;首先由甲提出一个分割比例,乙可以接受也可以拒绝;如果乙拒绝则他自己应提出另一个方案,让甲选择接受或拒绝。如此一直进行下去。一个条件一旦被拒绝,它就不再有约束力,并和博弈下面的进行不再相关。在上述循环过程中,只要任何一方接受对方的方案,博弈就告结束。再设每一次一方提出一个方案和另一方选择是否接受为一个回合,由于谈判费用和利息损失等,双方的利益都要打一个折扣,我们称为“贴现因子”。
现实例子: 经济活动中的利润分配问题、债务纠纷问题、资源分配问题及财产继承问题等,都是可以看作讨价还价博弈模型。 第一、二阶段相当于争执双方的调解过程,第三阶段相当于提交司法或者仲裁机构进行裁决。
[讨论]:一个典型的博弈论问题 5个海盗抢到了100颗宝石,每一颗都一样的大小和价值连城。 他们决定这么分: 5个海盗抢到了100颗宝石,每一颗都一样的大小和价值连城。 他们决定这么分: 1、抽签决定自己的号码(1,2,3,4,5) ; 2、首先,由1号提出分配方案,然后大家5人进行表决,当且仅当超过半数的人同意时, 按照他的提案进行分配,否则将被扔入大海喂鲨鱼。 3、如果1号死后,再由2号提出分配方案,然后大家4人进行表决,当且仅当超过半数的人同意时,按照他的提案进行分配,否则将被扔入大海喂鲨鱼。 4、以此类推 条件: 每个海盗都是很聪明的人,都能很理智的判断得失,从而做出选择。 问题:第一个海盗提出怎样的分配方案才能够使自己免于下海以及自己获得最多的金币呢?
回答: 如果只剩5号海盗,那么毫无疑问他将得到所有的金币而且不用牺牲,5号海盗没有任何风险。 接下来看4号,他的生存机会完全取决于前面还有人存活着,因为如果1号到3号的海盗全都喂了鲨鱼,那么在只剩4号与5号的情况下,不管4号提出怎样的分配方案,5号一定都会投反对票来让4号去喂鲨鱼,以独吞全部的金币。哪怕4号为了保命而讨好5号,提出(0,100)这样的方案让5号独占金币,但是5号还有可能觉得留着4号有危险,而投票反对以让其喂鲨鱼。因此理性的4号是不应该冒这样的风险,把存活的希望寄托在5号的随机选择上的,他惟有支持3号才能绝对保证自身的性命 ;
再来看3号,他经过上述的逻辑推理之后,就会提出(100,0,0)这样的分配方案,因为他知道4号哪怕一无所获,也还是会无条件的支持他而投赞成票的,那么再加上自己的1票就可以使他稳获这100金币了。
但是,2号也经过推理得知了3号的分配方案,那么他就会提出(98,0,1,1)的方案。因为这个方案相对于3号的分配方案,4号和5号至少可以获得1枚金币,理性的4号和5号自然会觉得此方案对他们来说更有利而支持2号,不希望2号出局而由3号来进行分配。这样,2号就可以拿走98枚金币了。
这回轮到自己的1号海盗,1号海盗更不是省油的灯,经过一番推理之后也洞悉了2号的分配方案。他将采取的策略是放弃2号,而给3号1枚金币,同时给4号或5号2枚金币,即提出(97,0,1,2,0)或(97,0,1,0,2)的分配方案。由于1号的分配方案对于3号与4号或5号来说,相比2号的方案可以获得更多的利益,那么他们将会投票支持1号,再加上1号自身的1票,97枚金币就可轻松落入1号的腰包了。
2、无限期谈判博弈 虽然我们在三回合谈判博弈分析中谈到乙可以采取拖延战术来获取较多的利益。但博弈一旦真的被拖入无限期阶段,其最终的结果会变得非常复杂。下面我们就来分析无限期的谈判博弈。无限期谈判博弈在第三回合并不会强制结束,只要双方互不接受对方的出价方案,则博弈就要不断进行下去,奇数期由甲出价,偶数期由乙出价,无限期谈判博弈中同样有一个消耗系数。
我们仍然希望能够多用逆向归纳法来分析这一无限期谈判动态博弈。然而由于无限期谈判博弈没有一个可以借以分析的最后期,因此逆向归纳法无法直接应用。1984年夏克德(Shaked)和萨顿(Sutton)提出了一种解决这类博弈问题的思路。对一个无限回合博弈,从第三阶段开始(如果能到达第三阶段的话)与从第一阶段开始的整个过程的博弈,其结果都是一样的。这样我们就可以把无限博弈变成一个有限期博弈,并应用对有限博弈分析的思路和方法进行分析。在无限期谈判博弈中,不管是从第一阶段开始还是从第三阶段开始,都是先由甲出价,然后双方交替出价,直到一方接受为止。
在无限期谈判博弈中,不管是从第一阶段开始还是从第三阶段开始,都是先由甲出价,然后双方交替出价,直到一方接受为止。 依据上述分析,我们可以先假设整个博弈有一个逆向归纳的解,甲和乙的得益分别为S和K-S。即甲在第一阶段出价S,乙接受时双方的得益。根据夏克德和萨顿的结论,从第三阶段开始这个无限期博弈,与从第一期阶段开始应该得到一样的结果,因此上述逆向归纳的解也应该是从第三期阶段开始的博弈的结果。也就是说,第三阶段也应该是甲出S,乙接受,双方得益S和K-S,而且这个结果是最终结果。
设S. 为甲在无限期谈判博弈中可能得到的逆向归纳解下的最大收益。依据夏克德和萨顿的结论,可以设想S
第五节 逆向归纳法的局限性和颤抖手均衡 一、逆向归纳法的局限性 首先是逆向归纳法要求博弈的结构,包括次序、规则和得益情况等都是博弈方的共同知识(Common knowledge),各个博弈方了解博弈结构,相互知道对方了解博弈结构。即“博弈人1知道参与博弈人2知道博弈人3知道……得益函数。”显然, 博弈方越多, 逆向倒推的链条就越长,共同知识的要求就越难满足。
而现实经济中的博弈问题常常设有明确的设定,要求各博弈方都完全清楚问题背景,且相互有完全的信任更不容易,因此往往不能运用逆向归纳法。 其次是逆向归纳法不能分析比较复杂的动态博弈。由于逆向归纳法的推理方法是从动态博弈的最后阶段开始对每种可能路径进行比较,这对博弈者的理性提出了很高的要求,博弈者不能有哪怕是丝毫的对理性偏离的行为,博弈者必须有能力比较判断选择路径的数量,包括数量不很大的离散策略,或者有连续得益函数的连续分布策略,而这往往是不可能。
例
按照逆向归纳法和子博弈精炼纳什均衡的概念,此时博弈方2应该选择N,从而把下一步的选择权利交给博弈方1,因为理性的博弈方1在第三阶段会选择T,这样博弈方2可以得到3单位得益,比第二阶段选择M的得益更多。但问题是博弈方1在第一阶段犯错误之后,博弈方2很难得相信博弈方1任然是理性的博弈者的,因此,博弈方2在第二阶段仍然以博弈方1的理性为基础的选择N是没有充分根据的。
这种情况下博弈方2要做的是首先确定博弈方1在第一阶段犯错误的性质,即博弈方1第一阶段所犯错误只是一种偶然的错误,还是一种倾向性的错误。偶然的错误,则意味着下一阶段博弈方1不会再犯错误,可以认为博弈方1在后面的选择中仍然是理性的,否则就应该认为下一阶段博弈方继续犯错误的可能性仍然非常大。
子博弈精炼均衡的局限性 由于“子博弈精炼纳什均衡”是基于逆向归纳法得到的, 正如逆向归纳法存在较大的问题一样, “子博弈精炼纳什均衡”也同样受到许多质疑, 比如“子博弈精炼纳什均衡”要求所有的博弈方在子博弈行动中达成一致预测, 即要求所有的博弈方在子博弈行动中都得到纳什均衡, 而且还要求所有的博弈方都会预测到同一个纳什均衡, 而这在逆向归纳法中经常会成为不可能。不过尽管如此, “子博弈精炼纳什均衡”仍然是分析动态博弈的重要方法。
三、颤抖手均衡(Trembling-Hand Perfect Equilibrium) 很显然,应该怎样理解博弈方的错误,或者说博弈方相互之间怎样理解对方的错误,在动态博弈中是一个非常重要的问题。一般来说,博弈论并不考虑“蝴蝶效应”,即不考虑小的行为失误有时会引起总体的危机甚至引起混沌。下面我们介绍逆向归纳法不能解决的类动态博弈问题,这类博弈也同时告诉了我们博弈方理解对方“犯错误”性质的一种主要方法,即颤抖手均衡。
颤抖手均衡是泽尔腾(Selten)1975年提出的。泽尔腾将博弈方在博弈中犯的错误,认为是对子博弈精炼纳什均衡的“颤抖” Trembles),是一种偶然性的行为。 即如果一个博弈方突然发现另一个博弈方发生了理性博弈者不该发生的错误(博弈偏离均衡路径), 认为该错误只是偶然性行为。如果博弈方在每个信息集上犯错误的概率是独立的,那么,无论过去的行为与逆向归纳法预测的如何不同,参与人应该继续使用逆向归纳法预测从现在开始的子博弈中的行为。颤抖手均衡是理解有限理性的博弈方在动态博弈中偏离子博弈精炼纳什均衡行为最重要的思想之一,也是进一步精炼子博弈精炼纳什均衡的一种均衡概念。
例
把上面这个例子改成如下的得益:
蜈蚣博弈问题(Centipede Game)
这是一个两个博弈方之间的完全且完美信息的动态博弈,可以运用逆向归纳法进行分析。首先从最后一个阶段博弈方B的选择开始, 不难发现d是博弈方B的最佳选择,此时, 博弈方A和博弈方B的得益分别为98和101, 然后将博弈推回到倒数第二阶段博弈方A的选择, 此时博弈方A也是选择d, 博弈方A和博弈方B各得99, 再将博弈推回到倒数第三阶段博弈方B的选择, 不难发现博弈方B还是会选择d。依此类推,我们一直可逆推到博弈方A在第一阶段直接选择D,结束博弈,双方得益都是1。这就是运用逆向归纳法得到的本博弈的惟一的子博弈精炼纳什均衡解及其路径。
显然,上述均衡解是极为不理想的,而且与人们的直觉和实际也不吻合。从上述博弈的过程来看,该子博弈精炼纳什均衡解显然从效率上讲是极差的,除了第二阶段的(0,3)组合外,任意一个其它阶段的选择都比(1,1)好,这说明子博弈精炼纳什均衡也会导致无效率的结果,并不是经过精炼之后留下的子博弈精炼纳什均衡都是有效率的。显然,这也是一个从个体理性出发的最优选择最终导致的极差结果。
下面我们分析上述理论与实际不一致的原因。 对于博弈方A来说,“1元的损失并不是一个很大的风险,即使博弈方B第一次选择时选择了d,自己得益为0,损失1元也不要紧,自己在第一次选择时选D虽然肯定能得到1元,但同选择R之后,可能获得99元的潜在得益相比,前者显然并不是好的选择”。因此至少在该博弈的初始阶段,博弈方A选择R让博弈延续下去,对双方都是有很大潜在利益的投机,因此出现不符合理性预测结果(即博弈方在一开始就选择D,结束博弈)的可能性很大。这时,对博弈方1来说,只要感觉博弈方B有很小的合作精神,那么在第一阶段选择R而不是D就是真正理性的选择,采用R而不是D是他发现博弈方B是否有合作精神的惟一方法。
在博弈方A在第一阶段确实选择了R 的情况下,博弈方B认为博弈方A对D的偏离只是一种“颤抖”,归根结底博弈方还是理性的,而且博弈方B还能够理解博弈方A在第一阶段选择中包含的合作信号,那么他也会选择让博弈延续到下一个阶段而不是结束博弈。这种初步的合作对进一步的合作精神和相互的信心有明显的加强作用,因此该博弈中一旦出现合作的良好开端,合作就会持续下去,从而进一步否定逆向归纳分析得出的结论。
但是,这种合作未必能够一直持续到最后一个阶段。因为随着结束阶段的临近,双方进一步合作的潜在利益越来越小,停止合作的可能性会越来越大,只要博弈方都是理性经济人,那么合作持续到最后一刻的可能性是不存在的,逆向归纳法的逻辑肯定会在某个时刻起作用。在本例中,如果不增加进一步的假设或信息,依据现有的每一个阶段的得益组合,合作有可能随时在某一个阶段结束,但逆向归纳法究竟在什么时候起作用,也就是双方的合作究竟在什么时候停止,难以确定。
很显然,在蜈蚣博弈中,由于博弈的阶段很长,在博弈中作为“共同知识”的“博弈方知道博弈方j知道博弈方k知道”的条件是很难满足的,即逆向归纳法得以采用的条件很难保证,这时用逆向归纳法得到的结论与实际情况有很大距离。 这就是蜈蚣博弈产生的悖论。
对于蜈蚣悖论,许多博弈研究者都在寻求它的解答。在西方有研究博弈论的专家做过实验,实验发现,不会出现一开始选择“不合作”策略而双方获得利益1的情况。双方会自动选择合作性策略,从而走向合作, 这种做法违反逆向归纳法理性人的假设。但实际上双方这样做,要好于一开始博弈方A就采取不合作的策略。
逆向归纳法似乎是不正确的。然而,我们会发现,即使双方开始能走向合作,即双方均采取合作策略,这种合作也不会坚持到最后一步。理性的人出于自身利益的考虑,肯定在某一步采取不合作策略。逆向归纳法肯定在某一步要起作用。只要逆向归纳法在起作用,合作便不能进行下去。这个悖论在现实中的表现是,博弈者不会在开始时确定他的策略为“不合作”,但他难以确定在何处采取“不合作”策略。
蜈蚣博弈产生的悖论引发了经济学家门的深入思考, 并形成这样的共识, 那就是经济学中的 “理性行为”假设, 或者说“经济人”假设, 实际上是“彻底理性”假设, 即每个人都会斤斤计较眼前的每一个得失。蜈蚣博弈就是建立在“彻底理性”假设基础上应用逆向归纳法得到的结果。对蜈蚣博弈悖论的思考进一步导致了经济学中“有限理性”(Bounded Rationlity)思想和 “行为经济学”(Behavioral Ecomomics)的诞生。
第五章 重复博弈 “买菜博弈” 如你到菜场去买菜,当你担心上当受骗而犹豫不决时,卖菜的摊主常常会对你说:“你别担心,我不会骗你的,我天天在这里卖菜,有问题你可以来找我”。在这里, 摊主强调“天天”在这里卖菜,你便会放下心来,购买他所卖的菜,摊主的这句话,用博弈论语言表示就是“我跟你天天在进行‘重复博弈’”。
我们知道, 在一次性博弈中存在较大的机会主义,只要有可能,理性的博弈人都会倾向于利用自身的优势为自己谋求最大的利益,这就可能给其他博弈人带来损失,而其他的博弈人也有同样的思路,只要有机会也会这么做,于是因为利益的“冲突”, 博弈双方都采取措施来防范对方,白白增加了很多的“交易成本” 。而进行重复博弈可以减少欺骗,增加相互的信任,因为上当受骗的人能够来进行“一报还一报”的报复行动,博弈中的长期结果是:理性的博弈人会认识到,欺骗对大家都没有好处,于是通过报复、制裁威胁等相互约束行为,来寻求合作, 追求共同利益的机会,在这种情况下,人们的行为选择和博弈的结果就更复杂,可能性也就更多。
“冲突”何以能产生合作,就是因为重复博弈的存在。 2005年10月, 瑞典皇家科学院在授予托马斯·谢林(Thomas Schelling)和以色列经济学家罗伯特·奥曼(Robert Aumann) 诺贝尔经济学奖时说,罗伯特·奥曼第一次对重复博弈进行了全面正式分析。瑞典皇家科学院认为,“重复博弈的理论促进了我们对合作先决条件的理解,阐明了包括商业协会、犯罪组织在内的许多机构进行磋商和国际贸易协定的理由”。
第一节 重复博弈基本理论 一、重复博弈基本概念 1、重复博弈分类 第一节 重复博弈基本理论 一、重复博弈基本概念 1、重复博弈分类 重复博弈是静态或动态博弈的重复进行,或者说重复进行的博弈过程。比较常见的是基本博弈重复两次或者其他有限的更多次数,因为即使是社会经济活动中的长期关系,通常长度也是很有限的,有预定的结束时间。我们称这种由基本博弈的有限次重复构成的重复博弈为“有限次重复博弈”(Finite Repeated Games)。
定义:给定一个标准博弈G(可以是静态博弈,也可以是动态博弈),重复进行T次G,并且每次重复G之前以前博弈的结果各博弈方都能观察到,这样的博弈过程称为“G的T次重复博弈”,记为G(T)。而G则称为G(T)的“原博弈”或“阶段博弈”。G(T)中的每次重复称为G(T)的一个“阶段”
重复博弈的一个阶段本身就是一个独立的静态博弈或动态博弈,各个博弈方都有相同的得益。这是重复博弈与一般动态博弈的主要区别之一。有限次重复博变及其阶段与第三章讨论的有同时选择的动态相同,而在有同时选择的动态博弈中各个阶段的博弈方和博弈内容都必须相同,而在有同时选择的动态博弈中则没有这样的要求。
如果一个标准博弈G一直重复博弈下去,这样的重复博弈我们称为“无限次重复博弈”(Infinite Repeated Games) 定义:给定一个标准博弈G(可以是静态博弈,也可以是动态博弈),如果将G无限次地重复进行下去,且博弈方的贴现因子都为σ,在每次重复G之前,以前阶段的博弈结果各博弈方都能观察到,这样的博弈过程称为“G的无限次重复博弈”,记为(,)而G称为G(,)的“原博弈”。
2、重复博弈的策略、子博弈和均衡路径 (1) 重复博弈的策略。在动态博弈中,博弈方的一个策略是指每一次轮到其选择时针对每种可能情况如何选择的计划。由于重复博弈中每个博弈方在每个阶段都必须进行策略选择,因此博弈方的一个策略就是在每次重复时, 针对其前面阶段所有可能的情况如何进行行动的计划。
(2) 重复博弈的子博弈 重复博弈是动态博弈,因此也有阶段子博弈的概念。重复博弈的子博弈就是从某个阶段(除第一阶段以外)开始,包括此后所有阶段的重复博弈部分。重复博弈的子博弈要么仍然是重复博弈,只是重复的次数较少,要么就是原博弈。 定义:在有限次重复博弈G(T)中,由第t+1阶段开始的一个子博弈为G进行T-t次的重复博弈。在无限重复博弈G(,δ)中,由第t+1阶段开始每个子博弈都等同于初始博弈G(,δ)。
3.重复博弈的得益 重复博弈的得益与一次性博弈是不同的,因为G(T)中的每个阶段本身就是一个博弈,各个博弈方都有得益,而不是整个博弈结束后有一个总的得益,因此博弈方如何选择得益就成了问题。如果是根据当前阶段得益进行选择,那么把重复博弈就分割分裂成了一个个基本博弈,重复博弈就失去了研究价值。显然重复博弈中博弈方不能只考虑本阶段的得益,而必须考虑整个重复博弈过程得益的总体情况。
4.重复博弈的特点 通过上面的分析,我们会发现,一个重复博弈具有以下特点: (1)是博弈中前一阶段的博弈不改变后一阶段博弈的结构,即所谓的博弈的不同阶段之间没有“物质上”的联系(No Physical Links); (2)是所有的博弈方都能观测到博弈已经发生的所有过程及其信息; (3)是博弈方的得益是所有阶段博弈得益的贴现值之和或加权平均值。
第二节 有限重复博弈 一、有单一纯策略纳什均衡的有限重复博弈(Finitely Repeated Game) 例 零和博弈的有限重复博弈 零和博弈没有纯策略纳什均衡, 重复零和博弈不会创造出新的利益。如重复进行猜币博弈,不管两个博弈方如何选择,每次重复结果都是一方赢一方输,得益相加为0。因此在零和博弈或者它们的重复博弈中,双方合作的可能性根本不存在,即使双方都知道还要重复进行多次基本博弈,也不会改变他们当前阶段博弈中的行为方式,不可能变得(哪怕是暂时的)合作和顾及对方的利益。
实际上,所有以零和博弈为原博弈的有限次重复一猜硬币博弈的有限次重复一样,博弈方的正确策略都是重复一次性博弈中的纳什均衡策略。如在以齐威王田忌赛马作为原博弈的重复博弈中,不管重复次数多少,齐威王与田忌双方的正确策略都是在每次决定马的出场次序时采用混合策略,以1/6的相同概率随机选用6种可能的出场次序。每次重复齐威王的平均值期望得益为1而田忌的平均期望得益为-1。如果重复T次,则齐威王的期望总得益为T,田忌的期望总得益为-T。
例 有限重复的 “囚徒困境”式博弈 无纯策略纳什均衡的零和博弈和严格竞争博弈的有限次重复博弈,之所以不会改变博弈方的行为方式和博弈效率,原因是这些原博弈中博弈方之间的利益关系是严格对立的,矛盾是不可调和的。在有惟一纯策略纳什均衡的博弈中,博弈方之间的利益关系不再是始终对立的,而是有很能大一致性甚至完全一致。 “囚徒困境”式博弈就是有惟一纯策略纳什均衡的博弈, 在以这样的博弈为原博弈的有限次重复博弈中,博弈方的行为和博弈结果会不会发生本质的变化?
例 “产品定价” 博弈 假设有两个企业对某种产品进行定价, 下图给出了其一次性完全信息静态博弈的收益矩阵, 下面分析该博弈重复M次的重复博弈。
显然,在这个一次性完全信息静态博弈中,两个博弈方均有惟一的纯策略纳什均衡,纳什均衡为A、B双方都定低价, 即(低价, 低价)。
如果A、B双方都选择合作,都保持定高价,则双方在每个阶段的收益均为30个单位,记为(30,30,30,…);如果A、B中有一方(如A)采取投机行为,在实际定价中选择不与对方合作,在第一阶段就通过选择定价策略使得选择高价策略的对手B受损,则受到损失的B方一定会在第二阶段及其以后的定价中也选择低价策略,加以报复,这样一来,首先选择不合作的博弈方A在整个阶段的收益为(40,20,20,…),显然,其总收益远远小于合作、维持高价情况下的总收益。因为,选择不合作的博弈方A,只是在第一阶段获得了“额外”收益40,但在以后个阶段的收益将因为对手B的报复性选择而减少,只有20,并且重复若干此后,首先选择不合作的博弈方A将得不偿失。
在这里,B选择的策略称为“冷酷策略”(Grim Strategies)。 冷酷策略是指重复博弈中,任何博弈方的一次性不合作将引起其他博弈方的永远不合作,从而导致所有博弈方的收益减少。因此,所有博弈方具有维持合作的积极性。
我们再来讨论博弈重复次数为有限时的情况。 显然, 有限次重复博弈与无限次重复博弈之间的区别,是所有博弈方都可以明确无误地了解重复的次数,即可以准确地预测到最后一个阶段博弈。而在最后阶段的博弈中,任何一个博弈方选择不合作,不会导致其他博弈方的报复。因此,所有博弈方都会在最后阶段的博弈中选择自己的占优策略,那就是不合作。本例子中,在最后阶段博弈中选择低价是所有博弈方的占优策略。
既然所有博弈方都会在最后阶段选择不合作,那么,根据采用逆向归纳法的分析, 该重复博弈在倒数第二阶段博弈中, 任何博弈方就没有必要担心由于自己选择不合作,导致其他参与人在最后阶段博弈中的报复。因此所有博弈方在倒数第二阶段博弈中,也都仍然会选择不合作。即在倒数第二阶段博弈中,所有博弈方都会选择纳什均衡 (低价, 低价)。
其实,上述结论具有更一般的意义,即:如果原博弈是有惟一的纯策略纳什均衡的博弈,则有限次重复的惟一均衡仍然为各博弈方在每阶段(即每次重复)中都采用原博弈的纳什均衡策略。由于各博弈方的策略都不存在不可信的威胁或许诺,而且在下一次博弈开始前(即博弈又重复一次),所有前面进行的博弈都可以被观测到,因此这是子博弈精炼纳什均衡。
一般性结论:设原博弈G有惟一的纯策略纳什均衡,令G进行T次的有限重复,重复博弈G(T)有惟一的子博弈精炼纳什均衡,各博弈方每个阶段都采用G的纳什均衡策略。各博弈方在G(T)中的总得益为在G中得益的T倍,平均得益等于原博弈G中的得益。 该定理表明, 只要博弈的重复次数是有限的,在一个博弈中每个博弈方的所有得益各自地加上相同的值不会改变博弈的结果。 要注意的是,“惟一”性是一个重要条件,如果纳什均衡不是唯一的,上述结论就不一定成立。
二、有多个纯策略纳什均衡的有限重复博弈 1、多价格博弈的重复博弈及“触发策略” (Trigger Strategy) 例 企业定价博弈 例 企业定价博弈 设某市场有两个企业生产同类型产品,他们对产品的定价有高、中、低三种可能。设高价时市场总利润为12万元。中价时总利润为7万元,低价时市场总利润为3万元。两企业同时决定价格,此时企业以价格的选择就构成了一个多价格竞争的静态博弈问题。
显然,由于原博弈有9种可能的策略组合,因此重复这个博弈使得博弈的可能结果出现了更多的可能性,使两次重复博弈纯策略路径就有9×9=81种之多,加上混合策略的路径数量就更大。显然这些路径中的子博弈精炼纳什均衡路径,有:(1)两阶段都采用原博弈同一个纯策略纳什均衡的,也有轮流采用不同纯策略纳什均衡的;也有:(2)两次都采用有混合策略纳什均衡的;也有(3)轮流采用不同纯策略纳什均衡的,或者是混合策略均衡和纯策略均衡轮流采用,最起码有81种组合的可能。在两次重复中若双方采取如下的策略,则就可以保证在第一阶段博弈双方会采用(H,H)策略组合:
(1)企业1:第一次选H;如第一次结果为(H,H)则第二次选M,第一次如果为其他策略组合,则第二次选L。 (2)企业2:同企业1的策略选择。
在上述双方策略组合下,两次重复博弈的路径一定为第一阶段取(H,H),第二阶段取(M,M),这是一个子博弈精炼纳什均衡路径。在这一路径中,由于第二阶段的(M,M)是一个原博弈的纳什均衡,因此不会有哪一方会愿意单独偏离。在第一阶段,虽然(H,H)不是原博弈的纳什均衡,若一方单独偏离,采用M能增加1单位得益,但这样做的后果是第二阶段至少要损失2单位的得益,因为对方所采用的是有“报复机制”的策略,显然在第一阶段偏离(H,H)是得不偿失的,理性的选择是毫不犹豫地选择H。 这就证明了上述策略组合确实是这个两次重复博弈的子博弈精炼纳什均衡。
上述重复博弈中两个博弈方所采用的是一种称为“触发策略”(Trigger Strategy)。即首先博弈双方试择合作,若双方都选择合作,则下一阶段继续进行合作;一旦选择不合作,就会触发其后所有阶段都不再相互合作。触发策略是重复博弈中实现合作和提高效率的一种关键机制。“触发战略”又叫做“冷酷战略”(Grim Strategy)。
由此,我们引出下面的问题: 由于具有多个纳什均衡的重复博弈可以设计多种策略,有许多效率差异很大的子博弈完美纳什均衡,在双方缺乏沟通的情况下,结局具有不确定性。可以通过设计包含报复机制的触发策略,实现效率较高的均衡。因此,这里讨论具有多个纳什均衡的重复博弈可以实现的收益范围。
继续进行上述两次重复博弈分析。当两博弈方都采用上述触发策略,即在第一阶段选择(H,H)时,第二阶段必为(M,M),得益为(3. 5,3 继续进行上述两次重复博弈分析。当两博弈方都采用上述触发策略,即在第一阶段选择(H,H)时,第二阶段必为(M,M),得益为(3.5,3.5);而当第一阶段结果是其他8种结果中的任何一种时,第二阶段就会是(L,L),得益为(2,2)。如果我们把(3.5,3.5)加到第一阶段(H,H)的得益上,把(2,2)加到第一阶段其他8种策略组合的得益上,就把原两次重复博弈化成了一个等价的一次性博弈,其得益矩阵如下图。该图显示的博弈中除(M,M)和(L,L)外,(H,H)也是一个纳什均衡,并且得益是两个博弈方的最佳得益。
如果上面这个博弈重复的次数增加,比如说n次(但不是无限次), 结论也是相似的。由此,我们可以得到更为一般的结论: 如果博弈G是一个有多重复纳什均衡的完全信息静态,博弈则重复博弈G(T)可以存在子博弈精炼纳什均衡解;当t<T时,t阶段的策略组合并不是G的均衡。 比如在本博弈中,子博弈精炼纳什均衡路径为,除了最后一次重复以外。前面每次重复都采用(H,H),最后一次重复采用原博弈的纳什均衡(M,M)。当重复的次数较多时,平均得益接近于一次性博弈中(H,H)的得益(6,6)。
在博弈理论中,有两个著名的策略。一个就是这里分析的触发策略。如果对方知道你的策略是触发策略,那么对方将不敢采取不合作策略,因为一旦他采取了不合作策略,双方便永远陷入不合作的困境。因此,只要有某博弈方采取触发策略,那么其他博弈方就会愿意采取合作策略。但是这个策略面临着这样一个问题:如果双方存在误解,或者由于一方发生选择性的错误,这个错误是无意的,那么结果将是双方均采取不合作的策略。也就是说,这种策略不给对方一个改正错误或解释错误的机会, 错误在博弈中将会进行到底。
第二种策略是,若你采取不合作策略,我也采取不合作策略,但是如果你采取了合作策略,我也采取合作策略。这叫“一报还一报”策略,或者称为“针锋相对”,英文叫Tit-for-Tat。 美国密执安大学的罗伯特·埃克斯罗德(Robert Axerold)曾经主持过一次计算机比赛,看谁写出来的程序能够赢。参加者有政治学家、数学家、经济学家、社会学家,他们都详细研究过囚徒困境。获胜者是加拿大多伦多大学的罗伯布(Anatol Rapoport)写的“一报还一报”(Tit-for-Tat)策略。
“一报还一报”的策略是这样的:第一次博弈采用合作的策略,以后每一步都跟随对方上一步的策略,你上一次合作,我这一次就合作,你上一次不合作,我这一次就不合作。也就是说,一报还一报的策略实行了“胡萝卜加大棒”的原则。它永远不先背叛对方,从这个意义上来说它是“善意的”。它会在下一轮中对对手的前一次合作给予回报,哪怕以前这个对手曾经背叛过它,从这个意义上来说它是“宽容的”。但它会采取背叛的行动来惩罚对手前一次的背叛,从这个意义上来说它又是“可激怒的”。而且,它的策略极为简单,对手一望便知其用意何在,从这个意义来说它又是“简单明了的”。 “一报还一报”策略的优越性向我们充分展示了一个纯粹自利的人何以会选择善,只因为合作是自我利益最大化的一种必要手段。
三、有限重复博弈的“无名氏定理” (Folk Theorem)
设 为博弈方i在一次性博弈中最差的均衡得益,用X记各博弈方的构成的得益数组。无论其他博弈方行为如何,一博弈方在某个博弈中自己采取某种特定的策略,能够最低限度保证得到的得益称为“保障得益”(Reservation Payoff)或“个体理性得益”(Individual Rationality Payoff)。 博弈中所有纯策略组合得益的的加权平均(权重数非负且总和为1)数组称为“可实现得益”(Feasible Payoff)。注意:并非一定是均衡策略的组合得益。
有限重复博弈 “无名氏定理”:设原博弈G为一个完全信息的静态博弈,原博弈G的一次性博弈均衡得益数组优于X,那么在该博弈的多次重复中,所有不小于保留得益的可实现得益,都至少有一个子博弈精炼纳什均衡的极限的平均得益来实现他们。
在下图中,通过不同得益的组合,阴影部分(包括连线)的得益都是可实现得益。 民间定理揭示出:在有限次重复博弈中,可以通过设计触发策略来实现(或者逼近)阴影部分的得益。
下面以两市场博弈的重复博弈为例。在两市场博弈中,两个博弈方最差的均衡得益都是1,因此构成得益数组X=(1,1);只要采取A策略,两个博弈方都至少得到1以上的得益,因此1就是这两个博弈方的保留得益;该博弈中的可实现得益就是下图中由(0,0)、(1,4)、(3,3)和(4,1)四点连成边界线围起来的整个阴影部分面积中点坐标。很显然,该博弈的一次性博弈中显然存在均衡得益数组优于ω满足民间定理的条件,因此所有不小于保留理性得益的可实现得益,即下图中X(1,1)、A(1,4)、B(3,3)和C(4,1)四点连成边界线所围阴影部分面积中点对应的双方得益,都有子博弈精炼纳什均衡或这种均衡的极限来实现它。
例如(4,1)和(1,4)可用每次采用原博弈同一个纳什均衡的子博弈精炼纳什均衡来实现,这两点连线上的点可用原博弈两个纯策略纳什均衡的某种组合来实现,(3,3)可用重复次数不断增加前述触发策略构成的子博弈精炼纳什均衡的极限实现等。
在所有可实现得益或优于X=(1,1)的可实现得益中,只有处于(1,4)与(3,3)和(3,3)与(4,1)两条连线上,包括这三点本身的可实现得益有较重要的意义,因为它们代表了帕累托效率意义上最有效率的均衡得益。 无名氏定理的关键意义正是在于保证这些得益有一定次数重复博弈的子博弈精炼纳什均衡的平均得益可以实现或逼近它们。
定理分析:民间定理表明,在具有多个纳什均衡的有限次重复博弈中,通过设计具有可信威胁的触发策略(即在第一阶段采取合作行为,当对方不合作时通过在后续阶段采取相应的不合作策略进行惩罚;当对方合作时,在最后阶段采取一次性原博弈的纳什均衡策略作为稳定的结局。),可以使得博弈方在重复博弈的过程中具有了一定学习能力,从而达到博弈的帕累托前沿得益。
在有限次重复博弈中: (1)由于完全理性的博弈方可以运用逆推归纳法,因此对于原博弈具有唯一纳什均衡(如囚徒困境博弈)的有限次重复博弈,重复博弈结局尚无法摆脱囚徒困境; (2)但是对于原博弈具有多个纳什均衡的有限次重复博弈,根据民间定理可以设计出具有可信威胁的触发策略,达到帕累托最优的博弈结局。
第三节 无限重复博弈 无限次重复博弈求解存在的问题: (1)由于不存在最后一个阶段,无法运用逆推归纳法求解; 第三节 无限重复博弈 无限次重复博弈求解存在的问题: (1)由于不存在最后一个阶段,无法运用逆推归纳法求解; (2)如果不考虑时间的价值,在无限次重复加总过程中,几乎所有子博弈路径的总得益都为无穷大,因此无法比较不同路径的优劣。 解决方法:考虑到时间的价值 ,人们更为注重近期的得益,引入贴现系数,将未来阶段的收益折算到当期阶段。这样在无限次重复博弈中,总收益值将是一个有限数,可以加以比较。
贴现系数:δ= 1/(1+γ),其中γ为以一阶段为期限的市场利率。 给定贴现系数δ,若无限次重复博弈一路径的某博弈方各阶段的收益为 ,则该博弈方在该无限次重复博弈中的总收益为各阶段博弈中得益的“现在值”:
定义:给定一博弈G,无限次重复进行G博弈的过程称为G的“无限次重复博弈”,记为G(∞,δ),其中δ是各博弈方得益共同的贴现系数。并且,对任意的t,在进行第t阶段(第t次重复)博弈之前,所有博弈方都能看到前(t-1)阶段博弈的结果。各博弈方在G(∞,δ)中的“得益”等于各阶段得益的现在值。
一、有单一纯策略纳什均衡的无限重复博弈(Infinitely Repeated Game) 例 零和博弈的无限重复博弈 在有限次重复的情况下,两人零和博弈的有限次重复博弈的结果与一次性博弈是一致的,原因在于原博弈中博弈方的利益是对立的,重复博弈没有改变博弈的利益对立关系, 二人不可能产生合作。下面我们分析零和博弈无限次重复时的情况。
当零和博弈重复次数从有限增加到无限时,并没有改变原博弈中博弈方之间非合作的关系,当然双方也就不会合作并产生出潜在的合作利益,因此我们直观的判断是,在这种博弈的无限次重复博弈中,博弈方应该仍然是根据每次重复都使当时的利益最大化的原则来行动,每次采用原博弈的混合策略纳什均衡。
例 寡头竞价的无限次重复博弈 有惟一纯策略纳什均衡的博弈可以分为两种情况:一种是原博弈惟一的纳什均衡本身是帕累效率意义最佳策略组合,符合各博弈方最大利益的情况, 此时采用原博弈的纯策略纳什均衡本身是各个博弈方能实现的最好结果,符合所有博弈方的利益,因此不管是有限次重复博弈还是无限重复博弈,都不会与一次性博弈有什么区别;另一种则是惟一的纳什均衡并不是效率最高的策略组合,因此存在潜在合作利益的囚徒困境式博弈。
例:
假设在该博弈中,博弈方在这个博弈的无限次重复博弈中,开始选择相互合作的战略,并且当且仅当前面每个阶段博弈方都选择合作时,在后面阶段的博弈中也选择相互合作,并且采用如下的触发策略:第一阶段采用H,在第t阶段,如果前t-1阶段的结果都是(H1,H2),则继续采用H,否则采用L。也就是说,双方在无限次重复博弈中都是先试图合作,第一次无条件选L ,如果对方采取的也是合作态度,则继续选H;一旦发现对方不合作(选择L ),则用以后永远选L 报复,从而触发从此博弈双方不再合作。
结论:在无限次重复博弈中,由于无法运用逆推归纳法,因此对于原博弈具有唯一纳什均衡(如囚徒困境博弈)的无限次重复博弈,考虑到时间的价值后,也可以设计出具有可信威胁的触发策略,摆脱囚徒困境,达到帕累托最优的博弈结局。
二、 无限重复博弈的 “无名氏定理” 通过上面几个例子的分析我们发现,在一次性博弈和有限次重复中都无法实现的囚徒困境博弈中的合作关系,在无限次重复博弈的情况下是可以实现的。而且在有限次重复博弈中只有在原博弈有多个纯策略纳什均衡的情况下才会存在的合作,在无限重复博弈的情况下只要原博弈有一个纳什均衡就可能存在。于是,我们又得到无限次重复博弈的无名氏定理。
几点说明: 1.定理表明,以得益较低的纳什均衡(e1,…,en)作为可信的威胁,无限次重复博弈中可以实现更好的收益( x1,…,xn )。 由于对于任意博弈方i都有xi > ei,因此这个得益是帕累托改进的。 2.定理的条件为δ足够接近于1,即博弈方都比较看重未来长期合作的得益,因此避免了短期行为。 3.不同于有限次重复博弈的民间定理,这里并不要求原博弈具有多个纳什均衡。哪怕只有一个纯策略纳什均衡,通过使用触发策略实现效率较高的均衡。
回到上述两寡头竞价模型。在两寡头竞价模型的无限重复博弈中,纳什均衡的得益数组为(1,1),所有可实现得益构成下图中由x(1,1)、A(0,5)、B(4,4)和C(5,0)四点连成边界线围成的整个阴影部分面积中点的坐标。无限重复博弈的“无名氏定理”应用到该博弈中意味着,由图中竖线条阴影部分中点的坐标对应的双方数组,在该博弈的无限次重复博弈中,都有无限次重复博弈的子博弈精炼纳什均衡的平均得益来实现它们。
例 效率工资博弈(Efficiency Wages) 在企业经济活动中,员工的有效激励是一个重要的问题。而激励员工最有效的手段,一般来说就是企业支付给员工的工资。 对于一个企业来说,既要考虑降低劳动力成本,又要用适当的高工资激励员工努力和提高产出,在考虑到工人对工资率的反应的情况下确定最适当的、经济效率最高的工资率。从而产生所谓的“效率工资”(Efficiency Wages)问题。
(1)负效用越大则说明需要更多的工资补偿才能让员工努力工作。 (2)贴现系数越小则说明未来利益越不重要,这样要想让员工当前努力工作以保持将来的工作机会,就必须给予员工较高的当前的工资水平。 (3)偷懒得到高产出的概率越高,则员工丢饭碗的风险也就越小,除非工资更高,否则还是宁愿偷懒,当偷懒很难被发现时,要让员工努力工作必须工资非常高。
结论分析: 为了促使工人努力工作,除了要提供补偿从事个体户的机会成本w0和努力工作的成本e以外,还要提供一个促进效率的工资e(1-δ)/δ(1-p)。其值大小与工人努力工作付出的成本e、贴现系数δ的大小、偷懒也可以获得高产量的概率p有关。
第五章 不完美信息动态博弈 第一节 不完美信息动态博弈 第五章 不完美信息动态博弈 第一节 不完美信息动态博弈 一、不完美信息动态博弈的概念(Imperfect Information DynamicGame) 动态博弈的基本特征是各个博弈方的行为有先后次序。既然各个博弈方都不在同一个时刻进行策略(行动)选择,那么在多数情况下,后选择的博弈方在自己实际选择之前都可以观察到先于自己选择的其他博弈方的行为,也即后面阶段选择的博弈方有关于前面阶段博弈进程的充分信息。我们把这种完全了解自己行动之前博弈进程信息的博弈方称为“有完美信息(Perfect Information)的博弈方”。如果一个动态博弈中的所有博弈方都是有完美信息的,我们就称这种博弈为“完美信息的动态博弈”。
上述完美信息动态博弈在现实生活中常常是难以实现的。经常的情况是,由于博弈方保密、信息传递不畅或信息的非对称等原因,在一个动态博弈中可能存在少数后选择的博弈方,无法全部了解自己选择之前已经发生的博弈方行动的信息。如果是各博弈方只进行一次选择,且所有后行动的博弈方都无法看到自己选择之前所有其他博弈方的行为选择,那么我们可以将这种博弈当作静态博弈来处理,因为这时各博弈方在信息方面的机会是相同的,可以看作是所有博弈方同时选择的静态博弈。
如果后行动的博弈者中只有部分博弈方无法看到自己选择之前的博弈过程,或者各博弈方对博弈进程信息的掌握不均衡,或者各博弈方虽然有多次行为选择,但却无法观察到前面的博弈进程的任何信息,那么这种博弈就不是静态博弈,而是动态博弈,是没有关于博弈进程完美信息的动态博弈,我们称其为“不完美信息的动态博弈”。
不完美信息动态博弈的基本特征之一是博弈方之间在信息方面的不对称性。以著名的旧车市场的博弈为例。假如某人在旧车市场上购买了一辆旧车,在使用时这个人也许会发觉这一购买是合算或不合算。之所以会有这种感觉,主要是他作为买方在旧车交易中所掌握的关于车的信息太少。也许他可以通过诸如品牌、型号、出厂日期等比较容易确定的因素,以及车的外观等方面来判断旧车的质量和价值,但许多内部的毛病却不容易直观地判断出来。如果恰好是一部质量还不错的旧车,而当买车人支付的成本与他对车的期望值比较接近时, 买车的人可能就会觉得合算了。如果由于不了解关于车的真实信息,花大价钱买了一部没有多少价值的旧车可能就会非常不合算。
二、不完美信息动态博弈的扩展形 不完美信息动态博弈的表示方法,也就是如何去反映动态博弈方信息不完美的问题, 我们仍然可以采用完美信息动态博弈的扩展形表示法。
设车况好时对买方来说该车值3千元,车况差时值1千元,卖方要价2千元。再假设差时卖方需要花费1千元才能将车伪装成状况良好的车。如果用净收益作为卖方的得益,用消费者剩余(价值减价格)作为买方的得益,则该博弈的双方得益如图4.2中所示。各个得益数组的第一个数字为卖方的得益。显然当卖方在第二阶段选择卖而买方在第三阶段选择不买时,车况好、差对买方利益毫无影响,都是既没有收益也无损失,但对卖方来讲则影响巨大,因为当车况差时卖方想卖必须先花代价装扮,卖不出去就会白白损失这笔费用,即1千元的损失。
根据上述得益情况,可见在卖方选择卖时,买方选择买既有赚钱的可能,也有亏的可能,因为车况有好有差,选择不买当然肯定不会吃亏,但也放弃了获得利益的机会,因此在各种选择中, 没有一个选择绝是对比另一个好的。对卖方来说,车况好时卖不卖得出去都无损失,只有赢利的可能,因此选择卖肯定比不卖要好,但当车况差时能否卖得出去结果却完全不一样。卖得出会有利所得,卖不出却要亏损。因此要让买方下决心是否购买, 买方还必须要有进一步的信息或判断,这些信息和判断就是在卖方选择的前提下车况好、车况差各自的概率。要让卖方在车况差时下决心是否卖也必须要有进一步的信息或判断,即买方会买下的概率究竟有多大
有了这些信息或判断,买方或卖方就能对自己获利的机会、损失风险的大小程度心中有数,从而作出正确的判断和选择。在这个博弈中双方决策需要的信息或判断与双方的选择有关,两个博弈方的选择、信息和判断之间形成了一种复杂的交互决定关系。
第二节 精炼贝叶斯均衡 我们知道, 可信性问题始终是动态博弈策略均衡的一个中心问题,理想的均衡必须能够排除任何不可信的威胁或承诺。在完全且完美信息动态博弈中,我们通过要求均衡策略组合在每个子博弈中都构成一个纳什均衡, 来促进均衡策略中没有任何不可信的威胁或承诺,其核心均衡概念就是子博弈精炼纳什均衡。 但是,在完全但不完美信息的动态博弈中,因为存在多节点信息集,一些重要的选择及其后续阶段不构成子博弈,因此要求满足子博弈精炼性就无法完全排除不可信的威胁或承诺,无法保证均衡策略中所有选择的可信性,无法检验后续阶段的策略是否是一个纳什均衡, 此时子博弈精炼性对于完全但不完美信息的动态博弈是不起作用的, 为此我们必须提出新的均衡概念, 这就是精炼贝叶斯均衡(Perfect Bayesian Equilibrium)。
一、精炼贝叶斯均衡的定义(Perfect Bayesian Equilibrium) 根据前面对完全但不完美信息动态博弈的基本讨论,借鉴子博弈精炼纳什均衡的思想,我们提出的精炼贝叶斯均衡概念必须满足一些要求: 要求1:在每一个信息集中,轮到选择的博弈方必须具有一个关于博弈达到该信息集中每个节点可能性的“推断”(Belief)。对非单节点信息集,一个“推断”就是博弈达到该信息集中各个节点可能性的概率分布,对单节点信息集,博弈方的推断可理解为达到该节点的概率为1。
要求2:给定各博弈方的“推断”,他们的策略必须是满足“序列理性”(sequentially rational)的要求。即在每个信息集中,给定轮到选择博弈方的推断和其他博弈方的“随后的策略”,该博弈方的行为及以后阶段的“随后的策略”,必须使自己的得益或期望得益最大。这里所谓的“随后的策略”是指相应的博弈方在达到给定的信息集以后的阶段中,对所有可能的情况如何行为的完整计划。 要求3:在均衡路径上的信息集处,“推断”由贝叶斯法则和各博弈方的均衡策略决定。 要求4:对不处于均衡路径上的信息集,“推断”由贝叶斯法则和各博弈方在此处可能有的均衡策略决定。
当一个策略组合及相应的判断满足上面四个要求时,称其为“精炼贝叶斯均衡”。之所以称这种均衡为精炼贝叶斯均衡,首先是因为它的第二个要求“序列理性”,与子博弈精炼纳什均衡中的子博弈精炼性要求相似;其次是因为要求3和要求4中规定“推断”的形成必须符合贝叶斯法则。
要求1到要求3包含了精炼贝叶斯均衡的主要内容,即在精炼贝叶斯均衡的定义中,“推断”被提高到和策略同等重要的地位。也就是说,一个均衡不再只是由每个博弈者的一个策略所构成,还包括了两个博弈者在该他行动的每一信息集中的一个“推断”。通过这种方式使博弈者的“推断”得以明确的价值在于,和前面强调博弈者选择可信的策略一样,现在我们就可以强调博弈方持有理性的“推断”,无论是处于均衡路径之上,还是处于均衡路径之外(要求4)。
子博弈精炼纳什均衡是精炼贝叶斯均衡在完全且完美信息动态博弈中的特例。即在完全且完美信息博弈中精炼贝叶斯均衡就是子博弈精炼纳什均衡。实际上,序列理性在子博弈中就是子博弈的精炼性,在整个博弈中就是纳什均衡,而在完全且完美信息动态博弈中,所有轮到选择博弈方的信息集都是单节点的,他们对博弈达到该节点的“推断”都是概率等于1。 这些判断当然都是满足贝叶斯法则和以其他博弈方随后的策略为基础的。而且,精炼贝叶斯均衡在静态博弈中就是纳什均衡。
到现在为止,我们就有了四个均衡概念:完全信息静态博弈中的纳什均衡、完全信息动态博弈中的子博弈精炼纳什均衡、不完全信息静态博弈中的贝叶斯纳什均衡以及不完美信息动态博弈中的精炼贝叶斯均衡。
完全但不完美信息动态博弈的均衡概念为什么须要那么多条件呢? 实际上, 要求1就是前面已提到的解决完全但不完美信息动态博弈的基本前提,在多节点信息集处轮到选择的博弈方,至少必须对其中每个节点达到的可能性大小有一个基本判断,否则其决策就会失去根据,从而也不可能存在策略的稳定性,更谈不上均衡。 要求2的序列理性相当于子博弈精炼纳什中的子博弈精炼性的要求,实际上在子博弈中(不完美信息动态博弈中也可能有子博弈)就是子博弈精炼性,而在多节点信息集开始的不构成子博弈的部分中,序列理性通过要求各博弈方遵守最大利益原则而排除博弈方策略中不可信的威胁或承诺。
此外, 在要求3和要求4中提到了 “均衡路径上”和“非均衡路径上”两个概念。在完全且完美信息动态博弈中,所谓在均衡路径上(on the equilibrium path)的信息集是指如果博弈按照均衡策略进行,则该信息集一定会以正的概率达到,不在均衡路径上(off the equilibrium path)的信息集则肯定不会达到, 或者达到的概率为0。其中均衡可以是纳什均衡,子博弈精炼纳什均衡,贝叶斯以及精炼贝叶斯纳什均衡。在图4.3中, 对于博弈方2的信息集而言, 当博弈方1第一阶段的均衡策略选择是R时, 其不在均衡路径上,而当不是R时, 则就在均衡路径上。
第三节 旧货市场博弈(柠檬博弈 ) 模型 前面提到的旧车市场交易模型代表的是一类典型的交易市场: 旧货市场, 由此产生的博弈叫做旧货市场博弈或柠檬博弈(Lemons Game), 它是不完美信息动态博弈的典型代表,搞清了旧车市场交易中的博弈关系及其各种均衡,就会对此类博弈问题有更深刻的理解。下面我们结合旧货市场模型对不完美信息动态博弈进行进一步的讨论分析 。
一、市场精炼贝叶斯均衡的类型 1、市场类型 在分析旧车市场交易的效率之前,我们首先根据效率差异将市场交易的精炼贝叶斯均衡分为下面四种不同的类型。 (1)市场完全失败型。如果旧车市场上所有的卖方(包括质量“好”的商品的卖方),因为担心商品卖不出去而不敢将商品投入市场,从而使得市场交易不可能实现,那么我们就称这种旧车市场交易为“市场完全失败”型,在这种市场类型下,任何市场行为都不可能发生。
(2)市场完全成功型。如果只有质量好的商品投放市场,我们称这种交易情况为“市场完全成功”型,由于此时市场上的商品都是货真价实的,买方因为完全了解市场上商品的真实信息会买下市场上的所有商品,因此,买方实现的得益是最大的。 (3)市场部分成功型。如果所有卖方(包括有好商品的和有差商品的)都将商品投放市场,而买方也不管商品好坏全部买下。这种市场状况我们称为“市场部分成功”型,因为这种情形下能够进行交易,潜在的交易利益能够实现,但同时也会存在部分“不良交易”,即买方买进质量差的商品时蒙受的损失,因此,从效率的角度讲,最多只是部分成功的。
(4)市场接近失败型。假如卖方将所有质量好的商品都投入市场,将质量 “差”的商品的一部分投入市场,买方不是买下市场上的全部商品,而是以一定的概率随机决定购买行为,即双方都采用混合策略。这样的市场我们称为“市场接近失败”型,之所以称这种市场为“接近失败型”是因为这种市场的总体效率低于市场成功和市场部分成功,但比市场完全失败要强。从表面上看,市场接近失败型似乎比市场部分成功更好,因为只有部分而不是全部差商品进入市场, 但这种市场上差商品的总体比重或质量差的商品所造成的危害其实更大,会出现我们后面将要介绍的“逆向选择”问题, 结果使市场很容易变成完全失败的类型。
在具体的市场交易中, 最终出现上述哪一种市场结构,主要取决于模型中买卖双方的利益与风险的对比,取决于质量好和差的商品的价值V和W、交易价格P、旧货的装饰费用K及商品好、差的比例pg和pb。显然,通过改变V、W、P和K,及pg、pb,我们可以将市场从一种类型的均衡转变为另一种类型的均衡。
2、混同均衡(Pooling Equilibrium)
3、分离均衡(Separating Equilibrium)
4、准分离均衡(Semi-Separating Equilibrium) 如果在一些市场均衡中,一些拥有不同商品类型的卖方随机地选择不同的交易策略,而另一些卖方以概率1选择某一特定的交易策略, 这种市场均衡,我们称为“准分离均衡”(Semi-Separating Equilibrium), 也称做部分混同均衡(Partially Pooling Equilibrium)。 当所有好商品的卖方都选择同样的行为,而商品质量差的卖方随机地选择市场行为时,这时的接近失败均衡类型就是“准分离均衡”。在这种均衡中,卖方的行为会给买方提供一定信息,但这些信息又不足以让买方以卖方的情况得出肯定的“判断”,只能得到一个概率分布的“判断”。
下面我们就依据上述四种市场类型和混同均衡、分离均衡和准均衡概念来更加清楚和准确地分析完全但不完美信息条件下的旧货市场交易。 二、交易价格唯一的旧车交易博弈模型 下面我们就依据上述四种市场类型和混同均衡、分离均衡和准均衡概念来更加清楚和准确地分析完全但不完美信息条件下的旧货市场交易。 首先讨论交易价格唯一的旧车交易问题。假设旧车有好、差两种情况,对买方来讲价值分别为V和W,再假设买方希望买到的都是好车,因此卖方不管车况好坏要想卖出车子,必须把车都当作好车卖,此时车的交易价格只有一种类型P。对于车况差的旧车, 卖方必须花一定的费用对其进行装修,假设装修的费用为C。 这时旧手车交易可用下图中的扩展形表示。由于V、W、P和C的具体数值可以有各种不同的具体表现情况。因此该模型其实可代表多种具体模型。
1 不卖 卖 不买 买 (-K,0) (P-C,W-P) (0,0) (P,V-P) (0,0) 2 好 差
依据图中的得益关系, 我们通过分析可以发现,如果P>C,V>P>W, 即车的交易价格大于装修费用,此时, 对买方来说, 车的状况较好时, 车的价值大于交易价格,而车况较差时, 车的价值小于交易价格,显然车况好时成交对买卖双方都有利;而车的状况较差时成交, 对卖方有利买方遭受损失;车况较好时, 成交未实现, 买卖双方虽没有直接的损失,但也丧失了得益的机会, 有机会成本发生;车况较差时如果卖方想卖而又没有卖出去, 则卖方就将损失一笔用于车的装修的费用,买方不会有任何损失。
当旧车交易满足上述关于旧车价值、价格和费用的条件时,买卖双方都有积极的选择,但这些选择对自己可能有一定的风险,如果选择比较保守则又可能丧失获得潜在交易利益的机会。因此,当买方无法通过比较多的信息来确定车况好坏的情况下,买方的任何策略选择都不可能是绝对的上策,卖方也可能遭受因为需要花费一定的金钱去装修车况较差的车, 但仍卖不出去而受到损失的危险,其卖或不卖两种选择也没有绝对的优劣,可见, 买卖双方的决策和博弈结果具有不确定性。
三、旧车市场交易模型的精炼贝叶斯均衡
这是一个买方的推断信息集根本不会达到的策略组合,即买方的推断是不在均衡路径上的信息集处的推断,因此满足精炼贝叶斯均衡的要求4。该推断可以理解为: 如果卖方决定卖车,那么该车一定是差的 在这样悲观判断下,市场完全失败当然不足为怪。
第四节 逆向选择与道德风险 一、逆向选择 (Adverse Selection) 第四节 逆向选择与道德风险 一、逆向选择 (Adverse Selection) 上述有关两种价格旧车交易的较为理想的市场均衡状态, 在现实的旧车交易中并不普遍,因为在某些情况下,特别是C的大小比较不利的情况下,常常会导致较差的市场均衡情况,包括市场完全失败的情况。一种极端的情况是C=0,即以次充好完全不需要装修成本的情况。在这种情况下只有傻瓜才会卖低价,高价已完全不能够证明车况的好坏。这时旧车根本卖不出去, 这样的市场实际上就是无效市场,根本无法进行任何市场交易活动,卖方最后只好全部退出市场,即使是质量好的旧车,也不再有人购买。上述这种在信息不完美情况下,劣质品赶走优质品,搞垮整个市场的现象叫做“逆向选择” (Adverse Selection)问题
逆向选择:是指市场的某一方如果能够利用多于另一方的信息使自己受益而使另一方受损,那么倾向于与对方签订协议并进行交易。逆向选择也是信息不对称的产物。 它最先是由乔治·阿克罗夫(George Akerlof)在讨论柠檬市场交易问题时提出的,因此又称为“柠檬原理”(Lemons Theory)。逆向选择是指信息不对称的市场会把优秀的资源赶出局,而不是把低劣的资源淘汰掉的现象。
逆向选择这一现象是如何发生的? 在一般情况下,由于不完美信息,旧车市场上的卖方了解每部旧车的真实信息,但买方不完全了解这些信息,因此,买方要想确切地辨认出旧车市场上哪些是好的车,哪些是差的车是困难的,最多只能了解好车和差车的概率分布。假设有一个买主购买了一辆新车,在使用过一段时期后,买方逐渐了解这辆新车的质量状态。我们假定这辆车的质量是“好”的,然而,当这辆车被放在旧汽车市场出售时,它并不一定能够按照卖主预期的“高价”卖出。原因在于,由于旧车市场中同时也存在一定比例的低质量差车,而且这些差车表面上与这些要出手的车没有什么差别,因此,任何旧车的交易价格取决于那些差车的交易价格。
然而,因为买方事先不能区别所购买的旧车之间质量的高低,所以,所有外表相同的旧车都以同样的价格交易。这样,高质量、好的旧车的存在使那些拥有低质量差的旧车的卖主不愿意以较低的价格卖出旧车,他们更愿意将旧车保留到它们的低质量性质将要显示出来为止。在这种情况下,拥有好车的卖主往往将他们的旧车撤出市场。简单地说,那些低质量的旧车将高质量的旧车排挤到市场之外。很显然,这是一个逆向选择问题。由此,阿克洛夫解释了为什么即使是只使用过一次的“新”车,在旧车市场上也难以卖到高价钱。
下面通过一个简单例子进一步说明逆向选择问题。 假设存在这样一个市场,有100人希望出售他们的旧汽车,同时又有100人想买旧汽车,买主和卖主都了解这些旧汽车中高质量与低质量的汽车各占50%。并且,拥有高质量和低质量旧汽车的卖主的预期售价分别为2000美元和1000美元,而高质量和低质量旧汽车的潜在买主的预期支付价格则分别为2400美元和1200美元。
如果买卖双方关于旧汽车的信息是完美的,那么买主很容易确定旧汽车质量状态,该市场交易不存在什么问题。低质量旧汽车按(1000~1200)美元之间的某个价格出售,高质量旧汽车按(2000~2400)美元之间的某个价格交易。然而,由于信息的不完美,买主不能掌握某辆旧汽车的具体质量状态,在这种情况下,买主不得不对每辆旧汽车的质量进行推断。假定如果某辆旧汽车属于高质量或低质量汽车的概率相等,那么,典型的买主将愿意以预期值购买这辆旧汽车,即愿意支付1/2×1200美元+1/2×2400美元=1800美元购买旧汽车。
但是,哪些卖主愿意以该价格出售他们的旧汽车呢?拥有低质量旧汽车的卖主当然愿意以该价格出售他们的商品,而拥有高质量旧汽车的卖主则不愿意以此价格出售旧汽车——他们出售旧汽车的最低预期价格为2000美元。结果,买主希望以平均质量购买旧汽车,而这个预期价格一般低于高质量旧汽车的最低预期售价,故旧汽车市场上只有低质量旧汽车可供出售。
如果买主确信他们将只能购买到低质量的旧汽车,那么,他们将不愿意再以原有市场的平均质量的预期值1800美元购买旧汽车。因此,该市场的均衡价格必然在(1000~1200)美元之间。在该价格范畴内,只有低质量的旧汽车出售,而没有高质量的旧汽车交易。这时,由于买不到所期望的高质量的旧汽车,买方就会做出相应对策,将他们愿意购买的旧车价格下调,如价格调至(800~1000)美元,这样价格高于(1000~1200)美元的旧车又将撤出市场,如此循环,最后,市场均衡的结果就是没有任何旧车交易发生,市场出现失灵,成为一个完全失败的市场。
逆向选择的例子很多,比如保险市场、劳动力市场、货币及资本市场上都存在这一问题。
二、道德风险(Moral Hazard) 上述旧车交易市场还给我们揭示了交易博弈中的另一个问题: 道德风险。 道德风险是指交易双方在交易协议签订后,其中一方利用多于另一方的信息,有目的的损害另一方的利益而增加自己利益的行为。 道德风险存在于信息不对称、合同不完备、合同实施成本过大等情况下。
信息不对称:由于一个人拥有私人信息,就占有信息优势,从而可以找机会偷懒或不负责任。在委托-代理问题中,代理人具有委托人不知道的私人信息。 合同不完备:由于人们的知识和预测能力是有限的,不可能把所有可能发生的情况都写进合同中。合同实施成本过大, 即便能够把所有可能情况都写进合同中,由于实施成本过大,往往也难以完全实施。
总之,由于信息不对称、合同不完备、合同实施成本等原因,人们往往宁愿接受由于道德风险所带来的损失。因为搜寻信息需要成本、制订完备合同需要成本、完美实施合同需要成本,当这些成本高于因道德风险造成的损失时,就选择任由道德风险的存在。所以,在委托人-代理人之间,往往寻求的是一种均衡,当监督和签订、实施合同的边际成本等于道德风险的边际成本时,均衡就形成了。
三、委托—代理理论(Principal—Agent Theory)与道德风险 委托人(Principle)和代理人(Agents)之间的博弈关系是现代经济学研究的重要内容,通常称为“委托人—代理人理论”。在委托人—代理人关系中, 存在信息的不对称。掌握信息多的市场参加者为代理人, 掌握信息少的市场参加者为委托人。由于代理人掌握委托人不了解的市场信息和个人信息, 如企业的实际经营情况, 代理人个人的能力和工作的努力程度,外部环境对企业的影响等, 因此可能存在着较大的代理人道德风险,这里以一个委托人—代理人模型为例, 来分析一下其中可能产生的道德风险问题。
在市场经济活动中, 由于所有权和经营权的分离, 经常有大量的所有权一方委托另一经营方完成某些特定的企业生产经营活动。如企业主聘用员工进行生产,董事会聘请职业经理管理企业等。 最典型的委托人—代理人关系就是上市公司的股东和公司管理层之间的关系。这些活动的共同特征是委托方的行为依赖于代理人的私人信息, 委托方对代理人的行为具有不完全信息。即委托方的利益直接取决于与被委托方的行为,被委托方行为效率的高低在一定程度上直接决定了委托方利益的好坏, 比如政府对被管制垄断企业(代理人)的成本结构具有不完全信息, 政府只能依据这些不完全信息来设计激励方案, 以便根据垄断企业的成本来确定对其的转移收益。
然而在委托人—代理人关系中, 委托方却不能直接控制被委托方的行为,有时对被委托方工作的监督也非常困难,除非被委托方直接将其私人信息告诉委托方, 然而被委托方一般是不会讲实话的, 委托方只能通过薪酬及其它福利等条件来间接影响被委托方的行为。如政府和被管制垄断企业之间、基金购买者与基金管理者之间、股民与上市公司之间等就是如此, 所有这些关系在经济学中都称为“委托—代理关系”,其中委托方称为“委托人”,被委托方称为“代理人”。
第五章 不完全信息静态博弈 不完全信息博弈也称为“贝叶斯博弈”,其中“不完全信息”指博弈中至少有一个博弈方不完全清楚其他某些博弈方的得益或者得益函数,而在完全信息博弈中,博弈方的收益状况是博弈者之间的共同知识。
第一节 贝叶斯纳什均衡 一、静态贝叶斯博弈( Static Bayesian Game) 第一节 贝叶斯纳什均衡 一、静态贝叶斯博弈( Static Bayesian Game) 在阐述贝叶斯均衡之前, 我们在这里先介绍几个静态贝叶斯博弈的例子。 例 密封拍卖(Sealed-bid Auction) 拍卖和招投标是比较典型的不完全信息静态博弈。由拍卖或招投标问题构成的博弈模型的共同特征就是都属于不完全信息博弈,包括不完全信息静态博弈和不完全信息动态博弈。而密封拍卖就可以构成一个典型的不完全信息静态博弈,也就是静态贝叶斯博弈。
根据拍卖交易制度的不同, 目前有5种主要的拍卖机制:英式拍卖、荷兰式拍卖、一级密封价格拍卖、二级密封价格拍卖、双方叫价拍卖。在英式拍卖中, 投标者按照递增的顺序宣布他们的出价, 直到没有人愿意出更高的价格, 出价最高的投标者获得拍卖品;在荷兰式拍卖中, 拍卖从一个非常高的初始价格标价逐渐降低到有一个买主接受报价;在一级密封价格拍卖中, 出价最高的投标者获得拍卖品, 并支付自己的出价给卖者;在二级密封价格拍卖中,出价最高的投标者获得拍卖品, 但支付次高价格给卖者;在双方叫价拍卖中, 所有的买主和卖主同时出价, 拍卖商然后选择成交价格出清市场。 显然, 拍卖或招投标问题属于不完全信息博弈,包括不完全信息静态博弈和不完全信息动态博弈。
密封拍卖一般有这样几个基本特征: (1)各方的报价放在密封的信封里上交 (2)在统一的时间里公证开标; (3)每一个报价方知道自己对标的的估价,但不知 道其他报价方对标的的估价 (4)一般是标价最高者中标
我们假设卖主不设定成交的最低限价,未中标者没有成本。显然这种暗标拍卖是发生在投标人之间的,在同时开标的情况下(即同时选择)展开的一次性静态博弈,各个博弈方的策略是他们各自提出的标价;中标博弈方的得益是其对标的的估价与成交价格之差,未中标博弈方的利益则为0。 在密封拍卖中,中标博弈方的利益除了取决于标价以外,还取决于他对拍卖标的物的估价,买价估价是私人信息,因此在密封拍卖博弈中,各个博弈方对其他博弈方中标的实际得益无法确知,只能自己判断,这说明上述暗标拍卖博弈确实是不完全信息博弈, 是静态贝叶斯博弈。
将计就计中的“信息不对称” 一个古董商发现一个人用珍贵的茶碟做猫食碗,于是假装对这只猫很感兴趣,要丛主人手里买下,主人不卖,为此古董商出了大价钱。成交之后,古董商装做不在意地说:这个碟子它已经用惯了,就一块送给我吧。猫主人不干了:你知道用这个碟子,我已经卖了多少只猫了?
将计就计——掌握的正确信息越多,获胜的可能 就越大 将计就计——掌握的正确信息越多,获胜的可能 就越大 有一个卖草帽的人,有一天叫卖归来,在一棵大树旁打起了瞌睡,等他醒来的时候,发现身边的帽子都不见了,抬头一看,树上有很多猴子,模仿人的样子把帽子戴在头上,他想到猴子喜欢模仿人的动作,就拿下自己的帽子扔在地上,猴子也学他,纷纷将帽子扔在地上。于是卖帽子的人检起帽子回家去了,并将这个故事告诉了他的子孙。 很多年后,他的孙子继承了卖帽子的家业,有一天,他也在大树旁睡着了,而帽子也同样被猴子拿走了,他想起爷爷的办法,拿下帽子扔在地上。可是猴子非但没有照他的做,还把扔在地下的帽子也拣走了,临走时还说:我爷爷早告诉我了,你这个老骗子要玩什么把戏。
如果我们不能从别人那里得到有用的信息,怎么办? 把几只蜜蜂和几只苍蝇放进一个玻璃瓶中,然后将瓶子平放,让瓶底朝向窗户,结果会怎样呢?你会看到,蜜蜂不停地在瓶底寻找出口,直到累死为止,而苍蝇则在不到两分钟内全部逃出。为什么呢?因为蜜蜂喜欢光亮而且有智力,于是他们坚定的认为,出口一定在有光亮的地方,于是他们不停地重复这一合乎逻辑的行为。而苍蝇呢?它们对事物的逻辑毫不在意,而是到处乱飞,探索有可能出现的任何机会,于是他们成功了。 实验、试错、冒险、即兴发挥、迂回前进、混乱、随机应变,所有这些都有助于应付变化,要善于打破固定的思维模式,要有足够的探索未知领域的学习能力。
二、静态贝叶斯博弈的表示 在静态贝叶斯博弈中,各博弈方虽然知道自己的得益函数,但却无法了解其他博弈方的得益函数,按照一般静态博弈分析方法无法解决该问题。为此,我们可以这样来考虑:虽然一些博弈方(如博弈方k)不能确定其他博弈方在一定策略组合下的得益,但一般知道其他博弈方(如博弈方i)的得益有哪些可能的结果,而具体哪种可能的结果会出现则取决于博弈方属于哪种“类型”(Type)。这些“类型”是博弈方自己清楚而他人博弈方无法完全清楚的有关私人内部信息。
通过上述思想和方法, 我们就将博弈中一些博弈方对其他博弈方得益的不了解,转化成对这些博弈方“类型”的不了解,这样我们在分析静态贝叶斯博弈的时候,就必须将关注各博弈方的得益转向关注各博弈方的策略组合以及各自的“类型”。
例 不完全信息的古诺模型 前面我们讨论的古诺模型,是假设企业彼此完全了解对方的产量和成本等信息,产量的市场价格也是统一的,因此博弈方的得益是公共知识。但在现实经济活动中,相互竞争的企业之间,一定会保守自己生产和经营的秘密,轻易不会让其他企业了解到自己的真实情况,因此前面的古诺模型中的假设与现实情况并不相符,现实的寡头市场产量博弈模型中各博弈方的得益不可能是公共知识。这样的博弈我们称为“不完全信息的古诺模型”。
不完全信息的古诺模型
在上面的分析中,我们可以看到,对“类型”的了解,是解决静态贝叶斯博弈问题的一个关键,因为在不完全信息静态博弈中,如果一些博弈方对其他博弈方的“类型”完全不了解,就完全失去了进行决策的依据。因此,这些博弈方至少应该了解其他博弈方各种“类型”出现机会的相对大小,即对每种“类型”出现的概率分布有一个基本判断,这样才可能根据其他博弈方各种可能的得益,推导出自己的选择,并对相应的期望利益进行估计。
三、海萨尼转换(Harsany Transformation) 上面我们分析了如何将对得益的不了解转化为对类型的不了解, 在这一思路的基础上,海萨尼(Harsanyi)1967年提出了一种进一步将不完全信息静态博弈转化为完全但不完美信息动态博弈进行分析的思路,被称为“海萨尼转换(Harsany Transformation)”。
上述经过转换的博弈是一个动态博弈,因为这个博弈有明显的时间顺序,即有两个阶段的选择:首先是虚拟博弈方“自然”的选择;然后是博弈方1,…,n的同时选择。对于“自然”在第一阶段为其他博弈方选择的类型的结果, 至少有一部分博弈方不完全了解,因此这是一个不完美信息的动态博弈,当采用“自然”的选择方向代表实际博弈方的类型以后,则在各博弈方策略组合下,各博弈方的得益就是确定的和各博弈方所知道的,显然这是一个完全信息博弈, 这时原来的不完全信息博弈变成了完全信息博弈。
海萨尼转换所描述的,就是一个完全但不完美信息的动态博弈,其特征是有两个阶段,其中后一个阶段有同时选择。这样有了海萨尼转换,不完全信息和不完美信息之间的区别就不重要了。
例:“市场进入”博弈 假设在位企业A知道进入企业B的成本函数类型,但进入企业对在位企业的成本信息是不完全的。从得益矩阵中可以看出,在在位企业A是高成本的情况下,如果进入企业B决定进入,此时在位企业A的选择是“默许”。当在位企业A是低成本的情况时,如果进入企业B决定“进入”,显然在位企业A的选择应该是“斗争”,因此在信息完全情况下,如果进入企业B决定“进入”,显然在位企业A的选择应该是“斗争”。因此在信息完全情况下,如果在位者是高成本,进入企业B的最佳策略选择是“进入”,如果在位企业A是低成本,进入者的最优选择是“不进入”。
N [P] [1-P] 不进 不进 进 进 (0,400) 在位者 在位者 (0,300) 打击 打击 (40,50) (30,80) (-10,100) (-10,0)
如果进入企业B并不知道在位企业A的成本类型,进入企业B此时的最优选择就依赖于它在多大程度上认为在位企业A是高成本或低成本的。 假定进入企业B认为在位企业A是高成本的概率为P,低成本的概率为(1-p),通过海萨尼转换,我们可以把上述不完全信息的“市场进入”静态博弈转换为完全但不完美的动态博弈。 此时,“自然”首先随机选择在位企业A成本的类型,然后我们就可以使用标准的动态分析中的“逆向归纳法”来分析该完全但不完美动态博弈。与完全信息博弈之间在策略和策略空间方面的相同。
不完美信息博弈的均衡必须满足三个要求,即: 1、在每一个信息集上,决策者必须有一个定义在属于该信息集的所有决策结上的一个概率分布(信念); 2、给定该信息集上的概率分布和其他参与人的后续策略,参与人在该信息集处的行动必须是最优的(这里后续策略指的是从给定信息集开始的后续博弈上的行动规则); 3、每一个参与人根据均衡策略和贝叶斯法则作出判断和修正,得到后验概率。 满足上述要求的博弈均衡就称为“精炼贝叶斯纳什均衡”
第三节 不完全信息静态博弈模型 例 密封拍卖(Sealed-Bid Auction) 第三节 不完全信息静态博弈模型 例 密封拍卖(Sealed-Bid Auction) 首先我们还是来讨论前面提到的典型静态贝叶斯博弈——密封拍卖。假设有两个参加投标的人(Bidder),分别为博弈方1和博弈方2。再假设这两个博弈方对拍卖品的估价分别是v1和v2,并假设v1和v2是相互独立的,并服从[0,1]上的均匀分布,各博弈方知道自己的估价和另一方估价的概率分布。上述情况和假设两博弈方都清楚, 这样博弈方i以价格P拍卖品,其得益为vi-P。
为了把该问题转化为标准的静态贝叶斯博弈,我们需要明确两博弈方的行动空间、类型空间、推断及其得益函数。显然,博弈方i的行动就是他的标价bi(标价应该是非负的),其行动空间。博弈方i的类型即他的估价vi,其类型空间Ti就是估价的可能取值区间[0,1]。此外,由于博弈方i的实际类型只有他自己知道,其他博弈方只知道其类型vi是 [0,1]上的标准分布,因此,推断博弈方i的估价取[0,1]中任何数值的机会均等是合理的,这就是他们相互对对方类型的判断。根据上述信息我们可以给出博弈方i的得益函数为:
博弈方i的得益函数 当 此得益函数中的第一种情况表示的是博弈方i的标价由于高于博弈方j的标价而中标时的得益;第二种情况是博弈方i的标价与博弈方j的标价相同,博弈方i的中标机会为1/2,其期望得益(1/2)×(vi-bi)=(vi-bi)/2;第三种情况是博弈方i的标价低于博弈方j,博弈方i没有中标,此时博弈方I的得益为0。 当 当 当i=1时,j=2;当i=2时,j=1.
求解: 1.构建两博弈方的策略空间.博弈方i的策略空间为所有可能的函数关系bi(vi)的集合. 2.贝叶斯纳什均衡:如果策略组[b1(v1),b2(v2)]是一个贝叶斯纳什均衡,则必须对每个博弈方i的每个类型 , bi(vi)都满足:
第七章 不完全信息动态博弈 第一节 不完全信息动态博弈 第七章 不完全信息动态博弈 第一节 不完全信息动态博弈 一、不完全信息动态博弈(Dynamic Game of Incomplete Information) 不完全信息动态博弈问题在我们现实生活中大量存在,如旧车市场上的讨价还价,军备控制,寡头市场中的产量博弈等问题都是不完全信息动态博弈。 例如,古董市场上的讨价还价就是最典型的不完全信息动态博弈。和古董打过交道的人,最摸不透的就是古董的价值。即使最后成交一笔,购买者心里往往也吃不准这笔交易是否合算。经常的情况是,自以为花一个好价钱买到一件真品的购买者,事后却发现是一件赝品,而且几乎是一钱不值。可见古董市场是一个最容易让人产生不确定性,时常后悔的交易市场。
其实古董交易让人疑惑和不放心的根本原因,不是因为古玩的价格昂贵,而是由于古董是一种奢侈品,而且具有稀缺性,其性质和价值确定基础与日常生活用品非常不同。古董的价值主要取决于交换价值而不是使用价值,其效用和价值基础的主观程度较高,客观程度较低。而主观程度之间的差异非常大,往往出现所谓“仁者见仁,智者见智”的情况,因此对古董价值的真实评价非常困难,而且买卖相互之间很难了解对方的评价。
对买方来说,由于缺乏关于古董的相关真实信息,只能根据自己的“经验”去判断,因此经常是对自己想买的古董的价值完全没有把握,对卖方的进价和卖方估价也缺乏了解,无法确定什么价格是卖方愿意接受的真正最低价格,不管以什么价格成交都无法肯定自己做了一笔成功的交易,这种状况就使得买方在购买时常常是犹豫不决。对卖方来说,同样也存在因为对所卖古董的真实价值判断失误,把价值很高的古董作为廉价品卖掉的可能。
二、海萨尼转换 对动态贝叶斯博弈的分析,我们同样可以借助海萨尼转换方法来进行。在静态贝叶斯博弈中,处理不完全信息的方法,是将博弈方得益的不同情况转化为博弈方有不同的“类型”,并引进一个为博弈方选择类型的虚拟博弈方,从而把不完全信息博弈转化成完全但不完美信息动态博弈,这种处理方法就是海萨尼转换。由于动态贝叶斯博弈本身就是动态博弈,不存在静态博弈中的同时选择问题,因此可以通过海萨尼转换将其转化成完全但不完美信息动态博弈,这种通过海萨尼转换而来的完全但不完美信息动态博弈,与前面讨论的一般完全但不完美信息动态博弈没有多大差别。
其实,只要换一个角度,不完美信息动态博弈本身常常就可以解释成不完全信息动态博弈。如古董交易市场进入模型及旧车交易博弈就可以理解为不完全信息动态博弈。
第二节 空口声明博弈 在博弈论中存在一种言语博弈叫做“空口声明”(cheep talk),它是一口头表态,发话者说出某些话语无需某些成本,也无须承担某些责任,它不是“威胁”也不是“承诺”,但说话者说出它是有目的的。听者要分析他话中的含义,即要分析“空口声明”是真还是假。这里我们就来分析这个不完全信息动态博弈的经典例子——“空口声明”博弈 。
显然, 这类博弈模型主要研究在有私人信息、信息不对称的情况下,人们通过口头或书面的声明传递信息的问题。 在这类博弈中,博弈方的口头或书面声明既不需要成本,也没有约束作用,因此,就产生了声明博弈中信息的可信性问题,即博弈方的声誉。我们也可以把它叫做声誉博弈(Reputian Game)。
因为声明也是一种行为,会对接受声明者的行为和各方的利益产生影响,因此声明和对声明的反应确实可以构成一种动态博弈关系。由于声明者声明内容的真实性通常是接受声明者无法完全确定的,因此接受声明者很难完全清楚声明者的实际利益,所以声明博弈一般是不完全信息的博弈,也就是动态贝叶斯博弈。
一、声明的信息传递 声明是我们日常活动中经常见到的一种行为。如一个人声言要报复另外一个人,中央银行宣布加息政策, 各国的外交声明,战争中或战争之前各方发布的真假策略(如在海湾战争中,伊拉克对美国说:如果你打我们的话,我们将向以色列发射导弹),企业表达对竞争对手某项营销策略的立场,以及国家之间在军事方面的威胁恐吓,等等, 都是发布声明的例子,都是声明博弈。在博弈论中也之为信号博弈。
声明对事物的发展及相关各方利益的影响,是通过影响声明接受方的行为来实现的,其对各方利益的影响是间接的影响,而不是由声明作用而产生的直接影响。因此,一个声明在实践中究竟能否产生影响,能够产生多大的影响及什么样的影响,取决于声明接受者如何理解这些声明、相信这些声明,以及采取怎样的行为反应等。
正如前面所说,由于声明几乎没有什么成本也没有任何约束,因此只要对声明者自己有利,声明者可以发布任何声明,声明内容的真实性显然是没有保证的。但是一个声明发出后,声明的接受方又不可能视而不见,必须对其进行分析,然后采取自己的应对行为:置之不理还是采取相应的应对措施。 因此,接受者是否应该相信声明者的声明,在什么情况下可以相信,并采取什么样的行为,声明究竟能否有效地传递信息,对这些问题的研究是非常有价值的。
比如,长期在中央电视台黄金时段做广告的厂商传递的信号是:我有实力,企业经营一直不错。出示自己的高学历证书和各种获奖证书的求职者传递的信号是:我是一个优秀的应聘者。一些小公司对业务采取不冷不热的态度,传递的信号是:我不愁没业务做。故意装着要离开的顾客传递的信号是,把价格再降点,否则我走了。初恋时经常会找不怎么符合逻辑的借口去找对方, 但又不说出口,其所传递的信号是:我对你有意思。
一般来说,当声明者和声明接受者利益一致或至少没有什么冲突时,声明的内容会使接受者相信。例如公共汽车上,某人说:“前面堵车了”,这一声明肯定会让乘客相信,因为这时乘客也会因堵车而无法前行;顾客在饭店声明自己的某种口味, 饭店的厨师也会相信,因为顾客对口味的偏好跟他的利益没有冲突;医生说不可乱吃药,病人一般也会相信,因为这对病人有好处。在这些例子中,声明的信息得到了很好的传递。但当双方利益是不一致时,口头声明就不一定能让对方相信。
例如一个工人说“我的能力很高”往往是不可信的,因为高素质的工人意味着雇主必须付出高工资,而这是雇主所不愿意的;某大学校长说“明年在学不收学费”也是不可信的,因为这样的话,大学的收入就会减少, 信息就不能有效传递。顾客喜欢买名牌产品,因为名牌是经过很多年才形成的,广告、产品质量、服务质量等因素起了很大的作用,名牌传递的信号就是:质量好,服务好。招聘单位看重学历,因为学历容易甄别,而且比起能力的描述来,相对可靠
二、声明博弈 声明博弈涉及真实的策略选择和声明的策略决定。如当有人说“人不犯我,我不犯人;人若犯我,我必犯人”时,这含有什么意思呢?如果“别人犯我,我不犯别人”的话,别人会不断地犯我,我将不断地受到侵犯, 这是我所不希望的;如果“别人不犯我,我犯别人”的话,我犯人的时候别人也会来犯我, 这也不是我所期望的。因此,“人不犯我,我不犯人;人若犯我,我必犯人”的策略是我的占优策略。
同时,这个策略的说出本身有信息“传递”的功能:你不要犯我,否则我肯定犯你;你不犯我,我也不会犯你。这里声明者将行动的可能策略告诉对方,目的是使双方避免出现不希望的结果,当然首先也是为了自己得益的最大化目的。
比如, 假设美国声称,如果中国武力攻打台湾的话,美国将介入。这是美国声明的策略。美国通过这言语上的声明,目的是为了恐吓中国政府。而中国政府同样以声明回击:是否以武力收复台湾是中国的内政,美国无权干预。言下之意,如果美国干预的话,美国和中国将发生战争。如果中国政府真的武力攻打台湾以实现国土统一,美国真的会介入吗?这是中国政府所要考虑的问题,即要弄清美国界时实际的策略是什么。而美国也要考虑,一旦战争打起来,美国如果干预的话,中国会向美国开战吗?
可见在声明博弈中, 最为重要的是要弄清声明者真实的策略决定与其声明的策略决定。真实的策略决定,我们说是声明者真的策略规定,因为它是声明者从个人得益的最大化的角度来确定的,声明者没有理由作出对自己不利的策略决定。而声明的策略决定本身也是一种策略,声明者通过这个行动来达到某种目的, 声明的策略可以是真实的策略,也可能是假的。 因此, “人不犯我,我不犯人;人若犯我,我必犯人”是一种声称的策略决定。而“如果天下雨,我将带伞”则是真正的策略决定。如果假设在可能策略下的得益, 我们可以得到下面的得益矩阵。
上图是一个声明能够被相信,能够有效传递信息的另外一个声明博弈。在该声明博弈中发布声明的博弈方为“声明方”,接受声明的博弈方为“接受方”,前者是发布一个声明,后者是对该声明采取一个具体的行为。 该博弈中的声明方有两种可能的类型t1、t2,接受方有两种可能的行为a1、a2,对于声明方的两种不同类型,接受方采取两种不同行为时双方的得益如上图所示,得益数组中第一个数字为声明方的得益,第二个数字为接受方的得益。假设此时声明的类型是完全真实的。
在该博弈中,声明方的t1类型和t2类型分别偏好于接受方的不同行为a1和a2。因此两个博弈方的偏好具有完全的一致性。由于这种偏好的一致性声明方愿意让接受方了解自己的真实类型,接受方也完全相信声明方的声明。在这种情况下,声明就能有效地传递信息。
在上图的得益情况下,声明方的两种类型都希望接受方采用a1,而接受方只有在声明方的类型是t1时才偏好a1,为了使接受方采取行为a1,声明方会声明自己的类型是t1,此时,接受方肯定不会相信声明方的声明。因此,当声明方的不同类型的偏好与接受方在声明方的类型的偏好不同时,声明是不可能有效传递信息的。
此类声明博弈我们称之为离散声明博弈。该类声明博弈与一般不完美信息动态博弈有很大的相似性,差别只是声明方的行为只是一种对双方得益无直接影响的口头声明,但分析方法与一般的不完美信息动态博弈基本上是相同的,就是进行精炼贝叶斯均衡分析。
第三节 机制设计理论及显示原理 在前面所阐述的内容中,我们所做的工作都是对于给定的博弈问题,设法寻找其均衡解。但现实生活中,还存在着该问题的逆问题:给定一个有几个人参与的博弈,给定博弈方的得益水平以及有关这些得益的私人信息,在信息不对称的情况下,能否构造一个博弈,使得该博弈的均衡满足相关约束条件的要求,博弈在非合作的条件下也能实现集体的目标。 拍卖就是这类问题。设计什么样的拍卖形式使卖方的期望得益最大是拍卖所要解决的一个主要问题。
一、机制设计 机制设计理论是最近二十年微观经济领域中发展最快的一个分支,在实际经济中具有很广阔的应用空间。机制设计理论可以看作是博弈论和社会选择理论的综合运用,简单地说,如果假设人们按照博弈论所刻画的方式行为,并且假设按照社会选择理论人们对各种情形都有一个社会目标存在,那么机制设计就是考虑构造怎样的博弈,使得该博弈的均衡解就是这一社会目标,或者均衡解落在社会目标集合里,或者无限接近它。
机制设计理论起源于赫尔维茨1960年和1972年的开创性工作,它所讨论的一般问题是,对于任意给定的一个经济或社会目标,在自由选择、自愿交换、信息不完全等分散化决策条件下,能否设计以及怎样设计出一个经济机制,使经济活动参与者的个人利益和设计者既定的目标一致。
2007年诺贝尔经济学奖得主获奖原因: 机制设计理论 Leonid Hurwicz Roger B. Myerson Eric S. Maskin
经历30年漫长的等待之后,里奥尼德·赫维克兹( Leonid Hurwicz)在接到瑞典皇家科学院通知其获得2007年诺贝尔经济学奖的电话时,还以为是“哪个傻瓜跟他开无聊的玩笑”。 赫维克兹是美国明尼苏达大学经济学教授,机制设计理论之父。
机制设计理论研究的是,如何以定量分析手段,充分发挥市场对资源配置的有效性。 瑞典皇家科学院将其评价为“同时代的经济学和政治科学的核心所在”,认为“这一理论通过个人动机和私人信息,很大程度地扩展了我们对于最佳配置机制的理解”,“使我们得以辨别令市场运转良好或相反的各种情况,帮助经济学家、政府以及企业确定有效的交易机制,管理方案和投票程序,从而超越了亚当·斯密的市场理论。”
与传统理论相比,机制设计理论解决了信息不对称情况下微观主体隐藏个人信息及隐藏个人行为的问题——如何设计机制或者规则,使得微观主体真实显示个人信息(避免隐藏个人信息),由个人真实信息和经济机制使得个人产生真实的行为方式(避免隐藏个人行为)最终保证社会目标的实现。因此,机制设计理论通过解释个人激励和私人信息,大大提高了人们在这些条件下对最优配置机制性质的理解,使得人们能够区分市场是否运行良好的不同情形。它帮助经济学家区分有效的交易机制、规则体系以及政治上的投票程序。
机制设计主要涉及两个方面的问题:信息效率和激励相容。 任何一个经济机制的设计和执行都需要信息传递,而信息传递是需要花费成本的,因此,信号空间的维度成为影响机制运行成本的一个重要因素。对于制度设计者来说,信息空间的维数越小越好。 信息效率(Informational Efficiency)就是关于经济机制实现既定社会目标所要求的信息量多少的问题,即机制运行的成本问题,它要求所设计的机制只需要较少的关于消费者、生产者以及其他经济活动参与者的信息和较低的信息成本。
激励相容(Incentive Compatibility)是赫尔维茨1972年提出的一个核心概念,其定义为,如果在给定机制下,真实报告自己的个人信息是参与者的占优策略均衡,那么这个机制就是激励相容的。此时,即便每个人按照自利原则制订个人目标,机制实施的客观效果也能达到设计者所要实现的目标。
机制设计在信息不完全的情况下将理性经济人假定进一步深化,除非得到好处,否则参与者一般不会真实地显示个人的信息。这样,在进行制度或规则设计时,设计者要掌握的一个基本原则,就是在不了解所有个人信息的情况下,所制定的机制能够给每个参与者一个激励,使参与者在最大化个人利益的同时也实现了集体的目标。这就是机制设计理论的激励相容问题。
三、显示原理(Revelation Principle) 现实经济社会中,经济博弈者常常会面临这样的情形:信息分散在整个社会,一个人不可能掌握所有博弈者的信息。那么,为了自身的利益隐藏或虚报个人信息的情况便有可能出现。如何使说真话成为一种占优策略,便是机制设计理论要解决的核心问题。赫维茨认为,在一个信息分散的个人经济环境里,不存在一个有效率的机制让人们有动力显示其真正信息,这就是赫维茨的不可能定理。
吉巴德-萨特斯维特的操纵(Gibbard-Satterthwaite manipulation)定理认为:能被占优策略均衡所执行的社会选择规则只能是独裁性的,即好和坏由一个人说了算。因此,在进行拍卖机制设计时,卖方需要思考如何进行有效的机制设计,迫使人们说真话。 显示原理大大简化了机制设计理论在这一问题上的分析。
1. 直接机制(Direct Mechanism) 现实中的拍卖机制可能有很多, 我们在这里首先介绍Gibbard提出的“直接机制”:
这种类型的拍卖博弈机制称为“直接机制”。 “直接机制”的意义是投标人只声明自己对拍卖标的估价(类型),而不需要他们报出标价,卖方根据预先确定的运作机制来确定中标者及中标价格。
例: “实话实说”机制模型
在二级密封价格拍卖机制中,每个竞拍者会由于这种机制报出他愿意支付的真实价格。因为,如果某个竞买者(假设为A)的竞价高于他自己真正愿意支付的价格,而其他竞拍者(假设为B)也依此原则行事,那么自己(A)就极有可能不得不以某种损失(高于该标的物的实际价值的价格)为代价买下标的物;相反,如果他(A)的出价低于自己愿意支付的价格,那么其他竞拍者(B)就有可能以低于自己(A)原本愿意支付的价格竞得该标的物。因此,在二级密封价格拍卖机制中,真实地出价是一种“占优策略”,即不管竞争对手如何出价,每个竞买人的占优战略都是按其真实支付意愿出价,即“说真话”,这种拍卖机制显然是激励相容的。
2. 显示原理(Revelation Principle) 我们再来介绍迈尔森(Myerson)1979年提出的“显示原理”(Revelation Principle)。梅尔森认为,任意一个机制的任何一个均衡结果都能通过一个激励相容的直接机制来实施。因此,在寻找最优机制时不需要在整个范围内去寻找,只要找到其中直接显示私人信息的直接机制,将其还原为现实的机制,就可以使“说实话” 成为占优策略,成为均衡的结果。可见,显示原理大大简化了机制设计理论在这一问题上的分析。 显示原理:任何贝叶斯博弈的任何贝叶斯纳什均衡,都可以重新表示为一个经过适当设计的说真话的直接机制。
在委托—代理关系的机制设计中,“显示原理”表明, 为了获得最高期望得益, 委托人可以只考虑在第二阶段被代理人接受并且在第三阶段使代理人同时如实显示其类型的机制, 这表明委托人可以和通过代理人之间的静态贝叶斯博弈而获得自己的最高期望得益。 “显示原理”保证了没有其它比说真话更好的直接机制,该机制下的贝叶斯纳什均衡可以使拍卖方得到更好的期望得益,因为说实话的直接机制,把所有激励相容的直接机制都考虑在内了。
谢 谢!