第六章完全信息静态博弈博弈的基本概念纳什均衡纳什均衡应用混合策略和混合策略纳什均衡.

Slides:

Advertisements

Similar presentations

课程：博弈论教材：《经济博弈论》《经济博弈论习题指南》复旦大学出版社. 第一章导论博弈论定义经典博弈模型博弈结构与分类博弈论历史与发展博弈论在中国的发展.

Advertisements

等可能性事件的概率（二）上虞春晖中学数学组欢迎你! 1 本课件制作于 §10.5 等可能事件的概率 ( 二 )

我们首先引入的计算概率的数学模型，是在概率论的发展过程中最早出现的研究对象，通常称为古典概型.

概率论第四节等可能概型 ( 古典概型 ) 古典概型的定义古典概率的求法举例小结布置作业.

武汉天喻信息产业股份有限公司 2012 年 5 月国家教育云总体介绍. 目录教育云建设思路教育云定位 1 2.

我国国有银行资本构成及资本充足率变化小组成员：金融尹佳裕王淼刘钰金融吴昱.

博弈论与经济学思维.

第十課人類的感官.

25.2 用列举法求概率歙县漳潭中心学校汪金茂

科學論文鰂魚涌街的衛生情況作者：廖梓芯學校：北角官立上午小學班級：P.5A.

时间与我们的世界 Pb 段心蕊.

概率论与数理统计 2.3 连续型随机变量及其分布.

课题研究方案撰写.

第１节压强.

小寶寶家庭保健護理小常識講師：郭洽利老師

第二章供应链战略管理【本章学习目的与要求】掌握供应链战略的概念与基本特征理解供应链战略的基本内容和基本分类

第 7 章馬可夫鏈與賽局理論.

农业银行网上签约流程宁夏金溢投资内部资料 1.

导入新课　　我们生活的地球是一个蔚蓝色的星球。厚厚的气体包围坚实的土地，养育保护着地球上的生命。这厚厚的气体人们通常称为大气层。

廉政會報專題報告農地重劃工程施工常見缺失報告：吳東霖製作：張昌鈴日期：103年12月23日.

專案製作經驗談.

缤纷灿烂针织物.

宿州学院经济管理系第十章管理的创新职能二00九年五月.

《成佛之道》序～第三章圓融 /

5.5可行性分析可行性分析的概念策略可行性分析操作可行性分析回报可行性分析.

互斥事件有一发生的概率瑞四中林光明.

肠道病原菌的分离与鉴定一培养基的制备及常用培养基细菌的培养法 EMB培养基的制备肠道病原菌的分离与鉴定（一）血清学检测-肥达氏反应.

第五章病因病机.

第九章寡头垄断市场的价格与产量决定.

长城国际酒店式公寓营销策划报告

教学目的：了解食用菌与其它微生物种类和害虫的关系，掌握消毒、灭菌的各种方法，避免造成环境污染的注意事项。

2001LINING(BEIJING)-PREZFINAL

第五章资源分配与调度（一）资源管理功能（二）资源分配的机构和策略（三）死锁概念.

大气的受热过程周南中学.

七堵國小103學年度第一學期期初校務會議教務處業務報告

第一章体育统计的基本知识主讲教师：王丽艳徐栋.

第七章固定资产第一节固定资产概述第二节固定资产的确认和初始计量第三节固定资产的后续计量第四节固定资产清查与期末计价

金門縣重大空難應變機制-消防局壹、消防搶救、滅火、緊急救護一、派遣作為：

1、由实验观察可知，当受力面积相同时，压力越，压力的作用效果越明显；当压力相同时，受力面积越，压力的作用效果越明显。 2、压强是反映的物理量。物理学中，把叫做压强。 3、3粒芝麻压成粉，均匀地分布在1cm2的面积上所产生的压强是.

3.1.2 概率的意义.

交易员培训辅助设备的开发与推广 D-NAK团队

第一部分：概率基础对应教材Chp1-5 可能需要复习本科概率论的相应内容课堂上讲述会较快，将知识点串起来，建议大家通读教材

山海經與動漫遊戲班級：系統二甲學號：4A 姓名：李桂芳.

7 不完全競爭市場.

万达会议管理平台普通用户使用介绍手册全时培训组

25.3 用频率估计概率快走啊听老师讲“用频率估计概率”哦.

Introduction to Game Theory

经济生活模块备考知识.

高电压技术高电压技术.

獨占市場的特徵只有一家廠商這家廠商可能販賣貨物 (如自來水公司)，也可能提供服務 (如台灣證券交易所)。產品無近似替代品

南瑞学堂学员简明操作指南上海时代光华教育发展有限公司 2013年.

第六次全国人口普查近期数据处理工作部署夏雨春 2010年12月28日.

连锁企业的品类管理中国连锁经营协会张智强 2003年3月25日成都.

第七章機率與賽局理論.

香港傳統的農村生活.

使用服务平台办理离校操作指南.

三種基本類型的問題當我們說某件事情的機率是0.50、0.78，或0.24時，是什麼意思？機率的數值該如何決定？在現實生活中如何測量？

学年第一学期领取教材明细查询的通知学年第一学期学生使用的教材均在网上平台公示。现将有关事项通知如下：

直线与平行垂直的判定.

本章主要阐述保险经营的特有原则：保险利益原则、最大诚信原则、近因原则、损失补偿原则、代位求偿原则和分摊原则。

門診透析獨立預算執行概況附件1 中央健康保險署附件1.

由一个佯谬看涡旋电流的存在 PB 田鸿翔指导老师万树德.

Round prepared by rsabcmoi and tangent

新選課系統說明會電算中心林以仁.

《液体压强》复习课一、知识复习二、例题讲解.

第四章第二節天氣的要素 P103.

Presentation transcript:

第六章完全信息静态博弈博弈的基本概念纳什均衡纳什均衡应用混合策略和混合策略纳什均衡

伐木工人的决策和一个将军的决策有什么不同？木头没有反抗。将军的每一步计划都会引来抵抗，他必须克服这种抵抗。你！你的对手、竞争者都是聪明有主见的！

社会科学研究策略性决策制定过程的分支称为－博弈论。严格讲，博弈论不是经济学的一个分支，它是一种方法，涉及到很多领域：实际上，博弈论是数学的一个分支。

策略故事妙手传奇给猫拴个铃铛多管齐下三思而后行

引言博弈论诺贝尔经济学奖纳什(Nash) (1950-1951) 泽尔腾(selten) (1965,1975) 海萨尼(Harsanyi) (1967-1968) 共同获得1994年诺贝尔经济学奖

数学界的梵高——“疯子天才”纳什

三位大师主要的贡献 1950年和1951年纳什的两篇关于非合作博弈论的重要论文，彻底改变了人们对竞争和市场的看法。他证明了非合作博弈及其均衡解，并证明了均衡解的存在性，即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的内在联系。因为在现实世界中，非合作博弈要比合作博弈普遍得多。传统经济学对非合作博弈是以亚当斯密的看不见的手来解释的。他的这项理论工作使得博弈论从此成为经济学家用来分析商业竞争到贸易谈判种种现象的有力工具。Tucker于1950年定义了“囚徒困境”（prisoners’dilemma）。他们两个人的著作基本上奠定了现代非合作博弈论的基石。到50年代，合作博弈发展到鼎盛期，包括纳什（1950）和夏普里（Shanley，1953）的“讨价还价”模型，Gillles和Shanley（1953）关于合作博弈中的“核”（core）的概念，以及其他一些人的贡献。

Selten and Harsanyi 泽尔腾（1965）将纳什均衡的概念引入了动态分析，提出了“精炼纳什均衡”概念；以及进一步刻画不完全信息动态博弈的“完备贝叶斯纳什均衡”。而海萨尼则发展了刻画不完全信息静态博弈的“贝叶斯纳什均衡”（1967－1968）。总之，他俩进一步将纳什均衡动态化，加入了接近实际的不完全信息条件。他们的工作为后人继续发展博弈论，提供了基本思路和模型。

诺贝尔经济学奖 1968年，瑞典中央银行成立300周年，是为了纪念诺贝尔奖奖金提供者，设立诺贝尔经济学奖。 1969年开始颁发。

从游戏到博弈游戏的特点：下棋，打牌，赌胜，田径，球类等等，共同的特点是策略策略的好坏决定游戏的结果游戏的特征：规则，结果，策略，策略和利益的依存性

什么是博弈论？博弈论：就是关于包含相互依存情况中理性行为的研究。相互依存：通常是指博弈中的任何一个局中人受到其他局中人的行为的影响，反过来，他的行为也影响到其他局中人。相互依存的另一个方面是局中人可以有某些共同的兴趣或利益所在。 “理性行为”的说明：博弈论中的所谓理性，一般不是指道德标准。

博弈三要素博弈方（局中人）----参与博弈但利益不完全一致者。有二人博弈与多人博弈之分。策略集----每个局中人都会有一系列的策略可选，称为对应于每个局中人的策略集。有限和无限个对策。得益----在每策略组合下每一局中人的得益情况，是选择策略的标准，称为得益函数或支付函数。

博弈的关键局中人理性地采取或选择自己的策略行为，在相互制约相互影响的依存关系中，尽可能的提高自己的利益所得，这样，博弈论就是关于包含相互依存情况中理性行为的研究。相互依存理性行为

博弈的四种分类情况完全信息静态博弈完全信息动态博弈不完全信息静态博弈不完全信息动态博弈

博弈的分类及对应的均衡静态动态完全信息完全信息静态博弈；纳什均衡； Nash(1950) 完全信息动态博弈；子博弈精炼纳什均衡；泽尔腾（1965）不完全信息不完全信息静态博弈；贝叶斯纳什均衡；海萨尼（1967-1968）不完全信息动态博弈，精炼贝叶斯纳什均衡；泽尔腾（1975）Kreps,Wilson(1982), Fudenberg,Tirole(1991)

纳什均衡纳什均衡的定义纳什均衡的一致预测性纳什均衡与严格下策反复消去法

纳什均衡的定义各博弈方都不愿或不会单独改变自己策略的策略组合，只要这种策略组合存在且是唯一的，博弈就有绝对确定的解。这种各博弈方都不愿单独改变策略的策略组合就是博弈论中最重要的一个概念——“纳什均衡”。

我们常用G表示一个博弈；如G有n个博弈方，每个博弈方的全部可选策略的集合我们称策略空间，分别用表示；用表示博弈方i的第j个策略，其中j可取有限个值(有限策略博弈)，也可取无限个值(无限策略博弈)；博弈方i的得益则用表示，是各博弈方策略的多元函数。n个博弈方的博弈G常写成

定义在博弈中，如果由各个博弈方的各一个策略组成的某个策略组合中，任一博弈方i的策略，都是对其余博弈方策略的组合的最佳策略，即对任意都成立，则称为G 的一个“纳什均衡”。

纳什均衡的一致预测性如果所有博弈方预测到一个特定的纳什均衡将会出现，那么，没有人有兴趣作不同的选择。纳什均衡的特征：博弈方预测到均衡，博弈方预测到其他博弈方预测到均衡，等等。一致性预测，并不意味着纳什均衡一定是一个好的预测。

纳什均衡应用两个嫌犯受到指控，但除非至少一个招认，否则警方不能将二人判有罪。警察把二人分别带到不同的房间，告之后果：如果二人均不坦白，将被判入狱一年。如果双方均坦白，将被判入狱5年。如果一方坦白，另一方不坦白，坦白一方立即释放，另一方判入狱8年。

囚徒2 囚徒1 不坦白坦白－1，－1 －8， 0 0，－8 －5，－5

囚徒困境说明了什么在（坦白、坦白）这个组合中，Ａ和Ｂ都不能通过单方面的改变行动增加自己的收益，于是谁也没有动力游离这个组合，因此这个组合是纳什均衡，也叫非合作均衡。囚徒困境反映了个人理性和集体理性的矛盾。如果Ａ和Ｂ都选择不坦白，各判刑１年，显然比都选择坦白各判刑８年好得多。当然，Ａ和Ｂ可以在被警察抓到之前订立一个“攻守同盟”，但是这可能不会有用，因为它不构成纳什均衡，没有人有积极性遵守这个协定,显然最好的策略是双方都不坦白。

囚徒困境的意义 “囚徒的两难选择”有着广泛而深刻的意义。个人理性与集体理性的冲突，各人追求利己行为而导致的最终结局是一个“纳什均衡”，也是对所有人都不利的结局。他们两人都是在坦白与不坦白策略上首先想到自己，这样他们必然要服长的刑期。只有当他们都首先替对方着想时，或者相互合谋(串供)时，才可以得到最短时间的监禁的结果。

双寡头削价竞争寡头2 高价低价寡高价头 2 低价 100，100 20，150 150，20 70，70

对经典经济学的冲击 “纳什均衡”首先对亚当·斯密的“看不见的手”的原理提出挑战。按照斯密的理论，在市场经济中，每一个人都从利己的目的出发，而最终全社会达到利他的效果。《国富论》：“通过追求(个人的)自身利益，他常常会比其实际上想做的那样更有效地促进社会利益。”

从“纳什均衡”我们引出了“看不见的手”的原理的一个悖论：从利己目的出发，结果损人不利己，既不利己也不利他。两个囚徒的命运就是如此。从这个意义上说，“纳什均衡”提出的悖论实际上动摇了西方经济学的基石。

研究囚徒困境问题的目的利用这种困境达到有利于社会的目的政府在经济活动中的组织协调工作的必要性避免囚徒困境

混合策略纳什均衡混合策略混合策略博弈混合策略纳什均衡混合策略和严格下策反复消去法

许多现实中决策问题构成的博弈中根本不存在具有稳定性的各博弈方都接受的纳什均衡策略组合如猜硬币博弈和齐威王田忌赛马，而另一些博弈却有多于一个的纳什均衡策略组合，如夫妻之争博弈。这两类博弈如果只进行一次，实际结果如何确实取决于机会和运气，如果多次独立反复进行这些博弈，这样博弈方决策的好坏就会从平均得益上反映出来，策略运用得当平均收益会较理想，至少是不吃亏，否则平均得益就会很差。

概念的引进

在这种博弈中各博弈方决策的第一个原则：自己的策略选择千万不能预先被另一方侦知或猜到。这就是说博弈方必须随机地选择策略。其次，在本博弈中，如果盖硬币方虽然是随机决定出正面还是反面，但如果在总体上出正面多于出反面，即出正面的概率大于出反面的概率，则猜硬币方还是有机可乘。

设盖硬币方出正面的概率为p,则出反面的概率为1-p．出正面多于出反面，即p＞1-p或p＞1／2。在这种情况下，如猜硬币方全猜正面，则他的期望得益：即平均来讲，猜硬币方一定是赢多输少。

双方都按照上述概率随机选择策略，即在本博弈中，博弈方的决策内容不是确定性的具体的策略，而是在一些策略中随机选择的概率分布，这样的决策我们称为“混合策略”。

定义在博弈中；博弈方i的策略空间为，则博弃方i以概率分布随机在其k个可选策略中选择的“策略”，称为一个“混合策略”，其中都成立，且

相对于这种以一定概率分布在一些策略中随机选择的混合策略，确定性的具体的策略我们称为“纯策略”，而我们原来意义上的纳什均衡，即任何博弈方都不愿单独改变策略的纯策略组成的策略组合现在可称为“纯策略纳什均衡”。当然，纯策略也可以看作混合策略的特例。

纯策略可以看作，选择相应纯策略的概率为1，选择其余纯策略的概率为0的混合策略。混合策略可以看作纯策略的扩展。

引进了混合策略的概念以后，我们可将纳什均衡的概念扩大到包括混合策略的情况。对各博弈方的一个策略组合，不管它是纯策略组成的还是混合策略组成的，只要满足各博弈方都不会想要单独偏离它，我们就称之为一个纳什均衡。如果确实是一个严格意义上的混合策略组合构成的纳什均衡，称为“混合策略纳什均衡”。

猜硬币博弈中两博弈方都以（1/2，1/2）的概率分布随机选择正面和反面的混合策略组合，就是一个混合策略纳什均衡。期望得益：零和博弈！

应用例子

本博弈中两博弈方决策的第一个原则是不能让对方知道或猜到自己的选择，因而必须在决策时利用随机性。第二个原则是他们选择每种策略的概率一定要恰好使对方无机可乘。

设博弈方1选A的概率为pA，选B的概率为pB，博弃方2选C的概率为pC，选D的概率为pD。根据上述第二个原则，博弈方1选A和B的概率,一定要使博弈方2选C的期望得益和选D的期望得益相等，即：这是博弈方1的混合策略。

同理，博弈方2的混合策略为博弈方1以(0.8,0.2)的概率随机选择A和B，博弈方2以(0.8,0.2)的概率随机选择C和D，由于这时谁都无法通过改变自己的混合策略(概率分布)而改善自己的得益(期望得益)、因此这样的混合策略组合是稳定的，是一个混合策略纳什均衡。

该混合策略纳什均衡的期望结果(即双方的期望得益)分别为：

虽然单独一次博弈的结果可能是四组得益中的任何一组．但是多次独立重复博弈的平均结果却应该是双方各得2.6。

混合策略和混合策略均衡的概念不仅可用在不存在纯策略纳什均衡的博弈问题中(这种问题各博弈方之间的利益总是有一定的对立性)，在没有确定性结果的博弈、即存在多个纯策略纳什均衡的博弈(这种博弈中博弈方之间的利益有相当的一致性)中也可运用。

第七章完全信息动态博弈完全且完美信息动态博弈子博弈完美纳什均衡应用举例

动态博弈的表示法和特点阶段和表示法动态博弈的基本特点

阶段动态博弈中一个博弈方的一次行为称为一个“阶段”。由于每个博弈方在动态博弈中可能不止一次行为，因此，每个博弈方在一个动态博弈中就可能有数个甚至许多个博弈阶段。

扩展形表示法

动态博弈的基本特点动态博弈的策略刘备过江招亲（三个锦囊+亲自过江）动态博弈的策略取决于他们整个博弈过程中的行为，因此我们主要讨论的是各博弈方在这些动态博弈中决策的全部内容，即各博弈方在每次轮到行为时，针对每种可能的情况如何选择的完整的行动计划，我们将这种行动计划称为博弈方的“策略”。刘备过江招亲（三个锦囊+亲自过江）

动态博弈的结果双方（或多方）采用的策略组合，实现的博弈路径和各博弈方的得益。动态博弈的非对称性因为博弈方的选择行为有先后次序，后行为者可能观察到前面的选择行为，各博弈方的地位是不对称的。

可信性问题动态博弈的一个中心问题是“可信性”问题。所谓可信性是指动态博弈中先行为的博弈方是否该相信后行为的博弈方会采取对自已有利的或不利的行为。因为后行为方将来会采取对先行为方有利的行为相当于一种“许诺”，而将来会采取对先行为方不利的行为相当于一种“威胁”，因此我们可将可信性分为“许诺的可信性”和“威胁的可信性”。

开金矿博弈

乙如何决策呢？关键的是要判断甲的许诺是否可信！以自身利益最大化原则，甲必然选择不分！乙清楚甲的行为准则，最好的选择是不借！乙最需要关心的就是甲采到金子后是否会履行诺言跟自己平分，因为万一甲采到金子后不但不跟乙平分，而且还赖帐或卷款潜逃，则乙连自己的本钱都收不回来。关键的是要判断甲的许诺是否可信！以自身利益最大化原则，甲必然选择不分！乙清楚甲的行为准则，最好的选择是不借！对乙来说，甲的许诺是不可信的！

增加对甲的约束加上第三阶段，乙的利益受到法律保护，甲的许诺是可信的。

法律保障不足的开金矿博弈乙的第三阶段的打官司的威胁是不可信的。乙只有选择不借！

结论从本博弈的分析可以看出，在一个个体都有私心，都只注重自身的利益的社会里，完善公正的法律制度不淡能够保障社会的公平，还能提高社会经济活动的效率，是实现最有效率的社会分工的重要保障。可信性是动态博弈分析的一个中心问题。

打击的威胁是可信的 1选择不进！

打击的威胁是不可信的 1选择进！结果路径为（进，不打击）得益（5，8）

子博弈完美纳什均衡动态博弈中的子博弈逆推归纳法子博弈完美纳什均衡

动态博弈中的子博弈虚线框出的部分正是博弈方2在博弈方1选择进时所面临的决策问题，它本身构成博弈方2的一个单人博弈，我们称它为原先来后到博弈的一个“子博弈”。

子博弈定义由一个动态博弈第一阶段以外的某个阶段开始的后续博弈阶段构成，它必须有初始信息集，具备进行博弈所需要的各种信息，能够自成一个博弈的原博弈的一部分，称为原动态博弈的一个“子博弈”。

递推归纳法从动态博弈的最后一个阶段博弈方的行为开始分析，逐步倒推回前一个阶段相应博弈方的行为选择，一直到第一个阶段的分析方法。

博弈方2选择打击，博弈方选择不进

应用

我们用上述两个简单的例子演示了逆推归纳法。逆推归纳法可以用于许多动态博弈的分析求解，除了有些不完美信息动态博弈以外，是解析动态博弈的基本方法。

子博弈完美纳什均衡上面用逆推归纳法导出的动态博弈的结果是由各阶段轮到行为的博弈方的一种行为依次构成的，如在开金矿3．2中结果为 (借，分)，是由乙在第一阶段的借和甲在第二阶段的分构成。当然该博弈本来应该有三个阶段，但当甲在第二阶段选择分时第三阶段就没有必要进行下去了因此结果中只有两个阶段的行为。

我们需要的适合动态博弈的新的均衡概念必须满足(1)既是纳什均衡，从而具有策略稳定性，(2)又不能包含任何的不会信守的许诺或威胁。这样的动态博弈的策略组合称为“子博弈完美纳什均衡”。

塞尔顿(selten)1965年给出了子博弈完美纳什均衡的定义：如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成一个纳什均衡，则称该策略组合为一个“子博弈完美纳什均衡”。

“子博弈完美纳什均衡”是分析动态博弈，或者说完全且完美信息动态博弈的关键概念。而逆推归纳法正是(至少在完美信息动态博弈范围之内)寻找动态博弈的子博弈完美纳什均衡的基本方法。子博弈完美纳什均衡能够排除均衡策略中不可信的威胁或许诺，就意味着每阶段各博弈方的选择都是按最大利益原则决策的，因此在每个子博弈中都只可能采用纳什均衡的策略或行为选择。

讨价还价博弈假设有两人就如何分割1万元进行谈判，并且已经定下了这样的规则：首先由甲提出一个分割比例，对此，乙可以接受也可以拒绝；如果乙拒绝甲的方案，则他自己应提出另一个方案，让甲选择接受与否。如此循环。在上述循环过程中，只要有任何一方接受对方的方案博弈就告结束，而如果方案被拒绝，则被拒绝的方案就与以后的讨价还价过程不再有关系。

由于谈判费用和利息损失等，双方的得益都要打一次折扣，折扣率为，我们称它为消耗系数。如果限制讨价还价最多只能进行三个阶段，到第三阶段乙必须接受甲的方案，则这就是一个三阶段的讨价还价博弈。

本博弈有两个关键点，第一是第三阶段甲的方案是有强制力的，即进行到这一阶段，甲提出的分割S：(10 000-S)是双方必须接受的，并且对这一点两博弈方都非常清楚。第二是多进行一个阶段总得益就会减少一个比例，因此对双方来说都是让谈判拖得太长是不利的，必须让对方得的数额，不如早点让他得到，免得自己的得益每况愈下。

第八章不完全信息静态博弈静态贝叶斯博弈和贝叶斯纳什均衡应用举例

不完全信息古诺模型静态贝叶斯博弈海萨尼转换混合策略和不完全信息

第八章不完全信息动态博弈完美贝叶斯均衡定义信号博弈的完美贝叶斯均衡应用举例