(对应教材第6章) [现代博弈论开始于1928年冯诺伊曼的工作] 博弈论基本概念 北大李晓明教授课件 (对应教材第6章) [现代博弈论开始于1928年冯诺伊曼的工作]
博弈实践 出6个同学,每人发两张扑克牌,一张红,一张黑 规则 每人独立决定出哪一张牌,不让其他人看见 如果你出的是红牌,无论别人出什么,都得到1元钱奖励回报; 如果你出的是黑牌,则若其他所有人都出黑牌,你就得4元钱回报;若有任何一人出红牌,则你就必须支付赔偿1元钱 2013年4月3日,课堂实验结果:3红3黑
博弈,关于对抗还是关于合作的学问?
学习要点 通过几种典型博弈的类型 理解博弈论的基本概念 体会“情景博弈求解”过程中的思想 囚徒困境,鹰鸽博弈,猎鹿博弈,… 参与人,策略,收益(收益矩阵) 最佳应对,占优策略 纳什均衡 混合策略,混合策略均衡 社会最优,帕累托最优 体会“情景博弈求解”过程中的思想 博弈:关于“合作”还是关于“竞争”的学问?
博弈,从一个例子开始 “复习考试”还是“准备报告”? 假设在截止日期前一天,你有两件要做的事情:一是复习(为了参加考试),二是准备(给一个报告)。你只能选择做一项。 考试成绩可以预计 如果复习,则考试成绩92分,没复习,则80分 报告需要你和你的搭档合作完成 如果你和搭档都准备报告,则每人都是100分 如果只有一人准备报告,则每人都是92分 如果两人都没准备报告,则每人都是84分 那么你该选择做什么呢?(假设你和搭档各自独立考虑这个问题)
例子:“考试-报告”博弈 设你们都追求平均成绩的最大化: 你和搭档都准备报告,则平均成绩均为(80+100)/2 = 90分 考试成绩可以预期: 如果复习,则考试成绩92分 如果没复习,则考试成绩80分 报告是你和你的拍档合作完成的: 如果你和拍档都准备报告,则每人100 分 如果只有一人准备报告,则每人92分 如果两人都没准备报告,则每人84分 设你们都追求平均成绩的最大化: 你和搭档都准备报告,则平均成绩均为(80+100)/2 = 90分 你和搭档都准备考试,则平均成绩均为: (92+84)/2 = 88分 若一方复习考试,另一方准备报告: 准备报告的得:(80+92)/2 =86分 复习的得:(92+92)/2 = 92分
收益矩阵(表达博弈的一种直观方式) 你的搭档 准备报告 复习考试 你 90, 90 86, 92 92, 86 88, 88 其中第一个数字是“你”的收益,第二个是“搭档”的 收益(也称“回报”、“支付”,payoff)
博弈的基本要素 一般情况下,博弈具有三个要素: (1) 参与者(至少两个); (2) 策略集(行动):每个参与者都有一组关于如何行为的备选项,即他可选的策略。 (3)收益(回报):每个策略行为的选择,都会使参与人得到一个收益。 这个收益结果还受互动中他人策略选择的影响。 (策略组:由每个参与者出一个策略构成的组合) 通常,收益的记号:P1(S,T), P2(S,T) 我们感兴趣的关注点是在给定的博弈中,推理参与人如何进行策略行为抉择。
简单博弈推理的几点基本假设 每个参与人对博弈结构(收益矩阵)有充分了解,且知道对方也了解。信息对称 参与人都是理性的(rational) 追求自己的收益最大化(尽量大) 给定其他人的策略,若自己能通过改变当前策略获得更大收益,则会放弃当前策略,换个更好的 知道其他参与人也是如此 决策的独立性 不商量,没有“攻守联盟”之类的安排
“考试-报告”博弈中的行为推理 你的拍档 准备报告 复习考试 你 90, 90 86, 92 92, 86 88, 88 严格占优策略:对一个参与人(A)来说,若存在一个策略,无论另一个参与人(B)选择何种行为策略,该策略都是最佳选择,则这个策略就称为是A的严格占优策略。按照前面的假设,参与人将选择严格占优策略。 这个例子中,“复习考试”对双方都是严格占优策略。 如果你害怕你拍档可能会对你没有共同准备报告而生气呢?
“囚徒困境” 假设有两个疑犯被警察抓住。并且被分开关押在不同的囚室。 警察强烈怀疑他们和一场抢劫案有关。但是,没有充足的证据。然而,他们都拒捕的事实也是可判刑的。 两个疑犯都被告知以下结果: “如果你坦白,而另外一人抵赖,则你马上释放;另外一人将承担全部罪行,将会被 判刑10年 如果你们都坦白,你们的罪行将被证实。但由于你们有认罪的表现——判刑4年。 如果你们都不坦白,那么没有证据证明你们的抢劫罪,我们将以拒捕罪控告你们——判刑1年。 另外一方也正在接受这样的审讯。你是坦白还是抵赖?”
“囚徒困境”的收益矩阵 疑犯1和疑犯2的严格占优策略都是“坦白” 尽管如果两人都抵赖会都判得少些 -1, -1 -10, 0 0, -10 -4, -4 疑犯1和疑犯2的严格占优策略都是“坦白” 尽管如果两人都抵赖会都判得少些 刻画了“有关个体私利前,建立合作是十分困难的”模型。(个体理性 vs. 集体理性) 如果我们关心某些因素,则应该将它们纳入到收益中考虑。
“兴奋剂”博弈 这种类型通常称为军备竞赛。竞争双方为保持彼此实力相当,都会选择生产更具危险性的武器,尽管对自己内部会有伤害 运动员伤害身体,国家影响民生。 运动员2 没服用 服用 运动员1 3, 3 1, 4 4, 1 2, 2
并不是每人总有严格占优策略 例子:“营销战略”博弈 假设有两家公司,分别要规划生产并销售同一种新产品。该产品有两款可能的规格:廉价(低档)或高档。如何决策? 设顾客总体被分成两个市场:一部分消费群体(60%)只购买廉价商品,另一部分消费群体(40%)只购买高档次商品。 假设每家公司从廉价或高档次商品所得利润是等同的(因此利润仅取决于市场占有率)。 每家公司都追求利润最大化。 如果内容太多,这个例子可以去掉
“营销战略”博弈 高档市场40%廉价市场60% 公司1有严格占优策略(廉价),但公司2没有。 公司2 廉价 高档 公司1 假设 若两家公司分别定位生产不同类型的产品,则每家公司都会得到该商品市场的全部份额。 公司1品牌形象更佳。因此,若这两家公司在同一市场(廉价或高档次)中竞争,则公司1可以得到80%的市场,公司2只能得到20%。 公司2 廉价 高档 公司1 0.48, 0.12 0.6, 0.4 0.4, 0.6 0.32, 0.08 在该博弈例子中,应注意到公司1有一个严格占优策略。相对于公司2的每个策略,公司1的“廉价”策略都是严格最佳应对。另一方面,公司2没有一个占优策略。当公司1采取“高档次”策略,“廉价”策略是其最佳应对;当公司1采取“廉价”策略时,“高档次”是其最佳应对。 应注意到,虽然在推理过程中是分两个步骤进行描述——第一步是公司1的严格占优策略,第二步是公司2的最佳应对。 还应注意到直观的信息预测也具有吸引力。举例来说,公司1是如此强大,进行决策时完全可以无视公司2的决策行为。在该背景下,公司2的最优策略是要谨慎保持避免与公司1的决策冲突。 公司1有严格占优策略(廉价),但公司2没有。
最佳应对 存在性? 唯一性? 设S是参与人甲的一个策略,T是参与人乙的一个策略。在收益矩阵中的某个单元格对应这一对策略(S,T)。 P1(S,T):表示参与人甲从这组决策获得的收益 P2(S,T):表示参与人乙从这组决策获得的收益 最佳应对:针对参与人乙的策略T,若参与人甲采用策略S产生的收益大于或等于自己的任何其他策略,则称参与人甲的策略S是参与人乙的策略T的最佳应对。 P1(S,T) ≥ P1(S’,T) 其中, S’是参与人甲除S外的任何其他策略。 存在性? 唯一性? 最佳应对即是参与人的最好选择。
严格最佳应对 严格最佳应对:若S会产生比任何应对策略T的其他策略都更高的收益,则称参与人甲的策略S是对于参与人乙的策略T的严格最佳应对。 P1(S,T)> P1(S’,T) 其中,S’是参与人甲的所有其他策略。 注:最佳应对的概念是针对对方的某一个策略(T),相对于自己的所有策略而言的 对于同一个T,最多只可能有一个严格最佳应对 对于不同的T,最佳应对可能相同,也可能不同 不一定存在,但存在则唯一 1.参与人1可能存在多个策略,都是策略T的最佳应对。 2.针对另一参与人的策略T,如果存在一个严格最佳应对策略。该参与人一定会选择此严格最佳应对策略。
占优策略与严格占优策略 定义:(从最佳应对角度给出) 参与人甲的占优策略S,是指该策略对于参与人乙的每一策略都是最佳应对。 囚徒困境分析中,实际上也正是因为参与人彼此有严格占优策略,才会使分析过程简单化。 注:占优策略的概念是相对于对方所有策略而言的,而最佳应对是针对单个策略而言。 如果参与人有严格占优策略,则可预期他会采取该策略(与基本假设的一致性)。
“营销战略”博弈 高档市场40%廉价市场60% 可以预测此博弈的结果是即公司1采取廉价策略,公司2将会采取高档次策略。 公司2 廉价 假设 若两家公司分别定位生产不同类型的产品,则每家公司都会得到该商品市场的全部份额。 公司1品牌形象更佳。因此,若这两家公司在同一市场(廉价或高档次)中竞争,则公司1可以得到80%的市场,公司2只能得到20%。 公司2 廉价 高档 公司1 0.48, 0.12 0.6, 0.4 0.4, 0.6 0.32, 0.08 在该博弈例子中,应注意到公司1有一个严格占优策略。相对于公司2的每个策略,公司1的“廉价”策略都是严格最佳应对。另一方面,公司2没有一个占优策略。当公司1采取“高档次”策略,“廉价”策略是其最佳应对;当公司1采取“廉价”策略时,“高档次”是其最佳应对。 应注意到,虽然在推理过程中是分两个步骤进行描述——第一步是公司1的严格占优策略,第二步是公司2的最佳应对。 还应注意到直观的信息预测也具有吸引力。举例来说,公司1是如此强大,进行决策时完全可以无视公司2的决策行为。在该背景下,公司2的最优策略是要谨慎保持避免与公司1的决策冲突。 可以预测此博弈的结果是即公司1采取廉价策略,公司2将会采取高档次策略。
简单博弈的行为推理 如果两个人都没有严格占优策略呢?(从哪开始推理?) 如果两个人都有严格占优策略,则可以预计他们均会采取严格占优策略; 如果只有一个人有严格占优策略,则这个人会采取严格占优策略,而另一方会采取此策略的最佳应对(一定会有!) 如果两个人都没有严格占优策略呢?(从哪开始推理?)
无占优策略例子(三客户博弈) 假设有两家公司,都希望和A、B、C三个大客户之一洽谈生意。每家公司都有三种可能的策略:是否找客户A、B或C。 它们决策的考量如下: 若两家公司都找同一个客户,则该客户会给每个公司一半的业务。 公司1规模太小,以至于不能靠自身找到客户源。所以,只要它和公司2分别寻找不同的客户洽谈生意,则公司1获得的收益将会是0(生意做不成)。 假设公司2单独寻找客户B或C洽谈生意,则会得到客户B或C的全部业务。但是A 是一个大客户。寻找客户A洽谈生意时,必须和公司1合作才能接下业务。 因为A是一个大客户,和它做生意的收益是8(假设两家公司合作,则每家公司会得到收益4)。但是,和B或C做生意的收益价值是2(合作的话,每个公司收益是1)
“三客户”博弈的推理 收益矩阵 两家公司都没有严格占优策略 如何讨论博弈的走向(结果)? 公司2 A B C 公司1 4,4 0, 2 0,0 1, 1 两家公司都没有严格占优策略 如何讨论博弈的走向(结果)?
纳什均衡 假定参与人甲选择策略S,参与人乙选择策略T。若S是T的最佳应对,且T也是S的最佳应对,则称策略组(S,T)是一个纳什均衡。 在均衡状态,任何参与人都没有动机(理性的理由)去换一种策略。 纳什均衡:互为最佳应对的策略组,谁也不可能通过单方面改变策略而得到额外好处,尽管如果两人都改变可能都会更好(相比都不改变而言) 因此,纳什均衡可以被认为是一种信念上的均衡。如果每个参与人都相信另一方在博弈中实际会采用一个纳什均衡的部分策略,则他/她就有动机采用达成这个纳什均衡中的另一部分策略。
“三客户”博弈的纳什均衡 存在纳什均衡:(A,A) 寻找纳什均衡的两种途径: 公司2 A B C 公司1 4, 4 0, 2 0,0 1, 1 存在纳什均衡:(A,A) 寻找纳什均衡的两种途径: 一是,检查每一个策略组,看它们中的每一项是否是彼此间策略的最佳应对策略。 二是,找出每个参与人对于对方每个策略的最佳应对,然后发现互为最佳应对的策略组。 如果存在多个纳什均衡,怎么办?
多重均衡:协调博弈 多重均衡--存在多个均衡 例子:协调博弈 假设你和你拍档都为一个合作项目准备幻灯片简报(双方不能联系商量)。 你必须决定是用微软的PPT或是用苹果的Keynote软件来制作你负责的半份幻灯片。 假设你们使用同样的软件来设计,那就比较容易合并你们的幻灯片。 一荣俱荣,一损俱损(预期一致性)
协调博弈(无利益冲突) 存在两个纳什均衡:(PPT,PPT),(Keynote,Keynote)。 如何预测协调博弈中参与人的行为? 你的拍档 PPT Keynote 你 1, 1 0,0 1,1 存在两个纳什均衡:(PPT,PPT),(Keynote,Keynote)。 如何预测协调博弈中参与人的行为? 一般来说,从博弈结构本身已经不能预测参与者行为的趋向,需要利用一些外部因素,例如社会习俗。 为什么叫协调博弈?
相向通行问题也是协调博弈 两人相向而行,每人有两个策略“靠左”或是“靠右”,如果一致,则都顺利通过,如果不一致,则谁也通不过。 乙 靠左 甲 1,1 0,0
不对等协调博弈 假设你和项目拍档都更喜欢使用苹果软件。 谢林的聚点理论表明,可以预测参与人会倾向于收益情况更好的均衡(2,2)。 你的拍档 PPT Keynote 你 1, 1 0,0 2,2
两人的喜好不同呢(利益冲突) 假设你和你的拍档喜欢的软件不同。 此时仅从博弈结构很难预测具体哪种均衡会被达到。 可以通过了解他们之间平常发生冲突时解决的惯例来预测。 你的拍档 PPT Keynote 你 1, 2 0,0 2,1
猎鹿博弈(合作有风险) 猎人2 猎鹿 猎兔 猎人1 4,4 0,3 3,0 3,3 假设两猎人外出猎物。若他们合作,则可以猎到鹿(这可以给猎者带来最高的收益)。 猎人若分开单干,都能猎到兔。 若一方想单独猎鹿,则收益是0。另一方依然能猎到兔。 选择何种均衡?要在高收益和由于另一方不合作而造成损失之间进行权衡。 猎人2 猎鹿 猎兔 猎人1 4,4 0,3 3,0 3,3 问题:为什么不是大家都猎鹿呢? 尝试获得较高收益结果一方比起尝试获得较低收益结果的另外一方,会受到更大的惩罚。
鹰鸽博弈(竞争有收益和风险) 假设两只动物要决定一块食物的分配。 每只动物都可以选择争夺行为(鹰派策略)或分享行为(鸽派策略)。 若两种动物都选择分享行为,它们将会均匀的分配食物,各自的收益是3。 若一方行为表现为争夺,另一方行为表现是分享,则争夺方会得到大多数食物,获得收益是5,分享方只能得到收益为1。 当两只动物都表现为争夺行为,由于在争夺中践踏了食物,则它们得到的收益将为0。 在这种均衡中,参与人可以进行一种“反协调”活动。可能这类博弈的最基本形式就是鹰鸽博弈。
鹰鸽博弈的推理 很难预测参与者的行为 一般来说,纳什均衡概念能有助于缩小预测范围,但它并不一定能给出唯一的预测。 动物2 鸽派 鹰派 动物1 3,3 1,5 5,1 0,0 很难预测参与者的行为 一般来说,纳什均衡概念能有助于缩小预测范围,但它并不一定能给出唯一的预测。
几种典型多重均衡博弈类型对比 你的拍档 PPT Keynote 1,1 0,0 2,2 你的拍档 PPT Keynote 1,2 0,0 2,1 猎人2 猎鹿 猎兔 4,4 0,3 3,0 3,3 动物2 鸽派 鹰派 3,3 1,5 5,1 0,0
博弈游戏 10个数,两人各选5个数,无重复就赢 10块钱,两个人各选一个数,和小于10就得到钱 两个人各写五个地名,不重复,就赢: 一个人必须包含北京,另一个人必须包含上海
简单博弈的推理(进一步) 如果不存在纳什均衡,该怎么办? 如果双方都有严格占优策略,则都会采用 如果只有一方有严格占优策略,则可以预测另一方会采用此策略的最佳应对 如果不存在严格占优策略,则寻找纳什均衡 存在一个纳什均衡,该均衡对应合理结果 存在多个纳什均衡(需要额外信息辅助推断) 协调博弈,鹰鸽博弈 均衡有助于缩小考虑范围,但不保证有效预测 如果不存在纳什均衡,该怎么办?
一个不存在纳什均衡的例子 硬币配对:“零和博弈”(zero sum game) 甲乙各持一枚硬币,同时选择手中硬币的正反面。 若他们硬币的朝向相同,乙将赢得甲的硬币。反之,甲将赢得乙的硬币。 参与人乙 正面H 反面T 参与人甲 -1,+1 +1,-1 如果不存在纳什均衡,该怎么办? 对于此类博弈是通过扩大策略集,包括随机性行为的概率,对参与人的行为进行预测。一旦放开参与人可以随机性行为条件,依据约翰纳什主要结论之一,在该背景下的博弈仍会存在均衡[313,314]。 此时,不存在一组互为最佳应对策略(纯策略意义下的纳什均衡)
如果这样的博弈重复进行若干次,你会如何考虑自己的策略? 预测对方采用不同策略的概率,据此确定自己的策略(概率) 不要让对方了解自己采用不同行为的概率 此时,你的“策略”可以看成是在两种固定行为(纯策略)之间选择的概率。
混合策略的引入 引入随机性,考虑参与人将以一定的概率分布在不同策略间进行选择,一种分布对应一个“策略”(称为混合策略,此时,选择策略就是选择分布) 对于双策略(H和T)博弈,混合策略则可简略表示为一个概率。 通常,我们说 参与人1的策略是概率p,是指他以概率p执行H;以概率 1-p执行T(用<p,1-p>表示,但在可理解场合通常就用p)。 参与人2的策略是概率 q,是指他以概率 q执行H,以概率 1-q 执行T 注意,引入混合策略后,博弈的类型已经改变
作为博弈,三要素齐了没有? 参与人 策略(概率) 收益 ✔ ✔ ? 此时的策略是在两种固定(纯)策略上选择的概率,每一组纯策略是对应有固定收益的。因而,从概率意义出发,此时的收益应该体现一种在两种纯策略上的“平均”(期望)。
一个需要用到的概念:收益期望 考虑一枚不均匀的硬币,抛掷后随机落下正面朝上的概率为0.3,反面的概率为0.7 如果正面朝上,你得到5元,反面朝上,你得到2元 抛掷这枚硬币你预期能得到的收益是多少? 0.3*5 + 0.7*2 = 2.9
一般地 两个随机事件H和T,如果H出现,你得回报PH,T出现,你得回报PT 假设H出现的概率为p,T出现的概率为1-p,你预期得到的回报是多少? 用概率论的术语,这也称为是“期望”,也就是一种“加权平均”。
讨论混合策略的框架(双人双策略) 从一个纯策略博弈出发,如下定义混合策略 参与人:与纯策略情形相同 参与人的策略:在各自纯策略集合上的一个概率分布 于是,存在有无穷多个策略 某参与人在策略组(p,q)上的回报:基于在纯策略上的收益,按照自己和他人的策略概率p,q算得的收益期望 不同的(p,q)导致不同的回报
混合策略收益算例 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,甲和乙的回报 P1(p,q)? P2(p,q) ? L(q) R(1-q) 甲 U(p) 4,4 0,3 D(1-p) 3,0 3,3 混合策略收益算例 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,甲和乙的回报 P1(p,q)? P2(p,q) ? 对甲而言,他的回报就是按照概率0.1和0.9,分别采用策略U和D得到的收益期望; 我们也特别注意到,当甲采用U策略的时候,是需要考虑乙按照概率0.2和0.8分别采用L和R策略的 这里,P1(U,q)指的是“P1取策略U的收益期望”,它等于“在P2采用分布(q,1-q)策略,P1取策略U的收益期望” P1(0.1,0.1)=0.1*P1(U,q)+0.9*P1(D,q) = 0.1*[q*P1(U,L)+(1-q)*P1(U,R)]+0.9*[q*P1(D,L)+(1-q)*P1(D,R)] = 0.1*[0.1*4+0.9*0]+0.9*[0.1*3+0.9*3] = 0.1*0.4 + 0.9*[0.3+2.7] = 0.04+2.7=2.74
算例(续) 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,甲和乙的回报 P1(p,q)? P2(p,q) ? 乙 L(q) R(1-q) 甲 U(p) 4,4 0,3 D(1-p) 3,0 3,3 算例(续) 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,甲和乙的回报 P1(p,q)? P2(p,q) ? 这里,P1(U,q)指的是“P1取策略U的收益期望”,它等于“在P2采用分布(q,1-q)策略,P1取策略U的收益期望” P1(0.1,0.1)=0.1*P1(U,q)+0.9*P1(D,q) = 0.1*[q*P1(U,L)+(1-q)*P1(U,R)]+0.9*[q*P1(D,L)+(1-q)*P1(D,R)] = 0.1*[0.1*4+0.9*0]+0.9*[0.1*3+0.9*3] = 0.1*0.4 + 0.9*[0.3+2.7] = 0.04+2.7=2.74
算例(续-) 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,计算回报P2(p,q) ? 乙 L(q) R(1-q) 甲 U(p) 4,4 0,3 D(1-p) 3,0 3,3 算例(续-) 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,计算回报P2(p,q) ? 这里,P1(U,q)指的是“P1取策略U的收益期望”,它等于“在P2采用分布(q,1-q)策略,P1取策略U的收益期望” P1(0.1,0.1)=0.1*P1(U,q)+0.9*P1(D,q) = 0.1*[q*P1(U,L)+(1-q)*P1(U,R)]+0.9*[q*P1(D,L)+(1-q)*P1(D,R)] = 0.1*[0.1*4+0.9*0]+0.9*[0.1*3+0.9*3] = 0.1*0.4 + 0.9*[0.3+2.7] = 0.04+2.7=2.74
但是,在研究一个混合策略博弈的时候,我们一般并不关心在每个策略下的具体回报情况,而是关心是否能达到均衡?在什么混合策略组下达到均衡?哪两个策略(概率)是互为最佳应对?
混合策略的均衡:互为最佳应对 在各自概率策略的选择下,双方的收益期望互为最大(任何单方面改变不会增加其收益) 纳什的奠基性贡献:证明了具有有限参与者和有限纯策略集的博弈一定存在纳什均衡(包括混合策略均衡) 一般来说,找到混合策略的纳什均衡是很困难的,但在某些特定条件下能有系统的方法。
双人双策略、不含纯策略均衡的博弈中的混合策略纳什均衡求解 考虑硬币面向的博弈 他 正面H 反面T 你 H -1,+1 +1,-1 T 你若知道对方的策略是以0.7的概率出H,你会采取什么策略?如果他的概率是0.2呢? 实际上,这便是在引入随机化时的最初直觉:每个参与人都想要对对方隐藏自己的行为,所以,他们各自的行为很难被对方得知。 你若知道对方的策略是以0.5的概率出H,你会采取什么策略? 你若不知道对方的策略,你会以什么概率出H?
“0.5”策略在此有什么特别? 如果对方用0.5,我出什么都无所谓 即:我的任何策略都是它的“最佳应对” 他 正面H 反面T 你 H -1,+1 +1,-1 T 反过来也一样,如果我用0.5,对方出什么(对他来说)都是一样的回报 即:(0.5,0.5)是“互为最佳应对”
由此我们可以体会到 一对混合策略互为最佳应对的必要条件是它们分别使得对方在两个纯策略选择上得到的回报无差异。 这就是我们借以求解混合策略均衡的原理--无差异原理 做法是:设甲方的混合策略概率为p,写出乙方在两个纯策略上分别的收益期望,令它们相等,方程的解即为甲方的均衡策略 好的概率策略就是让对方不知道哪个(纯)策略更好的策略 好的概率策略就是使对方不知道用哪个纯策略更好的策略
混合策略的收益 设参与人1采用概率p执行H,1-p执行T,则: 若参与人2采用H,则他的收益期望是 若参与人2采用T,则他的收益期望是 这是两个关于p的线性表达式,令它们相等,若唯一解存在且在(0,1)中,则求得了参与人1的均衡策略p
混合策略的均衡计算例子 用收益期望来表达回报 当参与人2采用策略<q,1-q>时,参与人1使用不同纯策略的回报分别为: 参与人2 纯策略H的期望收益 = (-1)(q)+(+1)(1-q) = 1-2q 纯策略T的期望收益 = (1)(q)+(-1)(1-q) = 2q-1 参与人2 正面H(q) 反面T(1-q) 参与人1 正面H -1,+1 +1,-1 反面T 纳什均衡,不动点理论 按照无差异原则,均衡中的q应使这两个表达式相等。
硬币配对博弈的混合策略均衡 也就是:1-2q=2q-1,即q=0.5 对称地,可以得到参与人1的最佳应对p=0.5 参与人2 正面H(q) 反面T(1-q) 参与人1 正面H -1,+1 +1,-1 反面T 也就是:1-2q=2q-1,即q=0.5 对称地,可以得到参与人1的最佳应对p=0.5 因此,(0.5,0.5)是这个硬币配对博弈的混合策略纳什均衡(符合直觉) 不难想到,概率都为1/2的策略,事实上是这里的硬币配对博弈高度对称结构的结果。
混合策略:进一步的例子 持球-抛球博弈 防守方 防守抛球 拦断持球 进攻方 抛球 0,0 10,-10 持球 5,-5 橄榄球赛:进攻方可以选择持球或者是抛球。防御方可以选择拦断持球或者选择防守抛球。 若正确阻止了进攻方的行为,则进攻方的收益为0。 假设进攻方选择持球而防守方却选择防守抛球行为,则进攻方的收益为5(防守方相应损失)。 假设进攻方选择抛球,同时防守方却选择拦断持球,则进攻方的收益是10(防守方相应损失)。 防守方 防守抛球 拦断持球 进攻方 抛球 0,0 10,-10 持球 5,-5
持球抛球博弈的混合策略均衡 这是一个没有纯策略纳什均衡的博弈(检查) 设防守方选择防守抛球的概率为q 进攻方选择抛球的期望收益:0*q+10(1-q) 进攻方选择持球的期望收益:5q+0*q 依无差异原理,令 10-10q=5q,解得 q=2/3 防守方 防守抛球(q) 拦断持球(1-q) 进攻方 抛球 0,0 10,-10 持球 5,-5
持球抛球混合策略均衡(续) 设进攻方选择抛球的概率为p 防守方选择防守抛球的期望收益:-5(1-p) 防守方选择拦断持球的期望收益:-10p 于是,这个博弈的混合策略均衡为(1/3,2/3) 防守方 防守抛球 拦断持球 进攻方 抛球(p) 0,0 10,-10 持球(1-p) 5,-5
讨论 为什么抛球有可能收益更大,而均衡中进攻方选择抛球的概率只有1/3? 为什么进攻方的抛球概率只有p=1/3,但防守方还要更多的防守抛球? 防守抛球(2/3) 拦断持球 (1/3) 进攻方 抛球(1/3) 0,0 10,-10 持球(2/3) 5,-5 为什么抛球有可能收益更大,而均衡中进攻方选择抛球的概率只有1/3? 由于防守方高概率防守抛球,若抛球概率p>1/3,则损失会比较大 为什么进攻方的抛球概率只有p=1/3,但防守方还要更多的防守抛球? 由于抛球对进攻方更有利,需要加大防守力度
假设你得到了 1000次点球的如下数据 你可做什么研究(从数据中得到结论)? 射手是射向左还是右 守门员是扑向左还是右 每次点球得分与否 (忽略中间的情况) 进球%,射向左边(右边)进球%,射门方向与扑球方向一致(不一致)的%,在射门与扑球方向一致(不一致)情况下进球%,… 这数据中是否隐含更加深刻的信息--博弈均衡?
例子:罚点球博弈 2002年,有人做了一项有关罚点球研究 射手要决定从球门的左侧或是右侧进球。 守门员则要决定是扑向左侧或是右侧拦断进球。 两人需要同时做选择。 守门员 L R 射球方 0.58,-0.58 0.95,-0.95 0.93,-0.93 0.70,-0.70 得到如上统计数据。可见,射球方总是有赢头(符合实际)。
发点球博弈的混合策略均衡 计算得到的均衡: 实战统计得到的数据:q=0.42, p=0.40 守门员 L(q) R 射球方 L(p) 0.58,-0.58 0.95,-0.95 0.93,-0.93 0.70,-0.70 计算得到的均衡: 0.58q+0.95(1-q)=0.93q+0.70(1-q),q=0.42 -0.58p-0.93(1-p)=-0.95p-0.70(1-p),p=0.39 实战统计得到的数据:q=0.42, p=0.40 对应前面的示意数据表中的什么数据?
兼具纯策略和混合策略均衡的博弈 例子:不平衡的协调博弈 除了两个纯策略均衡(PPT,PPT)和(Keynote,Keynote)外,还存在一个混合策略均衡:q=2(1-q), q=2/3;p=2(1-p), p=2/3 你的拍档 PPT(q) Keynote 你 PPT(p) 1,1 0,0 2,2
考试-报告博弈没有混合策略均衡 P1(准备报告,q)=q*90+(1-q)*86; P1(复习考试,q)=q*92+(1-q)*88; 你的拍档 准备报告 复习考试 你 90, 90 86, 92 92, 86 88, 88 P1(准备报告,q)=q*90+(1-q)*86; P1(复习考试,q)=q*92+(1-q)*88; 容易检查,不存在q,使 P1(1,q) = P1(0,q)
双人双策略博弈均衡的一般求法 看是否存在纯策略均衡 看是否存在混合策略均衡 分别检查4个纯策略组,看其中的策略是否互为最佳应对,若是,就得到纯策略纳什均衡(可能多个) 看是否存在混合策略均衡 设参与人2采用混合策略q,利用无差异原理,分别写出参与人1采用两个纯策略的收益期望,令它们相等,试求q 设参与人1采用混合策略p,利用无差异原理,分别写出参与人2采用两个纯策略的收益期望,令它们相等,试求p 若求得 0< p, q <1,就得到混合策略纳什均衡 (最多一个)
社会最优 一组策略选择是社会最优的(或社会福利最大化),若它使参与者的回报之和(总收益)最大。 (报告,报告)是社会最优。 帕累托最优:策略组,不可能每人都改善 你的拍档 准备报告 复习考试 你 90, 90 86, 92 92, 86 88, 88
社会最优和纳什均衡有可能一致 按照下面的收益矩阵,(报告,报告)既是社会最优也是纳什均衡 均衡与社会最优一致的系统是理想系统 你的拍档 准备报告 复习考试 你 98, 98 94, 96 96, 94 92, 92 均衡与社会最优一致的系统是理想系统
小结:博弈论基本概念展开的一条线索 其中,我们看到从不同应用背景抽象出来的不同博弈类型 博弈推理假设 最佳应对策略 互为最佳应对 没有均衡? 引入混合策略 均衡与 社会最优 博弈三要素 严格占优策略 纳什均衡 多重均衡? 混合策略均衡的求解 其中,我们看到从不同应用背景抽象出来的不同博弈类型
用博弈论思想分析问题 情景描述 收益矩阵 博弈求解 理解不同博弈的类型,以及求解均衡的方法重要。 从问题(情景)中抽象出博弈三要素(参与人,策略,收益)至少同样重要。