(对应教材第6章) [现代博弈论开始于1928年冯诺伊曼的工作]

Slides:



Advertisements
Similar presentations
大学英语等级考试 考前培训 二O一 O 年 6 月. 各级别考试时间 CET4 : 6 月 19 日 上午: 9:00 - 11:20 CET6 : 6 月 19 日 下午: 15:00 - 17:20 CET3 : 6 月 20 日 上午: 9:00 - 11:15 A 级: 6 月 20 日 上午:
Advertisements

教师资格认定 培 训 会 教师教育学院 了解政策 具备条件 准备材料 (报名、体检 – ) 体检 ( — ) 网上申报 ( ) 实践能力测试 ( ) 专家评审 ( ) 领取证书.
盈泰盛世精选 - 华泰并购投资基金 宝蓄财富 - 产品部. 产品基本要素 产品名称盈泰盛世精选华泰并购投资基金 管理人北京恒宇天泽投资管理有限公司 托管人国信证券股份有限公司 发行规模 1.2 亿元,以实际募集规模为准 人数限制 200 人上限 投资标的本基金委托将主要投向于华泰瑞联二期并 购基金中心(有限合合)(以企业登记的.
鄉土報告 台灣出甜粿 指導老師 : 孫扶志 老師 組員 : 陳昀蓁 劉伊妮 張雅淇 沈秀真
2015 年 4 月 (第一期) 初中数学 14 班 简报 惠州市 2015 年初中教师全员培训.
第四章:长期股权投资 长期股权投资效果 1、控制:50%以上 有权决定对方财务和经营.
從閱讀擺渡到寫作 高雄女中 楊子霈.
8月1日后全国营改增我们怎么办? 营改增新政策深度解析 得法网财税讲师 樊剑英.
小学科学中的化学 武威十九中 刘玉香.
大道当然 ——我与万科 作者 : 王 石 出版:中信出版社.
行政法 之 行政救济篇.
共通能力科研習計劃書 簡 報 篇.
第四章 账户及复式记账的应用 教学目的与要求:本章内容属于会计实务部分。通过本章的教学,使学生掌握制造企业经济业务的核算内容及账务处理,进一步加深对复式记账原理的理解,熟练掌握借贷记账法在制造企业的实际应用。 教学重点:运用借贷记账法对制造企业的经济业务进行账务处理。 教学难点:利润的核算;期末各账户之间的相互结转。
返本归原在课文,精讲多练会高考 ——2012届高三语文复习的几点做法.
2009年普通高等学校招生统一考试云阳中学考点 2009年高考9考前叮嘱 云阳中学余小游.
2011年10月31日是一个令人警醒的日子,世界在10月31日迎来第70亿人口。当日凌晨,成为象征性的全球第70亿名成员之一的婴儿在菲律宾降生。 ?
彰显语文教育特性 立意学生能力发展 ——《语文》新教材第三册解析
成才之路 · 语文 人教版 • 中国古代诗歌散文欣赏 路漫漫其修远兮 吾将上下而求索.
证券交易模拟 第2讲 交易规则与盘面术语.
小微企业融资担保产品介绍 再担保业务二部 贾天
2007年房地产建筑安装企业 税收自查方略 河北省地方税务局稽查局 杨文国.
初级会计实务 第八章 产品成本核算 主讲人:杨菠.
学年各年级上学期期末工作布置会 武昌区教研培训中心 黄志平 2015年12月.
水仙电器财务失败案例.
“活力在基层”团日活动总结 佛山科学技术学院 13教育技术数媒2团支部 本模板来源于网络,由第一课件网整理发布,免费分享给大家使用。
中考阅读 复习备考交流 西安铁一中分校 向连吾.
第八課 蓼莪.
新事业单位会计准则 和事业单位会计制度讲解
考研辅导讲座PPT 思想道德修养与法律基础 主讲:蒋中挺.
中央广播电视大学开放教育 成本会计(补修)期末复习
十二年國民基本教育- 103年中投區(臺中市、南投縣) 適性入學講綱
人教版义务教育课程标准实验教科书 小学数学四年级上册第七单元《数学广角》 合理安排时间 248.
三十集大型红色史诗电视剧 《傅连璋》 策划案.
第二章 命题逻辑(上) 主讲人:耿国华.
第4讲 充分条件和必要条件.
1、命题:可以判断真假的语句,可写成:若p则q。 2、四种命题及相互关系:
高一数学 充分条件与必要条件 教育科学学院03级教育技术2班 刘文平.
人类传播的活动 和历史.
第三章 科学把握人生的方向和道路 教学目标 主要内容 第一节 追求高尚的人生目的 第二节 培养正确的人生态度 第三节 创造有价值的人生
第四章 时间序列的分析 本章教学目的:①了解从数量方面研究社会经济现象发展变化过程和发展趋势是统计分析的一种重要方法;②掌握时间数列编制的基本要求;③理解和掌握水平速度两方面指标的计算及运用④理解和掌握长期趋势分析和预测的方法。 本章教学重点:现象发展的水平指标和速度指标。 本章教学难点:现象变动的趋势分析。
“08高考化学学业水平(必修科目)测试的命题和教学对策研究”
走自立自强之路 自己的事情自己做.
中考语文积累 永宁县教研室 步正军 2015.9.
人類的循環系統.
2013工程工程量清单规范差异对比 住房和城乡建设部干部学院 朱 裕 宽 2012年12月
教学目的和要求 通过阐述新民主主义革命理论,使我们能够深入了解和掌握新民主主义革命理论的形成、基本内容及其意义,认识这一理论是中国革命实践经验的结晶,是中国革命胜利的指南,是马克思主义中国化的重要成果。
第三部分 博弈论 §3.1实验二:双方信任博弈 例如:一厂商支付给一名工人高于均衡水平的工资,并且期望这名工人能够回报以相应的更多的劳动。主动方厂商出于对被动方的信任,率先背离了标准的不合作博弈论所阐述的最优选择,若工人也提供了回报,则双方得到一个合作的结果。在现实中,这样的例子很多,比如酒店会给熟客赊账,而客人也不会赖账,我们将这一类建立在信任基础上的合作波已称为双方信任博弈。
小学数学知识讲座 应用题.
表達技巧.
倒装句之其他句式.
旅游服务与管理专业 知识点7 道教教主老子圣迹 任务三 道 教 主题二 中国四大宗教 辉县市职业中等专业学校 辉县市职业中等专业学校
课程及其教学标准 主讲:傅文清
第 22 课 孙中山的民主追求 1 .近代变法救国主张的失败教训: “师夷之长技以制 夷”“中体西用”、兴办洋务、变法维新等的失败,使孙中山
社會學(一) 空中大學花蓮中心 鍾燕菁
你不理財,財不理你 ─理財面面觀 陳富美 老師 豐東國中.
如何寫工程計畫書 臺北市童軍會考驗委員會 高級考驗營 版.
规范教学,提升质量,迎接评估 ——学校教学管理制度解读
有美为鳞族,潜蟠得所从。标奇初韫宝,表智即称龙。
课前注意 课前注意 大家好!欢迎加入0118班! 请注意以下几点: 1.服务:卡顿、听不清声音、看不见ppt—管家( ) 2.课堂秩序:公共课堂,勿谈与课堂无关或消极的话题。 3.答疑:上课听讲,课后答疑,微信留言。 4.联系方式:提示老师手机/微信: QQ:
大綱:整數的加法 整數的減法 蘇奕君 台灣數位學習科技股份有限公司
2016台中市不動產高峰論壇 房地合一稅與房市政策 德明財經科技大學 花敬群
職業學校群科課程綱要規劃原理及修訂重點 報告人:鄭慶民
欧式复古花纹模板 ST模板 年4月14日.
印天电子白板软件使用讲解 -杨馥宇 QQ:
美丽的旋转.
提昇教師專業會議(華人社區) 「教師專業行為表現」專題討論 學生和家長眼中的教師專業行為 日期:2005年10月29日 地點:香港教育學院C-Lp-01室 主講 :香港教育工作者聯會 韓湛恩老師.
99學年度第1學期夥伴學習教師專業成長研習— 家政科「第五期家政教材資源研發推廣研習」
臺北市國小數學科輔導團兼任輔導員 南湖國小 曾婉菁
畢氏定理(百牛大祭)的故事 張美玲 製作 資料來源:探索數學的故事(凡異出版社).
102年人事預算編列說明 邁向頂尖大學辦公室製作.
Presentation transcript:

(对应教材第6章) [现代博弈论开始于1928年冯诺伊曼的工作] 博弈论基本概念 北大李晓明教授课件 (对应教材第6章) [现代博弈论开始于1928年冯诺伊曼的工作]

博弈实践 出6个同学,每人发两张扑克牌,一张红,一张黑 规则 每人独立决定出哪一张牌,不让其他人看见 如果你出的是红牌,无论别人出什么,都得到1元钱奖励回报; 如果你出的是黑牌,则若其他所有人都出黑牌,你就得4元钱回报;若有任何一人出红牌,则你就必须支付赔偿1元钱 2013年4月3日,课堂实验结果:3红3黑

博弈,关于对抗还是关于合作的学问?

学习要点 通过几种典型博弈的类型 理解博弈论的基本概念 体会“情景博弈求解”过程中的思想 囚徒困境,鹰鸽博弈,猎鹿博弈,… 参与人,策略,收益(收益矩阵) 最佳应对,占优策略 纳什均衡 混合策略,混合策略均衡 社会最优,帕累托最优 体会“情景博弈求解”过程中的思想 博弈:关于“合作”还是关于“竞争”的学问?

博弈,从一个例子开始 “复习考试”还是“准备报告”? 假设在截止日期前一天,你有两件要做的事情:一是复习(为了参加考试),二是准备(给一个报告)。你只能选择做一项。 考试成绩可以预计 如果复习,则考试成绩92分,没复习,则80分 报告需要你和你的搭档合作完成 如果你和搭档都准备报告,则每人都是100分 如果只有一人准备报告,则每人都是92分 如果两人都没准备报告,则每人都是84分 那么你该选择做什么呢?(假设你和搭档各自独立考虑这个问题)

例子:“考试-报告”博弈 设你们都追求平均成绩的最大化: 你和搭档都准备报告,则平均成绩均为(80+100)/2 = 90分 考试成绩可以预期: 如果复习,则考试成绩92分 如果没复习,则考试成绩80分 报告是你和你的拍档合作完成的: 如果你和拍档都准备报告,则每人100 分 如果只有一人准备报告,则每人92分 如果两人都没准备报告,则每人84分 设你们都追求平均成绩的最大化: 你和搭档都准备报告,则平均成绩均为(80+100)/2 = 90分 你和搭档都准备考试,则平均成绩均为: (92+84)/2 = 88分 若一方复习考试,另一方准备报告: 准备报告的得:(80+92)/2 =86分 复习的得:(92+92)/2 = 92分

收益矩阵(表达博弈的一种直观方式) 你的搭档 准备报告 复习考试 你 90, 90 86, 92 92, 86 88, 88 其中第一个数字是“你”的收益,第二个是“搭档”的 收益(也称“回报”、“支付”,payoff)

博弈的基本要素 一般情况下,博弈具有三个要素: (1) 参与者(至少两个); (2) 策略集(行动):每个参与者都有一组关于如何行为的备选项,即他可选的策略。 (3)收益(回报):每个策略行为的选择,都会使参与人得到一个收益。 这个收益结果还受互动中他人策略选择的影响。 (策略组:由每个参与者出一个策略构成的组合) 通常,收益的记号:P1(S,T), P2(S,T) 我们感兴趣的关注点是在给定的博弈中,推理参与人如何进行策略行为抉择。

简单博弈推理的几点基本假设 每个参与人对博弈结构(收益矩阵)有充分了解,且知道对方也了解。信息对称 参与人都是理性的(rational) 追求自己的收益最大化(尽量大) 给定其他人的策略,若自己能通过改变当前策略获得更大收益,则会放弃当前策略,换个更好的 知道其他参与人也是如此 决策的独立性 不商量,没有“攻守联盟”之类的安排

“考试-报告”博弈中的行为推理 你的拍档 准备报告 复习考试 你 90, 90 86, 92 92, 86 88, 88 严格占优策略:对一个参与人(A)来说,若存在一个策略,无论另一个参与人(B)选择何种行为策略,该策略都是最佳选择,则这个策略就称为是A的严格占优策略。按照前面的假设,参与人将选择严格占优策略。 这个例子中,“复习考试”对双方都是严格占优策略。 如果你害怕你拍档可能会对你没有共同准备报告而生气呢?

“囚徒困境” 假设有两个疑犯被警察抓住。并且被分开关押在不同的囚室。 警察强烈怀疑他们和一场抢劫案有关。但是,没有充足的证据。然而,他们都拒捕的事实也是可判刑的。 两个疑犯都被告知以下结果: “如果你坦白,而另外一人抵赖,则你马上释放;另外一人将承担全部罪行,将会被 判刑10年 如果你们都坦白,你们的罪行将被证实。但由于你们有认罪的表现——判刑4年。 如果你们都不坦白,那么没有证据证明你们的抢劫罪,我们将以拒捕罪控告你们——判刑1年。 另外一方也正在接受这样的审讯。你是坦白还是抵赖?”

“囚徒困境”的收益矩阵 疑犯1和疑犯2的严格占优策略都是“坦白” 尽管如果两人都抵赖会都判得少些 -1, -1 -10, 0 0, -10 -4, -4 疑犯1和疑犯2的严格占优策略都是“坦白” 尽管如果两人都抵赖会都判得少些 刻画了“有关个体私利前,建立合作是十分困难的”模型。(个体理性 vs. 集体理性)   如果我们关心某些因素,则应该将它们纳入到收益中考虑。

“兴奋剂”博弈 这种类型通常称为军备竞赛。竞争双方为保持彼此实力相当,都会选择生产更具危险性的武器,尽管对自己内部会有伤害 运动员伤害身体,国家影响民生。 运动员2 没服用 服用 运动员1 3, 3 1, 4 4, 1 2, 2

并不是每人总有严格占优策略 例子:“营销战略”博弈 假设有两家公司,分别要规划生产并销售同一种新产品。该产品有两款可能的规格:廉价(低档)或高档。如何决策? 设顾客总体被分成两个市场:一部分消费群体(60%)只购买廉价商品,另一部分消费群体(40%)只购买高档次商品。 假设每家公司从廉价或高档次商品所得利润是等同的(因此利润仅取决于市场占有率)。 每家公司都追求利润最大化。 如果内容太多,这个例子可以去掉

“营销战略”博弈 高档市场40%廉价市场60% 公司1有严格占优策略(廉价),但公司2没有。 公司2 廉价 高档 公司1 假设 若两家公司分别定位生产不同类型的产品,则每家公司都会得到该商品市场的全部份额。 公司1品牌形象更佳。因此,若这两家公司在同一市场(廉价或高档次)中竞争,则公司1可以得到80%的市场,公司2只能得到20%。 公司2 廉价 高档 公司1 0.48, 0.12 0.6, 0.4 0.4, 0.6 0.32, 0.08 在该博弈例子中,应注意到公司1有一个严格占优策略。相对于公司2的每个策略,公司1的“廉价”策略都是严格最佳应对。另一方面,公司2没有一个占优策略。当公司1采取“高档次”策略,“廉价”策略是其最佳应对;当公司1采取“廉价”策略时,“高档次”是其最佳应对。 应注意到,虽然在推理过程中是分两个步骤进行描述——第一步是公司1的严格占优策略,第二步是公司2的最佳应对。 还应注意到直观的信息预测也具有吸引力。举例来说,公司1是如此强大,进行决策时完全可以无视公司2的决策行为。在该背景下,公司2的最优策略是要谨慎保持避免与公司1的决策冲突。 公司1有严格占优策略(廉价),但公司2没有。

最佳应对 存在性? 唯一性? 设S是参与人甲的一个策略,T是参与人乙的一个策略。在收益矩阵中的某个单元格对应这一对策略(S,T)。 P1(S,T):表示参与人甲从这组决策获得的收益 P2(S,T):表示参与人乙从这组决策获得的收益 最佳应对:针对参与人乙的策略T,若参与人甲采用策略S产生的收益大于或等于自己的任何其他策略,则称参与人甲的策略S是参与人乙的策略T的最佳应对。 P1(S,T) ≥ P1(S’,T) 其中, S’是参与人甲除S外的任何其他策略。 存在性? 唯一性? 最佳应对即是参与人的最好选择。

严格最佳应对 严格最佳应对:若S会产生比任何应对策略T的其他策略都更高的收益,则称参与人甲的策略S是对于参与人乙的策略T的严格最佳应对。 P1(S,T)> P1(S’,T) 其中,S’是参与人甲的所有其他策略。 注:最佳应对的概念是针对对方的某一个策略(T),相对于自己的所有策略而言的 对于同一个T,最多只可能有一个严格最佳应对 对于不同的T,最佳应对可能相同,也可能不同 不一定存在,但存在则唯一 1.参与人1可能存在多个策略,都是策略T的最佳应对。 2.针对另一参与人的策略T,如果存在一个严格最佳应对策略。该参与人一定会选择此严格最佳应对策略。

占优策略与严格占优策略 定义:(从最佳应对角度给出) 参与人甲的占优策略S,是指该策略对于参与人乙的每一策略都是最佳应对。 囚徒困境分析中,实际上也正是因为参与人彼此有严格占优策略,才会使分析过程简单化。 注:占优策略的概念是相对于对方所有策略而言的,而最佳应对是针对单个策略而言。 如果参与人有严格占优策略,则可预期他会采取该策略(与基本假设的一致性)。

 “营销战略”博弈 高档市场40%廉价市场60% 可以预测此博弈的结果是即公司1采取廉价策略,公司2将会采取高档次策略。 公司2 廉价 假设 若两家公司分别定位生产不同类型的产品,则每家公司都会得到该商品市场的全部份额。 公司1品牌形象更佳。因此,若这两家公司在同一市场(廉价或高档次)中竞争,则公司1可以得到80%的市场,公司2只能得到20%。 公司2 廉价 高档 公司1 0.48, 0.12 0.6, 0.4 0.4, 0.6 0.32, 0.08  在该博弈例子中,应注意到公司1有一个严格占优策略。相对于公司2的每个策略,公司1的“廉价”策略都是严格最佳应对。另一方面,公司2没有一个占优策略。当公司1采取“高档次”策略,“廉价”策略是其最佳应对;当公司1采取“廉价”策略时,“高档次”是其最佳应对。 应注意到,虽然在推理过程中是分两个步骤进行描述——第一步是公司1的严格占优策略,第二步是公司2的最佳应对。 还应注意到直观的信息预测也具有吸引力。举例来说,公司1是如此强大,进行决策时完全可以无视公司2的决策行为。在该背景下,公司2的最优策略是要谨慎保持避免与公司1的决策冲突。 可以预测此博弈的结果是即公司1采取廉价策略,公司2将会采取高档次策略。

简单博弈的行为推理 如果两个人都没有严格占优策略呢?(从哪开始推理?) 如果两个人都有严格占优策略,则可以预计他们均会采取严格占优策略; 如果只有一个人有严格占优策略,则这个人会采取严格占优策略,而另一方会采取此策略的最佳应对(一定会有!) 如果两个人都没有严格占优策略呢?(从哪开始推理?)

无占优策略例子(三客户博弈) 假设有两家公司,都希望和A、B、C三个大客户之一洽谈生意。每家公司都有三种可能的策略:是否找客户A、B或C。 它们决策的考量如下: 若两家公司都找同一个客户,则该客户会给每个公司一半的业务。 公司1规模太小,以至于不能靠自身找到客户源。所以,只要它和公司2分别寻找不同的客户洽谈生意,则公司1获得的收益将会是0(生意做不成)。 假设公司2单独寻找客户B或C洽谈生意,则会得到客户B或C的全部业务。但是A 是一个大客户。寻找客户A洽谈生意时,必须和公司1合作才能接下业务。 因为A是一个大客户,和它做生意的收益是8(假设两家公司合作,则每家公司会得到收益4)。但是,和B或C做生意的收益价值是2(合作的话,每个公司收益是1)

“三客户”博弈的推理 收益矩阵 两家公司都没有严格占优策略 如何讨论博弈的走向(结果)? 公司2 A B C 公司1 4,4 0, 2 0,0 1, 1 两家公司都没有严格占优策略 如何讨论博弈的走向(结果)?

纳什均衡 假定参与人甲选择策略S,参与人乙选择策略T。若S是T的最佳应对,且T也是S的最佳应对,则称策略组(S,T)是一个纳什均衡。 在均衡状态,任何参与人都没有动机(理性的理由)去换一种策略。 纳什均衡:互为最佳应对的策略组,谁也不可能通过单方面改变策略而得到额外好处,尽管如果两人都改变可能都会更好(相比都不改变而言) 因此,纳什均衡可以被认为是一种信念上的均衡。如果每个参与人都相信另一方在博弈中实际会采用一个纳什均衡的部分策略,则他/她就有动机采用达成这个纳什均衡中的另一部分策略。

“三客户”博弈的纳什均衡 存在纳什均衡:(A,A) 寻找纳什均衡的两种途径: 公司2 A B C 公司1 4, 4 0, 2 0,0 1, 1 存在纳什均衡:(A,A) 寻找纳什均衡的两种途径: 一是,检查每一个策略组,看它们中的每一项是否是彼此间策略的最佳应对策略。 二是,找出每个参与人对于对方每个策略的最佳应对,然后发现互为最佳应对的策略组。 如果存在多个纳什均衡,怎么办?

多重均衡:协调博弈 多重均衡--存在多个均衡 例子:协调博弈 假设你和你拍档都为一个合作项目准备幻灯片简报(双方不能联系商量)。 你必须决定是用微软的PPT或是用苹果的Keynote软件来制作你负责的半份幻灯片。 假设你们使用同样的软件来设计,那就比较容易合并你们的幻灯片。 一荣俱荣,一损俱损(预期一致性)

协调博弈(无利益冲突) 存在两个纳什均衡:(PPT,PPT),(Keynote,Keynote)。 如何预测协调博弈中参与人的行为? 你的拍档 PPT Keynote 你 1, 1 0,0 1,1 存在两个纳什均衡:(PPT,PPT),(Keynote,Keynote)。 如何预测协调博弈中参与人的行为? 一般来说,从博弈结构本身已经不能预测参与者行为的趋向,需要利用一些外部因素,例如社会习俗。 为什么叫协调博弈?

相向通行问题也是协调博弈 两人相向而行,每人有两个策略“靠左”或是“靠右”,如果一致,则都顺利通过,如果不一致,则谁也通不过。 乙 靠左 甲 1,1 0,0

不对等协调博弈 假设你和项目拍档都更喜欢使用苹果软件。 谢林的聚点理论表明,可以预测参与人会倾向于收益情况更好的均衡(2,2)。 你的拍档 PPT Keynote 你 1, 1 0,0 2,2

两人的喜好不同呢(利益冲突) 假设你和你的拍档喜欢的软件不同。 此时仅从博弈结构很难预测具体哪种均衡会被达到。 可以通过了解他们之间平常发生冲突时解决的惯例来预测。 你的拍档 PPT Keynote 你 1, 2 0,0 2,1

猎鹿博弈(合作有风险) 猎人2 猎鹿 猎兔 猎人1 4,4 0,3 3,0 3,3 假设两猎人外出猎物。若他们合作,则可以猎到鹿(这可以给猎者带来最高的收益)。 猎人若分开单干,都能猎到兔。 若一方想单独猎鹿,则收益是0。另一方依然能猎到兔。 选择何种均衡?要在高收益和由于另一方不合作而造成损失之间进行权衡。   猎人2 猎鹿 猎兔 猎人1 4,4 0,3 3,0 3,3 问题:为什么不是大家都猎鹿呢? 尝试获得较高收益结果一方比起尝试获得较低收益结果的另外一方,会受到更大的惩罚。

鹰鸽博弈(竞争有收益和风险) 假设两只动物要决定一块食物的分配。 每只动物都可以选择争夺行为(鹰派策略)或分享行为(鸽派策略)。 若两种动物都选择分享行为,它们将会均匀的分配食物,各自的收益是3。 若一方行为表现为争夺,另一方行为表现是分享,则争夺方会得到大多数食物,获得收益是5,分享方只能得到收益为1。 当两只动物都表现为争夺行为,由于在争夺中践踏了食物,则它们得到的收益将为0。 在这种均衡中,参与人可以进行一种“反协调”活动。可能这类博弈的最基本形式就是鹰鸽博弈。

鹰鸽博弈的推理 很难预测参与者的行为 一般来说,纳什均衡概念能有助于缩小预测范围,但它并不一定能给出唯一的预测。 动物2 鸽派 鹰派 动物1 3,3 1,5 5,1 0,0 很难预测参与者的行为 一般来说,纳什均衡概念能有助于缩小预测范围,但它并不一定能给出唯一的预测。

几种典型多重均衡博弈类型对比 你的拍档 PPT Keynote 1,1 0,0 2,2 你的拍档 PPT Keynote 1,2 0,0 2,1 猎人2 猎鹿 猎兔 4,4 0,3 3,0 3,3 动物2 鸽派 鹰派 3,3 1,5 5,1 0,0

博弈游戏 10个数,两人各选5个数,无重复就赢 10块钱,两个人各选一个数,和小于10就得到钱 两个人各写五个地名,不重复,就赢: 一个人必须包含北京,另一个人必须包含上海

简单博弈的推理(进一步) 如果不存在纳什均衡,该怎么办? 如果双方都有严格占优策略,则都会采用 如果只有一方有严格占优策略,则可以预测另一方会采用此策略的最佳应对 如果不存在严格占优策略,则寻找纳什均衡 存在一个纳什均衡,该均衡对应合理结果 存在多个纳什均衡(需要额外信息辅助推断) 协调博弈,鹰鸽博弈 均衡有助于缩小考虑范围,但不保证有效预测 如果不存在纳什均衡,该怎么办?

一个不存在纳什均衡的例子 硬币配对:“零和博弈”(zero sum game) 甲乙各持一枚硬币,同时选择手中硬币的正反面。 若他们硬币的朝向相同,乙将赢得甲的硬币。反之,甲将赢得乙的硬币。 参与人乙 正面H 反面T 参与人甲 -1,+1 +1,-1 如果不存在纳什均衡,该怎么办? 对于此类博弈是通过扩大策略集,包括随机性行为的概率,对参与人的行为进行预测。一旦放开参与人可以随机性行为条件,依据约翰纳什主要结论之一,在该背景下的博弈仍会存在均衡[313,314]。 此时,不存在一组互为最佳应对策略(纯策略意义下的纳什均衡)

如果这样的博弈重复进行若干次,你会如何考虑自己的策略? 预测对方采用不同策略的概率,据此确定自己的策略(概率) 不要让对方了解自己采用不同行为的概率 此时,你的“策略”可以看成是在两种固定行为(纯策略)之间选择的概率。

混合策略的引入 引入随机性,考虑参与人将以一定的概率分布在不同策略间进行选择,一种分布对应一个“策略”(称为混合策略,此时,选择策略就是选择分布) 对于双策略(H和T)博弈,混合策略则可简略表示为一个概率。 通常,我们说 参与人1的策略是概率p,是指他以概率p执行H;以概率 1-p执行T(用<p,1-p>表示,但在可理解场合通常就用p)。 参与人2的策略是概率 q,是指他以概率 q执行H,以概率 1-q 执行T 注意,引入混合策略后,博弈的类型已经改变

作为博弈,三要素齐了没有? 参与人 策略(概率) 收益 ✔ ✔ ? 此时的策略是在两种固定(纯)策略上选择的概率,每一组纯策略是对应有固定收益的。因而,从概率意义出发,此时的收益应该体现一种在两种纯策略上的“平均”(期望)。

一个需要用到的概念:收益期望 考虑一枚不均匀的硬币,抛掷后随机落下正面朝上的概率为0.3,反面的概率为0.7 如果正面朝上,你得到5元,反面朝上,你得到2元 抛掷这枚硬币你预期能得到的收益是多少? 0.3*5 + 0.7*2 = 2.9

一般地 两个随机事件H和T,如果H出现,你得回报PH,T出现,你得回报PT 假设H出现的概率为p,T出现的概率为1-p,你预期得到的回报是多少? 用概率论的术语,这也称为是“期望”,也就是一种“加权平均”。

讨论混合策略的框架(双人双策略) 从一个纯策略博弈出发,如下定义混合策略 参与人:与纯策略情形相同 参与人的策略:在各自纯策略集合上的一个概率分布 于是,存在有无穷多个策略 某参与人在策略组(p,q)上的回报:基于在纯策略上的收益,按照自己和他人的策略概率p,q算得的收益期望 不同的(p,q)导致不同的回报

混合策略收益算例 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,甲和乙的回报 P1(p,q)? P2(p,q) ? L(q) R(1-q) 甲 U(p) 4,4 0,3 D(1-p) 3,0 3,3 混合策略收益算例 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,甲和乙的回报 P1(p,q)? P2(p,q) ? 对甲而言,他的回报就是按照概率0.1和0.9,分别采用策略U和D得到的收益期望; 我们也特别注意到,当甲采用U策略的时候,是需要考虑乙按照概率0.2和0.8分别采用L和R策略的 这里,P1(U,q)指的是“P1取策略U的收益期望”,它等于“在P2采用分布(q,1-q)策略,P1取策略U的收益期望” P1(0.1,0.1)=0.1*P1(U,q)+0.9*P1(D,q) = 0.1*[q*P1(U,L)+(1-q)*P1(U,R)]+0.9*[q*P1(D,L)+(1-q)*P1(D,R)] = 0.1*[0.1*4+0.9*0]+0.9*[0.1*3+0.9*3] = 0.1*0.4 + 0.9*[0.3+2.7] = 0.04+2.7=2.74

算例(续) 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,甲和乙的回报 P1(p,q)? P2(p,q) ? 乙 L(q) R(1-q) 甲 U(p) 4,4 0,3 D(1-p) 3,0 3,3 算例(续) 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,甲和乙的回报 P1(p,q)? P2(p,q) ? 这里,P1(U,q)指的是“P1取策略U的收益期望”,它等于“在P2采用分布(q,1-q)策略,P1取策略U的收益期望” P1(0.1,0.1)=0.1*P1(U,q)+0.9*P1(D,q) = 0.1*[q*P1(U,L)+(1-q)*P1(U,R)]+0.9*[q*P1(D,L)+(1-q)*P1(D,R)] = 0.1*[0.1*4+0.9*0]+0.9*[0.1*3+0.9*3] = 0.1*0.4 + 0.9*[0.3+2.7] = 0.04+2.7=2.74

算例(续-) 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,计算回报P2(p,q) ? 乙 L(q) R(1-q) 甲 U(p) 4,4 0,3 D(1-p) 3,0 3,3 算例(续-) 根据右图基本收益矩阵,考虑混合策略,试求p=0.1,q=0.2 时,计算回报P2(p,q) ? 这里,P1(U,q)指的是“P1取策略U的收益期望”,它等于“在P2采用分布(q,1-q)策略,P1取策略U的收益期望” P1(0.1,0.1)=0.1*P1(U,q)+0.9*P1(D,q) = 0.1*[q*P1(U,L)+(1-q)*P1(U,R)]+0.9*[q*P1(D,L)+(1-q)*P1(D,R)] = 0.1*[0.1*4+0.9*0]+0.9*[0.1*3+0.9*3] = 0.1*0.4 + 0.9*[0.3+2.7] = 0.04+2.7=2.74

但是,在研究一个混合策略博弈的时候,我们一般并不关心在每个策略下的具体回报情况,而是关心是否能达到均衡?在什么混合策略组下达到均衡?哪两个策略(概率)是互为最佳应对?

混合策略的均衡:互为最佳应对 在各自概率策略的选择下,双方的收益期望互为最大(任何单方面改变不会增加其收益) 纳什的奠基性贡献:证明了具有有限参与者和有限纯策略集的博弈一定存在纳什均衡(包括混合策略均衡) 一般来说,找到混合策略的纳什均衡是很困难的,但在某些特定条件下能有系统的方法。

双人双策略、不含纯策略均衡的博弈中的混合策略纳什均衡求解 考虑硬币面向的博弈 他 正面H 反面T 你 H -1,+1 +1,-1 T 你若知道对方的策略是以0.7的概率出H,你会采取什么策略?如果他的概率是0.2呢? 实际上,这便是在引入随机化时的最初直觉:每个参与人都想要对对方隐藏自己的行为,所以,他们各自的行为很难被对方得知。 你若知道对方的策略是以0.5的概率出H,你会采取什么策略? 你若不知道对方的策略,你会以什么概率出H?

“0.5”策略在此有什么特别? 如果对方用0.5,我出什么都无所谓 即:我的任何策略都是它的“最佳应对” 他 正面H 反面T 你 H -1,+1 +1,-1 T 反过来也一样,如果我用0.5,对方出什么(对他来说)都是一样的回报 即:(0.5,0.5)是“互为最佳应对”

由此我们可以体会到 一对混合策略互为最佳应对的必要条件是它们分别使得对方在两个纯策略选择上得到的回报无差异。 这就是我们借以求解混合策略均衡的原理--无差异原理 做法是:设甲方的混合策略概率为p,写出乙方在两个纯策略上分别的收益期望,令它们相等,方程的解即为甲方的均衡策略 好的概率策略就是让对方不知道哪个(纯)策略更好的策略 好的概率策略就是使对方不知道用哪个纯策略更好的策略

混合策略的收益 设参与人1采用概率p执行H,1-p执行T,则: 若参与人2采用H,则他的收益期望是 若参与人2采用T,则他的收益期望是 这是两个关于p的线性表达式,令它们相等,若唯一解存在且在(0,1)中,则求得了参与人1的均衡策略p

混合策略的均衡计算例子 用收益期望来表达回报 当参与人2采用策略<q,1-q>时,参与人1使用不同纯策略的回报分别为: 参与人2 纯策略H的期望收益 = (-1)(q)+(+1)(1-q) = 1-2q 纯策略T的期望收益 = (1)(q)+(-1)(1-q) = 2q-1 参与人2 正面H(q) 反面T(1-q) 参与人1 正面H -1,+1 +1,-1 反面T 纳什均衡,不动点理论 按照无差异原则,均衡中的q应使这两个表达式相等。

硬币配对博弈的混合策略均衡 也就是:1-2q=2q-1,即q=0.5 对称地,可以得到参与人1的最佳应对p=0.5 参与人2 正面H(q) 反面T(1-q) 参与人1 正面H -1,+1 +1,-1 反面T 也就是:1-2q=2q-1,即q=0.5 对称地,可以得到参与人1的最佳应对p=0.5 因此,(0.5,0.5)是这个硬币配对博弈的混合策略纳什均衡(符合直觉) 不难想到,概率都为1/2的策略,事实上是这里的硬币配对博弈高度对称结构的结果。

混合策略:进一步的例子 持球-抛球博弈 防守方 防守抛球 拦断持球 进攻方 抛球 0,0 10,-10 持球 5,-5 橄榄球赛:进攻方可以选择持球或者是抛球。防御方可以选择拦断持球或者选择防守抛球。 若正确阻止了进攻方的行为,则进攻方的收益为0。 假设进攻方选择持球而防守方却选择防守抛球行为,则进攻方的收益为5(防守方相应损失)。 假设进攻方选择抛球,同时防守方却选择拦断持球,则进攻方的收益是10(防守方相应损失)。 防守方 防守抛球 拦断持球 进攻方 抛球 0,0 10,-10 持球 5,-5

持球抛球博弈的混合策略均衡 这是一个没有纯策略纳什均衡的博弈(检查) 设防守方选择防守抛球的概率为q 进攻方选择抛球的期望收益:0*q+10(1-q) 进攻方选择持球的期望收益:5q+0*q 依无差异原理,令 10-10q=5q,解得 q=2/3 防守方 防守抛球(q) 拦断持球(1-q) 进攻方 抛球 0,0 10,-10 持球 5,-5

持球抛球混合策略均衡(续) 设进攻方选择抛球的概率为p 防守方选择防守抛球的期望收益:-5(1-p) 防守方选择拦断持球的期望收益:-10p 于是,这个博弈的混合策略均衡为(1/3,2/3) 防守方 防守抛球 拦断持球 进攻方 抛球(p) 0,0 10,-10 持球(1-p) 5,-5

讨论 为什么抛球有可能收益更大,而均衡中进攻方选择抛球的概率只有1/3? 为什么进攻方的抛球概率只有p=1/3,但防守方还要更多的防守抛球? 防守抛球(2/3) 拦断持球 (1/3) 进攻方 抛球(1/3) 0,0 10,-10 持球(2/3) 5,-5 为什么抛球有可能收益更大,而均衡中进攻方选择抛球的概率只有1/3? 由于防守方高概率防守抛球,若抛球概率p>1/3,则损失会比较大 为什么进攻方的抛球概率只有p=1/3,但防守方还要更多的防守抛球? 由于抛球对进攻方更有利,需要加大防守力度

假设你得到了 1000次点球的如下数据 你可做什么研究(从数据中得到结论)? 射手是射向左还是右 守门员是扑向左还是右 每次点球得分与否 (忽略中间的情况) 进球%,射向左边(右边)进球%,射门方向与扑球方向一致(不一致)的%,在射门与扑球方向一致(不一致)情况下进球%,… 这数据中是否隐含更加深刻的信息--博弈均衡?

例子:罚点球博弈 2002年,有人做了一项有关罚点球研究 射手要决定从球门的左侧或是右侧进球。 守门员则要决定是扑向左侧或是右侧拦断进球。 两人需要同时做选择。  守门员 L R 射球方 0.58,-0.58 0.95,-0.95 0.93,-0.93 0.70,-0.70 得到如上统计数据。可见,射球方总是有赢头(符合实际)。

发点球博弈的混合策略均衡 计算得到的均衡: 实战统计得到的数据:q=0.42, p=0.40 守门员 L(q) R 射球方 L(p) 0.58,-0.58 0.95,-0.95 0.93,-0.93 0.70,-0.70 计算得到的均衡: 0.58q+0.95(1-q)=0.93q+0.70(1-q),q=0.42 -0.58p-0.93(1-p)=-0.95p-0.70(1-p),p=0.39 实战统计得到的数据:q=0.42, p=0.40 对应前面的示意数据表中的什么数据?

兼具纯策略和混合策略均衡的博弈 例子:不平衡的协调博弈 除了两个纯策略均衡(PPT,PPT)和(Keynote,Keynote)外,还存在一个混合策略均衡:q=2(1-q), q=2/3;p=2(1-p), p=2/3 你的拍档 PPT(q) Keynote 你 PPT(p) 1,1 0,0 2,2

考试-报告博弈没有混合策略均衡 P1(准备报告,q)=q*90+(1-q)*86; P1(复习考试,q)=q*92+(1-q)*88; 你的拍档 准备报告 复习考试 你 90, 90 86, 92 92, 86 88, 88 P1(准备报告,q)=q*90+(1-q)*86; P1(复习考试,q)=q*92+(1-q)*88; 容易检查,不存在q,使 P1(1,q) = P1(0,q)

双人双策略博弈均衡的一般求法 看是否存在纯策略均衡 看是否存在混合策略均衡 分别检查4个纯策略组,看其中的策略是否互为最佳应对,若是,就得到纯策略纳什均衡(可能多个) 看是否存在混合策略均衡 设参与人2采用混合策略q,利用无差异原理,分别写出参与人1采用两个纯策略的收益期望,令它们相等,试求q 设参与人1采用混合策略p,利用无差异原理,分别写出参与人2采用两个纯策略的收益期望,令它们相等,试求p 若求得 0< p, q <1,就得到混合策略纳什均衡 (最多一个)

社会最优 一组策略选择是社会最优的(或社会福利最大化),若它使参与者的回报之和(总收益)最大。 (报告,报告)是社会最优。 帕累托最优:策略组,不可能每人都改善 你的拍档 准备报告 复习考试 你 90, 90 86, 92 92, 86 88, 88

社会最优和纳什均衡有可能一致 按照下面的收益矩阵,(报告,报告)既是社会最优也是纳什均衡 均衡与社会最优一致的系统是理想系统 你的拍档 准备报告 复习考试 你 98, 98 94, 96 96, 94 92, 92 均衡与社会最优一致的系统是理想系统

小结:博弈论基本概念展开的一条线索 其中,我们看到从不同应用背景抽象出来的不同博弈类型 博弈推理假设 最佳应对策略 互为最佳应对 没有均衡? 引入混合策略 均衡与 社会最优 博弈三要素 严格占优策略 纳什均衡 多重均衡? 混合策略均衡的求解 其中,我们看到从不同应用背景抽象出来的不同博弈类型

用博弈论思想分析问题 情景描述 收益矩阵 博弈求解 理解不同博弈的类型,以及求解均衡的方法重要。 从问题(情景)中抽象出博弈三要素(参与人,策略,收益)至少同样重要。