博弈论的诡计.

博弈论的诡计

无聊的开头英文名 Game Theory，是数学的一个分支。 1944年冯·诺依曼等著《博弈论与经济行为》。被称为博弈论之父。
相关术语：帕累托最优，纳什均衡等等…… 但是这些都不重要，我们不是来上课的。本沙龙的脉络就是一个个小模型加上生活中的应用。博弈论和棋牌、桌游的区别：与对手策略同步性，零和性等。博弈论四要素：参与者，信息，策略，收益。下面从最土鳖但最经典的囚徒博弈开始：

囚徒困境两个囚犯被隔离审查，假设各自的策略只有两个：招供和抵赖。最终结果（二人都知道）分布（Key：但不知道对方决策）
可以看出无论对方如何选择，自己招供都是最优选择。但是双方都抵赖是总体最优的选择。达到总体最优的风险：对方背叛。案例：巴结上司否？烟草公司做广告否？搞军备竞赛吗？

如何应对强行减少选项（黑帮老大的威胁，扔方向盘的玩命车手）。如果能知道对方的选择，自己可以协调自己的选择：老柴已经招了；田忌赛马。
很可能“大家想的越多越吃亏”：甲乙各花80元买了花瓶。托运时全部损坏。航空公司的奇葩赔偿规定是：双方各在100元内写一个价格。如果甲乙价格相等则照价格赔偿，否则依照较少的价格赔偿二人，但给“说真话”（即报价较低）者奖励2元。如果谁放弃理赔（即报0元），航空公司付安慰款1元。结果是……请大家自行脑补。双方唯一的“最优化”可能是都报0 元。

如何应对·续强行给自己增加约束可以使双方共同得利。
案例：甲乙两家音像店某音响的进价均为150美元，零售价均为 200美元。假设群众眼睛雪亮，永远第一时间获得减价信息并永远购买价格较低的音响。则正常情况下，两家店的唯一策略是都卖150美元。甲音像店采取措施，向乙音像店以及群众表示自己推出“双倍差价返还”策略：本店音响售价200美元，如果顾客在别处发现价格更低的音响，本店按照差价双倍赔偿。即：如果乙店音响售价 180美元，则在甲店购买音响的花费为200-（）*2=160美元。当然，下限是0美元。这样，乙店的降价反而变成了甲店的促销甚至倾销，只会降低自己的销售量。

类似的模型赛车手博弈。玩命的两个赛车手笔直向对方开去，先怂得转开的算输。无纳什均衡。 “最好”的策略是率先扔掉方向盘并让对手看到。
乙转开乙不转甲转开（-2，-2）（-2，+5）甲不转（+5，-2）（-100，-100）

不对称的双人博弈智猪博弈：大猪小猪被关在长条形笼子里。笼子一头有按钮，按下会在另一端的食物槽里出现10单位的食物。起始大小猪都在食物槽处。奔跑到按钮处再回到食物槽处所消耗的体力为5，这段时间直到对手吃完大猪能吃8单位食物，小猪能吃4单位。不对称性：小猪宁可坐着饿死也不会去按按钮。看似强势的一方往往会吃亏。弱势的一方往往光脚不怕穿鞋的而得利。小猪去按钮小猪不去按钮大猪去按钮（+1.7，-1.7）（+1，+4）大猪不去按钮（+8，-3）（0，0）

本例子与上条类似，都是通过客观条件来强行删除对对方最有利的选项。
生活案例：伍子胥被楚王追杀，楚王全国通缉一定要捉活的捉到了有重赏。伍子胥在关隘被士兵捉到，但骗他说：“楚王抓我是因为我偷了他的宝珠，我中途给弄丢了。你要是把我送到楚王那里，我就诬陷是你抓到我后自己私吞了，你就得陪我死，你看着办吧。本例子与上条类似，都是通过客观条件来强行删除对对方最有利的选项。士兵抓人士兵不抓人伍子胥不诬陷（-200，+10）（0，0）伍子胥诬陷（-200，-200？）

智猪博弈续如果群体中有实力雄厚的一方，则往往他会起到领袖作用，允许个别个体作弊。安利公司的无条件退货政策。（但是在中国失败了）
各大化妆品公司专柜的免费小样。（有种去中国试试）美国的社会福利政策。（中国也有低保……）其他解决方法：减量：大家都不去按钮；增量：谁想吃谁按，但是前提是你得有那么多食物；减量加移位：把按钮做的离食槽近一些，合理！案例：公司的奖励机制。

多人博弈：人性伦理背叛广泛存在于生活中，在桌游里具体化和明显化：三国杀，救生艇，富饶之城等。
多人博弈：人性伦理背叛广泛存在于生活中，在桌游里具体化和明显化：三国杀，救生艇，富饶之城等。除非靠一己之力能够摆平全部敌人比如三国后期的魏（晋）（秦灭六国都不算），否则都要考虑适度的、暂时的结盟。利用，很多时候是强行利用他人的力量。枪手博弈。三个火枪手甲乙丙生死斗。每个人的目标都是自己存活的前提下杀死其余二人。比赛规则是裁判一声令下三人同时开枪（可自行选择两个目标中的一个）。如果还有两个或以上的人存活，则再来一轮直到全部死亡或者只剩一人。假设甲乙丙的命中率分别是90%，80%和50%。你觉得谁赢面大？案例：

枪手博弈的获胜元素：低调，一定要低调。枪打出头鸟。
变体规则：甲乙丙命中率不变目的不变，规则改为按照丙-甲-乙- 丙-的顺序开枪。你是丙，你打谁？答案很奇怪：丙的最优策略是放空枪（这答案有点耍赖）。要点：让两大势力互相制衡，避免平衡迅速坍塌。

重复博弈与前面介绍的一次性博弈相比，重复博弈的最大特点在于背叛策略虽然能一时得利，但是由于自己的背叛打来的日后惩罚可能会对长期效益不利。（关键词：信誉，名声）服务质量与产品质量最差的地方：火车站长途汽车站。服务质量与产品质量最好的地方：学校和居民区（私营）。甚至有的时候背叛者总比守信者得利，因此守信者会被现实逼迫发展为背叛者。案例：班级活动集合时间的变动。

如何应对：惩罚机制对于背叛者予以惩罚。惩罚的根本目的不在于让受罚者受苦，而在于威吓背叛这一行为，避免出现更多的背叛者。
案例：我儿子杀了你儿子，你何必逼着要判我儿子死刑，我儿子死了你儿子也不能复活啊。案例：班级活动，超过约定时间后就不等人。我们的生活本身就是与很多其他人的长期重复博弈，做个好人，尽管偶尔会吃亏会郁闷，但长期来看，是较优的选择。但是毫无原则的烂好人一定会被人欺负甚至带坏风气，所以要做一个“有原则”的好人。

密歇根大学埃克斯罗德教授教你做人

研究前提：每个人都是自私的；没人有权利干预他人决策。
研究目的：人为什么要合作；人什么时候合作什么时候不合作；如何使别人与你合作。参赛者：各种算法。每次在做决策之前可以知道你与它的合作历史。共60个，外加三个简单的算法（永远合作的烂好人，永远背叛的纯坏蛋，永远一半几率合作一半几率背叛的神经病）。过程：每一对算法都进行上百次重复囚徒博弈。不知道何时结束。冠军：“一报还一报”算法夺冠。“善意”算法排名远高于“恶意”算法。结果：前15名只有一个恶意算法（哈灵顿算法），后15名只有一个善意算法（就是那个永远合作的烂好人算法）。

继续教做人 “一报还一报”算法：第一步合作，以后每一步都重复对方上一步对自己的行动。特点：善良，可激怒，宽容，简单，不耍小聪明。
做人，交友，恋爱，也建议这样。做不到以上五点的程序，也许会在与某一些程序的博弈过程中永远占便宜，也许会在一小段时间内对所有程序占便宜，但是绝对不会在长期的和所有程序的博弈中占便宜。

第二关：生存模式一报还一报算法在静态群体中有优势。教授桑又想研究它在动态群体中的表现。
生存模式规则：每一轮后结算分数，得分高的算法会自我繁殖；得分低的算法所占比例会下降甚至消亡。（也可以理解为得分低的算法去学习得分高的算法）结果：初始只有1/63的一报还一报算法最后稳定地占有了24%。恶意算法的表现更拙劣。因为恶意算法的主要得分来源是过度善意的烂好人算法，而这些算法很快会消亡，因此恶意算法也会跟着消亡。（经典例子：狡猾的哈灵顿算法消亡）结论：“共同演化会使有原则的好人行为在这个充满背信弃义的世界里蔚然成风”

一报还一报的漏洞：容错率案例：吴楚大战吴国边境小镇卑梁与相邻的楚国边境小镇钟离接壤，双方居民友好相处。
吴国某小孩与楚国某小孩在一次采桑叶过程中发生矛盾并打架。发展为两家大人的争斗。发展为两村的械斗。楚国出兵占领卑梁。吴国出兵收复卑梁并占领钟离。楚国为了报复去攻打吴国的属国宋国。吴国派孙武救援，反杀楚国，占领楚国国都郢。

问题出在哪？对于误会的容忍度为零，容易“小题大做”。在计算机竞赛中不会出现，因为计算机不会犯错误。
无论“犯错误”（指实际行动与自己算法给出的行动相反）的概率有多低，长期来看，两个一报还一报的算法都会处于一半合作一半对抗的状态。修正：“再一再二不能再三的一报还一报”。具体：在对方背叛时，如果对方的总背叛比例或近期背叛比例不高，则继续合作。问题：如何确定阈值。案例：希特勒打欧洲。

回到多人博弈，谈谈人质困境 1956年2月24日苏共第二十次代表大会。赫鲁晓夫做了《关于个人崇拜及后果》。中心思想就是喷斯大林，那个非常信任自己、把自己视为左右手的斯大林。后来的党代会上正当赫鲁晓夫喷得起劲的时候，底下传来一张纸条写着：当时你在哪里？机智的中年赫鲁晓夫向全场朗读了纸条，然后说：“写这个纸条的同志请你站起来。”全场寂静无声。赫鲁晓夫说：“那我回答你，我当时就在你现在坐着的地方。” 赫鲁晓夫的依据：哥因此才活到了现在。对比1939年与1934年苏共大会情况。2000名代表只剩下35人，131名中央委员的98人、3/5的红军将领、所有11名副国防委员、所有军区司令、最高军委会80名委员的75名被清洗。

问题出在哪？还是枪打出头鸟众人合力可成功，但是挺身而出者的风险极大。案例：被一两个持刀劫匪洗劫的整个大巴车的旅客。
案例：马丁·尼莫勒：“刚开始时，他们镇压共产主义者，我没说话，因为我不是共产主义者………………”。明哲保身是短时间的优选策略，长期来看则不然。

与对手合作很多时候，你需要与你的对手合作。大多数这样合作的目的是使自己有存在感以及扼杀潜在的新生对手。
纪伯伦《魔鬼》：教士的任务是教导人们摆脱魔鬼的诱惑，但是一天在野外看到奄奄一息的魔鬼却把他救活了。因为如果魔鬼死亡，教士也失去了存在的价值。赵普和徐达点赞。文种和韩信表示不服，苏共将军们表示不服。 “兔死狗烹”“太平本是将军定，不许将军见太平”。可口可乐公司与百事可乐公司。麦当劳与肯德基。

最优的策略可能是随机的小偷与警察博弈：假设城市里只有甲乙两个可偷的地点。只有一个警察和一个小偷。甲处成功偷窃
可获得一万元，乙处两万元。被抓到的罚金是五万元。警察和小偷均无优势确定性策略。警察的优势策略是随机策略：每天以1/3概率去甲处巡查，2/3概率去乙处。小偷的优势策略也是随机的：每天以2/3概率去甲处偷，1/3概率去乙处。相似案例：各种球类运动里攻守双方的博弈，以及……

随机策略的优势：不可预测性导致全盘防守。
案例：唐鞅讽宋康王纳谏。随机策略的劣势：法不制众，效果不佳。案例：征兵。对于不报到的百姓进行惩罚。但是如果全部百姓都不报到，大家都会抱着侥幸心理。对策：改回确定性策略。如果有不报到的，按照百家姓顺序惩罚。可触发多米诺效应使全部百姓应征。

倒推博弈思路特点：如果我###，那么他会###，所以我应该###。
经典例子：五个强盗分金币。五个强盗（编号一至五）抢到100 枚金币。他们制定了以下蛋疼的分配规则：由一号提出一个分配方案，其余人投票，如果赞同人数不小于投票人数的一半，则方案成立，游戏结束。否则将一号弄死，二号继续提方案，规则相同。直到某人的方案成立或者只剩下五号。假设：所有强盗纯理性，绝对有头脑，在利益相同的情况下随机选择。问：如果你是一号，你提什么方案？

1.如果轮到四号提案（即一二三号被干掉）。他的理性提案是 [0,0,0,0,100]。
2.四号强盗策略：绝对不能让三号死（否则会出现情况1），因此如果轮到三号提出方案（即一二号被干掉），只要他提出的是 [0,0,99,1,0]方案，四号就会赞成。 3.回到五号，五号不希望二号死（否则就会出现情况2）。因此二号只要给五号1枚金币即可收买之。另外，如果出现情况2，四号的收益是1，所以2枚金币即可收买。所以如果是二号提案（即一号被干掉），他的理性提案是[0,97,0,2,1]。四号和五号会赞成。 4.同理。一号只要给三号1枚、五号2枚金币，此二人就会被收买。因此一号的提案是[97,0,1,0,2]。

番外篇：有趣的倒推法两个聪明人做一个游戏，由裁判写两个相邻的正整数，每人发一张。比如两个数是16与17。然后裁判不断询问二人是否知道对方的数字。一百个聪明人做一个游戏，大家都闭眼由主持人为自己戴帽子。帽子只有红白两种。事实上主持人给所有人戴的都是白帽子。主持人通知大家场上至少有一顶白帽子。然后不断询问大家是否知道自己帽子的颜色。（类似的还有脏脸博弈）

动态博弈关键词：时间成本案例：公平分蛋糕。正常条件下，二人分蛋糕可以由一人分成两份，第二人取自己认为较大的一份。
追加时间成本：每次提议被否决后蛋糕因融化而减半。正常提案是第一人提出一人一半，第二人答应。假设每次蛋糕会融化最初的三分之一：依然使用倒推法，顺序是甲乙甲来提议。最后一个阶段（第三阶段）即使甲大获全胜也只能获得1/3。所以乙第二阶段的提议为二人评分2/3个蛋糕。即：如果有第二阶段，乙最多获得1/3个蛋糕。甲知道这个，所以在第一阶段的分配是自己2/3少一点点，乙是1/3多一点点。类似案例：手里的一笔钱如何投资，NBA劳资协议，开发者与商店的利益分配。(Exploration and Exploitation)

动态博弈的阴招：转移对方目标两个真实的故事。
军训，因为总领导是化学系的老师，因此教官们为了舔菊把内务、体操、正步、歌唱以及军体拳第一名全部颁给了化学系所在的连队（一共二十六个连）。信科的三个连队罢训以示抗议，得到了化学连以外的所有连队的支持。本来大家商量好等最后一天诗朗诵比赛主持人宣布化学系选手冠军后大家一起离场。但主持人宣布信科选手夺冠。一时间，信科三个连队山呼噢耶。 MSU学生会宣布要与校方交涉要求涨工资。校方的反应是不但不涨，反而取消博士生在校停车场的停车权利。学生会经过两个月的不懈努力，终于迫使校方取消了取消博士生停车权利的决定，获得了圆满的胜利。

路径依赖理论如果我们最初做了一个决定或养成某种习惯，那即使这个决定或习惯有很多问题，我们也往往不愿意去改变，宁可将错就错。
案例：管仲论马棚栅栏的编排：前几个偏了，后面就永远正不了了。案例：现代铁路两条铁轨之间的距离是1435毫米，因为这是电车的轨距（早起铁路由电车工人修建）是如此，因为马车轮距是如此，因为英国马路的辙迹宽度是如此，因为罗马战车的宽度是如此，因为那是两屁马屁股的宽度。所以马屁股的宽度决定了现代铁路的轨距。案例：QWERTY键盘与DSK键盘。

超速博弈如果超速的人的比例大，大家就都会倾向于超速；反之亦然。
解决方法：短时间内强行提高守法人的比例。后期即可自行消化其余超速者。案例：孙叔敖改革车座高度。种世衡宽州鼓励百姓射箭。

信息不对称的博弈之前我们讨论的所有博弈都假设所有参与者拥有所有信息，并且对于对手的信息拥有量拥有比无穷阶认知更高的认知：共同认知。
之前我们讨论的所有博弈都假设所有参与者拥有所有信息，并且对于对手的信息拥有量拥有比无穷阶认知更高的认知：共同认知。二手车市场博弈：信息不对称的典型。购买者倾向于出低价，质量好的车卖不出去，只能被市场淘汰，最后市场里只剩下次品。 “看不见的手”失效。类似的还有人才市场。在央视做广告的问题。尽管把央视黄金时间的广告费分散到地方电视台能得到更好的收视率，但是各大厂商还是对央视趋之若鹜。原因是他们的目的不单是收视率，也是展示自己实力的机会。斥巨资请明星代言同理。

有限次的沟通没有用案例：吴将军与姜将军分别拥兵在两个山头，中间是土匪牛头领。牛头领的兵力很足，必须二位将军同时夜袭才能击破。假设二位将军唯一的联系方式是互相派遣传令兵约定夹击时间，但是传令兵到对面山头必须经过牛头领的营地因此有20%的概率被捕导致其警觉，夹击将失败。由于有限次认知永远达不到共同认知，因此无论传令兵穿梭多少次，都无法以百分百概率夹击成功。

信息传递的技巧芝大和哥大教授推荐如果你有一大一小两个好消息，请先后公布。如果你有一大一小两个坏消息，请一起公布。
如果你有大的坏消息和小的好消息，请先后公布。如果你有小的坏消息和大的好消息，请一起公布。利用自己的弱点：张飞酗酒。利用对方的弱点：杨修与吴质。不要暴露自己：智伯与韩赵魏

解决信息问题的方法：分离均衡如果路线单一，会失去很多合作机会。根据不同人的需要设置不同的路线。
他人自动提供信息：高低保费的车险；飞机里不同档次的座位；旅馆的星级。他人被动提供信息：所罗门王的智慧。强行灌输信息：向新兵推销保险。主动获取信息：黔之驴。

劫匪博弈：就是不能惯着你三国时夏侯惇镇守濮阳被吕布军劫为人质。来救援的韩浩称不会顾及东尼的安危准备强攻，吕布军见势不妙只能撤退。
1978年3月16日意大利总理被恐怖组织红色旅绑架，要求释放被捕人员。意大利政府坚决不和恐怖分子对话。5月7日大家发现了身中11枪的总理的尸体。 2002年10月23日，车臣武装分子占领莫斯科一剧院要求停止车臣战争。普京拒绝对话并施放毒气进攻，击毙所有武装分子，但一百多被劫持平民因毒气丧生。目的：为了避免日后更多的恐怖袭击。

总结博弈论的精髓在于虽然根本目的在于最优化自己的收益，但是很多时候“大家好才是真的好”。
达到“大家好”的危险是有人背叛。因此，如何阻止对方背叛，以及如何向对方示好是非常重要的。一次背叛或许能带来暂时的极大利益。但是信誉的损失往往更大。多人博弈时要认清自己的角色、形势和目的。切记螳螂捕蝉黄雀在后。多多收集信息往往是有利的。同时要注意传递信息同等重要。人生充满着博弈。希望我们在做决策的时候，把“大家共同的收益” 也纳入效用函数的一部分。这样，世界才更美好。

谢谢大家

博弈论的诡计.

Similar presentations

Presentation on theme: "博弈论的诡计."— Presentation transcript:

Similar presentations

About project

反馈

请登录

Auth with social network:

博弈论的诡计.

Similar presentations

Presentation on theme: "博弈论的诡计."— Presentation transcript:

Similar presentations

About project

反馈