博弈论的诡计
无聊的开头 英文名 Game Theory, 是数学的一个分支。 1944年冯·诺依曼等著《博弈论与经济行为》。被称为博弈论之父。 相关术语:帕累托最优,纳什均衡等等…… 但是这些都不重要,我们不是来上课的。 本沙龙的脉络就是一个个小模型加上生活中的应用。 博弈论和棋牌、桌游的区别:与对手策略同步性,零和性等。 博弈论四要素:参与者,信息,策略,收益。 下面从最土鳖但最经典的囚徒博弈开始:
囚徒困境 两个囚犯被隔离审查,假设各自的策略只 有两个:招供和抵赖。 最终结果(二人都知道)分布(Key:但不 知道对方决策) 可以看出无论对方如何选择,自己招供都 是最优选择。 但是双方都抵赖是总体最优的选择。 达到总体最优的风险:对方背叛。 案例:巴结上司否?烟草公司做广告否? 搞军备竞赛吗?
如何应对 强行减少选项(黑帮老大的威胁,扔方向盘的玩命车手)。 如果能知道对方的选择,自己可以协调自己的选择:老柴已经招 了;田忌赛马。 很可能“大家想的越多越吃亏”: 甲乙各花80元买了花瓶。托运时全部损坏。航空公司的奇葩赔偿 规定是:双方各在100元内写一个价格。如果甲乙价格相等则照 价格赔偿,否则依照较少的价格赔偿二人,但给“说真话”(即 报价较低)者奖励2元。如果谁放弃理赔(即报0元),航空公司 付安慰款1元。 结果是……请大家自行脑补。双方唯一的“最优化”可能是都报0 元。
如何应对·续 强行给自己增加约束可以使双方共同得利。 案例:甲乙两家音像店某音响的进价均为150美元,零售价均为 200美元。假设群众眼睛雪亮,永远第一时间获得减价信息并永 远购买价格较低的音响。则正常情况下,两家店的唯一策略是都 卖150美元。 甲音像店采取措施,向乙音像店以及群众表示自己推出“双倍差 价返还”策略:本店音响售价200美元,如果顾客在别处发现价 格更低的音响,本店按照差价双倍赔偿。即:如果乙店音响售价 180美元,则在甲店购买音响的花费为200-(200-180)*2=160美 元。当然,下限是0美元。 这样,乙店的降价反而变成了甲店的促销甚至倾销,只会降低自 己的销售量。
类似的模型 赛车手博弈。玩命的两个赛车手笔直向对方开去,先怂得转开的 算输。 无纳什均衡。 “最好”的策略是率先扔掉方向盘并让对手看到。 乙转开 乙不转 甲转开 (-2,-2) (-2,+5) 甲不转 (+5,-2) (-100,-100)
不对称的双人博弈 智猪博弈:大猪小猪被关在长条形笼子里。笼子一头有按钮,按 下会在另一端的食物槽里出现10单位的食物。起始大小猪都在食 物槽处。奔跑到按钮处再回到食物槽处所消耗的体力为5,这段 时间直到对手吃完大猪能吃8单位食物,小猪能吃4单位。 不对称性:小猪宁可坐着饿死也不会去按按钮。 看似强势的一方往往会吃亏。 弱势的一方往往光脚不怕穿鞋的而得利。 小猪去按钮 小猪不去按钮 大猪去按钮 (+1.7,-1.7) (+1,+4) 大猪不去按钮 (+8,-3) (0,0)
本例子与上条类似,都是通过客观条件来强行删除对对方最有利 的选项。 生活案例:伍子胥被楚王追杀,楚王全国通缉一定要捉活的捉到 了有重赏。伍子胥在关隘被士兵捉到,但骗他说:“楚王抓我是 因为我偷了他的宝珠,我中途给弄丢了。你要是把我送到楚王那 里,我就诬陷是你抓到我后自己私吞了,你就得陪我死,你看着 办吧。 本例子与上条类似,都是通过客观条件来强行删除对对方最有利 的选项。 士兵抓人 士兵不抓人 伍子胥不诬陷 (-200,+10) (0,0) 伍子胥诬陷 (-200,-200?)
智猪博弈续 如果群体中有实力雄厚的一方,则往往他会起到领袖作用,允许 个别个体作弊。 安利公司的无条件退货政策。(但是在中国失败了) 各大化妆品公司专柜的免费小样。(有种去中国试试) 美国的社会福利政策。(中国也有低保……) 其他解决方法:减量:大家都不去按钮;增量:谁想吃谁按,但 是前提是你得有那么多食物;减量加移位:把按钮做的离食槽近 一些,合理! 案例:公司的奖励机制。
多人博弈:人性 伦理 背叛 广泛存在于生活中,在桌游里具体化和明显化:三国杀,救生艇, 富饶之城等。 多人博弈:人性 伦理 背叛 广泛存在于生活中,在桌游里具体化和明显化:三国杀,救生艇, 富饶之城等。 除非靠一己之力能够摆平全部敌人比如三国后期的魏(晋)(秦 灭六国都不算),否则都要考虑适度的、暂时的结盟。利用,很 多时候是强行利用他人的力量。 枪手博弈。三个火枪手甲乙丙生死斗。每个人的目标都是自己存 活的前提下杀死其余二人。比赛规则是裁判一声令下三人同时开 枪(可自行选择两个目标中的一个)。如果还有两个或以上的人 存活,则再来一轮直到全部死亡或者只剩一人。假设甲乙丙的命 中率分别是90%,80%和50%。 你觉得谁赢面大? 案例:
枪手博弈的获胜元素:低调,一定要低调。枪打出头鸟。 变体规则:甲乙丙命中率不变目的不变,规则改为按照丙-甲-乙- 丙-的顺序开枪。你是丙,你打谁? 答案很奇怪:丙的最优策略是放空枪(这答案有点耍赖)。 要点:让两大势力互相制衡,避免平衡迅速坍塌。
重复博弈 与前面介绍的一次性博弈相比,重复博弈的最大特点在于背叛策 略虽然能一时得利,但是由于自己的背叛打来的日后惩罚可能会 对长期效益不利。(关键词:信誉,名声) 服务质量与产品质量最差的地方:火车站长途汽车站。 服务质量与产品质量最好的地方:学校和居民区(私营)。 甚至有的时候背叛者总比守信者得利,因此守信者会被现实逼迫 发展为背叛者。 案例:班级活动集合时间的变动。
如何应对:惩罚机制 对于背叛者予以惩罚。惩罚的根本目的不在于让受罚者受苦,而 在于威吓背叛这一行为,避免出现更多的背叛者。 案例:我儿子杀了你儿子,你何必逼着要判我儿子死刑,我儿子 死了你儿子也不能复活啊。 案例:班级活动,超过约定时间后就不等人。 我们的生活本身就是与很多其他人的长期重复博弈,做个好人, 尽管偶尔会吃亏会郁闷,但长期来看,是较优的选择。 但是毫无原则的烂好人一定会被人欺负甚至带坏风气,所以要做 一个“有原则”的好人。
密歇根大学埃克斯罗德教授教你做人
研究前提:每个人都是自私的;没人有权利干预他人决策。 研究目的:人为什么要合作;人什么时候合作什么时候不合作; 如何使别人与你合作。 参赛者:各种算法。每次在做决策之前可以知道你与它的合作历 史。共60个,外加三个简单的算法(永远合作的烂好人,永远背 叛的纯坏蛋,永远一半几率合作一半几率背叛的神经病)。 过程:每一对算法都进行上百次重复囚徒博弈。不知道何时结束。 冠军:“一报还一报”算法夺冠。“善意”算法排名远高于“恶 意”算法。 结果:前15名只有一个恶意算法(哈灵顿算法),后15名只有一 个善意算法(就是那个永远合作的烂好人算法)。
继续教做人 “一报还一报”算法:第一步合作,以后每一步都重复对方上一 步对自己的行动。 特点:善良,可激怒,宽容,简单,不耍小聪明。 做人,交友,恋爱,也建议这样。 做不到以上五点的程序,也许会在与某一些程序的博弈过程中永 远占便宜,也许会在一小段时间内对所有程序占便宜,但是绝对 不会在长期的和所有程序的博弈中占便宜。
第二关:生存模式 一报还一报算法在静态群体中有优势。教授桑又想研究它在动态 群体中的表现。 生存模式规则:每一轮后结算分数,得分高的算法会自我繁殖; 得分低的算法所占比例会下降甚至消亡。(也可以理解为得分低 的算法去学习得分高的算法) 结果:初始只有1/63的一报还一报算法最后稳定地占有了24%。 恶意算法的表现更拙劣。因为恶意算法的主要得分来源是过度善 意的烂好人算法,而这些算法很快会消亡,因此恶意算法也会跟 着消亡。(经典例子:狡猾的哈灵顿算法消亡) 结论:“共同演化会使有原则的好人行为在这个充满背信弃义的 世界里蔚然成风”
一报还一报的漏洞:容错率 案例:吴楚大战 吴国边境小镇卑梁与相邻的楚国边境小镇钟离接壤,双方居民友 好相处。 吴国某小孩与楚国某小孩在一次采桑叶过程中发生矛盾并打架。 发展为两家大人的争斗。 发展为两村的械斗。 楚国出兵占领卑梁。 吴国出兵收复卑梁并占领钟离。 楚国为了报复去攻打吴国的属国宋国。 吴国派孙武救援,反杀楚国,占领楚国国都郢。
问题出在哪? 对于误会的容忍度为零,容易“小题大做”。 在计算机竞赛中不会出现,因为计算机不会犯错误。 无论“犯错误”(指实际行动与自己算法给出的行动相反)的概 率有多低,长期来看,两个一报还一报的算法都会处于一半合作 一半对抗的状态。 修正:“再一再二不能再三的一报还一报”。 具体:在对方背叛时,如果对方的总背叛比例或近期背叛比例不 高,则继续合作。 问题:如何确定阈值。 案例:希特勒打欧洲。
回到多人博弈,谈谈人质困境 1956年2月24日苏共第二十次代表大会。赫鲁晓夫做了《关于个人崇拜 及后果》。中心思想就是喷斯大林,那个非常信任自己、把自己视为 左右手的斯大林。 后来的党代会上正当赫鲁晓夫喷得起劲的时候,底下传来一张纸条写 着:当时你在哪里? 机智的中年赫鲁晓夫向全场朗读了纸条,然后说:“写这个纸条的同 志请你站起来。”全场寂静无声。赫鲁晓夫说:“那我回答你,我当 时就在你现在坐着的地方。” 赫鲁晓夫的依据:哥因此才活到了现在。 对比1939年与1934年苏共大会情况。2000名代表只剩下35人,131名中 央委员的98人、3/5的红军将领、所有11名副国防委员、所有军区司令、 最高军委会80名委员的75名被清洗。
问题出在哪?还是枪打出头鸟 众人合力可成功,但是挺身而出者的风险极大。 案例:被一两个持刀劫匪洗劫的整个大巴车的旅客。 案例:马丁·尼莫勒:“刚开始时,他们镇压共产主义者,我没说 话,因为我不是共产主义者………………”。 明哲保身是短时间的优选策略,长期来看则不然。
与对手合作 很多时候,你需要与你的对手合作。大多数这样合作的目的是使 自己有存在感以及扼杀潜在的新生对手。 纪伯伦《魔鬼》:教士的任务是教导人们摆脱魔鬼的诱惑,但是 一天在野外看到奄奄一息的魔鬼却把他救活了。因为如果魔鬼死 亡,教士也失去了存在的价值。 赵普和徐达点赞。 文种和韩信表示不服,苏共将军们表示不服。 “兔死狗烹”“太平本是将军定,不许将军见太平”。 可口可乐公司与百事可乐公司。麦当劳与肯德基。
最优的策略可能是随机的 小偷与警察博弈:假设城市里只有甲乙两个可偷 的地点。只有一个警察和一个小偷。甲处成功偷窃 可获得一万元,乙处两万元。被抓到的罚金是五万元。 警察和小偷均无优势确定性策略。 警察的优势策略是随机策略:每天以1/3概率去甲处巡查,2/3概 率去乙处。 小偷的优势策略也是随机的:每天以2/3概率去甲处偷,1/3概率 去乙处。 相似案例:各种球类运动里攻守双方的博弈,以及……
随机策略的优势:不可预测性导致全盘防守。 案例:唐鞅讽宋康王纳谏。 随机策略的劣势:法不制众,效果不佳。 案例:征兵。对于不报到的百姓进行惩罚。但是如果全部百姓都 不报到,大家都会抱着侥幸心理。 对策:改回确定性策略。如果有不报到的,按照百家姓顺序惩罚。 可触发多米诺效应使全部百姓应征。
倒推博弈 思路特点:如果我###,那么他会###,所以我应该###。 经典例子:五个强盗分金币。五个强盗(编号一至五)抢到100 枚金币。他们制定了以下蛋疼的分配规则: 由一号提出一个分配方案,其余人投票,如果赞同人数不小于投 票人数的一半,则方案成立,游戏结束。否则将一号弄死,二号 继续提方案,规则相同。直到某人的方案成立或者只剩下五号。 假设:所有强盗纯理性,绝对有头脑,在利益相同的情况下随机 选择。 问:如果你是一号,你提什么方案?
1.如果轮到四号提案(即一二三号被干掉)。他的理性提案是 [0,0,0,0,100]。 2.四号强盗策略:绝对不能让三号死(否则会出现情况1),因此 如果轮到三号提出方案(即一二号被干掉),只要他提出的是 [0,0,99,1,0]方案,四号就会赞成。 3.回到五号,五号不希望二号死(否则就会出现情况2)。因此二 号只要给五号1枚金币即可收买之。另外,如果出现情况2,四号 的收益是1,所以2枚金币即可收买。所以如果是二号提案(即一 号被干掉),他的理性提案是[0,97,0,2,1]。四号和五号会赞成。 4.同理。一号只要给三号1枚、五号2枚金币,此二人就会被收买。 因此一号的提案是[97,0,1,0,2]。
番外篇:有趣的倒推法 两个聪明人做一个游戏,由裁判写两个相邻的正整数,每人发一 张。比如两个数是16与17。然后裁判不断询问二人是否知道对方 的数字。 一百个聪明人做一个游戏,大家都闭眼由主持人为自己戴帽子。 帽子只有红白两种。事实上主持人给所有人戴的都是白帽子。主 持人通知大家场上至少有一顶白帽子。然后不断询问大家是否知 道自己帽子的颜色。(类似的还有脏脸博弈)
动态博弈 关键词:时间成本 案例:公平分蛋糕。正常条件下,二人分蛋糕可以由一人分成两份, 第二人取自己认为较大的一份。 追加时间成本:每次提议被否决后蛋糕因融化而减半。正常提案是第 一人提出一人一半,第二人答应。 假设每次蛋糕会融化最初的三分之一:依然使用倒推法,顺序是甲乙 甲来提议。 最后一个阶段(第三阶段)即使甲大获全胜也只能获得1/3。所以乙第 二阶段的提议为二人评分2/3个蛋糕。即:如果有第二阶段,乙最多获 得1/3个蛋糕。甲知道这个,所以在第一阶段的分配是自己2/3少一点 点,乙是1/3多一点点。 类似案例:手里的一笔钱如何投资,NBA劳资协议,开发者与商店的 利益分配。(Exploration and Exploitation)
动态博弈的阴招:转移对方目标 两个真实的故事。 军训,因为总领导是化学系的老师,因此教官们为了舔菊把内务、 体操、正步、歌唱以及军体拳第一名全部颁给了化学系所在的连 队(一共二十六个连)。信科的三个连队罢训以示抗议,得到了 化学连以外的所有连队的支持。本来大家商量好等最后一天诗朗 诵比赛主持人宣布化学系选手冠军后大家一起离场。但主持人宣 布信科选手夺冠。一时间,信科三个连队山呼噢耶。 MSU学生会宣布要与校方交涉要求涨工资。校方的反应是不但不 涨,反而取消博士生在校停车场的停车权利。学生会经过两个月 的不懈努力,终于迫使校方取消了取消博士生停车权利的决定, 获得了圆满的胜利。
路径依赖理论 如果我们最初做了一个决定或养成某种习惯,那即使这个决定或 习惯有很多问题,我们也往往不愿意去改变,宁可将错就错。 案例:管仲论马棚栅栏的编排:前几个偏了,后面就永远正不了 了。 案例:现代铁路两条铁轨之间的距离是1435毫米,因为这是电车 的轨距(早起铁路由电车工人修建)是如此,因为马车轮距是如 此,因为英国马路的辙迹宽度是如此,因为罗马战车的宽度是如 此,因为那是两屁马屁股的宽度。所以马屁股的宽度决定了现代 铁路的轨距。 案例:QWERTY键盘与DSK键盘。
超速博弈 如果超速的人的比例大,大 家就都会倾向于超速;反之 亦然。 解决方法:短时间内强行提 高守法人的比例。后期即可 自行消化其余超速者。 案例:孙叔敖改革车座高度。 种世衡宽州鼓励百姓射箭。
信息不对称的博弈 之前我们讨论的所有博弈都假设所有参与者拥有所有信息,并且 对于对手的信息拥有量拥有比无穷阶认知更高的认知:共同认知。 之前我们讨论的所有博弈都假设所有参与者拥有所有信息,并且 对于对手的信息拥有量拥有比无穷阶认知更高的认知:共同认知。 二手车市场博弈:信息不对称的典型。购买者倾向于出低价,质 量好的车卖不出去,只能被市场淘汰,最后市场里只剩下次品。 “看不见的手”失效。类似的还有人才市场。 在央视做广告的问题。尽管把央视黄金时间的广告费分散到地方 电视台能得到更好的收视率,但是各大厂商还是对央视趋之若鹜。 原因是他们的目的不单是收视率,也是展示自己实力的机会。斥 巨资请明星代言同理。
有限次的沟通没有用 案例:吴将军与姜将军分别拥兵在两个山头,中间是土匪牛头领。 牛头领的兵力很足,必须二位将军同时夜袭才能击破。假设二位 将军唯一的联系方式是互相派遣传令兵约定夹击时间,但是传令 兵到对面山头必须经过牛头领的营地因此有20%的概率被捕导致 其警觉,夹击将失败。 由于有限次认知永远达不到共同认知,因此无论传令兵穿梭多少 次,都无法以百分百概率夹击成功。
信息传递的技巧 芝大和哥大教授推荐 如果你有一大一小两个好消息,请先后公布。 如果你有一大一小两个坏消息,请一起公布。 如果你有大的坏消息和小的好消息,请先后公布。 如果你有小的坏消息和大的好消息,请一起公布。 利用自己的弱点:张飞酗酒。 利用对方的弱点:杨修与吴质。 不要暴露自己:智伯与韩赵魏
解决信息问题的方法:分离均衡 如果路线单一,会失去很多合作机会。 根据不同人的需要设置不同的路线。 他人自动提供信息:高低保费的车险;飞机里不同档次的座位; 旅馆的星级。 他人被动提供信息:所罗门王的智慧。 强行灌输信息:向新兵推销保险。 主动获取信息:黔之驴。
劫匪博弈:就是不能惯着你 三国时夏侯惇镇守濮阳被吕布军劫为人质。来救援的韩浩称不会 顾及东尼的安危准备强攻,吕布军见势不妙只能撤退。 1978年3月16日意大利总理被恐怖组织红色旅绑架,要求释放被 捕人员。意大利政府坚决不和恐怖分子对话。5月7日大家发现了 身中11枪的总理的尸体。 2002年10月23日,车臣武装分子占领莫斯科一剧院要求停止车臣 战争。普京拒绝对话并施放毒气进攻,击毙所有武装分子,但一 百多被劫持平民因毒气丧生。 目的:为了避免日后更多的恐怖袭击。
总结 博弈论的精髓在于虽然根本目的在于最优化自己的收益,但是很多时 候“大家好才是真的好”。 达到“大家好”的危险是有人背叛。因此,如何阻止对方背叛,以及 如何向对方示好是非常重要的。 一次背叛或许能带来暂时的极大利益。但是信誉的损失往往更大。 多人博弈时要认清自己的角色、形势和目的。切记螳螂捕蝉黄雀在后。 多多收集信息往往是有利的。同时要注意传递信息同等重要。 人生充满着博弈。希望我们在做决策的时候,把“大家共同的收益” 也纳入效用函数的一部分。这样,世界才更美好。
谢谢大家