本文节选自《算法之美:指导工作与生活的算法》
中信出版集团,2018年05月出版
我是一个乐观主义者,我相信人类是高尚和可敬的,而且他们中的一些人真的很聪明……我对群体中的人有一些比较悲观的看法。
——史蒂夫•乔布斯
投资者将股票卖给另一个人,一个人相信它会下跌,一个人认为它会上涨;我想我知道你的想法,但不知道你认为我在想什么;一个经济泡沫破裂;未来的爱人提供一份礼物,这份礼物既不是表示“我想要做的不只是朋友”,也不是“我不想超过朋友关系”;一桌食客争论谁应该请谁以及为什么;有人试图帮忙却无意中有所冒犯;有人努力装酷却引来旁人窃笑;某人试图从人群中脱出,却失望地发现,人们也都跟着他出来了。“我爱你”,一个情人对另一个情人说,“我也爱你”,另一个人回答说,两人都想知道对方到底是想说什么。
计算机科学对此有什么要说的呢?
学生们被教导要把文学情节设想为属于以下几个类别中的一个:人与自然、人与自己、人与人、人与社会。到目前为止,在本书中,我们主要考虑了前两类的案例,也就是说,计算机科学一直以来都是我们对世界基本结构和处理信息的有限能力所产生的问题的指南。最优停止问题源于时间的不可逆性和不可废止性,从时间有限的供给中探索或利用困境。松弛和随机性是在解决旅行计划和疫苗等挑战中遇到的不可避免的复杂性问题的关键和必要策略。
在这一章中,我们转移了焦点,并考虑剩下的两种类别,即人与人,和人与社会:实际上,我们所提出的问题也互相影响。我们对这一领域的最好的指导来自一个称为博弈论的数学分支,这个经典理论对20 世纪产生了巨大的影响。在过去的几十年里,博弈论和计算机科学之间的交叉作用已经产生了算法博弈论,这一理论从20 世纪初开始就已经产生了影响。
递归
现在,一个聪明的人会把毒药放进自己的杯子里,因为他知道只有傻瓜才会伸手去拿他所得到的东西。我不是傻瓜,所以我不能在你面前选酒。但你一定知道我不是一个很愚蠢的人(你会相信吗),所以我显然不能先选酒。
——《公主新娘》
可以说,20 世纪最具影响力的经济学家约翰·梅纳德·凯恩斯曾经说过:“成功的投资是预见他人的预期。”例如,股票以60 美元出售,买方肯定相信他日后可以以70 美元的价格卖掉——卖给那些相信可以以80 美元的价格出售的人,再卖给那些相信可以以90 美元的价格出售的人,再卖给那些相信可以以100美元的价格出售的人。这样一来,股票的价值并不是人们所认为的价值,而是人们所认为的人们认为它的价值。事实上,这还远远不够。正如凯恩斯所说,在美丽与受欢迎之间做出了重要的区分:
专业投资就好比是那些报纸竞争中的竞争对手必须从100张照片里挑出6个最漂亮的面孔,该奖项被授予最接近整体平均偏好的竞争对手。这样每个竞争对手都要选择,不是选那些他自己认为最漂亮的面孔,而是那些他认为最有可能吸引其他竞争对手注意的面孔,他们都要从相同的观点看问题。这不是要去选择那些最漂亮的人,甚至也不是普通审美认为是最漂亮的人。我们已经达到了第三阶段,我们考虑的是去预测普通审美所预测的普通审美。我相信还有人是在实践第四,第五,或更高的阶段。
计算机科学阐明了这种推理的基本限制,即所谓的“停机问题”。正如阿兰·图灵在1936年所证明的,计算机程序永远无法确定另一个程序是否会永远计算下去,除非通过模拟这个程序的运行,才有可能脱离最终的结局。(因此,程序员永远不会有自动的工具来判定他们的软件是否会被冻结。)这是所有计算机科学中最基本的结果之一,许多证据都就此止步。简单地说,任何一个系统(无论是机器还是头脑)都模拟了像它自己这样复杂的工作方式,发现它的资源被完全利用,很明显或多或少都有一些。计算机科学家们有一个术语来形容进入镜厅后无穷无尽的旅程,就是思想模拟正在模拟思想的思想——“递归”。
“在扑克游戏中,你从不会玩你自己手里的牌,”詹姆斯·邦德在《皇家赌场》中说,“你玩的是你对面的那个人的牌。”事实上,你真正玩的是一个理论上的无限递归。你知道自己手里的牌,并且知道你的对手所拥有的牌,然后你相信你的对手知道你所拥有的牌,你相信你的对手也知道你知道他有的牌……“我不知道这是不是一个真正的博弈论术语,”世界排名第一的扑克玩家丹·史密斯说道,“但是扑克玩家称它为‘水平’。第一级水平是‘我知道’。第二级是‘你知道我知道’。第三级是,‘我知道你知道我知道’。有些情况下,你会说,‘哇,这是一个愚蠢的虚张声势的方法,但如果他知道这是一个愚蠢的方法,那他就不会叫我的牌,那么这就是一个聪明的虚张声势的方法’。这些事情经常发生。”
其中最令人难忘的一次虚张声势是,当汤姆·德万在玩德州扑克时,下注金额已达到479 500 美元时,当时他的牌绝对是最糟糕的2–7,那时他就直接告诉他的对手萨米·乔治,他不弃牌。“你的牌肯定不是2–7,”乔治回答说,“你的牌肯定不是2–7。”因此乔治弃牌,然后德万(是的,的确是2–7)就赢了所有奖金。
在扑克游戏中,递归是一种危险的游戏。当然,你不希望在你的对手后一步被抓住,但也有必要不要在他们前面走得太远。“有一条规则是,你真的只希望比对手高一个水平,”扑克职业选手凡妮莎·鲁索解释说:“如果你水平比对手高太多,你就会认为他们掌握了实际上没有掌握的信息,(而且)他们无法从你的行动中收集到你想要的信息。”有时,扑克专业人士会故意引诱对手进入一个错综复杂的递归,同时玩得过于教条。这被称为引诱他们进入“一场对抗自己的水平之战”。
(引诱对手进行无结果的递归也可以成为其他游戏的有效策略。这是人机对抗历史上最精彩、最奇异、最引人入胜的一场:2008年,美国大师中村光和著名的计算机象棋程序雷布卡展开了一场快棋对决。在这一游戏中,每一方只有3分钟来走棋,要么就自动输掉游戏,这样的时间优势当然是在电脑的一边——电脑每一秒都能评估数以百万计的数位,甚至走棋都不需要调动任何肌肉。但是中村光很快就将棋势拥塞,重复走着毫无意义的棋。与此同时,电脑浪费了宝贵的时间,徒劳地寻找那些根本不存在的变化,并且固执地试图预测中村光未来所有可能的动作,而中村光他自己似乎只是在下一盘类似于玩弄自己拇指的棋。当电脑几乎耗尽它的时间,开始挣扎,以免超时的时候,中村光终于打开了这个走位,然后彻底翻盘。)
鉴于递归的危险,扑克专业人士又是如何从中跳出的呢?他们使用博弈论。“有时候,你可以想出一些理由来利用游戏,但很多时候,你只是在进行低级游戏,无非只是噪声而已,”丹·史密斯解释道,“在大多数情况下,我真的很努力想要拥有一个基本级的理论进行理解。刚开始,我总是要知道或想知道纳什是什么。“那么纳什是什么呢?”
达到均衡
你知道规则,我也知道……我们了解这个游戏,我们将要玩这个游戏。
——里克•阿斯特利
博弈论覆盖非常广泛的合作和竞争场景,但这一领域开始于那些类似于单挑扑克的领域:这是一种双人比赛,一个玩家的收益就是另一个玩家的损失。数学家分析这些游戏的目的是寻找所谓的均衡:即,这是一套双方都能遵循的策略,因为他们的对手都不愿意改变自己的游戏。它被称为均衡,因为它是稳定的,没有任何一个玩家的进一步的想法可以让他们做出不同的选择。考虑到你的策略,我对我的策略很满意,考虑到我的策略,你对我的策略也很满意。
例如,在石头剪刀布游戏中,均衡告诉我们,完全随机选择一个相同的手势,每一个大约有1/3 的机会,这令人毫无兴奋可言。使这个平衡保持稳定的是,一旦双方都采用这一1/3–1/3–1/3 的策略,那么除了坚持下去也没有什么更好的方法了。(比方说,如果我们试着出更多的石头,我们的对手很快就会注意到,然后就开始出更多布,这将会使我们出更多的剪刀,以此类推,直到我们双方都回到1/3–1/3–1/3的均衡状态。)
博弈论有一个开创性的结果,数学家约翰·纳什在1951 年证明了每一个双人游戏至少有一种均衡。这一重大发现使纳什获得了1994年的诺贝尔经济学奖(并由此产生了关于纳什的名为“美丽心灵”的书和电影)。这种均衡现在被称为“纳什均衡”,即丹·史密斯一直试图追踪的“纳什”。
从表面上看,纳什均衡总是存在于两个玩家的游戏中,这似乎让我们稍稍从那些描述扑克和许多其他熟悉比赛的镜像递归中解脱出来。当我们感觉自己掉进了递归的兔子洞时,我们总是有办法跳出对手的脑袋,寻找均衡,直接进入最佳策略,设想这是一场理性的游戏。在石头剪刀布里,仔细观察对手的脸,看看他们可能会出什么,这也许是不值得的,如果你知道长远来看,随便乱出才是一个不可战胜的策略。
更通俗地说,纳什均衡可以帮助人们预测任何一套规则或激励制度的长期稳定结果。因此,它是预测和制定经济政策以及总体社会政策的宝贵工具。正如诺贝尔奖得主经济学家罗杰·迈尔森所说,纳什均衡“对经济学和社会科学产生了根本性和普遍的影响,与生物科学中DNA(脱氧核糖核酸)双螺旋结构的发现具有可比性。”
然而,计算机科学把这个故事复杂化了。广义而言,数学研究的对象是真理;计算机科学研究的对象是复杂性。正如我们所看到的,如果一个问题是难以解决的,那么要找到问题的解决办法就是不够的。
在博弈论环境中,知道均衡存在并不会告诉我们它是什么,或者如何实现它。正如加州大学伯克利分校的计算机科学家克里斯托斯·帕帕迪米特里欧所写,博弈论“预测了代理人的均衡行为,又通常不考虑到这样一种状态实现的方式,而这正是计算机科学家最应该关心的问题。斯坦福大学的蒂姆·拉夫加登也认为纳什提出的证明均衡永远存在的证据不充分。“好吧,”他说,“但我们是计算机科学家,对吧?”给我们一些可以用的东西。不要只告诉我它在那里,告诉我怎么找到它。因此,博弈论最初的领域是基于算法的博弈论,也就是说,对游戏理论上的理想策略的研究成为机器(和人)如何为游戏制定策略的研究。
事实证明,问太多关于纳什均衡的问题会让你很快陷入计算麻烦。到20 世纪末,确定一款游戏是否超过一种均衡,或者有一种能给玩家带来一定回报的均衡,或者一种需要采取特定行动的均衡,都被证明是棘手的问题。然后,2005—2008 年,帕帕迪米特里欧和他的同事证明,仅仅找到纳什均衡都很棘手。
像石头剪刀布这样简单的游戏,随意一瞥就可以看到其中的均衡,但是我们现在很清楚,在现实世界的复杂性游戏中,我们不能想当然地认为参与者能够发现或者达到游戏的均衡。反过来,这意味着游戏的设计者不能用均衡来预测玩家的行为。这一发人深省的结果产生了深远的影响:作为一种模拟和预测市场行为的方式,纳什均衡在经济理论中保有一个神圣的地位,但这一地位可能不是应得的。正如帕帕迪米特里欧解释的那样,“如果一个均衡的概念不能被有效地计算,那它作为对理性主体行为的预测的可信度就会失去大半”。麻省理工学院的斯科特·阿伦森对此表示赞同。“在我看来,”他说,“如果纳什均衡成立的定理被认为与自由市场和政府干预之间的争论有关,那么发现这些均衡的确难以处理的定理就也应该被认为是相关的。”纳什均衡的预测能力只有当参与者真正找到均衡时才体现其重要性。引用亿贝网(eBay)前研究主管卡迈勒·杰恩的话:“你的笔记本电脑都无法找到的东西,市场也无法找到。”
占优策略,无论好坏
即使当我们达到平衡时,仅仅因为它是稳定的并不会使它变好。这似乎自相矛盾,但是均衡策略,是没有参与者愿意改变策略的领域,并不一定是为参与者带来最好结果的策略。没有什么比博弈论中最著名、最具煽动性、更有争议的双人游戏“囚徒的困境”更能说明问题了。
囚徒的困境玩法如下。想象一下,你和一个密谋者在抢劫了一家银行后被逮捕,并被关押在不同的牢房里。现在你必须决定是否要与对方“合作”,是保持沉默,不承认任何事情,还是通过向警方告发对方来“背叛”你的伙伴关系。你们知道,如果你们彼此合作,保持沉默,州政府就没有足够的证据来定你们任何一个人的罪,所以你们都可以重获自由,然后两个人分那笔赃款——每人50万美元。如果其中一方叛变并告发对方,而另一方什么没招供,那名告密者就将得到全部的100万美元,而保持沉默的人则会被判为唯一的犯罪嫌疑人,并被判10年徒刑。如果你们双方都互相告发,那么你们就会分担刑期:每人5年。问题就在这里。
不管你的同谋做了什么,你最好的选择永远是叛变。
如果你的帮凶出卖了你,那么反过来,如果你也出卖他们,你将会减少5年的刑期——你将会与同伙共同分担刑期(5年),而不是你自己独自服刑(10年)。如果你的同伙保持沉默,告发他们可以使你得到100万美元——你就不必将赃款拿出一半了。无论如何,不管你的同谋如何决定,对你来说告发总比合作更好。相反的做法则会让你变得更糟,不管怎样。
事实上,这使叛变不仅仅成为均衡策略,还是所谓的占优策略。一个占优策略避免了递归,因为它是对你对手所有可能策略的最佳反应,所以你甚至不需要麻烦自己了解他们的想法。占优策略是强有力的。
但现在我们已经到了这个矛盾的地方。如果每个人都做理性的事情,并遵循占优策略,那么故事就会结束,你们都要服刑5 年——这与自由和每人50 万美元相比,每个人的处境都要糟糕得多。怎么会这样呢?
这已成为传统博弈论的主要见解之一:一组游戏玩家的均衡,所有人都玩得很理性,这对那些玩家来说可能不是最好的结果。
与计算机科学原理相一致的算法博弈论,已经接受了这一观点,并对其进行量化,创造了一种叫作“调和率”的度量。调和率衡量合作(集中设计或协调的解决方案)和竞争(每个参与者都各自试图最大化利于自己的结果)之间的差距。在像囚徒的困境这样的游戏中,这个调和率实际上是无限的:增加赃款金额和延长刑期可以使可能的结果之间的差距任意扩大,即使占优策略保持不变。如果参与者不协调的话,那事情的痛苦程度就无止境了。但在其他游戏中,正如算法博弈理论家会发现的那样,调和率并不那么糟糕。
例如,想想交通。无论是每日试图在各种交通堵塞中通过的个人通勤者,还是在互联网上移动传输控制协议数据包的路由器,系统中的每一个人仅仅想要对他们个人来说最容易的选择。司机只是想走最快的路线,不管路线是什么,而路由器只是想在它们的包里随意地移动,但是在这两种情况下,这可能导致在关键路径上过度拥挤,使大家都堵塞。但这有多大的伤害啊?令人惊讶的是,蒂姆·拉夫加登和康奈尔大学的伊娃·塔多斯在2002年证明了“自私路由”方法的调和率仅仅是4/3。也就是说,完全公开只比组织严密的完美的协调差33%。
拉夫加登和塔多斯的研究成果对城市规划和网络基础设施都产生了深刻的影响。例如,自私路由的低调和率可以解释为什么因特网的运作和没有任何中央集权管理单个数据包的路由运行效果一样。即使这样的协调是有可能的,但也不会增加太多。
当涉及人类的交通时,低调和率会在两方面各有利弊。好的方面是,缺乏集中的协调只会使得你的通勤状况变糟33%。另一方面,如果你希望自动驾驶的汽车能为我们带来未来交通的理想状况,那么如果你了解到,现今的自私、不愿协调的司机其实已经相当接近最佳状态时,可能会令你十分沮丧。的确,自动驾驶汽车应该减少交通事故的数量,并且能够使汽车更紧密地往前行驶,实现这两方面都能加快交通速度。但从拥塞的角度来看,调和率只有4/3,而完美的协调意味着完全协调的通勤只能是现在的3/4。这有点儿像詹姆斯·卡贝尔的名言:“乐观主义者宣称,我们生活在有可能是最好的世界里,而悲观主义者则担心这是真的。”交通拥堵永远是一个问题,要由规划者和总需求来解决,而不是由个别司机、人类或计算机、自私或合作的决定来解决。
量化混乱的价格调和率给了这个领域一种具体而严谨的方法来评估分散系统的利弊,这在很多领域都有广泛的影响,在那些领域里,人们发现自己参与到玩游戏的过程中(不管他们是否意识到)。“低调和率意味着,无论好坏,系统本身就会像它被精心管理的那样良好。另一方面,高调和率意味着在谨慎地协调的情况下,事情有可能会最终变好,但如果没有某种形式的干预,我们就会陷入灾难。囚犯困境的游戏显然是属于后者。不幸的是,许多这个世界必须玩的最关键的游戏也都是这样的。
公地悲剧
1968 年,生态学家加勒特·哈丁借鉴了囚徒的困境的想法,并设想将其规模扩大到包括一个农业村的所有成员。哈丁邀请他的读者去描绘公共草坪的“公有地”——每个人都可以来此放牧,但容量有限。从理论上讲,所有的村民放牧的动物数量都应该是自己家的牲畜吃完草后还能给其他人留一些草。然而,实际上,多放牧一些动物的好处要比直接给你的好处多一点儿,而伤害似乎很小,不会有什么后果。然而,如果每一个人都遵循这样的逻辑,大家只会得到少于他们本应得到的公有地,这是一个可怕的均衡结果:一个完全毁坏的草坪,这样一来,所有人的牲畜都没有草吃。
哈丁称之为“公地悲剧”,这已经成为经济学家、政治学家及环境运动对诸如污染和气候变化等大规模生态危机的主要视角之一。“当我还是个孩子的时候,有一种叫作含铅汽油的东西,”卡内基梅隆大学的计算机科学家、博弈论学家艾弗瑞姆·布卢姆说,“含铅的价格便宜10 美分,但它污染了环境……考虑到其他人都在做的事情,如果你给自己的车加含铅汽油,那么你个人(健康)到底有多糟糕?并没有多糟。这就是囚徒的困境。”在企业和国家层面上也是如此。最近的报纸头条简洁地指出:“稳定的气候要求将大多数的化石燃料留在地下,但它们归谁呢?”每个公司(在某种程度上,每个国家)为了竞争优势都比它们的同行更不顾后果。然而,如果它们的行为更加鲁莽,就会导致地球被蹂躏,最终一切都是徒劳:相对于它们开始的阶段,任何人都没有经济上的优势。
这种游戏的逻辑是如此的普遍,以至于我们甚至不用去看那些错误行径都能知道它在胡作非为。我们也可以很容易地以一种纯净的良心结束这种可怕的平衡。又怎样进行呢?看看你公司的假期政策。在美国,人们的工作时间是世界上最长的,正如《经济学人》杂志所言:“工作价值越高,休闲的价值就越低。”很少有法律规定雇主所应提供的休假时间,甚至美国员工有休假时间,他们也不用。最近的一项研究表明,普通员工只享受了赋予他们的一半的假期,而惊人的是,15%的员工则完全没有假期。
此时此刻,旧金山湾区(我们中的两人所居住的地方)正试图以一种激进的思维方式来解决这一令人遗憾的事态,关于假期政策这一转变的出发点很好,却注定会彻底失败。这个前提听起来极为天真:既没有为每个员工设定固定的天数,还浪费人力时间来确保没有人超过他们的工作极限,为什么不直接赋予你的员工自由呢?为什么不让他们享受无限的假期呢?到目前为止,坊间传闻都是喜忧参半,但从博弈论的角度来看,这种做法真是一场噩梦。理论上,所有员工都希望尽可能多地休假。但他们也都想比其他人少休一点儿,好让人觉得他们更忠诚、更专注、更乐于奉献(因此更有可能升职)。每个人都在寻找一个基线,而所需的休假只需比该基线稍微少一点儿。这个游戏的纳什均衡是零。作为Travis CI 软件公司的首席执行官,马赛厄斯·迈耶写道:“人们休假前会犹豫,因为他们不想让自己看起来像休假最多的人。这是一场彻底的比赛。”
这是公地悲剧在充分发挥作用。在公司之间和在公司内部一样糟糕。想象一下在一个小镇上有两个商店店主。他们中的每一个人都可以选择每周开放7 天,或者每周只开放6 天,然后周日休息,与朋友和家人一起放松一下。如果他们都休息一天,他们就会保持现有的市场份额,减少压力。然而,如果一个店主决定每周开业7 天,他就会吸引更多的顾客,让顾客远离竞争对手,这样就可能威胁对方的生计。纳什均衡,再一次让每个人都要一直工作。
这一实际问题在2014 年的节日季成为美国的一个闪光点,因为零售商不愿将市场份额拱手让给那些在感恩节后的购物狂潮中领先的竞争对手,因此陷入一种糟糕的均衡状态。《国际商业时报》报道称:“商店开业比以往任何时候都要早。”梅西百货公司决定提前两小时开业,塔吉特百货也一样。凯马特百货在感恩节的早上6 点开门营业,不间断营业42 个小时。
那么,作为玩家,当我们发现自己处于这样的情况下——要么是两者间的囚徒的困境,要么是多者间的公地悲剧,我们能做什么呢?从某种意义上说,什么也不能做。这些糟糕的均衡所带来的稳定,也就是使它们达到平衡的东西,就变成了诅咒。总的来说,我们不能从内部改变占优策略。但这并不意味着坏的均衡是不能解决的。这仅仅意味着解决方案必须来自其他地方。
机制设计:改变游戏
不要憎恨玩家,应憎恨游戏。
——艾斯提
永远不要与任何对抗家庭的人站在同一立场上。
——《教父》
囚徒的困境世代以来一直是有关人类合作本质的争论和争议的焦点,但伦敦大学的博弈论理论家肯·宾默尔认为,至少部分争议是错误的。正如他所言,“囚徒的困境抓住了人类合作的重要性,这是完全错误的。相反,它代表了一种情况,在这种情况下,骰子是与合作的出现相冲突的”。
好吧,如果游戏规则促使一个坏策略产生,也许我们不应该尝试改变策略。也许我们应该试着改变游戏规则。
这就把我们带到一个叫作“机制设计”的博弈论分支。当给定一套规则时,博弈论会出现什么样的行为,机制设计(有时被称为“逆向博弈理论”)在另一个方向上会问:什么规则会带给我们想要看到的行为?如果博弈论的启示(比如一种均衡策略对每个玩家都是合理的,但对每一个人都是不利的)被证明是违反直觉的,那么机制设计的启示就更是如此了。
让我们把你和你的银行抢劫同伙再带回到监狱里去,再体验一下囚徒的困境,但增加一个关键性的补充:教父。现在你和你的同伴都是犯罪集团的成员,而教父已经成功了,很明显,任何的告密者都可能葬身大海。这种游戏回报的改变会限制你可以采取的行动的效果,但具有讽刺意味的是,你和你的同伴最终都会有好结果。由于叛变现在变得不那么有吸引力(委婉地说),两名囚徒都被诱导进行合作,而且双方都将会很高兴地走出监狱并获得50 万美元的财富。当然,要减去教父名义上的那一部分。
这里存在的反直觉和强大的东西是,我们可以使每一个结果都恶化——一方面是死亡,另一方面是税收,但通过改变均衡,可以使每个人的生活都变得更好。
对于小镇的店主来说,口头休战并在周日放假是不确定的:一旦店主需要一些额外的现金,他就有可能会违反这一协议,促使其他人也开始工作,这样就不会失去市场份额。这将使他们回到糟糕的均衡状态,对双方都是最糟糕的——他们已经筋疲力尽了,没有任何竞争优势。但他们也可以通过签署一份具有法律约束力的合同来履行自己的责任,例如周日一家商店的营业额另一家也能共享。通过恶化令人不满意的均衡,可以创造出一个新的、更好的平衡。
另一方面,对游戏收益的改变并不会改变平衡,通常会产生比预期小得多的效果。印象笔记软件公司的首席执行官菲尔·利宾因为一项关于其员工休假的政策登上了头条新闻。这听起来像是一个合理的方法,可以让更多的员工去度假,但从博弈论的角度来看,这实际上是错误的。例如,增加囚徒的困境中的现金,并没有抓住要点:这种变化并不能改变坏的平衡。这是否意味着利宾需要为每个员工的假期都提供数万美元呢?并不是。机制设计告诉我们,利宾能得到他想要的快乐员工,而不是胡萝卜,他可以在不花一分钱的情况下获得更好的均衡。例如,他可以简单地规定一个最低限度的假期。如果他不能改变比赛,他仍然可以改变底线。机制设计为设计人员提供了强有力的论据,不管他是一名首席执行官,一份规定所有各方的合同,或是一个通过绞喉来迫使他人拒绝做证的教父。
联盟委员会委员也是这样一种设计师。想象一下,如果没有这样的比赛,美国职业篮球联赛将会多么可悲,球队在赛季开始和结束之间的任何时间都可以随意得分:在一个周日的凌晨3点,在圣诞节的中午,凡是你能说得出的时间。你会看到的憔悴的、死尸般的玩家,极度缺乏睡眠,用化学刺激剂强制提神,几乎失去了他们的思想。战争就是这样的。另一方面,即使华尔街,无情而冷酷的资本家在“不夜城”以微秒进行交易,每天下午4点整都要“停火”,这样股票经纪人就可以每晚在可预测的时间里睡觉,不会遭到竞争对手推出的无眠的平衡的偷袭。从这个意义上来讲,股市与其说是一场战争,不如说是一项体育运动。
扩大这一逻辑,将为政府提供有力的支持论据。事实上,许多政府有规定最低假期和限制营业时间的法律。虽然美国是唯一一个没有政府强制要求带薪假期的发达国家,但马萨诸塞州、缅因州和罗德岛州有州一级的禁止感恩节商业行为的规定。
像这样的法律往往起源于殖民时代,最初是宗教性质的。事实上,宗教本身提供了一种非常直接的方式来改变这种游戏的结构。特别是如“纪念安息日”这样的宗教法,无论是由一个强大的上帝,还是由一个宗教团体的更近似的成员来执行都巧妙地解决了商店店主所面临的问题。同时,将神圣的力量添加到对其他反社会行为的禁令中,例如谋杀、通奸和盗窃,同样也是解决社会群体中的一些博弈理论问题的方法。在这方面,上帝的表现甚至比政府更好,因为全知全能视角提供了一个特别有力的保证,即若采取不好的行动将会产生可怕的后果。事实证明,教父并不是像上帝的父亲。
宗教似乎是计算机科学家很少谈论的事情,事实上,《计算机科学家很少谈论的事情》一书的主题既为此。但是,通过减少人们所拥有的选择的数量,宗教所施加的行为约束不仅会使某些决策变得不那么具有挑战性,还可以产生更好的结果。
机制设计的演变
无论人多么自私,在他的天性中,显然有一些原则,使他对别人的财富感兴趣,别人的快乐对自己来说是必要的,尽管他并没有从中得到任何东西,除了看到他高兴而已。
——《道德情操论》
心有它的理由,这是理性所不懂的。
——布莱斯•帕斯卡
加利福尼亚州的红杉是地球上最古老、最壮观的生物。从博弈论的角度来看,这是一个悲剧。它们这么高的唯一原因是,它们想要比其他所有东西都高,以至于过度扩张的危害甚至比被遮蔽的危害更严重。正如理查德·道金斯所说:
树冠可以被看作是一种空中草地,就像一个长满草的大草原,但是是在高跷上生长。树冠以与大草原相同的速度收集太阳能。但很大一部分能量是“浪费”,直接助长了高跷的生长,而只是将这空中阁楼的“草地”变得更高,如果是平放在地上,那它收获同样光子的成本就低得多。
如果森林只能在某种程度上同意“休战”,那么生态系统就可以享受单纯的光合作用,没有木材生长的竞赛浪费了一切。但正如我们所看到的,在这些场景中,好的结果往往只出现在游戏之外的权威背景下——有人从上到下改变了收益。似乎在自然界中,没有办法在个体间建立良好的平衡。
另一方面,如果合作真的能在某些游戏中带来更好的结果,那么我们就该期待具有合作意识的物种在进化上占优势。但是如果只有在群体层面上具有理性,而不是个人层面,合作又会从何而来?也许它必须来自某些人无法完全控制的东西。例如,情感。
考虑下面两个看似无关的场景:(1)一个男人买了一个吸尘器,几周内就坏了,他花10分钟在网上留下一个报复性的评论。(2)一个在便利店购物的女人注意到有人偷了一个老人的钱包并向外逃,她把小偷抓住,并把钱包拿回来。
虽然后者似乎很有英雄气概,而前者仅仅是愤怒,但两个小插曲的共同之处(尽管是完全不同的方式)都是不自觉的自我感觉。不满意的消费者并不是想要把吸尘器换掉,也不是想要退钱,他是在经过一种非常间接的惩罚之后(从理性的、博弈论的意义上说)除了写评论以外,还会得到一点儿报复的满足感。在便利店,这位英勇的女人作为非执法人员私自执法,并可能会丧失巨大的个人代价,她可能会受伤甚至死亡,就是为了帮一个素不相识的人追回钱,可能只有40美元。即使她想帮忙,她也可以从她自己的口袋里掏出两张20 美元给他,而不必冒着去医院的风险。从这个意义上讲,两个主角都是不理性的。但另一方面,他们的行为对他们所处的社会有好处:我们都想生活在一个没有扒窃,没有卖劣质产品的商家的世界里。
也许我们每个人,单独地,都能更好地成为这样的人:我们能以自己最大的兴趣做出独立的、有计划的决定,而不愿在成本上浪费时间,更不用为了40 美元损失一颗牙齿。但是,我们所有人在这样一个社会里都会生活得更好,在这样的社会里,这种叛逆的立场是常见的。
那么,在这些人缺乏外部权威的情况下,是什么使他们行动起来、摆脱自私的均衡呢?愤怒是一方面原因。无论是由劣质的生意还是盗贼的刺激,愤怒都可以压倒理性。在这些情况下,可能是进化之手完成了它原本属于游戏之外的权威去完成的事情。
自然界中充满了被劫持来为另一个物种的目标服务的个体的例子。例如,柳叶刀肝吸虫(学名:矛形双腔吸虫)是一种寄生虫,它能让蚂蚁爬到草叶的顶端,这样它们就会被羊吃掉,而羊是柳叶吸虫的首选宿主。同样,寄生的刚地弓形虫可以使老鼠永久地失去对猫的恐惧,结果也类似。
情感,对于痛苦的、报复性的消费者和便利商店的英雄来说,是我们自己的物种控制了一分钟。“道德是个体的群居本能。”尼采写道。稍微解释一下,我们可能会认为情感是物种的机制设计。正是因为感觉是不自觉的,它们才会不需要外部执行的合同。复仇几乎从来都不适合真正寻求它的人,然而,如果有人会以“非理性”的态度来回应,那就更有可能得到公平的对待。正如康奈尔大学经济学家罗伯特·弗兰克所说:“如果人们期望我们对盗窃我们财产的行为做出非理性的反应,我们几乎不需要这样做,因为偷窃是不符合他们的利益的。”在这里,比起被物质利益所引导,预先倾向于做出不理智的反应要好得多。
(如果你认为文明的现代人类有法律合同和法律规则而不是惩罚,回忆一下,比起受害者希望从物质条件中恢复,起诉或检举某人需要付出更多的努力,并获得更多的痛苦。诉讼是在发达社会中自我毁灭的报复手段,而不是替代。)
至于愤怒,则是为了同情、内疚和爱。
囚徒的困境也有很多关于婚姻的启示,尽管这听起来很奇怪。回到本书第1章,在我们讨论最优停止问题时,如秘书问题,我们观察了约会和找房子两类情况作为我们必须承诺未来要做出选择,但现在还未知的情况。然而,在爱情和住房方面,即使在我们做出最佳停止决定之后,我们仍然会遇到更多的选择,所以为什么不准备跳槽呢?当然,知道另一方(无论是配偶还是房东)准备跳槽,就会阻止许多长期投资(一起生儿育女,或者费力地搬家),从而使这些协议变得有价值。
在这两种情况下,所谓的承诺问题至少可以部分通过合同来解决。但是博弈论认为,在约会中,法律的自愿约束力与持久的伙伴关系相比,与爱情本身的不自主的关系更不相关。正如罗伯特·弗兰克所言:“人们担心自己之所以会离开一段关系,是因为其日后可能会变得理性,但如果一开始不是理性评价将他们联系在一起的话,那这种担心基本都会被抹去。”他解释道:
是的,人们寻找他们关心的客观特征。每个人都想要一个善良、聪明、有趣和健康的另一半,也许还要外表上有吸引力,有很好的赚钱能力,很多很多的特点,但那是第一关……在你花了足够的时间和他在一起之后,并不是那些标准才让你们想在一起的。事实是,就是那个人,这对你来说是有价值的,所以你并不需要这份合同,因为你需要的是一种让你不想分开的感觉,即使在客观的情况下,可能还会有一个更好的选项供你选择。
换句话说:爱情就像有组织的犯罪。它改变了婚姻游戏的结构,使均衡成为最适合每个人的结果。剧作家萧伯纳曾写道:“如果囚徒很快乐,为什么要把他锁起来?”如果他不是,为什么要假装他是?博弈论对这个特殊的谜题有一个微妙的答案。幸福就是锁。
关于爱情的博弈论观点将进一步说明:婚姻是一种囚徒的困境,你可以选择与你在一起的人。这似乎是一个小小的改变,但它可能对你所玩的游戏的结构有很大的影响。如果你知道,出于某种原因,如你不在身边,你犯罪的同伴会很痛苦(即使100 万美元也无法治愈),你会没那么担心他们会“叛变”,会让你在“监狱”里终其一生。
因此,对爱情的理性论证是双重的:依恋的情感不仅可以让你不会在递归的思维中不停考虑你另一半的意图,而且通过改变回报,实际上能使你的伴侣得到更好的结果。更重要的是,在爱情中不自觉的跌倒会让你成为一个更有魅力的伴侣。你心碎的能力,在情绪里沉溺,都是让你成为一个可靠共犯的品质。
信息瀑布:泡沫的悲剧理性
无论何时,你发现自己站在大多数人的一边,那就是时候停下来反思一下了。
——马克•吐温
注意别人的行为是一个好主意,部分原因是这样做可以把别人世界里的信息添加到你自己的世界里。一家很受欢迎的餐厅很可能是不错的,上座率只有一半的音乐厅可能不是一个好信号,如果有人在你说话的时候突然把目光投向你看不见的东西上,那么你转过头去也不是个坏主意。
但另一方面,向别人学习并不总是显得特别理性。潮流和时尚是追随他人行为的结果,而没有基于世界的根本客观事实。更糟糕的是,人们认为其他人的行为是有用的导向,这可能会导致类似的群体以及随之而来的经济灾难。如果每个人都在投资房地产,那买房子似乎就是个好主意。毕竟,这样一来,价格只会上涨。不是吗?
2007—2009年抵押贷款危机的一个有趣的方面是,所有参与的人似乎都觉得,他们只是在做他们应该做的事情,却受到了不公平的惩罚。这一代美国人从小就相信房子是不保险的投资,他们看到周围的人都在买房子,尽管(或正因为)物价飞涨,但当这些价格最终开始下跌时,他们遍体鳞伤。与此同时,银行家们认为,他们受到了不公平的指责,他们认为他们只是做了他们一直在做的事情——提供机会,他们的客户可以接受或拒绝这些机会。在突然的市场崩盘之后,人们总是会把责任归咎于他人。这里,博弈论提供了一个发人深省的视角:即使没有人犯错,这样的灾难也会发生。
正确认识金融泡沫的机制,始于对拍卖的理解。虽然拍卖可能看起来像是经济的小角落(苏富比和佳士得拍卖行的价值百万美元的油画,或者是亿贝网上的豆豆娃和其他收藏品),但它们实际上为经济提供了很大一部分动力。例如,谷歌90% 的收入来自广告销售,这些广告都是通过拍卖方式出售的。与此同时,政府利用拍卖来出售电信频谱(如手机传输频率)的所有权,筹集了数百亿美元的收入。事实上,许多全球市场,从家庭到书籍再到郁金香,都是通过各种各样的拍卖来运作的。
最简单的拍卖形式之一是,每个参与者都暗自写下他们的投标价,而出价最高的人则以他们所写的价格赢得这个拍品。这就是所谓的“密封竞价的最高价拍卖”,从算法的博弈论角度来看,有一个大问题,实际上,有好几个问题。首先,某种程度上来说,赢家总是溢价:如果你给一个拍卖品估价25 美元,我估价10 美元,我们都以真正的估值出价(25 美元和10 美元),那么你最终会以25美元买下该拍品,但其实你只需比10 美元高一点点的出价就可以买到它。这个问题反过来又引出了另一个问题,即为了合理地竞标,为了不多付不必要的钱,你需要预测拍卖中其他买家的估价,并据此“掩饰”你的报价。这已经够糟糕的了,但是其他买家也不会出他们真正的估价,因为他们会根据你的预测来掩盖他们的真实出价!这样一来,我们又回到了递归的问题上了。
另一种经典拍卖形式是“荷兰式拍卖”或“减价拍卖”,在有人愿意购买之前,它会逐渐降低拍卖品的价格。这个名字参考了荷兰阿尔斯梅尔市的花卉拍卖,这是世界上最大的花卉拍卖市场,在荷兰每天都举行,但荷兰式拍卖比最初看起来更普遍。一家商店将其未售出的商品降价出售,房东以最高的价格将公寓挂牌出售,他们认为市场将会承受,这两者都有一个基本特点:就是卖家可能开始时很乐观,并推动价格不断下跌,直到找到买家。降价拍卖与最高价拍卖的相似点在于,你更有可能以接近你的最高价位来赢得拍品(也就是当价格跌至25美元时,你将随时准备投标)。因此,你将希望通过一些复杂的战略价格来遮蔽你的报价。你是要以25美元拍下,还是一直等待更低的价格?你所节省的每一美元都有可能完全失去。
荷兰式或减价拍卖的相反就是所谓的“英式拍卖”或“升价拍卖”,这是最常见的拍卖。在英式拍卖上,竞拍者交替地提高价格,直到他们中的一个退出。这似乎提供了更接近我们想要的东西:在这里,如果给一件拍品估价25美元,而我为它估价为10美元,你就会直接以超过10美元的价格赢得它,而不必一直拍到25美元或者消失在战略性的兔子洞里。
然而,荷兰式拍卖和英式拍卖的复杂性都比密封拍卖要高。它们不仅涉及每个投标人个人所拥有的信息,也包括投标行为的公众流向。(在荷兰式拍卖中,没有出价也透露出信息,这表明其他竞标者都没有以目前的价格水平进行估价。)在适当的情况下,这种私人和公共数据的混合可能会被证明是有害的。
想象一下,竞标者对他们自己所估计的拍卖价值表示怀疑,比方说,在某些海域开采石油的权利。伦敦大学的博弈论学者肯·宾默尔指出:“每一块地区的石油储量都是相同的,但买家对其石油储量的估计将取决于他们不同的地质勘测。”这样的勘测不仅昂贵,而且不可靠。“在这种情况下,你很自然地会仔细观察你对手的出价,用公众信息来增加你自己所拥有的贫乏的个人信息。”
但这一公共信息可能并没有看上去那么有意义。你实际上不了解其他投标者的信念,而只知道他们的行为。他们的行为完全有可能是基于你自己的行为,就像你的行为也受其他人的影响一样。很容易想象一群人一起走在悬崖上,因为“其他人”好像都表现得很正常,但实际上每个人都有疑虑,只是因为他们对团队中其他人的明显的信任而压制了这种疑虑。
就像公地悲剧一样,这次的失败并不一定是参与者的过错。经济学家苏希尔·比赫昌达尼、戴维·赫舒拉发和伊沃·韦尔奇的一篇极具影响力的论文证明,在正确的环境下,一群行为完全理性、完全正确的行为者,仍然可以成为有效的无限错误信息的牺牲品。这被称为“信息瀑布”。
继续看石油开采权的问题,想象有10 家公司可能会竞标某一地区的开采权。其中一家公司的地质调查显示,该地区富含石油,另一家的调查结果是不确定的,其他8 家的调查显示,该地区是贫瘠的。当然,作为竞争对手,这些公司之间并没有互相分享他们的调查结果,而是只能互相观察其他公司的行为。当拍卖开始后,第一家公司,也就是报告认为该地很有前景的公司,提出了很高的初始报价。第二家公司,受到了鼓励,便开始对自己的模糊调查转持乐观态度,于是出价更高。第三家公司的调查结果本不是很理想,但现在已经不相信这个结果了,他们认为那两家公司得出的是独立调查的结果,因此这两项调查表明这是一个金矿,因此他们提出了一个新的高报价。第四家公司的调查结果也乏善可陈,但现在它甚至更倾向于忽视这一点,因为看起来他们的三个竞争对手都认为这是一个宝藏。所以他们也出价了。“共识”是来自现实的。于是,瀑布就形成了。
没有一个竞拍者的行为不理智,最终结果却是灾难的。正如赫舒拉发所说:“一旦一个人决定盲目追随他的前人,不依赖自己的信息信号,他的行为会对所有后来的决策者毫无意义。”现在,公共信息池不再增长。公共信息的福利……已经停止。”
要了解当信息瀑布发生时真实世界会变成什么样,投标人除了用一个人的行为来估计一个拍卖品的价值,几乎没有其他任何办法,没有比皮特·A.劳伦斯的发展生物学文本《苍蝇的成长》更好的了,该书于2011年4月在亚马逊的第三方市场上以23 698 655.93美元(外加3.99美元)的价格出售。这本(不可否认受人尊敬的)书是如何做到销售额超过2 300万美元以及为什么会这样呢?结果显示,有两家卖家将其价格计算为相互之间的对方价格的恒比:一家总是将自己的价格设置为竞争对手的0.998 3倍,而竞争对手则自动将自己的价格设定为对方的1.270 59倍。显然,这两家卖家都不认为要对最终的数字设定任何限制,最终这个过程完全失去控制。
有可能类似的机制是在神秘和有争议的2010年5月6日股票市场的“闪电崩盘”中出现的,当时,在几分钟内,几个看似随机的公司的标准普尔500 指数价格升至每股100 000 美元以上,而其他的锐减到每股0.01 美元。近1 万亿美元的价值瞬间化为乌有。正如美国全国广播公司财经频道的吉姆·克莱默所报道的:“那……它不可能发生。这不是真正的价格。哦,快去买宝洁!就去买宝洁公司,他们这个季度报告不错,就去买吧……我是说,这是荒唐——这是个好机会。”克莱默的怀疑体现的是他的个人信息与公众信息的矛盾。在这种情况下,他似乎是世界上唯一愿意付49 美元的股票价格的人,而市场显然是在40 美元以下,但他并不在乎,因为他已经看到了季度报告,他对他所知道的十分确定。
投资者被分为两大阵营:“基础”投资者,他们交易的是他们所认为的公司的价值,还有一类是随交易市场波动的“技术”投资者。高速算法交易的兴起打破了这两种策略之间的平衡,人们经常抱怨说,电脑无法固定到真实世界的商品价值(不管是将一本书的价格定在数千万美元还是以一美分定价蓝筹股)使市场的非理性更加恶化。但是,尽管这种批评通常在电脑上出现,但人们也会做同样的事情,因为任何数量的投资泡沫都可以证明。同样,错误往往不在球员身上,而是比赛本身。
信息瀑布提供了一个理性的理论,不仅是泡沫,而且更普遍的是潮流和羊群行为。他们提供了一种解释,说明任何市场在没有非理性、恶意或渎职的情况下,如何轻松出现飙升和崩溃。有好几个因素。首先,要警惕那些公众信息似乎超过私人信息的情况,在这些情况下,你更了解人们在做什么,而不是他们为什么这么做,你更关心的是你的判断是否符合共识,而不是符合事实。当你大多数时候都在找别人来设定路线的时候,他们很可能也在盯着你看。第二,记住行动不是信仰,当我们误解别人的想法时,就会产生瀑布反应。我们应该特别谨慎考虑是否要推翻我们自己的怀疑,如果我们这样做,我们可能会想要找到一些方法来传播这些疑虑,即使我们已经向前迈进,其他人也无法将我们头脑中的不情愿与我们行动中隐含的热情区分开来。最后,我们应该从囚徒的困境中得到教训,有时一个游戏有无比糟糕的规则。一旦我们陷入其中,我们可能什么也做不了,但是信息瀑布理论可能会帮助我们在一开始就避免这样的游戏。
如果你是那种总是做你认为是正确的事情的人,不管别人怎么想,那就鼓起勇气吧。但坏消息是,你将会比人群跟随者们更经常犯错。而好消息是,坚持你的信念会产生积极的外部效应,让人们从你的行为中做出准确的判断。也许会有那么一次,你把整群人从灾难中拯救出来。
你自己的计算
计算机科学在博弈论中的应用表明,进行战略规划的义务本身就是我们相互竞争所付出的一部分代价,通常是一大部分。而且,正如递归的困难所表明的那样,没有什么比我们需要进入对方头脑的代价更高。在这里,算法游戏理论为我们提供了一种重新思考机制设计的方法:不仅要考虑到游戏的结果,还要考虑玩家需要的计算工作量。
例如,我们已经看到,看似无伤大雅的拍卖机制可能会遇到各种各样的问题:过度思考、过度支付、失控的信息瀑布。但情况并非完全没有希望。事实上,有一种拍卖设计,尤其切除了精神递归的负担,就像一把热刀子切过黄油那样轻松。这被称为维克瑞拍卖。
以诺贝尔经济学奖得主威廉·维克瑞命名的维克瑞拍卖,就像最高价拍卖一样,是一种“密封投标”拍卖过程。也就是说,每个竞拍者都秘密地写下一个数字,出价最高的人会赢。然而,在维克瑞拍卖中,最终获胜者支付的并不是他们自己的出价,而是第二高的出价人的出价。也就是说,如果你出价25 美元,我出价10 美元,你以我的价格赢了这个项目:你只需要支付10 美元。
对于博弈理论家来说,维克瑞拍卖有很多吸引人的地方。特别是对于一个算法博弈理论家来说,这其中有一种特性尤其突出:鼓励参与者诚实。事实上,没有比直接以你估的“真正价值”(你认为这个拍品值多少)来竞标更好的策略了。出价高于你的真实价值显然是愚蠢的,因为你可能会以比你认为的价值更高的价格买下此拍品。出价低于你的真实价值( 即遮蔽你的出价)可能有无故失手的风险,因为这不会给你节省什么钱——如果你赢了,你只会支付第二高的出价,不管你的出价有多高。这使维克瑞拍卖的机制设计者称之为“战略证据”或只是“真实的”。在维克瑞拍卖会上,诚实是最好的政策。
更好的是,不管其他竞拍者是否诚实,诚实仍然是最好的政策。在“囚徒的困境”中,我们发现背叛是“占优”策略——无论你的同伴是叛变还是合作,这都是最好的选择。另一方面,在维克瑞拍卖上,诚实也是主要的策略。这是机械设计师的必杀技。你不需要制定策略或递归。
现在,与最高价拍卖相比,维克瑞拍卖似乎会让卖家损失一些钱,但这并不一定是真的。在第一次最高价拍卖会上,每一个出价者都在掩盖他们的出价以避免出价过高。在第二高价的维克瑞拍卖中,从某种意义上说,这没有必要,拍卖本身就是对他们的出价进行了遮蔽。事实上,一种叫作“收入等价”的博弈论原理是这样的:随着时间的推移,最高价拍卖中的平均预期售价将会与维克瑞拍卖中的价格完全一致。因此,维克瑞均衡表示相同的竞拍者以同样的价格赢得一个拍品,而没有任何竞拍者的任何策略。正如蒂姆·拉夫加登对他在斯坦福的学生说的,维克瑞拍卖“棒极了”。
对于希伯来大学的算法博弈理论家诺姆·尼恩来说,这种“棒极了”有一种近乎空想的氛围。“你想要得到一些不值得说谎的社会规则,然后人们就不会撒谎了,对吧?”这是最基本的想法。从我的观点来看,维克瑞拍卖的神奇之处就在于,你不会期望在一般情况下有可能会这样做,对吧?特别是在拍卖会这样的场合,我当然想少花钱,你又怎么能得到,然后维克瑞拍卖出现了,这就是这样做的方法。我觉得这真是太棒了。
事实上,这其中的启示远远超出了拍卖的范畴。在一项名为“显示原则”的里程碑式的发现中,诺贝尔奖得主罗杰·迈尔森证明,任何需要有策略地掩盖真相的游戏,都可以转化为一种只需要简单诚实的游戏。迈尔森当时的同事保罗·米格罗姆表示:“这种结果,当你从不同的角度看待它时,一方面,它是绝对令人震惊和惊异的,另一方面,它也是微不足道的。”这真是太棒了,太棒了:这就是你怎么知道你在看你所能看到的最好的东西。
表面看来,显示原则似乎难以接受,但它的证据实际上是相当直观的。想象一下,你有一位经纪人或律师,他会为你玩这个游戏。如果你信任他代表你的利益,你会简单地告诉他你想要什么,并让他们处理所有的战略偏见和递归策略。在维克瑞拍卖中,游戏本身也执行了这个功能。而显示原则只是扩展了这个想法:你会对你的代理人讲真话,而代理人为你玩的任何游戏,都将成为诚实至上的游戏,如果你想你代理人的行为纳入游戏规则本身的话。正如尼森所说,“最基本的是,如果你不希望你的客户对你进行优化,你最好对他们进行优化”。这就证明了……如果我设计了一个已经为你优化的算法,你就无能为力了。
在过去的20 年里,算法博弈理论为许多实际应用做出了巨大的贡献:它帮助我们理解互联网上的数据分组路由,改进联邦通信委员会的频谱拍卖,分配宝贵的(如果是看不见的)公共产品,并增强与医院的医学系学生配对的匹配算法。这很可能只是一个更大转变的开始。“我们只是刚刚开始,”尼森说,“即使在理论上,我们也刚刚开始理解它。”
法国的存在主义哲学家让·保罗·萨特曾写道:“他人即地狱。”他并不是说别人天生就有恶意或会令人不愉快,而是说他们把我们的想法和信念复杂化了:
当我们思考自己,当我们试图了解自己的时候……我们使用别人已经具备的知识。我们用别人所采取的方式来评价自己,并给予我们判断自己的能力。无论我自己感觉如何,别人的判断总是会进入我的感觉。我觉得别人的判断进入了我的内心……但这并不意味着一个人无法与其他人建立关系。它只是为我们每个人带来了所有其他人的资本重要性。
也许,考虑到我们在这一章里所看到的,我们可能会努力修改萨特的观点。与他人互动并不一定是一场噩梦,尽管在一场错误的游戏中它肯定是噩梦。正如凯恩斯所观察到的,声望是复杂的、棘手的,是一个递归的镜厅。但是,美丽在旁观者眼里,也许跟当局者所看到的并不相同。因为其他人的策略而采用一种不需要假设、预测、实践和改变过程的策略,是减少戈尔迪递归之结的方法之一。有时,这种策略并不仅仅是简单的,也是最优的。
如果改变策略没有帮助,你可以尝试改变游戏。如果无法改变,你至少可以控制你选择玩的游戏。通往地狱的道路是由棘手的递归、糟糕的平衡和信息瀑布铺成的。寻找那些诚实充当占优策略的游戏。然后,就是做你自己。
∑编辑 | Gemini
粉丝福利
送书!
想获得此书,
文章底部留言,
留言点赞前五名的粉丝(24小时计),
免费获得此书!