本期内容为《走进人工智能》:第7讲 囚徒困境:“理性经济人”在沉默与认罪之间角力
《走进人工智能》
囚徒困境:“理性经济人”在沉默与认罪之间角力
下面通过“囚徒困境”(prisoner’s dilemma)这个故事来进一步解释纳什均衡。1950年,兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)提出了相关困境理论,后来美国普林斯顿大学数学家阿尔伯特·塔克(Albert W. Tucker)以“囚徒方式”对这一理论进行了如下阐述:警方逮捕了共同犯罪的甲、乙两人,由于警方没有掌握充分的证据,所以将两人分开审讯。在分开审讯中,如果一人认罪并指证对方,而另一方保持沉默,则认罪一方会被当即释放,沉默者会被判监禁10年;若甲乙两人都保持沉默,则由于没有充分的口供,根据警方掌握的部分犯罪事实,甲乙两人各判半年;若两人都认罪并相互指证,则甲乙两人各判5年。
西方经济学中有一个“理性经济人”最基本的前提假设,它告诉我们“每一个从事经济活动的人所采取的经济行为都是力图以自己的最小经济代价去获得最大的经济利益”。我们来替甲乙二人分析一下:对甲和乙而言,获得集体利益最大化的最优解应当是两人同时保持沉默,这样警方仅能依靠部分犯罪事实对两人轻判,也就是甲乙两人各判半年。但别忘了甲和乙都是“理性经济人”。甲是这样想的:乙只有沉默和认罪两种选择。如果乙沉默,我认罪,我会被当即释放;如果乙沉默,我也沉默,我会被判半年,那我认罪更好;如果乙认罪呢?如果乙认罪,我也认罪,我被判五年;如果乙认罪而我沉默,我会被判十年,我选择认罪还是比沉默好。就这样,两个嫌疑犯都选择坦白认罪,各判刑五年。由此可见,无论一方保持沉默或是认罪,另一方认罪才是对自己最有利的选择,因此最终甲、乙会分别选择认罪。在囚徒困境中,甲乙两人同时认罪是一种均衡解,也被称为满足纳什均衡的结果。
纳什均衡指参与者做出了这样一种策略组合,在该策略组合上,任意一个参与者单独改变策略,就会使得该参与者现在所得利益遭受损失。换句话说,当其他博弈参与者都不改变策略时,就不会有任何一个博弈参与者会有动机来改变其自身做出的策略,则该策略组合就是一个纳什均衡策略。囚徒困境中两人同时认罪就是一种纳什均衡。纳什均衡的本质是“不后悔”,因为即使因反悔而采取另外行动,与目前所得收益相比,将会遭受损失,因此“后悔无益、徒增烦恼”。
在博弈论中,纳什均衡具有基础性地位,这一基础性地位如同波尔兹曼分布概念之于统计物理、DNA双螺旋结构发现之于生物学,以及中心极限定理之于统计学。
产品名称:走进人工智能∣有声通识十五讲
主理人:吴飞
出品机构:高等教育出版社 、高等教育电子音像出版社
合作机构:浙江大学上海高等研究院、上海人工智能实验室智能教育中心
出品时间:2022年1月