为什么你该学点博弈论?

2019 年 9 月 16 日 思想潮



作者 | 刘鲁川

作者现任教于南方科技大学商学院金融系

首发 | 思想潮


(一)一个引子 


2016年有那么一只“狗”大闹天宫,这在整个人类社会也引起了轩然大波。它就是阿尔法狗(Alphago),是谷歌(Google) 旗下 Deepmind 在人工智能与博弈论交叉研究上的一个杰作。这只狗不仅在当年以四比一击败了围棋世界顶级选手李世石,次年又让位列世界第一的柯杰泪洒棋盘。


阿尔法狗对战李世石


围棋是一个最具挑战性的智慧游戏,而人工智能博弈在围 棋上战胜了人类顶级棋手,无疑标志着一个崭新时代的到来。来,让我们一起了解一下 人工智能博弈的基础学科:博弈论(Game theory)。 


说到博弈论,让我们不仅联想到那些充满权谋智慧的历史故事。战国时期的田忌赛马,孙膑献计,以己方相对优势组合策略去战胜绝对优势的对方。这是博弈理论中最佳对策(best reply)的一个范例。在三国演义中,诸葛亮唱的那出空城计,吓退司马懿大军,更是一个在不对称信息环境下实践行为博弈的神奇


二)博弈论领域的科学巨人和他们的学说 


现代博弈论的诞生是以四十年代数学大师冯·诺依曼(von Neumann) 和经济学者摩根斯坦恩(Morgenstern)的巨著《博弈理论与经济行为》的出版为标志的。冯·诺依曼可谓是一位文艺复兴式的科学“综”师。他不光是二十世纪最伟大的数学家,还是博弈论和计算机之父。他建立了量子力学的公理化体系。博弈论学科的建立也是一个历史的必然。


约翰·冯·诺依曼(John von Neumann)


第二次世界大战等国际政治对抗不仅催生了原子弹,也直接推动了计算机、博弈论、密码学等新 兴学科的发展。博弈论这门智慧游戏的科学,从它诞生的一天开始,就玩得有些大。它的学术领域一直十分活跃,群星闪耀,不乏神奇。已先后有十几位科学家因为他们在博弈论 及其应用领域上的卓越成就,而拿到了诺贝尔经济学奖。 


我们必须要讲到是一位数学奇才:纳什(Nash)。他二十几页的博士论文给出了策略博弈中的一个基本解概念,这就是后来以他的名字来命名的纳什均衡理论(Nash equilibrium)。 



在这里均衡的概念就是,在一个非合作博弈中,一旦所有玩家的行为达到了一个均衡状 态,那么其中任何一个理性玩家都不会愿意单独改变他的策略。因为任何单独的改变,都 不会给他带来任何的好处。均衡概念是博弈论以及现代经济学理论的一个最基本的思想。 


纳什因为其伟大的工作,成为了第一批拿到了诺贝尔经济学奖的博弈论科学家当中的一 位。有一部好莱坞大片叫《美丽的大脑》(A beautiful mind,又译“美丽心灵”)就是讲他的故事。电影改编于同名小说,由朗·霍华德(Ron Howard)执导,罗素·克劳(Russell Crowe)主演,现实与虚幻结合,十分好看。My God, 博弈论还能拿奥斯卡。


九十年代我在美国石溪大学读研究生。石溪是一个博弈论科学家经常汇聚的中心,从九零年起每年都 会举办国际博弈论大会。每逢大会,这个领域的科学家和学生云集,博弈论的大师们也会到场。当年在会场上,不难看到纳什“这个美丽的大脑”在四处游荡。 


另一位博弈论的宗师沙普利(Shapley)更是一位有故事的人。合作博弈论有以他名字命名的(Shapley Value) 价值理论,给出了可转让资源分配的一个必备准则。他提出的随机博弈(stochastic game)问题是博弈理论领域中的顶级难题之一,引一代又一代天才科学家为其折腰。



我的导师尼曼(Neyman) 就是这个领域的领航者。他与我的另一位老师莫顿斯(Mertens)在八十年代解决一个困扰这个领域二十多年的开放问题。(忍不住,要私下 complain(报怨)一下,莫顿斯的课是我所有上过的课中最 tough (虐人)的,没有之一)前面所提到的 Alphago可以算是人工智能在解决随机博弈问题上的一个实践了。 


沙普利与罗思(Roth)在2012年分享了诺贝尔经济学奖,则是由于他在资源匹配理论方面的伟大工作。他与合作者盖尔(Gale )设计了一套算法证明了两维稳定匹配一定存在。他们的“婚配”理论模型建议,无论男女那方,谁先主动追求,谁最后的结果就会更有利些。博弈论的理论研究居然还能带出情感自由的绚丽火花来,真是令人叹为观止。


阿尔文·E·罗思


沙普利与中国也很有缘源,二战期间他曾作为美军专家住守重庆,专门破译日军的加密电报。而在他以后的学术生涯中也指导培养了多名中国学者,美国加州大学的秦承忠教授就是出自他的门下。


开挂的人生自然要有不一般的性格。据说当年瑞典皇家学院打电话通知他荣获了诺贝尔经济学奖,而他的第一反应却是诘问来电话的人,他是一个数学家,为什么要拿经济学的奖。


我们的老师奥曼(Aumann)是一个会讲故事的人,风趣幽默,多么艰深的理论在他口中都变成了雅俗共赏的艺术。上他的课如同在听音乐会,使人心灵陶醉。奥曼的风范,与他是科学和宗教双重大师不无关系,在他那里人类的理性与上帝是如此的接近。人类在思考, 上帝在微笑。


奥曼蓄着银白色的大胡子,那是他科学先哲的标志。奥曼与纳什,沙普利等是现代博弈论的学术领袖,他与沙普利 共同发展了合作博弈论中的价值理论。他提出的共同知识学说(Common knowledge)是博弈论的一个哲学基础,“我知你知,你知我知你知,我知你知我知你知…, ”真可谓道可道非常道,玄之再玄。有后人评说,司马懿之所以没敢入诸葛亮的空城,是因为他掉进了与孔明的共识怪圈,就没能出来(你信吗?反 正我信了)。奥曼在重复博弈(repeated game)领域作出了奠基性的工作。



我们都知道,在囚徒困境博弈中,合作并不是纳什均衡。但基于奥曼的理论,只要重复博弈的次数足够大,囚徒的合作也可以是均衡点。这就是有名的佚名定理(Folk Theorem)。我在当学生时着迷于奥曼的相关平衡理论(Correlated equilibrium), 那些如太阳黑子般的世外影象,却可 以引导人们产生出更丰富多彩的关联的经济行为,如商业波动等。


相关均衡不仅是纳什均衡概念的理论发展,而且其概念的简单性又让它避免了纳什均衡计算上的复杂性,真是美妙。由于他在博弈论的卓越建树,奥曼在2005年获得了诺贝尔经济学奖。他领导编著了博弈论百科全书,并建设了以色列决策科学与理性中心和美国石溪博弈论中心等学术机构,缔造了现代博弈论学派建设的平台。 


(三)博弈论的学科结构:数学与经济学的交汇 


简单来说,博弈论是一门研究智慧个体相互作用与决策的科学,是数学、经济学、和人工智能等学科交叉的科学。博弈论作为数学的一个分支领域,可以把它与运筹学来类比。运筹学有两个基本任务:优化和分配。我们在中学都学过求极值的问题。


简单的说,博弈论就是多元的优化和分配的推广,是研究在多元相互作用的系统中个体的或群体决策的科学。然而与运筹学不尽相同的是,博弈论也关顾博弈参与者的理性、智慧、行为,以及信息环境。也有与行为科学相交叉的进化博弈论分支。博弈论分为非合作博弈(策略博弈)合作博弈两大领域。让我们通过介绍博弈论在经济学上的发展,来了解它的基本学科框架。


博弈游戏《信任的进化》


当代博弈论一问世就与经济学联系在一起,冯·诺依曼和莫根斯坦那本开山巨著就以这个题目来命名的。如果拿经济学与物理学相比较的话,那博弈论就是经济学理论中的“量子力学”


博弈论和一般均衡理论(general equilibrium)是当今经济学理论的基本语言和范式。从微观的视角来看,在我们的经济体系中存在不同的经济个体,它们不仅自我行为, 同时也在交互作用着。


无论是个人,还是社区;无论是公司企业,还是政府部门,我们都 可以把它们的行为简化成一个模型:为了个体自己的目的,在做出自己的行为决策。而这些经济个体的最终利益不仅与自身的行为有关,而且也取决于其他个体的行为。例如华为在手机市场上的营利不仅来自于公司自身的研发、生产和销售上的作为,还要看苹果、三 星和国内对手的动作。


如果不研究对手,不观大局,我们所谓的“勤劳致富”就形同于盲人摸象。竞争就是在体系中与其他个体交互作用中为达到最大利益的最优行为。研究经济个体的竞争行为是微观经济学的范畴,也是经济学中的非合作博弈理论。非合作博弈最基本的解决方案,就是上面介绍的纳什均衡。 


金融学中有一难题,是套利的极限。套利是利用资本市场中资产价格错配的机会,采取金融交易手段来套取营利的活动。如果有一天,你发现周边有两个农贸市场都在买同样一种苹果,但价格却不尽相同。你可向朋友借些钱,买了便宜苹果去另一市场高价出售,还了朋友的钱后,留在兜中的钱就是你的套利了。(拜托,不要再向我推销了。我这里的苹果 已经吃不消了。)



市场有效性假说认为市场上这种套利机会机乎不会存在,因为一旦有套利机会,无数投机者就会蜂拥而致,套利机会也就会随之而消失。但现实并非如此,市场上套利机会还是随处可见。


佛(Shleifer) 和威斯尼(Vishny)应用博弈理论模型解释了这个套利极限的问题。他们认为,专业基金管理人受制于投资人对业绩表现的要求,而不能无条件地在任何市场条件下完成套利操作。 


除了竞争,在经济社会中人们也会寻求合作。一个社会收取了各类税项,这些财富资源如何从新分配呢?一个城市建设了一个机场,如何来让航空公司去分摊机场的建设和营运成本?更一般的,什么样的合作形式最有效?社会资源如何分配最合理?这些就是合作博弈论研究的核心问题。


沙普利和奥曼的价值理论为社会资源的分配提供了一个必备的基础准则:一个经济个体可以参与社会中的各类不同的团体(coalitional game), 而这个个体最后可以获得到的资源应该取决于它对所有社团边际贡献(Marginal contributions)的统计平均值


哇,分配决定于贡献,老沙他们满社会主义的。而沙普利又与盖尔为互补资源配置建立了稳定匹配的理论,那么浪漫的东西,留给你们自己去探究吧。



选举表决是人类分配资源和决定组织领导的常用手段,我们叫它民主。选举表决的民主方式真是完美的吗?法国启蒙运动的领袖孔多塞(Condorcet)指出当有三个备选对象时,民主方式可能会失效。选举表决也许不能决定出大家公认的领袖。这就是著名的孔多赛悖论。他的思想后来被发展成阿罗不可能原理(Arrow impossible theorem),它是社会选择(Social choice)领域的基 石。 


我们作金融的最经常接触到的就是金融资产和金融市场。“市场定价”(Mark to market)也常我们被用来做为一个行业信条。那什么样的市场更有效?更能准确地反映资产的价值?这就是博弈论中机制设计研究的问题(Mechanism design)。


市场中有公开拍卖(Open auction)和封闭拍卖(Sealed auction)。荷兰拍卖是源自于荷兰鲜花市场由高到低的叫价,买者可一口承接。我们在艺术品拍卖会看到的是所谓英式拍卖,竞拍者由低向高地竞相出价,拍品最后由最高出价者购得。香港政府也常用封闭拍卖方式出让土地。在封闭拍卖中,让出价最高者在购得拍品是自然了,但让他付什么样的价钱,却是学问了


直觉上,赢家出的最高价,就应该支付最高价吧。非也。我们要让最高出价的赢家以第二高出价的价格来购买拍品,这叫第二价拍卖(Second price auction)。你能理解为什么在封闭拍卖中第二价拍卖最有效吗?竞拍者的出价会更会接近他自己对拍品的真实估值,这样的市场设计能让买家说实话。


(四)博弈论与人工智能:一个硬币的两面 


冯·诺依曼与人工智能之父图灵的交集可追溯于他们在美国普林斯顿大学的学术生涯,那时,一个是大牌教授,一个是天才学子。他们两位又同是计算机科学的奠基者。博弈论与人工智能如同是一个硬币的正反两面。一个要研究智慧相互作用与决策,一个是要使人类智能机器化



当我们想让计算机和机器去象人类一样学习、思考和行为,实际上就是在让机器对其自身、对手和环境进行认知和智慧博弈。人工智能也就是要把博弈论机器化。如果要把人工智能改称为“人工博弈论”(Artificial game theory),肯定会有人反对。“Come on, 作博弈论的一边玩游戏去。我们还在忙着看图识字呢!” 


一个博弈论和机器学习交叉结合的范例是强化学习(Reinforcement learning)。让我们用最前面所提到的那只 Alphago 来演绎强化学习的概念吧。


作为人工智能的主体 Alphago与人类棋手进行围棋对弈,它的目标就是通过最佳策略来取得胜利。显然,它的最佳策略不仅要依照围棋的规则,还要针对对手的行为和策略。


在强化学习中,Alphago 首先要建立一个目标评价体系 (Rewards),通过评估局面的胜率来指导决策。第二部分是建设它的对策函数(Policy function),能够根据对手的行为和棋局的分析产生出合理的对策。


Alphago 在博弈中随着棋局的变化,从它的策略函数中产生使目标评估胜率最大的策略。Alphago 的目标评价体系 和对策函数是通过其自我生成的大量盘局而学习形成的。【其技术包括深度神经网络 (Deep neural network)和蒙特卡罗树搜索(Monte Carlo tree search)等技术,已超出本文的内容。


这就是关于那只Alphago强化学习的简约版故事。强化学习在经济和金融方面的应 用前景是显而易见的。尽管我们不好把人工智能完全等同于人工博弈论,但搞计算机的人爱玩游戏这却是不争的事实。



人工智能科学有一个巨大的游戏场,这就是算法博弈论(algorithmic game theory) 。图灵奖科学家姚其智和米卡利(Micali)也是这一领域的领军领袖。算法博弈首先关注博弈理论中的计算问题,有什么样的算法可求解?算法是否可有效地在计算机上实现出来? 


邓小铁等华人学者在纳什均衡计算复杂性的研究上做出了卓越的贡献。最近德州扑克博弈 专家萨德豪姆(Tuomas Sandholm)和他的合作者布郎(Brown)在多人扑克的智能博弈上又取得了突破性的进展。


算法博弈论的另一条发展方向来源于计算机领域的分布式计算。 它的一个基本问题是如何协调非中心控制的分布式的计算资源。在一个分布式系统中,如果有些结点上出现了问题,这个系统还可以正常工作吗?这就是著名的拜占庭将军问题


坏蛋将军05就可以理解为一个作恶的节点,他向不同的节点传递不同的消息,让系统内部的信息出现了不一致。(来源:liheng


当前非常活跃的区块链技术也是算法博弈与密码学等领域的交汇。作为密码学与算法博弈大师的米卡利,最近推出了他的区块公链项目 Algorand, 备受业界的关注。算法博弈蓬勃发展的一个主要动力还来自于它在互联网经济生活中的广泛应用。


无论从谷歌百度网页上的广告拍卖到的的出行Airbnb共享平台的机制设计,还是从人体器官移植的配匹到今日头条等资讯的个性化推荐,算法博弈都是支撑它们的核心基础技术。今天,博弈论正以崭新的方式走进我们生活的方方面面。 


(五)结篇寄语 


尽管博弈论中的一些问题和它的朴素思想或许可以追源于远古,但当今博弈论学科的发展 却日新月异,风华正茂。博弈论学科横跨数学、经济学和人工智能等诸多领域,是一门极富挑战性而又美妙美幻的交叉科学。当年著名物理学家郎道曾感叹其生不逢时,当时包括他在内的一流科学家,在物理学领域,也只能研究二三流的问题。


当今博弈论领域,不仅有一堆一流的问题有待研究,而且还有好些重要问题尚未被发现。这也是为什么,博弈论领域里硕果累累,群星璀璨。近年来它也成为一个诺贝尔经济学奖得主的摇篮。


在博弈论的学术领域,我们华人科学家也是人才济济,成就斐然。周林教授因其在博弈理论研究上 的卓越工作,于 2009 年入选世界计量经济学学会会士(Fellow) (这里并不试图对华人学者在博弈理论领域的工作进行全面的介绍)



博弈论也是一门实用性学科,它的基本原则和策略方法早已成为现代政治生活、经济活动、金融投资、商业决策和组织管理等领域必备的行为规范和实践手段。诺贝尔经济学奖得主罗斯曾倡导,经济学者也是工程师。他本人就在身体历行,是一位博弈论在社会资源匹配应用实践上的先行者。


今天,随着博弈论与人工智能的交汇,以及算法博弈的长足发展,博弈论正从科学的殿堂大步走出,汇入工程技术的广阔海洋,在各个方面服务于我们的生活。年轻的朋友们,让我们一起来了解和学习这门研究和实践智慧游戏的学科——博弈论。


(六)阅读建议


国际上博弈论的专业教材和杂志文献十分丰富,这里推荐几本国外文献的中译本来作为我们入门学习的教程。


学科科普


《纳什均衡与博弈论》

汤姆•齐格弗里德 (作者), 洪雷 (译者), 陈玮 (译者), 彭工 (译者)


学科应用


《策略思维——商界、政界及日常生活中的策略竞争(大师细说博弈论)》

阿维纳什·K·迪克西特 (作者), 巴里·J·奈尔伯夫 (作者)


《妙趣横生博弈论:事业与人生的成功之道》

迪克西特(Dixit A.K.) (作者), 奈尔伯夫(Nalebuff B.J.) (作者)


学科专业


《博弈论基础 (当代经济学教科书译丛) 》

罗伯特·吉本斯 (作者), 高峰 译 (译者), 魏玉根 校 (译者)


作者简介

美国纽约州立大学经济学博士,北京理工大学物理学理学学士。中国运筹学会博弈论分会理事。现任教于南方科技大学商学院金融系。曾就职于纽约华尔街高盛集团和香港中银国际;也曾先后在中国科学院和香港城市大学工作。目前主要研究兴趣:博弈论、人工智能与金融科技。



登录查看更多
7

相关内容

博弈论(Game theory)有时也称为对策论,或者赛局理论,应用数学的一个分支,目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构(游戏或者博弈)间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
355+阅读 · 2020年6月24日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
205+阅读 · 2019年9月30日
北大清华的状元之争:一个典型的囚徒困境
德先生
4+阅读 · 2019年6月10日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
学习如何学习的算法:简述元学习研究方向现状
深度学习世界
6+阅读 · 2018年4月9日
一个年薪30万的应届生告诉你应该如何学“算法”!
全球人工智能
4+阅读 · 2018年1月23日
Adam那么棒,为什么还对SGD念念不忘 (2)
AI研习社
3+阅读 · 2018年1月1日
为什么大家都不戳破深度学习的本质?
36大数据
4+阅读 · 2017年12月7日
一张通往计算机世界的地图
中科院物理所
8+阅读 · 2017年10月12日
这位程序员为什么要弃用Facebook?
CSDN
5+阅读 · 2017年7月14日
为什么不能和阿里巴巴好好说话呢?
创业邦杂志
3+阅读 · 2017年7月3日
Optimization for deep learning: theory and algorithms
Arxiv
105+阅读 · 2019年12月19日
Arxiv
136+阅读 · 2018年10月8日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
VIP会员
相关VIP内容
【硬核书】不完全信息决策理论,467页pdf
专知会员服务
355+阅读 · 2020年6月24日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
GAN新书《生成式深度学习》,Generative Deep Learning,379页pdf
专知会员服务
205+阅读 · 2019年9月30日
相关资讯
北大清华的状元之争:一个典型的囚徒困境
德先生
4+阅读 · 2019年6月10日
论强化学习的根本缺陷
AI科技评论
11+阅读 · 2018年7月24日
学习如何学习的算法:简述元学习研究方向现状
深度学习世界
6+阅读 · 2018年4月9日
一个年薪30万的应届生告诉你应该如何学“算法”!
全球人工智能
4+阅读 · 2018年1月23日
Adam那么棒,为什么还对SGD念念不忘 (2)
AI研习社
3+阅读 · 2018年1月1日
为什么大家都不戳破深度学习的本质?
36大数据
4+阅读 · 2017年12月7日
一张通往计算机世界的地图
中科院物理所
8+阅读 · 2017年10月12日
这位程序员为什么要弃用Facebook?
CSDN
5+阅读 · 2017年7月14日
为什么不能和阿里巴巴好好说话呢?
创业邦杂志
3+阅读 · 2017年7月3日
Top
微信扫码咨询专知VIP会员