近年来,现代网络应用的技术和服务取得了重大进展,包括智能电网管理、无线通信、网络安全以及多智能体自主系统。考虑到网络实体的异构性质,新兴的网络应用程序需要博弈论模型和基于学习的方法,以创建分布式网络智能,以响应动态或对抗环境中的不确定性和中断。
本文阐述了网络、博弈和学习的融合,为理解网络上的多智能体决策奠定了理论基础。我们在随机近似理论的框架内提供了博弈论学习算法的选择性概述,以及在现代网络系统的一些代表性环境中的相关应用,例如下一代无线通信网络、智能电网和分布式机器学习。除了现有的关于网络上的博弈论学习的研究工作外,我们还强调了与人工智能的最新发展相关的博弈学习的几个新角度和研究工作。一些新的角度是从我们自己的研究兴趣中推断出来的。本文的总体目标是让读者清楚地了解在网络系统背景下采用博弈论学习方法的优势和挑战,并进一步确定理论和应用研究方面富有成果的未来研究方向。
网络上的多智能体决策最近吸引了来自系统和控制界的呈指数增长的关注。该领域在工程、社会科学、经济学、城市科学和人工智能等各个领域获得了越来越大的发展势头,因为它是研究大型复杂系统的普遍框架,并被广泛应用于解决这些领域中出现的许多问题。例如社交网络分析 [1]、智能电网管理 [2, 3]、交通控制 [4]、无线和通信网络 [5-7]、网络安全 [8,9] 以及多智能体自主系统[10]。
由于现代网络应用中先进技术和服务的激增,解决多智能体网络中的决策问题需要能够捕捉新兴网络系统的以下特征和自主控制设计的新模型和方法:
博弈论为解决这些挑战提供了一套自然的工具和框架,并将网络连接到决策制定。它需要开发数学模型,以定性和定量地描述具有不同信息和理性的自利行为体之间的相互作用是如何达到一个全局目标或导致在系统水平上出现行为的。此外,通过底层网络,博弈论模型捕获了拓扑结构对分布式决策过程的影响,在分布式决策过程中,智能体根据其目标和可获得的局部信息(如对其邻居的观察)独立规划其行动。
除了网络上的博弈论模型之外,在为网络系统设计分散管理机制时,学习理论也是必不可少的,以便为网络配备分布式智能。通过博弈论模型和相关学习方案的结合,这种网络智能允许异构智能体相互进行战略性交互,并学会对不确定性、异常和中断做出响应,从而在网络或最优系统上产生所需的集体行为模式级性能。这种网络智能的关键特征是,即使每个智能体自己的决策过程受到其他决策的影响,智能体也会以在线和分散的方式达到均衡状态,即我们稍后将阐明的纳什均衡.为了给网络配备分布式智能,联网智能体应该通过在他们可能不知道的大型网络上通过有限的局部观察来适应动态环境。在计算上,分散式学习可以有效地扩展到大型和复杂的网络,并且不需要关于整个网络的全局信息,这与集中式控制法则相比更实用。
本文阐述了网络、博弈和学习的融合,为理解网络上的多智能体决策奠定了理论基础。
图 1:网络、博弈和学习的融合。博弈论建模和学习理论的结合为各种网络系统带来了弹性和敏捷的网络控制。
我们的目标是对博弈论学习方法及其在网络问题中的应用提供系统的处理,以满足上述三个要求。如图 1 所示,新兴的网络应用需要新的方法,并且由于分散的性质,博弈论模型以及相关的学习方法为解决来自各个领域的网络问题提供了一种优雅的方法。具体来说,我们的目标有三个:
我们的目标是让读者清楚地了解在网络系统的背景下采用新颖的博弈论学习方法的优势和挑战。除了突出显示的内容外,我们还为读者提供了进一步阅读的参考。在本文中,完全信息博弈是本课题的基础,我们将简要介绍静态博弈和动态博弈。关于这个主题的更全面的处理以及其他博弈模型,例如不完全信息博弈,可以在 [11-13] 中找到。由于大多数网络拓扑可以通过博弈的效用函数结构来表征 [1, 14],因此我们没有阐明网络拓扑对博弈本身的影响。相反,我们关注它对博弈学习过程的影响,其中玩家的信息反馈取决于网络结构,我们展示了具有代表性的网络应用程序来展示这种影响。我们推荐读者参考 [1,14] 以进一步阅读各种网络上的博弈。
我们的讨论结构如下。在第 2 节中,我们介绍了非合作博弈和相关的解决方案概念,包括纳什均衡及其变体,它们记录了自利参与者的战略互动。然后,在第 3 节,我们转向本文的主要焦点:在收敛到纳什均衡的博弈学习动态。在随机逼近框架内,提供了各种动力学的统一描述,并且可以通过常微分方程(ODE)方法研究分析性质。在第 4 节中,我们讨论了这些学习算法在网络中的应用,从而导致了网络系统的分布式和基于学习的控制。最后,第 5 节总结了本文。