纽约大学等《网络、博弈和学习的融合：网络上多智能体决策的博弈论框架》，60页pdf

摘要

近年来，现代网络应用的技术和服务取得了重大进展，包括智能电网管理、无线通信、网络安全以及多智能体自主系统。考虑到网络实体的异构性质，新兴的网络应用程序需要博弈论模型和基于学习的方法，以创建分布式网络智能，以响应动态或对抗环境中的不确定性和中断。

本文阐述了网络、博弈和学习的融合，为理解网络上的多智能体决策奠定了理论基础。我们在随机近似理论的框架内提供了博弈论学习算法的选择性概述，以及在现代网络系统的一些代表性环境中的相关应用，例如下一代无线通信网络、智能电网和分布式机器学习。除了现有的关于网络上的博弈论学习的研究工作外，我们还强调了与人工智能的最新发展相关的博弈学习的几个新角度和研究工作。一些新的角度是从我们自己的研究兴趣中推断出来的。本文的总体目标是让读者清楚地了解在网络系统背景下采用博弈论学习方法的优势和挑战，并进一步确定理论和应用研究方面富有成果的未来研究方向。

引言

网络上的多智能体决策最近吸引了来自系统和控制界的呈指数增长的关注。该领域在工程、社会科学、经济学、城市科学和人工智能等各个领域获得了越来越大的发展势头，因为它是研究大型复杂系统的普遍框架，并被广泛应用于解决这些领域中出现的许多问题。例如社交网络分析 [1]、智能电网管理 [2, 3]、交通控制 [4]、无线和通信网络 [5-7]、网络安全 [8,9] 以及多智能体自主系统[10]。

由于现代网络应用中先进技术和服务的激增，解决多智能体网络中的决策问题需要能够捕捉新兴网络系统的以下特征和自主控制设计的新模型和方法：

底层网络的异构性，以一组节点为代表的多个实体以独立决策能力追求自己的目标；
系统需要分布式或去中心化运行，底层网络拓扑结构复杂，规模过大，无法集中管理；
需要创建响应网络和环境变化的网络智能，因为系统经常在动态或对抗环境中运行。

博弈论为解决这些挑战提供了一套自然的工具和框架，并将网络连接到决策制定。它需要开发数学模型，以定性和定量地描述具有不同信息和理性的自利行为体之间的相互作用是如何达到一个全局目标或导致在系统水平上出现行为的。此外，通过底层网络，博弈论模型捕获了拓扑结构对分布式决策过程的影响，在分布式决策过程中，智能体根据其目标和可获得的局部信息(如对其邻居的观察)独立规划其行动。

除了网络上的博弈论模型之外，在为网络系统设计分散管理机制时，学习理论也是必不可少的，以便为网络配备分布式智能。通过博弈论模型和相关学习方案的结合，这种网络智能允许异构智能体相互进行战略性交互，并学会对不确定性、异常和中断做出响应，从而在网络或最优系统上产生所需的集体行为模式级性能。这种网络智能的关键特征是，即使每个智能体自己的决策过程受到其他决策的影响，智能体也会以在线和分散的方式达到均衡状态，即我们稍后将阐明的纳什均衡.为了给网络配备分布式智能，联网智能体应该通过在他们可能不知道的大型网络上通过有限的局部观察来适应动态环境。在计算上，分散式学习可以有效地扩展到大型和复杂的网络，并且不需要关于整个网络的全局信息，这与集中式控制法则相比更实用。

本文阐述了网络、博弈和学习的融合，为理解网络上的多智能体决策奠定了理论基础。

图 1：网络、博弈和学习的融合。博弈论建模和学习理论的结合为各种网络系统带来了弹性和敏捷的网络控制。

我们的目标是对博弈论学习方法及其在网络问题中的应用提供系统的处理，以满足上述三个要求。如图 1 所示，新兴的网络应用需要新的方法，并且由于分散的性质，博弈论模型以及相关的学习方法为解决来自各个领域的网络问题提供了一种优雅的方法。具体来说，我们的目标有三个：

提供适用于多智能体决策问题的博弈论模型的高级介绍；
提出基于随机近似和李雅普诺夫理论的用于研究博弈学习过程的关键分析工具，并指出一些广泛研究的学习动态；
介绍可以通过博弈论学习解决的各种多智能体系统和网络应用。

我们的目标是让读者清楚地了解在网络系统的背景下采用新颖的博弈论学习方法的优势和挑战。除了突出显示的内容外，我们还为读者提供了进一步阅读的参考。在本文中，完全信息博弈是本课题的基础，我们将简要介绍静态博弈和动态博弈。关于这个主题的更全面的处理以及其他博弈模型，例如不完全信息博弈，可以在 [11-13] 中找到。由于大多数网络拓扑可以通过博弈的效用函数结构来表征 [1, 14]，因此我们没有阐明网络拓扑对博弈本身的影响。相反，我们关注它对博弈学习过程的影响，其中玩家的信息反馈取决于网络结构，我们展示了具有代表性的网络应用程序来展示这种影响。我们推荐读者参考 [1,14] 以进一步阅读各种网络上的博弈。

论文结构

我们的讨论结构如下。在第 2 节中，我们介绍了非合作博弈和相关的解决方案概念，包括纳什均衡及其变体，它们记录了自利参与者的战略互动。然后，在第 3 节，我们转向本文的主要焦点：在收敛到纳什均衡的博弈学习动态。在随机逼近框架内，提供了各种动力学的统一描述，并且可以通过常微分方程（ODE）方法研究分析性质。在第 4 节中，我们讨论了这些学习算法在网络中的应用，从而导致了网络系统的分布式和基于学习的控制。最后，第 5 节总结了本文。

成为VIP会员查看完整内容

132

相关内容

博弈论

关注 383

博弈论（Game theory）有时也称为对策论，或者赛局理论，应用数学的一个分支，目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构（游戏或者博弈）间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。

【经典书】时间序列分析与预测导论，671页pdf

专知会员服务

153+阅读 · 2022年4月1日

【2021新书】分布式优化，博弈和学习算法，227页pdf

专知会员服务

237+阅读 · 2021年5月25日