【2023博士论文】《游戏和强化学习》北卡州立大学

做出决定是很难的! 值得庆幸的是，人类已经开发了许多概念框架，如决策理论、运筹学、伦理理论、统计学、博弈论和强化学习，以帮助解决这个过程。这些框架中的每一个都可以通过它们将决策的哪些方面放在前面和中心，哪些方面被忽略来描述。

本论文涉及统计学、博弈论和强化学习的交叉领域的课题。广义上讲，这些领域可以有以下特点。

统计学是关于不确定性的量化：给定一些产生数据的过程，统计学提供了正式的工具，将数据转换为关于该过程的陈述，这些陈述是根据数据所传达的证据量来校准的。在一个典型的统计问题中，科学家对一个系统进行干预，并在每次干预后收集系统的数字测量。统计学家的任务是利用这些数据来提供（i）干预措施效果的估计值，以及（ii）这些估计值中不确定性的一些原则性量化。如何处理这些估计值的问题完全由科学家（或其他领域的专家）来决定。
博弈论是关于战略的，即在有其他决策者存在的情况下的决策考虑。它把有关相互作用的决策者或智能体之间的冲突、合作和激励的问题放在最前面和中心。一个典型的博弈论问题是：给定一组智能体可用的选项和智能体对结果的偏好，什么样的智能体行为分配是稳定的，以至于没有智能体会有动力改变他们的行为？博弈论想当然地认为，智能体确切地知道他们的偏好（用数字表示），并且通常假设，一旦考虑到其他智能体行动的不确定性，就可以确定地知道行动的后果。
强化学习是关于从经验中学习。在强化学习中，决策者通过采取行动和观察与所采取行动的质量相关的数字 "奖励 "信号来与系统互动。学习问题是更新决策规则以获得更大的奖励。这些更新可能会影响到收集到的数据的分布，从而引入统计方面的挑战。在这种情况下，决策者面临着基本的权衡，如是否采取行动以收集更多的信息，或是否采取行动以获得更大的奖励（所谓的探索-利用权衡）。强化学习的一个典型问题是反复玩有限数量的老虎机，保持对其报酬分布的估计，目的是获得最大的累积报酬。鉴于其对行为和行为引起的奖励的强调，强化学习（狭义上的解释）不关注不确定性的量化，也不关注其他决策者的存在。

上述每个框架都提供了一个独特的视角来分析决策问题，并提供了强大的工具来进行分析。每个框架也都有其局限性。例如，传统的统计学可以被认为是一种完全的描述性工作，适用于分析者不与之互动的系统：它没有明确地纳入决策，并经常假设数据是以一种方便的方式取样的，例如，作为独立和相同的人口抽样。这就排除了分析本身可能会改变产生的数据。在光谱的另一端，经典博弈论几乎没有试图进行描述，而是相当规范，详细说明了 "理性 "智能体必须采取行动的方式，并规定了这些智能体的理论上稳定的配置。博弈论是抽象的，它假设了许多不确定性的来源，如环境中的不确定性或自己对结果的偏好。

宽泛地说，强化学习在纯粹的描述性或规范性之间做出了妥协：它的工具可以用来分析现实世界的智能体所产生的数据，或者为智能体推荐或规定行动。它的研究重点通常是制造理想的行为，这使得它更适合作为一门工程学科（如控制理论），而不是用于对不确定性进行仔细量化的数据稀缺环境，或对其他智能体的考虑至关重要的现实世界环境。

鉴于它们的优点和缺点，这些框架中的每一个都有一些强大的东西可以提供给其他的框架。正是这种观察激励了本论文的工作，它试图以各种方式将这些框架融合在一起，以提供更好的工具，在复杂的世界中做出决策。下面，我们概述了三种不同的框架融合方式的动机和结果，每一种都构成了本论文的一个章节。

统计学与博弈论的结合

鉴于其规范性方向，博弈论并没有提供数据驱动的分析工具，因为它们是由人或算法进行的游戏。这种类型的分析是很重要的。视频游戏是全世界范围内大规模流行的娱乐形式，为了创造或平衡它们，游戏设计师必须了解它们是如何被玩的。例如：某些策略是否对游戏的结果产生了不良影响？随机性是否发挥了过大的作用？除了游戏设计之外，在美国和全世界的许多司法管辖区，在游戏上赌博的合法性取决于在决定该游戏的结果时是技巧还是机会 "占优势"。这个概念并没有一个既定的正式说法。因此，在游戏设计和赌博法中，都需要有统计工具来描述各方面对游戏结果的影响。

在第二章（广义形式游戏的方差分解）中，我们采用了一种常见的统计工具，并为广义形式游戏开发了一个版本，广义形式游戏是一种具有离散步骤和部分可观察性的游戏的一般模型，包括国际象棋和扑克这些特殊情况。这个工具就是方差分解，它在统计学中被用来量化感兴趣的结果中的变化来源。游戏的方差分解允许用户将游戏结果的变化归因于不同的玩家和机会，使分析游戏的新方法可能对赌博法或游戏设计产生影响。具体来说，我们推导出一个封闭式表达式，并估算出可归因于单一玩家或机会的广义游戏结果的方差。我们分析了扑克牌，发现发牌的随机性对每一手牌的结果的影响小得令人吃惊。我们简要地评论了这一想法的延伸，它可以用来测量游戏的其他有趣的属性。本章是Cloud和Laber(2021)的翻版，稍作修改。

结合博弈论和强化学习

在过去的五年里，机器学习方法在决策方面有了快速的发展，特别是在复杂的、大规模的、多人游戏中，如国际象棋、围棋、Dota II、星际争霸和战略游戏。学习玩这些游戏的一个明显的困难是弄清楚如何采取行动，以便在复杂的环境中实现某些变化。这正是强化学习所要解决的问题。然而，还有一个重要的困难，在文献中得到了很好的理解，但也许并不普遍：在有多个智能体的情况下学习。在上述所有的游戏中，机器学习算法必须学会以尊重游戏的隐含动态性的方式行事：通过游戏环境，智能体可能面临许多不同种类的对手。这些对手可能会利用曾对其他智能体产生有利结果的行为。例如，应用于 "剪刀石头布 "游戏的天真强化学习算法，在对 "布"的对手进行训练后，将产生一个 "剪刀 "智能体，在对其训练对手时获得高额奖励，但被 "石头 "智能体严重惩罚。对这些多智能体动态的考虑存在于博弈论的领域。因此，为了定义合适的收敛概念和设计达到收敛的算法，多智能体强化学习问题必须将博弈论引入其中。

在第三章（预期的虚构游戏）中，我们研究了一种经典的博弈论算法，这种算法之前已经被成功地扩展到多智能体强化学习中。该算法被称为 "虚构游戏"，用于在双人竞争游戏中寻找平衡点。然而，正如我们在理论上和经验上所显示的，它在一些感兴趣的游戏中收敛得很慢。为了解决这一缺陷，我们提出了一种新的虚构游戏的变体，称为预期性虚构游戏。预测性虚构游戏被证明是收敛的，被证明具有优越的经验性能，并被扩展到多智能体强化学习的环境中。在此过程中，我们提供了一种易于实现的多智能体强化学习算法，其性能优于由虚构游戏驱动的算法。本章是Cloud等人(2022)的复制品，做了些许修改，仿真结果也不那么广泛。

结合统计学和强化学习

在许多数据驱动的决策问题中，对其他智能体的考虑并不重要，因此，不需要博弈论。例如，在临床试验、推荐系统或其他许多独立个体与系统互动的环境中，通常把问题当作病人或网站用户是可以互换的、独立的和固定的。这是合理的，因为，例如，给一个病人提供治疗，不太可能导致另一个病人后来对同一治疗有不同的反应。使用数据为临床试验中的个人定制治疗方法，或向网络用户推荐媒体，是一个强化学习问题。然而，在需要 "安全 "概念的环境中，强化学习的天真应用不可能是合适的。如果一个决策系统要可靠地遵守对其行动效果的约束，就必须能够量化其行动效果的不确定性。进行这种不确定性的量化是统计推理的一个问题。

在第四章(上下文强盗中的安全约束在线学习)中，我们提出并研究了一个受约束的强化学习问题，除了奖励最大化之外，决策者还必须根据对其 "安全性 "的约束来选择行动。约束满足，就像潜在的奖励信号一样，是由噪声数据估计的，因此需要仔细处理不确定性。我们提出了一个新的算法框架，它采用了样本分割，以便比现有的安全算法更有效地利用数据。我们框架的通用性意味着它有可能被应用于各种现实世界中的安全关键决策问题，包括那些使用人工神经网络等难以分析的函数近似器的问题。然而，我们在更有限的线性背景下研究了我们的框架，以便得出理论结果，暗示该方法的实际安全性和实用性。我们证明，在适当的条件下，我们的算法保证在极限情况下产生最佳的安全行为，甚至在小样本环境下也是近似安全的。在各种模拟中，我们验证了该理论，并证明了卓越的经验性能。通过这种方式，我们提供了一种可靠的算法，可用于现实世界的安全关键数据驱动的决策问题。本章是Cloud, Laber和Kosorok（即将出版）的论文的预印本。

成为VIP会员查看完整内容

相关内容

博弈论

关注 0

博弈论（Game theory）有时也称为对策论，或者赛局理论，应用数学的一个分支，目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。主要研究公式化了的激励结构（游戏或者博弈）间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。

【普林斯顿大学博士论文】带约束和函数逼近的可证明强化学习，

专知会员服务

42+阅读 · 2023年2月25日

【CMU博士论文】强化学习泛化性与效率研究，206页pdf

专知会员服务

72+阅读 · 2023年2月23日

【博士论文】《博弈论在安全领域的应用》罗格斯新泽西州立大学208页论文

专知会员服务

101+阅读 · 2022年9月21日

《军事作战研究中的近似动态规划（强化学习）应用综述》加拿大国防研究与发展部、加拿大联合作战司令部

专知会员服务

139+阅读 · 2022年5月17日