大型对抗性不完全信息博弈的均衡发现
不完全信息博弈模型是指具有私有信息的多个主体之间的交互作用。在这种情况下,一个典型的目标是接近一个均衡,在这个均衡中,所有主体的策略都是最优的。本文描述了大型对抗不完全信息博弈均衡计算方面的若干进展。这些新技术使人工智能智能体首次有可能在全规模扑克游戏中击败顶级人类专业人员。几十年来,扑克一直是人工智能和博弈论领域的一大挑战。
我们首先介绍了反事实后悔最小化(CFR)的改进,这是一种收敛于双方零和博弈纳什均衡的迭代算法。我们描述了CFR的新变种,使用折现来显著加快收敛速度。这些新的CFR变体现在是大型对抗非完全信息博弈的最先进的均衡发现算法。我们还介绍了第一种热启动CFR的通用技术。最后,我们介绍理论健全的剪枝技术,可以在大型博弈中数量级地加速收敛。
接下来,我们将描述通过自动抽象和函数近似将CFR扩展到大型游戏的新方法。特别地,我们介绍了第一个在不完全信息博弈中离散连续动作空间的算法。我们将其扩展到求解具有连续动作空间博弈的算法中。
之后,我们介绍了Deep CFR,一种使用神经网络函数近似而不是基于bucketing的抽象形式。Deep CFR是第一个可扩展到大型游戏的non-tabular形式的CFR,它使CFR能够在几乎没有领域知识的情况下成功部署。最后,我们提出了一种新的不完全信息博弈搜索技术,以确保智能体的搜索策略不会被对手利用。方法,它在计算上比以前的方法要代价要少得多。最最后,我们提出了一种在训练和测试时结合强化学习和搜索的算法ReBeL。它朝着弥合完全信息游戏和不完全信息游戏研究之间的差距迈出了重要的一步。