Solving strategic games with huge action space is a critical yet under-explored topic in economics, operations research and artificial intelligence. This paper proposes new learning algorithms for solving two-player zero-sum normal-form games where the number of pure strategies is prohibitively large. Specifically, we combine no-regret analysis from online learning with Double Oracle (DO) methods from game theory. Our method -- \emph{Online Double Oracle (ODO)} -- is provably convergent to a Nash equilibrium (NE). Most importantly, unlike normal DO methods, ODO is \emph{rationale} in the sense that each agent in ODO can exploit strategic adversary with a regret bound of $\mathcal{O}(\sqrt{T k \log(k)})$ where $k$ is not the total number of pure strategies, but rather the size of \emph{effective strategy set} that is linearly dependent on the support size of the NE. On tens of different real-world games, ODO outperforms DO, PSRO methods, and no-regret algorithms such as Multiplicative Weight Update by a significant margin, both in terms of convergence rate to a NE and average payoff against strategic adversaries.


翻译:以巨大的行动空间解决战略游戏是经济学、操作研究和人工智能方面一个关键但探索不足的主题。 本文建议采用新的学习算法来解决纯战略数量惊人庞大的双玩者零和正态游戏。 具体地说, 我们把在线学习的无正反分析与游戏理论的双甲骨( DO) 方法结合起来。 我们的方法 -- \ emph{ 在线双甲甲( ODO) 与纳什平衡( NE) 相近。 最重要的是, ODO 与正常的DO 方法不同, oDO 是 emph{ ligial }, 意思是ODO 的每个代理可以利用战略对手, 遗憾地捆绑着$\ mathcal{ O} (\\\\ qrt{ T k\ log( k)} $, 其中美元不是纯战略的总数,而是 \ emph{ 有效战略 } 的大小, 直线取决于 NEEE 的支撑大小。 。 。 。 在不同的现实游戏中, ODO eightforforforfor delfor Stal 方法上, PSerview 和O- regregildal 两种策略均值, 方法, 都以相当为等为高。

0
下载
关闭预览

相关内容

甲骨文公司,全称甲骨文股份有限公司(甲骨文软件系统有限公司),是全球最大的企业级软件公司,总部位于美国加利福尼亚州的红木滩。1989年正式进入中国市场。2013年,甲骨文已超越 IBM ,成为继 Microsoft 后全球第二大软件公司。
专知会员服务
55+阅读 · 2020年9月7日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
111+阅读 · 2020年6月10日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
VIP会员
相关VIP内容
专知会员服务
55+阅读 · 2020年9月7日
知识图谱推理,50页ppt,Salesforce首席科学家Richard Socher
专知会员服务
111+阅读 · 2020年6月10日
强化学习最新教程,17页pdf
专知会员服务
182+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
27+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
29+阅读 · 2019年5月18日
spinningup.openai 强化学习资源完整
CreateAMind
6+阅读 · 2018年12月17日
Auto-Encoding GAN
CreateAMind
7+阅读 · 2017年8月4日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
Top
微信扫码咨询专知VIP会员