High-quality information set abstraction remains a core challenge in solving large-scale imperfect-information extensive-form games (IIEFGs)--such as no-limit Texas Hold'em--where the finite nature of spatial resources hinders solving strategies for the full game. State-of-the-art AI methods rely on pre-trained discrete clustering for abstraction, yet their hard classification irreversibly discards critical information: specifically, the quantifiable subtle differences between information sets--vital for strategy solving--thus compromising the quality of such solving. Inspired by the word embedding paradigm in natural language processing, this paper proposes the Embedding CFR algorithm, a novel approach for solving strategies in IIEFGs within an embedding space. The algorithm pre-trains and embeds the features of individual information sets into an interconnected low-dimensional continuous space, where the resulting vectors more precisely capture both the distinctions and connections between information sets. Embedding CFR introduces a strategy-solving process driven by regret accumulation and strategy updates in this embedding space, with supporting theoretical analysis verifying its ability to reduce cumulative regret. Experiments on poker show that with the same spatial overhead, Embedding CFR achieves significantly faster exploitability convergence compared to cluster-based abstraction algorithms, confirming its effectiveness. Furthermore, to our knowledge, it is the first algorithm in poker AI that pre-trains information set abstractions via low-dimensional embedding for strategy solving.


翻译:高质量的信息集抽象仍然是解决大规模非完全信息扩展式博弈(IIEFGs)——如无限制德州扑克——的核心挑战,其中有限的空间资源阻碍了完整博弈的策略求解。当前最先进的人工智能方法依赖于预训练的离散聚类进行抽象,但其硬分类不可逆地丢弃了关键信息:具体而言,信息集之间可量化的细微差异——这对策略求解至关重要——从而影响了此类求解的质量。受自然语言处理中词嵌入范式的启发,本文提出了嵌入CFR算法,这是一种在嵌入空间中求解IIEFGs策略的新方法。该算法将单个信息集的特征预训练并嵌入到一个相互关联的低维连续空间中,其中生成的向量更精确地捕捉了信息集之间的差异和联系。嵌入CFR引入了在该嵌入空间中由遗憾累积和策略更新驱动的策略求解过程,并辅以理论分析验证其减少累积遗憾的能力。在扑克博弈上的实验表明,在相同的空间开销下,嵌入CFR相比基于聚类的抽象算法实现了显著更快的可剥削性收敛,证实了其有效性。此外,据我们所知,这是扑克人工智能中首个通过低维嵌入预训练信息集抽象以进行策略求解的算法。

0
下载
关闭预览

相关内容

专知会员服务
64+阅读 · 2021年6月11日
专知会员服务
69+阅读 · 2021年4月27日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
误差反向传播——CNN
统计学习与视觉计算组
30+阅读 · 2018年7月12日
相关基金
国家自然科学基金
17+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员