In imperfect-information games, subgame solving is significantly more challenging than in perfect-information games, but in the last few years, such techniques have been developed. They were the key ingredient to the milestone of superhuman play in no-limit Texas hold'em poker. Current subgame-solving techniques analyze the entire common-knowledge closure of the player's current information set, that is, the smallest set of nodes within which it is common knowledge that the current node lies. While this is acceptable in games like poker where the common-knowledge closure is relatively small, many practical games have more complex information structure, which renders the common-knowledge closure impractically large to enumerate or even reasonably approximate. We introduce an approach that overcomes this obstacle, by instead working with only low-order knowledge. Our approach allows an agent, upon arriving at an infoset, to basically prune any node that is no longer reachable, thereby massively reducing the game tree size relative to the common-knowledge subgame. We prove that, as is, our approach can increase exploitability compared to the blueprint strategy. However, we develop three avenues by which safety can be guaranteed. Even without the safety-guaranteeing additions, experiments on medium-sized games show that our approach always reduced exploitability in practical games even when applied at every infoset, and a depth-limited version of it led to -- to our knowledge -- the first strong AI for the challenge problem dark chess.


翻译:在不完善的信息游戏中,子游戏的解决比完美信息游戏更具挑战性,但是在过去几年中,这些技术已经开发出来。它们是在不限制的得克萨斯州手握扑克牌中超人游戏里程碑的关键成分。当前子游戏的解决技术分析了玩家当前成套信息的全部共同知识封闭,也就是人们通常知道当前节点所在的最小的一组节点。在普通知识关闭相对较小的扑克游戏中,这可以被接受,但在很多实际游戏中,信息结构更为复杂,这使得共同知识关闭不切实际地大到可以列举,甚至相当接近。我们引入了一种克服这一障碍的方法,而不是仅靠低级知识来工作。我们的方法允许一个代理人在到达“无意识”时,基本上可以淡化任何不再能够触及的节点,从而大大缩小游戏树的大小,使之与普通知识子游戏相对而言。我们证明,我们的方法可以比蓝图添加战略更难利用性。然而,我们开发了三种途径,即安全性能克服这一障碍,而不是仅仅靠低级知识。即使没有安全游戏的深度,我们也可以在每一个游戏中试度上都显示,我们是如何运用。

0
下载
关闭预览

相关内容

专知会员服务
39+阅读 · 2020年9月6日
多模态深度学习综述,18页pdf
专知会员服务
213+阅读 · 2020年3月29日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
151+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Arxiv
0+阅读 · 2022年2月4日
Arxiv
5+阅读 · 2015年3月1日
VIP会员
相关资讯
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
【TED】生命中的每一年的智慧
英语演讲视频每日一推
9+阅读 · 2019年1月29日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【推荐】YOLO实时目标检测(6fps)
机器学习研究会
20+阅读 · 2017年11月5日
【计算机类】期刊专刊/国际会议截稿信息6条
Call4Papers
3+阅读 · 2017年10月13日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员