【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides - 专知

会员服务 ·

0

【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides

2020 年 9 月 23 日 专知

昨日，Noam Brown在推特上宣布答辩完成了卡耐基梅隆大学（CMU）的 230页超硬核博士论文：

《Equilibrium Finding for Large Adversarial Imperfect-Information Games》

大型对抗性不完全信息博弈的均衡发现

不完全信息博弈模型是指具有私有信息的多个主体之间的交互作用。在这种情况下，一个典型的目标是接近一个均衡，在这个均衡中，所有主体的策略都是最优的。本文描述了大型对抗不完全信息博弈均衡计算方面的若干进展。这些新技术使人工智能智能体首次有可能在全规模扑克游戏中击败顶级人类专业人员。几十年来，扑克一直是人工智能和博弈论领域的一大挑战。

我们首先介绍了反事实后悔最小化(CFR)的改进，这是一种收敛于双方零和博弈纳什均衡的迭代算法。我们描述了CFR的新变种，使用折现来显著加快收敛速度。这些新的CFR变体现在是大型对抗非完全信息博弈的最先进的均衡发现算法。我们还介绍了第一种热启动CFR的通用技术。最后，我们介绍理论健全的剪枝技术，可以在大型博弈中数量级地加速收敛。

接下来，我们将描述通过自动抽象和函数近似将CFR扩展到大型游戏的新方法。特别地，我们介绍了第一个在不完全信息博弈中离散连续动作空间的算法。我们将其扩展到求解具有连续动作空间博弈的算法中。

之后，我们介绍了Deep CFR，一种使用神经网络函数近似而不是基于bucketing的抽象形式。Deep CFR是第一个可扩展到大型游戏的non-tabular形式的CFR，它使CFR能够在几乎没有领域知识的情况下成功部署。最后，我们提出了一种新的不完全信息博弈搜索技术，以确保智能体的搜索策略不会被对手利用。方法，它在计算上比以前的方法要代价要少得多。最最后，我们提出了一种在训练和测试时结合强化学习和搜索的算法ReBeL。它朝着弥合完全信息游戏和不完全信息游戏研究之间的差距迈出了重要的一步。

论文目录：

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“LAEF” 可以获取《【CMU大神Noam博士论文】大型对抗性不完全信息博弈的均衡发现，附230页pdf与slides》专知下载链接索引

专知，专业可信的人工智能知识分发，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取5000+AI主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取5000+AI主题知识资源

登录查看更多

1

相关内容

不完全信息博弈

不完全信息博弈

【Alma Mate博士论文】深度架构持续学习，附150页pdf与Slides

【Alma Mate博士论文】深度架构持续学习，附150页pdf与Slides

专知会员服务

47+阅读 · 2020年11月18日

【2020新书】概率机器学习，附212页pdf与slides

【2020新书】概率机器学习，附212页pdf与slides

专知会员服务

112+阅读 · 2020年11月12日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

最新《深度强化学习中的迁移学习》综述论文

最新《深度强化学习中的迁移学习》综述论文

专知会员服务

157+阅读 · 2020年9月20日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

96+阅读 · 2020年6月19日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

最新《深度学习行人重识别》综述论文，24页pdf

最新《深度学习行人重识别》综述论文，24页pdf

专知会员服务

81+阅读 · 2020年5月5日

【加州大学-Liwei Wu博士论文】协同过滤与排序进展，150页pdf

专知会员服务

45+阅读 · 2020年3月2日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

自然语言处理ACL2020论文列表

自然语言处理ACL2020论文列表

专知

12+阅读 · 2020年6月23日

最新《动态网络嵌入》综述论文，25页pdf

最新《动态网络嵌入》综述论文，25页pdf

专知

37+阅读 · 2020年6月17日

【新书册】贝叶斯神经网络，41页pdf

【新书册】贝叶斯神经网络，41页pdf

专知

29+阅读 · 2020年6月3日

【UCSD-MIT】深度学习隐私综述论文，Privacy in Deep Learning: A Survey

【UCSD-MIT】深度学习隐私综述论文，Privacy in Deep Learning: A Survey

专知

5+阅读 · 2020年4月28日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知

43+阅读 · 2020年3月10日

【资源】知识图谱本体构建论文合集

【资源】知识图谱本体构建论文合集

专知

61+阅读 · 2019年10月9日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

60+阅读 · 2019年6月14日

深度学习了解一下（附53页Slides）

深度学习了解一下（附53页Slides）

专知

48+阅读 · 2019年5月20日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

16+阅读 · 2018年12月26日

Privacy Labelling and the Story of Princess Privacy and the Seven Helpers

Arxiv

0+阅读 · 2020年12月3日

COVID-19 Contact Tracing and Privacy: A Longitudinal Study of Public Opinion

Arxiv

0+阅读 · 2020年12月2日

Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER

Arxiv

0+阅读 · 2020年12月2日

Duality-Gated Mutual Condition Network for RGBT Tracking

Arxiv

0+阅读 · 2020年11月30日

Towards Combating Pandemic-related Misinformation in Social Media

Arxiv

0+阅读 · 2020年11月28日

Feedback from the participants of the ADBIS, TPDL and EDA 2020 joint conferences

Arxiv

0+阅读 · 2020年11月27日

A Mathematical Introduction to Generative Adversarial Nets (GAN)

A Mathematical Introduction to Generative Adversarial Nets (GAN)

Arxiv

28+阅读 · 2020年9月1日

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Arxiv

4+阅读 · 2019年7月4日

A Benchmark Study on Sentiment Analysis for Software Engineering Research

Arxiv

3+阅读 · 2018年3月17日

KBGAN: Adversarial Learning for Knowledge Graph Embeddings

Arxiv

6+阅读 · 2018年2月20日

VIP会员

相关主题

不完全信息博弈

相关VIP内容

【Alma Mate博士论文】深度架构持续学习，附150页pdf与Slides

【Alma Mate博士论文】深度架构持续学习，附150页pdf与Slides

专知会员服务

47+阅读 · 2020年11月18日

【2020新书】概率机器学习，附212页pdf与slides

【2020新书】概率机器学习，附212页pdf与slides

专知会员服务

112+阅读 · 2020年11月12日

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

【CMU博士论文Wen Sun】强化学习的泛化性与效率，206页pdf

专知会员服务

94+阅读 · 2020年9月28日

最新《深度强化学习中的迁移学习》综述论文

最新《深度强化学习中的迁移学习》综述论文

专知会员服务

157+阅读 · 2020年9月20日

【CMU博士论文】机器人深度强化学习，128页pdf

【CMU博士论文】机器人深度强化学习，128页pdf

专知会员服务

133+阅读 · 2020年8月27日

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

96+阅读 · 2020年6月19日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

122+阅读 · 2020年5月18日

最新《深度学习行人重识别》综述论文，24页pdf

最新《深度学习行人重识别》综述论文，24页pdf

专知会员服务

81+阅读 · 2020年5月5日

【加州大学-Liwei Wu博士论文】协同过滤与排序进展，150页pdf

专知会员服务

45+阅读 · 2020年3月2日

【综述】自动驾驶领域中的强化学习，附18页论文下载

【综述】自动驾驶领域中的强化学习，附18页论文下载

专知会员服务

176+阅读 · 2020年2月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

自然语言处理ACL2020论文列表

自然语言处理ACL2020论文列表

专知

12+阅读 · 2020年6月23日

最新《动态网络嵌入》综述论文，25页pdf

最新《动态网络嵌入》综述论文，25页pdf

专知

37+阅读 · 2020年6月17日

【新书册】贝叶斯神经网络，41页pdf

【新书册】贝叶斯神经网络，41页pdf

专知

29+阅读 · 2020年6月3日

【UCSD-MIT】深度学习隐私综述论文，Privacy in Deep Learning: A Survey

【UCSD-MIT】深度学习隐私综述论文，Privacy in Deep Learning: A Survey

专知

5+阅读 · 2020年4月28日

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

【Manning2020新书】深度强化学习实战，351页pdf，Deep Reinforcement Learning

专知

43+阅读 · 2020年3月10日

【资源】知识图谱本体构建论文合集

【资源】知识图谱本体构建论文合集

专知

61+阅读 · 2019年10月9日

《变分自编码器（VAE）导论》93页书册，附PDF下载

《变分自编码器（VAE）导论》93页书册，附PDF下载

专知

60+阅读 · 2019年6月14日

深度学习了解一下（附53页Slides）

深度学习了解一下（附53页Slides）

专知

48+阅读 · 2019年5月20日

最新《生成式对抗网络GAN进展》论文

最新《生成式对抗网络GAN进展》论文

专知

95+阅读 · 2019年4月5日

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

【伯克利博士论文】最优化无所不在-凸优化、组合优化与经济学（附256页全文下载）

专知

16+阅读 · 2018年12月26日

相关论文

Privacy Labelling and the Story of Princess Privacy and the Seven Helpers

Arxiv

0+阅读 · 2020年12月3日

COVID-19 Contact Tracing and Privacy: A Longitudinal Study of Public Opinion

Arxiv

0+阅读 · 2020年12月2日

Convergence Proof for Actor-Critic Methods Applied to PPO and RUDDER

Arxiv

0+阅读 · 2020年12月2日

Duality-Gated Mutual Condition Network for RGBT Tracking

Arxiv

0+阅读 · 2020年11月30日

Towards Combating Pandemic-related Misinformation in Social Media

Arxiv

0+阅读 · 2020年11月28日

Feedback from the participants of the ADBIS, TPDL and EDA 2020 joint conferences

Arxiv

0+阅读 · 2020年11月27日

A Mathematical Introduction to Generative Adversarial Nets (GAN)

A Mathematical Introduction to Generative Adversarial Nets (GAN)

Arxiv

28+阅读 · 2020年9月1日

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Proposal, Tracking and Segmentation (PTS): A Cascaded Network for Video Object Segmentation

Arxiv

4+阅读 · 2019年7月4日

A Benchmark Study on Sentiment Analysis for Software Engineering Research

Arxiv

3+阅读 · 2018年3月17日

KBGAN: Adversarial Learning for Knowledge Graph Embeddings

Arxiv

6+阅读 · 2018年2月20日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

冷启动，0预算，如何借助分销裂变引爆私域用户增长？

微信扫码咨询专知VIP会员