【ICML2021】DouZero: 首个达到人类水平的开源斗地主AI - 专知VIP

会员服务 ·

3

深度强化学习 · 自博弈学习 ·

2021 年 6 月 25 日

【ICML2021】DouZero: 首个达到人类水平的开源斗地主AI

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

人工智能在很多棋牌类游戏中取得了很大的成功，例如阿法狗（围棋）、Libratus（德扑）、Suphx（麻将）。斗地主却因其极大的状态空间、丰富的隐含信息、复杂的牌型和并存的合作与竞技，一直以来被认为是一个极具挑战性的领域。近日，快手AI平台部在斗地主上取得了突破，提出了首个从零开始的斗地主人工智能系统DouZero。将蒙特卡洛算法与深度学习相结合，DouZero在不借助任何人类知识的情况下，通过自博弈学习，在几天内战胜了所有已知的斗地主打牌机器人，并达到了人类玩家水平。相关论文已被国际机器学习顶级会议ICML 2021接收，开源代码在GitHub上获得近千星。同时，论文作者开放了在线演示平台供研究者和斗地主爱好者体验。

论文地址: https://www.zhuanzhi.ai/paper/dbc43359396972a93961dc7b165c579c 开源地址: https://github.com/kwai/DouZero 在线体验: https://douzero.org/

成为VIP会员查看完整内容

26

相关内容

深度强化学习

深度强化学习

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而，传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下，深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。

【ICML2021】弹性图神经网络

专知会员服务

37+阅读 · 2021年7月17日

【ICML2021】面向增长数据的自适应神经架构

专知会员服务

25+阅读 · 2021年7月8日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

精准智能理论: 面向复杂动态对象的人工智能

专知会员服务

44+阅读 · 2021年4月13日

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

专知会员服务

47+阅读 · 2021年1月17日

NeurIPS 2020 | 非诚实拍卖中效用与均衡的学习问题

专知会员服务

9+阅读 · 2020年11月27日

NeurIPS 2020接收论文列表发布，1900篇论文都在这了！

专知会员服务

114+阅读 · 2020年10月8日

【快讯】AAAI2021结果出炉，1692篇上榜，你的paper中了吗？

【快讯】AAAI2021结果出炉，1692篇上榜，你的paper中了吗？

专知

14+阅读 · 2020年12月2日

今晚，NeurIPS 2019 Spotlight论文分享：不完备专家演示下的模仿学习

今晚，NeurIPS 2019 Spotlight论文分享：不完备专家演示下的模仿学习

机器之心

8+阅读 · 2019年11月13日

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

科研圈

3+阅读 · 2019年7月12日

结合符号与连接，斯坦福神经状态机冲刺视觉推理新SOTA

结合符号与连接，斯坦福神经状态机冲刺视觉推理新SOTA

机器之心

11+阅读 · 2019年7月11日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

AI产业链分布图曝光：1040个玩家，BAT率先步入应用

AI产业链分布图曝光：1040个玩家，BAT率先步入应用

全球人工智能

20+阅读 · 2019年5月11日

当 AI 全面实现认知智能时，机器人还只是机器吗？

当 AI 全面实现认知智能时，机器人还只是机器吗？

未来产业促进会

5+阅读 · 2019年5月9日

业界 | 机器阅读理解打破人类记录，解读阿里iDST SLQA技术

业界 | 机器阅读理解打破人类记录，解读阿里iDST SLQA技术

机器之心

3+阅读 · 2018年1月14日

一文看懂AI芯片：三大门派四大场景146亿美元大蛋糕【附下载】

一文看懂AI芯片：三大门派四大场景146亿美元大蛋糕【附下载】

人工智能学家

5+阅读 · 2017年12月3日

「商汤奖学金」正式启动！2万元助力菁英学子「AI」梦想

「商汤奖学金」正式启动！2万元助力菁英学子「AI」梦想

商汤科技

4+阅读 · 2017年11月10日

Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

Arxiv

7+阅读 · 2021年6月22日

DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning

Arxiv

5+阅读 · 2021年6月11日

Unifying Online and Counterfactual Learning to Rank

Arxiv

6+阅读 · 2020年12月8日

Analysis of Multivariate Scoring Functions for Automatic Unbiased Learning to Rank

Arxiv

6+阅读 · 2020年8月20日

COVID-Net: A Tailored Deep Convolutional Neural Network Design for Detection of COVID-19 Cases from Chest Radiography Images

Arxiv

6+阅读 · 2020年3月22日

Direct Output Connection for a High-Rank Language Model

Arxiv

5+阅读 · 2018年8月31日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Low-Shot Learning from Imaginary Data

Arxiv

15+阅读 · 2018年4月3日

VizWiz Grand Challenge: Answering Visual Questions from Blind People

Arxiv

3+阅读 · 2018年4月2日

Survival-Supervised Topic Modeling with Anchor Words: Characterizing Pancreatitis Outcomes

Arxiv

3+阅读 · 2017年12月7日

VIP会员

相关主题

深度强化学习

自博弈学习

相关VIP内容

【ICML2021】弹性图神经网络

专知会员服务

37+阅读 · 2021年7月17日

【ICML2021】面向增长数据的自适应神经架构

专知会员服务

25+阅读 · 2021年7月8日

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

自动化所研发全球首个图文音三模态预训练模型，让AI更接近人类想象力！

专知会员服务

35+阅读 · 2021年7月8日

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

精准智能理论: 面向复杂动态对象的人工智能

专知会员服务

44+阅读 · 2021年4月13日

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

CCF-A类顶会WWW2021论文结果出炉，357篇上榜！你的论文中了吗？

专知会员服务

47+阅读 · 2021年1月17日

NeurIPS 2020 | 非诚实拍卖中效用与均衡的学习问题

专知会员服务

9+阅读 · 2020年11月27日

NeurIPS 2020接收论文列表发布，1900篇论文都在这了！

专知会员服务

114+阅读 · 2020年10月8日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

【快讯】AAAI2021结果出炉，1692篇上榜，你的paper中了吗？

【快讯】AAAI2021结果出炉，1692篇上榜，你的paper中了吗？

专知

14+阅读 · 2020年12月2日

今晚，NeurIPS 2019 Spotlight论文分享：不完备专家演示下的模仿学习

今晚，NeurIPS 2019 Spotlight论文分享：不完备专家演示下的模仿学习

机器之心

8+阅读 · 2019年11月13日

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

AI “赌神”完胜人类扑克冠军，以一敌五实现多人博弈里程碑

科研圈

3+阅读 · 2019年7月12日

结合符号与连接，斯坦福神经状态机冲刺视觉推理新SOTA

结合符号与连接，斯坦福神经状态机冲刺视觉推理新SOTA

机器之心

11+阅读 · 2019年7月11日

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

【强化学习】碾压人类的超级多智能体如何训练？从认知学到进化论，详述强化学习两大最新突破

产业智能官

14+阅读 · 2019年6月13日

AI产业链分布图曝光：1040个玩家，BAT率先步入应用

AI产业链分布图曝光：1040个玩家，BAT率先步入应用

全球人工智能

20+阅读 · 2019年5月11日

当 AI 全面实现认知智能时，机器人还只是机器吗？

当 AI 全面实现认知智能时，机器人还只是机器吗？

未来产业促进会

5+阅读 · 2019年5月9日

业界 | 机器阅读理解打破人类记录，解读阿里iDST SLQA技术

业界 | 机器阅读理解打破人类记录，解读阿里iDST SLQA技术

机器之心

3+阅读 · 2018年1月14日

一文看懂AI芯片：三大门派四大场景146亿美元大蛋糕【附下载】

一文看懂AI芯片：三大门派四大场景146亿美元大蛋糕【附下载】

人工智能学家

5+阅读 · 2017年12月3日

「商汤奖学金」正式启动！2万元助力菁英学子「AI」梦想

「商汤奖学金」正式启动！2万元助力菁英学子「AI」梦想

商汤科技

4+阅读 · 2017年11月10日

相关论文

Shapley Counterfactual Credits for Multi-Agent Reinforcement Learning

Arxiv

7+阅读 · 2021年6月22日

DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning

Arxiv

5+阅读 · 2021年6月11日

Unifying Online and Counterfactual Learning to Rank

Arxiv

6+阅读 · 2020年12月8日

Analysis of Multivariate Scoring Functions for Automatic Unbiased Learning to Rank

Arxiv

6+阅读 · 2020年8月20日

COVID-Net: A Tailored Deep Convolutional Neural Network Design for Detection of COVID-19 Cases from Chest Radiography Images

Arxiv

6+阅读 · 2020年3月22日

Direct Output Connection for a High-Rank Language Model

Arxiv

5+阅读 · 2018年8月31日

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Reproducibility Report for "Learning To Count Objects In Natural Images For Visual Question Answering"

Arxiv

4+阅读 · 2018年5月21日

Low-Shot Learning from Imaginary Data

Arxiv

15+阅读 · 2018年4月3日

VizWiz Grand Challenge: Answering Visual Questions from Blind People

Arxiv

3+阅读 · 2018年4月2日

Survival-Supervised Topic Modeling with Anchor Words: Characterizing Pancreatitis Outcomes

Arxiv

3+阅读 · 2017年12月7日

微信扫码咨询专知VIP会员