人工智能在很多棋牌类游戏中取得了很大的成功,例如阿法狗(围棋)、Libratus(德扑)、Suphx(麻将)。斗地主却因其极大的状态空间、丰富的隐含信息、复杂的牌型和并存的合作与竞技,一直以来被认为是一个极具挑战性的领域。近日,快手AI平台部在斗地主上取得了突破,提出了首个从零开始的斗地主人工智能系统DouZero。将蒙特卡洛算法与深度学习相结合,DouZero在不借助任何人类知识的情况下,通过自博弈学习,在几天内战胜了所有已知的斗地主打牌机器人,并达到了人类玩家水平。相关论文已被国际机器学习顶级会议ICML 2021接收,开源代码在GitHub上获得近千星。同时,论文作者开放了在线演示平台供研究者和斗地主爱好者体验。

论文地址: https://www.zhuanzhi.ai/paper/dbc43359396972a93961dc7b165c579c 开源地址: https://github.com/kwai/DouZero 在线体验: https://douzero.org/

成为VIP会员查看完整内容
25

相关内容

深度强化学习 (DRL) 是一种使用深度学习技术扩展传统强化学习方法的一种机器学习方法。 传统强化学习方法的主要任务是使得主体根据从环境中获得的奖赏能够学习到最大化奖赏的行为。然而,传统无模型强化学习方法需要使用函数逼近技术使得主体能够学习出值函数或者策略。在这种情况下,深度学习强大的函数逼近能力自然成为了替代人工指定特征的最好手段并为性能更好的端到端学习的实现提供了可能。
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
24+阅读 · 2021年7月8日
专知会员服务
42+阅读 · 2021年7月1日
专知会员服务
36+阅读 · 2021年5月29日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
43+阅读 · 2021年4月13日
专知会员服务
8+阅读 · 2020年11月27日
专知会员服务
113+阅读 · 2020年10月8日
AI产业链分布图曝光:1040个玩家,BAT率先步入应用
全球人工智能
20+阅读 · 2019年5月11日
当 AI 全面实现认知智能时,机器人还只是机器吗?
未来产业促进会
5+阅读 · 2019年5月9日
Arxiv
6+阅读 · 2020年12月8日
Arxiv
15+阅读 · 2018年4月3日
VIP会员
相关VIP内容
专知会员服务
36+阅读 · 2021年7月17日
专知会员服务
24+阅读 · 2021年7月8日
专知会员服务
42+阅读 · 2021年7月1日
专知会员服务
36+阅读 · 2021年5月29日
专知会员服务
21+阅读 · 2021年5月27日
专知会员服务
43+阅读 · 2021年4月13日
专知会员服务
8+阅读 · 2020年11月27日
专知会员服务
113+阅读 · 2020年10月8日
微信扫码咨询专知VIP会员