【直播】一个简单的蒙特卡洛树搜索并行化方法 | ICLR Oral

2020 年 3 月 14 日 AI科技评论


据官方消息,ICLR 2020会议将取消线下会议,并于4月25日-30日线上举办虚拟会议。本届会议共有 2594篇投稿,其中 687篇论文被接收(48篇oral论文,107篇spotlight论文和531篇poster论文),接收率为26.5%。


为此,AI 科技评论特邀请多位 ICLR 2020 论文一作为我们做系列直播解读,。本次直播为第 1 期。


  分享主题  

《一个简单的蒙特卡洛树搜索并行化方法》


这篇论文为刘安吉在 快手 实习期间完成并发表在ICLR 2020上的 Oral 论文,该论文在OpenReview网站上的评分为 8-6-8。

作者对文章的简介为: 我们开发了一种有效的并行UCT算法,该算法在线性加速的同时,性能损失很小。
We developed an effective parallel UCT algorithm that achieves linear speedup and suffers negligible performance loss.


论文链接:https://openreview.net/forum?id=BJlQtJSKDB
 


  分享嘉宾  

刘安吉,本科毕业于北京航空航天大学自动化系。于2018年12月-2019年6月在快手实习,现兼职快手顾问。

 

  分享背景  

蒙特卡洛搜索树(Monte Carlo Tree Search,MCTS)是一种基于模型的强化学习算法(model-based reinforcement learning algorithm)。利用已知或训练出来的环境模型,MCTS将最优优先搜索树和蒙特卡洛方法结合,通过大量在环境模型中进行尝试、规划(planning),找到更优的策略。MCTS在视频游戏、围棋等领域取得了惊人的突破(如大家熟知的AlphaGo)。

与其出众的表现相对应,MCTS对计算资源的需求十分巨大。这主要体现在其需要与环境进行大量的交互。因此,并行MCTS就显得十分必要,尤其在对反馈时间要求较高的任务场景中。AlphaGo在与人类棋手对弈时就使用了大量计算资源,否则它无法在给定的时间内完成落子。

然而,蒙特卡洛搜索树本身是一个串行的算法(每一步迭代需要所有当前已知信息),这导致对其并行将带来不可避免的性能损失。因此,如何最小化并行带来的性能损失就显得十分重要。

 

  沟通交流  

欢迎大家加入 ICLR 会议交流群,扫描下方二维码,添加微信(AIyanxishe2)为好友,备注“ICLR 2020+公开课”,邀请你进群。

课程须知
  • 本系列视频为ICLR 2020线上论文预分享的精选解读,欢迎大家观看
  • 如果你对ICLR相关工作感兴趣,欢迎加入ICLR 交流群,添加微信:AIyanxishe2,备注:ICLR+领域
  • 更多精彩内容,敬请大家关注研习社公开课的持续更新


点击“阅读原文” 前往 直播页面

登录查看更多
6

相关内容

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架
专知会员服务
25+阅读 · 2020年5月25日
【Nature论文】深度网络中的梯度下降复杂度控制
专知会员服务
38+阅读 · 2020年3月9日
专知会员服务
44+阅读 · 2020年3月6日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
MIT新书《强化学习与最优控制》
专知会员服务
270+阅读 · 2019年10月9日
ICLR 2020 高质量强化学习论文汇总
极市平台
12+阅读 · 2019年11月11日
ICLR 2019论文解读:量化神经网络
机器之心
9+阅读 · 2019年6月13日
直播 | 大讲堂:基于小波变换的图卷积神经网络
AI科技评论
8+阅读 · 2019年1月3日
【ICLR 2019录用结果出炉】24篇Oral, 918被拒
专知
7+阅读 · 2018年12月21日
AAAI 2018 五个论文奖全部揭晓,「记忆增强的蒙特卡洛树搜索」获杰出论文
北京思腾合力科技有限公司
5+阅读 · 2018年2月8日
Arxiv
7+阅读 · 2018年9月27日
Arxiv
5+阅读 · 2018年4月22日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
Top
微信扫码咨询专知VIP会员