【直播】一个简单的蒙特卡洛树搜索并行化方法 | ICLR Oral - 专知

会员服务 ·

0

【直播】一个简单的蒙特卡洛树搜索并行化方法 | ICLR Oral

2020 年 3 月 14 日 AI科技评论

据官方消息，ICLR 2020会议将取消线下会议，并于4月25日-30日线上举办虚拟会议。本届会议共有 2594篇投稿，其中 687篇论文被接收（48篇oral论文，107篇spotlight论文和531篇poster论文），接收率为26.5%。

为此，AI 科技评论特邀请多位 ICLR 2020 论文一作为我们做系列直播解读，。本次直播为第 1 期。

分享主题

《一个简单的蒙特卡洛树搜索并行化方法》

这篇论文为刘安吉在快手实习期间完成并发表在ICLR 2020上的 Oral 论文，该论文在OpenReview网站上的评分为 8-6-8。

作者对文章的简介为：我们开发了一种有效的并行UCT算法，该算法在线性加速的同时，性能损失很小。

We developed an effective parallel UCT algorithm that achieves linear speedup and suffers negligible performance loss.

论文链接：https://openreview.net/forum?id=BJlQtJSKDB

分享嘉宾

刘安吉，本科毕业于北京航空航天大学自动化系。于2018年12月-2019年6月在快手实习，现兼职快手顾问。

分享背景

蒙特卡洛搜索树（Monte Carlo Tree Search，MCTS）是一种基于模型的强化学习算法（model-based reinforcement learning algorithm）。利用已知或训练出来的环境模型，MCTS将最优优先搜索树和蒙特卡洛方法结合，通过大量在环境模型中进行尝试、规划（planning），找到更优的策略。MCTS在视频游戏、围棋等领域取得了惊人的突破（如大家熟知的AlphaGo）。

与其出众的表现相对应，MCTS对计算资源的需求十分巨大。这主要体现在其需要与环境进行大量的交互。因此，并行MCTS就显得十分必要，尤其在对反馈时间要求较高的任务场景中。AlphaGo在与人类棋手对弈时就使用了大量计算资源，否则它无法在给定的时间内完成落子。

然而，蒙特卡洛搜索树本身是一个串行的算法（每一步迭代需要所有当前已知信息），这导致对其并行将带来不可避免的性能损失。因此，如何最小化并行带来的性能损失就显得十分重要。

沟通交流

欢迎大家加入 ICLR 会议交流群，扫描下方二维码，添加微信（AIyanxishe2）为好友，备注“ICLR 2020+公开课”，邀请你进群。

课程须知

本系列视频为ICLR 2020线上论文预分享的精选解读，欢迎大家观看
如果你对ICLR相关工作感兴趣，欢迎加入ICLR 交流群，添加微信：AIyanxishe2，备注：ICLR+领域
更多精彩内容，敬请大家关注研习社公开课的持续更新

点击“阅读原文” 前往直播页面

登录查看更多

6

相关内容

蒙特卡洛树搜索

蒙特卡洛树搜索

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

【CVPR 2020 Oral-北大华为】只用加法的神经网络，重磅开源

【CVPR 2020 Oral-北大华为】只用加法的神经网络，重磅开源

专知会员服务

31+阅读 · 2020年4月6日

自然语言处理顶会ACL2020放榜了，你的论文中了吗？因新冠将在线举办

自然语言处理顶会ACL2020放榜了，你的论文中了吗？因新冠将在线举办

专知会员服务

36+阅读 · 2020年4月5日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

姿势服装随心换-CVPR2019

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【ICCV 2019】基于元学习的自动化神经网络通道 MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning

【ICCV 2019】基于元学习的自动化神经网络通道 MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning

专知会员服务

17+阅读 · 2019年11月17日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

PaperWeekly

11+阅读 · 2020年3月26日

今晚，华为诺亚方舟NeurIPS 2019论文分享：基于少量数据的神经网络模型压缩技术

今晚，华为诺亚方舟NeurIPS 2019论文分享：基于少量数据的神经网络模型压缩技术

机器之心

11+阅读 · 2019年11月21日

ICLR 2020 高质量强化学习论文汇总

ICLR 2020 高质量强化学习论文汇总

极市平台

12+阅读 · 2019年11月11日

ICLR 2019论文解读：量化神经网络

ICLR 2019论文解读：量化神经网络

机器之心

9+阅读 · 2019年6月13日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

商研丨ICLR 2019论文解读：随机神经网络结构搜索 (SNAS)

商研丨ICLR 2019论文解读：随机神经网络结构搜索 (SNAS)

商汤科技

7+阅读 · 2019年1月29日

直播 | 大讲堂：基于小波变换的图卷积神经网络

直播 | 大讲堂：基于小波变换的图卷积神经网络

AI科技评论

8+阅读 · 2019年1月3日

【ICLR 2019录用结果出炉】24篇Oral, 918被拒

【ICLR 2019录用结果出炉】24篇Oral, 918被拒

专知

7+阅读 · 2018年12月21日

直播 | ICLR论文解读：如何利用变分自编码模型框架求解深度主题模型

直播 | ICLR论文解读：如何利用变分自编码模型框架求解深度主题模型

AI科技评论

7+阅读 · 2018年5月5日

AAAI 2018 五个论文奖全部揭晓，「记忆增强的蒙特卡洛树搜索」获杰出论文

AAAI 2018 五个论文奖全部揭晓，「记忆增强的蒙特卡洛树搜索」获杰出论文

北京思腾合力科技有限公司

5+阅读 · 2018年2月8日

Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks

Arxiv

8+阅读 · 2019年5月20日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Sample Efficient Adaptive Text-to-Speech

Arxiv

7+阅读 · 2018年9月27日

Image Retrieval with Mixed Initiative and Multimodal Feedback

Arxiv

5+阅读 · 2018年5月8日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

Diff-DAC: Distributed Actor-Critic for Average Multitask Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年4月22日

Towards Training Probabilistic Topic Models on Neuromorphic Multi-chip Systems

Arxiv

3+阅读 · 2018年4月10日

Cache-Enabled Dynamic Rate Allocation via Deep Self-Transfer Reinforcement Learning

Arxiv

4+阅读 · 2018年3月30日

Learning Tree-based Deep Model for Recommender Systems

Arxiv

7+阅读 · 2018年1月8日

Variance-based regularization with convex objectives

Arxiv

5+阅读 · 2017年12月14日

VIP会员

相关主题

蒙特卡洛树搜索

马尔科夫链蒙特卡洛采样

相关VIP内容

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

【IJCAI2020-华为诺亚】面向深度强化学习的策略迁移框架

专知会员服务

28+阅读 · 2020年5月25日

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

【CVPR 2020 Oral-北大华为】只用加法的神经网络，重磅开源

【CVPR 2020 Oral-北大华为】只用加法的神经网络，重磅开源

专知会员服务

31+阅读 · 2020年4月6日

自然语言处理顶会ACL2020放榜了，你的论文中了吗？因新冠将在线举办

自然语言处理顶会ACL2020放榜了，你的论文中了吗？因新冠将在线举办

专知会员服务

36+阅读 · 2020年4月5日

【Nature论文】深度网络中的梯度下降复杂度控制

【Nature论文】深度网络中的梯度下降复杂度控制

专知会员服务

41+阅读 · 2020年3月9日

【伯克利】通过增大模型加速Transformer训练和推理

专知会员服务

45+阅读 · 2020年3月6日

姿势服装随心换-CVPR2019

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

【NeurIPS 2019|经典论文奖】正则随机学习和在线优化的双重平均法（Dual Averaging Method for Regularized Stochastic Learning and Online Optimization），微软研究院Lin Xiao

专知会员服务

17+阅读 · 2019年12月9日

【ICCV 2019】基于元学习的自动化神经网络通道 MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning

【ICCV 2019】基于元学习的自动化神经网络通道 MetaPruning: Meta Learning for Automatic Neural Network Channel Pruning

专知会员服务

17+阅读 · 2019年11月17日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

《复杂工程系统模型驱动设计决策支持系统：早期设计阶段挑战》最新138页

《日本陆上自卫队2040年作战方式与未来作战研究》最新23页slides

人工智能作为战争武器

《后勤保障》最新23页

相关资讯

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

今晚直播 | 清华大学王晓智：事件抽取的进展与挑战

PaperWeekly

11+阅读 · 2020年3月26日

今晚，华为诺亚方舟NeurIPS 2019论文分享：基于少量数据的神经网络模型压缩技术

今晚，华为诺亚方舟NeurIPS 2019论文分享：基于少量数据的神经网络模型压缩技术

机器之心

11+阅读 · 2019年11月21日

ICLR 2020 高质量强化学习论文汇总

ICLR 2020 高质量强化学习论文汇总

极市平台

12+阅读 · 2019年11月11日

ICLR 2019论文解读：量化神经网络

ICLR 2019论文解读：量化神经网络

机器之心

9+阅读 · 2019年6月13日

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

CVPR 2019 Oral 论文解读 | 百度提出关于网络压缩和加速的新剪枝算法

AI科技评论

11+阅读 · 2019年5月28日

商研丨ICLR 2019论文解读：随机神经网络结构搜索 (SNAS)

商研丨ICLR 2019论文解读：随机神经网络结构搜索 (SNAS)

商汤科技

7+阅读 · 2019年1月29日

直播 | 大讲堂：基于小波变换的图卷积神经网络

直播 | 大讲堂：基于小波变换的图卷积神经网络

AI科技评论

8+阅读 · 2019年1月3日

【ICLR 2019录用结果出炉】24篇Oral, 918被拒

【ICLR 2019录用结果出炉】24篇Oral, 918被拒

专知

7+阅读 · 2018年12月21日

直播 | ICLR论文解读：如何利用变分自编码模型框架求解深度主题模型

直播 | ICLR论文解读：如何利用变分自编码模型框架求解深度主题模型

AI科技评论

7+阅读 · 2018年5月5日

AAAI 2018 五个论文奖全部揭晓，「记忆增强的蒙特卡洛树搜索」获杰出论文

AAAI 2018 五个论文奖全部揭晓，「记忆增强的蒙特卡洛树搜索」获杰出论文

北京思腾合力科技有限公司

5+阅读 · 2018年2月8日

相关论文

Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks

Arxiv

8+阅读 · 2019年5月20日

Efficient Eligibility Traces for Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年10月23日

Sample Efficient Adaptive Text-to-Speech

Arxiv

7+阅读 · 2018年9月27日

Image Retrieval with Mixed Initiative and Multimodal Feedback

Arxiv

5+阅读 · 2018年5月8日

Logically-Constrained Reinforcement Learning

Arxiv

5+阅读 · 2018年4月22日

Diff-DAC: Distributed Actor-Critic for Average Multitask Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年4月22日

Towards Training Probabilistic Topic Models on Neuromorphic Multi-chip Systems

Arxiv

3+阅读 · 2018年4月10日

Cache-Enabled Dynamic Rate Allocation via Deep Self-Transfer Reinforcement Learning

Arxiv

4+阅读 · 2018年3月30日

Learning Tree-based Deep Model for Recommender Systems

Arxiv

7+阅读 · 2018年1月8日

Variance-based regularization with convex objectives

Arxiv

5+阅读 · 2017年12月14日

大家都在搜

CMU博士论文

无人机集群

软件无线电

国防科技创新

OpenKG开源系列 | 海洋鱼类百科知识图谱（浙江大学）

微信扫码咨询专知VIP会员