据官方消息,ICLR 2020会议将取消线下会议,并于4月25日-30日线上举办虚拟会议。本届会议共有 2594篇投稿,其中 687篇论文被接收(48篇oral论文,107篇spotlight论文和531篇poster论文),接收率为26.5%。
为此,AI 科技评论特邀请多位 ICLR 2020 论文一作为我们做系列直播解读,。本次直播为第 1 期。
分享主题
《一个简单的蒙特卡洛树搜索并行化方法》
这篇论文为刘安吉在 快手 实习期间完成并发表在ICLR 2020上的 Oral 论文,该论文在OpenReview网站上的评分为 8-6-8。
作者对文章的简介为:
我们开发了一种有效的并行UCT算法,该算法在线性加速的同时,性能损失很小。
We developed an effective parallel UCT algorithm that achieves linear speedup and suffers negligible performance loss.
论文链接:https://openreview.net/forum?id=BJlQtJSKDB
分享嘉宾
刘安吉,本科毕业于北京航空航天大学自动化系。于2018年12月-2019年6月在快手实习,现兼职快手顾问。
分享背景
蒙特卡洛搜索树(Monte Carlo Tree Search,MCTS)是一种基于模型的强化学习算法(model-based reinforcement learning algorithm)。利用已知或训练出来的环境模型,MCTS将最优优先搜索树和蒙特卡洛方法结合,通过大量在环境模型中进行尝试、规划(planning),找到更优的策略。MCTS在视频游戏、围棋等领域取得了惊人的突破(如大家熟知的AlphaGo)。
与其出众的表现相对应,MCTS对计算资源的需求十分巨大。这主要体现在其需要与环境进行大量的交互。因此,并行MCTS就显得十分必要,尤其在对反馈时间要求较高的任务场景中。AlphaGo在与人类棋手对弈时就使用了大量计算资源,否则它无法在给定的时间内完成落子。
然而,蒙特卡洛搜索树本身是一个串行的算法(每一步迭代需要所有当前已知信息),这导致对其并行将带来不可避免的性能损失。因此,如何最小化并行带来的性能损失就显得十分重要。
沟通交流
欢迎大家加入 ICLR 会议交流群,扫描下方二维码,添加微信(AIyanxishe2)为好友,备注“ICLR 2020+公开课”,邀请你进群。
-
本系列视频为ICLR 2020线上论文预分享的精选解读,欢迎大家观看
-
如果你对ICLR相关工作感兴趣,欢迎加入ICLR 交流群,添加微信:AIyanxishe2,备注:ICLR+领域
-
-
点击“阅读原文” 前往 直播页面