OpenAI ICLR 2018论文汇总：主要兴趣为强化学习

会员服务 ·

OpenAI ICLR 2018论文汇总：主要兴趣为强化学习

2018 年 5 月 1 日 论智 weakish

来源：openreview

编译：weakish

OpenAI在ICLR 2018上共提交了7篇论文，其中，1篇被评为最佳论文，2篇将作口头报告。另外，值得注意的是，7篇论文有4篇都属于强化学习领域。

Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines

策略梯度方法在深度强化学习领域取得了巨大成功，但饱受梯度估计高方差之苦，特别是在高维大型的行动空间上。这篇论文提出了一种无偏置的、依赖于行动的基线以降低方差。

不同维度下行动依赖基线（绿线）的表现

本文将在ICLR 2018作口头报告。

5月3日 10-10:15am；Exhibition Hall A

arXiv:1803.07246

Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments

本文将持续适应（continuous adaptation）问题纳入learning-to-learn框架，提出了一种简单的基于梯度的元学习算法，该算法适用于动态变化的对抗性情境。另外还设计了一个新的多智能体竞争环境RoboSumo。

RoboSumo

本文将在ICLR 2018作口头报告，同时也被选为最佳论文。

5月3日 10:15-10:30am；Exhibition Hall A

arXiv:1710.03641

Learning Sparse Neural Networks through L0 Regularization

我们都很熟悉L1和L2正则化，而本文提出了一种L0正则化方法：通过鼓励权重变为零，在训练阶段剪枝网络。

在CIFAR-10和CIFAR-100上的表现

5月2日 11am-1pm；East Meeting level: 1,2,3 #32

arXiv:1712.01312

Emergent Complexity via Multi-Agent Competition

传统上，强化学习问题的复杂度取决于环境的复杂度。本文展示了，即使在一个简单的环境下，通过智能体之间的竞争，也能学习到多样、复杂、有趣的技能（基于模拟物理的3D环境）。

5月3日 11am-1pm；East Meeting level: 1,2,3 #19

Parameter Space Noise for Exploration

深度强化学习方法常常在行动空间中加入噪声，以鼓励探索行为。本文尝试直接在智能体的参数中加入噪声。

蓝线为参数加噪的学习曲线，可以看到，总体而言表现更好

5月3日 11am-1pm；East Meeting level: 1,2,3 #7

arXiv:1706.01905

Improving GANs Using Optimal Transport

本文提出了一个新的GAN变体，OT-GAN，基于最优传输距离测量生成数据分布与真实数据分布间的距离。

5月3日 4:30-6:30pm；East Meeting level: 1,2,3 #16

Concept Learning with Energy-Based Models

基于能量的模型可以快速推断二维数据点的概念。

学习“正方形”这个概念

workshop；5月2日 11am-1pm；East Meeting Level 8 + 15 #3

OpenReview地址：https://openreview.net/pdf?id=H12Y1dJDG

登录查看更多

相关内容

ICLR

关注 395

ICLR，全称为「International Conference on Learning Representations」（国际学习表征会议），2013 年才刚刚成立了第一届。这个一年一度的会议虽然今年才办到第五届，但已经被学术研究者们广泛认可，被认为「深度学习的顶级会议」。 ICLR由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办。 ICLR 希望能为深度学习提供一个专业化的交流平台。但实际上 ICLR 不同于其它国际会议，得到好评的真正原因，并不只是他们二位所自带的名人光环，而在于它推行的 Open Review 评审制度。

【牛津大学博士论文】基于强化学习的无地图机器人导航，Reinforcement Learning Based MRN

专知会员服务

121+阅读 · 2020年5月18日

强化学习和最优控制的《十个关键点》81页PPT汇总

专知会员服务

107+阅读 · 2020年3月2日

「强化学习之路」清华博士后解读83篇文献，万字长文总结

专知会员服务

67+阅读 · 2020年2月28日

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日