OpenAI ICLR 2018论文汇总:主要兴趣为强化学习

2018 年 5 月 1 日 论智 weakish
来源:openreview
编译:weakish

OpenAI在ICLR 2018上共提交了7篇论文,其中,1篇被评为最佳论文,2篇将作口头报告。另外,值得注意的是,7篇论文有4篇都属于强化学习领域

Variance Reduction for Policy Gradient with Action-Dependent Factorized Baselines

策略梯度方法在深度强化学习领域取得了巨大成功,但饱受梯度估计高方差之苦,特别是在高维大型的行动空间上。这篇论文提出了一种无偏置的、依赖于行动的基线以降低方差。

不同维度下行动依赖基线(绿线)的表现

本文将在ICLR 2018作口头报告

5月3日 10-10:15am;Exhibition Hall A

arXiv:1803.07246

Continuous Adaptation via Meta-Learning in Nonstationary and Competitive Environments

本文将持续适应(continuous adaptation)问题纳入learning-to-learn框架,提出了一种简单的基于梯度的元学习算法,该算法适用于动态变化的对抗性情境。另外还设计了一个新的多智能体竞争环境RoboSumo。

RoboSumo

本文将在ICLR 2018作口头报告,同时也被选为最佳论文

5月3日 10:15-10:30am;Exhibition Hall A

arXiv:1710.03641

Learning Sparse Neural Networks through L0 Regularization

我们都很熟悉L1和L2正则化,而本文提出了一种L0正则化方法:通过鼓励权重变为零,在训练阶段剪枝网络。

在CIFAR-10和CIFAR-100上的表现

5月2日 11am-1pm;East Meeting level: 1,2,3 #32

arXiv:1712.01312

Emergent Complexity via Multi-Agent Competition

传统上,强化学习问题的复杂度取决于环境的复杂度。本文展示了,即使在一个简单的环境下,通过智能体之间的竞争,也能学习到多样、复杂、有趣的技能(基于模拟物理的3D环境)。

5月3日 11am-1pm;East Meeting level: 1,2,3 #19

Parameter Space Noise for Exploration

深度强化学习方法常常在行动空间中加入噪声,以鼓励探索行为。本文尝试直接在智能体的参数中加入噪声。

蓝线为参数加噪的学习曲线,可以看到,总体而言表现更好

5月3日 11am-1pm;East Meeting level: 1,2,3 #7

arXiv:1706.01905

Improving GANs Using Optimal Transport

本文提出了一个新的GAN变体,OT-GAN,基于最优传输距离测量生成数据分布与真实数据分布间的距离。

5月3日 4:30-6:30pm;East Meeting level: 1,2,3 #16

Concept Learning with Energy-Based Models

基于能量的模型可以快速推断二维数据点的概念。

学习“正方形”这个概念

workshop;5月2日 11am-1pm;East Meeting Level 8 + 15 #3

OpenReview地址:https://openreview.net/pdf?id=H12Y1dJDG

登录查看更多
19

相关内容

ICLR,全称为「International Conference on Learning Representations」(国际学习表征会议),2013 年才刚刚成立了第一届。这个一年一度的会议虽然今年才办到第五届,但已经被学术研究者们广泛认可,被认为「深度学习的顶级会议」。 ICLR由位列深度学习三大巨头之二的 Yoshua Bengio 和 Yann LeCun 牵头创办。 ICLR 希望能为深度学习提供一个专业化的交流平台。但实际上 ICLR 不同于其它国际会议,得到好评的真正原因,并不只是他们二位所自带的名人光环,而在于它推行的 Open Review 评审制度。
强化学习和最优控制的《十个关键点》81页PPT汇总
专知会员服务
103+阅读 · 2020年3月2日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
【NeurIPS 2019 Apple成果汇总】《Apple at NeurIPS 2019》
专知会员服务
10+阅读 · 2019年12月6日
MIT新书《强化学习与最优控制》
专知会员服务
275+阅读 · 2019年10月9日
ICLR 2020 高质量强化学习论文汇总
极市平台
12+阅读 · 2019年11月11日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【ICML2018】63篇强化学习论文全解读
专知
7+阅读 · 2018年7月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Meta-Learning with Implicit Gradients
Arxiv
13+阅读 · 2019年9月10日
Accelerated Methods for Deep Reinforcement Learning
Arxiv
6+阅读 · 2019年1月10日
Hierarchical Deep Multiagent Reinforcement Learning
Arxiv
8+阅读 · 2018年9月25日
Arxiv
5+阅读 · 2017年12月14日
VIP会员
相关资讯
ICLR 2020 高质量强化学习论文汇总
极市平台
12+阅读 · 2019年11月11日
OpenAI官方发布:强化学习中的关键论文
专知
14+阅读 · 2018年12月12日
OpenAI丨深度强化学习关键论文列表
中国人工智能学会
17+阅读 · 2018年11月10日
【ICML2018】63篇强化学习论文全解读
专知
7+阅读 · 2018年7月24日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员