To solve complex real-world problems with reinforcement learning, we cannot rely on manually specified reward functions. Instead, we can have humans communicate an objective to the agent directly. In this work, we combine two approaches to learning from human feedback: expert demonstrations and trajectory preferences. We train a deep neural network to model the reward function and use its predicted reward to train an DQN-based deep reinforcement learning agent on 9 Atari games. Our approach beats the imitation learning baseline in 7 games and achieves strictly superhuman performance on 2 games without using game rewards. Additionally, we investigate the goodness of fit of the reward model, present some reward hacking problems, and study the effects of noise in the human labels.


翻译:解决强化学习的复杂现实问题, 我们无法依靠手工指定的奖励功能。 相反, 我们可以让人类直接向代理人传达目标。 在这项工作中, 我们结合两种方法从人类反馈中学习: 专家演示和轨迹偏好。 我们训练了一个深层神经网络来模拟奖励功能, 并用其预测的奖励来训练以DQN为基础的9 Atari 游戏的深强化学习代理。 我们的方法在7个游戏中比模仿学习基线更强, 在2个游戏中实现严格的超人表现而不使用游戏奖赏。 此外, 我们调查奖励模式是否适合, 展示一些奖励黑客的问题, 并研究噪音在人类标签中的影响 。

4
下载
关闭预览

相关内容

因果关联学习,Causal Relational Learning
专知会员服务
148+阅读 · 2020年4月21日
深度强化学习策略梯度教程,53页ppt
专知会员服务
134+阅读 · 2020年2月1日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
105+阅读 · 2019年10月12日
强化学习最新教程,17页pdf
专知会员服务
97+阅读 · 2019年10月11日
Transferring Knowledge across Learning Processes
CreateAMind
10+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
6+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
8+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
22+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
34+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
9+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
10+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Financial Time Series Representation Learning
Arxiv
10+阅读 · 2020年3月27日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
5+阅读 · 2019年1月8日
Arxiv
6+阅读 · 2018年12月26日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
3+阅读 · 2018年10月5日
Relational Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年6月28日
Arxiv
4+阅读 · 2018年6月12日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
10+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
6+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
8+阅读 · 2019年1月7日
无监督元学习表示学习
CreateAMind
22+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
34+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
9+阅读 · 2019年1月2日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
10+阅读 · 2018年12月24日
Disentangled的假设的探讨
CreateAMind
9+阅读 · 2018年12月10日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
16+阅读 · 2018年5月25日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
相关论文
Financial Time Series Representation Learning
Arxiv
10+阅读 · 2020年3月27日
Risk-Aware Active Inverse Reinforcement Learning
Arxiv
5+阅读 · 2019年1月8日
Arxiv
6+阅读 · 2018年12月26日
Logically-Constrained Reinforcement Learning
Arxiv
3+阅读 · 2018年12月6日
Arxiv
3+阅读 · 2018年10月5日
Relational Deep Reinforcement Learning
Arxiv
6+阅读 · 2018年6月28日
Arxiv
4+阅读 · 2018年6月12日
Top
微信扫码咨询专知VIP会员