Learning from human feedback has shown to be a useful approach in acquiring robot reward functions. However, expert feedback is often assumed to be drawn from an underlying unimodal reward function. This assumption does not always hold including in settings where multiple experts provide data or when a single expert provides data for different tasks -- we thus go beyond learning a unimodal reward and focus on learning a multimodal reward function. We formulate the multimodal reward learning as a mixture learning problem and develop a novel ranking-based learning approach, where the experts are only required to rank a given set of trajectories. Furthermore, as access to interaction data is often expensive in robotics, we develop an active querying approach to accelerate the learning process. We conduct experiments and user studies using a multi-task variant of OpenAI's LunarLander and a real Fetch robot, where we collect data from multiple users with different preferences. The results suggest that our approach can efficiently learn multimodal reward functions, and improve data-efficiency over benchmark methods that we adapt to our learning problem.


翻译:从人类反馈中学习人类的反馈证明是获得机器人奖赏功能的有用方法,然而,专家的反馈往往被假定是从一个基本的单一方式奖赏功能中得出的,这一假设并非总能包括多专家提供数据或一位专家为不同任务提供数据的环境下 -- -- 因此,我们不仅学习一种单一方式奖赏,而且注重学习一种多式联运奖赏功能;我们把多式奖赏学习作为一种混合学习问题,并发展一种新型的、基于等级的学习方法,即专家只需对一组特定的轨迹进行排序。此外,由于互动数据的获取在机器人中往往费用昂贵,我们开发一种积极的查询方法来加速学习过程。我们使用OpenAI的LunarLander和真正的Petch机器人的多式变体变体进行实验和用户研究,我们从那里收集来自不同偏好多个用户的数据。结果表明,我们的方法可以有效地学习多式奖赏功能,并改进数据效率,超越我们适应学习问题的基准方法。

0
下载
关闭预览

相关内容

【DeepMind】强化学习教程,83页ppt
专知会员服务
155+阅读 · 2020年8月7日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
131+阅读 · 2020年5月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
Causal policy ranking
Arxiv
0+阅读 · 2021年11月16日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
4+阅读 · 2018年10月5日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
151+阅读 · 2017年8月1日
Arxiv
3+阅读 · 2016年2月24日
VIP会员
相关VIP内容
【DeepMind】强化学习教程,83页ppt
专知会员服务
155+阅读 · 2020年8月7日
迁移学习简明教程,11页ppt
专知会员服务
108+阅读 · 2020年8月4日
Fariz Darari简明《博弈论Game Theory》介绍,35页ppt
专知会员服务
111+阅读 · 2020年5月15日
可解释强化学习,Explainable Reinforcement Learning: A Survey
专知会员服务
131+阅读 · 2020年5月14日
深度强化学习策略梯度教程,53页ppt
专知会员服务
183+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
60+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
177+阅读 · 2019年10月11日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
LibRec 精选:位置感知的长序列会话推荐
LibRec智能推荐
3+阅读 · 2019年5月17日
强化学习的Unsupervised Meta-Learning
CreateAMind
18+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Andrew NG的新书《Machine Learning Yearning》
我爱机器学习
11+阅读 · 2016年12月7日
相关论文
Causal policy ranking
Arxiv
0+阅读 · 2021年11月16日
Arxiv
6+阅读 · 2021年6月24日
Arxiv
9+阅读 · 2019年4月19日
Arxiv
7+阅读 · 2018年12月26日
Arxiv
4+阅读 · 2018年10月5日
Arxiv
6+阅读 · 2018年4月24日
Arxiv
151+阅读 · 2017年8月1日
Arxiv
3+阅读 · 2016年2月24日
Top
微信扫码咨询专知VIP会员