Although reinforcement learning has seen tremendous success recently, this kind of trial-and-error learning can be impractical or inefficient in complex environments. The use of demonstrations, on the other hand, enables agents to benefit from expert knowledge rather than having to discover the best action to take through exploration. In this survey, we discuss the advantages of using demonstrations in sequential decision making, various ways to apply demonstrations in learning-based decision making paradigms (for example, reinforcement learning and planning in the learned models), and how to collect the demonstrations in various scenarios. Additionally, we exemplify a practical pipeline for generating and utilizing demonstrations in the recently proposed ManiSkill robot learning benchmark.


翻译:虽然强化学习最近取得了巨大的成功,但在复杂环境中,这种试错学习可能并不切实际或低效。另一方面,使用演示使代理能够受益于专家知识,而不是通过探索发现最佳行动。在本综述中,我们讨论了在顺序决策中使用演示的优点、在学习的决策制定范式(例如,强化学习和学习模型中的规划)中应用演示的各种方法以及在各种情况下收集演示的方法。此外,我们还举例说明了在最近提出的ManiSkill机器人学习基准中生成和利用演示的实际流程。

0
下载
关闭预览

相关内容

基于模型的强化学习综述
专知会员服务
141+阅读 · 2022年7月13日
【2022新书】强化学习工业应用,408页pdf
专知会员服务
226+阅读 · 2022年2月3日
专知会员服务
166+阅读 · 2021年8月3日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
基于模型的强化学习综述
专知
30+阅读 · 2022年7月13日
【2022新书】强化学习工业应用
专知
17+阅读 · 2022年2月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月14日
Arxiv
21+阅读 · 2022年11月8日
Arxiv
66+阅读 · 2022年4月13日
VIP会员
相关VIP内容
基于模型的强化学习综述
专知会员服务
141+阅读 · 2022年7月13日
【2022新书】强化学习工业应用,408页pdf
专知会员服务
226+阅读 · 2022年2月3日
专知会员服务
166+阅读 · 2021年8月3日
深度强化学习策略梯度教程,53页ppt
专知会员服务
178+阅读 · 2020年2月1日
Stabilizing Transformers for Reinforcement Learning
专知会员服务
59+阅读 · 2019年10月17日
强化学习最新教程,17页pdf
专知会员服务
174+阅读 · 2019年10月11日
相关资讯
基于模型的强化学习综述
专知
30+阅读 · 2022年7月13日
【2022新书】强化学习工业应用
专知
17+阅读 · 2022年2月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
相关基金
国家自然科学基金
37+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
3+阅读 · 2012年12月31日
国家自然科学基金
17+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
2+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员