许多现有的模仿学习数据集是从多个演示者那里收集的,每个演示者在环境的不同部分具有不同的专长。然而,标准的模仿学习算法通常将所有演示者视为同质的,而不考虑他们的专业知识,吸收任何次优演示者的弱点。在这项工作中,我们表明,在演示者专业知识上的无监督学习可以导致模仿学习算法性能的持续提高。我们根据经验丰富的策略和演示者的专业水平,开发和优化一个联合模型。这使得我们的模型能够从最优行为中学习,并过滤掉每个演示者的次优行为。我们的模型学习了一个单一的策略,这个策略甚至可以超过最好的演示者,并且可以用来评估任何状态下任何演示者的专业知识。我们阐述了我们在Robomimic和离散环境(如MiniGrid和国际象棋)中对真实机器人连续控制任务的研究结果,在23个设置中有21个优于竞争方法,在最终奖励方面平均提高7%,最高提高60%。

成为VIP会员查看完整内容
16

相关内容

国际机器学习大会(International Conference on Machine Learning,简称ICML ) 是由国际机器学习学会(IMLS)主办的机器学习国际顶级会议,也是CCF-A类学术会议。ICML 2022 共收到5630 投稿,接收1117 篇 short oral,118篇 long oral,录用率为21.94%。
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
37+阅读 · 2022年5月21日
专知会员服务
14+阅读 · 2021年9月23日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
12+阅读 · 2021年7月2日
专知会员服务
46+阅读 · 2021年7月2日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
21+阅读 · 2021年5月27日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
【ICML2022】在线决策Transformer
专知
2+阅读 · 2022年7月27日
【ICML2021】基于观察的跨域模仿学习
专知
2+阅读 · 2021年8月30日
【ICML2020】对比多视角表示学习
专知
19+阅读 · 2020年6月28日
干货|浅谈强化学习的方法及学习路线
机器学习算法与Python学习
16+阅读 · 2018年3月28日
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2022年9月7日
Arxiv
0+阅读 · 2022年9月6日
Arxiv
20+阅读 · 2019年11月23日
Arxiv
10+阅读 · 2018年2月17日
VIP会员
相关VIP内容
【ICML2022】鲁棒强化学习的策略梯度法
专知会员服务
37+阅读 · 2022年5月21日
专知会员服务
14+阅读 · 2021年9月23日
专知会员服务
19+阅读 · 2021年8月30日
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
12+阅读 · 2021年7月2日
专知会员服务
46+阅读 · 2021年7月2日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
21+阅读 · 2021年5月27日
【CMU博士论文Wen Sun】强化学习的泛化性与效率,206页pdf
专知会员服务
91+阅读 · 2020年9月28日
相关资讯
相关基金
国家自然科学基金
20+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
2+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2008年12月31日
微信扫码咨询专知VIP会员