当演示专家的潜在奖励功能在任何时候都不能被观察到时,我们解决了在连续控制的背景下模仿学习算法的超参数(HPs)调优的问题。关于模仿学习的大量文献大多认为这种奖励功能适用于HP选择,但这并不是一个现实的设置。事实上,如果有这种奖励功能,就可以直接用于策略训练,而不需要模仿。为了解决这个几乎被忽略的问题,我们提出了一些外部奖励的可能代理。我们对其进行了广泛的实证研究(跨越9个环境的超过10000个代理商),并对选择HP提出了实用的建议。我们的结果表明,虽然模仿学习算法对HP选择很敏感,但通常可以通过奖励功能的代理来选择足够好的HP。

https://www.zhuanzhi.ai/paper/beffdb76305bfa324433d64e6975ec76

成为VIP会员查看完整内容
21

相关内容

专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
46+阅读 · 2021年7月2日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
36+阅读 · 2021年5月29日
【ICML2021】来自观察的跨域模仿
专知会员服务
17+阅读 · 2021年5月25日
专知会员服务
81+阅读 · 2021年5月10日
【AAAI2021】组合对抗攻击
专知会员服务
50+阅读 · 2021年2月17日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【ICML2020】通过神经引导的A*搜索学习逆合成设计
专知会员服务
16+阅读 · 2020年8月18日
【干货书】贝叶斯推断随机过程,449页pdf
专知
29+阅读 · 2020年8月27日
【ICML2020】小样本目标检测
专知
7+阅读 · 2020年6月2日
在稀疏和欠明确奖励中学习泛化
谷歌开发者
6+阅读 · 2019年3月20日
Arxiv
0+阅读 · 2021年7月15日
Slimmable Generative Adversarial Networks
Arxiv
3+阅读 · 2020年12月10日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
4+阅读 · 2018年4月30日
VIP会员
相关VIP内容
专知会员服务
23+阅读 · 2021年7月10日
专知会员服务
46+阅读 · 2021年7月2日
专知会员服务
21+阅读 · 2021年6月26日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
36+阅读 · 2021年5月29日
【ICML2021】来自观察的跨域模仿
专知会员服务
17+阅读 · 2021年5月25日
专知会员服务
81+阅读 · 2021年5月10日
【AAAI2021】组合对抗攻击
专知会员服务
50+阅读 · 2021年2月17日
【NeurIPS 2020】生成对抗性模仿学习的f-Divergence
专知会员服务
25+阅读 · 2020年10月9日
【ICML2020】通过神经引导的A*搜索学习逆合成设计
专知会员服务
16+阅读 · 2020年8月18日
微信扫码咨询专知VIP会员