【ICML2021】模仿学习的超参数选择 - 专知VIP

会员服务 ·

5

ICML 2021 · 模仿学习 · 超参数选择 · 超参数 ·

2021 年 5 月 27 日

【ICML2021】模仿学习的超参数选择

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

当演示专家的潜在奖励功能在任何时候都不能被观察到时，我们解决了在连续控制的背景下模仿学习算法的超参数(HPs)调优的问题。关于模仿学习的大量文献大多认为这种奖励功能适用于HP选择，但这并不是一个现实的设置。事实上，如果有这种奖励功能，就可以直接用于策略训练，而不需要模仿。为了解决这个几乎被忽略的问题，我们提出了一些外部奖励的可能代理。我们对其进行了广泛的实证研究(跨越9个环境的超过10000个代理商)，并对选择HP提出了实用的建议。我们的结果表明，虽然模仿学习算法对HP选择很敏感，但通常可以通过奖励功能的代理来选择足够好的HP。

https://www.zhuanzhi.ai/paper/beffdb76305bfa324433d64e6975ec76

成为VIP会员查看完整内容

22

相关内容

ICML 2021

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

【ICML2021】密度约束强化学习

专知会员服务

22+阅读 · 2021年6月26日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

【ICML2021】来自观察的跨域模仿

【ICML2021】来自观察的跨域模仿

专知会员服务

18+阅读 · 2021年5月25日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【AAAI2021】组合对抗攻击

【AAAI2021】组合对抗攻击

专知会员服务

51+阅读 · 2021年2月17日

【NeurIPS 2020】生成对抗性模仿学习的f-Divergence

【NeurIPS 2020】生成对抗性模仿学习的f-Divergence

专知会员服务

26+阅读 · 2020年10月9日

【ICML2020】通过神经引导的A*搜索学习逆合成设计

【ICML2020】通过神经引导的A*搜索学习逆合成设计

专知会员服务

18+阅读 · 2020年8月18日

NeurIPS 2020线上分享 | 南京大学直博生许天：模仿学习中行为克隆和对抗式方法的深度分析

NeurIPS 2020线上分享 | 南京大学直博生许天：模仿学习中行为克隆和对抗式方法的深度分析

机器之心

4+阅读 · 2020年11月10日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

29+阅读 · 2020年8月27日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

【ICML2020】小样本目标检测

【ICML2020】小样本目标检测

专知

7+阅读 · 2020年6月2日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

在稀疏和欠明确奖励中学习泛化

在稀疏和欠明确奖励中学习泛化

谷歌开发者

6+阅读 · 2019年3月20日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

伯克利大学《深度强化学习》更新 | 第二讲：监督学习和模仿学习

伯克利大学《深度强化学习》更新 | 第二讲：监督学习和模仿学习

AI科技评论

5+阅读 · 2019年1月10日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

Alias-Free Generative Adversarial Networks

Arxiv

0+阅读 · 2021年7月15日

DiRe Committee : Diversity and Representation Constraints in Multiwinner Elections

Arxiv

0+阅读 · 2021年7月15日

Distributionally Robust Policy Learning via Adversarial Environment Generation

Arxiv

0+阅读 · 2021年7月13日

Slimmable Generative Adversarial Networks

Slimmable Generative Adversarial Networks

Arxiv

3+阅读 · 2020年12月10日

Interpretable Sequence Classification via Discrete Optimization

Arxiv

8+阅读 · 2020年10月6日

Long-tailed Recognition by Routing Diverse Distribution-Aware Experts

Arxiv

3+阅读 · 2020年10月5日

Joint Face Detection and Facial Motion Retargeting for Multiple Faces

Joint Face Detection and Facial Motion Retargeting for Multiple Faces

Arxiv

4+阅读 · 2019年2月27日

Adversarial Meta-Learning

Arxiv

7+阅读 · 2018年6月8日

Quantum generative adversarial networks

Arxiv

4+阅读 · 2018年4月30日

Object Tracking in Satellite Videos Based on a Multi-Frame Optical Flow Tracker

Arxiv

5+阅读 · 2018年4月25日

VIP会员

相关主题

超参数选择

相关VIP内容

【ICML2021】预测观察进行模仿学习

专知会员服务

24+阅读 · 2021年7月10日

模仿学习: 进展，分类和机会

专知会员服务

48+阅读 · 2021年7月2日

【ICML2021】密度约束强化学习

专知会员服务

22+阅读 · 2021年6月26日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

【ICML2021】来自观察的跨域模仿

【ICML2021】来自观察的跨域模仿

专知会员服务

18+阅读 · 2021年5月25日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【AAAI2021】组合对抗攻击

【AAAI2021】组合对抗攻击

专知会员服务

51+阅读 · 2021年2月17日

【NeurIPS 2020】生成对抗性模仿学习的f-Divergence

【NeurIPS 2020】生成对抗性模仿学习的f-Divergence

专知会员服务

26+阅读 · 2020年10月9日

【ICML2020】通过神经引导的A*搜索学习逆合成设计

【ICML2020】通过神经引导的A*搜索学习逆合成设计

专知会员服务

18+阅读 · 2020年8月18日

热门VIP内容

开通专知VIP会员享更多权益服务

《美陆军徒步机动作战条令手册》最新168页

【博士论文】基于不确定性的可靠性：现代机器学习中的选择性预测与可信部署

军事后勤数字化未来展望

《美海军后勤体系整合与创新挑战》最新报告

相关资讯

NeurIPS 2020线上分享 | 南京大学直博生许天：模仿学习中行为克隆和对抗式方法的深度分析

NeurIPS 2020线上分享 | 南京大学直博生许天：模仿学习中行为克隆和对抗式方法的深度分析

机器之心

4+阅读 · 2020年11月10日

【干货书】贝叶斯推断随机过程，449页pdf

【干货书】贝叶斯推断随机过程，449页pdf

专知

29+阅读 · 2020年8月27日

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

【ICML2020-天津大学】多智能体深度强化学习中的Q值路径分解

专知

37+阅读 · 2020年7月2日

【ICML2020】小样本目标检测

【ICML2020】小样本目标检测

专知

7+阅读 · 2020年6月2日

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

【IJCAI2020】基于生成对抗模仿学习的多模态模仿学习算法框架

专知

20+阅读 · 2020年5月26日

在稀疏和欠明确奖励中学习泛化

在稀疏和欠明确奖励中学习泛化

谷歌开发者

6+阅读 · 2019年3月20日

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

干货 | 强化学习中，如何从稀疏和不明确的反馈中学习泛化

AI科技评论

7+阅读 · 2019年3月1日

伯克利大学《深度强化学习》更新 | 第二讲：监督学习和模仿学习

伯克利大学《深度强化学习》更新 | 第二讲：监督学习和模仿学习

AI科技评论

5+阅读 · 2019年1月10日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

学界 | 精准防御对抗性攻击，清华大学提出对抗正则化训练方法DeepDefense

机器之心

9+阅读 · 2018年3月7日

相关论文

Alias-Free Generative Adversarial Networks

Arxiv

0+阅读 · 2021年7月15日

DiRe Committee : Diversity and Representation Constraints in Multiwinner Elections

Arxiv

0+阅读 · 2021年7月15日

Distributionally Robust Policy Learning via Adversarial Environment Generation

Arxiv

0+阅读 · 2021年7月13日

Slimmable Generative Adversarial Networks

Slimmable Generative Adversarial Networks

Arxiv

3+阅读 · 2020年12月10日

Interpretable Sequence Classification via Discrete Optimization

Arxiv

8+阅读 · 2020年10月6日

Long-tailed Recognition by Routing Diverse Distribution-Aware Experts

Arxiv

3+阅读 · 2020年10月5日

Joint Face Detection and Facial Motion Retargeting for Multiple Faces

Joint Face Detection and Facial Motion Retargeting for Multiple Faces

Arxiv

4+阅读 · 2019年2月27日

Adversarial Meta-Learning

Arxiv

7+阅读 · 2018年6月8日

Quantum generative adversarial networks

Arxiv

4+阅读 · 2018年4月30日

Object Tracking in Satellite Videos Based on a Multi-Frame Optical Flow Tracker

Arxiv

5+阅读 · 2018年4月25日

微信扫码咨询专知VIP会员