论文题目:Learning to Weight Imperfect Demonstrations (ICML 2021)

作者:Yunke Wang, Chang Xu, Bo Du, Honglak Lee

论文概述:这篇论文主要解决的问题是如何在生成对抗模仿学习(GAIL)中为不完美专家演示加权。模仿学习期望智能体通过模仿专家的行为来进行学习,然而在许多现实世界的任务中专家也会犯错,由此产生的不完美专家演示将会严重误导智能体的学习。目前,已有的一些基于加权和偏好学习的解决不完美专家演示的方法往往依赖额外的先验信息,无法在更普遍和通用的模仿学习设置下使用。因此,本文提出了一种在生成对抗模仿学习的框架下为专家演示自动生成权重的方法,通过严格的数学证明,我们发现专家演示的权重可以在训练中由GAIL中的判别器和智能体策略估算得到。理论分析显示,当我们使用该估算的权重,智能体事实上在学习一个比原始给定的专家策略更优的策略。在Mujoco和Atari上的实验结果显示了算法的优越性。

http://proceedings.mlr.press/v139/wang21aa.html

成为VIP会员查看完整内容
14

相关内容

对抗学习是一种机器学习技术,旨在通过提供欺骗性输入来欺骗模型。最常见的原因是导致机器学习模型出现故障。大多数机器学习技术旨在处理特定的问题集,其中从相同的统计分布(IID)生成训练和测试数据。当这些模型应用于现实世界时,对手可能会提供违反该统计假设的数据。可以安排此数据来利用特定漏洞并破坏结果。
专知会员服务
14+阅读 · 2021年9月25日
专知会员服务
31+阅读 · 2021年9月7日
专知会员服务
38+阅读 · 2021年8月20日
专知会员服务
16+阅读 · 2021年8月6日
专知会员服务
26+阅读 · 2021年7月11日
专知会员服务
42+阅读 · 2021年7月1日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
35+阅读 · 2021年5月29日
专知会员服务
21+阅读 · 2021年5月27日
【ICML2021】低秩Sinkhorn 分解
专知
9+阅读 · 2021年8月20日
【NeurIPS2020】无限可能的联合对比学习
专知
3+阅读 · 2020年10月2日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
13+阅读 · 2020年8月11日
【ICML 2020 】小样本学习即领域迁移
专知
5+阅读 · 2020年6月26日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
GAN完整理论推导、证明与实现(附代码)
数据派THU
4+阅读 · 2017年10月6日
Arxiv
0+阅读 · 2021年11月15日
Disentangled Information Bottleneck
Arxiv
12+阅读 · 2020年12月22日
Arxiv
11+阅读 · 2020年12月2日
VIP会员
相关VIP内容
专知会员服务
14+阅读 · 2021年9月25日
专知会员服务
31+阅读 · 2021年9月7日
专知会员服务
38+阅读 · 2021年8月20日
专知会员服务
16+阅读 · 2021年8月6日
专知会员服务
26+阅读 · 2021年7月11日
专知会员服务
42+阅读 · 2021年7月1日
专知会员服务
24+阅读 · 2021年6月15日
专知会员服务
35+阅读 · 2021年5月29日
专知会员服务
21+阅读 · 2021年5月27日
相关资讯
【ICML2021】低秩Sinkhorn 分解
专知
9+阅读 · 2021年8月20日
【NeurIPS2020】无限可能的联合对比学习
专知
3+阅读 · 2020年10月2日
Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证
深度强化学习实验室
13+阅读 · 2020年8月11日
【ICML 2020 】小样本学习即领域迁移
专知
5+阅读 · 2020年6月26日
TensorFlow 2.0深度强化学习指南
云栖社区
18+阅读 · 2019年2月1日
ICML2018 模仿学习教程
专知
6+阅读 · 2018年7月14日
蒙特卡罗方法(Monte Carlo Methods)
数据挖掘入门与实战
6+阅读 · 2018年4月22日
一文学习基于蒙特卡罗的强化学习方法(送书)
人工智能头条
7+阅读 · 2018年3月13日
GAN完整理论推导、证明与实现(附代码)
数据派THU
4+阅读 · 2017年10月6日
微信扫码咨询专知VIP会员