【ICML2021】学习权衡不完美的示范 - 专知VIP

会员服务 ·

0

对抗学习 · 模仿学习 · ICML 2021 ·

2021 年 9 月 23 日

【ICML2021】学习权衡不完美的示范

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

论文题目：Learning to Weight Imperfect Demonstrations （ICML 2021）

作者：Yunke Wang, Chang Xu, Bo Du, Honglak Lee

论文概述：这篇论文主要解决的问题是如何在生成对抗模仿学习（GAIL）中为不完美专家演示加权。模仿学习期望智能体通过模仿专家的行为来进行学习，然而在许多现实世界的任务中专家也会犯错，由此产生的不完美专家演示将会严重误导智能体的学习。目前，已有的一些基于加权和偏好学习的解决不完美专家演示的方法往往依赖额外的先验信息，无法在更普遍和通用的模仿学习设置下使用。因此，本文提出了一种在生成对抗模仿学习的框架下为专家演示自动生成权重的方法，通过严格的数学证明，我们发现专家演示的权重可以在训练中由GAIL中的判别器和智能体策略估算得到。理论分析显示，当我们使用该估算的权重，智能体事实上在学习一个比原始给定的专家策略更优的策略。在Mujoco和Atari上的实验结果显示了算法的优越性。

http://proceedings.mlr.press/v139/wang21aa.html

成为VIP会员查看完整内容

15

相关内容

对抗学习

对抗学习是一种机器学习技术，旨在通过提供欺骗性输入来欺骗模型。最常见的原因是导致机器学习模型出现故障。大多数机器学习技术旨在处理特定的问题集，其中从相同的统计分布（IID）生成训练和测试数据。当这些模型应用于现实世界时，对手可能会提供违反该统计假设的数据。可以安排此数据来利用特定漏洞并破坏结果。

【ICML2021】连续结构非平稳性中的深度强化学习

专知会员服务

15+阅读 · 2021年9月25日

【ICML2021】逆约束强化学习

专知会员服务

33+阅读 · 2021年9月7日

【ICML2021】教师-学生设置中的持续学习:任务相似性的影响

专知会员服务

20+阅读 · 2021年9月1日

【ICML2021】低秩Sinkhorn 分解

专知会员服务

39+阅读 · 2021年8月20日

【ICML2021】分布式对抗训练中的基本权衡

专知会员服务

17+阅读 · 2021年8月6日

【ICML2021】统一鲁棒半监督变分自编码器

专知会员服务

27+阅读 · 2021年7月11日

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】低秩Sinkhorn 分解

【ICML2021】低秩Sinkhorn 分解

专知

9+阅读 · 2021年8月20日

【NeurIPS2020】无限可能的联合对比学习

【NeurIPS2020】无限可能的联合对比学习

专知

3+阅读 · 2020年10月2日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

18+阅读 · 2020年8月11日

【ICML 2020 】小样本学习即领域迁移

【ICML 2020 】小样本学习即领域迁移

专知

5+阅读 · 2020年6月26日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

ICML2018 模仿学习教程

ICML2018 模仿学习教程

专知

6+阅读 · 2018年7月14日

蒙特卡罗方法(Monte Carlo Methods)

蒙特卡罗方法(Monte Carlo Methods)

数据挖掘入门与实战

6+阅读 · 2018年4月22日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

GAN完整理论推导、证明与实现（附代码）

GAN完整理论推导、证明与实现（附代码）

数据派THU

5+阅读 · 2017年10月6日

Ada-BKB: Scalable Gaussian Process Optimization on Continuous Domain by Adaptive Discretization

Arxiv

0+阅读 · 2021年11月15日

Single-Index Importance Sampling with Stratification

Arxiv

0+阅读 · 2021年11月15日

Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos

Arxiv

0+阅读 · 2021年11月14日

Towards Gradient-based Bilevel Optimization with Non-convex Followers and Beyond

Arxiv

5+阅读 · 2021年10月1日

Disentangled Information Bottleneck

Disentangled Information Bottleneck

Arxiv

12+阅读 · 2020年12月22日

Self-correcting Q-Learning

Arxiv

11+阅读 · 2020年12月2日

Reinforcement Learning Enhanced Quantum-inspired Algorithm for Combinatorial Optimization

Arxiv

4+阅读 · 2020年2月14日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Mixed Supervised Object Detection with Robust Objectness Transfer

Arxiv

5+阅读 · 2018年3月13日

LSTD: A Low-Shot Transfer Detector for Object Detection

Arxiv

4+阅读 · 2018年3月5日

VIP会员

相关主题

相关VIP内容

【ICML2021】连续结构非平稳性中的深度强化学习

专知会员服务

15+阅读 · 2021年9月25日

【ICML2021】逆约束强化学习

专知会员服务

33+阅读 · 2021年9月7日

【ICML2021】教师-学生设置中的持续学习:任务相似性的影响

专知会员服务

20+阅读 · 2021年9月1日

【ICML2021】低秩Sinkhorn 分解

专知会员服务

39+阅读 · 2021年8月20日

【ICML2021】分布式对抗训练中的基本权衡

专知会员服务

17+阅读 · 2021年8月6日

【ICML2021】统一鲁棒半监督变分自编码器

专知会员服务

27+阅读 · 2021年7月11日

【ICML2021】互信息分解估计的对比表示学习

专知会员服务

44+阅读 · 2021年7月1日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

热门VIP内容

开通专知VIP会员享更多权益服务

《生成式人工智能与大/小语言模型在供应链管理决策优化与可持续性提升中的作用评估》最新51页

白宫发布《赢得AI竞赛：美国人工智能行动计划》最新28页

地下战：地下空间的战略博弈

《美地下作战条令手册》228页

相关资讯

【ICML2021】低秩Sinkhorn 分解

【ICML2021】低秩Sinkhorn 分解

专知

9+阅读 · 2021年8月20日

【NeurIPS2020】无限可能的联合对比学习

【NeurIPS2020】无限可能的联合对比学习

专知

3+阅读 · 2020年10月2日

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

Distributional Soft Actor-Critic (DSAC)强化学习算法的设计与验证

深度强化学习实验室

18+阅读 · 2020年8月11日

【ICML 2020 】小样本学习即领域迁移

【ICML 2020 】小样本学习即领域迁移

专知

5+阅读 · 2020年6月26日

TensorFlow 2.0深度强化学习指南

TensorFlow 2.0深度强化学习指南

云栖社区

18+阅读 · 2019年2月1日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

ICML2018 模仿学习教程

ICML2018 模仿学习教程

专知

6+阅读 · 2018年7月14日

蒙特卡罗方法(Monte Carlo Methods)

蒙特卡罗方法(Monte Carlo Methods)

数据挖掘入门与实战

6+阅读 · 2018年4月22日

一文学习基于蒙特卡罗的强化学习方法（送书）

一文学习基于蒙特卡罗的强化学习方法（送书）

人工智能头条

7+阅读 · 2018年3月13日

GAN完整理论推导、证明与实现（附代码）

GAN完整理论推导、证明与实现（附代码）

数据派THU

5+阅读 · 2017年10月6日

相关论文

Ada-BKB: Scalable Gaussian Process Optimization on Continuous Domain by Adaptive Discretization

Arxiv

0+阅读 · 2021年11月15日

Single-Index Importance Sampling with Stratification

Arxiv

0+阅读 · 2021年11月15日

Learning by Watching: Physical Imitation of Manipulation Skills from Human Videos

Arxiv

0+阅读 · 2021年11月14日

Towards Gradient-based Bilevel Optimization with Non-convex Followers and Beyond

Arxiv

5+阅读 · 2021年10月1日

Disentangled Information Bottleneck

Disentangled Information Bottleneck

Arxiv

12+阅读 · 2020年12月22日

Self-correcting Q-Learning

Arxiv

11+阅读 · 2020年12月2日

Reinforcement Learning Enhanced Quantum-inspired Algorithm for Combinatorial Optimization

Arxiv

4+阅读 · 2020年2月14日

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

PPO-CMA: Proximal Policy Optimization with Covariance Matrix Adaptation

Arxiv

8+阅读 · 2018年12月18日

Mixed Supervised Object Detection with Robust Objectness Transfer

Arxiv

5+阅读 · 2018年3月13日

LSTD: A Low-Shot Transfer Detector for Object Detection

Arxiv

4+阅读 · 2018年3月5日

微信扫码咨询专知VIP会员