通过反向环境生成方法进行分布式强力政策学习 (Distributionally Robust Policy Learning via Adversarial Environment Generation) - 专知论文

会员服务 ·

0

稳健性 · 回合 · Performer · 学成 · 潜变量/隐变量 ·

2021 年 9 月 16 日

Distributionally Robust Policy Learning via Adversarial Environment Generation

翻译：通过反向环境生成方法进行分布式强力政策学习

Allen Z. Ren,Anirudha Majumdar

Our goal is to train control policies that generalize well to unseen environments. Inspired by the Distributionally Robust Optimization (DRO) framework, we propose DRAGEN - Distributionally Robust policy learning via Adversarial Generation of ENvironments - for iteratively improving robustness of policies to realistic distribution shifts by generating adversarial environments. The key idea is to learn a generative model for environments whose latent variables capture cost-predictive and realistic variations in environments. We perform DRO with respect to a Wasserstein ball around the empirical distribution of environments by generating realistic adversarial environments via gradient ascent on the latent space. We demonstrate strong Out-of-Distribution (OoD) generalization in simulation for (i) swinging up a pendulum with onboard vision and (ii) grasping realistic 2D/3D objects. Grasping experiments on hardware demonstrate better sim2real performance compared to domain randomization.

翻译：我们的目标是通过创造对抗性环境,将控制政策推广到看不见的环境。在分布式强力优化(DRO)框架的启发下,我们建议DRAGEN - 通过环境的反向生成来分散式强力政策学习,通过创造对抗环境,迭代地提高政策的稳健性,以实现现实的分布变化。关键的想法是学习一个潜在变量捕捉到环境中成本预测和现实变化的环境的基因模型。我们用瓦塞斯坦球围绕环境的经验分布进行DRO,通过潜空的梯度生成现实的对抗性环境。我们在模拟中展示了强大的扩散外(OOD)一般化,用于(一) 移动机载视觉的弹孔和(二) 掌握现实的 2D/3D 物体。对硬件的实验显示比域随机化的模拟性能要好。

0

相关内容

稳健性

【ICML2021】逆约束强化学习

专知会员服务

33+阅读 · 2021年9月7日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

元学习(meta learning) 最新进展综述论文

元学习(meta learning) 最新进展综述论文

专知会员服务

281+阅读 · 2020年5月8日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【MLA 2019】机器学习中分布式鲁棒优化的一阶算法框架( Towards a First-Order Algorithmic Framework for Distributionally Robust Optimization in Machine Learning),香港中文大学苏文藻

【MLA 2019】机器学习中分布式鲁棒优化的一阶算法框架( Towards a First-Order Algorithmic Framework for Distributionally Robust Optimization in Machine Learning),香港中文大学苏文藻

专知会员服务

28+阅读 · 2019年11月6日

【ICCV 2019 Workshop】Geometric View of Optimal Transportation and Generative Adversarial Networks ，石溪大学，哈佛大学顾险峰教授

【ICCV 2019 Workshop】Geometric View of Optimal Transportation and Generative Adversarial Networks ，石溪大学，哈佛大学顾险峰教授

专知会员服务

26+阅读 · 2019年10月30日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

【ICML2019 tutorial】安全机器学习（Safe Machine Learning），Silvia Chiappa，Jan Leike

【ICML2019 tutorial】安全机器学习（Safe Machine Learning），Silvia Chiappa，Jan Leike

专知会员服务

23+阅读 · 2019年6月10日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

SAT: Improving Adversarial Training via Curriculum-Based Loss Smoothing

Arxiv

0+阅读 · 2021年11月8日

V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated Objects

Arxiv

0+阅读 · 2021年11月7日

MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement Learning and Procedurally Generated Environments

Arxiv

0+阅读 · 2021年11月6日

Causality and Generalizability: Identifiability and Learning Methods

Arxiv

12+阅读 · 2021年10月4日

Policy Gradient Bayesian Robust Optimization for Imitation Learning

Arxiv

5+阅读 · 2021年6月11日

Adversarial Mutual Information for Text Generation

Adversarial Mutual Information for Text Generation

Arxiv

13+阅读 · 2020年6月30日

Model-based Adversarial Meta-Reinforcement Learning

Arxiv

5+阅读 · 2020年6月16日

Adversarial Transfer Learning

Adversarial Transfer Learning

Arxiv

12+阅读 · 2018年12月6日

Large Margin Few-Shot Learning

Arxiv

11+阅读 · 2018年7月8日

No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling

Arxiv

7+阅读 · 2018年4月24日

VIP会员

文章信息

相关主题

潜变量/隐变量

相关VIP内容

【ICML2021】逆约束强化学习

专知会员服务

33+阅读 · 2021年9月7日

策略梯度方法的算子视图，An operator view of policy gradient methods

策略梯度方法的算子视图，An operator view of policy gradient methods

专知会员服务

11+阅读 · 2020年6月23日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

【CVPR2020】自监督的深度视觉测程与在线适应，Self-Supervised Deep Visual Odometry

专知会员服务

32+阅读 · 2020年5月14日

元学习(meta learning) 最新进展综述论文

元学习(meta learning) 最新进展综述论文

专知会员服务

281+阅读 · 2020年5月8日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

【MLA 2019】机器学习中分布式鲁棒优化的一阶算法框架( Towards a First-Order Algorithmic Framework for Distributionally Robust Optimization in Machine Learning),香港中文大学苏文藻

【MLA 2019】机器学习中分布式鲁棒优化的一阶算法框架( Towards a First-Order Algorithmic Framework for Distributionally Robust Optimization in Machine Learning),香港中文大学苏文藻

专知会员服务

28+阅读 · 2019年11月6日

【ICCV 2019 Workshop】Geometric View of Optimal Transportation and Generative Adversarial Networks ，石溪大学，哈佛大学顾险峰教授

【ICCV 2019 Workshop】Geometric View of Optimal Transportation and Generative Adversarial Networks ，石溪大学，哈佛大学顾险峰教授

专知会员服务

26+阅读 · 2019年10月30日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

【ICML2019 tutorial】安全机器学习（Safe Machine Learning），Silvia Chiappa，Jan Leike

【ICML2019 tutorial】安全机器学习（Safe Machine Learning），Silvia Chiappa，Jan Leike

专知会员服务

23+阅读 · 2019年6月10日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争中的无人系统：新的战争方式与新兴趋势——来自前线的印象》报告

《海上自主水面船舶远程操作中心：安全可持续运行的多维度分析》

多模态大语言模型下游调优中“保持自我”的重要性

隐身自主无人水下航行器技术如何变革水下作战并重塑海军竞争

相关资讯

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

Disentangled的假设的探讨

Disentangled的假设的探讨

CreateAMind

9+阅读 · 2018年12月10日

disentangled-representation-papers

disentangled-representation-papers

CreateAMind

26+阅读 · 2018年9月12日

Hierarchical Imitation - Reinforcement Learning

Hierarchical Imitation - Reinforcement Learning

CreateAMind

19+阅读 · 2018年5月25日

Hierarchical Disentangled Representations

Hierarchical Disentangled Representations

CreateAMind

4+阅读 · 2018年4月15日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

SAT: Improving Adversarial Training via Curriculum-Based Loss Smoothing

Arxiv

0+阅读 · 2021年11月8日

V-MAO: Generative Modeling for Multi-Arm Manipulation of Articulated Objects

Arxiv

0+阅读 · 2021年11月7日

MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement Learning and Procedurally Generated Environments

Arxiv

0+阅读 · 2021年11月6日

Causality and Generalizability: Identifiability and Learning Methods

Arxiv

12+阅读 · 2021年10月4日

Policy Gradient Bayesian Robust Optimization for Imitation Learning

Arxiv

5+阅读 · 2021年6月11日

Adversarial Mutual Information for Text Generation

Adversarial Mutual Information for Text Generation

Arxiv

13+阅读 · 2020年6月30日

Model-based Adversarial Meta-Reinforcement Learning

Arxiv

5+阅读 · 2020年6月16日

Adversarial Transfer Learning

Adversarial Transfer Learning

Arxiv

12+阅读 · 2018年12月6日

Large Margin Few-Shot Learning

Arxiv

11+阅读 · 2018年7月8日

No Metrics Are Perfect: Adversarial Reward Learning for Visual Storytelling

Arxiv

7+阅读 · 2018年4月24日

微信扫码咨询专知VIP会员