【ICML2022】鲁棒强化学习的策略梯度法 - 专知VIP

会员服务 ·

22

ICML 2022 · 强化学习 · 策略梯度 ·

2022 年 5 月 21 日

【ICML2022】鲁棒强化学习的策略梯度法

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

本文提出了一种具有全局最优保证和复杂度分析的策略梯度法，用于模型失配情况下的鲁棒强化学习。鲁棒强化学习是学习一种鲁棒的策略来模拟模拟环境和真实环境之间的不匹配。我们首先建立了鲁棒策略梯度，它适用于任何可微参数策略类。我们证明了所提出的稳健策略梯度方法在直接策略参数化下渐近收敛于全局最优。我们进一步开发了一种平滑鲁棒的策略梯度方法，并表明要实现-全局最优，复杂度为O(e−3)。然后我们将我们的方法扩展到一般的无模型环境，并设计了具有可微参数策略类和价值函数的鲁棒行为-评论方法。我们进一步刻画了它在表格设置下的渐近收敛性和样本复杂性。最后，我们提供了仿真结果，以证明我们的方法的鲁棒性。

成为VIP会员查看完整内容

38

相关内容

ICML 2022

国际机器学习大会(International Conference on Machine Learning，简称ICML ) 是由国际机器学习学会（IMLS）主办的机器学习国际顶级会议，也是CCF-A类学术会议。ICML 2022 共收到5630 投稿，接收1117 篇 short oral，118篇 long oral，录用率为21.94%。

【ICML2022】基于树的集合的鲁棒反事实解释

【ICML2022】基于树的集合的鲁棒反事实解释

专知会员服务

15+阅读 · 2022年7月7日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知会员服务

35+阅读 · 2022年1月31日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

【ICML2021】统一鲁棒半监督变分自编码器

专知会员服务

27+阅读 · 2021年7月11日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

CVPR 2022 | 元学习在图像回归任务的表现

CVPR 2022 | 元学习在图像回归任务的表现

PaperWeekly

1+阅读 · 2022年6月11日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知

3+阅读 · 2022年1月31日

基于自监督的可逆性强化学习方法

基于自监督的可逆性强化学习方法

AI前线

4+阅读 · 2021年12月3日

【ICML2021】统一鲁棒半监督变分自编码器

【ICML2021】统一鲁棒半监督变分自编码器

专知

1+阅读 · 2021年7月12日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

除了DQN/A3C，还有哪些高级强化学习成果

除了DQN/A3C，还有哪些高级强化学习成果

论智

15+阅读 · 2018年10月28日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于双时间尺度优化的多机器人策略自适应与一致性

国家自然科学基金

2+阅读 · 2014年12月31日

基于软测量的纺织工业生产过程鲁棒运行优化问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

非凸半无限规划算法及其在分布式鲁棒随机优化中的应用研究

国家自然科学基金

1+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

基于风险测度的供应链鲁棒建模与策略研究

国家自然科学基金

2+阅读 · 2012年12月31日

增广拉格朗日问题的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

Approximately Solving Mean Field Games via Entropy-Regularized Deep Reinforcement Learning

Arxiv

0+阅读 · 2022年7月8日

Constrained Training of Neural Networks via Theorem Proving

Constrained Training of Neural Networks via Theorem Proving

Arxiv

0+阅读 · 2022年7月8日

Learning and generalization of one-hidden-layer neural networks, going beyond standard Gaussian data

Arxiv

0+阅读 · 2022年7月7日

gym-DSSAT: a crop model turned into a Reinforcement Learning environment

Arxiv

0+阅读 · 2022年7月7日

Planning with RL and episodic-memory behavioral priors

Planning with RL and episodic-memory behavioral priors

Arxiv

0+阅读 · 2022年7月7日

MoRPI: Mobile Robot Pure Inertial Navigation

Arxiv

0+阅读 · 2022年7月6日

SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics

Arxiv

0+阅读 · 2022年7月5日

Multi-Agent Cooperative Bidding Games for Multi-Objective Optimization in e-Commercial Sponsored Search

Arxiv

12+阅读 · 2021年6月8日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

VIP会员

相关主题

相关VIP内容

【ICML2022】基于树的集合的鲁棒反事实解释

【ICML2022】基于树的集合的鲁棒反事实解释

专知会员服务

15+阅读 · 2022年7月7日

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

【ICML2022】基于对比学习的离线元强化学习的鲁棒任务表示

专知会员服务

17+阅读 · 2022年6月23日

【ICML2022】Transformer是元强化学习器

【ICML2022】Transformer是元强化学习器

专知会员服务

56+阅读 · 2022年6月15日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知会员服务

35+阅读 · 2022年1月31日

【NeurIPS 2021】设置多智能体策略梯度的方差

【NeurIPS 2021】设置多智能体策略梯度的方差

专知会员服务

21+阅读 · 2021年10月24日

【ICML2021】统一鲁棒半监督变分自编码器

专知会员服务

27+阅读 · 2021年7月11日

【ICML2021】策略梯度贝叶斯鲁棒优化的模仿学习

专知会员服务

25+阅读 · 2021年6月15日

【ICML2021】为开放博弈中的学习建模行为多样性。

专知会员服务

37+阅读 · 2021年5月29日

【伯克利博士论文】深度强化学习的探索与安全性，178页pdf

专知会员服务

77+阅读 · 2021年5月23日

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

【ICML2020-伯克利】稳定非策略强化学习的表示，Representations for Stable Off-Policy Reinforcement Learning

专知会员服务

17+阅读 · 2020年7月14日

热门VIP内容

开通专知VIP会员享更多权益服务

扩散语言模型综述

《美陆军徒步机动作战条令手册》最新168页

【博士论文】理解神经网络的训练动态：从局部优化轨迹与特征学习视角

军事后勤数字化未来展望

相关资讯

CVPR 2022 | 元学习在图像回归任务的表现

CVPR 2022 | 元学习在图像回归任务的表现

PaperWeekly

1+阅读 · 2022年6月11日

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

【AAAI2022】一种基于状态扰动的鲁棒强化学习算法

专知

3+阅读 · 2022年1月31日

基于自监督的可逆性强化学习方法

基于自监督的可逆性强化学习方法

AI前线

4+阅读 · 2021年12月3日

【ICML2021】统一鲁棒半监督变分自编码器

【ICML2021】统一鲁棒半监督变分自编码器

专知

1+阅读 · 2021年7月12日

强化学习扫盲贴：从Q-learning到DQN

强化学习扫盲贴：从Q-learning到DQN

夕小瑶的卖萌屋

52+阅读 · 2019年10月13日

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

【强化学习】强化学习的应用场景、基本概念、数学模型和交易中的应用

产业智能官

18+阅读 · 2019年1月1日

除了DQN/A3C，还有哪些高级强化学习成果

除了DQN/A3C，还有哪些高级强化学习成果

论智

15+阅读 · 2018年10月28日

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

学界 | 伯克利、OpenAI等提出基于模型的元策略优化强化学习

机器之心

15+阅读 · 2018年10月21日

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

【强化学习】「ICML教程」深度强化学习，决策与控制（117 PPT）

产业智能官

41+阅读 · 2017年8月11日

【强化学习】强化学习+深度学习=人工智能

【强化学习】强化学习+深度学习=人工智能

产业智能官

55+阅读 · 2017年8月11日

相关基金

针对大规模环境下复杂任务的策略搜索强化学习方法研究

国家自然科学基金

41+阅读 · 2015年12月31日

基于重要性采样的并行离策略强化学习方法研究

国家自然科学基金

23+阅读 · 2015年12月31日

基于双时间尺度优化的多机器人策略自适应与一致性

国家自然科学基金

2+阅读 · 2014年12月31日

基于软测量的纺织工业生产过程鲁棒运行优化问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

非凸半无限规划算法及其在分布式鲁棒随机优化中的应用研究

国家自然科学基金

1+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

基于风险测度的供应链鲁棒建模与策略研究

国家自然科学基金

2+阅读 · 2012年12月31日

增广拉格朗日问题的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于多智能体强化学习的多机器人系统研究

国家自然科学基金

48+阅读 · 2009年12月31日

基于支持向量机的复杂连续系统强化学习控制研究

国家自然科学基金

11+阅读 · 2008年12月31日

相关论文

Approximately Solving Mean Field Games via Entropy-Regularized Deep Reinforcement Learning

Arxiv

0+阅读 · 2022年7月8日

Constrained Training of Neural Networks via Theorem Proving

Constrained Training of Neural Networks via Theorem Proving

Arxiv

0+阅读 · 2022年7月8日

Learning and generalization of one-hidden-layer neural networks, going beyond standard Gaussian data

Arxiv

0+阅读 · 2022年7月7日

gym-DSSAT: a crop model turned into a Reinforcement Learning environment

Arxiv

0+阅读 · 2022年7月7日

Planning with RL and episodic-memory behavioral priors

Planning with RL and episodic-memory behavioral priors

Arxiv

0+阅读 · 2022年7月7日

MoRPI: Mobile Robot Pure Inertial Navigation

Arxiv

0+阅读 · 2022年7月6日

SAAC: Safe Reinforcement Learning as an Adversarial Game of Actor-Critics

Arxiv

0+阅读 · 2022年7月5日

Multi-Agent Cooperative Bidding Games for Multi-Objective Optimization in e-Commercial Sponsored Search

Arxiv

12+阅读 · 2021年6月8日

SiT: Self-supervised vIsion Transformer

Arxiv

19+阅读 · 2021年4月8日

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Multimodal Model-Agnostic Meta-Learning via Task-Aware Modulation

Arxiv

25+阅读 · 2019年10月30日

微信扫码咨询专知VIP会员