多样性行动方-批评:样品-软件内环球常规化,用于样品-有效勘探 (Diversity Actor-Critic: Sample-Aware Entropy Regularization for Sample-Efficient Exploration) - 专知论文

会员服务 ·

0

正则化项 · 经验池 · DAC · Buffer（公司） · 多样性 ·

2021 年 6 月 9 日

Diversity Actor-Critic: Sample-Aware Entropy Regularization for Sample-Efficient Exploration

翻译：多样性行动方-批评:样品-软件内环球常规化,用于样品-有效勘探

Seungyul Han,Youngchul Sung

from arxiv, Accepted to Proceedings of the 38th International Conference on Machine Learning

In this paper, sample-aware policy entropy regularization is proposed to enhance the conventional policy entropy regularization for better exploration. Exploiting the sample distribution obtainable from the replay buffer, the proposed sample-aware entropy regularization maximizes the entropy of the weighted sum of the policy action distribution and the sample action distribution from the replay buffer for sample-efficient exploration. A practical algorithm named diversity actor-critic (DAC) is developed by applying policy iteration to the objective function with the proposed sample-aware entropy regularization. Numerical results show that DAC significantly outperforms existing recent algorithms for reinforcement learning.

翻译：本文建议,为更好地勘探,加强常规政策整顿整顿,以强化常规政策整顿。利用从重放缓冲获得的样品分布,拟议的试测整顿使政策行动分布加权总和的灵敏度最大化,以及从重播缓冲中获取的样品整顿行动分布最大化。通过对目标功能应用政策迭代,并采用拟议的试测整顿。数字结果显示,发援会大大优于最近用于强化学习的现有算法,从而开发了一个名为“多样性行为者-批评(DAC)”的实用算法。

0

相关内容

正则化项

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

专知会员服务

135+阅读 · 2021年6月16日

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

专知会员服务

91+阅读 · 2021年1月17日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

必须收藏！MIT-Gilbert老爷子《矩阵图解》，一张图看透矩阵

必须收藏！MIT-Gilbert老爷子《矩阵图解》，一张图看透矩阵

专知会员服务

111+阅读 · 2020年11月17日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

最前沿：深度解读Soft Actor-Critic 算法

最前沿：深度解读Soft Actor-Critic 算法

极市平台

55+阅读 · 2019年7月28日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

【OpenAI】深度强化学习关键论文列表

【OpenAI】深度强化学习关键论文列表

专知

11+阅读 · 2018年11月10日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment

Arxiv

0+阅读 · 2021年8月5日

Variational Actor-Critic Algorithms

Arxiv

0+阅读 · 2021年8月4日

Ensemble Slice Sampling: Parallel, black-box and gradient-free inference for correlated & multimodal distributions

Arxiv

0+阅读 · 2021年8月4日

Loosely Synchronized Search for Multi-agent Path Finding with Asynchronous Actions

Arxiv

0+阅读 · 2021年8月2日

Strategically Efficient Exploration in Competitive Multi-agent Reinforcement Learning

Strategically Efficient Exploration in Competitive Multi-agent Reinforcement Learning

Arxiv

0+阅读 · 2021年7月30日

Return-Based Contrastive Representation Learning for Reinforcement Learning

Arxiv

10+阅读 · 2021年2月22日

Learning Diverse and Discriminative Representations via the Principle of Maximal Coding Rate Reduction

Arxiv

9+阅读 · 2020年6月15日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Diff-DAC: Distributed Actor-Critic for Average Multitask Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年4月22日

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

Arxiv

6+阅读 · 2018年1月16日

VIP会员

文章信息

相关主题

Buffer（公司）

相关VIP内容

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

深度学习优化算法，73页ppt，Optimization Algorithms on Deep Learning

专知会员服务

135+阅读 · 2021年6月16日

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

MIT科学家Dimitri P. Bertsekas最新《强化学习与最优控制》2021ASU课程，(附书稿PDF&讲义)

专知会员服务

91+阅读 · 2021年1月17日

【AAAI2021】自校正Q学习，Self-correcting Q-Learning

专知会员服务

17+阅读 · 2020年12月4日

必须收藏！MIT-Gilbert老爷子《矩阵图解》，一张图看透矩阵

必须收藏！MIT-Gilbert老爷子《矩阵图解》，一张图看透矩阵

专知会员服务

111+阅读 · 2020年11月17日

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

强化学习的对比无监督表示，CURL: Contrastive Unsupervised Representations for Reinforcement Learning

专知会员服务

41+阅读 · 2020年4月11日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

MIT新书《强化学习与最优控制》

MIT新书《强化学习与最优控制》

专知会员服务

280+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

最前沿：深度解读Soft Actor-Critic 算法

最前沿：深度解读Soft Actor-Critic 算法

极市平台

55+阅读 · 2019年7月28日

强化学习三篇论文避免遗忘等

强化学习三篇论文避免遗忘等

CreateAMind

20+阅读 · 2019年5月24日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

RL 真经

CreateAMind

5+阅读 · 2018年12月28日

OpenAI丨深度强化学习关键论文列表

OpenAI丨深度强化学习关键论文列表

中国人工智能学会

17+阅读 · 2018年11月10日

【OpenAI】深度强化学习关键论文列表

【OpenAI】深度强化学习关键论文列表

专知

11+阅读 · 2018年11月10日

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

【论文推荐】最新六篇强化学习相关论文—Sublinear、机器阅读理解、加速强化学习、对抗性奖励学习、人机交互

专知

17+阅读 · 2018年4月28日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

相关论文

Hindsight Value Function for Variance Reduction in Stochastic Dynamic Environment

Arxiv

0+阅读 · 2021年8月5日

Variational Actor-Critic Algorithms

Arxiv

0+阅读 · 2021年8月4日

Ensemble Slice Sampling: Parallel, black-box and gradient-free inference for correlated & multimodal distributions

Arxiv

0+阅读 · 2021年8月4日

Loosely Synchronized Search for Multi-agent Path Finding with Asynchronous Actions

Arxiv

0+阅读 · 2021年8月2日

Strategically Efficient Exploration in Competitive Multi-agent Reinforcement Learning

Strategically Efficient Exploration in Competitive Multi-agent Reinforcement Learning

Arxiv

0+阅读 · 2021年7月30日

Return-Based Contrastive Representation Learning for Reinforcement Learning

Arxiv

10+阅读 · 2021年2月22日

Learning Diverse and Discriminative Representations via the Principle of Maximal Coding Rate Reduction

Arxiv

9+阅读 · 2020年6月15日

Learning to Walk via Deep Reinforcement Learning

Arxiv

7+阅读 · 2018年12月26日

Diff-DAC: Distributed Actor-Critic for Average Multitask Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年4月22日

Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments

Arxiv

6+阅读 · 2018年1月16日

微信扫码咨询专知VIP会员