Soft Actor-Critic (SAC) is considered the state-of-the-art algorithm in continuous action space settings. It uses the maximum entropy framework for efficiency and stability, and applies a heuristic temperature Lagrange term to tune the temperature $\alpha$, which determines how "soft" the policy should be. It is counter-intuitive that empirical evidence shows SAC does not perform well in discrete domains. In this paper we investigate the possible explanations for this phenomenon and propose Target Entropy Scheduled SAC (TES-SAC), an annealing method for the target entropy parameter applied on SAC. Target entropy is a constant in the temperature Lagrange term and represents the target policy entropy in discrete SAC. We compare our method on Atari 2600 games with different constant target entropy SAC, and analyze on how our scheduling affects SAC.


翻译: Soft Actor- Critic (SAC) 被认为是连续动作空间设置中最先进的算法。 它使用最大恒星框架来提高效率和稳定性, 并使用超温温度拉格朗术语来调节温度 $\ alpha$, 这决定了该政策应该如何“ 软 ” 。 反直觉的是, 经验证据表明 SAC 在离散域中表现不佳。 本文中我们调查了这一现象的可能解释, 并提出了目标 Entropy 附表 SAC (TES- SAC), 这是在 SAC 上应用的目标 酶参数的一种反射法 。 目标 恒星在温度拉格朗术语中是恒定的, 并且代表离散 SAC 中的目标政策 。 我们比较了 Atari 2600 游戏的方法与不同的恒定目标 entropy SAC, 并分析我们的时间表是如何影响 SAC 的 。

0
下载
关闭预览

相关内容

SAC:Selected Areas in Cryptography。 Explanation:密码术的选择区。 Publisher:Springer。 SIT:http://dblp.uni-trier.de/db/conf/sacrypt/
【2022新书】强化学习工业应用,408页pdf
专知会员服务
229+阅读 · 2022年2月3日
【KDD2021】图神经网络,NUS- Xavier Bresson教授
专知会员服务
64+阅读 · 2021年8月20日
专知会员服务
51+阅读 · 2020年12月14日
专知会员服务
30+阅读 · 2020年12月14日
【DeepMind】强化学习教程,83页ppt
专知会员服务
154+阅读 · 2020年8月7日
深度强化学习策略梯度教程,53页ppt
专知会员服务
182+阅读 · 2020年2月1日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
VIP会员
相关VIP内容
相关资讯
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
逆强化学习-学习人先验的动机
CreateAMind
16+阅读 · 2019年1月18日
meta learning 17年:MAML SNAIL
CreateAMind
11+阅读 · 2019年1月2日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Imitation - Reinforcement Learning
CreateAMind
19+阅读 · 2018年5月25日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
强化学习族谱
CreateAMind
26+阅读 · 2017年8月2日
强化学习 cartpole_a3c
CreateAMind
9+阅读 · 2017年7月21日
Top
微信扫码咨询专知VIP会员